作者wawawa (哇哇哇○( ̄﹏ ̄)○)
看板RegExp
标题Re: [问题] 抓标签内容的问题
时间Wed Jun 11 03:39:32 2008
※ 引述《pinkisme ()》之铭言:
: ※ 引述《pinkisme ()》之铭言:
: 比如说
: <div>
: 1
: <div>
: <p>2
: </div>
: <div>
: <p>3
: </div>
: 4
: </div>
: 有把推文的pattern更改去试
: 不过还是抓不出来orz
你这问题其实我个人是觉得用 RE 有点苦干
如果巢状架构都一样那还好,但要是中间还会有不固定的标签
用 RE 有点苦 :p
建议是使用专门分析 html tag 的模组去跑,比如若你用 python
那就可以使用 Beautiful Soup [1] 之类的去分析,效果会好很多
其他程式语言也有类似的东西可以使用,找找看就会有...
[1]
http://www.crummy.com/software/BeautifulSoup/
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.104.141.2