作者areyo (没有名字的怪物)
看板Python
标题Fw: [问题] 求救解析HTML
时间Fri Aug 17 20:50:43 2012
※ [本文转录自 RegExp 看板 #1GBZkj3E ]
作者: areyo (没有名字的怪物) 看板: RegExp
标题: [问题] 求救解析HTML
时间: Fri Aug 17 20:40:09 2012
大家晚安
小弟使用的是python 2.6的正规
现在在练习解析一个网页中某段资料如下
<h2>Department</h2>
<ul id="ref_3224438011">
<li style="margin-left: -18px"><a href="
http://www.amazon.com/s?ie=UTF8&page=1&rh=n%3A172282">‹ <span class="expand">Electronics</span></a></li>
<li style="margin-left: -10px"><a href="
http://www.amazon.com/s?ie=UTF8&page=1&rh=n%3A281407">‹ <span class="expand">Accessories & Supplies</span></a></li>
<li style="margin-left: -2px"><a href="
http://www.amazon.com/s?ie=UTF8&page=1&rh=n%3A172532">‹ <span class="expand">Audio & Video Accessories</span></a></li>
<li style="margin-left: 24px"><strong>3D Glasses</strong></li>
</ul>
我想从一个完整的html中抓出这一段
我试着用线上正规检查去试,只有土法链钢出这段REG
<h2>.+\n.+\n.+\n.+\n.+\n.+\n<\/ul>
发现中间都是用.+\n不断重覆,但是却不知道有几层,有人可指点迷津吗?
感恩
--
懒惰与懦弱使愚笨成自然
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 114.40.188.253
※ 发信站: 批踢踢实业坊(ptt.cc)
※ 转录者: areyo (59.127.191.91), 时间: 08/17/2012 20:50:43
1F:推 justlink:\S \s 试过没有? 08/17 22:53
2F:→ darkgerm:HTML 不要用正规 prase... 用 lxml 之类的 08/17 23:01
3F:→ qwertmn:单纯化简你的re <h2>(.+\n)+<\/ul> 08/18 01:55
5F:→ bob123:or) 2. lxml.html , xpath 08/18 02:46
6F:→ AndCycle:Beautiful Soup 08/18 03:18