作者qazwsxedccs (啧啧)
看板Python
标题[问题] 用re抓网页原始档的资料
时间Fri Dec 2 00:57:54 2011
下面这些是网站部分的原始玛
<hr>
</pre><b>5 definitions found
</b><pre>
</pre><b>From <a
href="
http://www.aa.com"> title </a>:
</b><pre>
我是要撷取的data
</pre><b>From <a
href="
http://www.aa.com"> title2 </a>:
</b><pre>
我觉得可能是要用regular expression里面的function
把他撷取出来
但我只有用到
re.split('\s(.*)\s<pre>', 上面那些str)
这东西出来会是好几段 而且有我不想要的资讯
请问各位大大 有没有更好的撷取的方法 ?
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 118.160.111.225
1F:→ suzuke:BeautifulSoup 12/02 01:10
2F:→ qazwsxedccs:可是BeautifulSoup好像没有支援python 3.2 Q_Q 12/02 01:52
3F:→ suzuke:好像是~ 12/02 02:27
4F:推 danqing:re.search() 12/02 07:24
5F:推 NolandTA:pyquery 12/02 09:29
6F:→ NolandTA:有支援3.2 以jquery的方式撷取资料 12/02 09:29
7F:→ bob123:re.findall() 12/03 00:06
8F:推 alex0914:lxml+xpath 12/04 01:37