作者qheroq (Enjoy My Life)
看板Python
标题[问题] 抓网页的问题
时间Tue Apr 13 17:40:54 2010
最近才开始接触Python,希望拿来抓网页的资讯
但是一直碰到瓶颈...希望板上常抓网页的高手能指点一下!
尝试丢一些关键字到这个网站(书目资料库)去抓结果回来:
http://dblp.mpi-inf.mpg.de/dblp-mirror/index.php
但是在使用urllib.urlopen後
在查看抓回来的html里头却找不到萤幕上显示的搜寻结果字串(要抓的目标物)
後来我再那个页面点右键,观看原始档也找不到
但是! 若是直接另存新档(完整网页)抓回电脑来看 ,就可以找到我要的字串了
例如这个结果页面
http://tinyurl.com/yba8p3l
那一笔书目纪录的字串我完全无法在网页原始码里头看到
一定要抓回电脑(而且要选完整网页)才能在<!== Hits ==>後面找到
所以在这种情形下,请问我该如何用python去抓那些搜寻结果的字串
因为单纯用urllib都只是抓到没有搜寻结果的原始档回来而已
连想用正规表示法都不行...
--
以上,希望能帮我解答一下
谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.112.180.213
1F:→ Dannvix:搜寻是用 AJAX,所以必须研究他的 JS 去找看看哪里捞资料 04/13 18:28
3F:→ qheroq:谢谢两位 我马上研究一下^^ 04/14 07:29