作者tylerfirst (......)
看板Python
标题[问题] Python网路爬虫
时间Fri Nov 5 18:36:24 2010
是这样的,小弟想利用Python弄一个能够爬网页的程式
要求的功能不多,只要能够
1.顺着网页的连结爬下去
2.纪录爬过的连结
3.能够设定爬几层
上网用spider,crawler当关键字找了几个程式,但好像都因为版本过旧所以不合用
我目前用的Python版本是2.6.6
不知道是否有适合的程式或函式库可用?
可以的话麻烦提供一下关键字 感谢!<(_ _)>
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.127.208.228
1F:推 asoedarren:scrapy 11/05 20:24
2F:→ tylerfirst:感谢回答<(_ _)> 去找看看... 11/06 00:04
3F:推 cobrasgo:这不就是砍站程式吗XD 11/06 01:28
4F:→ Dannvix:这3个需求... 现成的 wget 都可以满足XD 11/06 23:09
5F:→ pencilcheck:看看beautifulsoup 11/07 14:09