作者rock1985 (疾风)
看板Python
标题[问题] 用python抓网页资料(抓link)
时间Sun Feb 6 13:02:46 2011
小弟我刚开始学python
想用python去抓网页资料,等抓到某个网页之後
再看里面有没有其他的连结,继续去抓
我爬了一下文跟找一些资料
import urllib
sock = urllib.urlopen("
http://www.google.com/")
htmlSource = sock.read()
sock.close()
print (htmlSource)
我现在卡在一个问题
我的程式执行的时候会说
Traceback (most recent call last):
File "D:\workspace\HW1\src\main.py", line 2, in <module>
sock = urllib.urlopen("
http://diveintopython.org/")
AttributeError: 'module' object has no attribute 'urlopen'
我是用Eclipse开专案写
2.7和3.0的Grammar version都试过
不过都不行
但是我查了一下 两个版本都有支援 urllib
大概是我哪里出了问题呢?
顺便请问一下
有比较好用的HTML的parser吗
可以用来抓网页资料或是分析
新手上路 请大家多多指教
谢谢大家
--
我不是宅 我只是比较居家
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 108.6.70.125
1F:→ rock1985:htmllin好像之支援到2.4? 02/06 13:04
2F:推 ya790206:Deprecated since version 2.6: The urlopen() function 02/06 14:53
3F:→ ya790206:has been removed in Python 3.0 in favor of 02/06 14:54
4F:→ ya790206: urllib2.urlopen(). 02/06 14:54
5F:→ ya790206:html parser 试试看 HTMLParser 02/06 15:08
6F:推 bobhsiao:BeautifulSoup 02/06 17:23
7F:→ yjc1:lxml 02/06 17:52