作者kilfu0701 (( ̄ー+ ̄)キラリ)
看板Python
标题Re: [问题] urllib2抓取需验证的网站
时间Thu Oct 13 16:59:35 2011
※ 引述《Jason1122 (Jason1122)》之铭言:
引言吃光~~
试试看这样的方式:
import urllib, urllib2, cookielib
data = {'log' : 'xxxxx',
'pwd' : 'yyyyy',
'redirect_to': '/test/ROMI/?page_id=11',
'testcookie': '1',
'wp-submit':'Log In'}
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
login_data = urllib.urlencode(data)
opener.open('
http://www.agileinsights.com/test/ROMI/wp-login.php', login_data)
resp = opener.open('
http://www.agileinsights.com/test/ROMI/?page_id=11')
print resp.read()
网页在登入完成後,没有给任何内容(Content-Length:0)
只有在header给location和cookie,
就带着这cookie,去你要的页面抓吧。
这样应该就会抓到你要的资料了 :)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 203.74.124.193
1F:推 Jason1122:太感谢你了!! 可以了 10/13 18:00
2F:→ Jason1122:有个疑问什麽时候要用到cookie呀? 10/13 18:01
3F:→ suzuke:一般需要登入通常都要用到cookie 10/13 18:40