作者hazton (hazton)
看板Python
标题[问题] 抓资料被挡@@
时间Sat Sep 26 00:27:53 2009
之前写了个抓yahoo搜寻出来的东西的程式
今天心血来潮开出来看,发现才抓第一页就被挡了@@
以下是我的程式码:
# -*- coding: utf-8 -*-
import urllib
import re
query = u'123'
d_query = urllib.quote(query.encode('utf8')) #把query编码
top_result = 100 #抓前top_result个result
url='
http://tw.knowledge.yahoo.com/search/search_result?cp=1&p='+d_query+'&tab=3&n='+str(top_result)
data = urllib.urlopen(url).read()
print data
之前抓google的资料的时候
好像有听说可以在程式码写上什麽代理伺服器的名字就可以骗过去
或是不知道有无其他抓网页的指令可以不在抓第一页被档的呢?
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.116.142.78
※ 编辑: hazton 来自: 140.116.142.78 (09/26 00:28)
1F:推 StubbornLin:有些伺服器似乎不太喜欢python的urllib 09/26 00:38
2F:→ sbrhsieh:一般是检查 User-Agent, Referer 这两个 request header 09/26 00:38
3F:→ StubbornLin:例如像google搜寻 解决的方法很简单 09/26 00:38
4F:→ StubbornLin:把headers里的user-agent改掉就好了 09/26 00:39
5F:→ hazton:那像楼上说的User-Agent, Referer该怎麽改呢? 09/26 00:51