[问题] 读取网页遭遇404 not found

时间Wed Sep 5 19:16:45 2012

请问关於一个抓取网页的情况，不知道该如何解决，我想抓证交所上面的股票资料，所以批次去抓，过程中会遭遇某些网页在抓取的时候出现404 not found的情况，我有把他的连结print出来看是正确的，但是抓取网页时有反应404讯息的部份，直接点选连结透过浏览器打开也会失败而找不到网页。举个例子来讲: "假设"下面这个网页本来是打不开的(即程式抓取时反应404情况的网页): http://www.twse.com.tw/ch/trading/exchange/STOCK_DAY_AVG/ genpage/Report201208/201208_F3_1_8_5203.php?STK_NO=5203&myear=2012&mmon=02 此时只要透过浏览器回到选取股票的页面: http://www.twse.com.tw/ch/trading/exchange/STOCK_DAY_AVG/STOCK_DAY_AVGMAIN.php 再输入对应的代码5203 会得到跟上面例子一样的连结然後"成功"开启网页，经过这次的成功开启网页之後，程式跑到原本会遭遇404 error的情况，就不会再出现error, 但是因为我可能遭遇到300个左右的404 error,不太可能一个一个去开，不知道是否有针对这个case的处理方式呢? 片段code如下: site=http://www.twse.com.tw/ch/trading/exchange/STOCK_DAY_AVG/genpage/ Report201208/201208_F3_1_8_5203.php?STK_NO=5203&myear=2012&mmon=02 httplib.HTTPConnection.debuglevel = 1 opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] content = opener.open(site).read() #这边会遭遇404 error 我後来用twisted的方式去读也是一样的情况，一定要自己从输入代码的地方打开过连结一次之後，程式才会正确运作。还请大家赐教谢谢 --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 220.134.15.126

1^F：推 cobrasgo:老实说我看不太懂 09/05 21:05

2^F：→ cobrasgo:另外你要抓个股资料的话，可以找有API的券商开户 09/05 21:06

3^F：→ cobrasgo:用API又快又稳，也短期存取某些网站超过次数就会被block 09/05 21:06

4^F：→ cobrasgo: 不会像 09/05 21:07

※ 编辑: xlp 来自: 220.134.15.126 (09/05 21:07)

5^F：→ xlp:主要问题就是网页如果没有事先读过透过urllib抓取都会404 09/05 21:09

6^F：→ xlp:还是谢谢回应感谢 09/05 21:09

7^F：推 cobrasgo:我也是有让它每天都去证交期交所抓，不过没这问题耶 09/05 21:39

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

[问题] 读取网页遭遇404 not found

热门看板

赞助商连结