作者s4028600 (佑)
看板Python
标题[问题] 爬虫遇到一个不能用的网址
时间Wed Nov 13 10:01:30 2019
这两个网址都能在浏览器中观看
res=requests.get("
http://www.dm5.com/manhua-gaoda-turn-a/")
print(res.text)
这个网址能跑出我要的资料
但是
res=requests.get("
http://www.dm5.com/manhua-gaoda-origin/")
print(res.text)
这个却会出现访问页面不存在的问题
搞不懂问题出在哪里
试过用User-Agent来模拟浏览器
不过还是一样访问页面不存在
明明浏览器是正常的...
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.41.89.43 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1573610493.A.A03.html
1F:推 coeric: 因为它检查的不是User-Agent阿..... 11/13 10:45
2F:→ s4028600: 呃 那要怎麽办 我连他检查什麽都不知道 11/13 10:53
3F:→ hoho8: 试了一下,以为是cookies中的 「isAdult=1」在搞鬼 11/13 13:03
4F:→ hoho8: 结果不是,将headers试到剩下最後一句就能读了 11/13 13:04
5F:→ hoho8: 'Accept-Language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;....' 11/13 13:04
6F:→ hoho8: 为什麽是这句?!,真奇怪 @@ 11/13 13:05
7F:推 coeric: 楼上 XDDDDD 11/13 13:26
8F:→ vi000246: 真奇怪 明明一样的网页 一个正常 另一个不能读 11/13 13:31
9F:→ hoho8: 因为一个有18禁,可是keypoint却又不是cookie isAdult上 11/13 13:41
10F:→ s4028600: 什麽意思? 有谁解释一下吗? 11/13 14:00
11F:→ s4028600: 行了...但这句是什麽意思 为什麽会说为什麽是这句? 11/13 14:07
12F:→ s4028600: 原来是在f12里面的东西 所以是伪装不够彻底的原因 因为 11/13 16:15
13F:→ s4028600: 只听说伪装浏览器就好了... 11/13 16:15
14F:→ s860134: 该送啥就送啥 最好跟浏览器一致 11/13 19:44