作者s4028600 (佑)
看板Python
標題[問題] 爬蟲遇到一個不能用的網址
時間Wed Nov 13 10:01:30 2019
這兩個網址都能在瀏覽器中觀看
res=requests.get("
http://www.dm5.com/manhua-gaoda-turn-a/")
print(res.text)
這個網址能跑出我要的資料
但是
res=requests.get("
http://www.dm5.com/manhua-gaoda-origin/")
print(res.text)
這個卻會出現訪問頁面不存在的問題
搞不懂問題出在哪裡
試過用User-Agent來模擬瀏覽器
不過還是一樣訪問頁面不存在
明明瀏覽器是正常的...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.41.89.43 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1573610493.A.A03.html
1F:推 coeric: 因為它檢查的不是User-Agent阿..... 11/13 10:45
2F:→ s4028600: 呃 那要怎麽辦 我連他檢查什麼都不知道 11/13 10:53
3F:→ hoho8: 試了一下,以為是cookies中的 「isAdult=1」在搞鬼 11/13 13:03
4F:→ hoho8: 結果不是,將headers試到剩下最後一句就能讀了 11/13 13:04
5F:→ hoho8: 'Accept-Language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;....' 11/13 13:04
6F:→ hoho8: 為什麼是這句?!,真奇怪 @@ 11/13 13:05
7F:推 coeric: 樓上 XDDDDD 11/13 13:26
8F:→ vi000246: 真奇怪 明明一樣的網頁 一個正常 另一個不能讀 11/13 13:31
9F:→ hoho8: 因為一個有18禁,可是keypoint卻又不是cookie isAdult上 11/13 13:41
10F:→ s4028600: 什麼意思? 有誰解釋一下嗎? 11/13 14:00
11F:→ s4028600: 行了...但這句是什麼意思 為什麼會說為什麼是這句? 11/13 14:07
12F:→ s4028600: 原來是在f12裡面的東西 所以是偽裝不夠徹底的原因 因為 11/13 16:15
13F:→ s4028600: 只聽說偽裝瀏覽器就好了... 11/13 16:15
14F:→ s860134: 該送啥就送啥 最好跟瀏覽器一致 11/13 19:44