作者ShawnHsia (new ID)
看板Python
标题[问题] 新手爬虫requests_selenium
时间Sun Apr 17 21:42:10 2022
大家好
我是完全没有任何程式资讯背景的老人家,纯网页自学,很多基本东西不懂
只想试着爬资料,还请鞭小力些~
以下状况描述
1
有成功爬取此网页资料
https://www.samr.gov.cn/zw/wjfb/index.html
程式码就抄抄改改网路教学
https://pastebin.com/wgppME9S
2
後来想爬下面这个网页,request就会出现412的error code
http://www.nhc.gov.cn/wjw/gfxwjj/list.shtml
想要学着用看看selenium但是一开始要打开网页就有问题
(用edge不太打的开,用chrome就可以,用selenium操控chrome又打不开)
程式码如下
https://pastebin.com/3mSJA6w1
3
试着使用chrome的外挂程式automa
https://www.automa.site/
则可以正确获取单页资料(标题+日期),然而不会设定回圈或自定网址来爬完85页的资料
想要请教状况2
我该往什麽方向学习或者请告诉我要看哪些资料
(
https://blog.csdn.net/bcfdsagbfcisbg/article/details/121741801)
有查过可能的原因(上面连结)但或许因为没有相关基础知识无法解决﹑也没有方向
,卡了很几天
还是有版友可以教我使用automa感觉也不错,是菜鸟新手的另一种解决方案
以上问题还请版友不吝指教~~先谢过了~~
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.184.2 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1650202940.A.8A3.html
1F:推 singleflying: 试了一下这篇,把headers加进去就可以了 04/20 17:29
3F:推 wang0424: 推一楼好心 04/20 20:11
4F:→ ShawnHsia: 谢谢楼上版友回覆,header中加入cookie我试过就是短暂 04/21 11:41
5F:→ ShawnHsia: 可以,一段时间後又变412,目前还无法自行完成解决方案 04/21 11:44
6F:推 atrisk: 试了用较简单的requests和beautifulsoup4组合似乎也可以。 05/09 17:33
7F:→ atrisk: selenium一般我都是没招时才会拿来用,例如对付javascript 05/09 17:34