作者boboye (肝爹)
看板Python
标题[问题] 爬虫请益
时间Thu May 14 23:44:46 2020
各位好:
想请教我在爬台大医院网页
我想从依医事人员姓名挂号页面中的挂号连结在爬到网路预约挂号的页面
图一是我已经爬完得到的结果
终极目标希望可以完成辨识直接挂号
因为要图像辨识这部分我还不会
想请问:
是否可以从图二的结果爬完的结果
(我的作法是直接用request硬解,如图五)
得知图三的挂号连结
目前看到的资讯:
我想图三的地方需要用到图二的cookie应该还有医生姓名诊别资讯
但这部分我猜需要用到回传的那些ID但不知道要怎麽兜
刚初学对这类动态的产生的网页不太会看,又不知道是不是要用webdriver
而selenium又是我不太熟的部分orz..再请各位指导,感谢
https://imgur.com/a/2sgGp0e
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.167.131.117 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1589471088.A.B79.html
1F:→ k010506k: 你好像只有一张图耶 05/15 01:46
2F:推 chia0712: Selenium 会不会比较合用?到时候挂号送出一个超长form 05/15 01:57
3F:→ chia0712: data,request就爆了 05/15 01:57
4F:推 TakiDog: 我觉得Selenium是不太优的爬虫解法,对没有复杂js或复杂 05/15 04:11
5F:→ TakiDog: 的反爬,requests很万用 05/15 04:11
6F:→ TakiDog: 先确定好需要request哪些资料,哪些资料又是由哪个网页 05/15 04:15
7F:→ TakiDog: 产生的 05/15 04:15
8F:→ boboye: 我把一些截图全部放同一张,有间隔分开,由上到下有五张 05/15 07:53
9F:→ boboye: 手机看有点小,下次还是分开贴,不好意思 05/15 07:55
10F:推 TakiDog: 你用session 你的cookie就会往下带了 05/15 07:56
11F:→ TakiDog: 我可能看不懂你的问题,你在图二找到带有你图三的资料的 05/15 08:00
12F:→ TakiDog: 封包,丢过去後看要不要parse 05/15 08:00
13F:→ boboye: t 大你好,我的问题简单说如何从图二挂号连结再转到图三, 05/15 08:11
14F:→ boboye: 谢谢 05/15 08:11
15F:→ TakiDog: 你只是需要同一份cookie ,可以看看requests session 05/15 08:14
16F:→ boboye: 好的,我再来试试,谢谢 05/15 08:16
17F:推 vi000246: 我也不喜欢selenium 都用request硬解 05/15 18:23