作者B01201026 (星空萤火虫)
看板Python
标题[闲聊] 爬虫背景执行就失败
时间Sat Mar 20 22:39:54 2021
前情提要:因为工作需要,要下载数千份文档,老板指示土法炼钢一个一个按,於是我发愤开始学python…
手动下载的步骤是:
1.key年份跟代号按搜寻
2.跳出另一 tab 为搜寻结果
3.点结果中的文件连结,跳出另一 tab 有下载链
4.点下载链接下载
於是乎,用requests 试写一段下载单一文件,成功。殊不知而,换了另一个文件就失败。原来是因为网页没开着。
於是找到 selenium ,用各种方法都定位不到搜寻结果画面中的连结位置。
最後的方法是用网址+selenium开搜寻结果画面,就找到连结位置了,然後再把连结丢到requests终於可以顺利下载,在这同时还用层层try except包裹住以及一堆sleep才顺利抓到档案。
昨晚临走前我假会加了一句
opts.add_argument('--headless')
然後今天去运动路过办公室就想说进去喵一眼
结果…抓到的档案都是坏的,原本大小不一的档案通通都11k,还损毁
◢▆▅▄▃ 崩╰(〒皿〒)╯溃 ▃▄▅▆◣
又要重跑了
注解掉昨晚临走前加的那一行就又好了…
我周末下完档案的梦想越来越不可能了
-----
Sent from JPTT on my Asus ASUS_X01BDA.
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 122.99.44.137 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1616251198.A.C0D.html
1F:推 NoneNaMey: 是抓甚麽方便私我看看吗XD Selenium抓很慢 03/29 19:27
2F:→ NoneNaMey: 就算是用headless也会吃很多资源 03/29 19:27