作者adwx1973 (adwx1973)
看板Python
标题[闲聊] 想跟 Web Scraping 高手请益自动化技术~
时间Fri Sep 21 11:31:35 2018
As title,
之前网路上看了些 Python 爬虫基本教学,
正试着从证交所爬虫建立 财报/股价 资料库。
但没多久就发现几个问题:
1. 每天爬取公司股价,经常性断线,
加上 Header; time.sleep(); 之类的都用上了,
想请益更有效率,稳定自动断点续传的技术。
2. 财报 PDF 想要自动化下载,
因为隐藏网址似乎是 jsoncallback 产生的,
并且网址当中一部分是随机数 or 现在时刻(时分秒),
这方面没办法突破。
也有试过 selenium + firefox webdriver,
不过也是卡在多个页面切换的操作无法 Loop。
想请益版上这方面的高手,这些部分怎麽用 code 实现,
如果人在高雄有时间也可以约出来,我可以请你吃饭~
非常感谢!!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.236.32.144
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1537500697.A.DE8.html
1F:推 f496328mm: crontab 排程自动化 09/21 12:58
2F:推 supisces: 反爬虫? 09/21 15:54
3F:推 areyo: 推同在高雄 09/23 23:28
4F:推 totte: 1证交所股价下载还蛮稳的丫 我几乎没出过问题 你是下载json 09/25 04:56
5F:→ totte: ? 09/25 04:56
6F:→ totte: 2财报为何要下载pdf? 印象中有csv之类的原始资料可下 也史 09/25 04:57
7F:→ totte: 容易分析 09/25 04:57
9F:→ adwx1973: 是在个股日成交资讯那边抓,持续一段时间後会断 09/25 11:00
10F:→ adwx1973: 公开资讯观测站有IFRS的财报XBRL,可是有些会计科目的细 09/25 11:03
11F:→ adwx1973: 项不在那里面,必须要去原始的PDF档里面找 09/25 11:04