作者Hsins (迅雷不及掩耳盗铃)
看板Python
标题Re: [问题] 爬虫自动更新程式
时间Thu Sep 20 10:53:52 2018
※ 引述《WENroger (666)》之铭言:
: 标题: [问题] 爬虫自动更新程式
: 时间: Wed Sep 19 16:36:26 2018
:
: 手机排版请见谅!!!!
: 是这样的如题
:
: 小弟最近想写一个爬虫自动更新程式
: 程式有以下目的
:
: 例如:
: 我今天爬观光局网站
: 将全部景点资讯爬下
: 过了一个月後观光局多了10个新的景点
: 我可以透过这个程式让爬虫自动执行
: 并把这10个新的景点爬下来
:
: 请问这个程式是我需要另外再写一个
: 还是我可以在python做出一样目的?
: 另外就是我该从哪一方面的资讯去起手?
:
: 谢谢
:
: --
: → WENroger: 不知道怎麽让爬虫做到自动更新,像是网路上提到scrapy可 09/19 22:37
: → WENroger: 不可以做到这个目的?另外就是先前资料都是汇入excel做 09/19 22:37
: → WENroger: 整理再汇入资料库,这样子的步骤会不会影响爬虫的自动 09/19 22:37
: → WENroger: 更新? 09/19 22:37
你需要的是先学会找资料的方式,以工程师的思维来说是要将问题拆解
,一步步地去解决各个部分。我不知道你的搜寻方式会是什麽,可是这
对於写程式来说,思维方式影响十分大,你都知道自己的问题是要自动
更新,然後还想知道 scrapy 这个框架能不能完成,不是应该查找的关
键字可以使用 "scrapy timer" "scrapy schedule" "scrapy routine"
光这些下去就找到一堆了,如果你说英文看不懂,很抱歉我在这样的关
键字至少就找到了像下面这样的中文讨论区:
https://segmentfault.com/q/1010000008578604
https://blog.csdn.net/vivian_ll/article/details/65442105
甚至撇除你对 Python 或 scrapy 不熟,只是一个可以单次去爬的执行
档,不论是 Windows/Unix/Linux 也可以做执行档排程工作吧?
另外你提到的汇入 excel做整理再汇入资料库,解决办法也很多。你完
全可以舍弃这种方式,直接将爬取完的结果以适当的资料结构储存,利
用 pandas 处理完之後,直接存取入资料库。又或是使用 Python 直接
对 excel档案进行存取,把汇入 excel做整理这件事情全都自动化,也
是可行的方式。
至於怎麽处理?怎麽汇入资料库?善用你的搜寻引擎好吗?
--
题外话,其实我不太懂你要用 Python 做这件事情的原因,因为照你的
说法,我去看了一下观光局网站,你直接用 Excel 写 vba 都能完成需
求,而且照你的问法你对 Python 也不熟的样子…
爬虫不是只有 Python 可以写,当然他提供的框架让你爬起来很方便,
开发起来速度也快。但你看起来似乎也不是很熟悉,我建议你先把问题
拆解,一个个功能慢慢再去添加:
1. 把网页爬下来,并整理成具有规则规范的格式
在这个过程你就会遇到是不是要添加 header 档案,
爬下的结果要怎麽适当地进行字串处理,可能要用到
xpath 去进行定位或是 Regular Expression 做字串
处理。
2. 将爬下来的结果输出储存
如果要储存成 .xlsx档要怎麽处理?是不是真的有需
要存成这种格式?还是单纯的 .csv 也可以完成目标
?如果要汇入资料库,是不是 python 可以实现?
3. 定期爬取
新资料跟旧资料的冲突处理?时间间隔?网站是否有
防止爬取的机制?我的 buffer time 是不是要调整
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 148.177.185.133
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1537412036.A.1D0.html
1F:推 gmccntzx1: @WENroger 看到这篇应该可以更了解为什麽把问题叙述 09/20 14:21
2F:→ gmccntzx1: 清楚才能更快寻求到帮助了吧? 09/20 14:21
3F:推 a9301040: 推 09/20 19:46
4F:推 WENroger: 感谢H大的补充! 09/21 11:20
5F:推 smartree: 感谢思考的分享 09/22 02:52