Re: [问题] 爬虫自动更新程式

时间Thu Sep 20 10:53:52 2018

※ 引述《WENroger (666)》之铭言： : 标题: [问题] 爬虫自动更新程式 : 时间: Wed Sep 19 16:36:26 2018 : : 手机排版请见谅!!!! : 是这样的如题 : : 小弟最近想写一个爬虫自动更新程式 : 程式有以下目的 : : 例如： : 我今天爬观光局网站 : 将全部景点资讯爬下 : 过了一个月後观光局多了10个新的景点 : 我可以透过这个程式让爬虫自动执行 : 并把这10个新的景点爬下来 : : 请问这个程式是我需要另外再写一个 : 还是我可以在python做出一样目的？ : 另外就是我该从哪一方面的资讯去起手？ : : 谢谢 : : -- : → WENroger: 不知道怎麽让爬虫做到自动更新，像是网路上提到scrapy可 09/19 22:37 : → WENroger: 不可以做到这个目的？另外就是先前资料都是汇入excel做 09/19 22:37 : → WENroger: 整理再汇入资料库，这样子的步骤会不会影响爬虫的自动 09/19 22:37 : → WENroger: 更新？ 09/19 22:37 你需要的是先学会找资料的方式，以工程师的思维来说是要将问题拆解，一步步地去解决各个部分。我不知道你的搜寻方式会是什麽，可是这对於写程式来说，思维方式影响十分大，你都知道自己的问题是要自动更新，然後还想知道 scrapy 这个框架能不能完成，不是应该查找的关键字可以使用 "scrapy timer" "scrapy schedule" "scrapy routine" 光这些下去就找到一堆了，如果你说英文看不懂，很抱歉我在这样的关键字至少就找到了像下面这样的中文讨论区： https://segmentfault.com/q/1010000008578604 https://blog.csdn.net/vivian_ll/article/details/65442105 甚至撇除你对 Python 或 scrapy 不熟，只是一个可以单次去爬的执行档，不论是 Windows/Unix/Linux 也可以做执行档排程工作吧？另外你提到的汇入 excel做整理再汇入资料库，解决办法也很多。你完全可以舍弃这种方式，直接将爬取完的结果以适当的资料结构储存，利用 pandas 处理完之後，直接存取入资料库。又或是使用 Python 直接对 excel档案进行存取，把汇入 excel做整理这件事情全都自动化，也是可行的方式。至於怎麽处理？怎麽汇入资料库？善用你的搜寻引擎好吗？ -- 题外话，其实我不太懂你要用 Python 做这件事情的原因，因为照你的说法，我去看了一下观光局网站，你直接用 Excel 写 vba 都能完成需求，而且照你的问法你对 Python 也不熟的样子… 爬虫不是只有 Python 可以写，当然他提供的框架让你爬起来很方便，开发起来速度也快。但你看起来似乎也不是很熟悉，我建议你先把问题拆解，一个个功能慢慢再去添加： 1. 把网页爬下来，并整理成具有规则规范的格式在这个过程你就会遇到是不是要添加 header 档案，爬下的结果要怎麽适当地进行字串处理，可能要用到 xpath 去进行定位或是 Regular Expression 做字串处理。 2. 将爬下来的结果输出储存如果要储存成 .xlsx档要怎麽处理？是不是真的有需要存成这种格式？还是单纯的 .csv 也可以完成目标？如果要汇入资料库，是不是 python 可以实现？ 3. 定期爬取新资料跟旧资料的冲突处理？时间间隔？网站是否有防止爬取的机制？我的 buffer time 是不是要调整 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 148.177.185.133 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1537412036.A.1D0.html

1^F：推 gmccntzx1: @WENroger 看到这篇应该可以更了解为什麽把问题叙述 09/20 14:21

2^F：→ gmccntzx1: 清楚才能更快寻求到帮助了吧？ 09/20 14:21

3^F：推 a9301040: 推 09/20 19:46

4^F：推 WENroger: 感谢H大的补充！ 09/21 11:20

5^F：推 smartree: 感谢思考的分享 09/22 02:52

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

Re: [问题] 爬虫自动更新程式

热门看板

赞助商连结