Python 板


LINE

※ 引述《WENroger (666)》之铭言: : 标题: [问题] 爬虫自动更新程式 : 时间: Wed Sep 19 16:36:26 2018 : : 手机排版请见谅!!!! : 是这样的如题 : : 小弟最近想写一个爬虫自动更新程式 : 程式有以下目的 : : 例如: : 我今天爬观光局网站 : 将全部景点资讯爬下 : 过了一个月後观光局多了10个新的景点 : 我可以透过这个程式让爬虫自动执行 : 并把这10个新的景点爬下来 : : 请问这个程式是我需要另外再写一个 : 还是我可以在python做出一样目的? : 另外就是我该从哪一方面的资讯去起手? : : 谢谢 : : -- : → WENroger: 不知道怎麽让爬虫做到自动更新,像是网路上提到scrapy可 09/19 22:37 : → WENroger: 不可以做到这个目的?另外就是先前资料都是汇入excel做 09/19 22:37 : → WENroger: 整理再汇入资料库,这样子的步骤会不会影响爬虫的自动 09/19 22:37 : → WENroger: 更新? 09/19 22:37 你需要的是先学会找资料的方式,以工程师的思维来说是要将问题拆解 ,一步步地去解决各个部分。我不知道你的搜寻方式会是什麽,可是这 对於写程式来说,思维方式影响十分大,你都知道自己的问题是要自动 更新,然後还想知道 scrapy 这个框架能不能完成,不是应该查找的关 键字可以使用 "scrapy timer" "scrapy schedule" "scrapy routine" 光这些下去就找到一堆了,如果你说英文看不懂,很抱歉我在这样的关 键字至少就找到了像下面这样的中文讨论区: https://segmentfault.com/q/1010000008578604 https://blog.csdn.net/vivian_ll/article/details/65442105 甚至撇除你对 Python 或 scrapy 不熟,只是一个可以单次去爬的执行 档,不论是 Windows/Unix/Linux 也可以做执行档排程工作吧? 另外你提到的汇入 excel做整理再汇入资料库,解决办法也很多。你完 全可以舍弃这种方式,直接将爬取完的结果以适当的资料结构储存,利 用 pandas 处理完之後,直接存取入资料库。又或是使用 Python 直接 对 excel档案进行存取,把汇入 excel做整理这件事情全都自动化,也 是可行的方式。 至於怎麽处理?怎麽汇入资料库?善用你的搜寻引擎好吗? -- 题外话,其实我不太懂你要用 Python 做这件事情的原因,因为照你的 说法,我去看了一下观光局网站,你直接用 Excel 写 vba 都能完成需 求,而且照你的问法你对 Python 也不熟的样子… 爬虫不是只有 Python 可以写,当然他提供的框架让你爬起来很方便, 开发起来速度也快。但你看起来似乎也不是很熟悉,我建议你先把问题 拆解,一个个功能慢慢再去添加: 1. 把网页爬下来,并整理成具有规则规范的格式 在这个过程你就会遇到是不是要添加 header 档案, 爬下的结果要怎麽适当地进行字串处理,可能要用到 xpath 去进行定位或是 Regular Expression 做字串 处理。 2. 将爬下来的结果输出储存 如果要储存成 .xlsx档要怎麽处理?是不是真的有需 要存成这种格式?还是单纯的 .csv 也可以完成目标 ?如果要汇入资料库,是不是 python 可以实现? 3. 定期爬取 新资料跟旧资料的冲突处理?时间间隔?网站是否有 防止爬取的机制?我的 buffer time 是不是要调整 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 148.177.185.133
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1537412036.A.1D0.html
1F:推 gmccntzx1: @WENroger 看到这篇应该可以更了解为什麽把问题叙述 09/20 14:21
2F:→ gmccntzx1: 清楚才能更快寻求到帮助了吧? 09/20 14:21
3F:推 a9301040: 推 09/20 19:46
4F:推 WENroger: 感谢H大的补充! 09/21 11:20
5F:推 smartree: 感谢思考的分享 09/22 02:52







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP