作者goooeooo (ge)
看板Soft_Job
标题[请益] 请问爬虫+资料统计怎麽发展比较好?
时间Mon Feb 5 02:18:04 2018
我一直有一个梦
就是希望能把我收集的各个网站上的公开资料
撷取下来 (是公开资料)
譬如有50个网站的公开资料 我希望写个程式 自动抓取这50个网站的特定公开资料
然後我想在写一个程式 将这些撷取下来的资料进行我想要的统计计算
请问各位大哥大姐 如果想达到这样子的能力 我应该要怎麽发展比较好呢?
我目前就只会工厂的ERP系统 如果想有以上叙述的能力 请问该如何发展呢?
感谢感谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.133.173.252
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1517768288.A.9AC.html
※ 编辑: goooeooo (220.133.173.252), 02/05/2018 02:19:27
1F:→ softseaweed: 这入门python就干的到了吧 02/05 05:11
2F:推 drajan: 开始进行 做中学 最慢半年就可以了 02/05 07:14
3F:→ MOONY135: 我大概一周就可以爬PTT了...觉得两个月就可以写完五十 02/05 08:53
4F:→ MOONY135: 个网站 02/05 08:53
5F:推 s8888: html, css基础知识 + 任一语言 +爬文套件(soup系列) ,有 02/05 09:12
6F:→ s8888: 些防护较好的网站可能会需要动态ip 02/05 09:12
7F:推 kenshin528: 越多网站练的不是爬虫,是自动化跟错误侦测机制 02/05 09:19
8F:→ kenshin528: 而且 ptt 超好爬的,很多网站结构更乱... 02/05 09:20
9F:推 cphe: 推楼上,而且ptt其实算最简单的了 02/05 10:26
10F:→ menshuei: 我觉得爬到最後练的是耐心跟规则的撰写而已。 02/05 11:14
11F:推 rayway30419: 这次铁人赛Howard的爬虫系列可以参考一下 02/05 11:36
13F:推 TAKADO: 爬资料容易说故事难,要变成产品卖出去更难。只能多实作练 02/05 13:18
14F:→ TAKADO: 习&充实domain knowledge,然後认真修统计分析才能把故事 02/05 13:18
15F:→ TAKADO: 说得飞天钻地。 02/05 13:18
16F:推 femlro: 温馨的推文 02/05 15:16
17F:推 luli0034: 跟我大学专题87%像 02/05 15:25
18F:推 olen0622: 这资策会出来的就会了没很难 python套件一堆 02/05 17:19
19F:→ rodion: 一堆说没很难的 Google的search engine就是靠强大的爬虫 02/06 10:58
20F:→ rodion: 为根基的 我以为爬虫是易学难精 说没很难只是没碰到过难爬 02/06 10:59
21F:→ rodion: 的网站 02/06 10:59
22F:推 THEWORLDS: 爬特定网站本来就不难 02/06 22:35
先感谢大家的推文
请问 市场爬虫的工作需求多吗 以及会用我这不到一年资历无爬虫经验的新人吗?
我当初无经验时 有找过 但没有公司愿意面试 但我只找了半个月 就去erp的公司上班了
※ 编辑: goooeooo (220.133.173.252), 02/07/2018 02:08:47
23F:推 ovoqq: 之前有做过 图书馆爬虫书有教 02/07 16:55
24F:→ ACMANIAC: 如果你要实作一个 Goolge search engine 的确满难的 02/09 10:40
25F:推 rpdef9969: 把你的目标具体後,简化一点,分阶段完成。 你可以现 02/11 12:18
26F:→ rpdef9969: 在安装好python,爬个一周天气下来;分阶段达成你想要 02/11 12:18
27F:→ rpdef9969: 的目标。 02/11 12:18
28F:→ rpdef9969: 都会ptt了,你可以在网路上找个python爬虫课。 02/11 12:24