作者peace9527 (谢谢你9527)
看板Ajax
标题[问题] 用JS做网路爬虫是否可行?
时间Wed Feb 17 17:47:48 2016
本来一直都是用python在做网路爬虫
但因为公司有新需求
想要直接在网页上按按钮 就能抓下需要的资料
因此我想到了google 插件 可以满足这种UX
而google插件只能用JS写 所以我就重拾JS的怀抱
玩了一整天後
目前觉得JS应该可以做网路爬虫
只是不知道是否好做呢?
像Python有好用的BS4 selenium等等 做网路爬虫很方便很轻松
目前我只知道jquery的 querySelectorAll function
想知道还有没有其他更好用的网路爬虫function呢?
感谢各位大神的解答!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.232.189.161
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Ajax/M.1455702470.A.CAE.html
※ 编辑: peace9527 (36.232.189.161), 02/17/2016 17:48:00
1F:→ rarex: node.js有很多这种资源呀 可以往这方面去找找看 02/17 21:25
2F:推 rayway30419: nodejs + spider/crawler一大堆 02/18 00:46
3F:推 BigTounge: nide cheerio 02/19 02:26
4F:→ BigTounge: node打错 02/19 02:27
5F:→ Peruheru: 原PO想问的是前端JS吧?不然後端爬虫用什麽语言哪有差 02/19 13:20
6F:→ Peruheru: 网页端JS的话,跨网域的抓取有满多限制的 02/19 13:21
7F:推 shadowjohn: node-webkit也ok啊...也没跨域的问题ajax乱冲 02/21 23:46
8F:→ shadowjohn: iframe也可以乱穿~自加code :D 02/21 23:46
9F:推 honestyer: nodejs 满足你的需求 03/04 16:59
10F:→ nightspirit: 前端爬跨网域太麻烦, 後端爬可用phantom.js 03/06 19:10
11F:推 pleasewait: cheerio 棒棒 05/16 12:35
12F:推 hsuan0904: 可以看看 Tampermonkey 03/22 22:44