作者Tampa (光芒)
看板R_Language
标题[问题] 自订网页关键字
时间Mon Jul 4 23:17:10 2016
程度:自学一个月左右
问题:如何自订搜寻网页关键字
已安装套件 tmcn 与 RCurl
#读取网页
y<-url.exists("
https://zh.wikipedia.org/wiki/%E5%85%B3%E7%BE%BD")
想自订关键字 关羽,关帝圣君(有关於关羽的别称都搜寻出来)
汇出每种名称的种类以及频率
如关羽:10次
关公:5次
等等
请问大大们 是要设定甚麽函数啊??
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.225.189.123
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1467645432.A.012.html
※ 编辑: Tampa (36.225.189.123), 07/04/2016 23:19:42
1F:→ celestialgod: stringr的str_extract_all应该可以 07/04 23:28
3F:→ celestialgod: 这里要有regexp的知识比较好做 07/04 23:32
4F:→ Tampa: C 大 我已经把网页宣告为y 他有办法直接读取y全部并搜寻吗 07/05 00:20
5F:→ andrew43: 你可能问得太快了。爬一下文了解怎麽把全文转字串, 07/05 04:09
6F:→ andrew43: 再对串字进行处理。 07/05 04:09
7F:→ andrew43: 在板上按 s 找找 "网页" 这个关键字 07/05 04:11
8F:→ psinqoo: codeJob 不是以徵得吗??? Orz 07/05 08:19
9F:→ psinqoo: 还有 不要随便删除文~~~ @@ 07/05 08:20
10F:→ Tampa: P大,徵得算是找到人可谘询 主要还是想靠自己 07/05 08:41
11F:→ psinqoo: #1KizQPJ 07/05 12:10
12F:→ Tampa: 抱歉 不知道 规则所以删掉了 07/05 15:09
13F:→ celestialgod: httr的GET 加上 content 07/05 19:17
14F:→ celestialgod: 就可以拿到网页的文字了,要去掉html标签的话 07/05 19:18
15F:→ celestialgod: 用httr的GET + content + xml2的xml_text 07/05 19:18
16F:→ celestialgod: 看一下前面我回的几篇parsing网页的文章吧 07/05 19:18