作者Tampa (光芒)
看板R_Language
標題[問題] 自訂網頁關鍵字
時間Mon Jul 4 23:17:10 2016
程度:自學一個月左右
問題:如何自訂搜尋網頁關鍵字
已安裝套件 tmcn 與 RCurl
#讀取網頁
y<-url.exists("
https://zh.wikipedia.org/wiki/%E5%85%B3%E7%BE%BD")
想自訂關鍵字 關羽,關帝聖君(有關於關羽的別稱都搜尋出來)
匯出每種名稱的種類以及頻率
如關羽:10次
關公:5次
等等
請問大大們 是要設定甚麼函數啊??
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.225.189.123
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1467645432.A.012.html
※ 編輯: Tampa (36.225.189.123), 07/04/2016 23:19:42
1F:→ celestialgod: stringr的str_extract_all應該可以 07/04 23:28
3F:→ celestialgod: 這裡要有regexp的知識比較好做 07/04 23:32
4F:→ Tampa: C 大 我已經把網頁宣告為y 他有辦法直接讀取y全部並搜尋嗎 07/05 00:20
5F:→ andrew43: 你可能問得太快了。爬一下文了解怎麼把全文轉字串, 07/05 04:09
6F:→ andrew43: 再對串字進行處理。 07/05 04:09
7F:→ andrew43: 在板上按 s 找找 "網頁" 這個關鍵字 07/05 04:11
8F:→ psinqoo: codeJob 不是以徵得嗎??? Orz 07/05 08:19
9F:→ psinqoo: 還有 不要隨便刪除文~~~ @@ 07/05 08:20
10F:→ Tampa: P大,徵得算是找到人可諮詢 主要還是想靠自己 07/05 08:41
11F:→ psinqoo: #1KizQPJ 07/05 12:10
12F:→ Tampa: 抱歉 不知道 規則所以刪掉了 07/05 15:09
13F:→ celestialgod: httr的GET 加上 content 07/05 19:17
14F:→ celestialgod: 就可以拿到網頁的文字了,要去掉html標籤的話 07/05 19:18
15F:→ celestialgod: 用httr的GET + content + xml2的xml_text 07/05 19:18
16F:→ celestialgod: 看一下前面我回的幾篇parsing網頁的文章吧 07/05 19:18