作者empireisme (empireisme)
看板R_Language
標題[問題] r做nlp發現新詞的套件
時間Mon May 4 23:41:08 2020
如題
我想問問看
如果想用r發現新詞,是否有相關的nlp套件或關鍵字(中文新詞為主)
我打find new word 或 discover new word好像都有點不太對
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.19.236 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1588606870.A.AC2.html
1F:→ allen1985: 什麼是發現新詞? 一個詞不在字典裡? 05/05 11:16
2F:→ allen1985: 還是NER model 05/05 11:18
3F:→ empireisme: 對就是一個新詞不在詞典裡,例如習大大之類的 05/05 12:31
4F:→ locka: 應該都可以自訂詞庫吧? 05/05 18:01
5F:→ empireisme: 自訂詞庫要依靠人力,想要利用統計方法發現新詞 05/05 18:57
6F:推 locka: 不確定目前有沒有套件可以做到你想做的,用統計方法自動產 05/05 21:00
7F:→ locka: 生新詞…因為中文不像英文用空格分格;每個中文字都各自有 05/05 21:00
8F:→ locka: 意思,連接起來可能又有新的意思,連接到多長停止也沒有規 05/05 21:00
9F:→ locka: 則…所以好像輸入進詞庫給模型訓練好像是比較常見的做法@@ 05/05 21:00
10F:→ locka: (跪求版上NLP專家) 05/05 21:00
11F:→ locka: 剛剛查了一下,一樓allen大大說的NER model好像就是用深度 05/05 21:09
12F:→ locka: 學習方法自動做斷詞,原po或許可以找找看有沒有用R做這個的 05/05 21:09
13F:→ locka: 套件(抱歉上面廢話太多QQ) 05/05 21:09
14F:→ xiangying: 有一個頗簡單的方式是用中研院的ckiptagger,有支援做n 05/06 15:12
15F:→ xiangying: er model,不過你要先將它用reticulate移植到R上,goog 05/06 15:12
16F:→ xiangying: le一下有人做好 05/06 15:12
17F:→ empireisme: 謝謝我來看一下什麼是reticulate 05/06 19:17