作者nina8598 (Nina)
看板R_Language
标题[问题] 移除WordNet以外的字
时间Wed Dec 13 22:43:20 2017
[问题类型]:
我想用R 做某件事情,但是我不知道要怎麽用R 写出来
[软体熟悉度]:
新手
[问题叙述]:
小妹最近在做资料清理
但资料来源是社群网站的留言,所以有很多不同的语言和没有意义的词
我已经把非英文的字删掉了,如下方程式码 (files是指多个txt档)
for (i in 1:length(files)) {
files[[i]] <- gsub('[^ -~]', '', files[[i]]) # remove non-English
}
wordcorpus <- Corpus(VectorSource(files)) #形成我的语料库
但还是有词是由英文字母组成的其他国家文字留着(例如德文Spielzeug、波兰文Zabawki
…),或是留言者打错字等无法意会的词留着
因此我想用R的package “wordnet”
让我的资料内容对应WordNet字典里的词,
只要不是属於这字典里面的词就移除掉,
但我实在是不知道该怎麽做,想请问有高手可以解决吗?
另外想请问如果要用这个方法要先把词形还原吗?如果需要又该如何做呢?
剩下的一般移除停止词、数字、标点符号我都ok,
就剩这些问题需要解决,麻烦大家帮帮忙了谢谢~
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 180.204.10.15
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1513176203.A.4BD.html
1F:→ kial: 找个常用3000字或5000字做成索引,用grepl筛选出来? 12/14 20:05
2F:→ kial: 或是切完後算出现次数,对出现次数少的单字建索引筛掉? 12/14 20:08
3F:推 cywhale: 如果用hunspell package 把拼错有疑问的字全部找出来? 12/14 20:27