作者shihs (shih)
看板R_Language
标题[问题] text mining的inspect()
时间Wed Jul 1 16:36:44 2015
大家好,
我想要用R做文字探勘,
但我才刚开始就卡关了...
mycorpus = Corpus(DirSource("test", encoding="UTF-8"), readerControl =
list(reader=readPlain, language = NA))
我先用了Corpus建立语料库,再用DirSource读进资料库的纯文字档
然後我想要看我在语料库的内容,所以我用了inspect(mycorpus)
但是,不知道为什麽只会显示
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 3
[[1]]
<<PlainTextDocument>>
Metadata: 7
Content: chars: 718
Content: chars: 703
Content: chars: 820
Content: chars: 85
Content: chars: 984
Content: chars: 785
Content: chars: 449
Content: chars: 0
...
完全没有显示我txt档的内容,但我google了很久,还是无解...
还有,我用了insertWords()想要增加词汇,
但有些词好像会被切断,是因为繁体字的关系吗?
谢谢各位!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 61.218.5.190
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1435739807.A.1EB.html
1F:→ shihs: 我知道insertWords()的解决方式了 07/01 17:02
2F:→ shihs: insertWords(toTrad(iconv(c("词汇1","词汇2"), 07/01 17:03
3F:→ shihs: "big5", "UTF-8"), rev=TRUE)) 07/01 17:04