作者nh2 (nh)
看板R_Language
标题[问题] 跑文字mining的错误讯息
时间Sun May 31 12:16:44 2015
[问题类型]:
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
[软体熟悉度]:
请把以下不需要的部份删除
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
请简略描述你所要做的事情,或是这个程式的目的
[环境叙述]:
mac Rstudio, R3.2
corp = Corpus(DirSource("./text/combine/"))
head(corp)
corp = tm_map(corp, stripWhitespace)
corp = tm_map(corp, removePunctuation)
corp = tm_map(corp, removeNumbers)
corp = tm_map(corp, function(word){
gsub("[A-Za-z0-9]","",word)})
corp = tm_map(corp, PlainTextDocument)
corp = tm_map(corp, removeWords,stopwords("english"))
# 中文 stop words
stopss = stopwordsCN()
corp = tm_map(corp,removeWords, stopss)
# 中文断词
corp2 = tm_map(corp, content_transformer(segmentCN))
corp2 = tm_map(corp, content_transformer(segmentCN), returnType = 'tm')
corp2 <- tm_map(corp, content_transformer(segmentCN), nature = TRUE)
corp2 <- tm_map(corp, function(sentence) {
noun <- lapply(sentence, function(w) {
w[names(w) == "n"]
})
unlist(noun)
})
corp3 = Corpus(VectorSource(corp2))
跑到最後一行就出现错误讯息写:
Error in UseMethod("meta", x) :
没有适用的方法可将 'meta' 套用到 "character" 类别的物件
本来有想过是资料夹里文件编码的问题
但是文件有中有英文,中文小弟用程式转成UTF8 ~~
另一个问题是不知道各位面对很多big5码,有什麽方式比较快转成utf8的?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 120.97.23.81
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1433045808.A.9FB.html
1F:→ celestialgod: (非R方法)用sublime text打开,有安装convertToUTF8 05/31 12:33
2F:→ celestialgod: 的套件会自动转换,只要按全部存档,全部关闭..... 05/31 12:33
3F:→ celestialgod: 最後一行的错误讯息就是你的input class不是他可以 05/31 12:34
4F:→ celestialgod: 使用的.... 05/31 12:34
5F:推 k75715: 试试iconv? 05/31 13:19