作者samex4x4 (拾陆)
看板R_Language
标题[问题] tm包中Corpus的空白清除
时间Sat Aug 27 19:42:05 2016
[问题类型]:
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
[软体熟悉度]:
新手(没写过程式,R 是我的第一次)
[问题叙述]:
我有30个用结巴断词後的txt档,想要使用tm包做文字探勘
问题在我没有办法让读进来的档案断开成一个一个乾净的词
都会变成以下情况
http://imgur.com/fsHDCJY.jpg
输入到tm包里的Corpus之後无法清除空白
尝试用过Rwordseg包里的segmentCN和strsplit都不行
[程式范例]:
http://ideone.com/imbirW
[环境叙述]:
R version 3.3.1 (2016-06-21)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)
[关键字]:
文字探勘 tm
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 60.245.65.177
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1472298129.A.85B.html
※ 编辑: samex4x4 (60.245.65.177), 08/27/2016 19:43:05
1F:推 cywhale: gsub("\\s", "", x) can replace space 08/27 20:44
c大我不是要让空白消失,而是要使用空白做分割
原始读进来的档案长这样
http://imgur.com/bEECSUA.jpg
※ 编辑: samex4x4 (36.224.2.140), 08/27/2016 22:16:35
2F:→ cywhale: so, use strsplit(x,"\\s") not work? 08/27 22:22
会变成这样
http://imgur.com/ukSMAlG.jpg
就算切开了
http://imgur.com/nQQlKgb.jpg
做成表格也会是这样
http://imgur.com/AKj69nQ
3F:推 Edster: 应该先问你档案内的文字怎麽分割的。 08/27 22:52
4F:→ Edster: 用空白分割就,scan(file, sep=" ") 08/27 22:53
原始是每篇文章断词後写出成一个txt空白切割
使用Dirsource读进来(我猜)应该是用readLines,因为是一个很长的charactor
但不能切割完後再放进去tm包内的Corpus是我头痛的地方Orz
就算事後再切一刀变成这样
http://imgur.com/nQQlKgb.jpg
跑出来的表格也不会照我想得跑
※ 编辑: samex4x4 (36.224.2.140), 08/27/2016 23:10:05
5F:推 cywhale: so the problem is TermDocumentMatrix, not "strsplit"? 08/28 08:23
6F:→ cywhale: try ..(..,control = list(wordLengths = c(1, Inf)))? 08/28 08:25
找到tm包里有个方法是stripWhitespace
解决了!!!!!!!
※ 编辑: samex4x4 (36.224.2.140), 08/28/2016 16:38:13