作者sansea (情弑月)
看板R_Language
标题[问题] 读取中文档案
时间Thu Mar 5 16:14:47 2015
[问题类型]:
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
[软体熟悉度]:
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
想要抓PTT的资料来断词
目前已经可以抓到资料并存成中文档案
可是利用 Corpus(DirSource("docs", encoding = 'UTF-8')) 读取的时候
中文字全部变成 <U+ 开头的字串
把查询结果存到 TermDocumentMatrix
用 inspect 看结果应该是有断成功
可是全部都变成奇怪的字了阿....
想请问怎麽把中文字找回来QQ
===已解决===
原本是在Win8.1上开发
换到Win7环境就没问题了
[程式范例]:
程式码可以看这边 http://ideone.com/icNr73
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.165.197.23
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1425543290.A.A09.html
※ 编辑: sansea (118.165.197.23), 03/05/2015 16:15:48
※ 编辑: sansea (118.165.197.23), 03/05/2015 16:17:08
1F:→ psinqoo: R的版本? 03/05 19:31
2F:→ sansea: 3.1.2 03/05 22:40
※ 编辑: sansea (118.165.188.46), 03/06/2015 10:54:31
3F:→ psinqoo: 我猜 把R 版本下降 就OK 03/08 22:23