作者sansea (情弒月)
看板R_Language
標題[問題] 讀取中文檔案
時間Thu Mar 5 16:14:47 2015
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
入門(寫過其他程式,只是對語法不熟悉)
[問題敘述]:
想要抓PTT的資料來斷詞
目前已經可以抓到資料並存成中文檔案
可是利用 Corpus(DirSource("docs", encoding = 'UTF-8')) 讀取的時候
中文字全部變成 <U+ 開頭的字串
把查詢結果存到 TermDocumentMatrix
用 inspect 看結果應該是有斷成功
可是全部都變成奇怪的字了阿....
想請問怎麼把中文字找回來QQ
===已解決===
原本是在Win8.1上開發
換到Win7環境就沒問題了
[程式範例]:
程式碼可以看這邊 http://ideone.com/icNr73
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.165.197.23
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1425543290.A.A09.html
※ 編輯: sansea (118.165.197.23), 03/05/2015 16:15:48
※ 編輯: sansea (118.165.197.23), 03/05/2015 16:17:08
1F:→ psinqoo: R的版本? 03/05 19:31
2F:→ sansea: 3.1.2 03/05 22:40
※ 編輯: sansea (118.165.188.46), 03/06/2015 10:54:31
3F:→ psinqoo: 我猜 把R 版本下降 就OK 03/08 22:23