作者saladang (沙拉蛋的阿哥哥)
看板R_Language
標題[問題] 建立TDM做文檔矩陣時出現亂碼
時間Sat Apr 1 13:08:41 2017
[問題類型]: 建立TermDocumentMatrix作文檔矩陣時出現亂碼
程式諮詢
[軟體熟悉度]:
新手(沒寫過程式,R 是我的第一次)
[問題敘述]:
R 3.3.3 (32-bit)
我正在做ptt網路爬蟲的文本探勘, 參考 陳嘉葳用R進行中文 text Mining,前面
都很順利直到在建立 TermDocumentMatrix作文檔矩陣時,就出現錯誤了,
inspect(tdm[1:10, 1:2])
#############
Error in nchar(Terms(x), type = "chars") :
invalid multibyte string, element 1
##############
於是檢查了一下文檔,執行查看停用字head(myStopWords,20)出現是正確的文字(非
亂碼),所以應該不是編碼問題,在findFreqTerms看關鍵字時文字就變亂碼了。麻
煩各位幫我解惑一下怎麼排解文檔矩陣出現亂碼的問題。
Environment
https://goo.gl/zlJTQb
指令
https://goo.gl/zKDl5j
[環境敘述]:
R 3.3.3 (32-bit)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.173.141.139
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1491023327.A.366.html
※ 編輯: saladang (1.173.141.139), 04/01/2017 13:10:32
2F:→ saladang: 謝謝w大,試過您的,結果還是沒有成功解決問題。 04/03 18:18
3F:→ wheado: 你要不要把code放上來,我有空幫你看一下 04/03 19:11
4F:推 bluecadence: 剛剛無聊把 "陳嘉葳用R進行中文 text Mining" 跑了一 04/03 20:04
6F:→ bluecadence: 不過我用的是 R-3.3.2 on Slackware linux 04/03 20:05
已經將部分指令以圖片方式放上,請各位幫忙
※ 編輯: saladang (36.236.90.159), 04/03/2017 23:23:08
※ 編輯: saladang (36.236.90.159), 04/03/2017 23:42:12
8F:推 bluecadence: 不知道你問題解決了沒,我在想你的語言編碼是用utf8 04/06 07:48
9F:→ bluecadence: 還是用big5 ? 04/06 07:48
10F:→ bluecadence: 你用陳嘉葳text Mining的script方法,裡面有用到中國 04/06 07:50
11F:→ bluecadence: 簡體 GB2312 的東西,會不會是這個問題? 04/06 07:51
12F:→ saladang: 問題還沒解決,我的是utf8 04/06 17:26
13F:推 kenson: google 到的 跑TDM前 多跑一行 04/10 23:21
14F:→ kenson: 1Sys.setlocale(category='LC_ALL', locale='C') 04/10 23:21
15F:推 kenson: 更正 "Sys.setlocale(category='LC_ALL', locale='C')" 04/10 23:28
16F:推 prettyskys: 遇到同樣的問題耶 求解TT 04/16 00:44
17F:推 minchang: 用Sys.setlocal語系設為C,還是沒用... 05/01 15:49
18F:→ minchang: 請問有其它解法嗎? 05/01 15:49