作者thewaytheman (Show)
看板Statistics
標題[程式] R中文字串處理Unicode不能顯示?
時間Wed Feb 18 03:59:56 2015
小弟R寫了大概第二年, 剛進入業界玩Text-Mining
最近需要把資料轉成Json餵給斷詞器, 無奈卡關
code如下:
file <- read.xlsx("export_main_Jan.xlsx", 1, encoding = "UTF-8")
data <- data.frame(content = file[1,3])
jsonData <- toJSON(data)
>jsonData
[1] "{\"content\":\"\\u4e00\\u3001\\u524d...(資料過長;省略)...\\u4e2d\\u3002\"}"
此時就不能顯示中文了.
但是我若將內容指給變數, 並且去除跳脫字元, 就又能顯示中文, 如下
x <- "\u7576\u65bc\u51cf\u5c11\u6d88\u8017\u7164\u90542250"
>x
[1] "當於减少消耗煤達2250"
上網爬過文, 這好像叫做Unicode escape, 尤其是轉Json容易遇到
想請版上大大幫忙, 教一下可以怎麼處理嗎? 謝謝...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.167.28.151
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1424203198.A.258.html
1F:推 kenshin528: 我也是用下面這種方式 02/18 11:06
2F:→ thewaytheman: 只能想到用剪剪貼貼的土炮法兜成Json,不知道有沒 02/18 16:44
3F:→ thewaytheman: 更好的方法0.0 02/18 16:45
4F:推 Wush978: 換個json套件看看 02/18 21:13