作者thewaytheman (Show)
看板Statistics
标题[程式] R中文字串处理Unicode不能显示?
时间Wed Feb 18 03:59:56 2015
小弟R写了大概第二年, 刚进入业界玩Text-Mining
最近需要把资料转成Json喂给断词器, 无奈卡关
code如下:
file <- read.xlsx("export_main_Jan.xlsx", 1, encoding = "UTF-8")
data <- data.frame(content = file[1,3])
jsonData <- toJSON(data)
>jsonData
[1] "{\"content\":\"\\u4e00\\u3001\\u524d...(资料过长;省略)...\\u4e2d\\u3002\"}"
此时就不能显示中文了.
但是我若将内容指给变数, 并且去除跳脱字元, 就又能显示中文, 如下
x <- "\u7576\u65bc\u51cf\u5c11\u6d88\u8017\u7164\u90542250"
>x
[1] "当於减少消耗煤达2250"
上网爬过文, 这好像叫做Unicode escape, 尤其是转Json容易遇到
想请版上大大帮忙, 教一下可以怎麽处理吗? 谢谢...
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.167.28.151
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1424203198.A.258.html
1F:推 kenshin528: 我也是用下面这种方式 02/18 11:06
2F:→ thewaytheman: 只能想到用剪剪贴贴的土炮法兜成Json,不知道有没 02/18 16:44
3F:→ thewaytheman: 更好的方法0.0 02/18 16:45
4F:推 Wush978: 换个json套件看看 02/18 21:13