作者Wush978 (拒看低质媒体)
看板R_Language
标题[分享] R & Encoding
时间Sat Jun 22 21:45:07 2013
[关键字]: R, utf-8, big5, 中文, encoding
# 一个朋友最近问我的问题
> 这几天都在用R做text mining
> 我能请问一下简单的问题就是
> 用R汇入含有unicode中文的csv 或excel档
> 怎麽样汇入才能正确呢?
> 我试了 odbc, iconv, 或者是在read.csv内用encoding=‘UTF-8’
> 都无法解决
# 我个人对这类问题的建议
根据
http://cran.r-project.org/doc/manuals/r-release/R-data.html#Encodings ,
我建议你先安装Rtools後在读取资料之前先使用file以及其他转码的命令列程式处理後,
再从R中尝试汇入。由於我机器不是Windows,我不清楚Rtools内有没有iconv这个命令列
程式就是了。这你可能要先自行google,或是采用下面范例的方式:
```r
temp <- readLines(url(MOPS_URL.TWSE_ALL), encoding="big5")
temp <- iconv(temp, "big5", "utf8")
temp.file <- tempfile()
write(temp, temp.file)
```
# 他後来找到的解决办法
excel另存csv後 在csv用文字编辑另存成Utf-8
然後汇入read.csv内 encoding="utf-8" 就能正确读入了
--
欢迎到ptt R_Language版分享R 的相关知识
欢迎加入 Taiwan R User Group :
http://www.facebook.com/Tw.R.User
聚会报名
http://www.meetup.com/Taiwan-R/
聚会影片
https://www.youtube.com/user/TWuseRGroup
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.224.201.62