R_Language 板


LINE

※ 引述《helixc (@_2;)》之铭言: : [软体熟悉度]: : 新手+入门 : [问题叙述]: : 如标题,因为再分析鸟类的资料,所以会遇到鴴、鸊、鷉这种某些系统无法显示的字 : 和程式语言不太熟,好像是BIG5的编码比较少,所以遇到这些怪字会崩溃, : 转到UTF8就会恢复正常? : 问题是目前手边的名录都是放在Excel当中, : 这些怪字在Excel当中活得很好,但一输出成CSV等纯文字文件就会变成乱码。 : 我再去Notepad++等软体转换编码也没有用。 : [程式范例]: : 鸟类名录资料在下面: : https://dl.dropboxusercontent.com/u/18689552/birdnames.xls : 另外我在NotePad++自己打了一个用UTF-8编码的档案如下: : https://dl.dropboxusercontent.com/u/18689552/birdnametest.txt : 里面只有两行字: : 173,反嘴鴴,长脚鹬科 : 174,水雉,水雉科 txt部分: read.table, read.csv加上encoding = "UTF-8"只能读到第二行 但下面这个有成功: readLines("birdnametest.txt", encoding = "UTF-8") %>% strsplit(",") %>% do.call(rbind, .) # [,1] [,2] [,3] # [1,] "173" "反嘴鴴" "长脚鹬科" # [2,] "174" "水雉" "水雉科" http://imgur.com/1Gsldsu 另外 fread不能调encoding,完全读不进去,iconv也失败(摊手 xls部分: 好读上色版:http://pastebin.com/2L5UrhSq library(rJava) library(xlsx) library(data.table) library(magrittr) fileName = "birdnames.xls" original_data = read.xlsx2(fileName, 1, header=TRUE, encoding = "UTF-8", as.data.frame=FALSE) %>% do.call(cbind, .) %>% data.table() # data.table在这里是非必要,为了後面的setnames而用的 data_names = read.xlsx2(fileName, 1, header=FALSE, startRow=1, endRow=1, encoding = "UTF-8", as.data.frame=FALSE) %>% unlist() # 这行是因为header通常读不进去要手动 original_data %<>% setnames(data_names) # setnames是data.table的function,提供不复制直接重新命名data.table的方法 # 如果前面不用data.table,这里可以改成用magrittr的set_names # 或是直接用names() <- original_data$c_name http://imgur.com/XyK5d0f http://imgur.com/c97dRSQ # readxl套件: (不用JAVA,读取也比较快,也不会转换字串为factor) library(readxl) dat = read_excel("birdnames.xls") dat$c_name 补上session information: > sessionInfo() R version 3.2.1 (2015-06-18) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 7 x64 (build 7601) Service Pack 1 locale: [1] LC_COLLATE=Chinese (Traditional)_Taiwan.950 [2] LC_CTYPE=Chinese (Traditional)_Taiwan.950 [3] LC_MONETARY=Chinese (Traditional)_Taiwan.950 [4] LC_NUMERIC=C [5] LC_TIME=Chinese (Traditional)_Taiwan.950 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.205.27.107
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1435975669.A.562.html ※ 编辑: celestialgod (123.205.27.107), 07/04/2015 13:10:06
1F:推 helixc: 好神奇,我试试看,感谢! 07/04 14:02







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BuyTogether站内搜寻

TOP