作者Neisseria (Neisseria)
看板R_Language
标题Re: [问题] 读入"鴴" "鸊鷉" 等怪字
时间Sat Jul 4 19:15:04 2015
我的环境是 Mac OS X 10.9.5
R 版本是 3.1.1 终端机 locale 是 zh_TW-utf8
Excel 版本是 2011 for OS X
刚刚简单测了一下这个 xls 档
如过透过 Excel 转成 CSV 档,再透过 iconv 转的话
有些字会漏失,像是「鵐」
如果先用 gdata 这个套件将这个 xls 档读到 R 系统中
再用 write.csv 将资料输出,就可以完整保留档案中的文字
用 gdata 的话,不用透过 Java,而是透过 Perl
不知道在 Windows 下会不会很难装
过程大概如下:
library(gdata)
bird <- read.xls('birdnames.xls', stringsAsFactors = FALSE)
write.csv(bird, 'birdnames.csv')
参考看看
※ 引述《helixc (@_2;)》之铭言:
: [软体熟悉度]:
: 新手+入门
: [问题叙述]:
: 如标题,因为再分析鸟类的资料,所以会遇到鴴、鸊、鷉这种某些系统无法显示的字
: 和程式语言不太熟,好像是BIG5的编码比较少,所以遇到这些怪字会崩溃,
: 转到UTF8就会恢复正常?
: 问题是目前手边的名录都是放在Excel当中,
: 这些怪字在Excel当中活得很好,但一输出成CSV等纯文字文件就会变成乱码。
: 我再去Notepad++等软体转换编码也没有用。
: [程式范例]:
: 鸟类名录资料在下面:
: https://dl.dropboxusercontent.com/u/18689552/birdnames.xls
: 另外我在NotePad++自己打了一个用UTF-8编码的档案如下:
: https://dl.dropboxusercontent.com/u/18689552/birdnametest.txt
: 里面只有两行字:
: 173,反嘴鴴,长脚鹬科
: 174,水雉,水雉科
: 直接用read.table,产生怪字,而且还只读一行
: data<-read.table("birdnametest.txt"); data
: V1
: 1 174,瘗涌\x9b\x89,瘗涌\x9b樯\xa7\x91\n
: 加上eocoding="UTF-8"之後怪字不见了,难字(鴴)没出来,但一样只有一行
: 有需要的话是可以在Notepad++硬做一个UTF-8的档案出来啦,
: 名录最多也不超过700种可以用工人智慧来完成,
: 但也要R能够读入并显示呀Orz
: 系统资讯:
: 不太会查,写一下知道的:
: Windows 7
: RStudio Version 0.99447
: R x64 3.2.1
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 69.140.71.14
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1436008507.A.04A.html
1F:推 helixc: 感谢! 07/05 00:41