作者helixc (@_2;)
看板R_Language
标题[问题] 读入"鴴" "鸊鷉" 等怪字
时间Sat Jul 4 00:04:49 2015
[软体熟悉度]:
新手+入门
[问题叙述]:
如标题,因为再分析鸟类的资料,所以会遇到鴴、鸊、鷉这种某些系统无法显示的字
和程式语言不太熟,好像是BIG5的编码比较少,所以遇到这些怪字会崩溃,
转到UTF8就会恢复正常?
问题是目前手边的名录都是放在Excel当中,
这些怪字在Excel当中活得很好,但一输出成CSV等纯文字文件就会变成乱码。
我再去Notepad++等软体转换编码也没有用。
[程式范例]:
鸟类名录资料在下面:
https://dl.dropboxusercontent.com/u/18689552/birdnames.xls
另外我在NotePad++自己打了一个用UTF-8编码的档案如下:
https://dl.dropboxusercontent.com/u/18689552/birdnametest.txt
里面只有两行字:
173,反嘴鴴,长脚鹬科
174,水雉,水雉科
直接用read.table,产生怪字,而且还只读一行
data<-read.table("birdnametest.txt"); data
V1
1 174,瘗涌\x9b\x89,瘗涌\x9b樯\xa7\x91\n
加上eocoding="UTF-8"之後怪字不见了,难字(鴴)没出来,但一样只有一行
有需要的话是可以在Notepad++硬做一个UTF-8的档案出来啦,
名录最多也不超过700种可以用工人智慧来完成,
但也要R能够读入并显示呀Orz
系统资讯:
不太会查,写一下知道的:
Windows 7
RStudio Version 0.99447
R x64 3.2.1
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.138.77.47
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1435939492.A.3BC.html
※ 编辑: helixc (223.138.77.47), 07/04/2015 00:07:14
1F:→ celestialgod: 你可以读入用是utf8 做为encoding 或是乾脆用读xls 07/04 01:01
2F:→ celestialgod: 他的编码也是预设为utf8... (读取xls的套件之前有 07/04 01:01
3F:→ celestialgod: 文章讨论) 07/04 01:01
4F:推 celestialgod: 明天实测看看... 07/04 01:03
5F:→ obarisk: 无解windows里的终端机没utf8 07/04 06:31
6F:→ helixc: 换Mac/Linux就有解吗? 07/04 09:14
7F:→ obarisk: 不会遇到这问题吧 07/04 11:03