作者tus (new life)
看板R_Language
标题[问题] Read.table Not ALL Rows
时间Sun Jan 28 13:15:48 2018
[问题类型]:
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
[问题叙述]:
用R读text档 但好像没有全部的rows都读进去 不知道原因是什麽
用EXCEL打开资料 可以看到约有1000000 entries (rows) 原始资料应该更多
因为这是EXCEl的上限 1048576
但用R read.table or read.csv 读进去时 约只有700000笔资料 没有任何错误讯息
目前是用 read.table(filename, quote = "", comment.char = "", fill = TRUE)
如果不加quote = "" 会出现EOF within quoted string
fill = TRUE 是因为好像有几笔资料column length不同
几笔资料可以在EXCEL中看到的 R没读进去的 找不到任何异样
用count.fields 也是只有700000笔资料左右
sorry 没办法share资料 但还是想请问看看 有没有什麽原因会造成这样的情况
感谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 162.237.102.128
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1517116551.A.608.html
1F:推 KKbiger: 改用套件data.table去读试试看 01/28 13:39
2F:→ tus: 谢谢 但没办法 资料放在加密电脑 没有连上网路 01/28 13:42
3F:→ tus: 要安装package要经过层层关卡.... 01/28 13:43
※ 编辑: tus (162.237.102.128), 01/28/2018 13:51:28
4F:→ Wush978: 不然先用readLines读读看,然後手动转data.frame 01/28 13:54
5F:→ tus: readLines 也是得到700000 elements左右 01/28 14:05
6F:→ Wush978: 那试着用readBin直接读raw vector近来 01/28 14:14
7F:→ Wush978: 查一下readLines的下一行出了甚麽问题是不是有00 01/28 14:14
8F:→ tus: 最後一行资料中有个怪符号 -> 在应该是人名的栏位中 01/28 14:29
9F:→ tus: 感谢Wush! 01/28 14:39