作者f496328mm (为什麽会流泪)
看板R_Language
标题[问题] 读取3GB的csv档 资料太大
时间Thu Jul 21 17:43:14 2016
请问要怎麽读取3GB的资料
有没有比较有效率的方法?
我有用read.csv去读
但是光要把3GB读到电脑的RAM中 就要花很多时间(我读个几百MB的就要一分左右)
而且3GB我可能要超过16G的RAM去读他 可能更多 因为我电脑只有16G
想要再加RAM到32G 只怕这样还吃不下3G的DATA 要进行分析更是困难
分批读是一个方法
但有没有比read.csv更好的套件去读这样的data
毕竟3GB以目前的BIG DATA 应该不算大吧
会需要用到hadoop吗?
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.231.226.23
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1469094196.A.49B.html
1F:→ GetRobin: 可以用用看fread 07/21 18:28
3F:→ GetRobin: s/fread 07/21 18:28
4F:→ celestialgod: 3G fread + 16G记忆体就可以处理了 07/21 18:32
5F:→ celestialgod: 完全用不到hadoop 07/21 18:32
感谢两位 我先试试看^_^
6F:推 Wush978: 检查一下你的型态是不是你要的 07/22 00:01
资料型态可以改变 应该是还好
没处理过这麽大的资料 目前光读资料就要使用4g ram了
接下来要好好控制ram的使用 不要太多暂存档
-------------------------------------------------
另外这样是不是无法用snow去做平行
因为用snow要告诉每个 r 资料长什麽样子
这样ram会爆掉
是否用 Microsoft R Open 会比较快???
※ 编辑: f496328mm (36.231.226.23), 07/22/2016 20:20:24