作者Wush978 (拒看低质媒体)
看板R_Language
标题[分享] 五个用R 处理大资料的方法
时间Mon Dec 2 21:57:48 2013
[关键字]: R, big data
[出处]:
http://blog.eoda.de/2013/11/27/five-ways-to-handle-big-data-in-r/
[重点摘要]:
1. 怎样的资料算大?
Hadley Wickham: 当处理资料的时间超过开发程式的时间
Jan Wijffels:
- < 10^6, R 可以容易的处理
- 10^6 ~ 10^9: 花点心思可以用R 处理
- > 10^9: Map Reduce, R + Hadoop
2. 如何处理大资料:
- 抽样
- 扩充硬体 (64-bit R 最多可以吃 8TB的RAM)
- 在硬碟上处理 (请参考套件ff和ffbase)
- 和C++ 或java整合 (请参考套件Rcpp或rJava)
- 更强大的interpreter (请参考pqR, Renjin, TERR和Oracle R)
--
欢迎到ptt R_Language版分享R 的相关知识
欢迎加入 Taiwan R User Group :
http://www.facebook.com/Tw.R.User
聚会报名
http://www.meetup.com/Taiwan-R/
聚会影片
https://www.youtube.com/user/TWuseRGroup
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 1.34.138.85
1F:推 ww2308:感谢 12/02 23:43
2F:→ gsuper:8TB = =a 是我在用的1000倍 12/03 13:43
3F:推 lin15:记忆体大速度有变快吗? 12/03 15:52
4F:→ clickhere:memory加大不会变快,只是能载入较多的资料,相对是变慢 12/04 00:30
5F:→ clickhere:1000台8G就有8TB了 12/04 00:32
6F:→ Wush978:会不会变快要case by case来看,因为每个程式的瓶颈都不同 12/04 02:00
7F:→ obarisk:重点应是一般来说R只能在记忆体运作啊 12/04 21:16
8F:推 laba1014:推 12/05 03:16
9F:推 super101:8T机器去那买 12/10 20:06
10F:→ clickhere:去amazon or google租,不用买. 12/10 23:23