作者Wush978 (拒看低质媒体)
看板R_Language
标题[分享] Lots of data != Big Data
时间Sun Mar 31 16:56:42 2013
关键字: R, Big Data
出处:
http://blog.revolutionanalytics.com/2013/03/lots-of-data-big-data.html
重点节录
- 不好的模型,无论资料多或少,都一样不好。Example: [2009 ASA
challenge](
http://stat-computing.org/dataexpo/2009/).
- 利用抽样,可以更快的知道资料模型配适的结果。当样本数足够多的时候,得到的模型
会差不多。

- 如果你还在寻找适合的模型,那用样本资料可以加速你的研究速度。用全部的资料,只
会浪费你的时间。
- 可以利用Revolustion Analytics 的
[RevoScaleR](
http://www.revolutionanalytics.com/products/enterprise-big-data.php)
套件
- 全部的资料会被转换成.xdf binary
- RevoScaleR会利用rxDataStep函数来抽样本
- 抽样的能力,是决定你能否在时间和精准度之间取得平衡的关键。
--
欢迎加入 Taiwan R User Group :
http://www.facebook.com/Tw.R.User
我们每周一都有在「政大公企中心(台北市金华街187号)西楼WB05」
举办Machine Learning / Data Mining Monday:
报名
http://www.meetup.com/Taiwan-R/
聚会影片
https://www.youtube.com/user/TWuseRGroup
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 118.166.89.168