作者Wush978 (拒看低质媒体)
看板R_Language
标题Re: [心得] 资料整理套件介绍-第二章 dplyr(上)
时间Wed Jul 22 22:38:44 2015
dplyr 这个套件除了可以对R 的data.frame做处理之外,
也可以对SQL-like Data Source做资料ETL。
所以我是非常推荐版友把时间投资在这类套件之上。
这里分享我一个实务经验与玩具专案:
https://github.com/wush978/dplyrSparkSQL
我利用这个套件串接Apache Spark这个高效能资料处理平台,
只要利用和dplyr完全一样的语法,
可以轻松在一分钟内处理亿笔资料的整理。
我认为这类的介面会越来越多,因为不算难扩充(我自己花一个周末就写了一个)
所以花时间投资dplyr ,未来的潜力是满高的。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.165.189.37
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1437575926.A.93C.html
1F:→ celestialgod: 当初要提这点也忘记了,感谢版大 07/22 22:43
2F:→ Wush978: 你写得很棒,我只是锦上添花罢了 07/22 23:05
3F:→ celestialgod: 谢谢,不过版大提到的也很重要,这个套件不只在资 07/22 23:14
4F:→ celestialgod: 料整理方面还有其他值得投资的点,像是sql的api等 07/22 23:14
5F:→ celestialgod: 等 07/22 23:14
6F:推 hyekyo0608: 跟着强者学习,觉得很幸运^^ 07/23 09:22