作者celestialgod (天)
看板R_Language
标题Re: [问题] R语言在Data mining 的应用
时间Fri Mar 4 10:30:28 2016
不专业的回一下
※ 引述《SangoDragon (SANGO)》之铭言:
: 本人之前都是用 SQL + Mining tools (例如MS-SQL Analysis service , SPSS Modeler)
: 之前大部分是用 SQL 整理资料
: 之後再用 mining Tools run mining (包含调参数等等)
: 例如我们做一个罗吉斯回归,去预测信用卡客户是否会变呆卡
: 或用 CART 去做回应率分析
: 现在关於 R 我有一些问题:
: 1. R的mining 函数支援到那些演算法?
: 例如:分群,类神经网路,CART 等等?
分群的话有数种方法,大多数R都有,从k-means, hierarchical clustering到
一些模型假设的分群如EMClust提供Finite Mixture Gaussian Distribution的分群手法
分几群都会有参数在控制,或是hierarchical clustering怎麽切都有参数控制。
NN,我不太熟,但是CART的话,R至少两个套件支援,tree跟rpart,参数可调的不少,
这部分可以自己读一下manual,也有randomForest的套件支持
: 2. R有办法调参数吗?
: 例如分群时分几群,CART的切点,等等 (这部分在mining tools 都有很强的支援)
如1回答
: 3. R怎样做Mining前的资料处理?
: SQL 强的地方在於下语法可以做很多资料预处理
: 例如:资料中只有生日要转换成年龄,还有一些更复杂要套公式转换的部份等等
: SQL 的资料可以存很多资料
: R 在预处理部分的强度如何?
: 总不能一直读EXCEL的资料吧?
: 我要表达的是,在资料面SQL 资料库有很强大的SQL语法,跟储存面
: R 的方式?
R使用dplyr整理资料就很快了,可以看我的资料整理套件介绍系列文 (签名档)
: 4. 这张图 http://i.imgur.com/iMTOAoG.jpg
: 是否过誉?
: 以MS-SQL mining 而言,建构好一个预测模型,可以利用MDX等等
: 去对这个Model 做一些处理,例如输入资料做预测等等
: 而且也有很多图形介面的输出
我认为R比SAS跟SPSS好用很多,这些比较都合情合理。
: 以上几点问题
--
R资料整理套件系列文:
magrittr #1LhSWhpH (R_Language) http://tinyurl.com/1LhSWhpH
data.table #1LhW7Tvj (R_Language) http://tinyurl.com/1LhW7Tvj
dplyr(上) #1LhpJCfB (R_Language) http://tinyurl.com/1LhpJCfB
dplyr(下) #1Lhw8b-s (R_Language)
tidyr #1Liqls1R (R_Language) http://tinyurl.com/1Liqls1R
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.109.74.87
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1457058631.A.71F.html
※ 编辑: celestialgod (140.109.74.87), 03/04/2016 10:30:58
1F:推 psinqoo: 在R计算完後能回写SQL~也能够透过shiny图示~ 03/04 13:21
2F:→ psinqoo: 很多的package是需要研究 然後也能调参数~ 03/04 13:21
3F:推 psinqoo: 现在我是从SQL资料 捞资料透过R运算後 回写导SQL资料库 03/04 13:25
4F:→ psinqoo: R 还能作机器学习 03/04 13:26
5F:推 carl090105: R接资料库是蛮容易的,处理资料就看你要在SQL就处理好 03/04 18:40
6F:→ carl090105: 还是用dplyr+data.table来处理,个人是觉得比python的 03/04 18:40
7F:→ carl090105: pandas好用多了~ 03/04 18:40
8F:推 JackBaska: 同意楼上,dplyr推出是R单在资料处理上胜python的关键 03/08 23:20
9F:推 Ouranos: 大推系列文!谢谢原po~!!! 03/13 10:31