作者sinclairJ (Jun)
看板R_Language
标题[问题] 几个资料预处理问题
时间Wed Apr 22 17:00:18 2015
不好意思,又要来请教各位先进了
资料档大概格式如下(均是类别型资料)
(实际资料约为200列乘500000行)
----------------------------
序 Y X1 X2 X3
1 1 0 1 2
2 1 0 0 0
3 2 2 1 1
4 1 1 1 2
5 2 0 2 2
6 2 1 1 2
7 2 1 0 1
8 1 2 1 1
9 1 1 2 0
10 2 0 0 2
......
......
.....
-----------------------------
以下有几个互相独立的资料处理动作要请教各位:
(1)如表格所示,Y有两种类别,X有三种类别,我想做的处理是比较Y的两种类别,其他
们的X变数是否为同样类别
举例:Y X1 X2 X3
1 0 1 2
1 0 2 2
2 0 0 1
2 0 1 1
然後因为X1都一样,所以我要把X1删除,请问这个预处理该如何於R上实现?
(2)接下来我要对每个X变数做类似这样的处理
举例:X1
0
1
2
1
2
2
1
2
1
1
先找出最少的类别,其所占的比例
如X1最少的类别是0,比例为1/10,1/10就是我想得到的,只是回圈不太明白该怎麽写
(3)X变数做C取2组合方式(两两相互)对Y做逻辑斯回归(这边的X可转成数值型资料来处
理)
举例
Y X1 X2 X3
1 2 1 0
2 1 0 1
1 2 0 0
如果资料是上述这样
我就要建立三条回归
Y~X1+X2
Y~X2+X3
Y~X1+X3
之後把显着(p<0.05)的X变数挑出来
希望各位先进能指导指导小弟
若问题描述还不够清楚
我会再补充,先跟版上各位先进说声谢谢了
--
Sent from my Android
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.139.168.177
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1429693220.A.5CD.html
1F:→ sinclairJ: 阿啊。。手机发文,格式跑了,抱歉04/22 17:01
※ 编辑: sinclairJ (223.139.47.191), 04/22/2015 17:23:17
※ 编辑: sinclairJ (111.184.161.128), 04/22/2015 19:35:52