作者wavek (坏猫咪)
看板Python
标题[问题] 机器学习sklearn模型与特徵处理问题
时间Tue Feb 19 18:02:03 2019
大家好~
最近在学习sklearn的过程中遇到了一点小问题
来这边请教各位大神们
1.问题一
最近有一个问题是监督式分类问题
譬如铁达尼号乘客生存率好了
给的train data 里面就一堆特徵
然後目标值y是0跟1 (1表示生存) 这样
这样我训练的模型 丢进test的特徵predict後
出来的结果也会是0跟1
可是要上传的评分结果 是要0~1之间 也就是生存的机率
这样的情况... 我应该要怎麽做才正确?
目前是用sklearn的随机森林模型
我目前是有用predict_proba达到目的
但不确定predict_proba这样用法是否正确
还是有其它更正确模型或方法
2. 问题二
train的资料 有y值
test的资料 没有y值
想问问大家是怎麽同时处理这两个的特徵值
我在做特徵处理的时候
是train的特徵处理完
像是填补缺失值 标准化等等...
接着
test的特徵值
我是把前面处理train特徵的code
复制一遍, 然後改成对test做处理
这样感觉有点怪
还是先把特徵值合并,然後全部一起处理会比较好?
--
台北的夏天 应该会有一场雨
我想起自由 和你的气味
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.44.73.139
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1550570528.A.B3C.html
1F:推 st1009: DataScience板会是你的好朋友^^ 02/19 18:56
2F:推 jiyu520: 可以看看kaggle的几个学习案例噢~ 02/19 19:22
3F:推 jasonfghx: test 没Y 那是要你自己预测出答案? 02/19 19:43
是 我知道是自己预测出答案上传
不过我好奇的是
test的特徵跟train的特徵要不要一起处理
如果一起处理跟分开处理的话
我填空缺值的结果会不一样
4F:推 Raymond0710: train & test data 做同样的预处理呀 02/19 21:45
5F:→ Raymond0710: 你指的一起和分开是什麽意思 02/19 21:46
如果下面os大大说的 算平均值会有差
6F:推 OnePiecePR: 0~1 问题就变成regression要换 麻豆,但是找找,应该 02/19 22:39
7F:→ OnePiecePR: 有 predition的possibility输出。 02/19 22:39
8F:→ OnePiecePR: 不过你会这样问应该是回归跟分类的意义还要多看紮实一 02/19 22:40
9F:→ OnePiecePR: 点比较好 02/19 22:40
10F:→ OnePiecePR: test 跟 train 的特徵要一起处理,用 pd.concat 串 02/19 22:41
11F:推 OnePiecePR: 啊,你有找到predict_proba,我多嘴了 02/19 22:47
是的 我目前是用concat
不过我其实不太确定要不要concat会比较好
然後我用了predict_proba
但我其实也不知道这是不是正规的做法
12F:→ Luluemiko: 为何填空缺值的结果会不同? 02/20 00:01
13F:推 os653: 例如你拿该特徵的平均值填缺值,有没有test算出来当然有差 02/20 04:01
14F:推 karco: 标准化时 02/20 10:19
15F:→ karco: 对训练资料用fit_transform 02/20 10:19
16F:→ karco: 测试资料用transform 02/20 10:19
17F:→ karco: 这样测试资料就会套用训练资料标准化时所用的参数,这样应 02/20 10:19
18F:→ karco: 该可以一致 02/20 10:19
喔 好喔 我再去研究你的意思 谢谢!
※ 编辑: wavek (36.224.114.48), 02/25/2019 23:19:09