[问题] 机器学习sklearn模型与特徵处理问题

时间Tue Feb 19 18:02:03 2019

大家好~ 最近在学习sklearn的过程中遇到了一点小问题来这边请教各位大神们 1.问题一最近有一个问题是监督式分类问题譬如铁达尼号乘客生存率好了给的train data 里面就一堆特徵然後目标值y是0跟1 (1表示生存) 这样这样我训练的模型丢进test的特徵predict後出来的结果也会是0跟1 可是要上传的评分结果是要0~1之间也就是生存的机率这样的情况... 我应该要怎麽做才正确? 目前是用sklearn的随机森林模型我目前是有用predict_proba达到目的但不确定predict_proba这样用法是否正确还是有其它更正确模型或方法 2. 问题二 train的资料有y值 test的资料没有y值想问问大家是怎麽同时处理这两个的特徵值我在做特徵处理的时候是train的特徵处理完像是填补缺失值标准化等等... 接着 test的特徵值我是把前面处理train特徵的code 复制一遍, 然後改成对test做处理这样感觉有点怪还是先把特徵值合并,然後全部一起处理会比较好? -- 台北的夏天　应该会有一场雨我想起自由　和你的气味 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.44.73.139 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1550570528.A.B3C.html

1^F：推 st1009: DataScience板会是你的好朋友^^ 02/19 18:56

2^F：推 jiyu520: 可以看看kaggle的几个学习案例噢～ 02/19 19:22

3^F：推 jasonfghx: test 没Y 那是要你自己预测出答案? 02/19 19:43

是我知道是自己预测出答案上传不过我好奇的是 test的特徵跟train的特徵要不要一起处理如果一起处理跟分开处理的话我填空缺值的结果会不一样

4^F：推 Raymond0710: train & test data 做同样的预处理呀 02/19 21:45

5^F：→ Raymond0710: 你指的一起和分开是什麽意思 02/19 21:46

如果下面os大大说的算平均值会有差

6^F：推 OnePiecePR: 0~1 问题就变成regression要换麻豆，但是找找，应该 02/19 22:39

7^F：→ OnePiecePR: 有 predition的possibility输出。 02/19 22:39

8^F：→ OnePiecePR: 不过你会这样问应该是回归跟分类的意义还要多看紮实一 02/19 22:40

9^F：→ OnePiecePR: 点比较好 02/19 22:40

10^F：→ OnePiecePR: test 跟 train 的特徵要一起处理，用 pd.concat 串 02/19 22:41

11^F：推 OnePiecePR: 啊，你有找到predict_proba，我多嘴了 02/19 22:47

是的我目前是用concat 不过我其实不太确定要不要concat会比较好然後我用了predict_proba 但我其实也不知道这是不是正规的做法

12^F：→ Luluemiko: 为何填空缺值的结果会不同? 02/20 00:01

13^F：推 os653: 例如你拿该特徵的平均值填缺值，有没有test算出来当然有差 02/20 04:01

14^F：推 karco: 标准化时 02/20 10:19

15^F：→ karco: 对训练资料用fit_transform 02/20 10:19

16^F：→ karco: 测试资料用transform 02/20 10:19

17^F：→ karco: 这样测试资料就会套用训练资料标准化时所用的参数，这样应 02/20 10:19

18^F：→ karco: 该可以一致 02/20 10:19

喔好喔我再去研究你的意思谢谢! ※ 编辑: wavek (36.224.114.48), 02/25/2019 23:19:09

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

[问题] 机器学习sklearn模型与特徵处理问题

热门看板

赞助商连结