[问题] xgboost同原始资料当input，先经过转换?

时间Sun Apr 28 18:19:23 2019

不好意思，这个问题实在不知道怎麽下标题所以只好这样下是这样的，最近有个project有点赶内容比较不方便说明，这边用举例的举例为：假设你目前仅有的资料是身高和体重要预测他会喜欢4种商品的哪样产品(multi class classification) 我的疑问为：直接以"身高、体重"当input，使用xgboost预测与先以常用的已知公式bmi计算後再把"身高、体重、bmi"使用xgboost预测是否可能会增加正确率? 会有这个疑问是因为bmi原本也是从身高、体重所衍生的资讯如果原本身高体重就无法解释喜欢哪样商品纵使增加了bmi这个资讯正确率仍然不会增加才对但概念上，先计算出bmi与资料预处理(preprocessing)又有点类似好的预处理确实会影响预测准确率所以到底先经过一些原本已知的公式计算後当input，有没有可能大幅增加正确率? 以上，先谢谢各位大大的指教 == 补充：因为时间比较紧，我只能在 1. 撰写一堆爬虫赶快搜集蒐集更多资料 2. 撰写一推不同的公式计算当input预测看看两个方式抉择一种又2的部分也有将近无限多种公式的种类所以如果2的方式确定不可行，或是可行的机会太渺茫我要把时间全部砸在1的方式处理以上，谢谢各位 --

1^F：推 otosaka: 什麽长颈鹿果实明明就牛牛果实长颈鹿型态

2^F：→ Miltonn: 楼上是马马果实吧

3^F：推 spritepeare: 楼上是牛==

4^F：推 acer2265848: 楼上是羊

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.171.175.207 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1556446774.A.ADD.html ※ 编辑: woogee (1.171.175.207), 04/28/2019 18:27:44

5^F：推 ruokcnn: Feature engineering就是trial and error 04/28 19:46

6^F：→ ruokcnn: 分类树不会知道身高跟体重有bmi的关系 04/28 19:47

7^F：→ ruokcnn: 想无脑创变数就把你学过的所有数学转换都丢进去 04/28 19:47

8^F：→ ruokcnn: 看importance有没有差 04/28 19:47

9^F：→ ruokcnn: 但2的命中率可能会很低就是了 04/28 19:48

10^F：→ ruokcnn: 你创了100个变数每个都是noise是有可能的 04/28 19:49

11^F：→ ruokcnn: 不试试不会知道的 04/28 19:49

12^F：→ ruokcnn: 最後还是要回应bmi那段分类树不是神啊 04/28 19:50

13^F：→ ruokcnn: 他不会自动帮你把各种变数做非线性转换的 04/28 19:51

了解，意思是先做BMI确实有意义但机会很渺茫罗?

14^F：推 ruokcnn: 渺茫与否看你要预测啥 bmi应该一行code就可以解决 04/29 12:08

15^F：→ ruokcnn: 成本很低蛮值得试试的？ 04/29 12:08

谢谢你，我了解了，公式都不难实现，只是公式种类极多(至少100种+) 常见的是有package可用这部分会试试看，感谢 ※ 编辑: woogee (1.171.175.207), 04/29/2019 14:51:58

16^F：推 tipsofwarren: 我认为会，bmi 不是w h 的线性组合 04/29 21:04

17^F：推 tipsofwarren: bmi 可以算是推论得到的 latent variable 04/29 22:48

18^F：推 numpy: 换个角度想的话，BMI对我们是一个很通用且可以对一个人的身 04/30 01:09

19^F：→ numpy: 材做基本估量的标准，但是不见得对於你要做的预测是最有用 04/30 01:09

20^F：→ numpy: 的feature，比如说身高的平方如果换成别的次方有可能表现还 04/30 01:09

21^F：→ numpy: 更好，但没试过都不会知道。 04/30 01:09

22^F：推 VIATOR: BMI基本上就身高体重简单计算出来的结果 04/30 04:35

23^F：→ VIATOR: 感觉不会有太大的帮助 04/30 04:36

24^F：→ VIATOR: 到底有没有帮助可能要试才知道，但感觉机会很渺茫 04/30 04:38

25^F：推 goldflower: bmi的解释也是人自创的一种metric而已如果你要最小 04/30 15:35

26^F：→ goldflower: 化的函数跟这个值没直接关系我是不觉得能改善多少 04/30 15:35

27^F：→ goldflower: 你可以用lightgbm啦比xgboost快很多 04/30 15:37

28^F：推 westercc: 从know-how角度看转bmi是解释得通，这也可以视为是种降 05/03 11:11

29^F：→ westercc: 维(2个转1个)，增加正确率其实不太客观，应该要减少in o 05/03 11:11

30^F：→ westercc: ut error的差距才较好，若是用身高与体重当作变数去训练 05/03 11:11

31^F：→ westercc: ，有可能会有离群值导致overfitting，而转成了bmi是有机 05/03 11:11

32^F：→ westercc: 会减少离群值的数量，但这需要观察身高、体重、bmi的分 05/03 11:11

33^F：→ westercc: 布，如果转bmi後准确率降低，但in out error差距变小， 05/03 11:11

34^F：→ westercc: 这也是可以接受的结果 05/03 11:11

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

DataScience 板

[问题] xgboost同原始资料当input，先经过转换?

热门看板

赞助商连结