作者woogee (woogee)
看板DataScience
标题[问题] xgboost同原始资料当input,先经过转换?
时间Sun Apr 28 18:19:23 2019
不好意思,这个问题实在不知道怎麽下标题所以只好这样下
是这样的,最近有个project有点赶
内容比较不方便说明,这边用举例的
举例为:
假设你目前仅有的资料是身高和体重
要预测他会喜欢4种商品的哪样产品(multi class classification)
我的疑问为:
直接以"身高、体重"当input,使用xgboost预测
与
先以常用的已知公式bmi计算後再把"身高、体重、bmi"使用xgboost预测
是否可能会增加正确率?
会有这个疑问是因为bmi原本也是从身高、体重所衍生的资讯
如果原本身高体重就无法解释喜欢哪样商品
纵使增加了bmi这个资讯正确率仍然不会增加才对
但概念上,先计算出bmi与资料预处理(preprocessing)又有点类似
好的预处理确实会影响预测准确率
所以到底先经过一些原本已知的公式计算後当input,有没有可能大幅增加正确率?
以上,先谢谢各位大大的指教
==
补充:
因为时间比较紧,我只能在
1. 撰写一堆爬虫赶快搜集蒐集更多资料
2. 撰写一推不同的公式计算当input预测看看
两个方式抉择一种
又2的部分也有将近无限多种公式的种类
所以如果2的方式确定不可行,或是可行的机会太渺茫
我要把时间全部砸在1的方式处理
以上,谢谢各位
--
1F:推 otosaka: 什麽长颈鹿果实 明明就牛牛果实长颈鹿型态
2F:→ Miltonn: 楼上 是马马果实吧
3F:推 spritepeare: 楼上 是牛==
4F:推 acer2265848: 楼上是羊
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.171.175.207
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1556446774.A.ADD.html
※ 编辑: woogee (1.171.175.207), 04/28/2019 18:27:44
5F:推 ruokcnn: Feature engineering就是trial and error 04/28 19:46
6F:→ ruokcnn: 分类树不会知道身高跟体重有bmi的关系 04/28 19:47
7F:→ ruokcnn: 想无脑创变数就把你学过的所有数学转换都丢进去 04/28 19:47
8F:→ ruokcnn: 看importance有没有差 04/28 19:47
9F:→ ruokcnn: 但2的命中率可能会很低就是了 04/28 19:48
10F:→ ruokcnn: 你创了100个变数 每个都是noise是有可能的 04/28 19:49
11F:→ ruokcnn: 不试试不会知道的 04/28 19:49
12F:→ ruokcnn: 最後还是要回应bmi那段 分类树不是神啊 04/28 19:50
13F:→ ruokcnn: 他不会自动帮你把各种变数做非线性转换的 04/28 19:51
了解,意思是先做BMI确实有意义但机会很渺茫罗?
14F:推 ruokcnn: 渺茫与否看你要预测啥 bmi应该一行code就可以解决 04/29 12:08
15F:→ ruokcnn: 成本很低蛮值得试试的? 04/29 12:08
谢谢你,我了解了,公式都不难实现,只是公式种类极多(至少100种+)
常见的是有package可用这部分会试试看,感谢
※ 编辑: woogee (1.171.175.207), 04/29/2019 14:51:58
16F:推 tipsofwarren: 我认为会,bmi 不是w h 的线性组合 04/29 21:04
17F:推 tipsofwarren: bmi 可以算是推论得到的 latent variable 04/29 22:48
18F:推 numpy: 换个角度想的话,BMI对我们是一个很通用且可以对一个人的身 04/30 01:09
19F:→ numpy: 材做基本估量的标准,但是不见得对於你要做的预测是最有用 04/30 01:09
20F:→ numpy: 的feature,比如说身高的平方如果换成别的次方有可能表现还 04/30 01:09
21F:→ numpy: 更好,但没试过都不会知道。 04/30 01:09
22F:推 VIATOR: BMI基本上就身高体重简单计算出来的结果 04/30 04:35
23F:→ VIATOR: 感觉不会有太大的帮助 04/30 04:36
24F:→ VIATOR: 到底有没有帮助可能要试才知道,但感觉机会很渺茫 04/30 04:38
25F:推 goldflower: bmi的解释也是人自创的一种metric而已 如果你要最小 04/30 15:35
26F:→ goldflower: 化的函数跟这个值没直接关系我是不觉得能改善多少 04/30 15:35
27F:→ goldflower: 你可以用lightgbm啦 比xgboost快很多 04/30 15:37
28F:推 westercc: 从know-how角度看转bmi是解释得通,这也可以视为是种降 05/03 11:11
29F:→ westercc: 维(2个转1个),增加正确率其实不太客观,应该要减少in o 05/03 11:11
30F:→ westercc: ut error的差距才较好,若是用身高与体重当作变数去训练 05/03 11:11
31F:→ westercc: ,有可能会有离群值导致overfitting,而转成了bmi是有机 05/03 11:11
32F:→ westercc: 会减少离群值的数量,但这需要观察身高、体重、bmi的分 05/03 11:11
33F:→ westercc: 布,如果转bmi後准确率降低,但in out error差距变小, 05/03 11:11
34F:→ westercc: 这也是可以接受的结果 05/03 11:11