DataScience 板


LINE

不好意思,这个问题实在不知道怎麽下标题所以只好这样下 是这样的,最近有个project有点赶 内容比较不方便说明,这边用举例的 举例为: 假设你目前仅有的资料是身高和体重 要预测他会喜欢4种商品的哪样产品(multi class classification) 我的疑问为: 直接以"身高、体重"当input,使用xgboost预测 与 先以常用的已知公式bmi计算後再把"身高、体重、bmi"使用xgboost预测 是否可能会增加正确率? 会有这个疑问是因为bmi原本也是从身高、体重所衍生的资讯 如果原本身高体重就无法解释喜欢哪样商品 纵使增加了bmi这个资讯正确率仍然不会增加才对 但概念上,先计算出bmi与资料预处理(preprocessing)又有点类似 好的预处理确实会影响预测准确率 所以到底先经过一些原本已知的公式计算後当input,有没有可能大幅增加正确率? 以上,先谢谢各位大大的指教 == 补充: 因为时间比较紧,我只能在 1. 撰写一堆爬虫赶快搜集蒐集更多资料 2. 撰写一推不同的公式计算当input预测看看 两个方式抉择一种 又2的部分也有将近无限多种公式的种类 所以如果2的方式确定不可行,或是可行的机会太渺茫 我要把时间全部砸在1的方式处理 以上,谢谢各位 --
1F:推 otosaka: 什麽长颈鹿果实 明明就牛牛果实长颈鹿型态
2F:→ Miltonn: 楼上 是马马果实吧
3F:推 spritepeare: 楼上 是牛==
4F:推 acer2265848: 楼上是羊
--



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.171.175.207
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1556446774.A.ADD.html ※ 编辑: woogee (1.171.175.207), 04/28/2019 18:27:44
5F:推 ruokcnn: Feature engineering就是trial and error 04/28 19:46
6F:→ ruokcnn: 分类树不会知道身高跟体重有bmi的关系 04/28 19:47
7F:→ ruokcnn: 想无脑创变数就把你学过的所有数学转换都丢进去 04/28 19:47
8F:→ ruokcnn: 看importance有没有差 04/28 19:47
9F:→ ruokcnn: 但2的命中率可能会很低就是了 04/28 19:48
10F:→ ruokcnn: 你创了100个变数 每个都是noise是有可能的 04/28 19:49
11F:→ ruokcnn: 不试试不会知道的 04/28 19:49
12F:→ ruokcnn: 最後还是要回应bmi那段 分类树不是神啊 04/28 19:50
13F:→ ruokcnn: 他不会自动帮你把各种变数做非线性转换的 04/28 19:51
了解,意思是先做BMI确实有意义但机会很渺茫罗?
14F:推 ruokcnn: 渺茫与否看你要预测啥 bmi应该一行code就可以解决 04/29 12:08
15F:→ ruokcnn: 成本很低蛮值得试试的? 04/29 12:08
谢谢你,我了解了,公式都不难实现,只是公式种类极多(至少100种+) 常见的是有package可用这部分会试试看,感谢 ※ 编辑: woogee (1.171.175.207), 04/29/2019 14:51:58
16F:推 tipsofwarren: 我认为会,bmi 不是w h 的线性组合 04/29 21:04
17F:推 tipsofwarren: bmi 可以算是推论得到的 latent variable 04/29 22:48
18F:推 numpy: 换个角度想的话,BMI对我们是一个很通用且可以对一个人的身 04/30 01:09
19F:→ numpy: 材做基本估量的标准,但是不见得对於你要做的预测是最有用 04/30 01:09
20F:→ numpy: 的feature,比如说身高的平方如果换成别的次方有可能表现还 04/30 01:09
21F:→ numpy: 更好,但没试过都不会知道。 04/30 01:09
22F:推 VIATOR: BMI基本上就身高体重简单计算出来的结果 04/30 04:35
23F:→ VIATOR: 感觉不会有太大的帮助 04/30 04:36
24F:→ VIATOR: 到底有没有帮助可能要试才知道,但感觉机会很渺茫 04/30 04:38
25F:推 goldflower: bmi的解释也是人自创的一种metric而已 如果你要最小 04/30 15:35
26F:→ goldflower: 化的函数跟这个值没直接关系我是不觉得能改善多少 04/30 15:35
27F:→ goldflower: 你可以用lightgbm啦 比xgboost快很多 04/30 15:37
28F:推 westercc: 从know-how角度看转bmi是解释得通,这也可以视为是种降 05/03 11:11
29F:→ westercc: 维(2个转1个),增加正确率其实不太客观,应该要减少in o 05/03 11:11
30F:→ westercc: ut error的差距才较好,若是用身高与体重当作变数去训练 05/03 11:11
31F:→ westercc: ,有可能会有离群值导致overfitting,而转成了bmi是有机 05/03 11:11
32F:→ westercc: 会减少离群值的数量,但这需要观察身高、体重、bmi的分 05/03 11:11
33F:→ westercc: 布,如果转bmi後准确率降低,但in out error差距变小, 05/03 11:11
34F:→ westercc: 这也是可以接受的结果 05/03 11:11







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Tech_Job站内搜寻

TOP