作者qddcynthia (温暖的大手)
看板DataScience
标题[问题] 请问数据标准化跟偏度(skew)处理
时间Thu Nov 10 13:23:27 2022
最近在练习Kaggle的房价预测
看了一些前辈的分享, 有些都是modeling之前数据用StandardScaler作标准化
也有的是在数据前处理的时候就对目标函数做log转换, 其他特徵值做boxcox转换
请问如果目的是要让数据正规化分布的话,为什麽不直接做标准化就好呢?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 163.139.171.21 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1668057809.A.6BC.html
1F:→ chang1248w: 什麽是偏化 11/10 13:59
→ chang1248w: 标准化不会改变偏度啊
我理解正确的话, 都是让要让数据正规分布... 11/10 14:12
※ 编辑: qddcynthia (163.139.171.21 日本), 11/10/2022 14:30:02
※ 编辑: qddcynthia (163.139.171.21 日本), 11/10/2022 14:30:50
※ 编辑: qddcynthia (163.139.171.21 日本), 11/10/2022 14:32:07
2F:推 lycantrope: 标准化不会让数据正规分布啊. 11/10 15:04
3F:→ chang1248w: 资料前处理的目的有很多啊,有的模型会被资料的scale 11/10 15:48
4F:→ chang1248w: 影响的,像是knn 神经网路 还有一些gradient based的 11/10 15:48
5F:→ chang1248w: 方法 11/10 15:48
6F:→ chang1248w: 另外有的目的是为了在视觉上呈现资讯 11/10 15:49
7F:→ polie4523: 两个效果不一样吧。标准化改变尺度不改变分布,你把处 11/11 02:23
8F:→ polie4523: 理前後的histogram画出来就知道不会变 11/11 02:23
9F:→ polie4523: 你提到的boxcox才会改变特徵分布,如果原本特徵不符合 11/11 02:28
10F:→ polie4523: 常态分布,效果就是让处理後的资料比较像,因爲大部分m 11/11 02:28
11F:→ polie4523: odel都假设处理的特徵是常态分布才这样做,一样可以把 11/11 02:28
12F:→ polie4523: 处理前後的histogram画出来比较 11/11 02:28
13F:→ qddcynthia: 那请问一般是两种方法都一起用吗? 11/11 07:35
14F:→ chang1248w: 这也不一定 11/11 15:39
15F:推 f821027: X做标准化的部分同意4楼说的 有的模型对於outliers很敏 11/11 20:28
16F:→ f821027: 感 就适合先做标准化 你说的boxcox是针对y转换 因为y资 11/11 20:28
17F:→ f821027: 料分布标准差太大 把他做一个转换後 再和X去build model 11/11 20:28
18F:→ f821027: 这个model predict出的Y再用boxcox反函数转回原本y的样 11/11 20:28
19F:→ f821027: 本空间 11/11 20:28