[问题] 类别变数再神经网路或是其他 ML 方法处理

时间Sun Sep 9 16:21:39 2018

咪纳桑大家好我最近在处理一份资料，想要预测商品购买类别资料有连续型变数跟类别变数，然後我想问的是 ---第一点--- 当类别有5个的时候，例如 A B C D E 我想把他转成虚拟变数(这可以叫做 one-hot 吗) [1,0,0,0,0] [0,1,0,0,0] [0,0,1,0,0] [0,0,0,1,0] [0,0,0,0,1] 但以前学统计的时候，都会希望虚拟变数会是类别数 - 1 所以应该是转成 [1,0,0,0] [0,1,0,0] [0,0,1,0] [0,0,0,1] [0,0,0,0] 所以我想问，这两种转换方式在神经网路跟其他机器学习的方法会有差吗 ---第二点--- 当类别变数有顺序并且等距的时候，还需要转成 one-hot 吗例如 A B C D E 是否可以转成 1 2 3 4 5 ，会不会比用第一点的方式好 ? ---第三点--- 在做神经网路处理的时候，每个变数都需要做标准化，那转成 one-hot 的资料还需要做标准化吗另外像是这种大部分都是零的矩阵，在神经网路似乎要用不同的方法去做好像是甚麽稀疏矩阵特别处理的，这我还没研究，可以的话希望也可以提点一下不好意思，我英文不太好，爬文速度很慢，但是我还是会办法从其他地方找答案但能提点小弟的部分就麻烦大家了 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.119.143.27 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1536481302.A.1FB.html

1^F：推 b05703: 那样是one hot encoding没错，我个人比较prefer第一种因 09/09 16:39

2^F：→ b05703: 为我们在output 的时候喜欢用sigmoid 或softmax来把各类别 09/09 16:39

3^F：→ b05703: 变成机率的样子所以一比较直观~ 09/09 16:39

4^F：→ b05703: 另外不推荐1，2，3，4，5这样因为在做back propagation 09/09 16:41

5^F：→ b05703: 的时候效果跟onehot encoding有差 09/09 16:41

6^F：→ b05703: 如果你类别数没特别多的话不用考虑稀疏矩阵 09/09 16:42

我这个类别变数的部分是 X 变数不是 y 变数这样是符合您说吗，谢谢回答，非常感激 ※ 编辑: zxc741qaz123 (140.119.143.27), 09/09/2018 17:03:00

7^F：→ Mchord: 不能用12345的理由是因为希望C到A跟C到B的距离要一样，依 09/09 17:02

8^F：→ Mchord: 此类推… 09/09 17:02

它的 A B C 意思是年龄 11~15 16~20 21~25 所以我想问是不是能转成 1 2 3 感激回应 ※ 编辑: zxc741qaz123 (140.119.143.27), 09/09/2018 17:04:31

9^F：推 b05703: X变数y变数是啥意思你是不是把feature跟label搞混啦我们 09/09 17:11

10^F：→ b05703: 只会对label做one hot encoding 09/09 17:11

恩恩，我这篇问的是 feature ，所以如果 feature 是类别的话不会做 one hot encoding 吗如果不做的话通常会怎麽处理呢。 ※ 编辑: zxc741qaz123 (140.119.143.27), 09/09/2018 17:31:13

11^F：→ b05703: 不好意思我理解可能有误刚刚查了下资料有看到对feature 09/09 18:17

12^F：→ b05703: 做onehot的部分但我不太熟悉就留给其他高手补充至於若f 09/09 18:17

13^F：→ b05703: eature 有大小关系的话应该是可以那样表示的然後再normal 09/09 18:17

14^F：→ b05703: ize到0跟1之间这样比较好train~有误再指出感恩 09/09 18:17

15^F：→ jackwang01: 神经网路的类别变数，我觉得还是用第一种方式就好，就 09/10 03:53

16^F：→ jackwang01: 算其实有年龄这类的上下关系 09/10 03:53

17^F：→ jackwang01: 另外就我的理解，转one hot应该就不用标准化了，有错 09/10 03:55

18^F：→ jackwang01: 请指正谢谢 09/10 03:55

19^F：推 EGsux: 第一题你学的统计是对的一模一样的东西统计学过都能用 09/10 10:32

20^F：→ EGsux: 来ML不用怕 09/10 10:32

21^F：推 EGsux: 第二点要看变数跟 Y的关系 09/10 10:35

22^F：→ EGsux: 数据本来就0跟1也不用做标准化如果觉得 one hot 维度过多 09/10 10:37

23^F：→ EGsux: 就 dimensionality reduction 09/10 10:37

24^F：推 yoyololicon: feature可以one hot阿像我最近写fftnet 输入就是qu 09/10 18:47

25^F：→ yoyololicon: antized後的类别 09/10 18:47

26^F：→ Wush978: 现在除了做dummy variable外还流行做embedding了 09/10 21:27

27^F：→ tsoahans: one-hot我还是会做标准化因为他不一定是zero mean unit 09/11 16:50

28^F：→ tsoahans: variance 这可能会有影响 09/11 16:50

29^F：→ tsoahans: 但应该不会差太多就是了 09/11 16:51

30^F：推 zianz113: 2. 不好这样e会比较“特别” 除非你有需求/已知特性 09/22 03:03

31^F：→ zianz113: 3. 也不好这样a跟e的差距比其他任两类都大 09/22 03:03

32^F：→ zianz113: 除非有已知的knowledge 否则会先“公平”看待每类 09/22 03:04

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

DataScience 板

[问题] 类别变数再神经网路或是其他 ML 方法处理

热门看板

赞助商连结