DataScience 板


LINE

问题类别:数据预处理 使用工具: python pytorch scikit-learn 问题内容: 各位大大好,最近在研究对於资料处理的部分, 在面对无序特徵(nominal feature时), 我们通常习惯使用one-hot encoding的技巧来处理我们的数据。 将一个特徵(例如颜色)拆成n个特徵(红,橙,黄...), 再藉由二元的0跟1来表示。 那想请教的是,如果做处理类似的特徵时, 可以将one-hot encoding所产生的稀疏矩阵合并使用吗? 或是换句话说,可以对一个属於多类别的list进行one-hot encoding 以下举个简单的例子 先以常见的颜色问题举例,假设我们在描述衣服的颜色特徵, 我们会将以下特徵: 颜色 红 黄 蓝 转换成 颜色红 颜色黄 颜色蓝 [1 0 0] [0 1 0] [0 0 1] 那我想请教的是,如果今天衣服有多个颜色呢? 例如: 颜色 红蓝相间 红黄相间 黄蓝相间 我的脑海中主要出现三种方法 想请教大大们是否可行或是有哪些优缺? 方法1: 区分成颜色1 颜色2 这样使用one-hot encoding就会变成 颜色1红 颜色1黄 颜色1蓝 颜色2红 颜色2黄 颜色2蓝 [1 0 0 0 0 1] . . . 思考:这种方法应该是可行,只是如果遇到颜色很多时, 可能会产生参数过大的问题,且产生的矩阵会太稀疏。 方法2: 既然都是在描写颜色特徵,能否直接在同一个one-hot encoding的矩阵中描述。 颜色红 颜色黄 颜色蓝 [1 0 1] . . . 思考:这样可以避免掉方法1可能产生的问题, 只是不知道能不能将one-hot encoding这样子使用? 我目前的想法是觉得应该可行,因为1跟0是代表是与否而已(? 想请问这样的数据处理是否会产生问题? 方法3: 基本上混合了方法1与方法2, 在同一个one-hot encoding中表示, 但是是形成一个多维的矩阵来表示 颜色红 颜色黄 颜色蓝 [1 0 0 0 0 1] 思考:如上所示,用一个二维矩阵来表示衣服的全部颜色, 一列表示了一个颜色,这是我在网路上看到有人尝试过的方法, 但比较疑惑的是,如果衣服的颜色很多,会使列数增加, 是否又会导致问题一的问题,加上其他的特徵如果都是一维的(例如衣服的价钱,尺码) 这样是否会导致输入参数的维度不一致? 以上是我目前能想到的三个方法 不知道各位大大有什麽想法 目前倾向於使用方法2 因为我想要研究的题目 资料数量会很庞大 怕使用方法1与3会使得资料过於庞大 不知道方法2是否可行呢? 或是各位大大有没有什麽其他的处理方法呢? 在此先感谢资料科学版的各位大大 祝大家新年快乐 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 39.10.106.40
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1549459747.A.BB5.html ※ 编辑: karco (118.233.179.85), 02/06/2019 23:16:28
1F:推 p122607: 我个人觉得第二个方法好,就把各自当作独立特徵,不过那 02/07 10:06
2F:→ p122607: 就要预先列出在你的研究中所有可能会出现颜色类别。如果 02/07 10:06
3F:→ p122607: 你的资料颜色很重要,那是不是会使用到很多渐层色来标记 02/07 10:06
4F:→ p122607: ,那原始的资料也要够多才行 02/07 10:06
5F:推 yiefaung: 通常就法二 multilabel 02/07 16:47
感谢两位大大回覆 关於p大的留言 目前想实作的应用是原子的id 想藉由one-hot encoding来表示原子间的邻居关系 所以应该可以避免掉类似渐层色的问题 当然还是一边搜集更多原始资料中 另外针对y大的回覆,所以特徵也适用multilabel的方法罗? 一开始以为只能应用在label的处理上 感谢解答 ※ 编辑: karco (118.233.179.85), 02/07/2019 23:45:04
6F:→ celestialgod: 想成什麽颜色有出现的话,法二就很直觉 02/14 15:26
7F:→ celestialgod: 法三看认成不同件衣服 02/14 15:27







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:WOW站内搜寻

TOP