DataScience 板


LINE

問題類別:數據預處理 使用工具: python pytorch scikit-learn 問題內容: 各位大大好,最近在研究對於資料處理的部分, 在面對無序特徵(nominal feature時), 我們通常習慣使用one-hot encoding的技巧來處理我們的數據。 將一個特徵(例如顏色)拆成n個特徵(紅,橙,黃...), 再藉由二元的0跟1來表示。 那想請教的是,如果做處理類似的特徵時, 可以將one-hot encoding所產生的稀疏矩陣合併使用嗎? 或是換句話說,可以對一個屬於多類別的list進行one-hot encoding 以下舉個簡單的例子 先以常見的顏色問題舉例,假設我們在描述衣服的顏色特徵, 我們會將以下特徵: 顏色 紅 黃 藍 轉換成 顏色紅 顏色黃 顏色藍 [1 0 0] [0 1 0] [0 0 1] 那我想請教的是,如果今天衣服有多個顏色呢? 例如: 顏色 紅藍相間 紅黃相間 黃藍相間 我的腦海中主要出現三種方法 想請教大大們是否可行或是有哪些優缺? 方法1: 區分成顏色1 顏色2 這樣使用one-hot encoding就會變成 顏色1紅 顏色1黃 顏色1藍 顏色2紅 顏色2黃 顏色2藍 [1 0 0 0 0 1] . . . 思考:這種方法應該是可行,只是如果遇到顏色很多時, 可能會產生參數過大的問題,且產生的矩陣會太稀疏。 方法2: 既然都是在描寫顏色特徵,能否直接在同一個one-hot encoding的矩陣中描述。 顏色紅 顏色黃 顏色藍 [1 0 1] . . . 思考:這樣可以避免掉方法1可能產生的問題, 只是不知道能不能將one-hot encoding這樣子使用? 我目前的想法是覺得應該可行,因為1跟0是代表是與否而已(? 想請問這樣的數據處理是否會產生問題? 方法3: 基本上混合了方法1與方法2, 在同一個one-hot encoding中表示, 但是是形成一個多維的矩陣來表示 顏色紅 顏色黃 顏色藍 [1 0 0 0 0 1] 思考:如上所示,用一個二維矩陣來表示衣服的全部顏色, 一列表示了一個顏色,這是我在網路上看到有人嘗試過的方法, 但比較疑惑的是,如果衣服的顏色很多,會使列數增加, 是否又會導致問題一的問題,加上其他的特徵如果都是一維的(例如衣服的價錢,尺碼) 這樣是否會導致輸入參數的維度不一致? 以上是我目前能想到的三個方法 不知道各位大大有什麼想法 目前傾向於使用方法2 因為我想要研究的題目 資料數量會很龐大 怕使用方法1與3會使得資料過於龐大 不知道方法2是否可行呢? 或是各位大大有沒有什麼其他的處理方法呢? 在此先感謝資料科學版的各位大大 祝大家新年快樂 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 39.10.106.40
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1549459747.A.BB5.html ※ 編輯: karco (118.233.179.85), 02/06/2019 23:16:28
1F:推 p122607: 我個人覺得第二個方法好,就把各自當作獨立特徵,不過那 02/07 10:06
2F:→ p122607: 就要預先列出在你的研究中所有可能會出現顏色類別。如果 02/07 10:06
3F:→ p122607: 你的資料顏色很重要,那是不是會使用到很多漸層色來標記 02/07 10:06
4F:→ p122607: ,那原始的資料也要夠多才行 02/07 10:06
5F:推 yiefaung: 通常就法二 multilabel 02/07 16:47
感謝兩位大大回覆 關於p大的留言 目前想實作的應用是原子的id 想藉由one-hot encoding來表示原子間的鄰居關係 所以應該可以避免掉類似漸層色的問題 當然還是一邊搜集更多原始資料中 另外針對y大的回覆,所以特徵也適用multilabel的方法囉? 一開始以為只能應用在label的處理上 感謝解答 ※ 編輯: karco (118.233.179.85), 02/07/2019 23:45:04
6F:→ celestialgod: 想成什麼顏色有出現的話,法二就很直覺 02/14 15:26
7F:→ celestialgod: 法三看認成不同件衣服 02/14 15:27







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Boy-Girl站內搜尋

TOP