作者Wush978 (拒看低質媒體)
看板R_Language
標題[分享] FeatureHashing
時間Wed Jan 21 23:40:58 2015
[關鍵字]: FeatureHashing, hashing trick, R
[出處]:
https://www.youtube.com/watch?v=CdMzHLrmpi8
這是我在社群介紹CRAN的套件:FeatureHashing時的錄影
在以預測為主的分析,處理大量資料時,
如果有大量Categorical Variables,
用這個套件可以讓寫code簡單很多(但是準確度會掉一點點)
也可以當作一種randomized dimension reduction使用。
歡迎有興趣的版友試用,有問題也歡迎找我交流。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.45.200.180
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1421854862.A.3A1.html
※ 編輯: Wush978 (114.45.200.180), 01/21/2015 23:41:54
1F:推 braveht: 為什麼有dimension reduction效果? 01/21 23:46
2F:→ Wush978: 你可以設定hash過後空間的大小 01/22 00:09
3F:→ Wush978: 有Paper計算這種方式降維後,向量內積的誤差範圍 01/22 00:11
Kilian Weinberger; Anirban Dasgupta; John Langford; Alex Smola; Josh
Attenberg (2009). "Feature Hashing for Large Scale Multitask Learning". Proc.
ICML
※ 編輯: Wush978 (114.45.200.180), 01/22/2015 00:13:13
4F:推 gsuper: 正需要這種 我現在都不處理 numeric 了, 直接都轉 01/22 23:33
5F:→ gsuper: artifically category variable 01/22 23:34
6F:推 kenshin528: 推推感謝分享 01/23 23:32