作者simplee (simple)
看板DataScience
标题如何对categories data 做 clustering?
时间Sun Sep 2 19:47:28 2018
资料举例:
用户可以使用的颜色有五种
white, black, orange, red, blue
one hot encoding後
用户A 0,0,1,1,0
用户B 1,0,0,0,1
用户C 0,1,0,0,0
用户D 1,0,1,1,0
……etc
备注: 实际上有800多个颜色与几万个用户
目的
1. 想要知道哪些颜色组合性质接近
2. 可视化(希望有word vector的效果)
查了几个关键字还是不太清楚做法
k-means似乎都是对连续值的类聚(好像可以不要用欧几里得距离, 但也不知道该换什麽)
或可以直接对unary data PCA降维吗? sci-kit learn, matlibplot画出来怪怪的。
-----
Sent from JPTT on my Samsung SM-A530F.
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.77.73.216
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1535888850.A.D6B.html
1F:→ Mchord: onehot只有一个是1, 照你叙述维度就是800多吧, 怕黏在一起 09/02 22:01
2F:→ Mchord: 可以试t-SNE 09/02 22:01
3F:推 germun: Hamming distance 09/03 00:02
4F:→ germun: 不过binary data用Bernoulli Mixture model可能比较好 09/03 00:07
5F:→ germun: k-means需要算center, 对binary data的确怪怪的 09/03 00:07
6F:→ bestchiao: 几万个用户 用tsne会运算颇久 09/03 04:17
7F:推 whsunset: 也许可以试试把颜色当成词袋,用类似 topic modeling 的 09/03 11:06
8F:→ whsunset: 方法来做 clustering? 09/03 11:06
9F:推 littleyuan: 用support vector clustering呢? 09/03 13:38
10F:→ simplee: 谢谢关键字提供! 我来研究看看 09/03 14:48
11F:推 a78998042a: Shannon's diversity index 09/04 01:38
12F:推 Etern: t-SNE 09/04 01:56