[问题] 巨量稀疏矩阵进行分群问题

时间Thu Dec 3 11:41:24 2020

各位好,我目前正在学习资料分群,目前遇到一个问题想请问各位如果在一个针对使用者购买习惯的分群的过程中由於商品数量有数十万笔,使用者也有上百万笔要将使用者做分群的话我是以类似下面的排法 ( '消费者A' , [0,1,0,0,0,0,0........]) ( '消费者B' , [1,0,0,0,0,0,1........]) .... 也就是每个使用者所购买的每一个产品都是一个特徵但这从建立一个这麽大的资料量就已经是一个问题了即便降低消费者到只剩下100人,也因为维度太大跑到後面就直接memory error 想请问各位像这种稀疏矩阵,在分群上大家觉得资料应该要先做怎样的处理是洽当的呢因为实在是新手,所以问题可能问得不太好希望能有人能提供建议~ 谢谢 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 39.13.192.19 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1606966886.A.6CD.html

1^F：推 ddavid: 基本上稀疏矩阵就会用特定的稀疏矩阵资料结构去存，不要存 12/03 11:49

2^F：→ ddavid: 一大堆无意义的0，空间会节省非常多 12/03 11:49

3^F：→ ddavid: [0,1,0,0,0,0,1]在资料结构内部会类似1:1,6:1的方式在存 12/03 11:51

4^F：→ ddavid: 当然做法也不只一种，自行Google 稀疏矩阵资料结构有很多 12/03 11:51

5^F：→ ddavid: 资讯可以参考 12/03 11:52

6^F：→ ddavid: 或是你用特定framework就加上该关键字去查询该framework有 12/03 11:52

7^F：→ ddavid: 支援的稀疏矩阵处理方式 12/03 11:52

8^F：→ blueblance: d大你好,我目前是利用python sklearn的kmeans来做分群 12/03 11:59

9^F：→ blueblance: 我google後kmeans似乎支援csr_matrix但即便用csr压缩 12/03 12:00

10^F：→ blueblance: 矩阵的大小,经过了分群的API应该也会被还原成一个那 12/03 12:01

11^F：→ blueblance: 麽大的维度的矩阵,我也好奇针对这种特徵值那麽多的 12/03 12:02

12^F：→ blueblance: 但资料基本上是很稀疏的数据,各位都是用什麽方式处理 12/03 12:03

13^F：→ blueblance: 因为目前矩阵,数据与空的部分可能只有1/100000这样 12/03 12:04

14^F：推 ddavid: 基本上就是要采用I/O都支援稀疏矩阵的Framework吧 12/03 13:53

15^F：→ ddavid: 像这篇： 12/03 13:55

16^F：→ ddavid: https://bit.ly/39A4FnE 12/03 13:55

17^F：→ ddavid: 里面就明确提到用sklearn的PCA输入是稀疏，但输出不是，那 12/03 13:55

18^F：→ ddavid: 自然你就可能在输出上遭遇这个问题 12/03 13:56

19^F：→ ddavid: 所以要嘛去找更符合需求的Framework，不然就自己改 12/03 13:56

20^F：→ ddavid: 不过kmeans好像比较麻烦吧，就算输入是稀疏，但途中计算只 12/03 13:57

21^F：→ ddavid: 要一个平均算中心点就都不稀疏了。 12/03 13:59

22^F：推 ddavid: 所以如果直接保持用矩阵一次运算，即便k值不大，也很可能 12/03 14:01

23^F：→ ddavid: 在运算过程中的某个时间点爆记忆体。 12/03 14:01

24^F：→ ddavid: 不过k-means这麽简单的东西，可以自己手写一个跑回圈一点 12/03 14:02

25^F：→ ddavid: 点处理的版本，就很容易避开记忆体用量的问题，只不过可能 12/03 14:02

26^F：→ ddavid: 会在速度上付出代价 12/03 14:03

27^F：→ ddavid: 写得好，记忆体用量就可以控制在只记录k个中心点的值（非 12/03 14:04

28^F：→ ddavid: 稀疏）以及所有点当下所属的cluster 12/03 14:04

29^F：→ ddavid: 如果资料笔数为n，维度为m，cluster数量为k，用量就可以精 12/03 14:05

30^F：→ ddavid: 确控制在km + n + 少量运算暂存（大约是m）吧 12/03 14:06

31^F：推 wtchen: 要不要先用sklearn的LogisticRegression+l1 penalty 12/03 19:40

32^F：→ wtchen: 找出有明显关联的元素，没影响的元素就去掉 12/03 19:42

33^F：→ wtchen: 这样应该可以降点维度 12/03 19:42

34^F：→ wtchen: 然後再用降维过的资料分群应该会容易多 12/03 19:43

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

DataScience 板

[问题] 巨量稀疏矩阵进行分群问题

热门看板

赞助商连结