作者LibrainAir (矛盾与平衡)
看板Python
标题[问题] CSV档案输入
时间Sun Apr 5 10:40:37 2020
请问各位先进,我有档案仅纪录一连串X,Y座标但可能出现多个重复值,也就是说可以画成heap map
我想要将这个档案依照对应出现次数转成list,例如
[原始档案]
X Y
1 2
2 1
1 1
1 1
0 0
1 1
[预期输出]
[[1,0,0],
[0,3,1],
[0,1,0]]
主要是要用於深度学习预处理资料,想请问大家改如何切入?
谢谢!
----
Sent from
BePTT on my Samsung SM-J610G
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.141.108.205 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1586054439.A.144.html
※ 编辑: LibrainAir (223.141.108.205 台湾), 04/05/2020 10:42:16
1F:→ Starcraft2: 先扫一次X, Y可能的最大值 宣告一个2维阵列 04/05 11:29
2F:→ Starcraft2: 初值为0然後for回圈去this_heat_map_array[x][y] += 1 04/05 11:30
3F:→ Starcraft2: 你自己有写写看一些了吗? 04/05 11:30
4F:→ LibrainAir: 谢谢回覆,是的有尝试过,但资料是百万尺寸所以RAM爆 04/05 12:25
5F:→ LibrainAir: 掉了 04/05 12:25
6F:→ LibrainAir: 所以想请问是否Panda或是Numpy有提供类似功能或是能 04/05 12:25
7F:→ LibrainAir: 改善的架构? 04/05 12:25
8F:→ LibrainAir: 再次感谢 04/05 12:25
9F:推 TitanEric: numpy.unique搭配return_counts参数 04/05 15:31
10F:→ justoncetime: 前面一页内有人问过.还有贴出你的code才知你怎写的 04/05 15:55
11F:推 jigfopsda: 可以看一下 sparse matrix 有没有满足你的需求 04/05 19:32
13F:→ LibrainAir: 主要处理到这边,目前卡在资料量太大如何处理,我会 04/06 01:10
14F:→ LibrainAir: 参考上述的建议 04/06 01:10
15F:→ LibrainAir: 再次感谢! 04/06 01:10
16F:→ justoncetime: 电脑上的画面请用电脑撷,除非其他方式能一样清楚 04/06 01:45
17F:→ justoncetime: code有的人可能想try帮你debug,贴文字(或pastebin 04/06 01:50
18F:→ justoncetime: 这两项,我觉得是提问者对潜在可能会帮助者的礼貌 04/06 01:50
19F:→ LibrainAir: 好的,十分感谢建议! 04/06 02:18
20F:→ LibrainAir: 我之後会更正程式码,谢谢 04/06 02:18
22F:→ LibrainAir: 更正程式码 04/06 13:29
23F:→ Starcraft2: 目前的code一样是爆在memory吗? 错误讯息也可以帮助 04/07 02:40
24F:→ Starcraft2: 大家帮忙看 04/07 02:40
25F:推 darama: 先找 x, y 的最大值, 用以上值宣告一个output 2d array 04/30 16:51
26F:推 darama: 遍历全部座标(i,j) ;output[i][j]+=1 04/30 16:53