作者jackal11 (NC)
看板Programming
标题[问题] 大量资料处理
时间Sun Sep 9 23:55:45 2012
小弟最近要处理几百万笔的资料,格式以.txt档为主
除了原本的资料档外,还要另外Output出两个档
两个档的差别就在於
一个档是印出原本资料档里,所有重复的字串
而另一个档则是印出原本资料档里,所有不重复的字串
而小弟所遇到的问题就是
我在程式里每读一笔资料,就要跟之前的"""已读的"""资料比对一次
然後就很耗时间........
想问大家有没有哪种"""程式语言"""(混合也可),可以较为快速处理大量的文字资料
-----
PS希望可以不要用到database来处理
先感谢大家了>___<"
-----
补充一下,目前小弟是用python中的字典,来存放key和value
跑了半小时,只跑了5000笔资料><"
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 1.172.92.111
1F:→ streitleak:你需要的是够大的RAM来跑 1.34.71.45 09/10 00:21
2F:→ streitleak:基本上 先把档案丢到RAM里去比对 1.34.71.45 09/10 00:22
3F:→ streitleak:会比你用IO的方式比对快很多 1.34.71.45 09/10 00:22
4F:→ jackal11:喔喔,谢谢大大>< 1.172.92.111 09/10 00:33
5F:→ jackal11:只是想问问有没有可以让处理速度更快的程 1.172.92.111 09/10 00:36
6F:→ jackal11:式语言,GOOGLE後有发现好像有些程式语言 1.172.92.111 09/10 00:37
7F:→ jackal11:在处理大量资料上,速度会有所差异 1.172.92.111 09/10 00:37
※ 编辑: jackal11 来自: 1.172.92.111 (09/10 00:38)
8F:→ MOONRAKER:用hashtable不就结了。 114.45.202.196 09/10 02:10
9F:→ MOONRAKER:不然就是搜寻树。 114.45.202.196 09/10 02:11
10F:→ MOONRAKER:再不然装SQL来用。怎样都比你现在好。 114.45.202.196 09/10 02:11
11F:→ streitleak:实际上 你的问题症结点不在那个"语言" 1.34.71.45 09/10 10:18
12F:→ streitleak:而是你的资料结构跟演算法 1.34.71.45 09/10 10:19
13F:→ streitleak:以前cpu慢得时候 或许语言速度差异很 1.34.71.45 09/10 10:19
14F:→ streitleak:显 但现在除非是量大到很夸张的地步 1.34.71.45 09/10 10:19
15F:→ streitleak:不然通常已经很难看出差异点了 1.34.71.45 09/10 10:19
16F:→ Lordaeron:是你看不出差异而已吧. 210.59.250.101 09/10 11:10
17F:→ jackal11:好的,谢谢以上大大的指导>___< 1.172.92.111 09/10 15:27
18F:→ MOONRAKER:SQL是你最好的朋友。不然就先uniq再diff 118.163.12.174 09/10 18:11
19F:→ MOONRAKER:不过那麽多笔uniq可能会爆炸,哈哈 118.163.12.174 09/10 18:11
※ 编辑: jackal11 来自: 1.172.92.111 (09/10 21:55)
20F:→ MOONRAKER:为啥不要db 自己查一下uniq, diff是啥 114.45.203.126 09/11 06:24
21F:→ buganini:python有那麽慢?! 61.221.51.22 09/13 01:54