作者chengreg (想重回校园的工程师)
看板Cloud
标题[问题] 海量资料查询的问题,Ya~第一个提问的喔!!
时间Fri Jul 30 00:12:41 2010
首先当然不免俗的恭喜开版!!
小弟不小心逛到这边因为一直在找寻方向与灵感
故顺道发表这问题,因为小弟不知道这问题该发在哪个版
若板大觉得不适合,请直接删文...Sorry瞜
小弟最近遇到一个相当大的麻烦,就是属於巨量行资料的问题
通常巨量型资料再处理搜寻时不外乎用些搜寻引擎
例如 : Lucene(由於小弟的案子用C#开发,故使用了Lucene.NET)
OK~相安无事的完成系统後一年,发现Lucene撑不住了,
也许板上的前辈会说 "Lucene怎会撑不住??"
没错,由於小弟的案子不是如同google一般,搜得到就搜得到,
搜不到~也就算了!?
而小弟的资料是属於,搜不到??不可能!!保证有这一个资料,而你却搜不到
讲白一点,就是"法律的裁判书"
目前资料库全文共有千万笔资料,然後当大量同时查询,加上过於复杂的复合条件
造成系统反应太慢,Lucene的效能已被小弟乍到极限...
这当然不成,至少120万笔资料一个index所查询的反应时间须压到小於1秒
这是个严苛的考验,故小弟脑中一直思考着分散式的设计方法
但分散式须牵扯多台机器同时运算!!
并且很大的问题在於每台机器查询完成後小弟利用Remoting的方式将物件传输到
一台统整的机器上,这种初步的设计原型小地写出来了,但是很不幸的
1.Lucene 压在1.5sec左右,就是压不下来
2.网路传输又耗到 1~3 sec
3.每台在远端运算後,统整却不知道如何排序
实在想破头,故想到云端运算的架构是否类似小弟的设计架构(小弟的很粗浅)
所以顺道请教贵版之前辈
是否有此经验可以提供方向给小弟参考!!
非常谢谢各位前辈~
ps.再次恭喜开版~~~加油加油
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 115.43.156.107
1F:推 ledia:solr ? 08/01 20:26
2F:→ ledia:don't reinvent the wheels 08/01 20:27