Re: [情报] Google的新paper(Caffeine)

时间Sun Dec 5 14:58:40 2010

※ 引述《gmoz ( This can't do that. )》之铭言： : 其实10月初就有了，刚刚才发现@@ : http://0rz.tw/ztXgh : 用来应付索引资料内即时更新的资料 : 正在看XD 之前看完了，稍微PO一下大意好了XD 里面提出一个增量处理的系统 Percolator 用Percoliator为主的搜索引擎就是咖啡因简单的大意就是，原本的Google是用MapReduce来分析整理爬下来的网页，制作出索引库如果现在有一批新资料(更新过的网页)出现时，没办法即时地只对这些资料做MapReduce整理就加进索引库因为索引库内的资料彼此之间都是有关连的例：由A算出B、由B算出C，你不能只更新一小部份的A或B或C 你只能全部重做Mapreduce 一般的资料库又没办法容纳下GOOGLE的资料量，也缺乏伸缩性所以Google提出Percolator，可以增量的处理新资料的玩意主要有两个重点：transaction 和 observer 符合ACID(利用时间戳达成ACID)的transaction用来读写资料又因为他的ACID特性可以避免冲突而触发与运行transcation的便是observer 一个observer会再触发(trigger)他下游的observer (ob之间的关系开发者自定义) 一系列的observer就构成了Percolator的主要架构原本的GOOGLE SEARCH要做100次左右的Mapreduce 现在GOOGLE只需要10个observer就可以做完另外Percolator是建构在改良过的Bigtable上 (这里用的是GFS2) Percolator发送RPC给Bigtable server，这个server再发送RPC给chunk server做实体修改一个对bigtable的新增 (改良成多row，并且有时间戳，类似版本概念) 会登记在他的notify列，等待observer来处理他系统流程直接引述PAPER里面的一段话 Percolator applications are structured as a series of observers; each observer completes a task and creates more work for “downstream” observers by writing to the table. In our indexing system, a MapReduce loads crawled documents into Percolator by running loader transactions, which trigger the document processor transaction to index the document (parse, extract links, etc.). The document processor transaction triggers further transactions like clustering. The clustering transaction, in turn, triggers transactions to export changed document clusters to the serving system. 原文里面还有很多细节例如observer是以怎样的方式去搜索notify亮起来的bigtable行列 observer在运作时候避免冲突的流程细节，transaction的程式细节和锁的运作如何减少RPC和效能的分析等等 --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 111.243.224.126 ※ 编辑: gmoz 来自: 111.243.224.126 (12/05 15:03)

1^F：推 Azarc:推 12/06 10:05

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Cloud 板

Re: [情报] Google的新paper(Caffeine)

热门看板

赞助商连结