作者yauhh (哟)
看板Cloud
标题Re: MapReduce (Re: [情报] 利用智慧型手机建构云端
时间Thu Aug 26 20:25:54 2010
: 推 hilorrk:我知道master必须informed其他worker location of data啦. 08/24 06:28
: → hilorrk:用MapReduce当然就不可能像以前写MPI还要在code里切割分配 08/24 06:29
: → hilorrk:我的意思是..由master传输process和location受限於master 08/24 06:30
: → hilorrk:网路是没办法的吧?相较下来map task从DFS读取大量data及运 08/24 06:31
: → hilorrk:算才是真正的平行所在?(当然还包括reduce) 08/24 06:33
: → hilorrk:至於map worker的grouping及reduce worker的merge要如何实 08/24 06:41
: → hilorrk:现 这又是另一个问题了...确实有看到不少model就是了 08/24 06:42
: → hilorrk:不知我的概念是否还有哪里有需要指正的地方? 08/24 06:58
你是在研究MapReduce的议题,做硕士或博士的研究题目吗?
可以多看一些注解方面的文章.
前一篇有提到"Analyzing MapReduce with CSP"
对MapReduce原文算是很好的注解,在model上有很明白的解释.
(所以我才会质疑他们说map工作完之後要sort,这sort有没有必要.)
这文章的研究人马,最近还有二篇延伸的讨论文章,一样是CSP,很期待能取得来看看.
Map task 的平行来自因为map workers同时有很多个,每个worker执行同一份map,
也就是,许多workers变成同一个map的许多instances. 大量data,则是分解为能
分配给workers的许多份. 在这方面有什麽问题吗?
跟master是否要传输process出去,看起来没有关联.
起先回答你的问题 (话说回来,你的概念是什麽啊?) 是针对一句:
Master 应该没有传输 "资料" 出去吧
嗯...当然,主要被计算的资料项目当然不是由master送出来的. 我想你误会了意思.
Master送工作出去,无论是给map worker或是reduce worker,都一定要给几个资讯:
1. Job的函数名称是甚麽.
2. Job的二个参数,如果参数量很大,至少要给几个档名吧.
而且,哪个map worker收哪段资料,也是master告诉它.
我想, "资料" 只是很普通的讲法而已. 这些资料的资料,也是资料.
至於前面推文说
"由master传输process和location受限於maste(断行)网路是没办法的吧"
这问题是什麽?
这东西如何做分散资源分配,当然是来自於系统的体质,是分散的.
计算单元们是分散的,而且是平行的.
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 218.160.210.87
※ 编辑: yauhh 来自: 218.160.210.87 (08/26 20:27)
1F:→ hilorrk:小弟只是大二升大三的学生啦...而且还不是资讯本科系的XD 08/26 22:03
2F:→ hilorrk:也多谢您的提点 我会再多survey一些相关的文件的! 08/26 22:04
3F:→ yauhh:嗯.那我是写程式的,读这些的目的要实做MapReduce framework 08/28 07:42
4F:推 gmoz:y大说的是Formalizing MapReduce with CSP 这篇吗 我手上有 09/04 14:48
5F:→ yauhh:嗯,我也看完了,很精采的一篇文 09/06 21:31
6F:→ gmoz:我对CSP没接触 看起来格外痛苦XD... 09/07 11:01
7F:→ yauhh:那就去找C.A.R.的原着,他那本书已经开放为公用文件了 09/07 13:11