作者yauhh (喲)
看板Cloud
標題Re: MapReduce (Re: [情報] 利用智慧型手機建構雲端
時間Thu Aug 26 20:25:54 2010
: 推 hilorrk:我知道master必須informed其他worker location of data啦. 08/24 06:28
: → hilorrk:用MapReduce當然就不可能像以前寫MPI還要在code裡切割分配 08/24 06:29
: → hilorrk:我的意思是..由master傳輸process和location受限於master 08/24 06:30
: → hilorrk:網路是沒辦法的吧?相較下來map task從DFS讀取大量data及運 08/24 06:31
: → hilorrk:算才是真正的平行所在?(當然還包括reduce) 08/24 06:33
: → hilorrk:至於map worker的grouping及reduce worker的merge要如何實 08/24 06:41
: → hilorrk:現 這又是另一個問題了...確實有看到不少model就是了 08/24 06:42
: → hilorrk:不知我的概念是否還有哪裡有需要指正的地方? 08/24 06:58
你是在研究MapReduce的議題,做碩士或博士的研究題目嗎?
可以多看一些註解方面的文章.
前一篇有提到"Analyzing MapReduce with CSP"
對MapReduce原文算是很好的註解,在model上有很明白的解釋.
(所以我才會質疑他們說map工作完之後要sort,這sort有沒有必要.)
這文章的研究人馬,最近還有二篇延伸的討論文章,一樣是CSP,很期待能取得來看看.
Map task 的平行來自因為map workers同時有很多個,每個worker執行同一份map,
也就是,許多workers變成同一個map的許多instances. 大量data,則是分解為能
分配給workers的許多份. 在這方面有什麼問題嗎?
跟master是否要傳輸process出去,看起來沒有關聯.
起先回答你的問題 (話說回來,你的概念是什麼啊?) 是針對一句:
Master 應該沒有傳輸 "資料" 出去吧
嗯...當然,主要被計算的資料項目當然不是由master送出來的. 我想你誤會了意思.
Master送工作出去,無論是給map worker或是reduce worker,都一定要給幾個資訊:
1. Job的函數名稱是甚麼.
2. Job的二個參數,如果參數量很大,至少要給幾個檔名吧.
而且,哪個map worker收哪段資料,也是master告訴它.
我想, "資料" 只是很普通的講法而已. 這些資料的資料,也是資料.
至於前面推文說
"由master傳輸process和location受限於maste(斷行)網路是沒辦法的吧"
這問題是什麼?
這東西如何做分散資源分配,當然是來自於系統的體質,是分散的.
計算單元們是分散的,而且是平行的.
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 218.160.210.87
※ 編輯: yauhh 來自: 218.160.210.87 (08/26 20:27)
1F:→ hilorrk:小弟只是大二升大三的學生啦...而且還不是資訊本科系的XD 08/26 22:03
2F:→ hilorrk:也多謝您的提點 我會再多survey一些相關的文件的! 08/26 22:04
3F:→ yauhh:嗯.那我是寫程式的,讀這些的目的要實做MapReduce framework 08/28 07:42
4F:推 gmoz:y大說的是Formalizing MapReduce with CSP 這篇嗎 我手上有 09/04 14:48
5F:→ yauhh:嗯,我也看完了,很精采的一篇文 09/06 21:31
6F:→ gmoz:我對CSP沒接觸 看起來格外痛苦XD... 09/07 11:01
7F:→ yauhh:那就去找C.A.R.的原著,他那本書已經開放為公用文件了 09/07 13:11