作者yauhh (喲)
看板Cloud
標題Re: [問題] 關於stragglers的Backup task
時間Tue Sep 7 13:29:36 2010
※ 引述《gmoz ( This can't do that. )》之銘言:
: 這幾天在對MapReduce做一些survey
: 不過有個地方我不太了解細節 o.o
: 就是google用來解決starggles的Backup Task
: 原文如下:
: We have a general mechanism to alleviate the problem
: of stragglers. When a MapReduce operation is close
: to completion, the master schedules backup executions
: of the remaining in-progress tasks. The task is marked
: as completed whenever either the primary or the backup
: execution completes.
: 請問有人知道這個實際運作的細節
: 或是哪邊有資料可以看嗎?
The problem of stragglers是說,MapReduce指派每個工作是試試把工作送出去.
工作在遠端能不能完成,無法確定. 所以在主控端做的事情是,
它一邊派送工作,同時一邊將剛派送出去正在執行的工作放在queue中.
等一段時間,發現遠端機器死了,不管工作或產出資料都鎖在那個死的機器中.
而且一台死掉的機器,它本機存在的工作執行到一半,無法確定產出資料有哪些可信.
MapReduce做法很簡單,就是把沒結果的工作重新派到另一台新的機器,重做.
這樣子,stragglers問題仍然有,不過MapReduce用重新派送工作避開這個問題,
而獲得高效能.
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 211.21.94.199
1F:推 gmoz:好像還會弄出一份copy(backup) 同時執行 09/07 14:16
2F:→ gmoz:所以他有依據會判斷遠端機器可能如y大所說的死掉了 09/07 14:19
3F:→ gmoz:然後安排他的backup task也開始執行這樣@@? 09/07 14:20
4F:推 gmoz:還友兩者只要有任一先完成這個task就算完成 那後(未)完成的 09/07 14:22
5F:→ gmoz:要怎樣偵測和殺掉他 這是我有問題的細節 09/07 14:22
6F:→ gmoz:感謝Y大的回文 09/07 14:22
7F:→ yauhh:未完成的工作直接死在死掉的節點上. 09/07 15:00
8F:→ yauhh:偵測嘛,我想是先偵測節點有沒有死掉. 09/07 15:01