作者yauhh (哟)
看板Cloud
标题Re: [问题] 关於stragglers的Backup task
时间Tue Sep 7 13:29:36 2010
※ 引述《gmoz ( This can't do that. )》之铭言:
: 这几天在对MapReduce做一些survey
: 不过有个地方我不太了解细节 o.o
: 就是google用来解决starggles的Backup Task
: 原文如下:
: We have a general mechanism to alleviate the problem
: of stragglers. When a MapReduce operation is close
: to completion, the master schedules backup executions
: of the remaining in-progress tasks. The task is marked
: as completed whenever either the primary or the backup
: execution completes.
: 请问有人知道这个实际运作的细节
: 或是哪边有资料可以看吗?
The problem of stragglers是说,MapReduce指派每个工作是试试把工作送出去.
工作在远端能不能完成,无法确定. 所以在主控端做的事情是,
它一边派送工作,同时一边将刚派送出去正在执行的工作放在queue中.
等一段时间,发现远端机器死了,不管工作或产出资料都锁在那个死的机器中.
而且一台死掉的机器,它本机存在的工作执行到一半,无法确定产出资料有哪些可信.
MapReduce做法很简单,就是把没结果的工作重新派到另一台新的机器,重做.
这样子,stragglers问题仍然有,不过MapReduce用重新派送工作避开这个问题,
而获得高效能.
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 211.21.94.199
1F:推 gmoz:好像还会弄出一份copy(backup) 同时执行 09/07 14:16
2F:→ gmoz:所以他有依据会判断远端机器可能如y大所说的死掉了 09/07 14:19
3F:→ gmoz:然後安排他的backup task也开始执行这样@@? 09/07 14:20
4F:推 gmoz:还友两者只要有任一先完成这个task就算完成 那後(未)完成的 09/07 14:22
5F:→ gmoz:要怎样侦测和杀掉他 这是我有问题的细节 09/07 14:22
6F:→ gmoz:感谢Y大的回文 09/07 14:22
7F:→ yauhh:未完成的工作直接死在死掉的节点上. 09/07 15:00
8F:→ yauhh:侦测嘛,我想是先侦测节点有没有死掉. 09/07 15:01