Cloud 板


LINE

※ 引述《hilorrk (Cary)》之铭言: : 如果对MapReduce不熟 可以查查wikipedia : 或是看看google这篇paper(比起bigtable、GFS和chubby 它好读多了) : http://labs.google.com/papers/mapreduce.html 以前看到MapReduce,的确不可否认是很棒的计算组织方式. 借用了函数语言的特色,最棒的就是在把工作拆成几个简单的部份, 让几个简单的工作衔接,而达成原来整个工作的目标. Map和Reduce二方都很好懂.接着,就会想到, 那worker呢? mater要怎麽将资料妥善分配到每个worker? 以论文第一个例子来看: takeWord(doc, word): for each term in doc if term = word, emit(word, "1") 这是map,只要知道一份文件和一个词,就从文件中抓出词的出现次. 於是,处理map的workder一定要知道要处理哪个文件和哪个词. 问题来了,在文件资料库中有那麽多文件,要找那麽多词, master应该要先整理许多文件与词的配对:例如, ("doc1", "hello") ("doc1", "world") ("doc2", "foo") ("doc2", "bar") ... 不晓得这方面有没有人有何见解? 我想可能是用map分别取每个档案名和每个词汇,然後用reduce合并成配对. --



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 218.160.211.76
1F:推 ledia:如果是 search engine 的话, 一般的 key 是 url or path 08/19 10:10
2F:→ ledia:但是会经过 inverted index 变成 term -> url 08/19 10:11
3F:→ ledia:再 group by term, url 反而变成了 value 08/19 10:11
4F:→ ledia:以这边来说就是 for each $term in $doc, emit($term, $doc) 08/19 10:12
5F:→ ledia:最後会得到 $term -> $doc1 $doc2 ... 08/19 10:12
6F:→ ledia:想要的话也可以 emit($term, ($doc, $offset)) 08/19 10:13
7F:→ ledia:次数比较不重要, 因为可以用最後的 list 算出来的 08/19 10:14
8F:→ yauhh:你说的是map或reduce工作内容中做的事情. 但我问的不是这个. 08/19 14:25
9F:→ yauhh:问的是master分配资源给mapper或reducer的方面. 08/19 14:25
10F:推 ledia:我不知道所谓的分配资源指的是什麽? 08/19 14:32
11F:→ ledia:如果说是分配工作的话, 应该就是先把切好的 task 比如说 url 08/19 14:33
12F:→ ledia:list, 丢给最闲的, 或是想做事的 node 吧 08/19 14:34
13F:推 hilorrk:还有在DFS上的data locality问题...详细实作可能dependant 08/19 15:40
14F:→ hilorrk:on DFS吧? 08/19 15:40
15F:→ hilorrk:不过像是Hadoop替DFS定了一些interface 只要遵循这个规则 08/19 15:44
16F:→ hilorrk:的DFS都能套它的MapReduce 就能用像是KFS取代原有的HDFS 08/19 15:46
17F:→ yauhh:对啊,分配工作就是分配资源. 请想想第一个例子,要给一个文件 08/19 19:41
18F:→ yauhh:和一个词,然後它可以做map. 问题是这个文件跟这个词是谁喂的 08/19 19:41
19F:→ yauhh:Google处理的可是一大堆文件啊,这一大堆文件如果是用回圈 08/19 19:42
20F:→ yauhh:一个一个指派给各个map,基本上还是有大量资料塞车的问题. 08/19 19:43
21F:推 ledia:这个你可能就要去看一些 message queue 的 service 了 08/20 09:53
22F:→ ledia:算是 distributed 环境传递讯息的方式 08/20 09:54
23F:→ ledia:cralwer 也都不只一个, 所以需要一些 MQ server 08/20 09:54
24F:→ gmoz:关於回圈方式已经有解了 也有人实作出来了 08/20 10:06
25F:→ gmoz:阿 误解意思了 我说的回圈和你说的不一样XD 08/20 10:07
26F:→ yauhh:对啊,我指的是map-reduce系统最开端到底要从哪里开始. 08/20 10:48







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Gossiping站内搜寻

TOP