作者ukliop (赖冬粉)
看板Cloud
标题[技术] 想问一下关於MAPREDUCE的JAVA问题
时间Mon Jul 11 15:54:44 2011
有问题想要请问一下各位~
目前在研究DATA MINING使用在云端上
现在卡到一个问题就是!
我想要去判别我的权重值有没有过门槛值
我的文件格式资料如下
------------------------------
all 63320.56
url1 120.56
url2 45.1
-----------------------------
想在MAP的时候让第一行的值跑进下面每一列URL所有值的最後~
(就会变成
URL1 120.56 63320.56
URL2 45.1 63320.56
)
之後在REDUCE里去做筛选!
只是都没办法成功~
各位对於这个有甚麽想法吗?还是说有其他解决方法可供参考?
再来因为MAP都是一行一行读文字进去的,有办法让他用一个变数先储存我的总门槛值吗?
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.128.18.47
1F:→ gmoz:1.贴个CODE出来看 然後希望输入输出说清楚点 07/11 21:09
2F:→ gmoz:2.可以 在JOB里面设定 07/11 21:09
3F:→ gmoz:阿 你是要更动? 那可能不行 这是分散式架构 07/11 21:09
4F:→ gmoz:除非用档案的方式,但是会很麻烦 你还是先说清楚一点 07/11 21:10
5F:推 nemo33:你map做啥reduce又做啥? 只是要过滤的话带job conf 参数 07/11 22:21
6F:→ nemo33:map阶段就可以过滤了 07/11 22:21
7F:→ ukliop:to gmoz 因为一直在专研这一块把最基本的分散式架构都忘了 07/12 01:08
8F:→ ukliop:所以我知道我错在哪里了! 谢谢你的提醒 07/12 01:09
9F:→ ukliop:TO nemo33 关於job conf 我会再多去研究它,朝这方面试试看 07/12 01:10
10F:推 gmoz:hadoop 0.20之後已经不用job conf了 07/12 23:30