Redian新闻
>
EB3基本都是降级的,明年EB2利好
avatar
EB3基本都是降级的,明年EB2利好# EB23 - 劳工卡
s*e
1
经典hadoop例子也就是wordcount之类的一个数据。很好理解mapper和reduce 该写些什
么。 但实际上经常要从log文件中析取所有的各种数据:举个例子:要从一套log文件
中析取average height break down into gender, top 10 sites break down into
phone types, top word break down into adults/kids...。
我想不出这些情况mapper和reduce 该怎么写?
avatar
f*c
2
看最近爆率的都是降级的,如果Eb3还是一片降级绿的,那2017财年快速通过Eb2。
是这么个说法吧?
avatar
l*n
3
http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patter

【在 s******e 的大作中提到】
: 经典hadoop例子也就是wordcount之类的一个数据。很好理解mapper和reduce 该写些什
: 么。 但实际上经常要从log文件中析取所有的各种数据:举个例子:要从一套log文件
: 中析取average height break down into gender, top 10 sites break down into
: phone types, top word break down into adults/kids...。
: 我想不出这些情况mapper和reduce 该怎么写?

avatar
c*y
4
并不是,你自己搜yoyo的说法 他认为EB2 明年没法放水 可能要到再下一年才能放
他认为485总是比想象的多

【在 f****c 的大作中提到】
: 看最近爆率的都是降级的,如果Eb3还是一片降级绿的,那2017财年快速通过Eb2。
: 是这么个说法吧?

avatar
p*2
5
我觉得现在直接写map reduce的机会其实是很小了。
avatar
s*e
7
我就是想着如何把原来的工作和hadoop结合起来。
所要了解一下,原来的工作用hadoop怎么做。
你有答案吗? 看了下 icn给的link, 找不到和我相配的design pattern.
难道你们parse log都是为了得到一两类数据吗?
还是我没看懂文章的意思?

【在 p*****2 的大作中提到】
: 我觉得现在直接写map reduce的机会其实是很小了。
avatar
y*0
8
还有一个事实,原装报绿少,降级报绿多。去年EB3报绿的90%以上都是降级的来报绿。
avatar
s*e
9
那用大数据的人整天在干嘛?

【在 p*****2 的大作中提到】
: 我觉得现在直接写map reduce的机会其实是很小了。
avatar
f*a
10
同意yoyo,从今以后都是要起码等5年了
avatar
m*i
11
hadoop is just a tool. You need to design a parallel algorithm and then
implement it in hadoop.
First, you need to do paralle reading.
Second, each worker threads needs to computer the to 10 locally.
Then, combine all the results and get the real top 10.

【在 s******e 的大作中提到】
: 经典hadoop例子也就是wordcount之类的一个数据。很好理解mapper和reduce 该写些什
: 么。 但实际上经常要从log文件中析取所有的各种数据:举个例子:要从一套log文件
: 中析取average height break down into gender, top 10 sites break down into
: phone types, top word break down into adults/kids...。
: 我想不出这些情况mapper和reduce 该怎么写?

avatar
y*0
12
我没说过要等5年啊....T.T

【在 f*****a 的大作中提到】
: 同意yoyo,从今以后都是要起码等5年了
avatar
l*n
13
你这些都是counting & summing problems吧,只不过是写mapper/reducer的时候key/
value可能不是单一的field。比如你的mean height over gender,就是gender vs.
height_ONE,height用来summing,ONE用来counting。mapreduce的灵活性不单只是一个
wordcount那么狭隘的。

【在 s******e 的大作中提到】
: 我就是想着如何把原来的工作和hadoop结合起来。
: 所要了解一下,原来的工作用hadoop怎么做。
: 你有答案吗? 看了下 icn给的link, 找不到和我相配的design pattern.
: 难道你们parse log都是为了得到一两类数据吗?
: 还是我没看懂文章的意思?

avatar
w*i
14
你这个大旗被扛过来抗过去阿。哈哈哈

【在 y******0 的大作中提到】
: 我没说过要等5年啊....T.T
avatar
p*2
15

hive

【在 s******e 的大作中提到】
: 那用大数据的人整天在干嘛?
avatar
h*y
16
pig/hive很多复杂逻辑不行的。

【在 p*****2 的大作中提到】
:
: hive

avatar
s*e
17
那么我写的mapper到底是去算 还是 还是<
word: adult>那?
如果我需要写三个mapper分别统计, adult>那不是很重复吗?因为每个mapper都是要把整个log读一遍 (我知道大数据会
分成block, 我是指对于每个block来说这三个mapper都要把他从头到尾读一遍为了求自
己的那部分数据)而且如果adult/kid要进一步细分成female/male的话第三个mapper原
本可以建立在第一个mapper的基础上,分开就用不上了。
还有种可能性就是所有东西都放在一个mapper里,那从mapper里输出什么那,反正不是
key:value那样简单了。
Hive 我可以理解。就是用一些象sql那样的语句得到结果。如果逻辑不复杂的话应该可
以考虑。

【在 l*n 的大作中提到】
: 你这些都是counting & summing problems吧,只不过是写mapper/reducer的时候key/
: value可能不是单一的field。比如你的mean height over gender,就是gender vs.
: height_ONE,height用来summing,ONE用来counting。mapreduce的灵活性不单只是一个
: wordcount那么狭隘的。

avatar
p*2
18

cascalog

【在 h**********y 的大作中提到】
: pig/hive很多复杂逻辑不行的。
avatar
p*2
19

word:
我们可以分开讨论。我觉得就第一个例子来说,
average height break down into gender
mapper:
gender->height
reducer:
gender-> (sum of height, count of people)
mapper:
gender-> average of height

【在 s******e 的大作中提到】
: 那么我写的mapper到底是去算 还是 还是<
: word: adult>那?
: 如果我需要写三个mapper分别统计, : adult>那不是很重复吗?因为每个mapper都是要把整个log读一遍 (我知道大数据会
: 分成block, 我是指对于每个block来说这三个mapper都要把他从头到尾读一遍为了求自
: 己的那部分数据)而且如果adult/kid要进一步细分成female/male的话第三个mapper原
: 本可以建立在第一个mapper的基础上,分开就用不上了。
: 还有种可能性就是所有东西都放在一个mapper里,那从mapper里输出什么那,反正不是
: key:value那样简单了。
: Hive 我可以理解。就是用一些象sql那样的语句得到结果。如果逻辑不复杂的话应该可

avatar
k*r
20
学习学习
avatar
l*n
21
你提的问题的确涉及到mapreduce vs. analysis的核心:hdfs通用的分布式同数据的结
构化之间的矛盾。如果你的三种分析是独立的,那么你确实要分开run 3个MR的任务,
文件IO的确是要重复3次;如果三个分析的信息是结构化的,那么可以只搞一个复杂点
的MR任务,只做一次文件IO。这时候就变成了程序执行效率 vs. 程序编写效率之间的
矛盾了。
目前解决的方向好像都是在借鉴传统SQL的思路,比如是columnar storage,就是把结
构化信息拆开让不同组分分别存储,需要的时候再聚合,另一个是MR执行的推迟,让
engine对MR任务进行优化。Hive就是把query转成MR任务,有人说他慢就是因为生成的
MR方案以及query和query之间的优化还不够好吧。

word:

【在 s******e 的大作中提到】
: 那么我写的mapper到底是去算 还是 还是<
: word: adult>那?
: 如果我需要写三个mapper分别统计, : adult>那不是很重复吗?因为每个mapper都是要把整个log读一遍 (我知道大数据会
: 分成block, 我是指对于每个block来说这三个mapper都要把他从头到尾读一遍为了求自
: 己的那部分数据)而且如果adult/kid要进一步细分成female/male的话第三个mapper原
: 本可以建立在第一个mapper的基础上,分开就用不上了。
: 还有种可能性就是所有东西都放在一个mapper里,那从mapper里输出什么那,反正不是
: key:value那样简单了。
: Hive 我可以理解。就是用一些象sql那样的语句得到结果。如果逻辑不复杂的话应该可

avatar
s*e
22
嗯 越学越不懂了。

【在 l*n 的大作中提到】
: 你提的问题的确涉及到mapreduce vs. analysis的核心:hdfs通用的分布式同数据的结
: 构化之间的矛盾。如果你的三种分析是独立的,那么你确实要分开run 3个MR的任务,
: 文件IO的确是要重复3次;如果三个分析的信息是结构化的,那么可以只搞一个复杂点
: 的MR任务,只做一次文件IO。这时候就变成了程序执行效率 vs. 程序编写效率之间的
: 矛盾了。
: 目前解决的方向好像都是在借鉴传统SQL的思路,比如是columnar storage,就是把结
: 构化信息拆开让不同组分分别存储,需要的时候再聚合,另一个是MR执行的推迟,让
: engine对MR任务进行优化。Hive就是把query转成MR任务,有人说他慢就是因为生成的
: MR方案以及query和query之间的优化还不够好吧。
:

avatar
s*e
23
然后你想说什么?
(不好意思我老延迟)

【在 p*****2 的大作中提到】
:
: word:
: 我们可以分开讨论。我觉得就第一个例子来说,
: average height break down into gender
: mapper:
: gender->height
: reducer:
: gender-> (sum of height, count of people)
: mapper:
: gender-> average of height

avatar
c*a
24
MapReduce Design Patterns by Donald Miner and Adam Shook
你说的,里面都有,我做过类似的东西
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。