l*n
2 楼
已经被两个面试官考到这个知识点了。。。无奈new grads,不懂啊。。。
就是data set很skew,一个map task产生的key很多,造成一个reduce task handle不
了,怎么办?
partition function怎么写合适?还有个面试官说,要我写个combiner。。。不会写啊
,肿么办。。。
被一个奇葩公司店面,一上来就问我这个new grads两道system design题。。我想吐血
啊。。。
就是data set很skew,一个map task产生的key很多,造成一个reduce task handle不
了,怎么办?
partition function怎么写合适?还有个面试官说,要我写个combiner。。。不会写啊
,肿么办。。。
被一个奇葩公司店面,一上来就问我这个new grads两道system design题。。我想吐血
啊。。。
f*z
3 楼
什么时候补?
今天不补就明天补.
补了后才能再涨,
ER的利好1天就走完了,下面怎么半?
如果明天直接跳空低开,牛牛就完了.
如果今天补了,反而是好事.
今天不补就明天补.
补了后才能再涨,
ER的利好1天就走完了,下面怎么半?
如果明天直接跳空低开,牛牛就完了.
如果今天补了,反而是好事.
c*7
4 楼
只对没有开过checking的人有效,SSN required
i*6
5 楼
明显题目不全,没办法回答。你那几个问号是一个题目还是好几个?你能完整的重复一
下原来的题目吗?
下原来的题目吗?
g*a
6 楼
This is a ER season. Today is a sign of bull market. Last ER was selling on
news
news
f*y
8 楼
“data set很skew”,这个现象准确描述是,“相同key的record太多”,
如果是这样的话,这个不关partition问题,因为本质上“相同key的“的数据肯定要在
一个reduce里面的,不管你partition怎么写。
那么怎么解决?
1,combiner确实是个方法,比如以word count为例子,
《hello, 1》,《hello, 1》,《hello, 1》可以合并一条《hello, 3》
2,combiner方法不是什么地方都可以使用,有些不能合并的,就不能使用combiner,那
怎么办?
其实没什么好办法,可能你最开始设计上就有问题而导致skew,也许可以通过多轮
mapreduce解决,这个扯远了。
lz以前没搞过,要你设计确实有点为难。
继续努力,加油!
如果是这样的话,这个不关partition问题,因为本质上“相同key的“的数据肯定要在
一个reduce里面的,不管你partition怎么写。
那么怎么解决?
1,combiner确实是个方法,比如以word count为例子,
《hello, 1》,《hello, 1》,《hello, 1》可以合并一条《hello, 3》
2,combiner方法不是什么地方都可以使用,有些不能合并的,就不能使用combiner,那
怎么办?
其实没什么好办法,可能你最开始设计上就有问题而导致skew,也许可以通过多轮
mapreduce解决,这个扯远了。
lz以前没搞过,要你设计确实有点为难。
继续努力,加油!
k*0
10 楼
Use two map-reduce jobs, the first job does a partial aggregation, then use
a second reduce job to do a final aggregation. This is a typical problem.
Also, you can check the Hive system design, which deals with this problem by
using two map-reduce jobs.
a second reduce job to do a final aggregation. This is a typical problem.
Also, you can check the Hive system design, which deals with this problem by
using two map-reduce jobs.
b*5
11 楼
how does one do partial aggregation?let's say the map functions creates
like 1 gazillion key "k", so the data skews heavily on key "k", and one
reducer gets 1 gazillion elements, and can't handle it.
how do u do partial aggregation on those 1 gazillion key "k"? aggregate half
of them first? how do u aggregate half of them? where does the other half
go?
我稍微google了一下mapreduce data skew, 一些paper好像都是要custom partition
, 先估计一下map出来的key的distribution。。。
use
by
【在 k********0 的大作中提到】
: Use two map-reduce jobs, the first job does a partial aggregation, then use
: a second reduce job to do a final aggregation. This is a typical problem.
: Also, you can check the Hive system design, which deals with this problem by
: using two map-reduce jobs.
like 1 gazillion key "k", so the data skews heavily on key "k", and one
reducer gets 1 gazillion elements, and can't handle it.
how do u do partial aggregation on those 1 gazillion key "k"? aggregate half
of them first? how do u aggregate half of them? where does the other half
go?
我稍微google了一下mapreduce data skew, 一些paper好像都是要custom partition
, 先估计一下map出来的key的distribution。。。
use
by
【在 k********0 的大作中提到】
: Use two map-reduce jobs, the first job does a partial aggregation, then use
: a second reduce job to do a final aggregation. This is a typical problem.
: Also, you can check the Hive system design, which deals with this problem by
: using two map-reduce jobs.
相关阅读
IB怎么同时设limit和stop order大陆移民真是苦逼的命 (转载)钢材追了农科,用TA分析TA,不灵光嚎叫着抢回SCTYJCP 回到2001年的价位了。。。巴菲特还拥有WPO吗?tsla 太疯狂了 买了点put 当彩票了全仓无脑爆乳FNMA?tsla 终于开始打折了推荐 RDN今天的量创年度最低了哪些投资平台可以为父母开帐户NOK shuttle to North Korea ticket selling now!!!国足加油 (转载)老宋Xone你买的多好(Summary) last weekyoku 怎么保障了find a point you can make money from NOKyelp要是没有short saleDIS 坚挺!!!