学Hadoop还是spark - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Programming - 葵花宝典

学Hadoop还是spark

学Hadoop还是spark# Programming - 葵花宝典

y*u2017-06-01 07:06

1 楼

周围的老中的孩子都至少学3种乐器，我家的这个好说带说才学了钢琴，现在学了1年多
也就会弹肖邦。像在学一个小提琴，怎么都不愿意，怎么办啊？

l*22017-06-01 07:06

2 楼

苹果4可以解锁吗？
不是卡贴的那种。

b*h2017-06-01 07:06

3 楼

粗看了一下，两者的功能重叠，现在哪种值得学？
目标是做backend

t*f2017-06-01 07:06

4 楼

压力坑？

c*92017-06-01 07:06

5 楼

spark

【在 b**********h 的大作中提到】

: 粗看了一下，两者的功能重叠，现在哪种值得学？
: 目标是做backend

l*e2017-06-01 07:06

6 楼

你在哪里？
“都至少学3种乐器”，还有这等事？

【在 y**u 的大作中提到】

: 周围的老中的孩子都至少学3种乐器，我家的这个好说带说才学了钢琴，现在学了1年多
: 也就会弹肖邦。像在学一个小提琴，怎么都不愿意，怎么办啊？

d*n2017-06-01 07:06

7 楼

这是啥问题？hadoop只不过是一堆工具的整合，没所谓学啥。
我们现在基本不用基础的东西例如pig, hbase了，hive还用，hdfs一直用。剩下的都是
框架了。

【在 b**********h 的大作中提到】

: 粗看了一下，两者的功能重叠，现在哪种值得学？
: 目标是做backend

n*h2017-06-01 07:06

8 楼

明显就是个坑。就算郎郎，学一年能弹肖邦也不容易啊。

【在 y**u 的大作中提到】

T*x2017-06-01 07:06

9 楼

都是什么框架？

【在 d****n 的大作中提到】

: 这是啥问题？hadoop只不过是一堆工具的整合，没所谓学啥。
: 我们现在基本不用基础的东西例如pig, hbase了，hive还用，hdfs一直用。剩下的都是
: 框架了。

G*e2017-06-01 07:06

10 楼

没有比较，就没有烦恼
世上本无事，庸人自扰之

b*h2017-06-01 07:06

11 楼

谢回答。那用来替换基础的东西是什么呢？（pig，hbase是不是被spark替代了？）

【在 d****n 的大作中提到】

b*g2017-06-01 07:06

12 楼

估计吹口哨摇沙锤敲三角铁也算上了。

【在 l*******e 的大作中提到】

: 你在哪里？
: “都至少学3种乐器”，还有这等事？

n*w2017-06-01 07:06

13 楼

hive 没有被spark SQL代替？

【在 d****n 的大作中提到】

b*g2017-06-01 07:06

14 楼

进步太慢了，才肖邦，学了一年至少也要会弹交响乐了吧。

【在 y**u 的大作中提到】

w*g2017-06-01 07:06

15 楼

hive可以被spark SQL替代。几年前就有了。现在再上hive我觉得不值。
就spark好了。

【在 n*w 的大作中提到】

: hive 没有被spark SQL代替？

D*R2017-06-01 07:06

16 楼

三种乐器？gymboree的沙锤摇铃响板？

n*w2017-06-01 07:06

17 楼

hadoop 留下来的没有新的替代品就是HDFS了？

【在 w***g 的大作中提到】

: hive可以被spark SQL替代。几年前就有了。现在再上hive我觉得不值。
: 就spark好了。

m*r2017-06-01 07:06

18 楼

这个你就孤陋寡闻了，
我家孩子不到半年就弹那个什么艾利斯很好了，然后一年就学校帮和拔河了。可是以后
没兴趣再也不进步了，现在已经不学了。
自己在家里面吹笛子，不知道怎么鼓捣出来了。
又到学校学什么viola。
酸酸三样，没一样真拿得出手。可惜极有天赋的钢琴学生，没兴趣啊。

【在 n********h 的大作中提到】

: 明显就是个坑。就算郎郎，学一年能弹肖邦也不容易啊。

w*g2017-06-01 07:06

19 楼

是。但是对一般人来说HDFS作用也越来越小了。
讲真如果真要学东西还是sklearn和python那套ecosystem比较好。

【在 n*w 的大作中提到】

: hadoop 留下来的没有新的替代品就是HDFS了？

e*e2017-06-01 07:06

20 楼

你这是不放弃任何机会bso

【在 m*******r 的大作中提到】

: 这个你就孤陋寡闻了，
: 我家孩子不到半年就弹那个什么艾利斯很好了，然后一年就学校帮和拔河了。可是以后
: 没兴趣再也不进步了，现在已经不学了。
: 自己在家里面吹笛子，不知道怎么鼓捣出来了。
: 又到学校学什么viola。
: 酸酸三样，没一样真拿得出手。可惜极有天赋的钢琴学生，没兴趣啊。

d*n2017-06-01 07:06

21 楼

无非是三驾老马车：kafka, spark, storm。新马车正在evaluate中。

【在 T*******x 的大作中提到】

: 都是什么框架？

h*32017-06-01 07:06

22 楼

几年以前都听说小朋友至少要学两种乐器。现在都增加到３种了吗？

d*n2017-06-01 07:06

23 楼

pig应该是没人写了。用spark sql来操作hive和文件。

【在 n*w 的大作中提到】

: hive 没有被spark SQL代替？

d*r2017-06-01 07:06

24 楼

storm这种stream型还不能被spark这种完全取代?

【在 d****n 的大作中提到】

: 无非是三驾老马车：kafka, spark, storm。新马车正在evaluate中。

w*z2017-06-01 07:06

25 楼

storm 没啥用了吧？

【在 d****n 的大作中提到】

: 无非是三驾老马车：kafka, spark, storm。新马车正在evaluate中。

d*n2017-06-01 07:06

26 楼

那你们用啥取代storm？

【在 w**z 的大作中提到】

: storm 没啥用了吧？

b*h2017-06-01 07:06

27 楼

那scala现在还值得学吗？用spark的话

w*z2017-06-01 07:06

28 楼

我们用自己的 stream processing. spark steam 更有前途？

【在 d****n 的大作中提到】

: 那你们用啥取代storm？

s*y2017-06-01 07:06

29 楼

spark不是hadoop的升级版吗？我一直把他看成hadoop的超集

【在 b**********h 的大作中提到】

: 粗看了一下，两者的功能重叠，现在哪种值得学？
: 目标是做backend

d*n2017-06-01 07:06

30 楼

能用spark stream解决的那看来你们还用不到streaming。

【在 w**z 的大作中提到】

: 我们用自己的 stream processing. spark steam 更有前途？

w*z2017-06-01 07:06

31 楼

你说的是哪国话？

【在 d****n 的大作中提到】

: 能用spark stream解决的那看来你们还用不到streaming。

n*w2017-06-01 07:06

32 楼

应该是指有些任务只能用storm。spark stream不是真正的streaming。
我猜的。

【在 w**z 的大作中提到】

: 你说的是哪国话？

d*n2017-06-01 07:06

33 楼

我举个例子，spark streaming只有一个全局窗口，而且是jvm起来之前就定好的，在2.
0出现dynamic executor allocation之前对于data skewness束手无策。

【在 n*w 的大作中提到】

: 应该是指有些任务只能用storm。spark stream不是真正的streaming。
: 我猜的。

n*w2017-06-01 07:06

34 楼

我还没开始学spark streaming。
不过对非streaming情况的data skewness，要用reshuffle？
不过有读到reshuffle很expensive，要少用。听起来这两个说法有点矛盾？

2.

【在 d****n 的大作中提到】

: 我举个例子，spark streaming只有一个全局窗口，而且是jvm起来之前就定好的，在2.
: 0出现dynamic executor allocation之前对于data skewness束手无策。

d*n2017-06-01 07:06

35 楼

成本根本不是问题，像网络带宽或者磁盘读写速度这些都是可以提前测试和估计的。
reshuffle的本质问题是需要知道skewness的样子和规模，但是streaming过程中你也许
只知道skewness(可能已经)发生了，但是对于skewness的样子和规模只能对照历史按图
索骥，而这“按图索骥”可能就是个上层内容。其实2.0开始DEA解决了一个很大的问题。
当然spark还有个命门就是DAG。当然这个和streaming下的问题无关了。

【在 n*w 的大作中提到】

: 我还没开始学spark streaming。
: 不过对非streaming情况的data skewness，要用reshuffle？
: 不过有读到reshuffle很expensive，要少用。听起来这两个说法有点矛盾？
:
: 2.

x*42017-06-01 07:06

36 楼

讲讲DAG有什么缺点？

题。

【在 d****n 的大作中提到】

: 成本根本不是问题，像网络带宽或者磁盘读写速度这些都是可以提前测试和估计的。
: reshuffle的本质问题是需要知道skewness的样子和规模，但是streaming过程中你也许
: 只知道skewness(可能已经)发生了，但是对于skewness的样子和规模只能对照历史按图
: 索骥，而这“按图索骥”可能就是个上层内容。其实2.0开始DEA解决了一个很大的问题。
: 当然spark还有个命门就是DAG。当然这个和streaming下的问题无关了。