学Hadoop还是spark# Programming - 葵花宝典y*u2017-06-01 07:061 楼周围的老中的孩子都至少学3种乐器,我家的这个好说带说才学了钢琴,现在学了1年多也就会弹肖邦。像在学一个小提琴,怎么都不愿意,怎么办啊?
l*e2017-06-01 07:066 楼你在哪里?“都至少学3种乐器”,还有这等事?【在 y**u 的大作中提到】: 周围的老中的孩子都至少学3种乐器,我家的这个好说带说才学了钢琴,现在学了1年多: 也就会弹肖邦。像在学一个小提琴,怎么都不愿意,怎么办啊?
d*n2017-06-01 07:067 楼这是啥问题?hadoop只不过是一堆工具的整合,没所谓学啥。我们现在基本不用基础的东西例如pig, hbase了,hive还用,hdfs一直用。剩下的都是框架了。【在 b**********h 的大作中提到】: 粗看了一下,两者的功能重叠,现在哪种值得学?: 目标是做backend
n*h2017-06-01 07:068 楼明显就是个坑。就算郎郎,学一年能弹肖邦也不容易啊。【在 y**u 的大作中提到】: 周围的老中的孩子都至少学3种乐器,我家的这个好说带说才学了钢琴,现在学了1年多: 也就会弹肖邦。像在学一个小提琴,怎么都不愿意,怎么办啊?
T*x2017-06-01 07:069 楼都是什么框架?【在 d****n 的大作中提到】: 这是啥问题?hadoop只不过是一堆工具的整合,没所谓学啥。: 我们现在基本不用基础的东西例如pig, hbase了,hive还用,hdfs一直用。剩下的都是: 框架了。
b*h2017-06-01 07:0611 楼谢回答。那用来替换基础的东西是什么呢?(pig,hbase是不是被spark替代了?)【在 d****n 的大作中提到】: 这是啥问题?hadoop只不过是一堆工具的整合,没所谓学啥。: 我们现在基本不用基础的东西例如pig, hbase了,hive还用,hdfs一直用。剩下的都是: 框架了。
n*w2017-06-01 07:0613 楼hive 没有被spark SQL代替?【在 d****n 的大作中提到】: 这是啥问题?hadoop只不过是一堆工具的整合,没所谓学啥。: 我们现在基本不用基础的东西例如pig, hbase了,hive还用,hdfs一直用。剩下的都是: 框架了。
b*g2017-06-01 07:0614 楼进步太慢了,才肖邦,学了一年至少也要会弹交响乐了吧。【在 y**u 的大作中提到】: 周围的老中的孩子都至少学3种乐器,我家的这个好说带说才学了钢琴,现在学了1年多: 也就会弹肖邦。像在学一个小提琴,怎么都不愿意,怎么办啊?
w*g2017-06-01 07:0615 楼hive可以被spark SQL替代。几年前就有了。现在再上hive我觉得不值。就spark好了。【在 n*w 的大作中提到】: hive 没有被spark SQL代替?
n*w2017-06-01 07:0617 楼hadoop 留下来的没有新的替代品就是HDFS了?【在 w***g 的大作中提到】: hive可以被spark SQL替代。几年前就有了。现在再上hive我觉得不值。: 就spark好了。
m*r2017-06-01 07:0618 楼这个你就孤陋寡闻了,我家孩子不到半年就弹那个什么艾利斯很好了,然后一年就学校帮和拔河了。可是以后没兴趣再也不进步了,现在已经不学了。自己在家里面吹笛子,不知道怎么鼓捣出来了。又到学校学什么viola。酸酸三样,没一样真拿得出手。可惜极有天赋的钢琴学生,没兴趣啊。【在 n********h 的大作中提到】: 明显就是个坑。就算郎郎,学一年能弹肖邦也不容易啊。
w*g2017-06-01 07:0619 楼是。但是对一般人来说HDFS作用也越来越小了。讲真如果真要学东西还是sklearn和python那套ecosystem比较好。【在 n*w 的大作中提到】: hadoop 留下来的没有新的替代品就是HDFS了?
e*e2017-06-01 07:0620 楼你这是不放弃任何机会bso【在 m*******r 的大作中提到】: 这个你就孤陋寡闻了,: 我家孩子不到半年就弹那个什么艾利斯很好了,然后一年就学校帮和拔河了。可是以后: 没兴趣再也不进步了,现在已经不学了。: 自己在家里面吹笛子,不知道怎么鼓捣出来了。: 又到学校学什么viola。: 酸酸三样,没一样真拿得出手。可惜极有天赋的钢琴学生,没兴趣啊。
d*r2017-06-01 07:0624 楼storm这种stream型还不能被spark这种完全取代?【在 d****n 的大作中提到】: 无非是三驾老马车:kafka, spark, storm。新马车正在evaluate中。
s*y2017-06-01 07:0629 楼spark不是hadoop的升级版吗? 我一直把他看成hadoop的超集【在 b**********h 的大作中提到】: 粗看了一下,两者的功能重叠,现在哪种值得学?: 目标是做backend
d*n2017-06-01 07:0630 楼能用spark stream解决的那看来你们还用不到streaming。【在 w**z 的大作中提到】: 我们用自己的 stream processing. spark steam 更有前途?
d*n2017-06-01 07:0633 楼我举个例子,spark streaming只有一个全局窗口,而且是jvm起来之前就定好的,在2.0出现dynamic executor allocation之前对于data skewness束手无策。【在 n*w 的大作中提到】: 应该是指有些任务只能用storm。spark stream不是真正的streaming。: 我猜的。
n*w2017-06-01 07:0634 楼我还没开始学spark streaming。不过对非streaming情况的data skewness,要用reshuffle?不过有读到reshuffle很expensive,要少用。听起来这两个说法有点矛盾?2.【在 d****n 的大作中提到】: 我举个例子,spark streaming只有一个全局窗口,而且是jvm起来之前就定好的,在2.: 0出现dynamic executor allocation之前对于data skewness束手无策。
d*n2017-06-01 07:0635 楼成本根本不是问题,像网络带宽或者磁盘读写速度这些都是可以提前测试和估计的。reshuffle的本质问题是需要知道skewness的样子和规模,但是streaming过程中你也许只知道skewness(可能已经)发生了,但是对于skewness的样子和规模只能对照历史按图索骥,而这“按图索骥”可能就是个上层内容。其实2.0开始DEA解决了一个很大的问题。当然spark还有个命门就是DAG。当然这个和streaming下的问题无关了。【在 n*w 的大作中提到】: 我还没开始学spark streaming。: 不过对非streaming情况的data skewness,要用reshuffle?: 不过有读到reshuffle很expensive,要少用。听起来这两个说法有点矛盾?: : 2.
x*42017-06-01 07:0636 楼讲讲DAG有什么缺点?题。【在 d****n 的大作中提到】: 成本根本不是问题,像网络带宽或者磁盘读写速度这些都是可以提前测试和估计的。: reshuffle的本质问题是需要知道skewness的样子和规模,但是streaming过程中你也许: 只知道skewness(可能已经)发生了,但是对于skewness的样子和规模只能对照历史按图: 索骥,而这“按图索骥”可能就是个上层内容。其实2.0开始DEA解决了一个很大的问题。: 当然spark还有个命门就是DAG。当然这个和streaming下的问题无关了。