Redian新闻
>
babylon的网页翻译很有意思么
avatar
babylon的网页翻译很有意思么# PhotoGear - 摄影器材
d*w
1
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks,不过也有
不少国人加入了,都是未来的希望啊。
# Spark
Spark今年大放溢彩,Spark简单说就是内存计算(或者迭代式计算,DAG计算,流式计算
)框架,
MapReduce因效率低下大家经常嘲笑, Spark号称性能超Hadoop百倍,算法实现仅有其
1/10或1/100 Reynold 作为Spark核心开发者,介绍
http://www.csdn.net/article/2013-04-26/2815057-Spark-Reynold
http://www.csdn.net/article/2014-08-07/2821098-6-sparkling-feat
起源于2010年Berkeley AMPLab,发表在hotcloud上
https://www.usenix.org/legacy/events/hotcloud10/tech/full_papers/Zaharia.pdf
是一个从学术界到工业界的成功典范,所以也吸引了顶级VC:Andreessen Horowitz的
注资
BTW: 这个实验室非常厉害,做大数据,云计算,跟工业界结合很紧密,比如Twitter也
Berkeley开了门课程
http://blogs.ischool.berkeley.edu/i290-abdt-s12/
还有个BDAS (Bad Ass)引以为傲: https://amplab.cs.berkeley.edu/software/
http://gigaom.com/2014/08/02/the-lab-that-created-spark-wants-t
在2013年,这些大牛出动把Berkeley AMPLab的人拉出去成立了Databricks,半年就做
了2次summit
参会1000人,引无数Hadoop大佬尽折腰,大家看一下Summit的sponsor,所有hadoop厂
商全来了,并且各个技术公司也在巴结,cloudrea, hortonworks, mapr, datastax,
yahoo, ooyala, 根据CTO说 Spark新增代码量活跃度今年远远超过了Hadoop本身
,马上要推出商业化产品Cloud
Spark 核心人物
Ion Stoica :http://www.cs.berkeley.edu/~istoica/ Berkeley教授,AMPLab 领军
Matei Zaharia:http://people.csail.mit.edu/matei/ 天才,MIT助理教授
Reynold Xin: http://www.eecs.berkeley.edu/~rxin/
Haoyuan Li: http://www.cs.berkeley.edu/~haoyuan/
http://www.wired.com/2013/06/yahoo-amazon-amplab-spark/all/
其实起名字也很重要,Spark就占了先机,CTO说 Where there's spark, there's fire!
http://inside-bigdata.com/2014/07/15/theres-spark-theres-fire-s
Spark核心数据结构:
Resilient Distributed Datasets: A Fault-Tolerant Abstraction for
In-Memory Cluster Computing
https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf
Spark目前是1.0.2最新版本:https://spark.apache.org/docs/1.0.2/
目前还有一些子项目,比如 Spark SQL, Spark Streaming, MLLib, Graphx
如;http://spark.apache.org/streaming/
工业界也引起广泛兴趣,国内Taobao, baidu也开始使用:
https://cwiki.apache.org/confluence/display/SPARK/Powered+By+Spark
Apache Spark支持4种分布式部署方式,分别是Amazon EC2, standalone、spark on
mesos和 spark on YARN
比如AWS:
http://www.getblueshift.com/blog/?p=56
至于如何入门,还是得好好看官方文档,上面有入门,搭建环境,Summit上的视频也是
http://spark-summit.org/2014/
也有个training视频:
http://spark-summit.org/2014/training
今年的Summit 回顾
http://www.csdn.net/article/2014-07-17/2820713
今年最叫好的demo是Dtabricks Cloud, 把twitter上面实时收集的数据做作为machine
learning素材,
用类似IPython notebook,可视化呈现惊艳,而搭建整个sampling系统就花了20分钟!
http://databricks.com/cloud
CSDN上面也有个Spark专栏,大家可以多去看看
spark.csdn.net
还有一些第三方的项目基于Spark上面
Web interactive UI on Hadoop/Spark: http://gethue.com/
Spark on cassandra:
http://planetcassandra.org/getting-started-with-apache-spark-an
https://github.com/datastax/spark-cassandra-connector
http://tuplejump.github.io/calliope/
H2O + Spark:
http://databricks.com/blog/2014/06/30/sparkling-water-h20-spark
Shark - Hive and SQL on top of Spark
MLbase - Machine Learning research project on top of Spark
BlinkDB - a massively parallel, approximate query engine built on top of
Shark and Spark
GraphX - a graph processing & analytics framework on top of Spark (GraphX
has been merged into Spark 0.9)
Apache Mesos - Cluster management system that supports running Spark
Tachyon - In memory storage system that supports running Spark
Apache MRQL - A query processing and optimization system for large-scale,
distributed data analysis, built on top of Apache Hadoop, Hama, and Spark
OpenDL - A deep learning algorithm library based on Spark framework. Just
kick off.
SparkR - R frontend for Spark
Spark Job Server - REST interface for managing and submitting Spark jobs on
the same cluster
avatar
t*r
3
这玩意以后要kill掉hadoop了?
avatar
d*w
4
是有可能的,世界变化太快,谁还受得了Hadoop那么慢!

【在 t**r 的大作中提到】
: 这玩意以后要kill掉hadoop了?
avatar
z*e
5
re这个,spark的学习材料期待已久
avatar
z*e
6
spark自身有一个ml的pkg
以后估计就按照这个往上搞了
其他ml的pkg估计都不怎么用了
avatar
t*r
7
哈哈。那我这刚开始转行搞hadoop的可惨了

【在 d********w 的大作中提到】
: 是有可能的,世界变化太快,谁还受得了Hadoop那么慢!
avatar
z*e
8
替换掉mapreduce这些
但是hdfs还是会用hadoop的

【在 d********w 的大作中提到】
: 是有可能的,世界变化太快,谁还受得了Hadoop那么慢!
avatar
y*c
9


【在 z****e 的大作中提到】
: 替换掉mapreduce这些
: 但是hdfs还是会用hadoop的

avatar
s*i
10
赞!收藏了。
avatar
e*s
11
赞,今年hadoop summit基本上就两个主题,Hadoop 2.0和spark.

★ 发自iPhone App: ChineseWeb 8.7

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: #Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
: Resource Manager HA,
: YARN Rest API, ACL on HDFS...
: http://hadoop.apache.org/releases.html
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
: http://hadoop.apache.org/who.html

avatar
z*e
12
感觉spark出来之后
storm还有其他ml的pkg尤其是python那几个都挺危险的
不仅仅是hadoop本身的mapreduce面临着被市场淘汰的风险
avatar
e*s
13
还有mahout, 太难用了。

★ 发自iPhone App: ChineseWeb 8.7

【在 z****e 的大作中提到】
: 感觉spark出来之后
: storm还有其他ml的pkg尤其是python那几个都挺危险的
: 不仅仅是hadoop本身的mapreduce面临着被市场淘汰的风险

avatar
p*2
14
cassandra就可以了吧?

【在 z****e 的大作中提到】
: 替换掉mapreduce这些
: 但是hdfs还是会用hadoop的

avatar
p*2
15
感觉未来是cassandra+spark的
hadoop可以跳过了

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: #Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
: Resource Manager HA,
: YARN Rest API, ACL on HDFS...
: http://hadoop.apache.org/releases.html
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
: http://hadoop.apache.org/who.html

avatar
z*e
16
可以吧
但是hbase作为一个cp系统的代表,还是也了解一下比较好
毕竟c*是ap系统

【在 p*****2 的大作中提到】
: cassandra就可以了吧?
avatar
z*e
17
lol
搞不好以后hadoop这么一大堆项目
最后剩下的就是还没毕业的hbase

【在 p*****2 的大作中提到】
: 感觉未来是cassandra+spark的
: hadoop可以跳过了

avatar
z*e
18
二爷你用spark用scala吗?

【在 p*****2 的大作中提到】
: cassandra就可以了吧?
avatar
p*2
19
hbase也不好用

【在 z****e 的大作中提到】
: lol
: 搞不好以后hadoop这么一大堆项目
: 最后剩下的就是还没毕业的hbase

avatar
p*2
20
我用scala

【在 z****e 的大作中提到】
: 二爷你用spark用scala吗?
avatar
z*e
21
hoho
还好今天看了一下这个贴
下一步先不用hadoop了,上spark和cassandra
之前一直犹豫,觉得hadoop有些太重了
看来拖延阵偶尔也还是有点好处的

【在 p*****2 的大作中提到】
: 我用scala
avatar
p*2
22
确实太重了
我当时比较过hbase和cassandra感觉学习曲线相差太大了 除了特殊的应用不然直接上
cassandra为佳
当然hbase有hadoop的优势 现在spark来了 就可以全活了
一个人搞定cassandra spark问题不大

【在 z****e 的大作中提到】
: hoho
: 还好今天看了一下这个贴
: 下一步先不用hadoop了,上spark和cassandra
: 之前一直犹豫,觉得hadoop有些太重了
: 看来拖延阵偶尔也还是有点好处的

avatar
z*e
23
靠谱

【在 p*****2 的大作中提到】
: 确实太重了
: 我当时比较过hbase和cassandra感觉学习曲线相差太大了 除了特殊的应用不然直接上
: cassandra为佳
: 当然hbase有hadoop的优势 现在spark来了 就可以全活了
: 一个人搞定cassandra spark问题不大

avatar
f*n
24
mark
avatar
d*w
25
Databricks CTO 说,现在feature呼声最大的是在Spark上加上Deep learning

【在 z****e 的大作中提到】
: spark自身有一个ml的pkg
: 以后估计就按照这个往上搞了
: 其他ml的pkg估计都不怎么用了

avatar
g*e
26
mark
avatar
z*e
27
是啊,如果伯克利能开一个ml课程based on这个东西的话
那就太好了,比matlab那个实用太多

【在 d********w 的大作中提到】
: Databricks CTO 说,现在feature呼声最大的是在Spark上加上Deep learning
avatar
d*w
28
应该会的, Berkeley那么多ML牛人,分分钟搞个Lib出来

【在 z****e 的大作中提到】
: 是啊,如果伯克利能开一个ml课程based on这个东西的话
: 那就太好了,比matlab那个实用太多

avatar
Y*y
29
上个月和Matei还有Reynold讨论项目,其实他们也没打算替代hadoop,两者是互为补充
。memory的价格和容量在现阶段还是受限,而且spark本身还没有job scheduling等等
完善的机制在里面,还需要进化。而且现在hadoop已经是个大的ecosystem了,不光局
限于最初的文件系统和计算引擎。

【在 d********w 的大作中提到】
: 是有可能的,世界变化太快,谁还受得了Hadoop那么慢!
avatar
c*z
30
学习了,大牛威武
还是统计容易点,不用老这么折腾,老模型也都还能用
不过不折腾也拿不了高工资
有一个问题,为什么HDFS和其他系统的fault tolerance只是简单的dupes,而不是
error correction code 比如说 Hamming code 或者 Reed Solomon code
avatar
Y*y
31
放disk里面容量一般不是最critical的因素。放多个replica可以提高读操作的吞吐率
,load balancing也更好做,这些是error correction code没有的好处。不过新的
hdfs版本里面已经有支持了。两三年前G自己的文件系统也有了。

【在 c***z 的大作中提到】
: 学习了,大牛威武
: 还是统计容易点,不用老这么折腾,老模型也都还能用
: 不过不折腾也拿不了高工资
: 有一个问题,为什么HDFS和其他系统的fault tolerance只是简单的dupes,而不是
: error correction code 比如说 Hamming code 或者 Reed Solomon code

avatar
c*z
32
明白了,多谢指点!

【在 Y*****y 的大作中提到】
: 放disk里面容量一般不是最critical的因素。放多个replica可以提高读操作的吞吐率
: ,load balancing也更好做,这些是error correction code没有的好处。不过新的
: hdfs版本里面已经有支持了。两三年前G自己的文件系统也有了。

avatar
P*e
33
lz你是不是快去databricks了啊~
avatar
z*e
34
cron job可以用spring来做
http://spring.io/guides/gs/scheduling-tasks/
这样就可以用spark定期跑一下cron job了
这样就比hadoop那个cron job快了
都是java的东西么,hadoop不支持的功能
可以从其他项目中找

【在 Y*****y 的大作中提到】
: 上个月和Matei还有Reynold讨论项目,其实他们也没打算替代hadoop,两者是互为补充
: 。memory的价格和容量在现阶段还是受限,而且spark本身还没有job scheduling等等
: 完善的机制在里面,还需要进化。而且现在hadoop已经是个大的ecosystem了,不光局
: 限于最初的文件系统和计算引擎。

avatar
D*7
35
zan

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: #Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
: Resource Manager HA,
: YARN Rest API, ACL on HDFS...
: http://hadoop.apache.org/releases.html
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
: http://hadoop.apache.org/who.html

avatar
h*u
36
赞!
大牛觉得H2o怎么样啊?
https://github.com/0xdata/h2o

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: #Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
: Resource Manager HA,
: YARN Rest API, ACL on HDFS...
: http://hadoop.apache.org/releases.html
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
: http://hadoop.apache.org/who.html

avatar
h*a
37
Performance上面有什么明显的提升么?公司里面是不是能一个人很快搞定不是最重要
的考量吧。

【在 p*****2 的大作中提到】
: 确实太重了
: 我当时比较过hbase和cassandra感觉学习曲线相差太大了 除了特殊的应用不然直接上
: cassandra为佳
: 当然hbase有hadoop的优势 现在spark来了 就可以全活了
: 一个人搞定cassandra spark问题不大

avatar
d*w
38
当然不能把事情做绝了,最好做到我中有你,你中有我,到时两个都不能替代,其他用
Hadoop的公司也不用紧张,会有解决方案无缝迁移的,这是一种策略,所谓生态系统
就是最后大家都要为技术买单。

【在 Y*****y 的大作中提到】
: 上个月和Matei还有Reynold讨论项目,其实他们也没打算替代hadoop,两者是互为补充
: 。memory的价格和容量在现阶段还是受限,而且spark本身还没有job scheduling等等
: 完善的机制在里面,还需要进化。而且现在hadoop已经是个大的ecosystem了,不光局
: 限于最初的文件系统和计算引擎。

avatar
d*s
39
mark
avatar
r*c
40
一个人是差比较大,如果一个团队而且是有经验的话还是性能和feature更重要

【在 p*****2 的大作中提到】
: 确实太重了
: 我当时比较过hbase和cassandra感觉学习曲线相差太大了 除了特殊的应用不然直接上
: cassandra为佳
: 当然hbase有hadoop的优势 现在spark来了 就可以全活了
: 一个人搞定cassandra spark问题不大

avatar
p*2
41

听说10倍到百倍的提高。
我觉得很快搞定还是很重要的。很多公司不会给你那么多时间看效果的。能先上马重要


【在 h*****a 的大作中提到】
: Performance上面有什么明显的提升么?公司里面是不是能一个人很快搞定不是最重要
: 的考量吧。

avatar
p*2
42

现在即使Hadoop的话,能凑齐一个有经验的团队还是很困难的。我认为只有少数公司可
以做到。
所以对于大多数公司来说,上手快很重要。

【在 r****c 的大作中提到】
: 一个人是差比较大,如果一个团队而且是有经验的话还是性能和feature更重要
avatar
z*e
43
hbase还没毕业
cp系统强求consistent也会影响效率
cassandra可以tune成cp,如果consistent不重要的话
就不tune,不tune的话就对效率没啥影响
有选择很重要呀
现在team的规模也在逐步变小,很多项目都是1-2个人在做

【在 r****c 的大作中提到】
: 一个人是差比较大,如果一个团队而且是有经验的话还是性能和feature更重要
avatar
p*2
44
确实 现在常常一个人要做一个team的work所以技术选型很重要
我看很多大公司出来使用的技术很heavy,自己干着也很累

【在 z****e 的大作中提到】
: hbase还没毕业
: cp系统强求consistent也会影响效率
: cassandra可以tune成cp,如果consistent不重要的话
: 就不tune,不tune的话就对效率没啥影响
: 有选择很重要呀
: 现在team的规模也在逐步变小,很多项目都是1-2个人在做

avatar
b*t
45
spark在内存不足的情况下performance 的degradation相当严重。还有就是
scalability的问题。
说白了无论那种系统,无非是利用memory 等级的performance不同来提高性能,并无什
么新鲜东西。支持你的人多,你做的早,就是了。hadoop summit已经没有去的必要了
。基本是vendor和customer的架势了。看新技术还是OSDI,SC吧。
还有就是个人崇拜,毫无必要,我们只看他们做的事情,客观的认识他们做的事情,你
才能从中总结出东西,并不再做盲目跟从的人。Metai早起的fair scheduling on
mapreduce也不是没有问题。
楼主在linkedin吧。要说最大的hadoop cluster, 还是Yahoo的吧。据说twitter还是
linkedin内部好像还没有enable security?你们还用mesos? anyway,spark只是一个
solution,客观看到就好,一时半会,还没人能达到Y家hadoopcluster的规模,还有很
多中小公司在用hadoop 1.x
我倒是觉得,计算平台日新月异,从当初的mpi,openmp, 到今天的MR, DAG等等。但是
背后的存储系统进化并不快,而且稳扎稳打,要想不被快速淘汰,文件存储技术相对安
全。
avatar
b*t
46
还有就是那些炫目的数字,快多少倍。没有全面客观的比较,对于一个critical
thinking的PhD来说,那些数字只是corner case。
avatar
n*t
47
这东西就是骗钱的。。。
用memory,为啥不用L1 cache啊?lol

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: #Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
: Resource Manager HA,
: YARN Rest API, ACL on HDFS...
: http://hadoop.apache.org/releases.html
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
: http://hadoop.apache.org/who.html

avatar
C*r
48

that would be awesome!

【在 d********w 的大作中提到】
: Databricks CTO 说,现在feature呼声最大的是在Spark上加上Deep learning
avatar
o*e
49
zan!
avatar
w*a
50
这,这,。。这让我们这些转行的,想拿hadoop做跳板,连hadoop都没摸热的人,怎么
活啊?

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: #Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
: Resource Manager HA,
: YARN Rest API, ACL on HDFS...
: http://hadoop.apache.org/releases.html
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
: http://hadoop.apache.org/who.html

avatar
z*e
51
猴屁股你这个不靠谱
加大l1 cache做db的不是没有人这么干
而且之前不纯用memory我觉得就是一个错误
搞得最后都当成batch来用
不全用memory的好处就是recover之后还可以找回来
那这种容灾机制现在连传统db都在面临着挑战,你看看newsql
里面就对这些东西提出了质疑
把太多资源浪费在这些其实发生概率很小的事情上
还不如不做,反正本来很多东西就不精确
而且以后都cloud了,你要多少内存,还不是就是一个按钮的事

【在 n******t 的大作中提到】
: 这东西就是骗钱的。。。
: 用memory,为啥不用L1 cache啊?lol

avatar
z*e
52
没关系,这是简化版
java的东西就这样
一开始做一个东西出来,很复杂,一堆人都看晕了
后来出一个简化版的,很快就流行开来
ejb之后有spring
maven之后有gradle
soap之后有rest
xml之后有json
hadoop之后有spark
复杂的你会了,简单的就更不在话下了

【在 w**a 的大作中提到】
: 这,这,。。这让我们这些转行的,想拿hadoop做跳板,连hadoop都没摸热的人,怎么
: 活啊?

avatar
n*t
53
这种做事方式,就是拿个巨糙的方案,包装成高大上,然后叫别人花钱买性能。
反正大部分corp IT的智力就那样,他们也许是可以忽悠一些人的。
in memory 的东西我N年前就搞过,没啥神奇的,有用肯定是有用,
但是也就是内存能搞的那点点东西,基本上没啥scalability.

【在 z****e 的大作中提到】
: 猴屁股你这个不靠谱
: 加大l1 cache做db的不是没有人这么干
: 而且之前不纯用memory我觉得就是一个错误
: 搞得最后都当成batch来用
: 不全用memory的好处就是recover之后还可以找回来
: 那这种容灾机制现在连传统db都在面临着挑战,你看看newsql
: 里面就对这些东西提出了质疑
: 把太多资源浪费在这些其实发生概率很小的事情上
: 还不如不做,反正本来很多东西就不精确
: 而且以后都cloud了,你要多少内存,还不是就是一个按钮的事

avatar
z*e
54
我的思路跟你正相反
我觉得需要scalability的部分可以看作是优化
绝大多数job/task都不需要什么scalability
等需要scalability的时候再调整
简单版做事方式就这样
你看ejb一开始也是事无巨细,考虑得很周全
spring一开始就一单机版的ejb,根本不考虑分布式
没有scalability可言,爆火,因为大多数server单机就可以搞定了
大部分corp it智力就这样

【在 n******t 的大作中提到】
: 这种做事方式,就是拿个巨糙的方案,包装成高大上,然后叫别人花钱买性能。
: 反正大部分corp IT的智力就那样,他们也许是可以忽悠一些人的。
: in memory 的东西我N年前就搞过,没啥神奇的,有用肯定是有用,
: 但是也就是内存能搞的那点点东西,基本上没啥scalability.

avatar
t*t
55
有人听说过REEF吗?mail list上看到貌似最近也进apache incubation了

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: #Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
: Resource Manager HA,
: YARN Rest API, ACL on HDFS...
: http://hadoop.apache.org/releases.html
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
: http://hadoop.apache.org/who.html

avatar
d*w
56
Interesting, 又是一个big data platform
http://www.reef-project.org/welcome/
大家看懂了可以介绍一下

【在 t**********t 的大作中提到】
: 有人听说过REEF吗?mail list上看到貌似最近也进apache incubation了
avatar
k*r
57
大牛们用sparkSQL吗?
请教hiveContext下parquet咋用,
有说hive只能用1.2版的,不知道是不是真的。
我正在用1.3版的hive怎么用不能create parquet形式的table。
avatar
p*2
58
看过 不支持cassandra

【在 k****r 的大作中提到】
: 大牛们用sparkSQL吗?
: 请教hiveContext下parquet咋用,
: 有说hive只能用1.2版的,不知道是不是真的。
: 我正在用1.3版的hive怎么用不能create parquet形式的table。

avatar
v*l
59
mark
avatar
w*r
60
我还没有需hadoop呢,就淘汰了,这个也太怪了,做计算机的赶不上时代
avatar
x*6
61
mark
avatar
g*f
62
mark
avatar
z*g
63
too many open files
avatar
t*j
64
大牛们有update吗?
avatar
c*e
65
mark,mark,谢谢大牛
avatar
d*w
66
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
# Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本,比如增强
Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
[Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面是比较稳定了,但也可以说是瓶颈了。
[Apache Hadoop Project Members]http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks,也有不少
国人上榜。
# Spark
## 介绍
Spark今年大放溢彩,Spark简单说就是内存计算(包含迭代式计算,DAG计算,流式计算
)框架,之前MapReduce因效率低下大家经常嘲笑,而Spark的出现让大家很清新。
* [Reynod 作为Spark核心开发者, 介绍Spark性能超Hadoop百倍,算法实现仅有其1/10
或1/100]http://www.csdn.net/article/2013-04-26/2815057-Spark-Reynold
* [浅谈Apache Spark的6个发光点]http://www.csdn.net/article/2014-08-07/2821098-6-sparkling-feat
* [Spark: Open Source Superstar Rewrites Future of Big Data]http://www.wired.com/2013/06/yahoo-amazon-amplab-spark/all/
* [Spark is a really big deal for big data, and Cloudera gets it]http://gigaom.com/2013/10/28/spark-is-a-really-big-deal-for-big-data-and-cloudera-gets-it/
其实起名字也很重要,Spark就占了先机,CTO说[Where There’s Spark There’s
Fire: The State of Apache Spark in 2014]http://inside-bigdata.com/2014/07/15/theres-spark-theres-fire-state-apache-spark-2014/
## 起源
2010年Berkeley AMPLab,发表在[hotcloud]https://www.usenix.org/legacy/events
/hotcloud10/tech/full_papers/Zaharia.pdf)
是一个从学术界到工业界的成功典范,也吸引了顶级VC:Andreessen Horowitz的
注资
AMPLab这个实验室非常厉害,做大数据,云计算,跟工业界结合很紧密,之前就是他们
做mesos,hadoop online, crowddb, Twitter,Linkedin等很多知名公司都喜欢从
Berkeley找人,比如Twitter也专门开了门课程 [Analyzing Big Data with Twitter]http://blogs.ischool.berkeley.edu/i290-abdt-s12/
还有个[BDAS]https://amplab.cs.berkeley.edu/software/ (Bad Ass)引以为傲: [
The lab that created Spark wants to speed up everything, including cures for
cancer]http://gigaom.com/2014/08/02/the-lab-that-created-spark-wants-to-speed-up-everything-including-cures-for-cancer/
在2013年,这些大牛从Berkeley AMPLab出去成立了Databricks,半年就做了2次summit
参会1000人,引无数Hadoop大佬尽折腰,大家看一下Summit的sponsor
,所有hadoop厂商全来了,并且各个技术公司也在巴结,cloudrea, hortonworks,
mapr, datastax, yahoo, ooyala, 根据CTO说 Spark新增代码量活跃度今年远远超过了
Hadoop本身,要推出商业化产品Cloud。
## Spark人物
* [Ion Stoica]http://www.cs.berkeley.edu/~istoica/: Berkeley教授,AMPLab 领军
* [Matei Zaharia]http://people.csail.mit.edu/matei/: 天才,MIT助理教授
* [Reynold Xin]http://www.eecs.berkeley.edu/~rxin/ Apache Spark开源社区的主导人物之一。他在UC Berkeley AMPLab进行博士学业期间参与了Spark的开发,并在Spark之上编写了Shark和GraphX两个开源框架。他和AMPLab同僚共同创建了Databricks公司
* [Andy Konwinski]http://andykonwinski.com/
* [Haoyuan Li]http://www.cs.berkeley.edu/~haoyuan/
* [Patrick Wendell]http://www.pwendell.com/
* [Xiangrui Meng]http://www.stanford.edu/~mengxr/
* [Paco Nathan]http://liber118.com/pxn/
* [Lian Cheng]http://blog.liancheng.info/
* [Hossein Falaki]http://www.falaki.net/
* [Mosharaf Chowdhury]http://www.mosharaf.com/
* [Zongheng Yang]http://geotakucovi.com/
* [Yin Huai]http://web.cse.ohio-state.edu/~huai/index.html
* [Committers]https://cwiki.apache.org/confluence/display/SPARK/Committers
## Spark基本概念
1. RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for
In-Memory Cluster Computing弹性分布式数据集。
2. Operation——作用于RDD的各种操作分为transformation和action。
3. Job——作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation。
4. Stage——一个作业分为多个阶段。
5. Partition——数据分区, 一个RDD中的数据可以分成多个不同的区。
6. DAG——Directed Acycle graph,有向无环图,反应RDD之间的依赖关系。
7. Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。
8. Wide Dependency——宽依赖,子RDD对父RDD中的所有data partition都有依赖。
9. Caching Managenment——缓存管理,对RDD的中间计算结果进行缓存管理以加快整
体的处理速度。
目前还有一些子项目,比如 Spark SQL, [Spark Streaming]http://spark.apache.org/streaming/, MLLib, Graphx
工业界也引起广泛兴趣,国内Taobao, baidu也开始使用:[Powered by Spark](https:
//cwiki.apache.org/confluence/display/SPARK/Powered+By+Spark)
Apache Spark支持4种分布式部署方式,分别是Amazon EC2, standalone、spark on
mesos和 spark on YARN
比如[AWS]http://www.getblueshift.com/blog/?p=56
## Spark Summit
* [2014 Summit]http://spark-summit.org/2014/
* [取代而非补充,Spark Summit 2014精彩回顾]http://www.csdn.net/article/2014-07-17/2820713
* [拥抱Spark,机遇无限——Spark Summit 2013精彩回顾]http://www.csdn.net/article/2014-01-09/2818085-spark-summit-2013
* [Databricks Cloud Demo]http://databricks.com/cloud 今年最叫好的demo是Dtabricks Cloud, 把Twitter上面实时收集的数据做作为machine learning素材,用类似IPython notebook,可视化呈现惊艳,而搭建整个sampling系统就花了20分钟!
## 培训资料和视频
* [官方文档]http://spark.apache.org/docs/latest/
* [Databricks Blog]http://databricks.com/blog
* [Summit Training]http://spark-summit.org/2014/training
* [Databricks upcoming training]http://databricks.com/training
* [Stanford Spark Class]http://stanford.edu/~rezab/sparkclass/
* [CSDN Spark专栏]http://spark.csdn.net/
10月份还有个培训在湾区的培训,只不过3天就要1500刀,看来做个讲师也不错:)
## 第三方项目
* [Web interactive UI on Hadoop/Spark]http://gethue.com/
* [Spark on cassandra]http://planetcassandra.org/getting-started-with-apache-spark-and-cassandra/
* [Spark Cassandra Connector]https://github.com/datastax/spark-cassandra-
connector)
* [Calliope]http://tuplejump.github.io/calliope/
* [H2O + Spark]http://databricks.com/blog/2014/06/30/sparkling-water-h20-spark
* Shark - Hive and SQL on top of Spark
* MLbase - Machine Learning research project on top of Spark
* BlinkDB - a massively parallel, approximate query engine built on top of
Shark and Spark
* GraphX - a graph processing & analytics framework on top of Spark (GraphX
has been merged into Spark 0.9)
* Apache Mesos - Cluster management system that supports running Spark
* Tachyon - In memory storage system that supports running Spark
* Apache MRQL - A query processing and optimization system for large-scale,
distributed data analysis, built on top of Apache Hadoop, Hama, and Spark
* OpenDL - A deep learning algorithm library based on Spark framework. Just
kick off.
* SparkR - R frontend for Spark
* Spark Job Server - REST interface for managing and submitting Spark jobs
on the same cluster.
## 相关参考资料
* [Resilient Distributed Datasets]https://www.usenix.org/system/files/
conference/nsdi12/nsdi12-final138.pdf)
* [spark on yarn的技术挑战]http://dongxicheng.org/framework-on-yarn/spark-on-yarn-challenge/
* [Hive原理与不足]http://www.ccplat.com/?p=1035
* [Impala/Hive现状分析与前景展望]http://yanbohappy.sinaapp.com/?p=220
* [Apache Hadoop: How does Impala compare to Shark]http://www.quora.com/Apache-Hadoop/How-does-Impala-compare-to-Shark
* [MapReduce:一个巨大的倒退]http://t.cn/zQLFnWs
* [Google Dremel 原理 — 如何能3秒分析1PB]http://www.yankay.com/google-dremel-rationale/
* [Isn’t Cloudera Impala doing the same job as Apache Drill incubator
project?]http://www.quora.com/Cloudera-Impala/Isnt-Cloudera-Impala-doing-the-same-job-as-Apache-Drill-incubator-project
* [Shark]https://github.com/amplab/shark/wiki
* [Big Data Benchmark]https://amplab.cs.berkeley.edu/benchmark/
* [How does Impala compare to Shark]http://www.quora.com/Apache-Hadoop/How-does-Impala-compare-to-Shark
* [EMC讲解Hawq SQL性能:左手Hive右手Impala]http://stor-age.zdnet.com.cn/stor-age/2013/0308/2147607.shtml
* [Shark, Spark SQL, Hive on Spark, and the future of SQL on Spark]http://databricks.com/blog/2014/07/01/shark-spark-sql-hive-on-spark-and-the-future-of-sql-on-spark.html
* [Cloudera: Impala’s it for interactive SQL on Hadoop; everything else
will move to Spark]http://gigaom.com/2014/07/03/cloudera-impalas-it-for-interactive-sql-on-hadoop-but-everything-else-will-move-to-spark/
* [Databricks – an interesting plan for Spark, Shark, and Spark SQL]http://www.simba.com/data-terms-applications/hadoop/databricks-interesting-plan-spark-shark-spark-sql
* [Apache Storm vs Spark Streaming]http://www.slideshare.net/ptgoetz/apache-storm-vs-spark-streaming
avatar
t*r
67
这玩意以后要kill掉hadoop了?
avatar
d*w
68
是有可能的,世界变化太快,谁还受得了Hadoop那么慢!

【在 t**r 的大作中提到】
: 这玩意以后要kill掉hadoop了?
avatar
z*e
69
re这个,spark的学习材料期待已久
avatar
z*e
70
spark自身有一个ml的pkg
以后估计就按照这个往上搞了
其他ml的pkg估计都不怎么用了
avatar
t*r
71
哈哈。那我这刚开始转行搞hadoop的可惨了

【在 d********w 的大作中提到】
: 是有可能的,世界变化太快,谁还受得了Hadoop那么慢!
avatar
z*e
72
替换掉mapreduce这些
但是hdfs还是会用hadoop的

【在 d********w 的大作中提到】
: 是有可能的,世界变化太快,谁还受得了Hadoop那么慢!
avatar
y*c
73


【在 z****e 的大作中提到】
: 替换掉mapreduce这些
: 但是hdfs还是会用hadoop的

avatar
s*i
74
赞!收藏了。
avatar
e*s
75
赞,今年hadoop summit基本上就两个主题,Hadoop 2.0和spark.

★ 发自iPhone App: ChineseWeb 8.7

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: # Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本,比如增强
: Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
: [Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面是比较稳定了,但也可以说是瓶颈了。
: [Apache Hadoop Project Members]http://hadoop.apache.org/who.html
: 这个是Hadoop project member and committee, 里面好多来自Hortonworks,也有不少

avatar
z*e
76
感觉spark出来之后
storm还有其他ml的pkg尤其是python那几个都挺危险的
不仅仅是hadoop本身的mapreduce面临着被市场淘汰的风险
avatar
e*s
77
还有mahout, 太难用了。

★ 发自iPhone App: ChineseWeb 8.7

【在 z****e 的大作中提到】
: 感觉spark出来之后
: storm还有其他ml的pkg尤其是python那几个都挺危险的
: 不仅仅是hadoop本身的mapreduce面临着被市场淘汰的风险

avatar
p*2
78
cassandra就可以了吧?

【在 z****e 的大作中提到】
: 替换掉mapreduce这些
: 但是hdfs还是会用hadoop的

avatar
p*2
79
感觉未来是cassandra+spark的
hadoop可以跳过了

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: # Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本,比如增强
: Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
: [Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面是比较稳定了,但也可以说是瓶颈了。
: [Apache Hadoop Project Members]http://hadoop.apache.org/who.html
: 这个是Hadoop project member and committee, 里面好多来自Hortonworks,也有不少

avatar
z*e
80
可以吧
但是hbase作为一个cp系统的代表,还是也了解一下比较好
毕竟c*是ap系统

【在 p*****2 的大作中提到】
: cassandra就可以了吧?
avatar
z*e
81
lol
搞不好以后hadoop这么一大堆项目
最后剩下的就是还没毕业的hbase

【在 p*****2 的大作中提到】
: 感觉未来是cassandra+spark的
: hadoop可以跳过了

avatar
z*e
82
二爷你用spark用scala吗?

【在 p*****2 的大作中提到】
: cassandra就可以了吧?
avatar
p*2
83
hbase也不好用

【在 z****e 的大作中提到】
: lol
: 搞不好以后hadoop这么一大堆项目
: 最后剩下的就是还没毕业的hbase

avatar
p*2
84
我用scala

【在 z****e 的大作中提到】
: 二爷你用spark用scala吗?
avatar
z*e
85
hoho
还好今天看了一下这个贴
下一步先不用hadoop了,上spark和cassandra
之前一直犹豫,觉得hadoop有些太重了
看来拖延阵偶尔也还是有点好处的

【在 p*****2 的大作中提到】
: 我用scala
avatar
p*2
86
确实太重了
我当时比较过hbase和cassandra感觉学习曲线相差太大了 除了特殊的应用不然直接上
cassandra为佳
当然hbase有hadoop的优势 现在spark来了 就可以全活了
一个人搞定cassandra spark问题不大

【在 z****e 的大作中提到】
: hoho
: 还好今天看了一下这个贴
: 下一步先不用hadoop了,上spark和cassandra
: 之前一直犹豫,觉得hadoop有些太重了
: 看来拖延阵偶尔也还是有点好处的

avatar
z*e
87
靠谱

【在 p*****2 的大作中提到】
: 确实太重了
: 我当时比较过hbase和cassandra感觉学习曲线相差太大了 除了特殊的应用不然直接上
: cassandra为佳
: 当然hbase有hadoop的优势 现在spark来了 就可以全活了
: 一个人搞定cassandra spark问题不大

avatar
f*n
88
mark
avatar
d*w
89
Databricks CTO 说,现在feature呼声最大的是在Spark上加上Deep learning

【在 z****e 的大作中提到】
: spark自身有一个ml的pkg
: 以后估计就按照这个往上搞了
: 其他ml的pkg估计都不怎么用了

avatar
g*e
90
mark
avatar
z*e
91
是啊,如果伯克利能开一个ml课程based on这个东西的话
那就太好了,比matlab那个实用太多

【在 d********w 的大作中提到】
: Databricks CTO 说,现在feature呼声最大的是在Spark上加上Deep learning
avatar
d*w
92
应该会的, Berkeley那么多ML牛人,分分钟搞个Lib出来

【在 z****e 的大作中提到】
: 是啊,如果伯克利能开一个ml课程based on这个东西的话
: 那就太好了,比matlab那个实用太多

avatar
Y*y
93
上个月和Matei还有Reynold讨论项目,其实他们也没打算替代hadoop,两者是互为补充
。memory的价格和容量在现阶段还是受限,而且spark本身还没有job scheduling等等
完善的机制在里面,还需要进化。而且现在hadoop已经是个大的ecosystem了,不光局
限于最初的文件系统和计算引擎。

【在 d********w 的大作中提到】
: 是有可能的,世界变化太快,谁还受得了Hadoop那么慢!
avatar
c*z
94
学习了,大牛威武
还是统计容易点,不用老这么折腾,老模型也都还能用
不过不折腾也拿不了高工资
有一个问题,为什么HDFS和其他系统的fault tolerance只是简单的dupes,而不是
error correction code 比如说 Hamming code 或者 Reed Solomon code
avatar
Y*y
95
放disk里面容量一般不是最critical的因素。放多个replica可以提高读操作的吞吐率
,load balancing也更好做,这些是error correction code没有的好处。不过新的
hdfs版本里面已经有支持了。两三年前G自己的文件系统也有了。

【在 c***z 的大作中提到】
: 学习了,大牛威武
: 还是统计容易点,不用老这么折腾,老模型也都还能用
: 不过不折腾也拿不了高工资
: 有一个问题,为什么HDFS和其他系统的fault tolerance只是简单的dupes,而不是
: error correction code 比如说 Hamming code 或者 Reed Solomon code

avatar
c*z
96
明白了,多谢指点!

【在 Y*****y 的大作中提到】
: 放disk里面容量一般不是最critical的因素。放多个replica可以提高读操作的吞吐率
: ,load balancing也更好做,这些是error correction code没有的好处。不过新的
: hdfs版本里面已经有支持了。两三年前G自己的文件系统也有了。

avatar
P*e
97
lz你是不是快去databricks了啊~
avatar
z*e
98
cron job可以用spring来做
http://spring.io/guides/gs/scheduling-tasks/
这样就可以用spark定期跑一下cron job了
这样就比hadoop那个cron job快了
都是java的东西么,hadoop不支持的功能
可以从其他项目中找

【在 Y*****y 的大作中提到】
: 上个月和Matei还有Reynold讨论项目,其实他们也没打算替代hadoop,两者是互为补充
: 。memory的价格和容量在现阶段还是受限,而且spark本身还没有job scheduling等等
: 完善的机制在里面,还需要进化。而且现在hadoop已经是个大的ecosystem了,不光局
: 限于最初的文件系统和计算引擎。

avatar
D*7
99
zan

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: # Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本,比如增强
: Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
: [Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面是比较稳定了,但也可以说是瓶颈了。
: [Apache Hadoop Project Members]http://hadoop.apache.org/who.html
: 这个是Hadoop project member and committee, 里面好多来自Hortonworks,也有不少

avatar
h*u
100
赞!
大牛觉得H2o怎么样啊?
https://github.com/0xdata/h2o

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: # Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本,比如增强
: Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
: [Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面是比较稳定了,但也可以说是瓶颈了。
: [Apache Hadoop Project Members]http://hadoop.apache.org/who.html
: 这个是Hadoop project member and committee, 里面好多来自Hortonworks,也有不少

avatar
h*a
101
Performance上面有什么明显的提升么?公司里面是不是能一个人很快搞定不是最重要
的考量吧。

【在 p*****2 的大作中提到】
: 确实太重了
: 我当时比较过hbase和cassandra感觉学习曲线相差太大了 除了特殊的应用不然直接上
: cassandra为佳
: 当然hbase有hadoop的优势 现在spark来了 就可以全活了
: 一个人搞定cassandra spark问题不大

avatar
d*w
102
当然不能把事情做绝了,最好做到我中有你,你中有我,到时两个都不能替代,其他用
Hadoop的公司也不用紧张,会有解决方案无缝迁移的,这是一种策略,所谓生态系统
就是最后大家都要为技术买单。

【在 Y*****y 的大作中提到】
: 上个月和Matei还有Reynold讨论项目,其实他们也没打算替代hadoop,两者是互为补充
: 。memory的价格和容量在现阶段还是受限,而且spark本身还没有job scheduling等等
: 完善的机制在里面,还需要进化。而且现在hadoop已经是个大的ecosystem了,不光局
: 限于最初的文件系统和计算引擎。

avatar
d*s
103
mark
avatar
r*c
104
一个人是差比较大,如果一个团队而且是有经验的话还是性能和feature更重要

【在 p*****2 的大作中提到】
: 确实太重了
: 我当时比较过hbase和cassandra感觉学习曲线相差太大了 除了特殊的应用不然直接上
: cassandra为佳
: 当然hbase有hadoop的优势 现在spark来了 就可以全活了
: 一个人搞定cassandra spark问题不大

avatar
p*2
105

听说10倍到百倍的提高。
我觉得很快搞定还是很重要的。很多公司不会给你那么多时间看效果的。能先上马重要


【在 h*****a 的大作中提到】
: Performance上面有什么明显的提升么?公司里面是不是能一个人很快搞定不是最重要
: 的考量吧。

avatar
p*2
106

现在即使Hadoop的话,能凑齐一个有经验的团队还是很困难的。我认为只有少数公司可
以做到。
所以对于大多数公司来说,上手快很重要。

【在 r****c 的大作中提到】
: 一个人是差比较大,如果一个团队而且是有经验的话还是性能和feature更重要
avatar
z*e
107
hbase还没毕业
cp系统强求consistent也会影响效率
cassandra可以tune成cp,如果consistent不重要的话
就不tune,不tune的话就对效率没啥影响
有选择很重要呀
现在team的规模也在逐步变小,很多项目都是1-2个人在做

【在 r****c 的大作中提到】
: 一个人是差比较大,如果一个团队而且是有经验的话还是性能和feature更重要
avatar
p*2
108
确实 现在常常一个人要做一个team的work所以技术选型很重要
我看很多大公司出来使用的技术很heavy,自己干着也很累

【在 z****e 的大作中提到】
: hbase还没毕业
: cp系统强求consistent也会影响效率
: cassandra可以tune成cp,如果consistent不重要的话
: 就不tune,不tune的话就对效率没啥影响
: 有选择很重要呀
: 现在team的规模也在逐步变小,很多项目都是1-2个人在做

avatar
b*t
109
spark在内存不足的情况下performance 的degradation相当严重。还有就是
scalability的问题。
说白了无论那种系统,无非是利用memory 等级的performance不同来提高性能,并无什
么新鲜东西。支持你的人多,你做的早,就是了。hadoop summit已经没有去的必要了
。基本是vendor和customer的架势了。看新技术还是OSDI,SC吧。
还有就是个人崇拜,毫无必要,我们只看他们做的事情,客观的认识他们做的事情,你
才能从中总结出东西,并不再做盲目跟从的人。Metai早起的fair scheduling on
mapreduce也不是没有问题。
楼主在linkedin吧。要说最大的hadoop cluster, 还是Yahoo的吧。据说twitter还是
linkedin内部好像还没有enable security?你们还用mesos? anyway,spark只是一个
solution,客观看到就好,一时半会,还没人能达到Y家hadoopcluster的规模,还有很
多中小公司在用hadoop 1.x
我倒是觉得,计算平台日新月异,从当初的mpi,openmp, 到今天的MR, DAG等等。但是
背后的存储系统进化并不快,而且稳扎稳打,要想不被快速淘汰,文件存储技术相对安
全。
avatar
b*t
110
还有就是那些炫目的数字,快多少倍。没有全面客观的比较,对于一个critical
thinking的PhD来说,那些数字只是corner case。
avatar
n*t
111
这东西就是骗钱的。。。
用memory,为啥不用L1 cache啊?lol

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: # Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本,比如增强
: Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
: [Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面是比较稳定了,但也可以说是瓶颈了。
: [Apache Hadoop Project Members]http://hadoop.apache.org/who.html
: 这个是Hadoop project member and committee, 里面好多来自Hortonworks,也有不少

avatar
o*e
112
zan!
avatar
w*a
113
这,这,。。这让我们这些转行的,想拿hadoop做跳板,连hadoop都没摸热的人,怎么
活啊?

【在 d********w 的大作中提到】
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: # Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本,比如增强
: Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
: [Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
: 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
: 属于安全,稳定可靠性一方面是比较稳定了,但也可以说是瓶颈了。
: [Apache Hadoop Project Members]http://hadoop.apache.org/who.html
: 这个是Hadoop project member and committee, 里面好多来自Hortonworks,也有不少

avatar
z*e
114
猴屁股你这个不靠谱
加大l1 cache做db的不是没有人这么干
而且之前不纯用memory我觉得就是一个错误
搞得最后都当成batch来用
不全用memory的好处就是recover之后还可以找回来
那这种容灾机制现在连传统db都在面临着挑战,你看看newsql
里面就对这些东西提出了质疑
把太多资源浪费在这些其实发生概率很小的事情上
还不如不做,反正本来很多东西就不精确
而且以后都cloud了,你要多少内存,还不是就是一个按钮的事

【在 n******t 的大作中提到】
: 这东西就是骗钱的。。。
: 用memory,为啥不用L1 cache啊?lol

avatar
z*e
115
没关系,这是简化版
java的东西就这样
一开始做一个东西出来,很复杂,一堆人都看晕了
后来出一个简化版的,很快就流行开来
ejb之后有spring
maven之后有gradle
soap之后有rest
xml之后有json
hadoop之后有spark
复杂的你会了,简单的就更不在话下了

【在 w**a 的大作中提到】
: 这,这,。。这让我们这些转行的,想拿hadoop做跳板,连hadoop都没摸热的人,怎么
: 活啊?

avatar
n*t
116
这种做事方式,就是拿个巨糙的方案,包装成高大上,然后叫别人花钱买性能。
反正大部分corp IT的智力就那样,他们也许是可以忽悠一些人的。
in memory 的东西我N年前就搞过,没啥神奇的,有用肯定是有用,
但是也就是内存能搞的那点点东西,基本上没啥scalability.

【在 z****e 的大作中提到】
: 猴屁股你这个不靠谱
: 加大l1 cache做db的不是没有人这么干
: 而且之前不纯用memory我觉得就是一个错误
: 搞得最后都当成batch来用
: 不全用memory的好处就是recover之后还可以找回来
: 那这种容灾机制现在连传统db都在面临着挑战,你看看newsql
: 里面就对这些东西提出了质疑
: 把太多资源浪费在这些其实发生概率很小的事情上
: 还不如不做,反正本来很多东西就不精确
: 而且以后都cloud了,你要多少内存,还不是就是一个按钮的事

avatar
z*e
117
我的思路跟你正相反
我觉得需要scalability的部分可以看作是优化
绝大多数job/task都不需要什么scalability
等需要scalability的时候再调整
简单版做事方式就这样
你看ejb一开始也是事无巨细,考虑得很周全
spring一开始就一单机版的ejb,根本不考虑分布式
没有scalability可言,爆火,因为大多数server单机就可以搞定了
大部分corp it智力就这样

【在 n******t 的大作中提到】
: 这种做事方式,就是拿个巨糙的方案,包装成高大上,然后叫别人花钱买性能。
: 反正大部分corp IT的智力就那样,他们也许是可以忽悠一些人的。
: in memory 的东西我N年前就搞过,没啥神奇的,有用肯定是有用,
: 但是也就是内存能搞的那点点东西,基本上没啥scalability.

avatar
d*w
118
Interesting, 又是一个big data platform
http://www.reef-project.org/welcome/
大家看懂了可以介绍一下

【在 t**********t 的大作中提到】
: 有人听说过REEF吗?mail list上看到貌似最近也进apache incubation了
avatar
k*r
119
大牛们用sparkSQL吗?
请教hiveContext下parquet咋用,
有说hive只能用1.2版的,不知道是不是真的。
我正在用1.3版的hive怎么用不能create parquet形式的table。
avatar
p*2
120
看过 不支持cassandra

【在 k****r 的大作中提到】
: 大牛们用sparkSQL吗?
: 请教hiveContext下parquet咋用,
: 有说hive只能用1.2版的,不知道是不是真的。
: 我正在用1.3版的hive怎么用不能create parquet形式的table。

avatar
v*l
121
mark
avatar
w*r
122
我还没有需hadoop呢,就淘汰了,这个也太怪了,做计算机的赶不上时代
avatar
x*6
123
mark
avatar
g*f
124
mark
avatar
z*g
125
too many open files
avatar
t*j
126
大牛们有update吗?
avatar
c*e
127
mark,mark,谢谢大牛
avatar
s*y
128
mark
avatar
t*r
129
董老师现在海归了
avatar
r*m
130
Mark
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。