Hadoop Spark 学习小结[2014版] (转载)# DataSciences - 数据科学az2014-08-18 07:081 楼有一张美国签证照片,2英寸乘2英寸的,现在需要一张国内通常要求的一寸照片,能不能要求国内的照相馆将美国两寸照片洗成国内的一寸照片呢?国内一寸照片是英寸还是寸呢?谢谢有包子答谢
o*e2014-08-18 07:082 楼【 以下文字转载自 JobHunting 讨论区 】发信人: dongfeiwww (在路上), 信区: JobHunting标 题: Hadoop Spark 学习小结[2014版]关键字: Spark,Big Data,Hadoop发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享受技术饕餮大餐#HadoopHadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强Resource Manager HA,YARN Rest API, ACL on HDFS...http://hadoop.apache.org/releases.html根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。http://hadoop.apache.org/who.html这个是Hadoop project member and committee, 里面好多来自Hortonworks,不过也有不少国人加入了,都是未来的希望啊。# SparkSpark今年大放溢彩,Spark简单说就是内存计算(或者迭代式计算,DAG计算,流式计算)框架,MapReduce因效率低下大家经常嘲笑, Spark号称性能超Hadoop百倍,算法实现仅有其1/10或1/100 Reynold 作为Spark核心开发者,介绍http://www.csdn.net/article/2013-04-26/2815057-Spark-Reynoldhttp://www.csdn.net/article/2014-08-07/2821098-6-sparkling-feat起源于2010年Berkeley AMPLab,发表在hotcloud上https://www.usenix.org/legacy/events/hotcloud10/tech/full_papers/Zaharia.pdf是一个从学术界到工业界的成功典范,所以也吸引了顶级VC:Andreessen Horowitz的注资BTW: 这个实验室非常厉害,做大数据,云计算,跟工业界结合很紧密,比如Twitter也Berkeley开了门课程http://blogs.ischool.berkeley.edu/i290-abdt-s12/还有个BDAS (Bad Ass)引以为傲: https://amplab.cs.berkeley.edu/software/http://gigaom.com/2014/08/02/the-lab-that-created-spark-wants-t在2013年,这些大牛出动把Berkeley AMPLab的人拉出去成立了Databricks,半年就做了2次summit参会1000人,引无数Hadoop大佬尽折腰,大家看一下Summit的sponsor,所有hadoop厂商全来了,并且各个技术公司也在巴结,cloudrea, hortonworks, mapr, datastax,yahoo, ooyala, 根据CTO说 Spark新增代码量活跃度今年远远超过了Hadoop本身,马上要推出商业化产品CloudSpark 核心人物Ion Stoica :http://www.cs.berkeley.edu/~istoica/ Berkeley教授,AMPLab 领军Matei Zaharia:http://people.csail.mit.edu/matei/ 天才,MIT助理教授Reynold Xin: http://www.eecs.berkeley.edu/~rxin/Haoyuan Li: http://www.cs.berkeley.edu/~haoyuan/http://www.wired.com/2013/06/yahoo-amazon-amplab-spark/all/其实起名字也很重要,Spark就占了先机,CTO说 Where there's spark, there's fire!http://inside-bigdata.com/2014/07/15/theres-spark-theres-fire-sSpark核心数据结构:Resilient Distributed Datasets: A Fault-Tolerant Abstraction forIn-Memory Cluster Computinghttps://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdfSpark目前是1.0.2最新版本:https://spark.apache.org/docs/1.0.2/目前还有一些子项目,比如 Spark SQL, Spark Streaming, MLLib, Graphx如;http://spark.apache.org/streaming/工业界也引起广泛兴趣,国内Taobao, baidu也开始使用:https://cwiki.apache.org/confluence/display/SPARK/Powered+By+SparkApache Spark支持4种分布式部署方式,分别是Amazon EC2, standalone、spark onmesos和 spark on YARN比如AWS:http://www.getblueshift.com/blog/?p=56至于如何入门,还是得好好看官方文档,上面有入门,搭建环境,Summit上的视频也是http://spark-summit.org/2014/也有个training视频:http://spark-summit.org/2014/training今年的Summit 回顾http://www.csdn.net/article/2014-07-17/2820713今年最叫好的demo是Dtabricks Cloud, 把twitter上面实时收集的数据做作为machinelearning素材,用类似IPython notebook,可视化呈现惊艳,而搭建整个sampling系统就花了20分钟!http://databricks.com/cloudCSDN上面也有个Spark专栏,大家可以多去看看spark.csdn.net还有一些第三方的项目基于Spark上面Web interactive UI on Hadoop/Spark: http://gethue.com/Spark on cassandra:http://planetcassandra.org/getting-started-with-apache-spark-anhttps://github.com/datastax/spark-cassandra-connectorhttp://tuplejump.github.io/calliope/H2O + Spark:http://databricks.com/blog/2014/06/30/sparkling-water-h20-sparkShark - Hive and SQL on top of SparkMLbase - Machine Learning research project on top of SparkBlinkDB - a massively parallel, approximate query engine built on top ofShark and SparkGraphX - a graph processing & analytics framework on top of Spark (GraphXhas been merged into Spark 0.9)Apache Mesos - Cluster management system that supports running SparkTachyon - In memory storage system that supports running SparkApache MRQL - A query processing and optimization system for large-scale,distributed data analysis, built on top of Apache Hadoop, Hama, and SparkOpenDL - A deep learning algorithm library based on Spark framework. Justkick off.SparkR - R frontend for SparkSpark Job Server - REST interface for managing and submitting Spark jobs onthe same cluster
az2014-08-18 07:084 楼谢谢,国内照相馆给洗好了,估计人家帮着裁剪的吧【在 l********e 的大作中提到】: 美国是方的,中国是长方形。: 怎么直接洗?: 你得自己重新剪裁一下。: 一般照片都是长宽说明的。
l*e2014-08-18 07:085 楼洗之前要做好。洗好的美国2寸照片剪成中国1寸的,谁知道人头像的大小是不是符合照片要求呢?【在 az 的大作中提到】: 谢谢,国内照相馆给洗好了,估计人家帮着裁剪的吧
az2014-08-18 07:086 楼没那么复杂的啦,不过是给妈妈办什么社保卡而已,不是签证,护照照片啦,不严格的啦。不过是妈妈不在国内,只好拿着两寸的签证照片,国内的照相馆都给弄好了,已经搞定啦,谢谢【在 l********e 的大作中提到】: 洗之前要做好。: 洗好的美国2寸照片剪成中国1寸的,谁知道人头像的大小是不是符合照片要求呢?