来自Ringplus的邮件 - 未名空间MITBBS历史存档

t*g2017-02-12 08:02

1 楼

2007年来美国，到了中部一个小镇读博，第一晚上住在同届早来的同学家里，半夜失眠
，躺在人家捡来的沙发上望着天花板，周围一点声音都没有，那时很想有一个mp3在身
边听点声音。圣诞节，转学到西海岸的另外一所学校，在芝加哥机场转机的时候，突然
在热闹的人群中感觉无比孤独。
2008年，读博，网上认识了一个在澳大利亚读书的女孩，18个小时的时差，却每天都会
开心的聊着MSN。
2009年，澳洲女孩硕士毕业，放弃澳洲工作。我也放弃去夏威夷开会的机会，向老板
请假回国，没有回家，直接取上户口卡飞向2000多公里外的城市和她见面。一周后在她
家的城市领证，办婚礼，然后回我家办婚礼，然后和LP一起回美国。
2010年，和老板继续苦逼的读博，老板说funding不足，让我准备一年内毕业。lp待业
，她说如果她能工作，用第一个月的工资给我买一把电吉他。
2011年，发了一篇挂名的Science，找不到工作，赖着没毕业，继续读博。
2012年，博士毕业，放弃了一个国家实验室博后的offer，申请梦想的另外一个国
家实验室的博后无果，借钱和LP出去旅游一趟。留在老板组里做博后，继续等待。
2013年，发了第二篇Science，博后做到精神抑郁，经常在湖边发呆羡慕水里的鱼，终
于下定决心放弃自己仰慕但又极不擅长的research。下半年找到一份工业界的
contractor工作，工资70k。放弃梦想后的生活原来会这么开心。有了周末的概念，有
了life。lp怀孕。
2014年，公司项目取消，被layoff，回到博士老板组做了3个月的兼职，然后又回到原
来的公司，错过了H1b的申请，工资降成 50k，但能继续混在工业界依然那么开心。之
后儿子顺利出生;同一天EB1a批准; 父母第一次来美国，睡在我们1br的客厅里。
和前面的一个兄弟一样：来美7年，没卡，没房，没存款，有的只是刚刚开始的生活和
对未来的憧憬。lp说将来拿到绿卡，她就马上去工作，赚小钱，然后赚大钱，买一辆
BMW X5给我，她自己开一辆Prius。

d*w2017-02-12 08:02

2 楼

http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
大家有个铺垫，简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
HDFS，MapReduce基本组件。
HDFS：提供了一种跨服务器的弹性数据存储系统。
MapReduce：技术提供了感知数据位置的标准化处理流程：读取数据，对数据进行映射
（Map），使用某个键值对数据进行重排，然后对数据进行化简（Reduce）得到最终的
输出。
Amazon Elastic Map Reduce(EMR)：托管的解决方案，运行在由Amazon Elastic
Compute Cloud（EC2）和Simple Strorage Service（S3）组成的网络规模的基础设施
之上。如果你需要一次性的或不常见的大数据处理，EMR可能会为你节省开支。但EMR是
高度优化成与S3中的数据一起工作，会有较高的延时。
Hadoop 还包含了一系列技术的扩展系统，这些技术主要包括了Sqoop、Flume、Hive、
Pig、Mahout、Datafu和HUE等。
Pig：分析大数据集的一个平台，该平台由一种表达数据分析程序的高级语言和对这些
程序进行评估的基础设施一起组成。
Hive：用于Hadoop的一个数据仓库系统，它提供了类似于SQL的查询语言，通过使用该
语言，可以方便地进行数据汇总，特定查询以及分析。
Hbase：一种分布的、可伸缩的、大数据储存库，支持随机、实时读/写访问。
Sqoop：为高效传输批量数据而设计的一种工具，其用于Apache Hadoop和结构化数据储
存库如关系数据库之间的数据传输。
Flume：一种分布式的、可靠的、可用的服务，其用于高效地搜集、汇总、移动大量日
志数据。
ZooKeeper：一种集中服务，其用于维护配置信息，命名，提供分布式同步，以及提供
分组服务。
Cloudera：最成型的Hadoop发行版本，拥有最多的部署案例。提供强大的部署、管理和
监控工具。开发并贡献了可实时处理大数据的Impala项目。
Hortonworks：使用了100%开源Apache Hadoop提供商。开发了很多增强特性并提交至核
心主干，这使得Hadoop能够在包括Windows Server和Azure在内平台上本地运行。
MapR：获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS。提供诸如快照、
镜像或有状态的故障恢复等高可用性特性。领导着Apache Drill项目，是Google的
Dremel的开源实现，目的是执行类似SQL的查询以提供实时处理。
原理篇
数据存储
我们的目标是做一个可靠的，支持大规模扩展和容易维护的系统。计算机里面有个
locality（局部性定律），如图所示。从下到上访问速度越来越快，但存储代价更大。
相对内存，磁盘和SSD就需要考虑数据的摆放，因为性能会差异很大。磁盘好处是持久
化，单位成本便宜，容易备份。但随着内存便宜，很多数据集合可以考虑直接放入内存
并分布到各机器上，有些基于 key-value, Memcached用在缓存上。内存的持久化可以
通过 (带电池的RAM)，提前写入日志再定期做Snapshot或者在其他机器内存中复制。当
重启时需要从磁盘或网络载入之前状态。其实写入磁盘就用在追加日志上面，读的话
就直接从内存。像VoltDB, MemSQL，RAMCloud 关系型又基于内存数据库，可以提供高
性能，解决之前磁盘管理的麻烦。
HyperLogLog & Bloom Filter & CountMin Sketch
都是是应用于大数据的算法，大致思路是用一组相互独立的哈希函数依次处理输入。
HyperLogLog 用来计算一个很大集合的基数（即合理总共有多少不相同的元素），对哈
希值分块计数：对高位统计有多少连续的0；用低位的值当做数据块。BloomFilter,在
预处理阶段对输入算出所有哈希函数的值并做出标记。当查找一个特定的输入是否出现
过，只需查找这一系列的哈希函数对应值上有没有标记。对于BloomFilter，可能有
False Positive，但不可能有False Negative。BloomFilter可看做查找一个数据有或
者没有的数据结构（数据的频率是否大于1）。CountMin Sketch在BloomFilter的基础
上更进一步，它可用来估算某一个输入的频率（不局限于大于1）。
CAP Theorem
简单说是三个特性：一致性，可用性和网络分区，最多只能取其二。设计不同类型系统
要多去权衡。分布式系统还有很多算法和高深理论，比如：Paxos算法（paxos分布式一
致性算法--讲述诸葛亮的反穿越），Gossip协议（Cassandra学习笔记之Gossip协议）
，Quorum (分布式系统)，时间逻辑，向量时钟（一致性算法之四: 时间戳和向量图）
，拜占庭将军问题，二阶段提交等，需要耐心研究。
技术篇
来自：http://thinkbig.teradata.com/leading_big_data_technologies/big-data-reference-architecture/
根据不同的延迟要求（SLA），数据量存储大小，更新量多少，分析需求，大数据处理
的架构也需要做灵活的设计。上图就描述了在不同领域中大数据组件。
说大数据的技术还是要先提Google，Google 新三辆马车，Spanner, F1, Dremel
Spanner：高可扩展、多版本、全球分布式外加同步复制特性的谷歌内部数据库，支持
外部一致性的分布式事务;设计目标是横跨全球上百个数据中心,覆盖百万台服务器,包
含万亿条行记录！(Google就是这么霸气^-^)
F1: 构建于Spanner之上,在利用Spanner的丰富特性基础之上,还提供分布式SQL、事务
一致性的二级索引等功能,在AdWords广告业务上成功代替了之前老旧的手工MySQL
Shard方案。
Dremel: 一种用来分析信息的方法，它可以在数以千计的服务器上运行，类似使用SQL
语言，能以极快的速度处理网络规模的海量数据(PB数量级)，只需几秒钟时间就能完成。
Spark
2014年最火的大数据技术Spark，。主要意图是基于内存计算做更快的数据分析。同时
支持图计算，流式计算和批处理。Berkeley AMP Lab的核心成员出来成立公司
Databricks开发Cloud产品。
Flink
使用了一种类似于SQL数据库查询优化的方法，这也是它与当前版本的Apache Spark的
主要区别。它可以将全局优化方案应用于某个查询之上以获得更佳的性能。
Kafka
Announcing the Confluent Platform 1.0 Kafka 描述为 LinkedIn 的“中枢神经系统
”，管理从各个应用程序汇聚到此的信息流，这些数据经过处理后再被分发到各处。不
同于传统的企业信息列队系统，Kafka 是以近乎实时的方式处理流经一个公司的所有数
据，目前已经为 LinkedIn, Netflix, Uber 和 Verizon 建立了实时信息处理平台。
Kafka 的优势就在于近乎实时性。
Storm
Handle Five Billion Sessions a Day in Real Time，Twitter的实时计算框架。所谓
流处理框架，就是一种分布式、高容错的实时计算系统。Storm令持续不断的流计算变
得容易。经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领
域。
Samza
LinkedIn主推的流式计算框架。与其他类似的Spark，Storm做了几个比较。跟Kafka集
成良好，作为主要的存储节点和中介。
Lambda architecture
Nathan写了文章《如何去打败CAP理论》How to beat the CAP theorem，提出Lambda
Architecture，主要思想是对一些延迟高但数据量大的还是采用批处理架构，但对于即
时性实时数据使用流式处理框架，然后在之上搭建一个服务层去合并两边的数据流，这
种系统能够平衡实时的高效和批处理的Scale，看了觉得脑洞大开，确实很有效，被很
多公司采用在生产系统中。
Summingbird
Lambda架构的问题要维护两套系统，Twitter开发了Summingbird来做到一次编程，多处
运行。将批处理和流处理无缝连接，通过整合批处理与流处理来减少它们之间的转换开
销。下图就解释了系统运行时。
NoSQL
数据传统上是用树形结构存储（层次结构），但很难表示多对多的关系，关系型数据库
就是解决这个难题，最近几年发现关系型数据库也不灵了，新型NoSQL出现如Cassandra
，MongoDB，Couchbase。NoSQL 里面也分成这几类，文档型，图运算型，列存储，key-
value型，不同系统解决不同问题。没一个one-size-fits-all 的方案。
Cassandra
大数据架构中，Cassandra的主要作用就是存储结构化数据。DataStax的Cassandra是一
种面向列的数据库，它通过分布式架构提供高可用性及耐用性的服务。它实现了超大规
模的集群，并提供一种称作“最终一致性”的一致性类型，这意味着在任何时刻，在不
同服务器中的相同数据库条目可以有不同的值。
SQL on Hadoop
开源社区业出现了很多 SQL-on-Hadoop的项目，着眼跟一些商业的数据仓库系统竞争。
包括Apache Hive, Spark SQL, Cloudera Impala, Hortonworks Stinger, Facebook
Presto, Apache Tajo，Apache Drill。有些是基于Google Dremel设计。
Impala
Cloudera公司主导开发的新型查询系统，它提供SQL语义，能够查询存储在Hadoop的
HDFS和HBase中的PB级大数据，号称比Hive快5-10倍，但最近被Spark的风头给罩住了，
大家还是更倾向于后者。
Drill
Apache社区类似于Dremel的开源版本—Drill。一个专为互动分析大型数据集的分布式
系统。
Druid
在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存
储的层，一个分布式、shared-nothing的架构，和一个高级的索引结构，来达成在秒级
以内对十亿行级别的表进行任意的探索分析。
Berkeley Data Analytics Stack
上面说道Spark，在Berkeley AMP lab 中有个更宏伟的蓝图，就是BDAS，里面有很多明
星项目，除了Spark，还包括：
Mesos：一个分布式环境的资源管理平台，它使得Hadoop、MPI、Spark作业在统一资源
管理环境下执行。它对Hadoop2.0支持很好。Twitter，Coursera都在使用。
Tachyon：是一个高容错的分布式文件系统，允许文件以内存的速度在集群框架中进行
可靠的共享，就像Spark和MapReduce那样。项目发起人李浩源说目前发展非常快，甚至
比Spark当时还要惊人，已经成立创业公司Tachyon Nexus.
BlinkDB：也很有意思，在海量数据上运行交互式 SQL 查询的大规模并行查询引擎。它
允许用户通过权衡数据精度来提升查询响应时间，其数据的精度被控制在允许的误差范
围内。
Cloudera
Hadoop老大哥提出的经典解决方案。
HDP （Hadoop Data Platform)
Hortonworks 提出的架构选型。
Redshift
Amazon RedShift是 ParAccel一个版本。它是一种（massively parallel computer）
架构，是非常方便的数据仓库解决方案，SQL接口，跟各个云服务无缝连接，最大特点
就是快，在TB到PB级别非常好的性能，我在工作中也是直接使用，它还支持不同的硬件
平台，如果想速度更快，可以使用SSD。

C*e2017-02-12 08:02

3 楼

【以下文字转载自 gardening 讨论区】
发信人: juanxi (胡安。克塞), 信区: gardening
标题: 悲剧了，一院子鸦片颗粒无收
发信站: BBS 未名空间站 (Sun Oct 27 02:02:10 2013, 美东)
事情要从今年春天说起。当时我正在lowes闲逛，想买点菜种猥琐一把。忽然瞥见白菜
种旁边一个塑料袋上赫然写着“California poppy”。加州罂粟，鸦片啊，这也能卖？
满怀激动，跟做贼一样抓了两包。一路小跑回家，连夜撒到地里。按奈不住激动心情，
颤巍巍的给国内老领导打电话：“老张，你年底来美国，兄弟有好东西招待你”
“啥好东西？”“鸦片，正宗加州鸦片。在咱革命部队里混，吃喝嫖赌都不缺。你吸过
大烟没？”
隔着电话，都能看见老张眼里冒出的火苗：“这玩意合法吗？”“有啥不合法的，超市
里公开卖！”“我亲娘啊，美国真开放”
他亲娘啊，这都小半年过去了，一根大烟屁股都没见着。花开完了就剩个光杆，一根草
毛都没有，更别说能割出白花花、黑黢黢、香喷喷的大烟的鸦片蛋蛋了。老张下星期就
要来吸大烟了，咋跟人家交代呢

v*d2017-02-12 08:02

4 楼

【以下文字转载自 Movie 讨论区】
发信人: landlore (Melody), 信区: Movie
标题: 《不如归去》导演自述兼答疑（剧透）
发信站: BBS 未名空间站 (Tue Feb 22 09:40:25 2011, 美东)
以下篇幅较长，不感兴趣的朋友可以直接从第二楼开始看答疑部分。
《不如归去》终于在2011年2月19日晚7时30分在Stony Brook University跟观众见面了
。经过了一年多的努力，一切从无到有，就像孕育一个孩子一样。当娃终于露面的时候
，观众们更关心是男是女，是丑是俊，作为一手打造她的人，心里面的忐忑自然溢于言
表。
2003年拍摄《芳邻》的时候，我还是个一无所有的PhD学生，没有信用卡也没有她，没
有24小时热水的家。正因为什么都没有，也就不怕失去任何东西。第一次触电的感觉很
好，得到的正面评价远远大过于不愉快的小插曲，也颇让自己满足了很久，直到现在，
还时不时听到有人介绍我是“北美第一部DV的导演”。不过，《芳邻》长达半年的拍摄
制作也耗费了我不少的精力，赖导筹拍《非线性回归》的时候，正值我PhD即将结束，
自然是望而生畏，不敢再次涉足影视圈。
再后来，我的生活也毫无悬念的进入了北美普通华人的轨道：娶妻，工作，买车买房，
准备着培养下一代，所幸的是还有编剧等一帮好友留在石溪，陪着我一起过着衣食无忧
的生活。腐败多了也无聊，不安分的那点小心思就又冒了出来，思前想后，觉得还是拍
片子好玩一些，2009年的圣诞节，我第一次看到了编剧给我的《不如归去》的本子。说
句题外话，这个本子之前编剧还写过一个关于平行空间的剧本，属于《第六感》那种心
理悬疑片，场景设在我新买的房子里，当时就被我彻底否定了。
言归正传，《不如归去》是一部关于海归的电影，选择这个话题，并不仅仅因为海归越
来越多的成为海外华人的关注焦点，作为创作者之一，我想表达的是试图改变自己平淡
的生活的一种态度。这样说恐怕要戴顶头盔，防着无数板砖拍下来，在外人看来，我应
该没有太多烦恼的事情，生活虽然平淡，可也不用为生计犯愁。不过，想着就这样在美
国过着一成不变的中产生活，怎么都觉得有些不甘心。海归的话题正好提供了一个展开
想象空间的舞台，看着国内的同学或成功或沉沦，生活过得跌宕起伏心潮澎湃，我总有
种说不上的羡慕；可是真考虑海归的事情，又发现自己已经有了太多难以放弃的东西，
真的要舍下一切回国，去经历那种看起来精彩但是有太多未知数的生活，我又没有那个
勇气。这种矛盾，在男一号杨清风的身上有着明显的体现。
话题有了，故事创作就是编剧的事情了。整部电影的背景大都是编剧亲身经历或者耳濡
目染的（小三的事情除外，以我对编剧以及编剧夫人的了解，这种事最多只存在于编剧
的想象中），我只对影片的结构和故事的冲突性话题性上提点我的意见。当然，为了拍
好这部片子，我个人对故事的内容也是深刻领会了一把并用自己的方式表现出来。一部
电影要好看，戏剧冲突必不可少。在《不如归去》里面，冲突主要有：吴玲理想主义（
回国致力于环保事业）和现实（官商勾结）的矛盾，事业至上和家庭的矛盾；杨清风良
心未泯和生计的冲突，婚姻和外遇的冲突，被海归和被副总的冲突；李玉琴的矛盾更不
用说了，这个角色除了按摩的时候幸福了一把，其他时间都是苦兮兮的；还有济阳和蕙
兰貌合神离的婚姻。应该说，冲突足够多，而且也是我们这些工作了三四年有自己的家
庭还没有下一代年龄在三十岁左右的人经常遇到的一些烦恼，只是如何把这些冲突有效
的组合起来，我们还是颇费了一番心思。比如一开场的那个车库场景，原本是设计为两
人从一个为迎接国内考察团举办的party回来，吴玲对杨清风没有原则的交际奉承非常
不满，两人大吵一架分床而睡；后来觉得这样安排只单方面表现了吴玲的冲突，对整个
片子来说不算一个很明确的开场，于是改成现在这样，反映了吴玲在美国努力工作但得
不到提拔，有回国的愿望但没有清晰的目标，杨清风安于现状不想折腾，既点出了“海
归”的主题，又为两人性格冲突导致婚姻中的不合埋下伏笔，更交待了两人的背景，我
觉得算是个不错的开场。又比如结尾杨清风和玉琴的分手戏，原本设计在停车场杨和王
总告别后，但是拍完发觉想要的那种分手淡淡的忧伤完全表现不出来，理想中那种婚外
情理智的结束两人一笑泯恩仇的样子在这种设定下无法实现，于是就改成在For Sale的
房子里，当玉琴的手缓缓抚过钢琴、家具，观众应该能带入到对曾经发生过的剧情的回
忆，忧伤的感觉就自然有了。其实在整部片子中，每个场景都是我们仔细设计过的，不
过由于能力所限，缺少掌控镜头的能力，拍出来后我自己仍然有很多不满意，另外整部
片子的节奏有些单一，没有足够的起伏，这些都只能算是没有经过专业训练的遗憾了。
和《芳邻》最大的不同，在我看来是拍摄手段以及后期制作水平的进步。
拍摄是个很有趣的过程，每个星期大概是这么进行的：周一确定周末要拍的场次，周四
之前群众人员和场地要制片人（我老婆）联系相关人员解决，同时导演和编剧要润色一
遍相应的场次以及分镜头剧本，周末之前各位主要演员（主要是女演员们）要挑选好自
己的服装，有现成的用现成的，没有的就买，周末拍完再退掉。等到了周末，通常都是
从上午拍到晚上，工作餐大家AA制。特别说明一下男一要从Connecticut赶到Stony
Brook，每个周末早上要花三个小时开车，非常辛苦……更辛苦的是女友周末要从外地
过来看他的话，还要绕道EWR或者LGA，路上就不止三个小时了。拍完这部戏，男一同学
的车的Mileage一定涨了不少。拍摄中有过很多争论，关于剧情，关于造型，关于表演
，因为大家都不专业，所以有时争论得会非常激烈，也曾有过有人要退出的事情，现在
想想，到也很有趣，争论完了，回头还是一起拍。如果不是因为大家都为了同样的目标
，这个片子要成为现实是不可能的。
说说零预算吧。虽然工作了几年，我也小有一些积蓄，但是ws本性不改，还是想少花钱
多办事办大事。预算上除了必要的设备和道具，没有在人员场地方面有过任何开销。拍
摄之前，我特地google了导轨、升降机等拍摄设备的简易制作方法，到Lowes，Home
Depot等地买回一大堆管子螺丝钉之类的东西，自己动手做了大大小小各式装备，虽然
土，但是作用很大，很多镜头因此动了起来，让电影的感觉更强烈些。还要说的就是摄
像用的Canon 5D Mark II，没想到拍出来的效果惊人的好。开始几周的拍摄由于手动对
焦不熟练，不会关闭自动曝光，我们对5D2的使用极为克制，随着摄像同学手艺的进步
，5D2 成为了无敌兔，我那架Panasonic HMC40慢慢的沦为了采音机器，如果5D2能接
XLR的麦克风的话，估计Panny就彻底退休了。
后期制作包括剪辑、配乐、配音、调色、特效、字幕等等，在此感叹一下技术的进步，
再也不需要1394口捕获卡带上的视频，特效都可以实时预览，MIDI键盘加上音序器可以
做出各种音色的旋律，当然，还有各位专业人士的友情赞助，包括网上众多自由版权的
音乐库，都为这部高清DV增添了很多光彩。后期制作需要很大的耐心，我很高兴的是我
居然能坚持把每一项都做出来，而且做到我能达到的最好，在我看到成片出炉的时候，
一种成就感油然而生。
感谢mitbbs为我们提供了一个绝佳的宣传平台，从放到网上到现在，我看到了很多热情
的回应，这是对我们剧组每个成员最大的鼓励。接下来我会就与影片有关的各个方面，
从导演的角度给予回答，欢迎大家提问。

p*22017-02-12 08:02

5 楼

IMPORTANT Updates about
your phone service & the Ting Migration
IMPORTANT Updates
ABOUT YOUR SERVICE
& the
Ting Migration
Dear Members,
The subject line of the most recent email from RingPlus stated a date of
Sept 21 in error. The correct date is Feb 21. We apologize for any confusion
this may have caused. The rest of the information in the email remains the
same:
More Time!
Members, your numbers & service are now safe 'til 3pm PDT, Tues, Feb. 21,
2017.
Actual migration date to Ting coming soon!
Dear RingPlus Members,
RingPlus was able to extended service as late as February 21, 2017eventhough
when we expect the migration to Ting to happen somewhat sooner next week (
before February 21). Ting will announce the actual migration date soon.
You do not need to worry that you may lose your phone numbers or service!
All numbers will be moved to Ting. (Ting will allow you to freely port in
and out.) In addition, RingPlus made free and 1 cent daily plans available
with a small ($2) auto top up requirements that will be triggered if your
balance hits zero. Please check the "Upgrade" function on your dashboard to
see those plans. These plans will allow you to maintain phone service until
your migration to Ting is completed.
Again, Ting will be offering credits in the amount of your entire RingPlus
top ups, and offers outstanding rates, with no fixed plans or commitments,
for families and low usage individuals.
For more on Ting, rates, how it works, the offer, and the migration, please
check out these links:
https://ting.com/m/ringplus-migration-faq/
https://social.ringplus.net/discussion/11477/ting/p1
https://youtu.be/bEXNtL8086M
Best regards,
RingPlus

s*w2017-02-12 08:02

6 楼

life will be better and better

k*n2017-02-12 08:02

7 楼

非常好的概论,谢谢!

t*e2017-02-12 08:02

8 楼

不好办，欺骗领导。

【在 C******e 的大作中提到】

: 【以下文字转载自 gardening 讨论区】
: 发信人: juanxi (胡安。克塞), 信区: gardening
: 标题: 悲剧了，一院子鸦片颗粒无收
: 发信站: BBS 未名空间站 (Sun Oct 27 02:02:10 2013, 美东)
: 事情要从今年春天说起。当时我正在lowes闲逛，想买点菜种猥琐一把。忽然瞥见白菜
: 种旁边一个塑料袋上赫然写着“California poppy”。加州罂粟，鸦片啊，这也能卖？
: 满怀激动，跟做贼一样抓了两包。一路小跑回家，连夜撒到地里。按奈不住激动心情，
: 颤巍巍的给国内老领导打电话：“老张，你年底来美国，兄弟有好东西招待你”
: “啥好东西？”“鸦片，正宗加州鸦片。在咱革命部队里混，吃喝嫖赌都不缺。你吸过
: 大烟没？”

p*22017-02-12 08:02

9 楼

电话很少只要数据
500M - 1G LTE 都可
谁家的最便宜呢？

a*a2017-02-12 08:02

10 楼

幸福的一家人，拥有的是爱人，父母和可爱的儿子！祝福你们。
我看到的是你拥有的，满满的幸福！

c*w2017-02-12 08:02

11 楼

thanks

【在 d********w 的大作中提到】

: http://dongfei.baijia.baidu.com/article/54768
: 提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
: 东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
: 台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
: 充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
: 大家有个铺垫，简单讲一些相关开源组件。
: 背景篇
: Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
: 算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
: HDFS，MapReduce基本组件。

y*82017-02-12 08:02

12 楼

胡安忘了花是改良过的，只开花，网上就有卖California Poppy Extract 的
http://www.amazon.com/exec/obidos/ASIN/B000Z90QMS/01-05-10-15-2
给领导送两瓶不就没事了

【在 C******e 的大作中提到】

: 【以下文字转载自 gardening 讨论区】
: 发信人: juanxi (胡安。克塞), 信区: gardening
: 标题: 悲剧了，一院子鸦片颗粒无收
: 发信站: BBS 未名空间站 (Sun Oct 27 02:02:10 2013, 美东)
: 事情要从今年春天说起。当时我正在lowes闲逛，想买点菜种猥琐一把。忽然瞥见白菜
: 种旁边一个塑料袋上赫然写着“California poppy”。加州罂粟，鸦片啊，这也能卖？
: 满怀激动，跟做贼一样抓了两包。一路小跑回家，连夜撒到地里。按奈不住激动心情，
: 颤巍巍的给国内老领导打电话：“老张，你年底来美国，兄弟有好东西招待你”
: “啥好东西？”“鸦片，正宗加州鸦片。在咱革命部队里混，吃喝嫖赌都不缺。你吸过
: 大烟没？”

y*s2017-02-12 08:02

13 楼

tello

【在 p****2 的大作中提到】

: 电话很少只要数据
: 500M - 1G LTE 都可
: 谁家的最便宜呢？

l*g2017-02-12 08:02

14 楼

BSO 好老婆啊！！！

【在 t*********g 的大作中提到】

: 2007年来美国，到了中部一个小镇读博，第一晚上住在同届早来的同学家里，半夜失眠
: ，躺在人家捡来的沙发上望着天花板，周围一点声音都没有，那时很想有一个mp3在身
: 边听点声音。圣诞节，转学到西海岸的另外一所学校，在芝加哥机场转机的时候，突然
: 在热闹的人群中感觉无比孤独。
: 2008年，读博，网上认识了一个在澳大利亚读书的女孩，18个小时的时差，却每天都会
: 开心的聊着MSN。
: 2009年，澳洲女孩硕士毕业，放弃澳洲工作。我也放弃去夏威夷开会的机会，向老板
: 请假回国，没有回家，直接取上户口卡飞向2000多公里外的城市和她见面。一周后在她
: 家的城市领证，办婚礼，然后回我家办婚礼，然后和LP一起回美国。
: 2010年，和老板继续苦逼的读博，老板说funding不足，让我准备一年内毕业。lp待业

m*22017-02-12 08:02

15 楼

谢谢！

【在 d********w 的大作中提到】

: http://dongfei.baijia.baidu.com/article/54768
: 提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
: 东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
: 台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
: 充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
: 大家有个铺垫，简单讲一些相关开源组件。
: 背景篇
: Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
: 算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
: HDFS，MapReduce基本组件。

i*e2017-02-12 08:02

16 楼

好像记得那时班上是有贴过种罂粟的贴，好像是叫欢欢的那位贴的。当时俺就奇怪，
应该不可能，那时是新人，又不敢说，怕被扁。。。。

【在 C******e 的大作中提到】

: 【以下文字转载自 gardening 讨论区】
: 发信人: juanxi (胡安。克塞), 信区: gardening
: 标题: 悲剧了，一院子鸦片颗粒无收
: 发信站: BBS 未名空间站 (Sun Oct 27 02:02:10 2013, 美东)
: 事情要从今年春天说起。当时我正在lowes闲逛，想买点菜种猥琐一把。忽然瞥见白菜
: 种旁边一个塑料袋上赫然写着“California poppy”。加州罂粟，鸦片啊，这也能卖？
: 满怀激动，跟做贼一样抓了两包。一路小跑回家，连夜撒到地里。按奈不住激动心情，
: 颤巍巍的给国内老领导打电话：“老张，你年底来美国，兄弟有好东西招待你”
: “啥好东西？”“鸦片，正宗加州鸦片。在咱革命部队里混，吃喝嫖赌都不缺。你吸过
: 大烟没？”

p*22017-02-12 08:02

17 楼

tello的啥plan呢？

【在 y*****s 的大作中提到】

: tello

d*g2017-02-12 08:02

18 楼

我也是07来美，你的经历听起来很像我当年对面住着的一个兄弟啊。简直一模一样。

【在 t*********g 的大作中提到】

: 2007年来美国，到了中部一个小镇读博，第一晚上住在同届早来的同学家里，半夜失眠
: ，躺在人家捡来的沙发上望着天花板，周围一点声音都没有，那时很想有一个mp3在身
: 边听点声音。圣诞节，转学到西海岸的另外一所学校，在芝加哥机场转机的时候，突然
: 在热闹的人群中感觉无比孤独。
: 2008年，读博，网上认识了一个在澳大利亚读书的女孩，18个小时的时差，却每天都会
: 开心的聊着MSN。
: 2009年，澳洲女孩硕士毕业，放弃澳洲工作。我也放弃去夏威夷开会的机会，向老板
: 请假回国，没有回家，直接取上户口卡飞向2000多公里外的城市和她见面。一周后在她
: 家的城市领证，办婚礼，然后回我家办婚礼，然后和LP一起回美国。
: 2010年，和老板继续苦逼的读博，老板说funding不足，让我准备一年内毕业。lp待业

d*w2017-02-12 08:02

19 楼

http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
大家有个铺垫，简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
HDFS，MapReduce基本组件。
HDFS：提供了一种跨服务器的弹性数据存储系统。
MapReduce：技术提供了感知数据位置的标准化处理流程：读取数据，对数据进行映射
（Map），使用某个键值对数据进行重排，然后对数据进行化简（Reduce）得到最终的
输出。
Amazon Elastic Map Reduce(EMR)：托管的解决方案，运行在由Amazon Elastic
Compute Cloud（EC2）和Simple Strorage Service（S3）组成的网络规模的基础设施
之上。如果你需要一次性的或不常见的大数据处理，EMR可能会为你节省开支。但EMR是
高度优化成与S3中的数据一起工作，会有较高的延时。
Hadoop 还包含了一系列技术的扩展系统，这些技术主要包括了Sqoop、Flume、Hive、
Pig、Mahout、Datafu和HUE等。
Pig：分析大数据集的一个平台，该平台由一种表达数据分析程序的高级语言和对这些
程序进行评估的基础设施一起组成。
Hive：用于Hadoop的一个数据仓库系统，它提供了类似于SQL的查询语言，通过使用该
语言，可以方便地进行数据汇总，特定查询以及分析。
Hbase：一种分布的、可伸缩的、大数据储存库，支持随机、实时读/写访问。
Sqoop：为高效传输批量数据而设计的一种工具，其用于Apache Hadoop和结构化数据储
存库如关系数据库之间的数据传输。
Flume：一种分布式的、可靠的、可用的服务，其用于高效地搜集、汇总、移动大量日
志数据。
ZooKeeper：一种集中服务，其用于维护配置信息，命名，提供分布式同步，以及提供
分组服务。
Cloudera：最成型的Hadoop发行版本，拥有最多的部署案例。提供强大的部署、管理和
监控工具。开发并贡献了可实时处理大数据的Impala项目。
Hortonworks：使用了100%开源Apache Hadoop提供商。开发了很多增强特性并提交至核
心主干，这使得Hadoop能够在包括Windows Server和Azure在内平台上本地运行。
MapR：获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS。提供诸如快照、
镜像或有状态的故障恢复等高可用性特性。领导着Apache Drill项目，是Google的
Dremel的开源实现，目的是执行类似SQL的查询以提供实时处理。
原理篇
数据存储
我们的目标是做一个可靠的，支持大规模扩展和容易维护的系统。计算机里面有个
locality（局部性定律），如图所示。从下到上访问速度越来越快，但存储代价更大。
相对内存，磁盘和SSD就需要考虑数据的摆放，因为性能会差异很大。磁盘好处是持久
化，单位成本便宜，容易备份。但随着内存便宜，很多数据集合可以考虑直接放入内存
并分布到各机器上，有些基于 key-value, Memcached用在缓存上。内存的持久化可以
通过 (带电池的RAM)，提前写入日志再定期做Snapshot或者在其他机器内存中复制。当
重启时需要从磁盘或网络载入之前状态。其实写入磁盘就用在追加日志上面，读的话
就直接从内存。像VoltDB, MemSQL，RAMCloud 关系型又基于内存数据库，可以提供高
性能，解决之前磁盘管理的麻烦。
HyperLogLog & Bloom Filter & CountMin Sketch
都是是应用于大数据的算法，大致思路是用一组相互独立的哈希函数依次处理输入。
HyperLogLog 用来计算一个很大集合的基数（即合理总共有多少不相同的元素），对哈
希值分块计数：对高位统计有多少连续的0；用低位的值当做数据块。BloomFilter,在
预处理阶段对输入算出所有哈希函数的值并做出标记。当查找一个特定的输入是否出现
过，只需查找这一系列的哈希函数对应值上有没有标记。对于BloomFilter，可能有
False Positive，但不可能有False Negative。BloomFilter可看做查找一个数据有或
者没有的数据结构（数据的频率是否大于1）。CountMin Sketch在BloomFilter的基础
上更进一步，它可用来估算某一个输入的频率（不局限于大于1）。
CAP Theorem
简单说是三个特性：一致性，可用性和网络分区，最多只能取其二。设计不同类型系统
要多去权衡。分布式系统还有很多算法和高深理论，比如：Paxos算法（paxos分布式一
致性算法--讲述诸葛亮的反穿越），Gossip协议（Cassandra学习笔记之Gossip协议）
，Quorum (分布式系统)，时间逻辑，向量时钟（一致性算法之四: 时间戳和向量图）
，拜占庭将军问题，二阶段提交等，需要耐心研究。
技术篇
来自：http://thinkbig.teradata.com/leading_big_data_technologies/big-data-reference-architecture/
根据不同的延迟要求（SLA），数据量存储大小，更新量多少，分析需求，大数据处理
的架构也需要做灵活的设计。上图就描述了在不同领域中大数据组件。
说大数据的技术还是要先提Google，Google 新三辆马车，Spanner, F1, Dremel
Spanner：高可扩展、多版本、全球分布式外加同步复制特性的谷歌内部数据库，支持
外部一致性的分布式事务;设计目标是横跨全球上百个数据中心,覆盖百万台服务器,包
含万亿条行记录！(Google就是这么霸气^-^)
F1: 构建于Spanner之上,在利用Spanner的丰富特性基础之上,还提供分布式SQL、事务
一致性的二级索引等功能,在AdWords广告业务上成功代替了之前老旧的手工MySQL
Shard方案。
Dremel: 一种用来分析信息的方法，它可以在数以千计的服务器上运行，类似使用SQL
语言，能以极快的速度处理网络规模的海量数据(PB数量级)，只需几秒钟时间就能完成。
Spark
2014年最火的大数据技术Spark，。主要意图是基于内存计算做更快的数据分析。同时
支持图计算，流式计算和批处理。Berkeley AMP Lab的核心成员出来成立公司
Databricks开发Cloud产品。
Flink
使用了一种类似于SQL数据库查询优化的方法，这也是它与当前版本的Apache Spark的
主要区别。它可以将全局优化方案应用于某个查询之上以获得更佳的性能。
Kafka
Announcing the Confluent Platform 1.0 Kafka 描述为 LinkedIn 的“中枢神经系统
”，管理从各个应用程序汇聚到此的信息流，这些数据经过处理后再被分发到各处。不
同于传统的企业信息列队系统，Kafka 是以近乎实时的方式处理流经一个公司的所有数
据，目前已经为 LinkedIn, Netflix, Uber 和 Verizon 建立了实时信息处理平台。
Kafka 的优势就在于近乎实时性。
Storm
Handle Five Billion Sessions a Day in Real Time，Twitter的实时计算框架。所谓
流处理框架，就是一种分布式、高容错的实时计算系统。Storm令持续不断的流计算变
得容易。经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领
域。
Samza
LinkedIn主推的流式计算框架。与其他类似的Spark，Storm做了几个比较。跟Kafka集
成良好，作为主要的存储节点和中介。
Lambda architecture
Nathan写了文章《如何去打败CAP理论》How to beat the CAP theorem，提出Lambda
Architecture，主要思想是对一些延迟高但数据量大的还是采用批处理架构，但对于即
时性实时数据使用流式处理框架，然后在之上搭建一个服务层去合并两边的数据流，这
种系统能够平衡实时的高效和批处理的Scale，看了觉得脑洞大开，确实很有效，被很
多公司采用在生产系统中。
Summingbird
Lambda架构的问题要维护两套系统，Twitter开发了Summingbird来做到一次编程，多处
运行。将批处理和流处理无缝连接，通过整合批处理与流处理来减少它们之间的转换开
销。下图就解释了系统运行时。
NoSQL
数据传统上是用树形结构存储（层次结构），但很难表示多对多的关系，关系型数据库
就是解决这个难题，最近几年发现关系型数据库也不灵了，新型NoSQL出现如Cassandra
，MongoDB，Couchbase。NoSQL 里面也分成这几类，文档型，图运算型，列存储，key-
value型，不同系统解决不同问题。没一个one-size-fits-all 的方案。
Cassandra
大数据架构中，Cassandra的主要作用就是存储结构化数据。DataStax的Cassandra是一
种面向列的数据库，它通过分布式架构提供高可用性及耐用性的服务。它实现了超大规
模的集群，并提供一种称作“最终一致性”的一致性类型，这意味着在任何时刻，在不
同服务器中的相同数据库条目可以有不同的值。
SQL on Hadoop
开源社区业出现了很多 SQL-on-Hadoop的项目，着眼跟一些商业的数据仓库系统竞争。
包括Apache Hive, Spark SQL, Cloudera Impala, Hortonworks Stinger, Facebook
Presto, Apache Tajo，Apache Drill。有些是基于Google Dremel设计。
Impala
Cloudera公司主导开发的新型查询系统，它提供SQL语义，能够查询存储在Hadoop的
HDFS和HBase中的PB级大数据，号称比Hive快5-10倍，但最近被Spark的风头给罩住了，
大家还是更倾向于后者。
Drill
Apache社区类似于Dremel的开源版本—Drill。一个专为互动分析大型数据集的分布式
系统。
Druid
在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存
储的层，一个分布式、shared-nothing的架构，和一个高级的索引结构，来达成在秒级
以内对十亿行级别的表进行任意的探索分析。
Berkeley Data Analytics Stack
上面说道Spark，在Berkeley AMP lab 中有个更宏伟的蓝图，就是BDAS，里面有很多明
星项目，除了Spark，还包括：
Mesos：一个分布式环境的资源管理平台，它使得Hadoop、MPI、Spark作业在统一资源
管理环境下执行。它对Hadoop2.0支持很好。Twitter，Coursera都在使用。
Tachyon：是一个高容错的分布式文件系统，允许文件以内存的速度在集群框架中进行
可靠的共享，就像Spark和MapReduce那样。项目发起人李浩源说目前发展非常快，甚至
比Spark当时还要惊人，已经成立创业公司Tachyon Nexus.
BlinkDB：也很有意思，在海量数据上运行交互式 SQL 查询的大规模并行查询引擎。它
允许用户通过权衡数据精度来提升查询响应时间，其数据的精度被控制在允许的误差范
围内。
Cloudera
Hadoop老大哥提出的经典解决方案。
HDP （Hadoop Data Platform)
Hortonworks 提出的架构选型。
Redshift
Amazon RedShift是 ParAccel一个版本。它是一种（massively parallel computer）
架构，是非常方便的数据仓库解决方案，SQL接口，跟各个云服务无缝连接，最大特点
就是快，在TB到PB级别非常好的性能，我在工作中也是直接使用，它还支持不同的硬件
平台，如果想速度更快，可以使用SSD。

C*e2017-02-12 08:02

20 楼

后院种野菜和罂粟，家里6个马桶，几十磅大铁锅，没家具的。。。都是他。。

【在 i***e 的大作中提到】

: 好像记得那时班上是有贴过种罂粟的贴，好像是叫欢欢的那位贴的。当时俺就奇怪，
: 应该不可能，那时是新人，又不敢说，怕被扁。。。。

m*i2017-02-12 08:02

21 楼

1G LTE 11刀，其它走payg

【在 p****2 的大作中提到】

: tello的啥plan呢？

o*12017-02-12 08:02

22 楼

有梦有爱
祝福lz

【在 t*********g 的大作中提到】

: 2007年来美国，到了中部一个小镇读博，第一晚上住在同届早来的同学家里，半夜失眠
: ，躺在人家捡来的沙发上望着天花板，周围一点声音都没有，那时很想有一个mp3在身
: 边听点声音。圣诞节，转学到西海岸的另外一所学校，在芝加哥机场转机的时候，突然
: 在热闹的人群中感觉无比孤独。
: 2008年，读博，网上认识了一个在澳大利亚读书的女孩，18个小时的时差，却每天都会
: 开心的聊着MSN。
: 2009年，澳洲女孩硕士毕业，放弃澳洲工作。我也放弃去夏威夷开会的机会，向老板
: 请假回国，没有回家，直接取上户口卡飞向2000多公里外的城市和她见面。一周后在她
: 家的城市领证，办婚礼，然后回我家办婚礼，然后和LP一起回美国。
: 2010年，和老板继续苦逼的读博，老板说funding不足，让我准备一年内毕业。lp待业

k*n2017-02-12 08:02

23 楼

非常好的概论,谢谢!

i*e2017-02-12 08:02

24 楼

哦，那还有个脚鼓席的，喝喝小酒什么的，是谁呀

【在 C******e 的大作中提到】

: 后院种野菜和罂粟，家里6个马桶，几十磅大铁锅，没家具的。。。都是他。。

t*e2017-02-12 08:02

25 楼

freedompop lte不要钱

【在 p****2 的大作中提到】

: 电话很少只要数据
: 500M - 1G LTE 都可
: 谁家的最便宜呢？

c*w2017-02-12 08:02

26 楼

thanks

【在 d********w 的大作中提到】

: http://dongfei.baijia.baidu.com/article/54768
: 提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
: 东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
: 台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
: 充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
: 大家有个铺垫，简单讲一些相关开源组件。
: 背景篇
: Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
: 算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
: HDFS，MapReduce基本组件。

a*a2017-02-12 08:02

27 楼

记得喝小酒的是小明

【在 i***e 的大作中提到】

:
: 哦，那还有个脚鼓席的，喝喝小酒什么的，是谁呀

d*u2017-02-12 08:02

28 楼

Google Voice + Freedompop

【在 p****2 的大作中提到】

: 电话很少只要数据
: 500M - 1G LTE 都可
: 谁家的最便宜呢？

m*22017-02-12 08:02

29 楼

谢谢！

【在 d********w 的大作中提到】

: http://dongfei.baijia.baidu.com/article/54768
: 提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
: 东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
: 台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
: 充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
: 大家有个铺垫，简单讲一些相关开源组件。
: 背景篇
: Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
: 算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
: HDFS，MapReduce基本组件。

G*e2017-02-12 08:02

30 楼

还有丁版。。。。。

【在 a********a 的大作中提到】

: 记得喝小酒的是小明

m*r2017-02-12 08:02

31 楼

多谢

s*s2017-02-12 08:02

32 楼

璋㈣阿lz銆nbsp;

s*e2017-02-12 08:02

33 楼

顶一个

c*t2017-02-12 08:02

34 楼

好文，要顶！

【在 d********w 的大作中提到】

: http://dongfei.baijia.baidu.com/article/54768
: 提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
: 东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
: 台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
: 充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
: 大家有个铺垫，简单讲一些相关开源组件。
: 背景篇
: Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
: 算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
: HDFS，MapReduce基本组件。

c*t2017-02-12 08:02

35 楼

感觉Apache如果是私人公司的话，一定是FG级别的啊。一个非盈利机构怎么能做出这
么多牛产品的呢？

【在 d********w 的大作中提到】

: http://dongfei.baijia.baidu.com/article/54768
: 提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多
: 东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
: 台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补
: 充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给
: 大家有个铺垫，简单讲一些相关开源组件。
: 背景篇
: Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计
: 算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括
: HDFS，MapReduce基本组件。

o*n2017-02-12 08:02

36 楼

Apache的项目大都是公司donate给的所以Apache不可能是一个私人公司

【在 c********t 的大作中提到】

: 感觉Apache如果是私人公司的话，一定是FG级别的啊。一个非盈利机构怎么能做出这
: 么多牛产品的呢？