乖乖。。。竟然和名人撞衫了。。# Fashion - 美丽时尚
z*s
1 楼
【 以下文字转载自 Statistics 讨论区 】
发信人: sphinks (Tommy), 信区: Statistics
标 题: [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会
发信站: BBS 未名空间站 (Tue Jun 21 13:53:11 2016, 美东)
今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯,
那对咱都没有用,那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新
自称)为啥要告诉你们呢,本D为了当网红拼了!
之前的公司,哪哪都好,就是不推进开源软件,还是以SAS为主,也不支持大数据
Hadoop平台。开源软件自然是大势所趋啊,所以果断决定要转去一个使用开源软件的公
司。R啊Python啊都还好,R本来就很熟,Python学起来也容易,唯独这个Hadoop, 公司
没有平台,这东西又不像Python能自己免费装一个,感觉完全无从下手。热门Data
Scientist工作,各个打开都首先提到,懂Hadoop平台语言比如mapreduce, hive, pig
的优先考虑。每次一看到人家提到这Hadoop要求,就自觉矮了三分。最后硬着头皮决定
,即使没有平台练习,起码也看看基本理论吧,然后从Hadoop看起,维基百科各种论文
一一浏览,什么大数据分到各种小块上处理啊,汗都下来了,还是没明白到底咋回事。
好吧,起码提到hadoop的编程语言是mapreduce, 就想即使内在原理不完全懂,先把这
语言学学吧。一学,妈呀,这啥语言呀,和一般的R, Python, C++啥都完全不搭嘎啊,
随便一个frequency都要先写好长一段map程序,再写好长一段reduce程序,这要不是长
期熟练工,不可能短期速成啊。再后面的什么hive,pig啥蜂窝,猪的完全没胆看了,
肯定也学不会,不捅那马蜂窝了。
后来遇到现在这个位置,正好其他方面都很match, 人叫我去onsite面试,也就去了,
也没啥压力,想爱咋咋地,不要拉倒,反正我就是不会Hadoop你咋地。去了以后,各种
理论编程一一考过,答得都算不错,自然最后问到Hadoop,Hiring Manager问:你会
Hadoop吗,我:看过一点点,HM:Hadoop语言里面会哪种啊,hive, pig都用过吗?我
:都没用过,HM: 那会点啥啊?我:学过一点点MapReduce. HM:哦,我们用的一般是
Hive, Pig. 我:我是纯数学加统计背景,可能IT这种大数据平台方面差一点。HM:哦
,没事,我们会平衡考虑招各种人的。最后居然也要了我了。
好了故事讲到两个月后,我回国嗨皮的渡了个长假就去新单位上班了。上班第一天,老
板来告诉我,你被分配去啥啥项目,这个项目数据完全是在Hive平台里的,你好好干。
我说:好,一定好好学习!其实心里慌得要命。过了一会,有人发来了几个程序,说你
最近的任务就是把这些Hive程序改进一下,用新数据再更全面的做一遍。我回说: 好,
保证完成任务!然后颤抖着双手打开了那几个神秘的hive程序,打开后愣了三秒钟,我
就。。。我就。。。
怒发冲冠已经不足以形容我的心情,啥hive搞那么高大上,这不就是SQL吗!!!姐这
么多年就是靠SQL吃饭呢,即使不是神来之笔,起码也是有如神助的水平(我郁闷的成
语水平都下降了),我居然说我不会这个!我我我,我说我不会Hive, 起码一年少要了
两万块钱好吧!!!这钱足够我实现喝一碗倒一碗了好吧!!!
看了我的故事你们就明白了,别被啥Hive这么高大上的名字忽悠了,那就是搭建在
Hadoop平台上的SQL! 就跟SAS里的SQL叫SAS SQL一样,各种SQL 99.99%的语句都是一样
的,再说了,SQL这么简单的东西,过来过去不就select, group by, left/right join
, having, where那么几个词,两天就能学会。至于Hadoop理论,这么说吧,就是把一
大数据切啊切啊切,切成小块,比方说你要算一大篇文章里面的词频,一下子计算机算
不了,你就把他分段,每个集成块上算一段文章,这就叫Map阶段,最后再把结果加起
来,这就叫Reduce. Hive呢内在机制就是mapreduce, 但是facebook开发了Hive语言,
把mapreduce外在写成传统SQL语言了,就是说你写SQL就能内部在Hadoop平台上运行
mapreduce, 你根本不用自己写复杂的mapreduce。就像R, 你只要写简洁的R程序就够了
,R的内核是运行C++程序,可你根本不用了解C++一样。
紧接着,因为工作需要,我又学了pig, 这玩意不提了,一般程序语言如果说是简介精
炼的文言文的话,pig绝对就是白话文。比方说读进来一段数据就是,
load XXX using XXX;
filter XXX by XXX;
group XXX by XXX;
最关键的是,pig基本也就那么几十个命令,基本一两天也就学完了。
我就悔啊悔,我当初干嘛非看到mapreduce就止步了,往前再走一步到了hive, pig就天
地宽了啊。行了,你们都看明白了吧,或许根本就没人像我当初那么傻,可如果你也正
害怕Hadoop,吸取本D的教训,看两天Hive, Pig, 面试的时候狠狠的甩出一句:我就是
Hadoop专家,痛宰资本家一笔。
发信人: sphinks (Tommy), 信区: Statistics
标 题: [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会
发信站: BBS 未名空间站 (Tue Jun 21 13:53:11 2016, 美东)
今天5分钟为你揭开神秘的大数据平台Hadoop的真实面目。不用听各种高大上的瞎扯,
那对咱都没有用,那些人就是怕你们都学会故意不告诉你的。那本D(w(我给自己起的新
自称)为啥要告诉你们呢,本D为了当网红拼了!
之前的公司,哪哪都好,就是不推进开源软件,还是以SAS为主,也不支持大数据
Hadoop平台。开源软件自然是大势所趋啊,所以果断决定要转去一个使用开源软件的公
司。R啊Python啊都还好,R本来就很熟,Python学起来也容易,唯独这个Hadoop, 公司
没有平台,这东西又不像Python能自己免费装一个,感觉完全无从下手。热门Data
Scientist工作,各个打开都首先提到,懂Hadoop平台语言比如mapreduce, hive, pig
的优先考虑。每次一看到人家提到这Hadoop要求,就自觉矮了三分。最后硬着头皮决定
,即使没有平台练习,起码也看看基本理论吧,然后从Hadoop看起,维基百科各种论文
一一浏览,什么大数据分到各种小块上处理啊,汗都下来了,还是没明白到底咋回事。
好吧,起码提到hadoop的编程语言是mapreduce, 就想即使内在原理不完全懂,先把这
语言学学吧。一学,妈呀,这啥语言呀,和一般的R, Python, C++啥都完全不搭嘎啊,
随便一个frequency都要先写好长一段map程序,再写好长一段reduce程序,这要不是长
期熟练工,不可能短期速成啊。再后面的什么hive,pig啥蜂窝,猪的完全没胆看了,
肯定也学不会,不捅那马蜂窝了。
后来遇到现在这个位置,正好其他方面都很match, 人叫我去onsite面试,也就去了,
也没啥压力,想爱咋咋地,不要拉倒,反正我就是不会Hadoop你咋地。去了以后,各种
理论编程一一考过,答得都算不错,自然最后问到Hadoop,Hiring Manager问:你会
Hadoop吗,我:看过一点点,HM:Hadoop语言里面会哪种啊,hive, pig都用过吗?我
:都没用过,HM: 那会点啥啊?我:学过一点点MapReduce. HM:哦,我们用的一般是
Hive, Pig. 我:我是纯数学加统计背景,可能IT这种大数据平台方面差一点。HM:哦
,没事,我们会平衡考虑招各种人的。最后居然也要了我了。
好了故事讲到两个月后,我回国嗨皮的渡了个长假就去新单位上班了。上班第一天,老
板来告诉我,你被分配去啥啥项目,这个项目数据完全是在Hive平台里的,你好好干。
我说:好,一定好好学习!其实心里慌得要命。过了一会,有人发来了几个程序,说你
最近的任务就是把这些Hive程序改进一下,用新数据再更全面的做一遍。我回说: 好,
保证完成任务!然后颤抖着双手打开了那几个神秘的hive程序,打开后愣了三秒钟,我
就。。。我就。。。
怒发冲冠已经不足以形容我的心情,啥hive搞那么高大上,这不就是SQL吗!!!姐这
么多年就是靠SQL吃饭呢,即使不是神来之笔,起码也是有如神助的水平(我郁闷的成
语水平都下降了),我居然说我不会这个!我我我,我说我不会Hive, 起码一年少要了
两万块钱好吧!!!这钱足够我实现喝一碗倒一碗了好吧!!!
看了我的故事你们就明白了,别被啥Hive这么高大上的名字忽悠了,那就是搭建在
Hadoop平台上的SQL! 就跟SAS里的SQL叫SAS SQL一样,各种SQL 99.99%的语句都是一样
的,再说了,SQL这么简单的东西,过来过去不就select, group by, left/right join
, having, where那么几个词,两天就能学会。至于Hadoop理论,这么说吧,就是把一
大数据切啊切啊切,切成小块,比方说你要算一大篇文章里面的词频,一下子计算机算
不了,你就把他分段,每个集成块上算一段文章,这就叫Map阶段,最后再把结果加起
来,这就叫Reduce. Hive呢内在机制就是mapreduce, 但是facebook开发了Hive语言,
把mapreduce外在写成传统SQL语言了,就是说你写SQL就能内部在Hadoop平台上运行
mapreduce, 你根本不用自己写复杂的mapreduce。就像R, 你只要写简洁的R程序就够了
,R的内核是运行C++程序,可你根本不用了解C++一样。
紧接着,因为工作需要,我又学了pig, 这玩意不提了,一般程序语言如果说是简介精
炼的文言文的话,pig绝对就是白话文。比方说读进来一段数据就是,
load XXX using XXX;
filter XXX by XXX;
group XXX by XXX;
最关键的是,pig基本也就那么几十个命令,基本一两天也就学完了。
我就悔啊悔,我当初干嘛非看到mapreduce就止步了,往前再走一步到了hive, pig就天
地宽了啊。行了,你们都看明白了吧,或许根本就没人像我当初那么傻,可如果你也正
害怕Hadoop,吸取本D的教训,看两天Hive, Pig, 面试的时候狠狠的甩出一句:我就是
Hadoop专家,痛宰资本家一笔。