大数据这个东西，如果用hive，岂不是跟SQL差不多了 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>DataSciences - 数据科学

大数据这个东西，如果用hive，岂不是跟SQL差不多了

大数据这个东西，如果用hive，岂不是跟SQL差不多了# DataSciences - 数据科学

l*n2015-03-27 07:03

1 楼

发现所有data scientist 的position 都要求大数据,hadoop 什么的经验，还特别重要
可是，如果hadoop的经验，是指用Hive做query 和 summary, 那根用SQL command没多
少区别啊。可能在底层，hadoop和relation database 差距很大，但是在上层，用hive
的话，这个差距可以说很小很小。
如果是写pig，确实有些不太一样，但也不是那么难学，至少比学编程练算法容易多了。
总之，这个要求“大数据”的经验，我感觉就是一个样子货，没啥真的内涵。
请大家发表意见

T*u2015-03-27 07:03

2 楼

第一这个东西还处于初级阶段,只能局部上突破一下,别幻想太多
第二它就是差不多
第三数据大小是个限制条件,限制越多,trade off越多,能做的就越少,但多少做点比不
做好

m*a2015-03-27 07:03

3 楼

这个说的精辟

【在 T*****u 的大作中提到】

: 第一这个东西还处于初级阶段,只能局部上突破一下,别幻想太多
: 第二它就是差不多
: 第三数据大小是个限制条件,限制越多,trade off越多,能做的就越少,但多少做点比不
: 做好

B*r2015-03-27 07:03

4 楼

都哪年了还用hive，hadoop？赶紧上C* + SPARK ，速度 X 100

w*22015-03-27 07:03

5 楼

除非数据是大到了一定的程度，不然用hive不见得更快。
同意楼上，spark才是出路。

n*32015-03-27 07:03

6 楼

ETL还是要 hive impala 吧

【在 w**2 的大作中提到】

: 除非数据是大到了一定的程度，不然用hive不见得更快。
: 同意楼上，spark才是出路。

o*r2015-03-27 07:03

7 楼

agree

hive
了。

【在 l******n 的大作中提到】

: 发现所有data scientist 的position 都要求大数据,hadoop 什么的经验，还特别重要
: 可是，如果hadoop的经验，是指用Hive做query 和 summary, 那根用SQL command没多
: 少区别啊。可能在底层，hadoop和relation database 差距很大，但是在上层，用hive
: 的话，这个差距可以说很小很小。
: 如果是写pig，确实有些不太一样，但也不是那么难学，至少比学编程练算法容易多了。
: 总之，这个要求“大数据”的经验，我感觉就是一个样子货，没啥真的内涵。
: 请大家发表意见