Redian新闻
>
大数据这个东西,如果用hive,岂不是跟SQL差不多了
avatar
大数据这个东西,如果用hive,岂不是跟SQL差不多了# DataSciences - 数据科学
l*n
1
发现所有data scientist 的position 都要求大数据,hadoop 什么的经验,还特别重要
可是,如果hadoop的经验,是指用Hive做query 和 summary, 那根用SQL command没多
少区别啊。可能在底层,hadoop和relation database 差距很大,但是在上层,用hive
的话,这个差距可以说很小很小。
如果是写pig,确实有些不太一样,但也不是那么难学,至少比学编程练算法容易多了。
总之,这个要求“大数据”的经验,我感觉就是一个样子货,没啥真的内涵。
请大家发表意见
avatar
T*u
2
第一这个东西还处于初级阶段,只能局部上突破一下,别幻想太多
第二它就是差不多
第三数据大小是个限制条件,限制越多,trade off越多,能做的就越少,但多少做点比不
做好
avatar
m*a
3
这个说的精辟

【在 T*****u 的大作中提到】
: 第一这个东西还处于初级阶段,只能局部上突破一下,别幻想太多
: 第二它就是差不多
: 第三数据大小是个限制条件,限制越多,trade off越多,能做的就越少,但多少做点比不
: 做好

avatar
B*r
4
都哪年了还用hive,hadoop? 赶紧上C* + SPARK ,速度 X 100
avatar
w*2
5
除非数据是大到了一定的程度,不然用hive不见得更快。
同意楼上,spark才是出路。
avatar
n*3
6
ETL还是要 hive impala 吧

【在 w**2 的大作中提到】
: 除非数据是大到了一定的程度,不然用hive不见得更快。
: 同意楼上,spark才是出路。

avatar
o*r
7
agree

hive
了。

【在 l******n 的大作中提到】
: 发现所有data scientist 的position 都要求大数据,hadoop 什么的经验,还特别重要
: 可是,如果hadoop的经验,是指用Hive做query 和 summary, 那根用SQL command没多
: 少区别啊。可能在底层,hadoop和relation database 差距很大,但是在上层,用hive
: 的话,这个差距可以说很小很小。
: 如果是写pig,确实有些不太一样,但也不是那么难学,至少比学编程练算法容易多了。
: 总之,这个要求“大数据”的经验,我感觉就是一个样子货,没啥真的内涵。
: 请大家发表意见

avatar
h*d
8

hive
了。

【在 l******n 的大作中提到】
: 发现所有data scientist 的position 都要求大数据,hadoop 什么的经验,还特别重要
: 可是,如果hadoop的经验,是指用Hive做query 和 summary, 那根用SQL command没多
: 少区别啊。可能在底层,hadoop和relation database 差距很大,但是在上层,用hive
: 的话,这个差距可以说很小很小。
: 如果是写pig,确实有些不太一样,但也不是那么难学,至少比学编程练算法容易多了。
: 总之,这个要求“大数据”的经验,我感觉就是一个样子货,没啥真的内涵。
: 请大家发表意见

avatar
f*r
9
spark也要数据大才有用,不然光scan HDFS上的input path就可以运行很久,假设你有
很多partitions,文件很散碎
avatar
j*p
10
有道理,就是基于非关系型数据的类SQL语言.
Hadoop速度慢,不要紧,可以作为数据存储.
spark作为实时运算端.
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。