Redian新闻
>
是不是有cluster就不需要用hadoop了
avatar
是不是有cluster就不需要用hadoop了# DataSciences - 数据科学
M*P
1
貌似hadoop是基于硬件都是垃圾的假设??如果有高效,高稳定的cluster,比如各大
学校里的cluster, 那根本不需要hadoop吧?只需要MPI或者类似的方法?
avatar
a*k
2
你还是先搞清楚什么是hadoop以及原理吧
avatar
a*k
3
hadoop是同时解决data parallel和process parallel的solution. High performance
computing能解决data parallel?
avatar
j*g
4
公司里来说 scale horizontal比scale vertical要省钱很多 不见得高精尖一定是好

【在 M*P 的大作中提到】
: 貌似hadoop是基于硬件都是垃圾的假设??如果有高效,高稳定的cluster,比如各大
: 学校里的cluster, 那根本不需要hadoop吧?只需要MPI或者类似的方法?

avatar
j*g
5
Hadoop本来就不是必需的 当年是为了爬网站设计出来的 很多都是炒作 理智的话需要
啥就用啥

【在 M*P 的大作中提到】
: 貌似hadoop是基于硬件都是垃圾的假设??如果有高效,高稳定的cluster,比如各大
: 学校里的cluster, 那根本不需要hadoop吧?只需要MPI或者类似的方法?

avatar
M*P
6
HPC所有数据对于所有node都是共享的。不存在data parallel的问题。

performance

【在 a****k 的大作中提到】
: hadoop是同时解决data parallel和process parallel的solution. High performance
: computing能解决data parallel?

avatar
M*P
7
啥意思?
难道公司都是买100个300刀的Dell, $30,000,每个机器估计现在能有个4core + 4G
memory + 500Gb hard drive.
总共400core,400G memory + 50Tb storage. 加上垃圾网络设备连一起?

【在 j*******g 的大作中提到】
: 公司里来说 scale horizontal比scale vertical要省钱很多 不见得高精尖一定是好
avatar
a*k
8
这就是问题了, 给你100pb的数据,所有node都共享,你得有个多大的单个存储空间。
如果用hadoop,10K个node,每台放10T的数据就可以了,然后任何运算单个node只在自
己的存储空间上跑。这就是data parallel. HPC不能做到。

【在 M*P 的大作中提到】
: HPC所有数据对于所有node都是共享的。不存在data parallel的问题。
:
: performance

avatar
M*P
9
好吧,明白了。我们这里HPC也就1PTB的共享数据,100PTB估计很难。但是10K个node,
也要不少钱。

【在 a****k 的大作中提到】
: 这就是问题了, 给你100pb的数据,所有node都共享,你得有个多大的单个存储空间。
: 如果用hadoop,10K个node,每台放10T的数据就可以了,然后任何运算单个node只在自
: 己的存储空间上跑。这就是data parallel. HPC不能做到。

avatar
l*n
10
正真完全意义上的共享要shared memory,也就是cray才行,大部分是军方或者专门实
验室才有,学校的还是distributed的,只是node内存多点硬盘大点

【在 M*P 的大作中提到】
: HPC所有数据对于所有node都是共享的。不存在data parallel的问题。
:
: performance

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。