是不是有cluster就不需要用hadoop了 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>DataSciences - 数据科学

是不是有cluster就不需要用hadoop了

是不是有cluster就不需要用hadoop了# DataSciences - 数据科学

M*P2015-11-30 08:11

1 楼

貌似hadoop是基于硬件都是垃圾的假设？？如果有高效，高稳定的cluster，比如各大
学校里的cluster，那根本不需要hadoop吧？只需要MPI或者类似的方法？

a*k2015-11-30 08:11

2 楼

你还是先搞清楚什么是hadoop以及原理吧

a*k2015-11-30 08:11

3 楼

hadoop是同时解决data parallel和process parallel的solution. High performance
computing能解决data parallel?

j*g2015-11-30 08:11

4 楼

公司里来说 scale horizontal比scale vertical要省钱很多不见得高精尖一定是好

【在 M*P 的大作中提到】

: 貌似hadoop是基于硬件都是垃圾的假设？？如果有高效，高稳定的cluster，比如各大
: 学校里的cluster，那根本不需要hadoop吧？只需要MPI或者类似的方法？

j*g2015-11-30 08:11

5 楼

Hadoop本来就不是必需的当年是为了爬网站设计出来的很多都是炒作理智的话需要
啥就用啥

【在 M*P 的大作中提到】

: 貌似hadoop是基于硬件都是垃圾的假设？？如果有高效，高稳定的cluster，比如各大
: 学校里的cluster，那根本不需要hadoop吧？只需要MPI或者类似的方法？

M*P2015-11-30 08:11

6 楼

HPC所有数据对于所有node都是共享的。不存在data parallel的问题。

performance

【在 a****k 的大作中提到】

: hadoop是同时解决data parallel和process parallel的solution. High performance
: computing能解决data parallel?

M*P2015-11-30 08:11

7 楼

啥意思？
难道公司都是买100个300刀的Dell， $30,000，每个机器估计现在能有个4core + 4G
memory + 500Gb hard drive.
总共400core，400G memory + 50Tb storage. 加上垃圾网络设备连一起？

【在 j*******g 的大作中提到】

: 公司里来说 scale horizontal比scale vertical要省钱很多不见得高精尖一定是好

a*k2015-11-30 08:11

8 楼

这就是问题了，给你100pb的数据，所有node都共享，你得有个多大的单个存储空间。
如果用hadoop，10K个node,每台放10T的数据就可以了，然后任何运算单个node只在自
己的存储空间上跑。这就是data parallel. HPC不能做到。

【在 M*P 的大作中提到】

: HPC所有数据对于所有node都是共享的。不存在data parallel的问题。
:
: performance

M*P2015-11-30 08:11

9 楼

好吧，明白了。我们这里HPC也就1PTB的共享数据，100PTB估计很难。但是10K个node，
也要不少钱。

【在 a****k 的大作中提到】

: 这就是问题了，给你100pb的数据，所有node都共享，你得有个多大的单个存储空间。
: 如果用hadoop，10K个node,每台放10T的数据就可以了，然后任何运算单个node只在自
: 己的存储空间上跑。这就是data parallel. HPC不能做到。