是不是有cluster就不需要用hadoop了# DataSciences - 数据科学M*P2015-11-30 08:111 楼貌似hadoop是基于硬件都是垃圾的假设??如果有高效,高稳定的cluster,比如各大学校里的cluster, 那根本不需要hadoop吧?只需要MPI或者类似的方法?
a*k2015-11-30 08:113 楼hadoop是同时解决data parallel和process parallel的solution. High performancecomputing能解决data parallel?
j*g2015-11-30 08:114 楼公司里来说 scale horizontal比scale vertical要省钱很多 不见得高精尖一定是好【在 M*P 的大作中提到】: 貌似hadoop是基于硬件都是垃圾的假设??如果有高效,高稳定的cluster,比如各大: 学校里的cluster, 那根本不需要hadoop吧?只需要MPI或者类似的方法?
j*g2015-11-30 08:115 楼Hadoop本来就不是必需的 当年是为了爬网站设计出来的 很多都是炒作 理智的话需要啥就用啥【在 M*P 的大作中提到】: 貌似hadoop是基于硬件都是垃圾的假设??如果有高效,高稳定的cluster,比如各大: 学校里的cluster, 那根本不需要hadoop吧?只需要MPI或者类似的方法?
M*P2015-11-30 08:116 楼HPC所有数据对于所有node都是共享的。不存在data parallel的问题。performance【在 a****k 的大作中提到】: hadoop是同时解决data parallel和process parallel的solution. High performance: computing能解决data parallel?
M*P2015-11-30 08:117 楼啥意思?难道公司都是买100个300刀的Dell, $30,000,每个机器估计现在能有个4core + 4Gmemory + 500Gb hard drive.总共400core,400G memory + 50Tb storage. 加上垃圾网络设备连一起?【在 j*******g 的大作中提到】: 公司里来说 scale horizontal比scale vertical要省钱很多 不见得高精尖一定是好
a*k2015-11-30 08:118 楼这就是问题了, 给你100pb的数据,所有node都共享,你得有个多大的单个存储空间。如果用hadoop,10K个node,每台放10T的数据就可以了,然后任何运算单个node只在自己的存储空间上跑。这就是data parallel. HPC不能做到。【在 M*P 的大作中提到】: HPC所有数据对于所有node都是共享的。不存在data parallel的问题。: : performance
M*P2015-11-30 08:119 楼好吧,明白了。我们这里HPC也就1PTB的共享数据,100PTB估计很难。但是10K个node,也要不少钱。【在 a****k 的大作中提到】: 这就是问题了, 给你100pb的数据,所有node都共享,你得有个多大的单个存储空间。: 如果用hadoop,10K个node,每台放10T的数据就可以了,然后任何运算单个node只在自: 己的存储空间上跑。这就是data parallel. HPC不能做到。
l*n2015-11-30 08:1110 楼正真完全意义上的共享要shared memory,也就是cray才行,大部分是军方或者专门实验室才有,学校的还是distributed的,只是node内存多点硬盘大点【在 M*P 的大作中提到】: HPC所有数据对于所有node都是共享的。不存在data parallel的问题。: : performance