分布式计算 大数据啥的 我咋觉得是倒退?# Programming - 葵花宝典p*f2017-10-09 07:101 楼我的理解是,GSM里的sim卡对应一个号码CDMA里的保存号码的是哪个东西呢?如果把sim卡里的号port到CDMA手机了,那这个sim卡就完全作废了??如果不想用CDMA手机了,还有可能把号码port回GSM吗?
w*g2017-10-09 07:104 楼马上industry又要重新发现单机模式了.Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.【在 n******g 的大作中提到】: 实际有用的 都是小数据 大数据其实是大垃圾: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI: 为啥技术倒退的这么彻底呢
n*g2017-10-09 07:108 楼大牛和我想法不谋而合![在 wdong (万事休) 的大作中提到:]:马上industry又要重新发现单机模式了.:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上:已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.
w*g2017-10-09 07:1010 楼现在服务器内存可以上3TB, CPU 2x16 core是标配。SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,做成raid,I/O上个几个GB/s没啥问题。Hadoop处理那种log数据,清洗一下大小就能减少十来倍。先用SSD-to-SSD清洗数据,完了直接读入内存算。一般公司能有多大数据要处理?【在 w**z 的大作中提到】: 数据量大于单机的存储量,单机怎么搞?: : :马上industry又要重新发现单机模式了.: :Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
d*c2017-10-09 07:1012 楼这完全是个成本问题。MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。当初google的问题超过了单机的容量,必须用大量pc拼起来。现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极限了。分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。【在 n******g 的大作中提到】: 实际有用的 都是小数据 大数据其实是大垃圾: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI: 为啥技术倒退的这么彻底呢
w*z2017-10-09 07:1013 楼你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。:现在服务器内存可以上3TB, CPU 2x16 core是标配。:SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
c*n2017-10-09 07:1014 楼最近才撸了一个硬件要求上去之后 + 要长时间跑还是本地的便宜如果短期要超大内存或者GPU临时算一下 当然ec2方便【在 w**z 的大作中提到】: 你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。: : :现在服务器内存可以上3TB, CPU 2x16 core是标配。: :SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
g*t2017-10-09 07:1015 楼我现在觉得不但机器要进入单机模式。写程序也要进入单人模式。现在大时代不收敛。集体模式写程序也许不久的将来就会效益指数下降,沦为奴隶工人。【在 w***g 的大作中提到】: 马上industry又要重新发现单机模式了.: Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上: 已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.
m*r2017-10-09 07:1016 楼那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?当然,配置低了,跑得时间长。 配置高了, 我也买不起。所以我只需要知道个大概 几百还是几千块?
g*t2017-10-09 07:1017 楼很难赢国内的年轻人。【在 m******r 的大作中提到】: 那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?: 当然,配置低了,跑得时间长。 配置高了, 我也买不起。: 所以我只需要知道个大概 几百还是几千块?
d*r2017-10-09 07:1018 楼比较同意这个, 互联网公司堆廉价Linux机器,因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过.【在 d******c 的大作中提到】: 这完全是个成本问题。: MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。: 当初google的问题超过了单机的容量,必须用大量pc拼起来。: 现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。: 但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理: ,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极: 限了。: 分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。
w*z2017-10-09 07:1019 楼单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。:比较同意这个, 互联网公司堆廉价Linux机器,:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
d*r2017-10-09 07:1020 楼嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵【在 w**z 的大作中提到】: 单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。: : :比较同意这个, 互联网公司堆廉价Linux机器,: :因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
i*92017-10-09 07:1021 楼话说现在直接面向用户的网站,一天产生1T的 log 数据一点都不多吧。随便看个指标要看过去3年的周线也不过分吧。这样就是超过1PB的数据了。谁会为了这种1,2个月一次的偶发查询准备一台能处理1PB数据的超级计算机?:比较同意这个, 互联网公司堆廉价Linux机器,:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
f*t2017-10-09 07:1022 楼一堆性能一般的硬件:性能有损失,需要更多开发人员高性能硬件:性能强到一定程度后费用大概会几何级增长,failover难,而且很多时候单机还是满足不了大公司的需求大公司又不是傻子,搞这些分布式计算的技术,当然是因为能降低成本。以更低的成本做到了同样的事,怎么看都是技术进步吧。附带的效果是硬工需求和收入降低,钱转移到码工手里。楼主可能是一个悲愤的硬工。
w*g2017-10-09 07:1024 楼马上industry又要重新发现单机模式了.Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.【在 n******g 的大作中提到】: 实际有用的 都是小数据 大数据其实是大垃圾: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI: 为啥技术倒退的这么彻底呢
n*g2017-10-09 07:1026 楼大牛和我想法不谋而合![在 wdong (万事休) 的大作中提到:]:马上industry又要重新发现单机模式了.:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上:已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.
w*g2017-10-09 07:1028 楼现在服务器内存可以上3TB, CPU 2x16 core是标配。SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,做成raid,I/O上个几个GB/s没啥问题。Hadoop处理那种log数据,清洗一下大小就能减少十来倍。先用SSD-to-SSD清洗数据,完了直接读入内存算。一般公司能有多大数据要处理?【在 w**z 的大作中提到】: 数据量大于单机的存储量,单机怎么搞?: : :马上industry又要重新发现单机模式了.: :Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
d*c2017-10-09 07:1030 楼这完全是个成本问题。MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。当初google的问题超过了单机的容量,必须用大量pc拼起来。现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极限了。分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。【在 n******g 的大作中提到】: 实际有用的 都是小数据 大数据其实是大垃圾: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI: 为啥技术倒退的这么彻底呢
w*z2017-10-09 07:1031 楼你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。:现在服务器内存可以上3TB, CPU 2x16 core是标配。:SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
c*n2017-10-09 07:1032 楼最近才撸了一个硬件要求上去之后 + 要长时间跑还是本地的便宜如果短期要超大内存或者GPU临时算一下 当然ec2方便【在 w**z 的大作中提到】: 你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。: : :现在服务器内存可以上3TB, CPU 2x16 core是标配。: :SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
g*t2017-10-09 07:1033 楼我现在觉得不但机器要进入单机模式。写程序也要进入单人模式。现在大时代不收敛。集体模式写程序也许不久的将来就会效益指数下降,沦为奴隶工人。【在 w***g 的大作中提到】: 马上industry又要重新发现单机模式了.: Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上: 已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.
m*r2017-10-09 07:1034 楼那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?当然,配置低了,跑得时间长。 配置高了, 我也买不起。所以我只需要知道个大概 几百还是几千块?
g*t2017-10-09 07:1035 楼很难赢国内的年轻人。【在 m******r 的大作中提到】: 那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?: 当然,配置低了,跑得时间长。 配置高了, 我也买不起。: 所以我只需要知道个大概 几百还是几千块?
d*r2017-10-09 07:1036 楼比较同意这个, 互联网公司堆廉价Linux机器,因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过.【在 d******c 的大作中提到】: 这完全是个成本问题。: MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。: 当初google的问题超过了单机的容量,必须用大量pc拼起来。: 现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。: 但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理: ,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极: 限了。: 分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。
w*z2017-10-09 07:1037 楼单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。:比较同意这个, 互联网公司堆廉价Linux机器,:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
d*r2017-10-09 07:1038 楼嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵【在 w**z 的大作中提到】: 单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。: : :比较同意这个, 互联网公司堆廉价Linux机器,: :因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
i*92017-10-09 07:1039 楼话说现在直接面向用户的网站,一天产生1T的 log 数据一点都不多吧。随便看个指标要看过去3年的周线也不过分吧。这样就是超过1PB的数据了。谁会为了这种1,2个月一次的偶发查询准备一台能处理1PB数据的超级计算机?:比较同意这个, 互联网公司堆廉价Linux机器,:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
f*t2017-10-09 07:1040 楼一堆性能一般的硬件:性能有损失,需要更多开发人员高性能硬件:性能强到一定程度后费用大概会几何级增长,failover难,而且很多时候单机还是满足不了大公司的需求大公司又不是傻子,搞这些分布式计算的技术,当然是因为能降低成本。以更低的成本做到了同样的事,怎么看都是技术进步吧。附带的效果是硬工需求和收入降低,钱转移到码工手里。楼主可能是一个悲愤的硬工。
g*92017-10-09 07:1041 楼"Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛.【在 n******g 的大作中提到】: 实际有用的 都是小数据 大数据其实是大垃圾: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI: 为啥技术倒退的这么彻底呢
h*c2017-10-09 07:1042 楼狗家那种数据中心如果开始老化的话,PC服务器也就是3年的寿命,成批量资产更新也要很大一笔钱,optimistic planning是不考虑depreciation 问题的【在 d*******r 的大作中提到】: 比较同意这个, 互联网公司堆廉价Linux机器,: 因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.: 如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过.
n*g2017-10-09 07:1043 楼您的观点呢?[在 groundhog09 (衰哥) 的大作中提到:]:"Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛.:***********************:***********************
l*n2017-10-09 07:1044 楼你知道super computer多贵吗?使用维护有多花钱吗?更不要说软件开发了,周期长到让人绝望。应用范围基本都是关系国家安全或者民生的大问题,商业公司除了银行等极少数行业,基本不可能用。现在是个小startup就可以用很少的资金,做到以前有钱都做不到的事情,这还不是进步?【在 n******g 的大作中提到】: 实际有用的 都是小数据 大数据其实是大垃圾: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI: 为啥技术倒退的这么彻底呢
h*c2017-10-09 07:1045 楼前面说过depreciation的问题,现在一些关键设备,计算设施换到云端的,3,5年之后depreciation, 可靠性差带来的outage,这些成本估计就不是今天的报价了。有些系统,比如电力,民航,折腾出去了就不好再折腾回来了。倒时候,LAXIGILE MANAGERS换了好几茬,估计又是纳税bail out.【在 l******n 的大作中提到】: 你知道super computer多贵吗?使用维护有多花钱吗?更不要说软件开发了,周期长到: 让人绝望。应用范围基本都是关系国家安全或者民生的大问题,商业公司除了银行等极: 少数行业,基本不可能用。: 现在是个小startup就可以用很少的资金,做到以前有钱都做不到的事情,这还不是进: 步?
r*s2017-10-09 07:1048 楼不是退步的问题,是用途问题mpi 门槛太高。用着费劲。另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自己找事。等你真有几百个pb的数据的话单机就没戏了。【在 n******g 的大作中提到】: 实际有用的 都是小数据 大数据其实是大垃圾: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI: 为啥技术倒退的这么彻底呢
r*s2017-10-09 07:1049 楼不是退步的问题,是用途问题mpi 门槛太高。用着费劲。另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自己找事。等你真有几百个pb的数据的话单机就没戏了。【在 n******g 的大作中提到】: 实际有用的 都是小数据 大数据其实是大垃圾: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI: 为啥技术倒退的这么彻底呢
f*r2017-10-09 07:1050 楼超算确实非常贵,相对于普通商业数据中心,特别是跟风上了专业gpu的。超算应该是拉不下脸用价廉物美的游戏卡的。但是另一个方面基本上超算都是接近满负荷在运行,而商业数据中心包括云计算公司,平均负载只有15-20%。所以究竟哪个性价比高还不好说。商业数据中心的低负载是商业面试的周期性决定的,也是云计算的起因之一: 不是退步的问题,是用途问题: mpi 门槛太高。用着费劲。: 另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自: 己找事。: 等你真有几百个pb的数据的话单机就没戏了。【在 r***s 的大作中提到】: 不是退步的问题,是用途问题: mpi 门槛太高。用着费劲。: 另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自: 己找事。: 等你真有几百个pb的数据的话单机就没戏了。
g*92017-10-09 07:1051 楼把Big Data和MPI比,这个不可思议。两个解决不同的问题,哪有可比性?Big data是侧重处理数据, MPI是侧重计算。数据量一大,MPI怎么用?MPI能做的,Big data肯定能做,只是没那么优化。【在 n******g 的大作中提到】: 您的观点呢?: [在 groundhog09 (衰哥) 的大作中提到:]: :"Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛.: :***********************: :***********************