Redian新闻
>
分布式计算 大数据啥的 我咋觉得是倒退?
avatar
分布式计算 大数据啥的 我咋觉得是倒退?# Programming - 葵花宝典
p*f
1
我的理解是,GSM里的sim卡对应一个号码
CDMA里的保存号码的是哪个东西呢?
如果把sim卡里的号port到CDMA手机了,那这个sim卡就完全作废了??
如果不想用CDMA手机了,还有可能把号码port回GSM吗?
avatar
n*g
2
实际有用的 都是小数据 大数据其实是大垃圾
然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
为啥技术倒退的这么彻底呢
avatar
w*g
4
马上industry又要重新发现单机模式了.
Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

avatar
n*y
5
可以port,不过也许有例外情况,最好打运营商电话确认
cdma手机一般是机卡一体。如果你把号码port走了,sim卡或者cdma手机自然就不能用
avatar
t*n
6
有道理。
搞不好oracle又复活了,现在花大钱搞cloud就是瞎折腾
avatar
z*e
7
可以。
avatar
n*g
8
大牛和我想法不谋而合!
[在 wdong (万事休) 的大作中提到:]
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
:已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.
avatar
w*z
9
数据量大于单机的存储量,单机怎么搞?

:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
avatar
w*g
10
现在服务器内存可以上3TB, CPU 2x16 core是标配。
SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
做成raid,I/O上个几个GB/s没啥问题。
Hadoop处理那种log数据,清洗一下大小就能减少十来倍。
先用SSD-to-SSD清洗数据,完了直接读入内存算。
一般公司能有多大数据要处理?

【在 w**z 的大作中提到】
: 数据量大于单机的存储量,单机怎么搞?
:
: :马上industry又要重新发现单机模式了.
: :Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上

avatar
w*m
11
大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天,中间还可能断。
所以没办法才要分布。
avatar
d*c
12
这完全是个成本问题。
MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。
当初google的问题超过了单机的容量,必须用大量pc拼起来。
现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。
但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理
,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极
限了。
分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

avatar
w*z
13
你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。

:现在服务器内存可以上3TB, CPU 2x16 core是标配。
:SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
avatar
c*n
14
最近才撸了一个
硬件要求上去之后 + 要长时间跑
还是本地的便宜
如果短期要超大内存或者GPU临时算一下 当然ec2方便

【在 w**z 的大作中提到】
: 你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。
:
: :现在服务器内存可以上3TB, CPU 2x16 core是标配。
: :SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,

avatar
g*t
15
我现在觉得不但机器要进入单机模式。写程序也要进入单人模式。
现在大时代不收敛。集体模式写程序也许不久的将来就会效益指数下降,沦为奴隶工人。

【在 w***g 的大作中提到】
: 马上industry又要重新发现单机模式了.
: Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
: 已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

avatar
m*r
16
那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?
当然,配置低了,跑得时间长。 配置高了, 我也买不起。
所以我只需要知道个大概 几百还是几千块?
avatar
g*t
17
很难赢国内的年轻人。

【在 m******r 的大作中提到】
: 那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?
: 当然,配置低了,跑得时间长。 配置高了, 我也买不起。
: 所以我只需要知道个大概 几百还是几千块?

avatar
d*r
18
比较同意这个, 互联网公司堆廉价Linux机器,
因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过.

【在 d******c 的大作中提到】
: 这完全是个成本问题。
: MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。
: 当初google的问题超过了单机的容量,必须用大量pc拼起来。
: 现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。
: 但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理
: ,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极
: 限了。
: 分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。

avatar
w*z
19
单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。

:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
avatar
d*r
20
嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵

【在 w**z 的大作中提到】
: 单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。
:
: :比较同意这个, 互联网公司堆廉价Linux机器,
: :因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.

avatar
i*9
21
话说现在直接面向用户的网站,一天产生1T的 log 数据一点都不多吧。随便看个指标
要看过去3年的周线也不过分吧。这样就是超过1PB的数据了。谁会为了这种1,2个月一
次的偶发查询准备一台能处理1PB数据的超级计算机?

:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
avatar
f*t
22
一堆性能一般的硬件:性能有损失,需要更多开发人员
高性能硬件:性能强到一定程度后费用大概会几何级增长,failover难,而且很多时候
单机还是满足不了大公司的需求
大公司又不是傻子,搞这些分布式计算的技术,当然是因为能降低成本。以更低的成本
做到了同样的事,怎么看都是技术进步吧。附带的效果是硬工需求和收入降低,钱转移
到码工手里。楼主可能是一个悲愤的硬工。
avatar
n*g
23
实际有用的 都是小数据 大数据其实是大垃圾
然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
为啥技术倒退的这么彻底呢
avatar
w*g
24
马上industry又要重新发现单机模式了.
Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

avatar
t*n
25
有道理。
搞不好oracle又复活了,现在花大钱搞cloud就是瞎折腾
avatar
n*g
26
大牛和我想法不谋而合!
[在 wdong (万事休) 的大作中提到:]
:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
:已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.
avatar
w*z
27
数据量大于单机的存储量,单机怎么搞?

:马上industry又要重新发现单机模式了.
:Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
avatar
w*g
28
现在服务器内存可以上3TB, CPU 2x16 core是标配。
SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
做成raid,I/O上个几个GB/s没啥问题。
Hadoop处理那种log数据,清洗一下大小就能减少十来倍。
先用SSD-to-SSD清洗数据,完了直接读入内存算。
一般公司能有多大数据要处理?

【在 w**z 的大作中提到】
: 数据量大于单机的存储量,单机怎么搞?
:
: :马上industry又要重新发现单机模式了.
: :Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上

avatar
w*m
29
大数据都是IO bound。
1TB本地只要几秒钟。
但是通过网络传过来要几天,中间还可能断。
所以没办法才要分布。
avatar
d*c
30
这完全是个成本问题。
MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。
当初google的问题超过了单机的容量,必须用大量pc拼起来。
现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。
但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理
,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极
限了。
分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

avatar
w*z
31
你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。

:现在服务器内存可以上3TB, CPU 2x16 core是标配。
:SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,
avatar
c*n
32
最近才撸了一个
硬件要求上去之后 + 要长时间跑
还是本地的便宜
如果短期要超大内存或者GPU临时算一下 当然ec2方便

【在 w**z 的大作中提到】
: 你让 ec2 帮着攒一个?现在基本没公司自己买服务器了。
:
: :现在服务器内存可以上3TB, CPU 2x16 core是标配。
: :SSD storage很容易插进去十几个TB, 甚至还有十几个TB的SSD,

avatar
g*t
33
我现在觉得不但机器要进入单机模式。写程序也要进入单人模式。
现在大时代不收敛。集体模式写程序也许不久的将来就会效益指数下降,沦为奴隶工人。

【在 w***g 的大作中提到】
: 马上industry又要重新发现单机模式了.
: Hadoop那套东西是基于传统HDD设计的, 其实现在大容量SSD上
: 已经不适用了. 现在很多人都是为了兼容性而不是性能在用Hadoop.

avatar
m*r
34
那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?
当然,配置低了,跑得时间长。 配置高了, 我也买不起。
所以我只需要知道个大概 几百还是几千块?
avatar
g*t
35
很难赢国内的年轻人。

【在 m******r 的大作中提到】
: 那你们给说说,要是自己弄个机器,能跑kaggle比赛的,大概得什么配置, 多少钱?
: 当然,配置低了,跑得时间长。 配置高了, 我也买不起。
: 所以我只需要知道个大概 几百还是几千块?

avatar
d*r
36
比较同意这个, 互联网公司堆廉价Linux机器,
因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过.

【在 d******c 的大作中提到】
: 这完全是个成本问题。
: MPI只有super computer上用,都是政府出钱的计算中心,企业用是不合算的。
: 当初google的问题超过了单机的容量,必须用大量pc拼起来。
: 现在单机的能力很强了,很多人的数据也远没有那么大,搞分布式肯定是不需要的。
: 但是会有一些问题还是单机处理不了的,另外就是一个scale问题,你现在单机能处理
: ,但可能希望数据大了你仍然能处理,用分布式的话可以scale up,用单机很快就到极
: 限了。
: 分布式,并行都是需要完全不同的计算模式,只有必须要用的时候才应该用。

avatar
w*z
37
单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。

:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
avatar
d*r
38
嗯, 这个也是. 牛逼机器做 HA 备份的话, 貌似也更贵

【在 w**z 的大作中提到】
: 单机的 HA 始终是个问题。当然你可以赌,机器 五年不会坏。
:
: :比较同意这个, 互联网公司堆廉价Linux机器,
: :因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.

avatar
i*9
39
话说现在直接面向用户的网站,一天产生1T的 log 数据一点都不多吧。随便看个指标
要看过去3年的周线也不过分吧。这样就是超过1PB的数据了。谁会为了这种1,2个月一
次的偶发查询准备一台能处理1PB数据的超级计算机?

:比较同意这个, 互联网公司堆廉价Linux机器,
:因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
avatar
f*t
40
一堆性能一般的硬件:性能有损失,需要更多开发人员
高性能硬件:性能强到一定程度后费用大概会几何级增长,failover难,而且很多时候
单机还是满足不了大公司的需求
大公司又不是傻子,搞这些分布式计算的技术,当然是因为能降低成本。以更低的成本
做到了同样的事,怎么看都是技术进步吧。附带的效果是硬工需求和收入降低,钱转移
到码工手里。楼主可能是一个悲愤的硬工。
avatar
g*9
41
"Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛.

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

avatar
h*c
42
狗家那种数据中心如果开始老化的话,PC服务器也就是3年的寿命,
成批量资产更新也要很大一笔钱,
optimistic planning是不考虑depreciation 问题的

【在 d*******r 的大作中提到】
: 比较同意这个, 互联网公司堆廉价Linux机器,
: 因为公司启动的时候便宜, 然后能 incrementally scale out 扩展.
: 如果大型机, 或者牛逼单机构架,没有这种 易启动 易扩展 的特性,还是竞争不过.

avatar
n*g
43
您的观点呢?
[在 groundhog09 (衰哥) 的大作中提到:]
:"Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛.
:***********************
:***********************
avatar
l*n
44
你知道super computer多贵吗?使用维护有多花钱吗?更不要说软件开发了,周期长到
让人绝望。应用范围基本都是关系国家安全或者民生的大问题,商业公司除了银行等极
少数行业,基本不可能用。
现在是个小startup就可以用很少的资金,做到以前有钱都做不到的事情,这还不是进
步?

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

avatar
h*c
45
前面说过depreciation的问题,现在一些关键设备,计算设施换到云端的,3,5年之后
depreciation, 可靠性差带来的outage,这些成本估计就不是今天的报价了。
有些系统,比如电力,民航,折腾出去了就不好再折腾回来了。
倒时候,LAXIGILE MANAGERS换了好几茬,估计又是纳税bail out.

【在 l******n 的大作中提到】
: 你知道super computer多贵吗?使用维护有多花钱吗?更不要说软件开发了,周期长到
: 让人绝望。应用范围基本都是关系国家安全或者民生的大问题,商业公司除了银行等极
: 少数行业,基本不可能用。
: 现在是个小startup就可以用很少的资金,做到以前有钱都做不到的事情,这还不是进
: 步?

avatar
m*n
46
金融管它叫
garbage in, garbage out.
avatar
m*n
47
有的算法需要推演很大量,例如Alpha Go的算法
有的算法是模糊判断,例如判断猫脸
计算能力提升了,的确可以实现算法
传统统计规律能揭示的规律毕竟是有限的。
avatar
r*s
48
不是退步的问题,是用途问题
mpi 门槛太高。用着费劲。
另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自
己找事。
等你真有几百个pb的数据的话单机就没戏了。

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

avatar
r*s
49
不是退步的问题,是用途问题
mpi 门槛太高。用着费劲。
另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自
己找事。
等你真有几百个pb的数据的话单机就没戏了。

【在 n******g 的大作中提到】
: 实际有用的 都是小数据 大数据其实是大垃圾
: 然后分布式计算远不如 单机快 Hadoop spark 也不如 MPI
: 为啥技术倒退的这么彻底呢

avatar
f*r
50
超算确实非常贵,相对于普通商业数据中心,特别是跟风上了专业gpu的。超算应该是
拉不下脸用价廉物美的游戏卡的。
但是另一个方面基本上超算都是接近满负荷在运行,而商业数据中心包括云计算公司,
平均负载只有15-20%。所以究竟哪个性价比高还不好说。商业数据中心的低负载是商业
面试的周期性决定的,也是云计算的起因之一


: 不是退步的问题,是用途问题

: mpi 门槛太高。用着费劲。

: 另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据
,是自

: 己找事。

: 等你真有几百个pb的数据的话单机就没戏了。



【在 r***s 的大作中提到】
: 不是退步的问题,是用途问题
: mpi 门槛太高。用着费劲。
: 另外绝大部分人只有几十个TB,单机处理其实没有问题。非要嚷嚷着要上大数据,是自
: 己找事。
: 等你真有几百个pb的数据的话单机就没戏了。

avatar
g*9
51
把Big Data和MPI比,这个不可思议。两个解决不同的问题,哪有可比性?
Big data是侧重处理数据, MPI是侧重计算。数据量一大,MPI怎么用?
MPI能做的,Big data肯定能做,只是没那么优化。

【在 n******g 的大作中提到】
: 您的观点呢?
: [在 groundhog09 (衰哥) 的大作中提到:]
: :"Hadoop spark 也不如 MPI",LOL, 你只知道个皮毛.
: :***********************
: :***********************

avatar
y*b
52
是的完全不可比较。
其实人类超算那点计算能力也很小很可怜的。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。