算了，我还搞点学术普及把 - 未名空间MITBBS历史存档

算了，我还搞点学术普及把# Joke - 肚皮舞运动

a*n2015-11-06 08:11

1 楼

07/05/2011 Newegg.com $589.94 Pending $0.00
07/01/2011 Newegg.com $149.95 Pending $0.00
06/23/2011 Newegg.com $274.95 Pending $0.00
06/21/2011 Newegg.com $279.98 Pending $0.00
靠,小护士就指望这些CB的,都变0,出离愤怒啊.

d*f2015-11-06 08:11

2 楼

lhc的数据量
https://www.atkearney.com/documents/10192/698538/Science+of+Big+Data.pdf/
7b1c91df-e56c-4c86-ba70-4d5a1fbb0fc5
一年25pb,虽然只有google一天的量，但是高能试验大概在几十年前就开始接触这么大
的数据量，你们生物转行肯定是没概念了

l*a2015-11-06 08:11

3 楼

全用gc pay的？

【在 a*****n 的大作中提到】

: 07/05/2011 Newegg.com $589.94 Pending $0.00
: 07/01/2011 Newegg.com $149.95 Pending $0.00
: 06/23/2011 Newegg.com $274.95 Pending $0.00
: 06/21/2011 Newegg.com $279.98 Pending $0.00
: 靠,小护士就指望这些CB的,都变0,出离愤怒啊.

u*q2015-11-06 08:11

4 楼

25pb zip一下估计能到2MB

a*n2015-11-06 08:11

5 楼

no. 跟GC也没关系. 以前用了GC也是5%全额的.

【在 l*******a 的大作中提到】

: 全用gc pay的？

h*a2015-11-06 08:11

6 楼

几十年前这么多数据存哪里？

【在 d********f 的大作中提到】

: lhc的数据量
: https://www.atkearney.com/documents/10192/698538/Science+of+Big+Data.pdf/
: 7b1c91df-e56c-4c86-ba70-4d5a1fbb0fc5
: 一年25pb,虽然只有google一天的量，但是高能试验大概在几十年前就开始接触这么大
: 的数据量，你们生物转行肯定是没概念了

l*a2015-11-06 08:11

7 楼

我最近用gc付的是0，其他都不是

【在 a*****n 的大作中提到】

: no. 跟GC也没关系. 以前用了GC也是5%全额的.

c*n2015-11-06 08:11

8 楼

7zip一下估计可以到800k

【在 u****q 的大作中提到】

: 25pb zip一下估计能到2MB

a*n2015-11-06 08:11

9 楼

那newegg的GC直接就打到0.92以下了.

【在 l*******a 的大作中提到】

: 我最近用gc付的是0，其他都不是

s*y2015-11-06 08:11

10 楼

博导啊，大数据和数据量的大小是两个完全不同的概念。
大数据一般而言是指有很多变量的，有复杂相关关系，而且有可能混入不可靠数据的系
统，尤其是指那些难于用常规分析方法在可承受的时间范围内进行捕捉、管理和处理的
数据集合。
常规上说的大数据，一般是指有关社会学，互联网数据，大规模用户数据，天文和大气
科学，基因组学，医疗记录和大规模的电子商务。
如果就那么几种数据探头，而且数据很干净能够用普通计算机以及普通分析方法进行处
理的，就算数据量再大，那也不叫大数据。
你说的粒子物理的那些数据，变量之间的关系没有你想像的那么复杂，而且大部分规律
都是已知的，未知的是少数，之所以测那么多数据是因为需要提高精确度的量级，
但是算法其实是很直接也很简单的。所以粒子物理的数据用70年代的那些计算机
以及算法就能处理，根本用不上现代的“大数据”算法来处理。在这个意
义上，你说的那个粒子物理根本就不是什么“大数据”。估计你以为只要数据量就叫大
数据，对吧？

【在 d********f 的大作中提到】

: lhc的数据量
: https://www.atkearney.com/documents/10192/698538/Science+of+Big+Data.pdf/
: 7b1c91df-e56c-4c86-ba70-4d5a1fbb0fc5
: 一年25pb,虽然只有google一天的量，但是高能试验大概在几十年前就开始接触这么大
: 的数据量，你们生物转行肯定是没概念了

z*n2015-11-06 08:11

11 楼

然后再deduplication以下，估计也就63k
286机器可以运行

【在 c******n 的大作中提到】

: 7zip一下估计可以到800k

c*n2015-11-06 08:11

12 楼

算了下每天70g不到
按照当时的技术差不多30盘磁带一天
貌似还是可以接受的

【在 d********f 的大作中提到】

: lhc的数据量
: https://www.atkearney.com/documents/10192/698538/Science+of+Big+Data.pdf/
: 7b1c91df-e56c-4c86-ba70-4d5a1fbb0fc5
: 一年25pb,虽然只有google一天的量，但是高能试验大概在几十年前就开始接触这么大
: 的数据量，你们生物转行肯定是没概念了

c*y2015-11-06 08:11

13 楼

驳倒辛勤狗了一天的research成果啊。
原来驳倒觉得数据量大就是“大数据”了。machine learning一下没准还能挖出质子和
质子的爱情故事来。啧啧。

【在 d********f 的大作中提到】

: lhc的数据量
: https://www.atkearney.com/documents/10192/698538/Science+of+Big+Data.pdf/
: 7b1c91df-e56c-4c86-ba70-4d5a1fbb0fc5
: 一年25pb,虽然只有google一天的量，但是高能试验大概在几十年前就开始接触这么大
: 的数据量，你们生物转行肯定是没概念了

r*g2015-11-06 08:11

14 楼

太扯了。

【在 s******y 的大作中提到】

: 博导啊，大数据和数据量的大小是两个完全不同的概念。
: 大数据一般而言是指有很多变量的，有复杂相关关系，而且有可能混入不可靠数据的系
: 统，尤其是指那些难于用常规分析方法在可承受的时间范围内进行捕捉、管理和处理的
: 数据集合。
: 常规上说的大数据，一般是指有关社会学，互联网数据，大规模用户数据，天文和大气
: 科学，基因组学，医疗记录和大规模的电子商务。
: 如果就那么几种数据探头，而且数据很干净能够用普通计算机以及普通分析方法进行处
: 理的，就算数据量再大，那也不叫大数据。
: 你说的粒子物理的那些数据，变量之间的关系没有你想像的那么复杂，而且大部分规律
: 都是已知的，未知的是少数，之所以测那么多数据是因为需要提高精确度的量级，

s*y2015-11-06 08:11

15 楼

这个真的不扯。大数据到底是什么，我想我可能比博导更清楚一点，虽然我自己不是亲
自做这个的，倒还是认识不少人做这个的。
其实因为现代的计算机速度极快，所以对于比较单纯算法的处理，比方说就是求个平均
值，算个方差，然后看哪个数据落在多少个sigma之外，就算数据量再大，现代的计算
机也能轻松处理。粒子物理这个学科，那么早期的计算机都能处理，难道现代的计算机
反而搞不了?这不开玩笑么？
但是为什么现在提出一个大数据的概念？其实这个要从计算机对算法为止的数据的处理
有关。对于一组数据，如果你根本不知道他们的关系如何，甚至不知道每个数据是不是
都可靠，但是你必须对这些数据的相关关系下一个结论的话，你该怎么办？如果用计算
机来处理的话，因为计算机没有所谓的直觉和头脑风暴这些创造性的东西，它就必须把
各种可能性都试一遍，而且因为不知道每个数据是否都可靠，所以就必须做很多种猜想
以及验证然后反复的调整一些参数。而且如果一开始选的算法是错的话，花了一大堆时
间调整参数之后，发现根本不是参数的问题而是需要重新选算法，所以一切推倒重来。
最终结果就是，即使那个数据的量并不大，但是为了分析它们，计算机需要做很多很多
的工作，需要化很多很多的机时。但是如果那个数据再大一点的话就更惨了，按照目前
的算法思路，有可能运行一两个月都算不出来。所以在这个背景之下，才出现了这个大
数据的提法。
在这个意义上，大数据的研究其实是对算法的研究，尤其是对machine learning的研究
。但是其实和数据本身的量大小没有直接关系。如果一个数据群，你要做的唯一工作就
是算他们的平均值的话，就算数据再大，也不叫大数据项目。

【在 r*g 的大作中提到】

: 太扯了。

z*n2015-11-06 08:11

16 楼

不过这几年大数据也罢好多网站的新技术也罢，都有一个很大的特点，不太在乎确定性
和准确性
都是best effort，关键要赶紧出结果，快，万一出个错，大不了user界面弹出个窗口
，点一下重试不就完了
所谓用大数据推荐的广告也尽是已经买了的东西，还要追踪你一万年
就是这些不需要100%精确，让好多open source不是很可靠的tool大行其道，让好多所
谓大数据类型的计算门槛严重降低，呵呵

【在 r*g 的大作中提到】

: 太扯了。

r*e2015-11-06 08:11

17 楼

大数据就是数据挖掘的马甲，机器学习就是统计的马甲

【在 s******y 的大作中提到】

:
: 这个真的不扯。大数据到底是什么，我想我可能比博导更清楚一点，虽然我自己不是亲
: 自做这个的，倒还是认识不少人做这个的。
: 其实因为现代的计算机速度极快，所以对于比较单纯算法的处理，比方说就是求个平均
: 值，算个方差，然后看哪个数据落在多少个sigma之外，就算数据量再大，现代的计算
: 机也能轻松处理。粒子物理这个学科，那么早期的计算机都能处理，难道现代的计算机
: 反而搞不了?这不开玩笑么？
: 但是为什么现在提出一个大数据的概念？其实这个要从计算机对算法为止的数据的处理
: 有关。对于一组数据，如果你根本不知道他们的关系如何，甚至不知道每个数据是不是
: 都可靠，但是你必须对这些数据的相关关系下一个结论的话，你该怎么办？如果用计算

r*g2015-11-06 08:11

18 楼

那么早期的计算机都能处理,是因为物理实验数据早就用上了nosql, map reduce,
parallel tasks.
而不是等到硅谷这些人几十年后重新发现，然后起个名字。不是说它早就有了，所以
trivial.

【在 s******y 的大作中提到】

:
: 这个真的不扯。大数据到底是什么，我想我可能比博导更清楚一点，虽然我自己不是亲
: 自做这个的，倒还是认识不少人做这个的。
: 其实因为现代的计算机速度极快，所以对于比较单纯算法的处理，比方说就是求个平均
: 值，算个方差，然后看哪个数据落在多少个sigma之外，就算数据量再大，现代的计算
: 机也能轻松处理。粒子物理这个学科，那么早期的计算机都能处理，难道现代的计算机
: 反而搞不了?这不开玩笑么？
: 但是为什么现在提出一个大数据的概念？其实这个要从计算机对算法为止的数据的处理
: 有关。对于一组数据，如果你根本不知道他们的关系如何，甚至不知道每个数据是不是
: 都可靠，但是你必须对这些数据的相关关系下一个结论的话，你该怎么办？如果用计算

l*e2015-11-06 08:11

19 楼

Big data is like teenage sex:
everyone talks about it,
nobody really knows how to do it,
everyone thinks everyone else is doing it,
so everyone claims they are doing it...

x*o2015-11-06 08:11

20 楼

写这么长？简单的说，不就是abstraction不同么？

【在 s******y 的大作中提到】

:
: 这个真的不扯。大数据到底是什么，我想我可能比博导更清楚一点，虽然我自己不是亲
: 自做这个的，倒还是认识不少人做这个的。
: 其实因为现代的计算机速度极快，所以对于比较单纯算法的处理，比方说就是求个平均
: 值，算个方差，然后看哪个数据落在多少个sigma之外，就算数据量再大，现代的计算
: 机也能轻松处理。粒子物理这个学科，那么早期的计算机都能处理，难道现代的计算机
: 反而搞不了?这不开玩笑么？
: 但是为什么现在提出一个大数据的概念？其实这个要从计算机对算法为止的数据的处理
: 有关。对于一组数据，如果你根本不知道他们的关系如何，甚至不知道每个数据是不是
: 都可靠，但是你必须对这些数据的相关关系下一个结论的话，你该怎么办？如果用计算

s*y2015-11-06 08:11

21 楼

对头！

【在 r***e 的大作中提到】

: 大数据就是数据挖掘的马甲，机器学习就是统计的马甲

d*42015-11-06 08:11

22 楼

看不懂

s*y2015-11-06 08:11

23 楼

早期物理数据的处理虽然早有你说的那些个概念而且有一些相关的算法（这我不否认）
，但是复杂程度还是不能和今天的相比的。就象你也可以说中国古代就有用风筝和火箭
升空的尝试，但是要把那个和今天的航天技术比的话，还是不能相提并论的。
尤其是你要考虑到，那些个粒子物理的数据其实就是由那么几个探头阵列读出来的，所
以虽然数据量多，但是其实变量并不算得特别多。总数据量之所以多其实是为了提高测
量精度的，里面的分析方法用得最频繁的其实就是求平均值以及分析方差。

【在 r*g 的大作中提到】

: 那么早期的计算机都能处理,是因为物理实验数据早就用上了nosql, map reduce,
: parallel tasks.
: 而不是等到硅谷这些人几十年后重新发现，然后起个名字。不是说它早就有了，所以
: trivial.

s*y2015-11-06 08:11

24 楼

你要这么说也可以：）　但是说的太简略了我怕博导看不明白。

【在 x****o 的大作中提到】

: 写这么长？简单的说，不就是abstraction不同么？

n*r2015-11-06 08:11

25 楼

Big Data一般公认的定义是4个V，Volume, Velocity, Variety和Veracity
虽然这个定义是因为网络方面应用比较多提出来的，但是高能物理的数据没你说的那么
简单，硬要套也符合这几个框框
如果你对CS的内部方向有一定了解的话，应该会知道搞Big Data/Cloud的那帮子人不少
是有高性能/分布式计算背景的，而高性能计算主要的应用场合就是高能物理，天文，
气动等需要计算量巨大的场合
这两个方向有点像兄弟关系，解决的是相似架构下的不同侧重点的应用问题，而且在很
多问题上有交集
举个简单的例子，在google的map/reduce paper和Hadoop出来之前，采用类似map/
reduce模型的分布式计算系统在高能物理界已经有应用了

【在 s******y 的大作中提到】

: 博导啊，大数据和数据量的大小是两个完全不同的概念。
: 大数据一般而言是指有很多变量的，有复杂相关关系，而且有可能混入不可靠数据的系
: 统，尤其是指那些难于用常规分析方法在可承受的时间范围内进行捕捉、管理和处理的
: 数据集合。
: 常规上说的大数据，一般是指有关社会学，互联网数据，大规模用户数据，天文和大气
: 科学，基因组学，医疗记录和大规模的电子商务。
: 如果就那么几种数据探头，而且数据很干净能够用普通计算机以及普通分析方法进行处
: 理的，就算数据量再大，那也不叫大数据。
: 你说的粒子物理的那些数据，变量之间的关系没有你想像的那么复杂，而且大部分规律
: 都是已知的，未知的是少数，之所以测那么多数据是因为需要提高精确度的量级，

s*y2015-11-06 08:11

26 楼

大数据的算法当然不是从天而降的，而是早就有基础的。而且大数据算法和以前的高性
能计算肯定是有很大部分的重合性的。

【在 n******r 的大作中提到】

: Big Data一般公认的定义是4个V，Volume, Velocity, Variety和Veracity
: 虽然这个定义是因为网络方面应用比较多提出来的，但是高能物理的数据没你说的那么
: 简单，硬要套也符合这几个框框
: 如果你对CS的内部方向有一定了解的话，应该会知道搞Big Data/Cloud的那帮子人不少
: 是有高性能/分布式计算背景的，而高性能计算主要的应用场合就是高能物理，天文，
: 气动等需要计算量巨大的场合
: 这两个方向有点像兄弟关系，解决的是相似架构下的不同侧重点的应用问题，而且在很
: 多问题上有交集
: 举个简单的例子，在google的map/reduce paper和Hadoop出来之前，采用类似map/
: reduce模型的分布式计算系统在高能物理界已经有应用了

n*r2015-11-06 08:11

27 楼

你不如说说啥ML model是Big Data以后新创的吧
说到底就是针对数据量（分布式存储）或者形式（stream, graph）的改变做对应的修改
你那一大段换模型换参数的话完全不make sense，这不就是feature selection和
missing feature handling么，这些步骤包括评估模型调参数是每个ML project都要做
的事，training/validation/test就是个干这个的，被你说成了Big Data了啥都不用了？
另外big data下面算mean就不是big data了？当然是了。一个几千node的cluster你用
传统办法算个mean看看？hadoop tutorial的example 1 word count简单不简单？比
mean还简单。但是基于count的tf-idf和bm25其实很多搜索网站在用。

【在 s******y 的大作中提到】

: 大数据的算法当然不是从天而降的，而是早就有基础的。而且大数据算法和以前的高性
: 能计算肯定是有很大部分的重合性的。

r*g2015-11-06 08:11

28 楼

到这里就到底线了，你的判断是实验物理的数据处理和互联网大数据的区别是 "风筝
vs 今天的航天技术“。我觉得是苏联航天飞机 vs 今天的航天技术。

【在 s******y 的大作中提到】

: 早期物理数据的处理虽然早有你说的那些个概念而且有一些相关的算法（这我不否认）
: ，但是复杂程度还是不能和今天的相比的。就象你也可以说中国古代就有用风筝和火箭
: 升空的尝试，但是要把那个和今天的航天技术比的话，还是不能相提并论的。
: 尤其是你要考虑到，那些个粒子物理的数据其实就是由那么几个探头阵列读出来的，所
: 以虽然数据量多，但是其实变量并不算得特别多。总数据量之所以多其实是为了提高测
: 量精度的，里面的分析方法用得最频繁的其实就是求平均值以及分析方差。

n*r2015-11-06 08:11

29 楼

这个显然不对
数据挖掘是针对raw data整理出规律，而机器学习侧重点是模型和预测
前者的输出可以是后者的输入feature
Big Data是数据对象，说他是database的马甲还更像点

【在 s******y 的大作中提到】

: 对头！

d*f2015-11-06 08:11

30 楼

你们这些生物转行还是真心好好上你们那份不容易转来的班巴。大数据当然最重要的就
是大，只有大才会出现分布式存储计算传输的需求，这些玩艺都是hpc多少年前就玩剩
下的，hpc当年两大推动力就是粒子试验和天气预报，当然转行的根本不懂，以为整点
big data,ml的马甲就是前沿了

【在 c*****y 的大作中提到】

: 驳倒辛勤狗了一天的research成果啊。
: 原来驳倒觉得数据量大就是“大数据”了。machine learning一下没准还能挖出质子和
: 质子的爱情故事来。啧啧。

n*r2015-11-06 08:11

31 楼

既然如此你使劲贬低高能物理干嘛，这两就是同宗师兄弟关系

【在 s******y 的大作中提到】

: 大数据的算法当然不是从天而降的，而是早就有基础的。而且大数据算法和以前的高性
: 能计算肯定是有很大部分的重合性的。

s*y2015-11-06 08:11

32 楼

我好像没有说Big Data是新创的吧？
我只是在告诉博导说，并不是数据量大就一定是大数据。我想你对此应该也没有意见吧？
Big Data用的各种算法，绝大部分都是已经存在的，如果要说和以前的那些算法有什么
不同，最大的不同其实就是面对的对象。以前的那些物理数据当然也没有我说的那么简
单就是求个平均值（虽然那个算法几乎肯定是用的最多的，哈哈），但是如果和现代的
大数据项目所面对的对象来说，那个复杂度真的不是在同一个层次上的。尤其是你要考
虑到那些物理的数据很多都是可靠性很高的，但是你从医疗档案啦，online survey 啦
，信用卡历史啦等等方面来源的数据就会有很多是不可靠的，比方说在某台计算机上突
然有人查了一下棺材，你怎么知道那个家里是不是真的有人死了，还是其实是他看了笑
话版的一个什么帖子之后心血来潮去查了一下？要把这些因素考虑进去是一个很让人头
痛的事情，而这些事情是那些专门搞粒子物理处理的人不会遇到的。

修改
了？

【在 n******r 的大作中提到】

: 你不如说说啥ML model是Big Data以后新创的吧
: 说到底就是针对数据量（分布式存储）或者形式（stream, graph）的改变做对应的修改
: 你那一大段换模型换参数的话完全不make sense，这不就是feature selection和
: missing feature handling么，这些步骤包括评估模型调参数是每个ML project都要做
: 的事，training/validation/test就是个干这个的，被你说成了Big Data了啥都不用了？
: 另外big data下面算mean就不是big data了？当然是了。一个几千node的cluster你用
: 传统办法算个mean看看？hadoop tutorial的example 1 word count简单不简单？比
: mean还简单。但是基于count的tf-idf和bm25其实很多搜索网站在用。

r*e2015-11-06 08:11

33 楼

不是database，是data warehouse
大数据也不是新鲜东西，Teradata这家公司早就做TB级数据了

【在 n******r 的大作中提到】

: 这个显然不对
: 数据挖掘是针对raw data整理出规律，而机器学习侧重点是模型和预测
: 前者的输出可以是后者的输入feature
: Big Data是数据对象，说他是database的马甲还更像点

s*y2015-11-06 08:11

34 楼

我没有故意贬低高能物理啊。我就是看到博导振振有词的拿着粒子物理的数据量来说那
个就是大数据觉得好笑而已。

【在 n******r 的大作中提到】

: 既然如此你使劲贬低高能物理干嘛，这两就是同宗师兄弟关系

r*e2015-11-06 08:11

35 楼

现在大数据很多是炒web user generated data吧
其实10年前有一段时间web data mining就很火爆

【在 s******y 的大作中提到】

: 我没有故意贬低高能物理啊。我就是看到博导振振有词的拿着粒子物理的数据量来说那
: 个就是大数据觉得好笑而已。

n*r2015-11-06 08:11

36 楼

data warehouse不就是reporting database么，数据还是存在传统数据库里面
说到terabyte，他家做的是SQL数据库，而且名字没起好，现在常被人笑

【在 r***e 的大作中提到】

: 不是database，是data warehouse
: 大数据也不是新鲜东西，Teradata这家公司早就做TB级数据了

z*n2015-11-06 08:11

37 楼

这几年大数据流行最大的原因是技术门槛降低了，有hadoop这种利器，买一堆烂机器或
者用那些旧的本来就已经折旧光了的反正也没价值的机器连在一起，装个hadoop，稍微
上网google一下howto，大家就开始玩了
以前这东西就是想玩普通老百姓级别的小点的企业玩不起啊，没那硬件啊

【在 r***e 的大作中提到】

: 现在大数据很多是炒web user generated data吧
: 其实10年前有一段时间web data mining就很火爆

n*r2015-11-06 08:11

38 楼

老三又拍脑门了，老百姓或者小企业当然是无脑上托管，能搞得起private cloud都是
有钱公司

【在 z*********n 的大作中提到】

: 这几年大数据流行最大的原因是技术门槛降低了，有hadoop这种利器，买一堆烂机器或
: 者用那些旧的本来就已经折旧光了的反正也没价值的机器连在一起，装个hadoop，稍微
: 上网google一下howto，大家就开始玩了
: 以前这东西就是想玩普通老百姓级别的小点的企业玩不起啊，没那硬件啊

S*e2015-11-06 08:11

39 楼

然，还有云。。。

【在 r***e 的大作中提到】

: 大数据就是数据挖掘的马甲，机器学习就是统计的马甲

z*n2015-11-06 08:11

40 楼

相对啊，以前得超大公司才能玩起
现在一两百人得那种公司，说大不大说小当让比你说的只能托管这种企业大，这种企业
现在也能玩起了

【在 n******r 的大作中提到】

: 老三又拍脑门了，老百姓或者小企业当然是无脑上托管，能搞得起private cloud都是
: 有钱公司

z*n2015-11-06 08:11

41 楼

外加一堆opensource让你免费下载得tool，门槛真的是越来越低了
nosql, hadoop, elasticsearch，把这些名词堆砌到那，随便google google how to
，老百姓也能"big data"!
哈哈，当然到底有多big，亲眼所见，很多人玩得big data大到几个tb而已，哈哈哈

【在 z*********n 的大作中提到】

: 相对啊，以前得超大公司才能玩起
: 现在一两百人得那种公司，说大不大说小当让比你说的只能托管这种企业大，这种企业
: 现在也能玩起了

r*e2015-11-06 08:11

42 楼

传统DBMS要维护ACID，要保证query response time，主要负责OLTP
data warehouse一般不是提供实时的transaction service，主要为complex query服务
，支持OLAP
数据也不是一股脑导进去的，要经过ETL
teradata主要通过hash存储大数据，但是贵的要死
不像狗家mapreduce开源可以免费用，所以一下子就流行了
当然，搞物理/气象的超算估计很多都是自己搭的架构谁也不用

【在 n******r 的大作中提到】

: data warehouse不就是reporting database么，数据还是存在传统数据库里面
: 说到terabyte，他家做的是SQL数据库，而且名字没起好，现在常被人笑

z*n2015-11-06 08:11

43 楼

另，就算托管也是一个意思，以前没发明这些免费tool之前，你托管几个机器就能搞所
谓得"big data"了？
现在，用张信用卡，登陆amazon，开个账户，点几下，哗啦，开通了
amazon 自己也再用那些免费得tool给客户使用

【在 n******r 的大作中提到】

: 老三又拍脑门了，老百姓或者小企业当然是无脑上托管，能搞得起private cloud都是
: 有钱公司

n*r2015-11-06 08:11

44 楼

这个不就是production database和reporting database的区别吗
data warehouse不做reporting还干啥？

【在 r***e 的大作中提到】

: 传统DBMS要维护ACID，要保证query response time，主要负责OLTP
: data warehouse一般不是提供实时的transaction service，主要为complex query服务
: ，支持OLAP
: 数据也不是一股脑导进去的，要经过ETL
: teradata主要通过hash存储大数据，但是贵的要死
: 不像狗家mapreduce开源可以免费用，所以一下子就流行了
: 当然，搞物理/气象的超算估计很多都是自己搭的架构谁也不用

r*e2015-11-06 08:11

45 楼

big data简单粗暴
其实主要是统计的人在玩，把非结构化数据变成多维向量存储，用统计方法分析；不是
传统计算机的玩法
真正搞计算机的，面试考你写个complex query经常就好几十行，背后成堆的概念，没
几年功底根本就搞不定

【在 z*********n 的大作中提到】

: 另，就算托管也是一个意思，以前没发明这些免费tool之前，你托管几个机器就能搞所
: 谓得"big data"了？
: 现在，用张信用卡，登陆amazon，开个账户，点几下，哗啦，开通了
: amazon 自己也再用那些免费得tool给客户使用

r*e2015-11-06 08:11

46 楼

报表只是一小部分，而且是属于BI中数据展现那一部分
大概可以参考
http://www.zhihu.com/question/20623931
传统数据库厂商水太深，概念实在太多了,但是都是以结构化数据为主
现在big data算是颠覆了回到非结构化数据的路子

【在 n******r 的大作中提到】

: 这个不就是production database和reporting database的区别吗
: data warehouse不做reporting还干啥？

n*r2015-11-06 08:11

47 楼

AWS这种PaaS和自己搭cluster自己维护还是有本质的区别的
想你说的用一堆破烂自己搭有点夸张

【在 z*********n 的大作中提到】

: 另，就算托管也是一个意思，以前没发明这些免费tool之前，你托管几个机器就能搞所
: 谓得"big data"了？
: 现在，用张信用卡，登陆amazon，开个账户，点几下，哗啦，开通了
: amazon 自己也再用那些免费得tool给客户使用

z*n2015-11-06 08:11

48 楼

就是这个意思，这几年就着趋势啊，尤其是web领域，人家不在乎偶尔出错，不在乎一
个大云计算几个节点不可靠，重试呗
这种简单粗暴的蓝领大数据法对传统计算方法冲击还是不小的
我老还是第一线工人，亲眼看到的，呵呵
二者的成本也是不可同日而语
传统的数据库模式，真tmd贵啊，新模式，就是人贵，但是传统模式的那些造价，人也
不便宜
现在整个web行业的做法都是一堆烂硬件连起来一起玩就能干的思维

【在 r***e 的大作中提到】

: big data简单粗暴
: 其实主要是统计的人在玩，把非结构化数据变成多维向量存储，用统计方法分析；不是
: 传统计算机的玩法
: 真正搞计算机的，面试考你写个complex query经常就好几十行，背后成堆的概念，没
: 几年功底根本就搞不定

z*n2015-11-06 08:11

49 楼

不夸张啊，很多人就是这么晚的

【在 n******r 的大作中提到】

: AWS这种PaaS和自己搭cluster自己维护还是有本质的区别的
: 想你说的用一堆破烂自己搭有点夸张

z*n2015-11-06 08:11

50 楼

有点意思的就是本人亲眼看到某个烂牌子的大规模流行，心说google一下看看有没有股
价作为证据把，一搜，果然，此股最近几年翻了三倍，呵呵，这跟现在这种简单粗暴大
数据思维关联度非常高。
这个牌子就是supermicro
这牌子的server，著名的不可靠，便宜，一般企业的思维都是，如果有啥地方你不care
硬件，不care可靠性，就在乎价格，就上这个。
这几年由于带引号的简单粗暴大数据的流行，这种机器的需求量极度上升啊，到处看到
机房里一整个一整个cabinet的supermicro，上边装hadoop然后玩“大数据”

【在 z*********n 的大作中提到】

: 不夸张啊，很多人就是这么晚的

r*e2015-11-06 08:11

51 楼

这个有点差别
好像超市进销存连的是database，要绝对保证数据一致性和安全，响应速度什么的，不
然开不了门老板该fire人了
但是蹲小黑屋根据历史数据分析为啥尿布摆在啤酒附近能增加销量，这就是data
warehouse的作用

【在 n******r 的大作中提到】

: 这个不就是production database和reporting database的区别吗
: data warehouse不做reporting还干啥？

z*n2015-11-06 08:11

52 楼

另外，aws适合的是好多有idea希望立刻付诸实施的小企业，发明者，创新者，因为点
几下一个数据中心就出来了
还适合非常有钱的比如netflix这种公司的
很多公司干起来以后这种东西还是往physical机房转移的，因为啥，因为aws太贵了，
呵呵
初期其实相当便宜，因为一两个有idea的人不需要雇人不需要买机器一下子就可以实施了
干到中小型的时候，aws的账单真的很可怕的，这种时候企业也有点钱了，就开始自己
建自己的数据中心了，非常典型的发展潮流

【在 n******r 的大作中提到】

: AWS这种PaaS和自己搭cluster自己维护还是有本质的区别的
: 想你说的用一堆破烂自己搭有点夸张

z*n2015-11-06 08:11

53 楼

对，所以传统数据库在这些银行啦销售啦的是不可取代的
但是大数据这边，被免费的粗暴软件冲击很大

【在 r***e 的大作中提到】

: 这个有点差别
: 好像超市进销存连的是database，要绝对保证数据一致性和安全，响应速度什么的，不
: 然开不了门老板该fire人了
: 但是蹲小黑屋根据历史数据分析为啥尿布摆在啤酒附近能增加销量，这就是data
: warehouse的作用

n*r2015-11-06 08:11

54 楼

搞big data的显然不是统计的人，不管DB，分布式还是ML方向都是CS的人，你看那一系
列milestone paper的作者背景就知道了。统计的人主要是DS职位出来以后转行去做DS
，因为skill set相似。
我也不同意简单粗暴这一评语，只能说为了解决实际问题有所取舍，CAP theorem已经
证明了CAP三者不可兼得只能取二。
面试考几十行的query恐怕只有面database admin才有可能吧，一般职位即使DB方向也
不会这么考的

【在 r***e 的大作中提到】

: big data简单粗暴
: 其实主要是统计的人在玩，把非结构化数据变成多维向量存储，用统计方法分析；不是
: 传统计算机的玩法
: 真正搞计算机的，面试考你写个complex query经常就好几十行，背后成堆的概念，没
: 几年功底根本就搞不定

H*g2015-11-06 08:11

55 楼

cell 公开说想要大数据的paper，我就不知道他们究竟想要什么

【在 z*********n 的大作中提到】

: 不过这几年大数据也罢好多网站的新技术也罢，都有一个很大的特点，不太在乎确定性
: 和准确性
: 都是best effort，关键要赶紧出结果，快，万一出个错，大不了user界面弹出个窗口
: ，点一下重试不就完了
: 所谓用大数据推荐的广告也尽是已经买了的东西，还要追踪你一万年
: 就是这些不需要100%精确，让好多open source不是很可靠的tool大行其道，让好多所
: 谓大数据类型的计算门槛严重降低，呵呵

z*n2015-11-06 08:11

56 楼

以前单位开始用netezza，庞然大物，初始价格几个mil，support cost贵得吓人，除了
问题还得跟那些屁也不懂得support打交道，还得雇佣会netezza得“专业人士”来玩，
后来跟随潮流转向hadoop，那个成本降低得啊，呵呵
且，现在玩大数据得人很多都不是啥专业人士，就是一些比较聪明得愿意创新的一些人
传统模式非常守旧，庞然大物
新模式名词咋说的来这，agile? nimble?

【在 r***e 的大作中提到】

: 这个有点差别
: 好像超市进销存连的是database，要绝对保证数据一致性和安全，响应速度什么的，不
: 然开不了门老板该fire人了
: 但是蹲小黑屋根据历史数据分析为啥尿布摆在啤酒附近能增加销量，这就是data
: warehouse的作用

r*e2015-11-06 08:11

57 楼

CS就是个大框，生统很多还在CS系呢, 语音识别还是通过统计方法解决的呢

DS

【在 n******r 的大作中提到】

: 搞big data的显然不是统计的人，不管DB，分布式还是ML方向都是CS的人，你看那一系
: 列milestone paper的作者背景就知道了。统计的人主要是DS职位出来以后转行去做DS
: ，因为skill set相似。
: 我也不同意简单粗暴这一评语，只能说为了解决实际问题有所取舍，CAP theorem已经
: 证明了CAP三者不可兼得只能取二。
: 面试考几十行的query恐怕只有面database admin才有可能吧，一般职位即使DB方向也
: 不会这么考的

s*y2015-11-06 08:11

58 楼

这个比喻有意思。哈哈。

【在 r***e 的大作中提到】

: 这个有点差别
: 好像超市进销存连的是database，要绝对保证数据一致性和安全，响应速度什么的，不
: 然开不了门老板该fire人了
: 但是蹲小黑屋根据历史数据分析为啥尿布摆在啤酒附近能增加销量，这就是data
: warehouse的作用

n*r2015-11-06 08:11

59 楼

reporting不只是报表，起码和工业界客户打交道时用reporting代指data warehouse是
很经常的事，wiki上面data warehouse的定义原话就是a system for reporting and
data analysis。

【在 r***e 的大作中提到】

: 报表只是一小部分，而且是属于BI中数据展现那一部分
: 大概可以参考
: http://www.zhihu.com/question/20623931
: 传统数据库厂商水太深，概念实在太多了,但是都是以结构化数据为主
: 现在big data算是颠覆了回到非结构化数据的路子

r*e2015-11-06 08:11

60 楼

但是，只有俺们BI的人可以自嘲为做报表的，别人这么称呼是会很生气的：-）
基本上村里搞BI的都跟传销差不多，新概念一坨一坨的，生怕自己被客户看成做报表的
。。。。

【在 n******r 的大作中提到】

: reporting不只是报表，起码和工业界客户打交道时用reporting代指data warehouse是
: 很经常的事，wiki上面data warehouse的定义原话就是a system for reporting and
: data analysis。

n*r2015-11-06 08:11

61 楼

你说一个人是什么领域的人当然主要看以他在什么地方工作，拿的什么专业学位，在哪
发的paper为准
如果用过统计方法的人都成了统计的人那我估计一大半工业界的人都成统计的人了
就你的例子，李开复做的就是统计方法的语音识别，他自称统计学者么

【在 r***e 的大作中提到】

: CS就是个大框，生统很多还在CS系呢, 语音识别还是通过统计方法解决的呢
:
: DS

z*n2015-11-06 08:11

62 楼

你老那这个级别的人当例子，普通人发表个屁的论文啊，呵呵，普通中小网站老板管你
拿的啥学位，把我的网站弄好第一

【在 n******r 的大作中提到】

: 你说一个人是什么领域的人当然主要看以他在什么地方工作，拿的什么专业学位，在哪
: 发的paper为准
: 如果用过统计方法的人都成了统计的人那我估计一大半工业界的人都成统计的人了
: 就你的例子，李开复做的就是统计方法的语音识别，他自称统计学者么

r*e2015-11-06 08:11

63 楼

这个问题确实困扰了很久，现在交叉学科太多了
后来大概觉得是这样的，数学和统计都是方法
对于偏应用的人来说，如果ta的目的是解决data 如何存储分析利用的方法论，那他就
是CS的人；即使分析的是RNA测序数据
但如果这位同学是利用一些已有的生统方法/工具去分析生物数据，目的是找出背后隐
藏的生物信息，即使他扣了很多锭，应该还是个生物学家

【在 n******r 的大作中提到】

: 你说一个人是什么领域的人当然主要看以他在什么地方工作，拿的什么专业学位，在哪
: 发的paper为准
: 如果用过统计方法的人都成了统计的人那我估计一大半工业界的人都成统计的人了
: 就你的例子，李开复做的就是统计方法的语音识别，他自称统计学者么

l*y2015-11-06 08:11

64 楼

赞一下。这个靠谱。
另外，统计和机器学习是两组互相不鸟的人啦。

【在 n******r 的大作中提到】

: Big Data一般公认的定义是4个V，Volume, Velocity, Variety和Veracity
: 虽然这个定义是因为网络方面应用比较多提出来的，但是高能物理的数据没你说的那么
: 简单，硬要套也符合这几个框框
: 如果你对CS的内部方向有一定了解的话，应该会知道搞Big Data/Cloud的那帮子人不少
: 是有高性能/分布式计算背景的，而高性能计算主要的应用场合就是高能物理，天文，
: 气动等需要计算量巨大的场合
: 这两个方向有点像兄弟关系，解决的是相似架构下的不同侧重点的应用问题，而且在很
: 多问题上有交集
: 举个简单的例子，在google的map/reduce paper和Hadoop出来之前，采用类似map/
: reduce模型的分布式计算系统在高能物理界已经有应用了

l*y2015-11-06 08:11

65 楼

赞。大家的背景一目了然啊

【在 r***e 的大作中提到】

: 传统DBMS要维护ACID，要保证query response time，主要负责OLTP
: data warehouse一般不是提供实时的transaction service，主要为complex query服务
: ，支持OLAP
: 数据也不是一股脑导进去的，要经过ETL
: teradata主要通过hash存储大数据，但是贵的要死
: 不像狗家mapreduce开源可以免费用，所以一下子就流行了
: 当然，搞物理/气象的超算估计很多都是自己搭的架构谁也不用

l*y2015-11-06 08:11

66 楼

哈哈，看到尿布和啤酒的例子，好亲切

【在 r***e 的大作中提到】

: 这个有点差别
: 好像超市进销存连的是database，要绝对保证数据一致性和安全，响应速度什么的，不
: 然开不了门老板该fire人了
: 但是蹲小黑屋根据历史数据分析为啥尿布摆在啤酒附近能增加销量，这就是data
: warehouse的作用

g*q2015-11-06 08:11

67 楼

LHC取数没几年时间。
之前最大的数据库是babar，96年开始采集，02年的时候达到500TB。

【在 h*******a 的大作中提到】

: 几十年前这么多数据存哪里？

M*P2015-11-06 08:11

68 楼

高能物理到底存什么大数据？生物数据raw data 也不小，y一个测序反应下来，少说
10Tb 的原始图像。但是转换成序列数据，也就20多G。一般人都不会去碰原始数据。换
成序列就扔了。

【在 d********f 的大作中提到】

: lhc的数据量
: https://www.atkearney.com/documents/10192/698538/Science+of+Big+Data.pdf/
: 7b1c91df-e56c-4c86-ba70-4d5a1fbb0fc5
: 一年25pb,虽然只有google一天的量，但是高能试验大概在几十年前就开始接触这么大
: 的数据量，你们生物转行肯定是没概念了

i*k2015-11-06 08:11

69 楼

数死早？再算算？

【在 c******n 的大作中提到】

: 算了下每天70g不到
: 按照当时的技术差不多30盘磁带一天
: 貌似还是可以接受的

k*d2015-11-06 08:11

70 楼

这个鱼教授根本不是为了寻求事实而讨论，是出于其他的目的的。鱼教授的通常似实而
非的胡诌一顿，然后你指出他的问题他就移向另一个角度和学科，总有你不了解的就没
办法反驳他了。比如说这个大气物理，我碰巧有一些经验，很难讲大气物理数据分析比
高能物理复杂。首先大气物理的物理规律是经典物理，高能物理目前是量子场论，这中
间相差了一个世纪，量子场论显然要复杂得多。大气物理要分析整个地球气候，精确度
大概算一米吧。高能物理的最新探测头大概几层楼高，要分析的现象是普朗克量级的，
而且量子现象本质是一个几率现象。十年前费米实验室发现的顶夸克产生之后接近光速
只是运行了10的-12次方米就湮没了。要从浩瀚的数据中抓住这样的现象谈何容易。

f*d2015-11-06 08:11

71 楼

其实搞学术的，最忌讳的就是对非自己研究的领域有过渡的自信，有时候即使是同专业
不同的研究方向。
其实胡适或者另外一个民国大师（记不清也没打算去查）说的一句话还是很适用：当你
觉得自己无所不知的时候，可以被授予学士学位；当你觉得自己只是略有所知的时候，
可以被授予硕士学位；当觉得自己其实并不知道多少东西的时候，就可以授予博士学位。
问题是人的共病，包括许多搞学术的，对于自己只知道一点点的东西，即使是只是觉得
自己比别人多知道一点点，不管这是不是事实，就会飘飘然起来。
当然，如果不是探讨一下，也不会知道对方是不是个鲁达。网络上口无遮拦的成本太低

i*h2015-11-06 08:11

72 楼

我认为这个不是大数据，
大数据是互联网经济的概念
用简单的数据量来混淆视听就是为了抬杠而抬杠

【在 k*******d 的大作中提到】

: 这个鱼教授根本不是为了寻求事实而讨论，是出于其他的目的的。鱼教授的通常似实而
: 非的胡诌一顿，然后你指出他的问题他就移向另一个角度和学科，总有你不了解的就没
: 办法反驳他了。比如说这个大气物理，我碰巧有一些经验，很难讲大气物理数据分析比
: 高能物理复杂。首先大气物理的物理规律是经典物理，高能物理目前是量子场论，这中
: 间相差了一个世纪，量子场论显然要复杂得多。大气物理要分析整个地球气候，精确度
: 大概算一米吧。高能物理的最新探测头大概几层楼高，要分析的现象是普朗克量级的，
: 而且量子现象本质是一个几率现象。十年前费米实验室发现的顶夸克产生之后接近光速
: 只是运行了10的-12次方米就湮没了。要从浩瀚的数据中抓住这样的现象谈何容易。

a*e2015-11-06 08:11

73 楼

可是人要求精度高，难度也是不一般的
变量的数量弄不好比现在典型的人健康报告数量还多，那么几个探头？
现在这些个大数据，上来一水的线性模型
尼玛搞个非线性的东西全体都挂了

【在 s******y 的大作中提到】

: 早期物理数据的处理虽然早有你说的那些个概念而且有一些相关的算法（这我不否认）
: ，但是复杂程度还是不能和今天的相比的。就象你也可以说中国古代就有用风筝和火箭
: 升空的尝试，但是要把那个和今天的航天技术比的话，还是不能相提并论的。
: 尤其是你要考虑到，那些个粒子物理的数据其实就是由那么几个探头阵列读出来的，所
: 以虽然数据量多，但是其实变量并不算得特别多。总数据量之所以多其实是为了提高测
: 量精度的，里面的分析方法用得最频繁的其实就是求平均值以及分析方差。

a*e2015-11-06 08:11

74 楼

你显然忘了那个中微子比光快的故事了

吧？

【在 s******y 的大作中提到】

: 我好像没有说Big Data是新创的吧？
: 我只是在告诉博导说，并不是数据量大就一定是大数据。我想你对此应该也没有意见吧？
: Big Data用的各种算法，绝大部分都是已经存在的，如果要说和以前的那些算法有什么
: 不同，最大的不同其实就是面对的对象。以前的那些物理数据当然也没有我说的那么简
: 单就是求个平均值（虽然那个算法几乎肯定是用的最多的，哈哈），但是如果和现代的
: 大数据项目所面对的对象来说，那个复杂度真的不是在同一个层次上的。尤其是你要考
: 虑到那些物理的数据很多都是可靠性很高的，但是你从医疗档案啦，online survey 啦
: ，信用卡历史啦等等方面来源的数据就会有很多是不可靠的，比方说在某台计算机上突
: 然有人查了一下棺材，你怎么知道那个家里是不是真的有人死了，还是其实是他看了笑
: 话版的一个什么帖子之后心血来潮去查了一下？要把这些因素考虑进去是一个很让人头

v*s2015-11-06 08:11

75 楼

博导你这个lhc的数据量比大cgg都还差的远啊。

【在 d********f 的大作中提到】

: lhc的数据量
: https://www.atkearney.com/documents/10192/698538/Science+of+Big+Data.pdf/
: 7b1c91df-e56c-4c86-ba70-4d5a1fbb0fc5
: 一年25pb,虽然只有google一天的量，但是高能试验大概在几十年前就开始接触这么大
: 的数据量，你们生物转行肯定是没概念了

n*t2015-11-06 08:11

76 楼

一直不懂 hash 为什么要 8-4-4-4-12 这样切分

【在 d********f 的大作中提到】

: lhc的数据量
: https://www.atkearney.com/documents/10192/698538/Science+of+Big+Data.pdf/
: 7b1c91df-e56c-4c86-ba70-4d5a1fbb0fc5
: 一年25pb,虽然只有google一天的量，但是高能试验大概在几十年前就开始接触这么大
: 的数据量，你们生物转行肯定是没概念了