Redian新闻
>
聊点正事:大数据。
avatar
聊点正事:大数据。# Faculty - 发考题
o*9
1
刚刚有帖子提到大数据,我开新帖来专门请教。
我3-4年以前就看见NSF的Big Data Call-for-Proposal.我当时认为Big Data是对大的
数据集做数据采掘。本人不是Data Mining出身,也没有机会接触到大的数据集。我从
那时一直到现在都认为对Big Data无从下口。本人看到对Big Data提到的越来越多,越
做越滥,而且,本人被教训过多次“为什么不做Big Data?” 好像随便什么人稍做一
些入门培训,上几门课,就可以上手去做大数据。
本人尽管不是Data Mining/Machine Learning出身,但对DM/ML也不陌生。我怎么就觉
得接不上Big Data的地气呢。我指的地气包括:1)suitable big data application;
2) access to big data set; 3) methods of accessing, maintaining, and mining
the data set. 我觉得缺少以上的任何一个环节,Big Data就根本无从谈起。请DM/ML
专家指正。
avatar
B*G
2
这个可能too old了,还是转下:
Big data is like teenage sex: everyone talks about it, nobody really knows
how to do it, everyone thinks everyone else is doing it, so everyone claims
they are doing it

;
mining
ML

【在 o****9 的大作中提到】
: 刚刚有帖子提到大数据,我开新帖来专门请教。
: 我3-4年以前就看见NSF的Big Data Call-for-Proposal.我当时认为Big Data是对大的
: 数据集做数据采掘。本人不是Data Mining出身,也没有机会接触到大的数据集。我从
: 那时一直到现在都认为对Big Data无从下口。本人看到对Big Data提到的越来越多,越
: 做越滥,而且,本人被教训过多次“为什么不做Big Data?” 好像随便什么人稍做一
: 些入门培训,上几门课,就可以上手去做大数据。
: 本人尽管不是Data Mining/Machine Learning出身,但对DM/ML也不陌生。我怎么就觉
: 得接不上Big Data的地气呢。我指的地气包括:1)suitable big data application;
: 2) access to big data set; 3) methods of accessing, maintaining, and mining
: the data set. 我觉得缺少以上的任何一个环节,Big Data就根本无从谈起。请DM/ML

avatar
w*g
3
我industry的,接触过若干大数据应用。一个普遍现象是原始数据很大,但是预处理后
剩下需要做mining的数据会有若干个数量级的减小。现在很多工业界所谓的大数据处理
,其实是系统设计不合理,先人为产生大量垃圾,然后再进行挖掘。

;
mining
ML

【在 o****9 的大作中提到】
: 刚刚有帖子提到大数据,我开新帖来专门请教。
: 我3-4年以前就看见NSF的Big Data Call-for-Proposal.我当时认为Big Data是对大的
: 数据集做数据采掘。本人不是Data Mining出身,也没有机会接触到大的数据集。我从
: 那时一直到现在都认为对Big Data无从下口。本人看到对Big Data提到的越来越多,越
: 做越滥,而且,本人被教训过多次“为什么不做Big Data?” 好像随便什么人稍做一
: 些入门培训,上几门课,就可以上手去做大数据。
: 本人尽管不是Data Mining/Machine Learning出身,但对DM/ML也不陌生。我怎么就觉
: 得接不上Big Data的地气呢。我指的地气包括:1)suitable big data application;
: 2) access to big data set; 3) methods of accessing, maintaining, and mining
: the data set. 我觉得缺少以上的任何一个环节,Big Data就根本无从谈起。请DM/ML

avatar
o*9
4
是啊,你这样说我就完全理解了。但你所说的根本不是大数据。
我还听过NSF的Webinar, NSF的PM讲解什么样的project可以看作是大数据。其中被反
复强调就是,大数据project是来探索新的方法和系统来解决常规方法所不能解决问题
。一个例子是,从制药公司的海量试验数据中来找到先前未知的关联。
在不同的funding agency的眼中,大数据的定义有很大区别。

【在 w***g 的大作中提到】
: 我industry的,接触过若干大数据应用。一个普遍现象是原始数据很大,但是预处理后
: 剩下需要做mining的数据会有若干个数量级的减小。现在很多工业界所谓的大数据处理
: ,其实是系统设计不合理,先人为产生大量垃圾,然后再进行挖掘。
:
: ;
: mining
: ML

avatar
M*P
5
Why Big Data Could Be a Big Fail
Spectrum: If we could turn now to the subject of big data, a theme that runs
through your remarks is that there is a certain fool’s gold element to our
current obsession with it. For example, you’ve predicted that society is
about to experience an epidemic of false positives coming out of big-data
projects.
Michael Jordan: When you have large amounts of data, your appetite for
hypotheses tends to get even larger. And if it’s growing faster than the
statistical strength of the data, then many of your inferences are likely to
be false. They are likely to be white noise.
Spectrum: How so?
Michael Jordan: In a classical database, you have maybe a few thousand
people in them. You can think of those as the rows of the database. And the
columns would be the features of those people: their age, height, weight,
income, et cetera.
Now, the number of combinations of these columns grows exponentially with
the number of columns. So if you have many, many columns—and we do in
modern databases—you’ll get up into millions and millions of attributes
for each person.
Now, if I start allowing myself to look at all of the combinations of these
features—if you live in Beijing, and you ride bike to work, and you work in
a certain job, and are a certain age—what’s the probability you will have
a certain disease or you will like my advertisement? Now I’m getting
combinations of millions of attributes, and the number of such combinations
is exponential; it gets to be the size of the number of atoms in the
universe.
Those are the hypotheses that I’m willing to consider. And for any
particular database, I will find some combination of columns that will
predict perfectly any outcome, just by chance alone. If I just look at all
the people who have a heart attack and compare them to all the people that
don’t have a heart attack, and I’m looking for combinations of the columns
that predict heart attacks, I will find all kinds of spurious combinations
of columns, because there are huge numbers of them.
So it’s like having billions of monkeys typing. One of them will write
Shakespeare.
Spectrum:Do you think this aspect of big data is currently underappreciated?
Michael Jordan: Definitely.
Spectrum: What are some of the things that people are promising for big data
that you don’t think they will be able to deliver?
Michael Jordan: I think data analysis can deliver inferences at certain
levels of quality. But we have to be clear about what levels of quality. We
have to have error bars around all our predictions. That is something that’
s missing in much of the current machine learning literature.
Spectrum: What will happen if people working with data don’t heed your
advice?
Michael Jordan: I like to use the analogy of building bridges. If I have no
principles, and I build thousands of bridges without any actual science,
lots of them will fall down, and great disasters will occur.
Similarly here, if people use data and inferences they can make with the
data without any concern about error bars, about heterogeneity, about noisy
data, about the sampling pattern, about all the kinds of things that you
have to be serious about if you’re an engineer and a statistician—then you
will make lots of predictions, and there’s a good chance that you will
occasionally solve some real interesting problems. But you will occasionally
have some disastrously bad decisions. And you won’t know the difference a
priori. You will just produce these outputs and hope for the best.
And so that’s where we are currently. A lot of people are building things
hoping that they work, and sometimes they will. And in some sense, there’s
nothing wrong with that; it’s exploratory. But society as a whole can’t
tolerate that; we can’t just hope that these things work. Eventually, we
have to give real guarantees. Civil engineers eventually learned to build
bridges that were guaranteed to stand up. So with big data, it will take
decades, I suspect, to get a real engineering approach, so that you can say
with some assurance that you are giving out reasonable answers and are
quantifying the likelihood of errors.
Spectrum: Do we currently have the tools to provide those error bars?
Michael Jordan: We are just getting this engineering science assembled. We
have many ideas that come from hundreds of years of statistics and computer
science. And we’re working on putting them together, making them scalable.
A lot of the ideas for controlling what are called familywise errors, where
I have many hypotheses and want to know my error rate, have emerged over the
last 30 years. But many of them haven’t been studied computationally. It’
s hard mathematics and engineering to work all this out, and it will take
time.
It’s not a year or two. It will take decades to get right. We are still
learning how to do big data well.
Spectrum: When you read about big data and health care, every third story
seems to be about all the amazing clinical insights we’ll get almost
automatically, merely by collecting data from everyone, especially in the
cloud.
Michael Jordan: You can’t be completely a skeptic or completely an optimist
about this. It is somewhere in the middle. But if you list all the
hypotheses that come out of some analysis of data, some fraction of them
will be useful. You just won’t know which fraction. So if you just grab a
few of them—say, if you eat oat bran you won’t have stomach cancer or
something, because the data seem to suggest that—there’s some chance you
will get lucky. The data will provide some support.
But unless you’re actually doing the full-scale engineering statistical
analysis to provide some error bars and quantify the errors, it’s gambling.
It’s better than just gambling without data. That’s pure roulette. This
is kind of partial roulette.
Spectrum: What adverse consequences might await the big-data field if we
remain on the trajectory you’re describing?
Michael Jordan: The main one will be a “big-data winter.” After a bubble,
when people invested and a lot of companies overpromised without providing
serious analysis, it will bust. And soon, in a two- to five-year span,
people will say, “The whole big-data thing came and went. It died. It was
wrong.” I am predicting that. It’s what happens in these cycles when there
is too much hype, i.e., assertions not based on an understanding of what
the real problems are or on an understanding that solving the problems will
take decades, that we will make steady progress but that we haven’t had a
major leap in technical progress. And then there will be a period during
which it will be very hard to get resources to do data analysis. The field
will continue to go forward, because it’s real, and it’s needed. But the
backlash will hurt a large number of important projects.

;
mining
ML

【在 o****9 的大作中提到】
: 刚刚有帖子提到大数据,我开新帖来专门请教。
: 我3-4年以前就看见NSF的Big Data Call-for-Proposal.我当时认为Big Data是对大的
: 数据集做数据采掘。本人不是Data Mining出身,也没有机会接触到大的数据集。我从
: 那时一直到现在都认为对Big Data无从下口。本人看到对Big Data提到的越来越多,越
: 做越滥,而且,本人被教训过多次“为什么不做Big Data?” 好像随便什么人稍做一
: 些入门培训,上几门课,就可以上手去做大数据。
: 本人尽管不是Data Mining/Machine Learning出身,但对DM/ML也不陌生。我怎么就觉
: 得接不上Big Data的地气呢。我指的地气包括:1)suitable big data application;
: 2) access to big data set; 3) methods of accessing, maintaining, and mining
: the data set. 我觉得缺少以上的任何一个环节,Big Data就根本无从谈起。请DM/ML

avatar
w*g
6
那你倒说说,CS哪个方向不是探索新的方法和系统来解决常规方法所不能解决问题?
所有的系统都在折腾数据,剩下的其实就一个字“大”。什么叫大?我自己有一个
最低标准。如果某组做的数据连一块3T的硬盘都装不满而号称自己在做大数据的,我就
会很鄙视他们。

【在 o****9 的大作中提到】
: 是啊,你这样说我就完全理解了。但你所说的根本不是大数据。
: 我还听过NSF的Webinar, NSF的PM讲解什么样的project可以看作是大数据。其中被反
: 复强调就是,大数据project是来探索新的方法和系统来解决常规方法所不能解决问题
: 。一个例子是,从制药公司的海量试验数据中来找到先前未知的关联。
: 在不同的funding agency的眼中,大数据的定义有很大区别。

avatar
o*9
7
也不完全是你说的这样。大的数据量只是一个方面。有时,数据量未必非常大,但数据
间的关联很大,而且,这些关联可能是事先未知的,或难以描述的。

【在 w***g 的大作中提到】
: 那你倒说说,CS哪个方向不是探索新的方法和系统来解决常规方法所不能解决问题?
: 所有的系统都在折腾数据,剩下的其实就一个字“大”。什么叫大?我自己有一个
: 最低标准。如果某组做的数据连一块3T的硬盘都装不满而号称自己在做大数据的,我就
: 会很鄙视他们。

avatar
w*g
8
你说的这个标准适合一切涉及到数据的科研。
照你这么说,当年开普勒研究行星运行数据也是大数据了。
上面BGBG说的对,大数据只是大家用来分funding的一个concept而已,当不得真的。
我们真正做事的,并不需要吹大数据小数据。都是拼的产品。

【在 o****9 的大作中提到】
: 也不完全是你说的这样。大的数据量只是一个方面。有时,数据量未必非常大,但数据
: 间的关联很大,而且,这些关联可能是事先未知的,或难以描述的。

avatar
o*9
9
这正是我的疑惑所在。
我一直觉得大数据是很高大上的课题,要用到很多人工智能,应用数学,和数理统计的
知识,也需要用到系统方面的支持来应对数据的读写和计算。可是,在很多人的口中,
大数据和IT boom时代的普通编程没什么区别。

【在 w***g 的大作中提到】
: 你说的这个标准适合一切涉及到数据的科研。
: 照你这么说,当年开普勒研究行星运行数据也是大数据了。
: 上面BGBG说的对,大数据只是大家用来分funding的一个concept而已,当不得真的。
: 我们真正做事的,并不需要吹大数据小数据。都是拼的产品。

avatar
N*K
10
NIH的big data
Biomedical Big Data is more than just very large data or a large number of
data sources. Big Data refers to the complexity, challenges, and new
opportunities presented by the combined analysis of data. In biomedical
research, these data sources include the diverse, complex, disorganized,
massive, and multimodal data being generated by researchers, hospitals, and
mobile devices around the world.
http://grants.nih.gov/grants/guide/pa-files/PA-14-155.html
https://datascience.nih.gov/sites/default/files/bd2k/docs/computational.pdf
没找到具体标准 到底怎么精确定义big

;
mining
ML

【在 o****9 的大作中提到】
: 刚刚有帖子提到大数据,我开新帖来专门请教。
: 我3-4年以前就看见NSF的Big Data Call-for-Proposal.我当时认为Big Data是对大的
: 数据集做数据采掘。本人不是Data Mining出身,也没有机会接触到大的数据集。我从
: 那时一直到现在都认为对Big Data无从下口。本人看到对Big Data提到的越来越多,越
: 做越滥,而且,本人被教训过多次“为什么不做Big Data?” 好像随便什么人稍做一
: 些入门培训,上几门课,就可以上手去做大数据。
: 本人尽管不是Data Mining/Machine Learning出身,但对DM/ML也不陌生。我怎么就觉
: 得接不上Big Data的地气呢。我指的地气包括:1)suitable big data application;
: 2) access to big data set; 3) methods of accessing, maintaining, and mining
: the data set. 我觉得缺少以上的任何一个环节,Big Data就根本无从谈起。请DM/ML

avatar
m*a
11
对,关联性才是大数据有意思的地方。所以现在各个IT公司都在想办法挖掘各个数据之
间的关联,比如要你关联twitter facebook账号,关联手机账号什么的
只是大并没有什么用。比如你去弄一个网站的点击记录,根据你记录时间的多少,文件
可以很大,但是其实没有多少用,至少搞不出paper

【在 o****9 的大作中提到】
: 也不完全是你说的这样。大的数据量只是一个方面。有时,数据量未必非常大,但数据
: 间的关联很大,而且,这些关联可能是事先未知的,或难以描述的。

avatar
z*l
12
这位老师,我不懂但是我尝试讨论一下: 1和3都是academia需要去解决的问题; 2是本
质困难, 真正实际采集的大数据不是general academia随便能获取的,有幸有access的
人的确获得了先机,但是大部人被先机冲昏了头脑因而系统解决1和3的机会渺茫。
大数据本来定义就是很模糊,能定义清楚就解决了一半的问题了。这样也是机遇,任何
人都能掺和一把,至少proposal里可以这样
avatar
e*e
13
Bid data=in is much faster than out

;
mining
ML

【在 o****9 的大作中提到】
: 刚刚有帖子提到大数据,我开新帖来专门请教。
: 我3-4年以前就看见NSF的Big Data Call-for-Proposal.我当时认为Big Data是对大的
: 数据集做数据采掘。本人不是Data Mining出身,也没有机会接触到大的数据集。我从
: 那时一直到现在都认为对Big Data无从下口。本人看到对Big Data提到的越来越多,越
: 做越滥,而且,本人被教训过多次“为什么不做Big Data?” 好像随便什么人稍做一
: 些入门培训,上几门课,就可以上手去做大数据。
: 本人尽管不是Data Mining/Machine Learning出身,但对DM/ML也不陌生。我怎么就觉
: 得接不上Big Data的地气呢。我指的地气包括:1)suitable big data application;
: 2) access to big data set; 3) methods of accessing, maintaining, and mining
: the data set. 我觉得缺少以上的任何一个环节,Big Data就根本无从谈起。请DM/ML

avatar
X*r
14
两码事
都是相对的
大数据研究不一定非要量大

【在 w***g 的大作中提到】
: 那你倒说说,CS哪个方向不是探索新的方法和系统来解决常规方法所不能解决问题?
: 所有的系统都在折腾数据,剩下的其实就一个字“大”。什么叫大?我自己有一个
: 最低标准。如果某组做的数据连一块3T的硬盘都装不满而号称自己在做大数据的,我就
: 会很鄙视他们。

avatar
w*g
15
好吧,我有点理解了。里有大一统大复仇。敢不成大数据的大还是从春秋里来的。
不过我还是觉得大数据的大更像大忽悠的大。

【在 X*****r 的大作中提到】
: 两码事
: 都是相对的
: 大数据研究不一定非要量大

avatar
z*e
16
还有数据的整理本身也是一个很大的topic
英语等西方文字还好办
words之间有空格,但是如果是东方文字
尤其是中文,韩语,那怎么断词都是一个大问题
日语介于两者之间
数据来源混乱,没有结构,如何整理是一个难点
其次整理之后,如何找出关联,是另外一个难点
data mining仅仅是后者有点overlap,跟前者没有任何交集

【在 o****9 的大作中提到】
: 也不完全是你说的这样。大的数据量只是一个方面。有时,数据量未必非常大,但数据
: 间的关联很大,而且,这些关联可能是事先未知的,或难以描述的。

avatar
o*9
17
是啊,我忘记提起NLP (Natural Language Processing)了。倒是有人向我提起过从文
献或出版物中来自动找出相关信息。关键字搜索或syntax搜索很多时候不行,只有
sematics搜索才行。可是,对我来说,转型去做NLP有些跨度太大。

【在 z****e 的大作中提到】
: 还有数据的整理本身也是一个很大的topic
: 英语等西方文字还好办
: words之间有空格,但是如果是东方文字
: 尤其是中文,韩语,那怎么断词都是一个大问题
: 日语介于两者之间
: 数据来源混乱,没有结构,如何整理是一个难点
: 其次整理之后,如何找出关联,是另外一个难点
: data mining仅仅是后者有点overlap,跟前者没有任何交集

avatar
z*e
18
对啊,semantic space就是用线性代数整理后的产物
你可以学习其方法论
无非一两门课的问题
我当时学得痛不欲生
是很难,基本上都是高等数学
但是也过来了,那门课淘汰掉不少人
中国人还好,互相帮忙,所以最后得分都还不错
白人就悲剧了,如果数学好的话,其实也没啥难的
过去听课,做点作业,其实都是数学系本科学过的东西

【在 o****9 的大作中提到】
: 是啊,我忘记提起NLP (Natural Language Processing)了。倒是有人向我提起过从文
: 献或出版物中来自动找出相关信息。关键字搜索或syntax搜索很多时候不行,只有
: sematics搜索才行。可是,对我来说,转型去做NLP有些跨度太大。

avatar
l*r
19
大数据跟以往的热点不同 是靠硬件说话的领域 硬件不过关的搞不了 没有leadership
的更是很快就淘汰了

;
mining
ML

【在 o****9 的大作中提到】
: 刚刚有帖子提到大数据,我开新帖来专门请教。
: 我3-4年以前就看见NSF的Big Data Call-for-Proposal.我当时认为Big Data是对大的
: 数据集做数据采掘。本人不是Data Mining出身,也没有机会接触到大的数据集。我从
: 那时一直到现在都认为对Big Data无从下口。本人看到对Big Data提到的越来越多,越
: 做越滥,而且,本人被教训过多次“为什么不做Big Data?” 好像随便什么人稍做一
: 些入门培训,上几门课,就可以上手去做大数据。
: 本人尽管不是Data Mining/Machine Learning出身,但对DM/ML也不陌生。我怎么就觉
: 得接不上Big Data的地气呢。我指的地气包括:1)suitable big data application;
: 2) access to big data set; 3) methods of accessing, maintaining, and mining
: the data set. 我觉得缺少以上的任何一个环节,Big Data就根本无从谈起。请DM/ML

avatar
o*9
20
我不敢苟同你的看法。我承认硬件支持对大数据很重要,但更重要的是为大数据配套的
系统管理软件,就是所谓的大数据支持系统。Leadership当然重要,开发大数据支持系
统是要有过硬的团队的。
看到我们领导对大数据跃跃欲试的样子,我从心里好笑。他以为仗着掌握着系里的大多
在空转的机器,他就可以很快地挤进来做大数据。弄个由几个当地人组成的草台班子,
他就以为自己是老大了。

leadership

【在 l******r 的大作中提到】
: 大数据跟以往的热点不同 是靠硬件说话的领域 硬件不过关的搞不了 没有leadership
: 的更是很快就淘汰了
:
: ;
: mining
: ML

avatar
l*r
21
仁者见仁吧,很多人连大数据都没见过就到处和人说要搞大数据。上次和IT公司一个朋
友聊天,被朋友“训”了一通,现在正在犹豫要不要touch

【在 o****9 的大作中提到】
: 我不敢苟同你的看法。我承认硬件支持对大数据很重要,但更重要的是为大数据配套的
: 系统管理软件,就是所谓的大数据支持系统。Leadership当然重要,开发大数据支持系
: 统是要有过硬的团队的。
: 看到我们领导对大数据跃跃欲试的样子,我从心里好笑。他以为仗着掌握着系里的大多
: 在空转的机器,他就可以很快地挤进来做大数据。弄个由几个当地人组成的草台班子,
: 他就以为自己是老大了。
:
: leadership

avatar
r*e
22
我说说我的一点看法吧。不见得对,仅供参考。
大数据的流行来源于google那三篇论文,google file system, big table, and
mapreduce 。google自身确实是有处理大规模数据的需求的,所以对应的数据存储,组
织和计算框架应运而生。随之,yahoo 借鉴google三驾马车的思路做出了hadoop。另一
方面,随着互联网的高速发展和计算机的广泛应用,数据出现以下几种特征,数据规模
越变越大,数据量急速增长,数据种类繁多,使得对于大规模数据分析处理软件产生迫
切需求。这两方面互相作用的结果就是大数据的流行和接受。
但大数据目前的一个问题是,我觉得是有点过热了,言必称大数据,个个都是数据科学
家。实际上,我觉得对大数据有需求的还是真正有超大规模数据的公司或者研究机构,
比如google,facebook,twitter,或者科学计算等等。一般的数据分析任务根本没必
要用这种大杀器,正如MSR的一篇SOCC13论文说的,很多时候一台单机就能完成计算任
务了。
avatar
z*e
23

你领导很有眼光啊,大数据本身不需要很多机器才能做
我们教学生大数据知识都不过是单机就跑demo的
原理本身才是最重要的,并不是大和小的差异
后者太过于感性,多少算大?1t?1p?其实不重要
重要的是只要你用人工或者高级一点,简单的计算无法在短时间内完成计算的数据量
都叫大,所以哪怕是单机,你也可以做大数据的
而java的流星导致硬件根本没用了现在
工业界早已经把硬件给打成渣了,现在硬件公司很难混
软件和互联网才是future

【在 o****9 的大作中提到】
: 我不敢苟同你的看法。我承认硬件支持对大数据很重要,但更重要的是为大数据配套的
: 系统管理软件,就是所谓的大数据支持系统。Leadership当然重要,开发大数据支持系
: 统是要有过硬的团队的。
: 看到我们领导对大数据跃跃欲试的样子,我从心里好笑。他以为仗着掌握着系里的大多
: 在空转的机器,他就可以很快地挤进来做大数据。弄个由几个当地人组成的草台班子,
: 他就以为自己是老大了。
:
: leadership

avatar
z*e
24
大数据最牛逼的就是模糊处理
如果告诉你这些col/row是什么数据
meta data已经给你了,那你再做,这不叫大数据
大数据的作业就是不给你meta data,然后你自己想办法做出点东西来
这个叫大数据,大数据作业如果你敢碰meta data
老师直接给你打成b-以下
所以传统的排序啊这些算法其实都没啥用
因为这些算法的meta data已经知道了
真正关键的是线性代数和统计这些
avatar
z*e
25
大数据不是hpc才能做的东西
google没有用hpc,用的都是一堆烂机器
大数据不是啥高大上的硬件
而是一堆数学应用
所以你有闲置的机器,搭上java就可以开始做大数据了
为啥cloud跟big data这些关系紧密?
因为cloud上闲置的机器多
为啥java跟big data关系紧密?
因为java干掉了硬件,让你有更多时间腾出手来搞软件
这些都是降低成本的缘由,我们说一个最简单的例子
你能否想出一个算法来
让计算机自动识别出来,zhaoce这个是id
然后计算机自动根据zhaoce整理所有zhaoce发过的帖子?
而你告诉计算机,zhaoce是id,那这个不叫大数据
大数据最重要一个差异就是meta data是不存在的
schema这些是没有的,所以如何建立一个比较合理的结构是大数据一开始要对付的问题
有了结构,那都好办
avatar
l*r
26
如果数据不大却只是做DC,也就是并行计算的level,谈不上大数据。
真正的大数据有它自己的特色,包括前所未有的复杂度。并行计算必然打破数据结构,未
必是最优的算法

【在 z****e 的大作中提到】
: 大数据不是hpc才能做的东西
: google没有用hpc,用的都是一堆烂机器
: 大数据不是啥高大上的硬件
: 而是一堆数学应用
: 所以你有闲置的机器,搭上java就可以开始做大数据了
: 为啥cloud跟big data这些关系紧密?
: 因为cloud上闲置的机器多
: 为啥java跟big data关系紧密?
: 因为java干掉了硬件,让你有更多时间腾出手来搞软件
: 这些都是降低成本的缘由,我们说一个最简单的例子

avatar
z*e
27
并行和分布式的区别仅仅在于是否卷入了网络
并行多数都是一台大机器上的分割
而分布式则是一大堆网络节点上的分割
这个从抽象一点上看,其实没啥太大区别
总线和网络的区别而已,其实这个不影响方法论本身
方法论应该独立于这些而存在,只是由于网络的流行
导致了现在互联网公司才有钱,是金主,所以一般都用网络相关的术语去讨好他们
就像以前做网格计算的现在都说自己搞的是云计算
以前做data mining的也都换个名词说自己搞的是big data
当然由于网络的不可靠等因素,会导致复杂度增加也是客观事实
容错性的要求就更高了,总之就不那么精确的结果也能够接受

【在 l******r 的大作中提到】
: 如果数据不大却只是做DC,也就是并行计算的level,谈不上大数据。
: 真正的大数据有它自己的特色,包括前所未有的复杂度。并行计算必然打破数据结构,未
: 必是最优的算法

avatar
o*9
28
看来我是遇到了你这样的业界牛人。以后我要好好请教。
我们领导根本没有意识到你所提到的这些大数据的精髓。如果他真有正确的前瞻意识,
我早就和他合伙了。他还只是停留在掌控硬件资源来作为筹码,来关起门来当老大。他
哪里懂得大数据的核心技术。

【在 z****e 的大作中提到】
: 并行和分布式的区别仅仅在于是否卷入了网络
: 并行多数都是一台大机器上的分割
: 而分布式则是一大堆网络节点上的分割
: 这个从抽象一点上看,其实没啥太大区别
: 总线和网络的区别而已,其实这个不影响方法论本身
: 方法论应该独立于这些而存在,只是由于网络的流行
: 导致了现在互联网公司才有钱,是金主,所以一般都用网络相关的术语去讨好他们
: 就像以前做网格计算的现在都说自己搞的是云计算
: 以前做data mining的也都换个名词说自己搞的是big data
: 当然由于网络的不可靠等因素,会导致复杂度增加也是客观事实

avatar
r*9
29
赵老师不是学术界的,也不是业界科研的。码农年头长了,多少闻到点业务面忽悠味道,
开始不安分了。其实还是码农,跟他学大数据,那不是原木秋雨嘛!

【在 o****9 的大作中提到】
: 看来我是遇到了你这样的业界牛人。以后我要好好请教。
: 我们领导根本没有意识到你所提到的这些大数据的精髓。如果他真有正确的前瞻意识,
: 我早就和他合伙了。他还只是停留在掌控硬件资源来作为筹码,来关起门来当老大。他
: 哪里懂得大数据的核心技术。

avatar
N*K
30
it就一个阿三全堆程序猿

【在 r******9 的大作中提到】
: 赵老师不是学术界的,也不是业界科研的。码农年头长了,多少闻到点业务面忽悠味道,
: 开始不安分了。其实还是码农,跟他学大数据,那不是原木秋雨嘛!

avatar
o*9
31
I think the experimental Big Data is quite ad hoc and is still in the
fumbling stage. As long as programmers on big data can make things to work
or to make a case, then they have their reasons to show off.

【在 N******K 的大作中提到】
: it就一个阿三全堆程序猿
avatar
r*9
32
表这样,赵老师其实还好。只是没啥原创想法,却爱吹牛。

【在 N******K 的大作中提到】
: it就一个阿三全堆程序猿
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。