Redian新闻
>
读书笔记-大数据时代(Big Data) Viktor Mayer-Schönberger
avatar
读书笔记-大数据时代(Big Data) Viktor Mayer-Schönberger# LeisureTime - 读书听歌看电影
p*y
1
最近大数据概念盛行,所以捡起这本书读了读,算是有了概念。
书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息,通过
分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据,试
图挖掘出事物之间可能的相关性,尤其是不容易预测的,又有商业价值的相关性。应用
大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
,很少有统计师只用一部分数据,把其他的有用的数据扔掉。只是因为数据采集的成本
高,而导致数据只能覆盖一部分样本。比如制药业所做的临床试验,只能在一部分病人
里试验,而不是所以病人。而大数据其实只是因为互联网时代的到来导致某些数据采集
成本急剧下降,数据量指数级增加。比如大家在google上做的搜索,在facebook上写的
爱好等等。但是也要注意到,即使是这种big data,在采样上实际上是biased,因为这
些数据多数只来自于喜爱上互联网并喜欢发言分享的人。还有一部分人群并不喜欢在网
路上分享私人信息,这些人的样本是没有采集到,所以样本还是biased。
不过这些互联网上的大数据真的是很有价值的,书中提到很多具体应用的例子。target
用大数据分析发现顾客购买叶酸和维他命的pattern同怀孕相关,从而推荐母婴用品。
amazon用顾客的反馈来评价商品,同时用这些评价和购物记录同顾客将来的购买行动来
推断相关性,从而向顾客推荐下一个可能购买的商品。更不用说facebook上面无数的
like和dislike. 还有google利用每天无数人在网上输入的信息来进行语言之间的翻译
。这些只是冰山的一角。这种方法的特点是从海量数据中寻找相关性,而不是因果关系
。这些相关性有很大的商业价值。大数据的价值还在于可重复利用性。同样的数据,可
以用来分析的角度很多,可以获取的相关性也很多。
这本书甚至还断言,大数据使得某些专家的价值下降:比如书评人员,潜在客户分析等
的专家,他们的经验积累和判断,终极效果还是比不上直接从大数据中寻找的相关性。
实践证明大数据分析找到的相关性比专家判断更可靠。今后最好的大数据相关专业应该
是统计师,还有IT和数据分析工作者。书中还断言,今后很多企业的价值,应该渐渐开
始包括数据的价值,拥有更多的大数据,就拥有更多的价值。比如说google和facebook.
当然,大数据的应用,也让维护个人隐私称为将来一个难题。有了大数据,尤其是不同
种的大数据结合在一起(比如手机提供的用户地址,用户在facebook上的发言,信用卡
用户在不同时间地点的消费),我们可以很容易的辨别每个个人的行动规律,甚至是预
测每个人的将来的行动。这样个人隐私就完全不复存在了。这是很可怕的一件事。另外
,由于大数据的预测能力,将来甚至可能出现象电影“Minority Report”里描述的那
样,我们会预测到某个人将来的行为,并在这种行为发生前对她/他予以惩罚。这无疑
是有悖于法律的根本原则的。比如,大数据分析一个人将来拖欠贷款的几率很高,银行
就会不给这个人发放贷款,或以极高的利率发放贷款,而实际上这个人可能从前的信用
记录是完美的。还有,如果一个人在网上输入很多关于癌症的查询,大数据分析可能会
认为此人健康堪忧,从而导致保险公司提高此人的保险费用。如此这般考虑,我们现在
就要谨慎,在网上的一举一动,将来都有可能work against us.
总之这本书还是一个很好的闲余读物,语言流畅,逻辑清晰。我读的中文版本翻译和注
释都不错。尤其是其中很多对大数据应用的实例和展望,让我大开眼界。切实领略到大
数据的power.
avatar
M*c
2
大数据 BIAS 还来自于为了自我保护而有意识的错填,另外还可以用公共场所WIFI进行
有关自身的搜索。是不是靠谱关键还是看用大数据进行哪方面的预测,BIAS 有多大。
其实传统统计抽样,尤其是随机抽样,一个优点就是减小BIAS。这个是大数据无法替代
的。网络数据目前来说还是有局限性的。除非全民上网,感冒了都去查相关症状,否则
还是统计各地感冒药的销售量更靠谱。

【在 p*******y 的大作中提到】
: 最近大数据概念盛行,所以捡起这本书读了读,算是有了概念。
: 书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息,通过
: 分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据,试
: 图挖掘出事物之间可能的相关性,尤其是不容易预测的,又有商业价值的相关性。应用
: 大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
: 测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
: 其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
: ,很少有统计师只用一部分数据,把其他的有用的数据扔掉。只是因为数据采集的成本
: 高,而导致数据只能覆盖一部分样本。比如制药业所做的临床试验,只能在一部分病人
: 里试验,而不是所以病人。而大数据其实只是因为互联网时代的到来导致某些数据采集

avatar
R*k
3
不错,看来这本书没啥新东西~

【在 p*******y 的大作中提到】
: 最近大数据概念盛行,所以捡起这本书读了读,算是有了概念。
: 书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息,通过
: 分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据,试
: 图挖掘出事物之间可能的相关性,尤其是不容易预测的,又有商业价值的相关性。应用
: 大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
: 测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
: 其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
: ,很少有统计师只用一部分数据,把其他的有用的数据扔掉。只是因为数据采集的成本
: 高,而导致数据只能覆盖一部分样本。比如制药业所做的临床试验,只能在一部分病人
: 里试验,而不是所以病人。而大数据其实只是因为互联网时代的到来导致某些数据采集

avatar
d*d
4
是不是书评影评的岗位若干年后就全没了?

【在 p*******y 的大作中提到】
: 最近大数据概念盛行,所以捡起这本书读了读,算是有了概念。
: 书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息,通过
: 分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据,试
: 图挖掘出事物之间可能的相关性,尤其是不容易预测的,又有商业价值的相关性。应用
: 大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
: 测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
: 其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
: ,很少有统计师只用一部分数据,把其他的有用的数据扔掉。只是因为数据采集的成本
: 高,而导致数据只能覆盖一部分样本。比如制药业所做的临床试验,只能在一部分病人
: 里试验,而不是所以病人。而大数据其实只是因为互联网时代的到来导致某些数据采集

avatar
R*k
5
是的,但不会是因为大数据。那时候,读书看电影就和拷贝文件一样,接一根数据线到
脑袋上,点击“拷贝”,几秒钟就可以看完一本“战争与和平”。

【在 d*****d 的大作中提到】
: 是不是书评影评的岗位若干年后就全没了?
avatar
e*d
6
像 Trinity 那样,眼球迅速眨巴几下,就会开直升机……
再眨巴几下,就摇身变成机车大佬……
^o^

【在 R******k 的大作中提到】
: 是的,但不会是因为大数据。那时候,读书看电影就和拷贝文件一样,接一根数据线到
: 脑袋上,点击“拷贝”,几秒钟就可以看完一本“战争与和平”。

avatar
c*c
7
嗯,较一下真。Matrix里头什么都是虚拟的,这都容易实现。真人身上呢,这些技术都
需要依赖大量反复练习形成的肌肉记忆,这个机理目前并不是很清楚,将来也许有,也
许没有简单的方法刺激大脑来人工生成需要的所有神经通路,模拟真实练习形成的那种
肌肉记忆。。

【在 e***d 的大作中提到】
: 像 Trinity 那样,眼球迅速眨巴几下,就会开直升机……
: 再眨巴几下,就摇身变成机车大佬……
: ^o^

avatar
e*d
8
所谓的肌肉记忆,简单一点看,
无非就是对应于一个动作组合的脉冲频率调制的集总动作电位序列,
通过检测和解码发放速率,可以获得对应于这个动作的集总电位的特征信息,
反过来,人工合成这样的电位序列并馈入神经肌肉接头,就能产生相应的动作。
目前能够做到这样,也能直接从运动中枢取信号解码、或从外周神经取信号
去控制假肢。至于如何把这些特征信息固化进运动中枢,目前好像还差距很远。

【在 c**c 的大作中提到】
: 嗯,较一下真。Matrix里头什么都是虚拟的,这都容易实现。真人身上呢,这些技术都
: 需要依赖大量反复练习形成的肌肉记忆,这个机理目前并不是很清楚,将来也许有,也
: 许没有简单的方法刺激大脑来人工生成需要的所有神经通路,模拟真实练习形成的那种
: 肌肉记忆。。

avatar
e*d
9
也较一下真,Matrix 里面你看 Tank 导入直升机教程、机车教程的时候,
Trinity 的肉身是跟现实中的 BMI (Brain Machine Interface)
相连接的,是不是可以认为电影里面这些记忆已经烧结到肉身的大脑中去了……

【在 c**c 的大作中提到】
: 嗯,较一下真。Matrix里头什么都是虚拟的,这都容易实现。真人身上呢,这些技术都
: 需要依赖大量反复练习形成的肌肉记忆,这个机理目前并不是很清楚,将来也许有,也
: 许没有简单的方法刺激大脑来人工生成需要的所有神经通路,模拟真实练习形成的那种
: 肌肉记忆。。

avatar
B*n
10
我鬼扯一下
1. 傳統統計由抽樣調查得到資料只是一部分 很多資料(甚至可以說大部分的資料)都不
是抽樣調查得到的

2. 所謂大數據這個詞其實很模糊 什麼叫大數據 只是資料數很大嗎 到底具體的定義是
什麼
如果只是要做平均值 變異數這種事情 就算比一般的資料量大幾百倍甚至幾千倍 那對
電腦來說也不是大問題 所謂的大數據 在我看來 是需要看你處理什麼樣的問題 互聯網
的例子是很好 但在互聯網時代外 有許多大數據的例子 比方說保險公司或是國家的健
康保險 你可以只有百萬人的資料 相對於部分互聯網是不多 但每個人的資料的變量間
的相關可能非常複雜 同樣的問題也出現在基因的資料研究 gene可能就只有幾萬個(
marker可能更多) 但彼此interaction或是基因的pathway 可能很複雜
更進一步 現在很多人做影像(比方腦影像)和基因之間的關連 這些個別來看可能都比互
聯網的資料量小很多 但隨著你要回答的問題是什麼 以及你要如何處理他 這兩點也決
定了它的複雜性 這個應該都是如何定義大數據應該思考的

【在 p*******y 的大作中提到】
: 最近大数据概念盛行,所以捡起这本书读了读,算是有了概念。
: 书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息,通过
: 分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据,试
: 图挖掘出事物之间可能的相关性,尤其是不容易预测的,又有商业价值的相关性。应用
: 大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
: 测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
: 其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
: ,很少有统计师只用一部分数据,把其他的有用的数据扔掉。只是因为数据采集的成本
: 高,而导致数据只能覆盖一部分样本。比如制药业所做的临床试验,只能在一部分病人
: 里试验,而不是所以病人。而大数据其实只是因为互联网时代的到来导致某些数据采集

avatar
B*n
11
我很慶幸自己不是生活在那年代 容我冒犯一句 我們這群人大都是插線和插管在比速度

【在 R******k 的大作中提到】
: 是的,但不会是因为大数据。那时候,读书看电影就和拷贝文件一样,接一根数据线到
: 脑袋上,点击“拷贝”,几秒钟就可以看完一本“战争与和平”。

avatar
p*y
12
i agree with you. I think the book is quite lacking in more detailly define
the structural difference between big data and regular data. it also did
not mention the different methods used for such data analysis. these might
be more radical differences from traditional statistics. do you know of any
books that address theses points?

【在 B****n 的大作中提到】
: 我鬼扯一下
: 1. 傳統統計由抽樣調查得到資料只是一部分 很多資料(甚至可以說大部分的資料)都不
: 是抽樣調查得到的
:
: 2. 所謂大數據這個詞其實很模糊 什麼叫大數據 只是資料數很大嗎 到底具體的定義是
: 什麼
: 如果只是要做平均值 變異數這種事情 就算比一般的資料量大幾百倍甚至幾千倍 那對
: 電腦來說也不是大問題 所謂的大數據 在我看來 是需要看你處理什麼樣的問題 互聯網
: 的例子是很好 但在互聯網時代外 有許多大數據的例子 比方說保險公司或是國家的健
: 康保險 你可以只有百萬人的資料 相對於部分互聯網是不多 但每個人的資料的變量間

avatar
i*a
13
这本书我本来想翻翻的,谢谢书评。不过人在美国,干嘛看中译本啊。还有国内现在翻
译书的速度可够快的。

【在 p*******y 的大作中提到】
: 最近大数据概念盛行,所以捡起这本书读了读,算是有了概念。
: 书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息,通过
: 分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据,试
: 图挖掘出事物之间可能的相关性,尤其是不容易预测的,又有商业价值的相关性。应用
: 大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
: 测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
: 其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
: ,很少有统计师只用一部分数据,把其他的有用的数据扔掉。只是因为数据采集的成本
: 高,而导致数据只能覆盖一部分样本。比如制药业所做的临床试验,只能在一部分病人
: 里试验,而不是所以病人。而大数据其实只是因为互联网时代的到来导致某些数据采集

avatar
B*n
14
其中一種可能是對於一部分人來說(比如說我)
英文書相對中譯本還是big data

在翻

【在 i*****a 的大作中提到】
: 这本书我本来想翻翻的,谢谢书评。不过人在美国,干嘛看中译本啊。还有国内现在翻
: 译书的速度可够快的。

avatar
i*a
15
所以才要努力explore 啊。。:)

【在 B****n 的大作中提到】
: 其中一種可能是對於一部分人來說(比如說我)
: 英文書相對中譯本還是big data
:
: 在翻

avatar
B*n
16
范劍青老師曾經給過關於big data的統計分析的演講
他的paper在這裡
http://arxiv.org/pdf/1308.1479v1.pdf
諸如此類的演講不少 書也有 因為自己沒看過 所以不知道那本比較適合

define
might
any

【在 p*******y 的大作中提到】
: i agree with you. I think the book is quite lacking in more detailly define
: the structural difference between big data and regular data. it also did
: not mention the different methods used for such data analysis. these might
: be more radical differences from traditional statistics. do you know of any
: books that address theses points?

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。