读书笔记-大数据时代(Big Data) Viktor Mayer-Schönberger# LeisureTime - 读书听歌看电影
p*y
1 楼
最近大数据概念盛行,所以捡起这本书读了读,算是有了概念。
书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息,通过
分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据,试
图挖掘出事物之间可能的相关性,尤其是不容易预测的,又有商业价值的相关性。应用
大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
,很少有统计师只用一部分数据,把其他的有用的数据扔掉。只是因为数据采集的成本
高,而导致数据只能覆盖一部分样本。比如制药业所做的临床试验,只能在一部分病人
里试验,而不是所以病人。而大数据其实只是因为互联网时代的到来导致某些数据采集
成本急剧下降,数据量指数级增加。比如大家在google上做的搜索,在facebook上写的
爱好等等。但是也要注意到,即使是这种big data,在采样上实际上是biased,因为这
些数据多数只来自于喜爱上互联网并喜欢发言分享的人。还有一部分人群并不喜欢在网
路上分享私人信息,这些人的样本是没有采集到,所以样本还是biased。
不过这些互联网上的大数据真的是很有价值的,书中提到很多具体应用的例子。target
用大数据分析发现顾客购买叶酸和维他命的pattern同怀孕相关,从而推荐母婴用品。
amazon用顾客的反馈来评价商品,同时用这些评价和购物记录同顾客将来的购买行动来
推断相关性,从而向顾客推荐下一个可能购买的商品。更不用说facebook上面无数的
like和dislike. 还有google利用每天无数人在网上输入的信息来进行语言之间的翻译
。这些只是冰山的一角。这种方法的特点是从海量数据中寻找相关性,而不是因果关系
。这些相关性有很大的商业价值。大数据的价值还在于可重复利用性。同样的数据,可
以用来分析的角度很多,可以获取的相关性也很多。
这本书甚至还断言,大数据使得某些专家的价值下降:比如书评人员,潜在客户分析等
的专家,他们的经验积累和判断,终极效果还是比不上直接从大数据中寻找的相关性。
实践证明大数据分析找到的相关性比专家判断更可靠。今后最好的大数据相关专业应该
是统计师,还有IT和数据分析工作者。书中还断言,今后很多企业的价值,应该渐渐开
始包括数据的价值,拥有更多的大数据,就拥有更多的价值。比如说google和facebook.
当然,大数据的应用,也让维护个人隐私称为将来一个难题。有了大数据,尤其是不同
种的大数据结合在一起(比如手机提供的用户地址,用户在facebook上的发言,信用卡
用户在不同时间地点的消费),我们可以很容易的辨别每个个人的行动规律,甚至是预
测每个人的将来的行动。这样个人隐私就完全不复存在了。这是很可怕的一件事。另外
,由于大数据的预测能力,将来甚至可能出现象电影“Minority Report”里描述的那
样,我们会预测到某个人将来的行为,并在这种行为发生前对她/他予以惩罚。这无疑
是有悖于法律的根本原则的。比如,大数据分析一个人将来拖欠贷款的几率很高,银行
就会不给这个人发放贷款,或以极高的利率发放贷款,而实际上这个人可能从前的信用
记录是完美的。还有,如果一个人在网上输入很多关于癌症的查询,大数据分析可能会
认为此人健康堪忧,从而导致保险公司提高此人的保险费用。如此这般考虑,我们现在
就要谨慎,在网上的一举一动,将来都有可能work against us.
总之这本书还是一个很好的闲余读物,语言流畅,逻辑清晰。我读的中文版本翻译和注
释都不错。尤其是其中很多对大数据应用的实例和展望,让我大开眼界。切实领略到大
数据的power.
书中提到大数据与传统统计抽样的方法不同。传统的统计则只抽取部分样本信息,通过
分析这部分信息来推断群体整体的特征。而大数据方法是利用所有可以接触的数据,试
图挖掘出事物之间可能的相关性,尤其是不容易预测的,又有商业价值的相关性。应用
大数据的例子其中一个就是利用在google上有关感冒症状的搜索词条及ip地址分布来预
测流感的传播和爆发, 还有通过从前机票的价格数据推断将来机票价格随时间的浮动。
其实我觉得这个同传统统计的比较有些牵强。其实传统统计也是运用全部可用的数据的
,很少有统计师只用一部分数据,把其他的有用的数据扔掉。只是因为数据采集的成本
高,而导致数据只能覆盖一部分样本。比如制药业所做的临床试验,只能在一部分病人
里试验,而不是所以病人。而大数据其实只是因为互联网时代的到来导致某些数据采集
成本急剧下降,数据量指数级增加。比如大家在google上做的搜索,在facebook上写的
爱好等等。但是也要注意到,即使是这种big data,在采样上实际上是biased,因为这
些数据多数只来自于喜爱上互联网并喜欢发言分享的人。还有一部分人群并不喜欢在网
路上分享私人信息,这些人的样本是没有采集到,所以样本还是biased。
不过这些互联网上的大数据真的是很有价值的,书中提到很多具体应用的例子。target
用大数据分析发现顾客购买叶酸和维他命的pattern同怀孕相关,从而推荐母婴用品。
amazon用顾客的反馈来评价商品,同时用这些评价和购物记录同顾客将来的购买行动来
推断相关性,从而向顾客推荐下一个可能购买的商品。更不用说facebook上面无数的
like和dislike. 还有google利用每天无数人在网上输入的信息来进行语言之间的翻译
。这些只是冰山的一角。这种方法的特点是从海量数据中寻找相关性,而不是因果关系
。这些相关性有很大的商业价值。大数据的价值还在于可重复利用性。同样的数据,可
以用来分析的角度很多,可以获取的相关性也很多。
这本书甚至还断言,大数据使得某些专家的价值下降:比如书评人员,潜在客户分析等
的专家,他们的经验积累和判断,终极效果还是比不上直接从大数据中寻找的相关性。
实践证明大数据分析找到的相关性比专家判断更可靠。今后最好的大数据相关专业应该
是统计师,还有IT和数据分析工作者。书中还断言,今后很多企业的价值,应该渐渐开
始包括数据的价值,拥有更多的大数据,就拥有更多的价值。比如说google和facebook.
当然,大数据的应用,也让维护个人隐私称为将来一个难题。有了大数据,尤其是不同
种的大数据结合在一起(比如手机提供的用户地址,用户在facebook上的发言,信用卡
用户在不同时间地点的消费),我们可以很容易的辨别每个个人的行动规律,甚至是预
测每个人的将来的行动。这样个人隐私就完全不复存在了。这是很可怕的一件事。另外
,由于大数据的预测能力,将来甚至可能出现象电影“Minority Report”里描述的那
样,我们会预测到某个人将来的行为,并在这种行为发生前对她/他予以惩罚。这无疑
是有悖于法律的根本原则的。比如,大数据分析一个人将来拖欠贷款的几率很高,银行
就会不给这个人发放贷款,或以极高的利率发放贷款,而实际上这个人可能从前的信用
记录是完美的。还有,如果一个人在网上输入很多关于癌症的查询,大数据分析可能会
认为此人健康堪忧,从而导致保险公司提高此人的保险费用。如此这般考虑,我们现在
就要谨慎,在网上的一举一动,将来都有可能work against us.
总之这本书还是一个很好的闲余读物,语言流畅,逻辑清晰。我读的中文版本翻译和注
释都不错。尤其是其中很多对大数据应用的实例和展望,让我大开眼界。切实领略到大
数据的power.