板上有人能介绍用大数据发现了什么吗?# DataSciences - 数据科学
G*G
1 楼
给你一大数据,然后你运用大数据,发现了一个有意义的结论。
这个结论被证实。
这个结论不能用传统的小数据分析方法得到。
板上有人能给出一个实例吗?然后介绍用到的大数据的工具。
对不起,我实在不明白什么叫大数据,什么是大数据和小数据的不同。
我的理解是:你用个人电脑分析一个数据,需要1个月的时间,
你用大数据的工具,可能只需要1天的时间。但是1个月的分析也好,1天的分析也好,
两者得出的结论应该是一样的。
也就是说所谓大数据分析,就是省时,但是提高不了预测精度。
另外还有一点,如果数据庞大,如何验证得出的结论呢?
如果验证不了,没人能说你的大数据分析方法是正确的,或者错误的。
而实际上,很多医学数据,大也好,小也好,根本就没有结论。
同一个人在不同时间做的NGS数据,就会很大程度的不一样。数据本身就是不能重现的。
结论如何得出呢?小数据分析都得不出结论,大数据分析更不能了。
并行分布的程序,如何调试呢?不是调试语法错误,是调试数据正确与否。
这个结论被证实。
这个结论不能用传统的小数据分析方法得到。
板上有人能给出一个实例吗?然后介绍用到的大数据的工具。
对不起,我实在不明白什么叫大数据,什么是大数据和小数据的不同。
我的理解是:你用个人电脑分析一个数据,需要1个月的时间,
你用大数据的工具,可能只需要1天的时间。但是1个月的分析也好,1天的分析也好,
两者得出的结论应该是一样的。
也就是说所谓大数据分析,就是省时,但是提高不了预测精度。
另外还有一点,如果数据庞大,如何验证得出的结论呢?
如果验证不了,没人能说你的大数据分析方法是正确的,或者错误的。
而实际上,很多医学数据,大也好,小也好,根本就没有结论。
同一个人在不同时间做的NGS数据,就会很大程度的不一样。数据本身就是不能重现的。
结论如何得出呢?小数据分析都得不出结论,大数据分析更不能了。
并行分布的程序,如何调试呢?不是调试语法错误,是调试数据正确与否。