刚知道有这个版。问一下nosql比sql好在哪里?# DataSciences - 数据科学t*92014-06-23 07:061 楼所有东西搞在一起,不要data relation了?靠强大的infrastructure和分布式计算算法提供in time查询,插入,更新?
z*e2014-06-23 07:063 楼分布式算法跟big data没必然联系算法是优化,从一个make sense的东西提升效率但是big data最重要的是你要有办法从不make sense弄成make sense这个根本不是算法的问题等make sense了之后,再通过算法分析,找出更优化的算法让结果结论跑得快一点罢了分布式算法主要是解决不同nodes之间的冲突问题因为如果系统nodes多了,如果不同nodes不能保证象单机一样执行的话那麻烦就大了,分布式算法严格来说也不是特别象单机一样,考虑n^2还是lgn复杂度这种单机上的算法热点在分布式中用得不多,多数时候都在处理并发冲突单机现在压根不考虑并发了,asynchronized一来,都无状态处理了甚至连游戏都不怎么搞并发了,就os还在搞,再往上的并发处理都压给os去做而分布式算法则天天倒腾如何处理并发,这个层面就不是os层面了
z*e2014-06-23 07:065 楼举两个例子分布式算法基础,最基础的是一个比如message,广播到group中去那么如何保证这个group中所有的nodes收到的msg都执行同一个顺序呢?这个网络无法保证,后发送的msg有可能会被某些nodes先收到,因为网络的latency最简单的就是给所有的msg编一个号,谁都能想到这个主要是分布式算法处理的范畴big data是这样我给你一堆文档,什么格式都有请问,我现在输入一个term,比如china你能否给我反馈一串相关china的文档列表,按照相关度排序?简单说就是一个google算法在这里也有用,比如clustering, classification时候,需要计算时间复杂度前者如果是bottom up的话,复杂度可能达到n^3这样,那就非常慢了但是不是不可行,用top down的话,复杂度是n,快很多所以尽可能使用top down, 但是有trade off,top down对seed敏感你怎么找seed?这就很关键了,找seed也主要是统计来搞
z*e2014-06-23 07:066 楼nosql比sql强在本身消耗的平均资源偏少其次结构也不需要那么严格和完整所以把前期的整理工作给干掉了交给统计去挖掘合理性所以可以短时间内爆nodes喷射出去,这个对于现代互联网时代的产品来说尤其重要因为访问量的增长是呈指数级增长的一般db那种完全跟不上
g*o2014-06-23 07:067 楼( ⊙o⊙ )哇不明觉厉..【在 z****e 的大作中提到】: nosql比sql强在本身消耗的平均资源偏少: 其次结构也不需要那么严格和完整: 所以把前期的整理工作给干掉了: 交给统计去挖掘合理性: 所以可以短时间内爆nodes: 喷射出去,这个对于现代互联网时代的产品来说尤其重要: 因为访问量的增长是呈指数级增长的: 一般db那种完全跟不上