刚知道有这个版。问一下nosql比sql好在哪里？ - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>DataSciences - 数据科学

刚知道有这个版。问一下nosql比sql好在哪里？

刚知道有这个版。问一下nosql比sql好在哪里？# DataSciences - 数据科学

t*92014-06-23 07:06

1 楼

所有东西搞在一起，不要data relation了？
靠强大的infrastructure和分布式计算算法提供in time查询，插入，更新？

z*e2014-06-23 07:06

2 楼

这就是统计牛逼的地方
能从不make sense的东西给你弄成make sense
从无到有这一步是最难的

z*e2014-06-23 07:06

3 楼

分布式算法跟big data没必然联系
算法是优化，从一个make sense的东西提升效率
但是big data最重要的是你要有办法从不make sense弄成make sense
这个根本不是算法的问题
等make sense了之后，再通过算法分析，找出更优化的算法
让结果结论跑得快一点罢了
分布式算法主要是解决不同nodes之间的冲突问题
因为如果系统nodes多了，如果不同nodes不能保证象单机一样执行的话
那麻烦就大了，分布式算法严格来说也不是特别象单机一样，考虑n^2还是lgn
复杂度这种单机上的算法热点在分布式中用得不多，多数时候都在处理并发冲突
单机现在压根不考虑并发了，asynchronized一来，都无状态处理了
甚至连游戏都不怎么搞并发了，就os还在搞，再往上的并发处理都压给os去做
而分布式算法则天天倒腾如何处理并发，这个层面就不是os层面了

z*e2014-06-23 07:06

4 楼

data relation不是不要搞，是你自己想办法去找
能不能找到，看统计水平怎样
统计就擅长从一堆乱七八糟的东西找出一定的结论，就搞这个的

z*e2014-06-23 07:06

5 楼

举两个例子
分布式算法基础，最基础的是一个比如message，广播到group中去
那么如何保证这个group中所有的nodes收到的msg都执行同一个顺序呢？
这个网络无法保证，后发送的msg有可能会被某些nodes先收到，因为网络的latency
最简单的就是给所有的msg编一个号，谁都能想到
这个主要是分布式算法处理的范畴
big data是这样
我给你一堆文档，什么格式都有
请问，我现在输入一个term，比如china
你能否给我反馈一串相关china的文档列表，按照相关度排序？
简单说就是一个google
算法在这里也有用，比如clustering, classification时候，需要计算时间复杂度
前者如果是bottom up的话，复杂度可能达到n^3这样，那就非常慢了
但是不是不可行，用top down的话，复杂度是n，快很多
所以尽可能使用top down，但是有trade off，top down对seed敏感
你怎么找seed？这就很关键了，找seed也主要是统计来搞

z*e2014-06-23 07:06

6 楼

nosql比sql强在本身消耗的平均资源偏少
其次结构也不需要那么严格和完整
所以把前期的整理工作给干掉了
交给统计去挖掘合理性
所以可以短时间内爆nodes
喷射出去，这个对于现代互联网时代的产品来说尤其重要
因为访问量的增长是呈指数级增长的
一般db那种完全跟不上

g*o2014-06-23 07:06

7 楼

( ⊙o⊙ )哇
不明觉厉..

【在 z****e 的大作中提到】

: nosql比sql强在本身消耗的平均资源偏少
: 其次结构也不需要那么严格和完整
: 所以把前期的整理工作给干掉了
: 交给统计去挖掘合理性
: 所以可以短时间内爆nodes
: 喷射出去，这个对于现代互联网时代的产品来说尤其重要
: 因为访问量的增长是呈指数级增长的
: 一般db那种完全跟不上