你们有没有一种感觉，其实big data - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Programming - 葵花宝典

你们有没有一种感觉，其实big data

你们有没有一种感觉，其实big data# Programming - 葵花宝典

h*z2013-11-03 07:11

1 楼

请教各位：我儿子在美出生，去年送回国，现在想让我岳母送过来。
156表中随行人员一栏是否要注明我儿子同行？如何写邀请信？是否要提及
送小孩过来，还是忽略小孩，只说旅游。

u*a2013-11-03 07:11

2 楼

如果ex经济上有困难，你们会主动提出帮助她吗

w*o2013-11-03 07:11

3 楼

上周去的，后期口味比较重
一个贴原来只能放1M的附件阿... 我自己压的基本都在300K左右所以就只能放3张了

a*12013-11-03 07:11

4 楼

中国人到了西方国家，不管是欧洲还是美国，都是被歧视的，而且华人群体和文化也是
被排挤的，可能是所谓的意识形态的问题，西方人对于华人并不喜欢，也不接受中国人
本身的文化观念，也就是价值观相差很大，导致中国人在西方很长一段时间并不受欢迎。
但是相反的，西方人来到中国，却很受欢迎，也许是受到历史影响，很多中国人还觉得
自己国家是落后的，西方是强大的，所以人家西方人来到中国，应该以礼待之。
并且西方人跟我们的生活习惯这么不同，说话方式也完全不同，在中国也不会受到排挤
，而是会被包容，这可能是跟中国本身就是一个多民族的国家有关系吧，56个民族，本
来就各有各的生活习惯，甚至还有互相听不懂的家乡话，都能融合在一起这么多年，所
以对于几个老外的那点生活习惯和文化观念的不同，大部分中国人早就见怪不怪了。
这也说明，中国才是真正的一个有包容性的大国，而西方国家都是狭窄的民族主义吧，
跟之前媒体说中国人是狭窄的民族主义是相反的，中国人其实很有包容心的不是么，或
者说这也是一种善良。

l*y2013-11-03 07:11

5 楼

【以下文字转载自 Java 讨论区】
发信人: lummy (河马·云何), 信区: Java
标题: 请教一个 JList + JScrollPane 的问题
发信站: BBS 未名空间站 (Wed Oct 24 22:40:56 2012, 美东)
Jlist 的 model 是运行中动态生成的。
当内容比较多时，scroll bar 并没变窄，而且拖到底并没有完全显示所有的 items。
把窗口向下拉长可以看到更多的 items。而且当窗口长过一定长度时 scroll bar 消失
。。。
貌似是 scroll bar 认为的 model 的长度比实际的要短得多。不知道该咋办。。。
多谢多谢！

z*e2013-11-03 07:11

6 楼

除了数据存放格式以外
其实big data就是把以前db所走过的路
给再走一遍
区别仅仅在于，以前db的各种标准的实现都是强制性实现的
不可以不实现，现在big data的各种东西，实现都是非强制性的
完全可以不实现某些东西
比如transaction
其实除开transaction以外，db本身也没有那么糟糕了
jpa最让我无法忍受的一点就是我写一个简单的insert
都尼玛要上transaction啊

w*e2013-11-03 07:11

7 楼

co-ask!

b*e2013-11-03 07:11

8 楼

i guess no

【在 u********a 的大作中提到】

: 如果ex经济上有困难，你们会主动提出帮助她吗

x*c2013-11-03 07:11

9 楼

第一张的天空很狠啊
我一直想拍类似第三张但路弯曲比较大的，没找着好地点

【在 w*********o 的大作中提到】

: 上周去的，后期口味比较重
: 一个贴原来只能放1M的附件阿... 我自己压的基本都在300K左右所以就只能放3张了

a*12013-11-03 07:11

10 楼

中国人还是太善良了

r*y2013-11-03 07:11

11 楼

贴code吧
有没有revalidate和repaint？
话说你怎么写上这个了。。。

【在 l***y 的大作中提到】

: 【以下文字转载自 Java 讨论区】
: 发信人: lummy (河马·云何), 信区: Java
: 标题: 请教一个 JList + JScrollPane 的问题
: 发信站: BBS 未名空间站 (Wed Oct 24 22:40:56 2012, 美东)
: Jlist 的 model 是运行中动态生成的。
: 当内容比较多时，scroll bar 并没变窄，而且拖到底并没有完全显示所有的 items。
: 把窗口向下拉长可以看到更多的 items。而且当窗口长过一定长度时 scroll bar 消失
: 。。。
: 貌似是 scroll bar 认为的 model 的长度比实际的要短得多。不知道该咋办。。。
: 多谢多谢！

A*g2013-11-03 07:11

12 楼

db学术圈的人都是这么说的。db一开始主要还是为OLTP设计的，多client读写频繁，还
不能有一点错，比如ATM。nosql做大数据分析的时候一般也不往里面写了，然后算错一
点也没关系，所以可以把transaction省了。jpa支持多个client一起写吧，不
transaction怎么保证data consistance?

【在 z****e 的大作中提到】

: 除了数据存放格式以外
: 其实big data就是把以前db所走过的路
: 给再走一遍
: 区别仅仅在于，以前db的各种标准的实现都是强制性实现的
: 不可以不实现，现在big data的各种东西，实现都是非强制性的
: 完全可以不实现某些东西
: 比如transaction
: 其实除开transaction以外，db本身也没有那么糟糕了
: jpa最让我无法忍受的一点就是我写一个简单的insert
: 都尼玛要上transaction啊

h*z2013-11-03 07:11

13 楼

一年前签过两次都被拒了。那时还没小孩，唉。。。。

u*a2013-11-03 07:11

14 楼

那我家的牛gg还有救吗？
我给他寄了几次礼物，他知道我最近没有奖学金，让我用他的信用卡这几个月不用还钱
俺们是分手了滴。。。

【在 b******e 的大作中提到】

: i guess no

w*o2013-11-03 07:11

15 楼

第一张是GND，本来天气就不太好
而且，后期处理都是上周做的，现在看起来口味确实有点重，也不高兴在搞一下了，就
自己现在的桌面
仔细搞了下
1M的附件真放不了什么....太无奈了

【在 x****c 的大作中提到】

: 第一张的天空很狠啊
: 我一直想拍类似第三张但路弯曲比较大的，没找着好地点

a*r2013-11-03 07:11

16 楼

中国人骨子里有崇洋媚外的精神。
看看人家市长都要亲自跑着去给黑鬼接生呢。
而对自己人呢，中国是最不包容的，地域歧视最严重的国家。

l*y2013-11-03 07:11

17 楼

实验了一下，没 work：
private void populateDrugList(){
DefaultListModel tmpModel = new DefaultListModel();
if (SharedData.drugIDs.size() == SharedData.drugDescs.size()){
for (int i = 0; i < SharedData.drugIDs.size(); i++) {
tmpModel.addElement(SharedData.drugIDs.get(i)+" "+
SharedData.drugDescs.get(i));
}
}
drugList.setModel(tmpModel);
drugList.revalidate();
drugList.repaint();
drugScrollPane.revalidate();
drugScrollPane.repaint();
}

【在 r****y 的大作中提到】

: 贴code吧
: 有没有revalidate和repaint？
: 话说你怎么写上这个了。。。

b*r2013-11-03 07:11

18 楼

b*e2013-11-03 07:11

19 楼

我小人之心了......
你家gg很好很好

【在 u********a 的大作中提到】

: 那我家的牛gg还有救吗？
: 我给他寄了几次礼物，他知道我最近没有奖学金，让我用他的信用卡这几个月不用还钱
: 俺们是分手了滴。。。

x*c2013-11-03 07:11

20 楼

发现我手上就一个0.6的gnd，还是soft，不好用啊。

m*n2013-11-03 07:11

21 楼

因为汉人有长期被异族奴役的历史，所以“包容性”强。

r*y2013-11-03 07:11

22 楼

用setModel就不用revalidate和repaint了。
我这里测试没问题。
就拿着ListDemo现成的例子：
http://docs.oracle.com/javase/tutorial/uiswing/examples/compone
class里声明个变量：
private ArrayList personList = new ArrayList();
把actionPerformed改成：
public void actionPerformed(ActionEvent e) {
populateDrugList()；
}
populateDrugList跟你定义的几乎一样：
private void populateDrugList(){
DefaultListModel model = new DefaultListModel();
personList.add("new person1");
personList.add("new person2");
personList.add("new person3");
for(String p : personList){
model.addElement(p);
}
list.setModel(model);
}
运行时先随便输入点啥，然后重复点Hire就可以。

【在 l***y 的大作中提到】

: 实验了一下，没 work：
: private void populateDrugList(){
: DefaultListModel tmpModel = new DefaultListModel();
: if (SharedData.drugIDs.size() == SharedData.drugDescs.size()){
: for (int i = 0; i < SharedData.drugIDs.size(); i++) {
: tmpModel.addElement(SharedData.drugIDs.get(i)+" "+
: SharedData.drugDescs.get(i));
: }
: }
: drugList.setModel(tmpModel);

z*e2013-11-03 07:11

23 楼

看来是over design了
而且精度要求到real time的地步
其实在很多领域，都不是大头
insert不用transaction你看用一般的sql就可以做到
jpa和db都over design了

【在 A******g 的大作中提到】

: db学术圈的人都是这么说的。db一开始主要还是为OLTP设计的，多client读写频繁，还
: 不能有一点错，比如ATM。nosql做大数据分析的时候一般也不往里面写了，然后算错一
: 点也没关系，所以可以把transaction省了。jpa支持多个client一起写吧，不
: transaction怎么保证data consistance?

u*a2013-11-03 07:11

24 楼

哦，那除了好呢？
只是因为念旧情或者善良，还是因为还喜欢我呀？呵呵，我想知道我们还有没有复合的
可能啊

【在 b******e 的大作中提到】

: 我小人之心了......
: 你家gg很好很好

m*12013-11-03 07:11

25 楼

好绚丽啊

l*y2013-11-03 07:11

26 楼

我开始用小数据集来实验，17 行的，貌似没问题。后来上三千多行的，就悲剧了。。。

【在 r****y 的大作中提到】

: 用setModel就不用revalidate和repaint了。
: 我这里测试没问题。
: 就拿着ListDemo现成的例子：
: http://docs.oracle.com/javase/tutorial/uiswing/examples/compone
: class里声明个变量：
: private ArrayList personList = new ArrayList();
: 把actionPerformed改成：
: public void actionPerformed(ActionEvent e) {
: populateDrugList()；
: }

z*e2013-11-03 07:11

27 楼

就如老外看拉面

【在 b*******r 的大作中提到】

B*72013-11-03 07:11

28 楼

牛牛们虽然把钱看得很重，但绝不会欠情的。他让你欠的钱不用还，很可能只是想把跟
你的债还清（宁愿多还点），而并没有跟你要复合的意思。

w*o2013-11-03 07:11

29 楼

至少需要0.3 0.6 0.9 soft
.6 .9 hard
.9 reverse
6片在手才稳

【在 x****c 的大作中提到】

: 发现我手上就一个0.6的gnd，还是soft，不好用啊。

r*y2013-11-03 07:11

30 楼

那我改成这样运行也没问题：
private void populateDrugList(){
DefaultListModel model = new DefaultListModel();
for(int i = 0; i < 5000; i ++) {
personList.add("new person" + i);
}
for(String p : personList){
model.addElement(p);
}
list.setModel(model);
}
scrollbar不会变更窄，但是scrollPosition会不断上升。

。。

【在 l***y 的大作中提到】

: 我开始用小数据集来实验，17 行的，貌似没问题。后来上三千多行的，就悲剧了。。。

o*u2013-11-03 07:11

31 楼

量变引起质变，big data 的那些东西（map-reduce）有时候分析能力还不如传统db的
复杂query,
做个join都挺麻烦的。
但是传统db处理几百个Tb的数据要么很困难，要么就是成本太高。

【在 z****e 的大作中提到】

u*a2013-11-03 07:11

32 楼

可是他还没欠我钱啊，呵呵，其实我寄东西给他，除了喜欢他，也是很想还清以前欠他的

【在 B*****7 的大作中提到】

: 牛牛们虽然把钱看得很重，但绝不会欠情的。他让你欠的钱不用还，很可能只是想把跟
: 你的债还清（宁愿多还点），而并没有跟你要复合的意思。

w*o2013-11-03 07:11

33 楼

后期的时候下手重了
=。=

【在 m******1 的大作中提到】

: 好绚丽啊

r*y2013-11-03 07:11

34 楼

啊，我知道了，如果一直setSelectedIndex为0，就看不到任何变化，尽管list变长了。
你把selectedIndex改成最后一个，再加ensureIndexIsVisible，就会很有成就感了。

。。

【在 l***y 的大作中提到】

: 我开始用小数据集来实验，17 行的，貌似没问题。后来上三千多行的，就悲剧了。。。

z*e2013-11-03 07:11

35 楼

传统db就是设计得过份了
不给一般应用留活路，啥都要上最牛逼的那一套
这是不对滴，bigdata主要是慢，自己要去做各种优化
但是只要知道概念，其实操作big data的东西比操作db要简单点

【在 o****u 的大作中提到】

: 量变引起质变，big data 的那些东西（map-reduce）有时候分析能力还不如传统db的
: 复杂query,
: 做个join都挺麻烦的。
: 但是传统db处理几百个Tb的数据要么很困难，要么就是成本太高。

c*d2013-11-03 07:11

36 楼

你不是金牛，请不要代表金牛说话。

【在 b******e 的大作中提到】

: i guess no

x*c2013-11-03 07:11

37 楼

我在想是不是再搞一块0.9 hard就凑活了
顶多加个0.9 reverse

【在 w*********o 的大作中提到】

: 至少需要0.3 0.6 0.9 soft
: .6 .9 hard
: .9 reverse
: 6片在手才稳

l*y2013-11-03 07:11

38 楼

赞！刚刚也加到 3000，sample 的确没问题。在实验你说的。。。

了。

【在 r****y 的大作中提到】

: 啊，我知道了，如果一直setSelectedIndex为0，就看不到任何变化，尽管list变长了。
: 你把selectedIndex改成最后一个，再加ensureIndexIsVisible，就会很有成就感了。
:
: 。。

A*g2013-11-03 07:11

39 楼

大牛，ACID的database每一句sql语句都是一个transaction啊，"transaction" key
word是把多个sql语句弄到一个transaction里。虽然MySQL里MyISAM storage engine不
支持transaction，但最常用的innodb的transactional的。Transaction在多线程里是
一个很方便的概念，不然用户自己要实现锁或者其他syncrhonization的算法。如果只
是对单用户，那才能说over design。

【在 z****e 的大作中提到】

: 看来是over design了
: 而且精度要求到real time的地步
: 其实在很多领域，都不是大头
: insert不用transaction你看用一般的sql就可以做到
: jpa和db都over design了

B*72013-11-03 07:11

40 楼

牛牛们不想占人便宜，但要大方给人钱那也是有如割肉。他如果不是为了补偿你什么，
而是愿意在金钱上给你付出，说明对你还是很有意思的。

他的

【在 u********a 的大作中提到】

: 可是他还没欠我钱啊，呵呵，其实我寄东西给他，除了喜欢他，也是很想还清以前欠他的

m*12013-11-03 07:11

41 楼

送给我吧，我不介意

【在 x****c 的大作中提到】

: 发现我手上就一个0.6的gnd，还是soft，不好用啊。

c*o2013-11-03 07:11

42 楼

big data的潮流来源于实际需求，而处理方法其实来源于BASE (compare to ACID)
http://www.johndcook.com/blog/2009/07/06/brewer-cap-theorem-bas
"Eric Brewer’s CAP theorem says that if you want consistency, availability,
and partition tolerance, you have to settle for two out of three."
"It’s harder to develop software in the fault-tolerant BASE world compared
to the fastidious ACID world, but Brewer’s CAP theorem says you have no
choice if you want to scale up."

u*a2013-11-03 07:11

43 楼

谢谢哦～那我继续加油，呵呵

【在 B*****7 的大作中提到】

: 牛牛们不想占人便宜，但要大方给人钱那也是有如割肉。他如果不是为了补偿你什么，
: 而是愿意在金钱上给你付出，说明对你还是很有意思的。
:
: 他的

m*12013-11-03 07:11

44 楼

我想买GND，但是都很贵，只想买两个最常用的，请教一般用得最多的是哪种？

【在 w*********o 的大作中提到】

: 至少需要0.3 0.6 0.9 soft
: .6 .9 hard
: .9 reverse
: 6片在手才稳

g*r2013-11-03 07:11

45 楼

lol，big data更多的是一种商业模式上的创新吧，企业从自己已有的、或者可以收集
到的海量数据中挖掘有商业价值的东西，对企业的运作是个巨大的改进。涉及到的技术
上的东西，基本就存储（nosql）和处理（map reduce），但说白了nosql和map reduce
除了涉及点分布式计算的理论，相对于传统DB理论来说，真的是简单得多，没多少高级
货啊，就赶个时髦罢了

【在 b*******r 的大作中提到】

H*y2013-11-03 07:11

46 楼

难说
如果和平分手，金牛很喜欢帮人的。
不过otherwise, no way

【在 u********a 的大作中提到】

: 如果ex经济上有困难，你们会主动提出帮助她吗

w*o2013-11-03 07:11

47 楼

城市里面 0.6 0.9 soft
野外 0.6 0.9 hard
日落日出 reverse

【在 m******1 的大作中提到】

: 我想买GND，但是都很贵，只想买两个最常用的，请教一般用得最多的是哪种？

c*o2013-11-03 07:11

48 楼

BASE 是
Basically Available,
Soft State,
Eventual Consistency
本身倒是很让人误解，不过你就把它想成 trade consistency for availability.
ACID是trade availability for consistency

availability,
compared

【在 c******o 的大作中提到】

: big data的潮流来源于实际需求，而处理方法其实来源于BASE (compare to ACID)
: http://www.johndcook.com/blog/2009/07/06/brewer-cap-theorem-bas
: "Eric Brewer’s CAP theorem says that if you want consistency, availability,
: and partition tolerance, you have to settle for two out of three."
: "It’s harder to develop software in the fault-tolerant BASE world compared
: to the fastidious ACID world, but Brewer’s CAP theorem says you have no
: choice if you want to scale up."

C*92013-11-03 07:11

49 楼

深有感触啊....尤其是那句"大方给钱如同割肉"

【在 B*****7 的大作中提到】

c*y2013-11-03 07:11

50 楼

我发现用A900，可以省了0.6的GND了，哈哈

【在 x****c 的大作中提到】

: 我在想是不是再搞一块0.9 hard就凑活了
: 顶多加个0.9 reverse

g*g2013-11-03 07:11

51 楼

从数据库实现的角度讲，NoSQL DB不见得比传统数据库更复杂。
但从开发者的角度来说，NoSQL比RDBMS复杂太多了。RDBMS大同小异，而常见的NoSQL
就有10个左右。挑一个合适的本身就很见功底。

reduce

【在 g****r 的大作中提到】

: lol，big data更多的是一种商业模式上的创新吧，企业从自己已有的、或者可以收集
: 到的海量数据中挖掘有商业价值的东西，对企业的运作是个巨大的改进。涉及到的技术
: 上的东西，基本就存储（nosql）和处理（map reduce），但说白了nosql和map reduce
: 除了涉及点分布式计算的理论，相对于传统DB理论来说，真的是简单得多，没多少高级
: 货啊，就赶个时髦罢了

n*e2013-11-03 07:11

52 楼

金牛gg很大方的，俺认得的金牛gg以前经常给我买好吃的，现在不在一起，回国去也是
请我吃很贵的餐厅。他对自己的学生也很好，经常是请一个班吃烧烤，火锅啥的，都是
自己掏钱呢

c*y2013-11-03 07:11

53 楼

0.6, 0.9
baozi

【在 m******1 的大作中提到】

: 我想买GND，但是都很贵，只想买两个最常用的，请教一般用得最多的是哪种？

c*o2013-11-03 07:11

54 楼

我挺喜欢这个个家伙的这个blog
我觉得基本上都还中肯
http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
我只对mongodb, redis, Cassandra熟，觉得他写的不错。

【在 g*****g 的大作中提到】

: 从数据库实现的角度讲，NoSQL DB不见得比传统数据库更复杂。
: 但从开发者的角度来说，NoSQL比RDBMS复杂太多了。RDBMS大同小异，而常见的NoSQL
: 就有10个左右。挑一个合适的本身就很见功底。
:
: reduce

c*d2013-11-03 07:11

55 楼

没错,好像金牛没那么抠门.

【在 n****e 的大作中提到】

: 金牛gg很大方的，俺认得的金牛gg以前经常给我买好吃的，现在不在一起，回国去也是
: 请我吃很贵的餐厅。他对自己的学生也很好，经常是请一个班吃烧烤，火锅啥的，都是
: 自己掏钱呢

m*12013-11-03 07:11

56 楼

thank you very much!!

【在 w*********o 的大作中提到】

: 城市里面 0.6 0.9 soft
: 野外 0.6 0.9 hard
: 日落日出 reverse

h*h2013-11-03 07:11

57 楼

Strata NY上的slide? 哪个presentation?
上礼拜俺老板present后还得意洋洋的跟俺引用了这句话，说俺们actually get laid，
所以people are interested in the details...

【在 b*******r 的大作中提到】

t*s2013-11-03 07:11

58 楼

北密的色彩不错啊。你可以自己re自己的贴，再多放的吧？

【在 w*********o 的大作中提到】

: 上周去的，后期口味比较重
: 一个贴原来只能放1M的附件阿... 我自己压的基本都在300K左右所以就只能放3张了

z*e2013-11-03 07:11

59 楼

你不觉得它罗列了一堆下来，别人连看都看不完么？
就是光看一遍就很痛苦，别说最后记住了
我觉得从cap三个开始分，然后再细分，可以很容易滴定位各种persistence产品

【在 c******o 的大作中提到】

: 我挺喜欢这个个家伙的这个blog
: 我觉得基本上都还中肯
: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
: 我只对mongodb, redis, Cassandra熟，觉得他写的不错。

w*o2013-11-03 07:11

60 楼

【在 w*********o 的大作中提到】

: 上周去的，后期口味比较重
: 一个贴原来只能放1M的附件阿... 我自己压的基本都在300K左右所以就只能放3张了

s*r2013-11-03 07:11

61 楼

big data就是解放了生产力，让以前不太重要的data能像DB一样存放，关键是成本低廉
。这年头硬盘和CPU都不值钱，Oracle的license死贵。没有big data，不重要的数据就
只能放弃，比如用户在界面上的活动规律，不可能用RMDB来存取。
有了big data，想存什么data都没不用计较成本，对于data mining立马进入新时代。

【在 o****u 的大作中提到】

t*s2013-11-03 07:11

62 楼

我觉得拍得挺好。有些地点一般都需要事先踩点的，要不就是热点。

g*r2013-11-03 07:11

63 楼

看你干啥，你要是想用NoSql搞ACID，那你绝对NB。但大部分用NoSql的基本就是当data
ware house或者是存trace用的，真谈不上有啥复杂的，而且NoSql就那几种类型，key
-value，document，table column，graph，每个类型里面也就那个几种，真需要用需
要决定选哪个，网上那么多技术博客、论坛，google半小时差不多就知道那个更合适了

【在 g*****g 的大作中提到】

d*02013-11-03 07:11

64 楼

reverse是啥？zkss

【在 x****c 的大作中提到】

: 我在想是不是再搞一块0.9 hard就凑活了
: 顶多加个0.9 reverse

g*g2013-11-03 07:11

65 楼

扯蛋呀，俺们用Cassandra，一切从性能出发。所有的query都要计划好，一旦没考虑到
就面临很麻烦的migration。随便一个索引，都是composite column实现，比SQL可是
复杂太多了。
我老在无数场合说过，每次用NoSQL之前都要先想想有没有必要。不是大数据一般都是
overkill。

data
key

【在 g****r 的大作中提到】

: 看你干啥，你要是想用NoSql搞ACID，那你绝对NB。但大部分用NoSql的基本就是当data
: ware house或者是存trace用的，真谈不上有啥复杂的，而且NoSql就那几种类型，key
: -value，document，table column，graph，每个类型里面也就那个几种，真需要用需
: 要决定选哪个，网上那么多技术博客、论坛，google半小时差不多就知道那个更合适了

d*02013-11-03 07:11

66 楼

A900拍糖水照怎么样？除了威武的菜头还有啥别的中低端头可以用不？

【在 c********y 的大作中提到】

: 我发现用A900，可以省了0.6的GND了，哈哈

p*r2013-11-03 07:11

67 楼

每次IT界一出新名词，就意味着新一轮的忽悠又开始了。
学术界我不懂，但是工业领域，其实都是实战出真知，
什么大数据，云计算，都是忽悠。
而且，很多公司需求都没到那个级别，也跟着上，
上了之后都不明白啥是啥，那不是扯淡吗。
别人是百万美军对德军，需要空中火力支援，
你丫打个小鹿，也跟人学来套海陆空配合。
结果猎物没打着，强大火力系统把自己给绕进去了。。

c*y2013-11-03 07:11

68 楼

挺好，不用GND了。
中低端头还是不少的吧，反正拍糖水，缩到f11，大家都差不多

【在 d*****0 的大作中提到】

: A900拍糖水照怎么样？除了威武的菜头还有啥别的中低端头可以用不？

g*r2013-11-03 07:11

69 楼

query经常变或者很难一开始就确定的应用场景，用nosql根本就不合适，你用算盘去做
原来计算器要干的活当然复杂了。你用RDBMS去搞分布式、搞sharding，也很复杂

【在 g*****g 的大作中提到】

: 扯蛋呀，俺们用Cassandra，一切从性能出发。所有的query都要计划好，一旦没考虑到
: 就面临很麻烦的migration。随便一个索引，都是composite column实现，比SQL可是
: 复杂太多了。
: 我老在无数场合说过，每次用NoSQL之前都要先想想有没有必要。不是大数据一般都是
: overkill。
:
: data
: key

S*e2013-11-03 07:11

70 楼

请问照片1、2，DSC_6976和DSC_6976分别具体在什么位置呀？
谢谢

【在 w*********o 的大作中提到】

: 上周去的，后期口味比较重
: 一个贴原来只能放1M的附件阿... 我自己压的基本都在300K左右所以就只能放3张了

g*g2013-11-03 07:11

71 楼

RDMBS达不到我们所需要的high availability和scalability，没得选。MySQL
sharding可能可以做到，但不比用Cassandra简单。

【在 g****r 的大作中提到】

: query经常变或者很难一开始就确定的应用场景，用nosql根本就不合适，你用算盘去做
: 原来计算器要干的活当然复杂了。你用RDBMS去搞分布式、搞sharding，也很复杂

w*o2013-11-03 07:11

72 楼

图1
(46.81962133256642, -89.70107316970825)
图2
(47.47916032149414, -87.9324460029602)
6976
(47.42643236177101, -88.01430702209473)
位置不一定准，我只是粗略得找了一下

【在 S***e 的大作中提到】

: 请问照片1、2，DSC_6976和DSC_6976分别具体在什么位置呀？
: 谢谢

N*n2013-11-03 07:11

73 楼

BD is mostly used to store the internet JUNK data such as web pages,
blogs, comments, thumb-up, etc. It's a big pile but has little value
so BD indeed simply stores a big pile of garbage, which is why such
data is unstructured to begin w/. BD is merely hype.

【在 p**r 的大作中提到】

: 每次IT界一出新名词，就意味着新一轮的忽悠又开始了。
: 学术界我不懂，但是工业领域，其实都是实战出真知，
: 什么大数据，云计算，都是忽悠。
: 而且，很多公司需求都没到那个级别，也跟着上，
: 上了之后都不明白啥是啥，那不是扯淡吗。
: 别人是百万美军对德军，需要空中火力支援，
: 你丫打个小鹿，也跟人学来套海陆空配合。
: 结果猎物没打着，强大火力系统把自己给绕进去了。。

R*d2013-11-03 07:11

74 楼

喜欢新加的这些。

【在 w*********o 的大作中提到】

g*g2013-11-03 07:11

75 楼

Saving is just one part of puzzle, extracting useful info out of it is
another,
that's why it's called big data analysis and Hadoop et al. is burning hot.
Hype or not, there's money to be made and we are talking about trillion
dollar
business. Internet and smartphone were a hype too. Just a quote from your
boss SB. I don't know how many times you need to be proven wrong until you
can stop your bullshit.
"Now we'll get a chance to go through this again in phones and music players
. There's no chance that the iPhone is going to get any significant market
share. No chance. It's a $500 subsidized item. They may make a lot of money.
But if you actually take a look at the 1.3 billion phones that get sold, I'
d prefer to have our software in 60% or 70% or 80% of them, than I would to
have 2% or 3%, which is what Apple might get."

【在 N********n 的大作中提到】

:
: BD is mostly used to store the internet JUNK data such as web pages,
: blogs, comments, thumb-up, etc. It's a big pile but has little value
: so BD indeed simply stores a big pile of garbage, which is why such
: data is unstructured to begin w/. BD is merely hype.

I*y2013-11-03 07:11

76 楼

我们公司做near real-time reporting on customer data. 一开始是用mongo后来发现
需要很多一定conditions下 count的操作，mongo的performance很不好。所以最后全转
投Relational databases 用OLAP　(fact + dimension tables) 快好多。本人是门外
汉，不清楚到底是mongo不擅长这样的application还是我们mongo dba设计的不够好。

c*o2013-11-03 07:11

77 楼

from what I know the recent BD wave begin from G/F/T (Google BigTable is the
root of many NoSQL)
Look at how they used it,
Google => web indexing, "My Search History", Google Earth, Google Code
hosting, Orkut, YouTube, and Gmail
Facebook => Inbox Search, Instagram unit, primary big data analytical store,
messages and monitoring (still mainly use sharded MySQL though, with a lot
of optimization and not really use a lot of relational logic)
Twitter =>Analytical data (like Facebook, still mostly customized MySQL
based store as backend)
As you can see, Google/Facebook using NoSQL to do a lot of critical things,
you can bot say it is garbage.
But they also use NoSQL with highly customized query engine layer.
I agree though, Big Data is really not for small companies, no one really
hit the Big Data for small companies
Even twitter, not really "big" enough, only Google really used NoSQL in
great extent, but of course, Big table is not just NoSQL, and alot times not
really used as NoSQL
NoSQL不是啥好的名词，太多不同的东西都被称为NoSQL, 其实唯一一样的特点就是“没
有SQL"
对于小公司来说，其实NoSQL很多时候不是用于bigdata, 而是用于“我不需要sql"

【在 N********n 的大作中提到】

N*m2013-11-03 07:11

78 楼

是mongo不行

。

【在 I******y 的大作中提到】

: 我们公司做near real-time reporting on customer data. 一开始是用mongo后来发现
: 需要很多一定conditions下 count的操作，mongo的performance很不好。所以最后全转
: 投Relational databases 用OLAP　(fact + dimension tables) 快好多。本人是门外
: 汉，不清楚到底是mongo不擅长这样的application还是我们mongo dba设计的不够好。

c*o2013-11-03 07:11

79 楼

mongodb count()很差， 2.4 好一点了 https://jira.mongodb.org/browse/SERVER-
1752
mongodb performance和内存有关，和index／shard key的关系很大，
shard mongodb 和 index creation是很有学问的。
还有的就是mongodb 的写lock是per db,不是per collection的。
所以mongodb只适合于一定的东西。

。

【在 I******y 的大作中提到】

g*g2013-11-03 07:11

80 楼

Applications using M$ stack typically are not big enough to take advantage
of NoSQL DBs. I am not surprised M$ people talking NoSQL as hype because it'
s something they don't understand.

the
store,
lot

【在 c******o 的大作中提到】

: from what I know the recent BD wave begin from G/F/T (Google BigTable is the
: root of many NoSQL)
: Look at how they used it,
: Google => web indexing, "My Search History", Google Earth, Google Code
: hosting, Orkut, YouTube, and Gmail
: Facebook => Inbox Search, Instagram unit, primary big data analytical store,
: messages and monitoring (still mainly use sharded MySQL though, with a lot
: of optimization and not really use a lot of relational logic)
: Twitter =>Analytical data (like Facebook, still mostly customized MySQL
: based store as backend)

g*g2013-11-03 07:11

81 楼

I don't think any distributed DB will do well on count. You can always use a
mixed approach though.

。

【在 I******y 的大作中提到】

s*b2013-11-03 07:11

82 楼

简单的distributed count再好实现不过了。凡是属于monoid的操作都是程序猿的好朋
友。也有现成的DB做这个。您老是Netflix的，可以到go/logsummary，或者go/rt-doc
体验一下。;-)

a

【在 g*****g 的大作中提到】

: I don't think any distributed DB will do well on count. You can always use a
: mixed approach though.
:
: 。

z*e2013-11-03 07:11

83 楼

mongo就是纯内存的hbase
nosql中的异类，通过把索引全部读入内存来提速
这是很荒谬的一种手段，也是随着系统增加，消耗资源逐步增加的玩意

【在 N*****m 的大作中提到】

: 是mongo不行
:
: 。

g*g2013-11-03 07:11

84 楼

Real time accurate count is different from log aggregation, the latter has
neither real time requirement nor high consistency.
Cassandra takes a labor to implement a distributed count and still has
limitation, I wouldn't use it for accounting purpose.
http://www.datastax.com/wp-content/uploads/2011/07/cassandra_sf

doc

【在 s*********b 的大作中提到】

: 简单的distributed count再好实现不过了。凡是属于monoid的操作都是程序猿的好朋
: 友。也有现成的DB做这个。您老是Netflix的，可以到go/logsummary，或者go/rt-doc
: 体验一下。;-)
:
: a

b*s2013-11-03 07:11

85 楼

但是快啊

【在 z****e 的大作中提到】

: mongo就是纯内存的hbase
: nosql中的异类，通过把索引全部读入内存来提速
: 这是很荒谬的一种手段，也是随着系统增加，消耗资源逐步增加的玩意

z*e2013-11-03 07:11

86 楼

db也不慢啊，我有那么大内存，我还需要nosql干嘛？

【在 b*******s 的大作中提到】

: 但是快啊

s*b2013-11-03 07:11

87 楼

嗯，需求不一样。不过那log summary不是简单的log aggregation，而是cube数据库的
一个应用，count小意思。数据库本身是够real-time了。不到一秒的延迟而已。

【在 g*****g 的大作中提到】

: Real time accurate count is different from log aggregation, the latter has
: neither real time requirement nor high consistency.
: Cassandra takes a labor to implement a distributed count and still has
: limitation, I wouldn't use it for accounting purpose.
: http://www.datastax.com/wp-content/uploads/2011/07/cassandra_sf
:
: doc

N*n2013-11-03 07:11

88 楼

If there's really "trillion" dollar to make then Yahoo would have made
it already. They've been using HADOOP since 2006, right? That's 7 years
in their hand to deliver. 7 years in tech world feels like a century.
If after 7 years they still earn far less than the other tech companies
then this HADOOP thing is not as useful as hyped.
Like I said it matters not how big a pile of data Hadoop is able to
store. If the data is worthless to begin w/ then there's no value to
mine from it. Useful data is usually structured.

【在 g*****g 的大作中提到】

: Saving is just one part of puzzle, extracting useful info out of it is
: another,
: that's why it's called big data analysis and Hadoop et al. is burning hot.
: Hype or not, there's money to be made and we are talking about trillion
: dollar
: business. Internet and smartphone were a hype too. Just a quote from your
: boss SB. I don't know how many times you need to be proven wrong until you
: can stop your bullshit.
: "Now we'll get a chance to go through this again in phones and music players
: . There's no chance that the iPhone is going to get any significant market

A*g2013-11-03 07:11

89 楼

听起来还真有点道理...

【在 N********n 的大作中提到】

:
: If there's really "trillion" dollar to make then Yahoo would have made
: it already. They've been using HADOOP since 2006, right? That's 7 years
: in their hand to deliver. 7 years in tech world feels like a century.
: If after 7 years they still earn far less than the other tech companies
: then this HADOOP thing is not as useful as hyped.
: Like I said it matters not how big a pile of data Hadoop is able to
: store. If the data is worthless to begin w/ then there's no value to
: mine from it. Useful data is usually structured.

z*e2013-11-03 07:11

90 楼

其实big data不仅仅是big
有四个v要考虑
volume以外，有一个variety，无schema的数据是一个大特点
然后会引发velocity和veracity的问题
那么如何提高velocity和veracity就是下一步需要解决的
hadoop作为一个大的名词，没有太多意义
拆开，hbase作为一个存放数据的方式，其性能可以直接拿来比较各个db以及nosql产品
很多论据都证明，hbase性能强于其它db或者nosql产品
那么用hbase搞volume是合理的，下一步就是如何提速和提高精准度了
那这个可以有很多种方式解决，光依赖hadoop就指望解决所有问题
是懒汉的想法，实际上我都主张拆开大项目的components
然后根据实际情况自由组合使用

z*e2013-11-03 07:11

91 楼

hadoop和spring还有ejb一样
越来越成为一种概念，升华成一整套工具的集合名词
不能说用hadoop就解决所有问题
还需要人为介入，针对实际情况做具体分析
而不是盲目滴推给hadoop
这就是ecosystem

g*g2013-11-03 07:11

92 楼

You have the users, then you have the data, then big data analysis gives you
extra values that couldn't be done. yahoo don't have the users to begin with
. trillion is the
amount for this industry. And company like Rocket fuel already ipo with 5b
valuation.

【在 N********n 的大作中提到】