大牛们，请教大数据系统如何架构 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Programming - 葵花宝典

大牛们，请教大数据系统如何架构

大牛们，请教大数据系统如何架构# Programming - 葵花宝典

e*82015-11-11 08:11

1 楼

爸妈第一次坐国际航班，本想回家带他们过来，可是返美证2个多月了还没下来，只好
让他们硬着头皮走吧，不知道有谁同路，可以帮忙一下，不胜感激。 11月30日，北京
到芝加哥 UA 850.

w*n2015-11-11 08:11

2 楼

我妈这次是签了10年有效的B2签证来美的，入境时是今年5月底，海关给的6个月居留时
间（到11月底）。
最近带着妈妈去Mexico去旅游了一个礼拜，回来后机场CBP官员在妈妈的护照上盖了红
戳，然后给了新的6个月居留时间（到明年4月底）。
我想问是不是这意味着我妈在美国的合法居留时间被延期到明年4月？这样是不是和在
美国境内递交延期申请有一样的效果？如果是，我在考虑给我妈改机票，让她多呆两个
月。
不知道这样做会有什么不好的后果，比如，10年签证会取消，或者下次来美的时候会给
很短的居留时间？
在这里先拜谢各位！

d*u2015-11-11 08:11

3 楼

看来认识很久了

t*o2015-11-11 08:11

4 楼

如果上次退出的时候，是搜狗拼音。好像下次登陆的时候也就是搜狗拼音，而且不知道
如何切换成英文，才好输密码

s*e2015-11-11 08:11

5 楼

不知道在哪里能找到亚
谢谢大家啦！

h*e2015-11-11 08:11

6 楼

问一个大数据系统架构的事情。
国内同学想找我合作一个跟大数据有关的项目。第一步，跟大家一样，都是在互联网上
采集大量数据，提纯去杂做一些处理后，要开个web服务器显示一些统计信息。用传统
的mysql方式肯定是不行了，数据采集量基本每天都超过1000万条了。采集量太大，而
且采集数据的渠道太多，太杂。考虑用大数据的方式来搞，但是不是很精通这一块。
要求是能横向扩容服务器来解决将来数据量增大的问题，另外，采集是流式的不断流入
数据，显示数据的时候也需要尽快的显示出最新的变化，能做到5分钟内更新采集到的
数据最好。
请教大牛们，这种方式该怎么设计系统，基于哪些模块或者软件开发最好？一定要靠谱
点，不冒出一堆坑的比较好！

f*n2015-11-11 08:11

7 楼

不知道这是什么意思。那如果你回中国再回来，CBP给你6个月，也是“意味着在美国的
合法居留时间被延期”吗？
只要I-94给到什么时候，就可以留到什么时候。
不会
任何时候进入美国CBP都有可能拒绝入境或给短的居留时间。

【在 w*****n 的大作中提到】

: 我妈这次是签了10年有效的B2签证来美的，入境时是今年5月底，海关给的6个月居留时
: 间（到11月底）。
: 最近带着妈妈去Mexico去旅游了一个礼拜，回来后机场CBP官员在妈妈的护照上盖了红
: 戳，然后给了新的6个月居留时间（到明年4月底）。
: 我想问是不是这意味着我妈在美国的合法居留时间被延期到明年4月？这样是不是和在
: 美国境内递交延期申请有一样的效果？如果是，我在考虑给我妈改机票，让她多呆两个
: 月。
: 不知道这样做会有什么不好的后果，比如，10年签证会取消，或者下次来美的时候会给
: 很短的居留时间？
: 在这里先拜谢各位！

k*n2015-11-11 08:11

8 楼

第一集出来时就有人贴了

【在 d*****u 的大作中提到】

: 看来认识很久了

H*z2015-11-11 08:11

9 楼

....新来的吧，搜狐的话按shift不就切换了？换输入法的话，command+ 空格也行啊

l*i2015-11-11 08:11

10 楼

现在随便注册了吧。。。

d*e2015-11-11 08:11

11 楼

这个需求蛮典型的。你需要加一个data process pipeline.
经验是，processer做成异步service.
中间用message queue连起来。
CQRS。临时存储c*.最后msql或者直接query c*.
很多devops,logging, montior，reporting, management ui的东西。
大牛准备雇佣几个人做？

【在 h******e 的大作中提到】

: 问一个大数据系统架构的事情。
: 国内同学想找我合作一个跟大数据有关的项目。第一步，跟大家一样，都是在互联网上
: 采集大量数据，提纯去杂做一些处理后，要开个web服务器显示一些统计信息。用传统
: 的mysql方式肯定是不行了，数据采集量基本每天都超过1000万条了。采集量太大，而
: 且采集数据的渠道太多，太杂。考虑用大数据的方式来搞，但是不是很精通这一块。
: 要求是能横向扩容服务器来解决将来数据量增大的问题，另外，采集是流式的不断流入
: 数据，显示数据的时候也需要尽快的显示出最新的变化，能做到5分钟内更新采集到的
: 数据最好。
: 请教大牛们，这种方式该怎么设计系统，基于哪些模块或者软件开发最好？一定要靠谱
: 点，不冒出一堆坑的比较好！

y*02015-11-11 08:11

12 楼

帮定一下, 感觉是个好消息。如果能在墨西哥或者加拿大拿到延期, 真的方便很多。
希望不是个例。期待更多人来确认

【在 w*****n 的大作中提到】

d*u2015-11-11 08:11

13 楼

哦，我没有一直follow不太清楚

【在 k*****n 的大作中提到】

: 第一集出来时就有人贴了

t*o2015-11-11 08:11

14 楼

登陆之后，是按command space,但是再登陆界面上，按什么都不管用

【在 H***z 的大作中提到】

: ....新来的吧，搜狐的话按shift不就切换了？换输入法的话，command+ 空格也行啊

d*g2015-11-11 08:11

15 楼

现在不用邀请，随便申

【在 s******e 的大作中提到】

: 不知道在哪里能找到亚
: 谢谢大家啦！

w*z2015-11-11 08:11

16 楼

We use Kafka as message queue
We write own code to consume Kafka messages and write them to datastore.
Depending on your use case, you need to pick correct data store for you.
Then you can use Spark or Hadoop to read off the Datastore.
We end up writing our own datastore since none of the ones out there meet
our use case.

【在 d******e 的大作中提到】

: 这个需求蛮典型的。你需要加一个data process pipeline.
: 经验是，processer做成异步service.
: 中间用message queue连起来。
: CQRS。临时存储c*.最后msql或者直接query c*.
: 很多devops,logging, montior，reporting, management ui的东西。
: 大牛准备雇佣几个人做？

l*g2015-11-11 08:11

17 楼

个案。上回我们家上坎昆回来还是原先的exp date.

d*r2015-11-11 08:11

18 楼

如胶似漆，我烦透了。

s*e2015-11-11 08:11

19 楼

能给各link吗？

N*m2015-11-11 08:11

20 楼

你不是用c*的吗？

【在 w**z 的大作中提到】

: We use Kafka as message queue
: We write own code to consume Kafka messages and write them to datastore.
: Depending on your use case, you need to pick correct data store for you.
: Then you can use Spark or Hadoop to read off the Datastore.
: We end up writing our own datastore since none of the ones out there meet
: our use case.

k*o2015-11-11 08:11

21 楼

这次多呆本身没关系，因为你也没有申请延期，不会触发任何剧情。下一次最好至少呆
上1年再来美国，要不然容易被CBP抓辫子说移民倾向。移民倾向是欲加之罪，没有绝对
安全的方法避免，如果要安全，应对策略只能是尽量在已知范畴里避开陷阱。真的被扣
上帽子，只能认倒霉。

【在 w*****n 的大作中提到】

a*92015-11-11 08:11

22 楼

一直不喜欢朱，感觉他经常节奏都不准，声音也没有特别强，还不如阚立文有特色。据
说还进了那英组四强，不知道为什么。

s*32015-11-11 08:11

23 楼

https://www.google.com/voice/
不知道现在apps那么多，kik or whatsapp or talk box，google vocie还有没有发展
空间？

g*g2015-11-11 08:11

24 楼

狗一下lambda architecture。如果你不需要batch processing，只需要streaming，那
用streaming的部分就好。
常见的轮子就是Kafka做MQ，C* 做存储。Storm, Spark, Hadoop做处理。

【在 h******e 的大作中提到】

a*l2015-11-11 08:11

25 楼

这明明是cbp的人疏忽又给了你半年时间，根本就不是延期，你可以将错就错多呆半年
，但是下次入关很可能被问为啥呆了一年。

【在 w*****n 的大作中提到】

n*y2015-11-11 08:11

26 楼

唱得很业余，节奏音准问题多多，不过音色还不错。
那英和黄73也是老朋友了。

【在 a*****9 的大作中提到】

: 一直不喜欢朱，感觉他经常节奏都不准，声音也没有特别强，还不如阚立文有特色。据
: 说还进了那英组四强，不知道为什么。

M*t2015-11-11 08:11

27 楼

我还以为我翻到一年前的旧贴了呢。。。。

【在 s******e 的大作中提到】

: 不知道在哪里能找到亚
: 谢谢大家啦！

J*R2015-11-11 08:11

28 楼

基本上就是我们在干的事情。大概架构就是：
数据源->前台 web server收集数据->processing server(data pre aggregation)->
kafka->processing server (data aggregation)->staging data in Hbase or C*
后台web server query Hbase or C* for report.
data aggregation 如果是off line的就用mapreduce, spark什么的，如果是streaming
就用相应的streaming framework.或者干脆自己写。

【在 h******e 的大作中提到】

j*n2015-11-11 08:11

29 楼

是啊，
要被那是刘欢的徒弟
朱克是黄73的好有
萱萱是校友，
侯磊为自己写过歌。

【在 n***y 的大作中提到】

: 唱得很业余，节奏音准问题多多，不过音色还不错。
: 那英和黄73也是老朋友了。

d*r2015-11-11 08:11

30 楼

就是说 Storm, Spark, Hadoop 这些是接在 C* 后面吧，从 C* 里按要求提出数据?
如果有 ES, 估计也是接到 C* 后面吧.
C* 放在中间层主要为了提供灵活性，是不是?
毕竟从 Kafka 里提取数据，检索功能有限, Kafka 就当一个巨大 buffer 用?

【在 g*****g 的大作中提到】

: 狗一下lambda architecture。如果你不需要batch processing，只需要streaming，那
: 用streaming的部分就好。
: 常见的轮子就是Kafka做MQ，C* 做存储。Storm, Spark, Hadoop做处理。

M*u2015-11-11 08:11

31 楼

这两个多大岁数了，还大头贴，黄妈狠甜蜜。

【在 d*****u 的大作中提到】

: 看来认识很久了

g*g2015-11-11 08:11

32 楼

Streaming处理在C*前，batch处理在C*后。

【在 d*******r 的大作中提到】

: 就是说 Storm, Spark, Hadoop 这些是接在 C* 后面吧，从 C* 里按要求提出数据?
: 如果有 ES, 估计也是接到 C* 后面吧.
: C* 放在中间层主要为了提供灵活性，是不是?
: 毕竟从 Kafka 里提取数据，检索功能有限, Kafka 就当一个巨大 buffer 用?

o*c2015-11-11 08:11

33 楼

这是老婆去世前还是后啊？

d*r2015-11-11 08:11

34 楼

请教，这个 processing server(data pre aggregation) 是指初步的数据处理吧?
比如这些ID来的数据，每分钟 aggregate 一次，有些fields去掉，可能有用的fields
保留.
这一步需要的数据处理能力很小, 不用轮子，基本手写点简单的逻辑就行?

streaming

【在 J****R 的大作中提到】

: 基本上就是我们在干的事情。大概架构就是：
: 数据源->前台 web server收集数据->processing server(data pre aggregation)->
: kafka->processing server (data aggregation)->staging data in Hbase or C*
: 后台web server query Hbase or C* for report.
: data aggregation 如果是off line的就用mapreduce, spark什么的，如果是streaming
: 就用相应的streaming framework.或者干脆自己写。

d*r2015-11-11 08:11

35 楼

这个赞 http://lambda-architecture.net
Mark 了慢慢看, 多谢

【在 g*****g 的大作中提到】

w*z2015-11-11 08:11

36 楼

换工作了，新地方，use case 比较特别，C＊不好用，自己写了一个。

【在 N*****m 的大作中提到】

: 你不是用c*的吗？

w*z2015-11-11 08:11

37 楼

大家干的都差不多，我们在写到Kafka的同时也写到S3。 Kafka 的consumer 写到后面
的data store做实时处理。Hadoop 是run 在S3的data 上做比较详细的数据分析。

streaming

【在 J****R 的大作中提到】

x*12015-11-11 08:11

38 楼

amazon kinesis / EMR cluster

d*r2015-11-11 08:11

39 楼

C＊不好用，自己写了一个
-_-! 牛

【在 w**z 的大作中提到】

: 换工作了，新地方，use case 比较特别，C＊不好用，自己写了一个。

j*82015-11-11 08:11

40 楼

这个贴信息量很大阿，mark！

j*82015-11-11 08:11

41 楼

这个贴信息量很大阿，mark！

j*82015-11-11 08:11

42 楼

这个贴信息量很大阿，mark！

w*z2015-11-11 08:11

43 楼

我们当然不会做的向C*那么general, 只是适合我们的use case 其实原理有点像 big
table, 把data sort 好写在hard drive 上， query 起来就会快一点。

【在 d*******r 的大作中提到】

: C＊不好用，自己写了一个
: -_-! 牛

h*e2015-11-11 08:11

44 楼

初步打算招两个Java开发人员负责这一块。
在国内做，不知道能不能用amazon的那些服务。不行的话，估计得自己搭数据平台了。
先上20台24核/32G的服务器，分别做采集，分析，存储，数据库，web服务器，这样的
硬件配置是不是够了？
几年前学过一些hadoop，大牛们说的这些都没听过，孤陋寡闻了。
需要看那些资料，能尽快进入角色？

h*e2015-11-11 08:11

45 楼

w*z2015-11-11 08:11

46 楼

国内也有很多云服务，千万别自己买机器。

【在 h******e 的大作中提到】

: 初步打算招两个Java开发人员负责这一块。
: 在国内做，不知道能不能用amazon的那些服务。不行的话，估计得自己搭数据平台了。
: 先上20台24核/32G的服务器，分别做采集，分析，存储，数据库，web服务器，这样的
: 硬件配置是不是够了？
: 几年前学过一些hadoop，大牛们说的这些都没听过，孤陋寡闻了。
: 需要看那些资料，能尽快进入角色？

t*r2015-11-11 08:11

47 楼

0. data gathering: use whatever scripts and generate some csv files.
1. ETL phase: use hadoop or pig to process and save result to cassandra or
mongodb.
2. online streaming process. Usually use kafka as queue and use either storm
or spark streaming to process it quickly.
3. off line analysis: use hadoop mapredue or spark to do detailed analysis.
4. data persistence: save to s3 / hdfs , or cassandra
5. you may need cache layer. No need to hit DB or process query every time.
candidates are memcache or redis. (prefer redis)

z*e2015-11-11 08:11

48 楼

我说说我的经验吧
我个人觉得，mq其实很难用
msg还是以json为佳
因为如果是其他的，尤其是serialisable的object
可读性不强
其次broker本身会产生严重的依赖
你测试就很麻烦
尤其是本机测试，你要连到mq上去
折腾啊，而且强依赖，所有的system都会依赖这个mq
所以我建议干掉mq，mq基本上都是一个坑
而且很多mq都没有直接监听的端口什么的，测试起来很成问题
建议直接http+json就好了
便于测试，或者像vert.x一样，有自己的msg bus
然后就用msg bus传json就好了，vert.x用的是web scoekt协议
用shell service可以直接看bus里面传递的消息
非常方便，便于测试，坑少很多
另外呢，如果你想做persistence，你这种明显没有什么规律的数据
建议直接用file system就好了，不需要用c*
因为c*很大，东西比较多，有cql固然方便，但是这个是基于index的查找
所以你要想清楚，你这个数据到底是semi-structured的，也就是有明显的index的
还是unstructured的，像网页一样完全无规律
如果是semi->c*，如果是unstructure->file system(e.g. hdfs)
两个都可以用elastic search，但是elastic search主要针对无规则数据
有规则的找index（c*）
还有呢，streaming这个无所谓，你不用storm也可以
自己做也没啥大不了的，rxjava，java8都可以

w*m2015-11-11 08:11

49 楼

你想太复杂了。被同学忽悠了吧。
设想你一个processor一天抓60*60*24 ＝ 86400条
10M的流量只要115个processors。
五台PC就可以搞定。
10M的message，都是json的话，一条最多1KB。一天10GB，一个月300GB。传统的架构完
全可以满足。

d*i2015-11-11 08:11

50 楼

严重同意，前几天刚看到比这个数据量大的多的case, 八台机器，MySQL加上一些PHP,
Python代码用来做做ETL加data processing完全可以搞定，进了现在这么多hype的忽悠
坑出来就不容易了。

【在 w********m 的大作中提到】

: 你想太复杂了。被同学忽悠了吧。
: 设想你一个processor一天抓60*60*24 ＝ 86400条
: 10M的流量只要115个processors。
: 五台PC就可以搞定。
: 10M的message，都是json的话，一条最多1KB。一天10GB，一个月300GB。传统的架构完
: 全可以满足。

d*e2015-11-11 08:11

51 楼

mq是必须的。data 来的时候通常是一个spike.你http要配多强大才好? 丢数据,
connection reject怎么半。http 当了你怎么retry.必要要mq熨平数据流。

【在 z****e 的大作中提到】

: 我说说我的经验吧
: 我个人觉得，mq其实很难用
: msg还是以json为佳
: 因为如果是其他的，尤其是serialisable的object
: 可读性不强
: 其次broker本身会产生严重的依赖
: 你测试就很麻烦
: 尤其是本机测试，你要连到mq上去
: 折腾啊，而且强依赖，所有的system都会依赖这个mq
: 所以我建议干掉mq，mq基本上都是一个坑

d*e2015-11-11 08:11

52 楼

两头码农差不多。你的这个东西估计io为主。24核over kill了。
不如劈成4 -6核8-12G的虚拟机。估计10台vm开始就够了。

【在 h******e 的大作中提到】

g*g2015-11-11 08:11

53 楼

一个主流的架构不在于用的机器最少，而在于自己要写的代码少，坑少，扩展性好，换
人也能维护。
wwzz让上云也是经验之谈，有天来了大姨妈流量大了，现去买机器就要侧漏了。

【在 w********m 的大作中提到】

J*R2015-11-11 08:11

54 楼

storm, spark, hadoop 可以用来做aggregation，具体要看你们的user case。如果用
spark, hadoop接在data store后面做query的话，要看你们出什么类型的report，要求
的响应时间是多少。如果是customized ad hoc query，并且要实时显示report，那用
这些query就不太方便了，可能自己写一个query engine还好一点。如果query的数据量
不小的话，最好自己写点code 用coprocessor,user defined functions 这类东西处理
，能有效的减少响应时间。
c*,hbase这些东西也不是包治百病的，query的数据量大了一样很慢，还是得把计算挪
到cluster上去比较有效。如果你们的report比较固定，那可以用空间换时间，做点pre
process，query起来不管数据量大小都会很快。

【在 d*******r 的大作中提到】

w*z2015-11-11 08:11

55 楼

这年头startup不上云，就是自己找不痛快，有时间精力折腾机器，干点啥不好？那是
commodity, 不给你增加任何value.

【在 g*****g 的大作中提到】

: 一个主流的架构不在于用的机器最少，而在于自己要写的代码少，坑少，扩展性好，换
: 人也能维护。
: wwzz让上云也是经验之谈，有天来了大姨妈流量大了，现去买机器就要侧漏了。

d*r2015-11-11 08:11

56 楼

大牛已经跳 startup 啦，startup 中 java shop 的分布如何?

【在 w**z 的大作中提到】

: 这年头startup不上云，就是自己找不痛快，有时间精力折腾机器，干点啥不好？那是
: commodity, 不给你增加任何value.

g*g2015-11-11 08:11

57 楼

UAP 里U全是Python，只有大数据一块是Java。A前端Ruby后端Java，P前端Python，后
端Java，Python，Go。

【在 d*******r 的大作中提到】

: 大牛已经跳 startup 啦，startup 中 java shop 的分布如何?

d*r2015-11-11 08:11

58 楼

多谢, 好像U也有不少Node, 不过按照你的划分，可以算到前端部分

【在 g*****g 的大作中提到】

: UAP 里U全是Python，只有大数据一块是Java。A前端Ruby后端Java，P前端Python，后
: 端Java，Python，Go。

g*g2015-11-11 08:11

59 楼

U的前端是mobile吧，A基本是 web. P两者都有一些。U内部网站用点 Node倒是不奇怪。

【在 d*******r 的大作中提到】

: 多谢, 好像U也有不少Node, 不过按照你的划分，可以算到前端部分

d*r2015-11-11 08:11

60 楼

想来自己做后端还准备 Java, Python 双修，回头有机会认真搞搞 Java

怪。

【在 g*****g 的大作中提到】

: U的前端是mobile吧，A基本是 web. P两者都有一些。U内部网站用点 Node倒是不奇怪。

w*z2015-11-11 08:11

61 楼

我过去四年一直在startup，前一个没搞头，换了一个。楼下古德吧对hot startup 搞
得很清楚。

【在 d*******r 的大作中提到】

: 大牛已经跳 startup 啦，startup 中 java shop 的分布如何?

d*r2015-11-11 08:11

62 楼

大牛觉得现在 startup 用 Python 多，还是 Java 多?
我指的是总体情况，1~2 流的都包括的话.
goodbug 上面列的都是明星 startup, 属于一流.

【在 w**z 的大作中提到】

: 我过去四年一直在startup，前一个没搞头，换了一个。楼下古德吧对hot startup 搞
: 得很清楚。

d*e2015-11-11 08:11

63 楼

starup没功夫用 java。
要么node, python,要么scala。
等做到一定规模，性能会有问题了，才考虑转java或者其他的。

【在 d*******r 的大作中提到】

: 大牛觉得现在 startup 用 Python 多，还是 Java 多?
: 我指的是总体情况，1~2 流的都包括的话.
: goodbug 上面列的都是明星 startup, 属于一流.

d*r2015-11-11 08:11

64 楼

我以前也这么想，现在看来好像也不全对，
Java dev也不是那么笨重，主要是Java盘子大，自己也一直在演化.

【在 d******e 的大作中提到】

: starup没功夫用 java。
: 要么node, python,要么scala。
: 等做到一定规模，性能会有问题了，才考虑转java或者其他的。

w*z2015-11-11 08:11

65 楼

I think it depends on the early engineers. Startup most time goes with the
competency of the early engineers.
现在那么多工具，真不觉得Java 开发效率会比python， node.js 低太多。

【在 d*******r 的大作中提到】

: 我以前也这么想，现在看来好像也不全对，
: Java dev也不是那么笨重，主要是Java盘子大，自己也一直在演化.

p*r2015-11-11 08:11

66 楼

从架构上来说，我自己做的项目和楼主的一模一样，
只是俺是抠门大仙，钱都去买奔驰宝马，要么给老婆买爱马，给娃买骑马
#1 采集+分析，自己家所有电脑不用的时候全民皆兵，提炼后结果同步服务器
采集不做任何分析，先采集下来再说
分析最重要，我一有时间就改善分析，
说的好听点machine learning
其实是半人工完善
#2 web服务器MS SQL(read only for front-end)+Cache+Lucene
反正我比较目前市面上的同类产品，说实在的，数据完整和速度还真没我的快，
当然竞争者一堆，不过老子一点都不怕，就怕你不来竞争
不然和老子这种街头派竞争，
你正规军得养个团队，老子谁都不用养，慢慢耗死对手，

g*g2015-11-11 08:11

67 楼

startup最开始都是单应用，所以最初的几个engineer最熟悉啥就用啥。
面向企业的startup几乎清一色Java，做大之后把前端换成脚本语言。面向个人用户的
startup则相反。
大家比较熟悉终端用户的 startup而已。

【在 w**z 的大作中提到】

: I think it depends on the early engineers. Startup most time goes with the
: competency of the early engineers.
: 现在那么多工具，真不觉得Java 开发效率会比python， node.js 低太多。

d*r2015-11-11 08:11

68 楼

我也用 Python, Node.js，这2个维护确实是问题，不是说 project 大了，中型都不好
维护, 不是说语言不好，因为 community 没有那么“刻板”，写东西没有一定风格套
路可循. 当然，Python community 相对比较实务，比 Node community 好点. Node.js
还有个问题，轮子都太年轻，质量不高. 不过我大半年没用Node.js，不知道现在
version 5 的轮子质量如何.

【在 w**z 的大作中提到】

c*e2015-11-11 08:11

69 楼

node.js确实块，这个连java可能都比不过。不过，javascript写东西，难维护。

js

【在 d*******r 的大作中提到】

: 我也用 Python, Node.js，这2个维护确实是问题，不是说 project 大了，中型都不好
: 维护, 不是说语言不好，因为 community 没有那么“刻板”，写东西没有一定风格套
: 路可循. 当然，Python community 相对比较实务，比 Node community 好点. Node.js
: 还有个问题，轮子都太年轻，质量不高. 不过我大半年没用Node.js，不知道现在
: version 5 的轮子质量如何.

c*e2015-11-11 08:11

70 楼

c*是什么？一种语言？

【在 d******e 的大作中提到】

c*e2015-11-11 08:11

71 楼

uap是什么？

【在 g*****g 的大作中提到】

: UAP 里U全是Python，只有大数据一块是Java。A前端Ruby后端Java，P前端Python，后
: 端Java，Python，Go。

c*e2015-11-11 08:11

72 楼

既然都用ms sql了，怎么不用ssis,ssas,ssrs?

【在 p**r 的大作中提到】

: 从架构上来说，我自己做的项目和楼主的一模一样，
: 只是俺是抠门大仙，钱都去买奔驰宝马，要么给老婆买爱马，给娃买骑马
: #1 采集+分析，自己家所有电脑不用的时候全民皆兵，提炼后结果同步服务器
: 采集不做任何分析，先采集下来再说
: 分析最重要，我一有时间就改善分析，
: 说的好听点machine learning
: 其实是半人工完善
: #2 web服务器MS SQL(read only for front-end)+Cache+Lucene
: 反正我比较目前市面上的同类产品，说实在的，数据完整和速度还真没我的快，
: 当然竞争者一堆，不过老子一点都不怕，就怕你不来竞争

w*z2015-11-11 08:11

73 楼

Cassandra

【在 c*********e 的大作中提到】

: c*是什么？一种语言？

w*z2015-11-11 08:11

74 楼

uber, Airbnb, Pinterest

【在 c*********e 的大作中提到】

: uap是什么？

z*e2015-11-11 08:11

75 楼

我们以前做paymeng gateway时候都不怕丢数据，你怕什么？
你数据量再大，有我们大？当时数据是150次交易/s
比amazon和apple交易的总和（80/s）还大接近一倍
你说说你的多大？如果怕丢数据，就减少io，网络是最不可靠的东西
这个没啥疑问，还有就是要上分布式transaction，没那么容易做
http挂了，我们的一个机制就是会不停滴try，先assume它成功
然后不停滴试，最后刷成功为止，是，这样可能会有点问题，比如盗刷
但是一般跟银行的连接，都是可靠而且稳定的，这种情况极少
而且这个risk是资本家所必需承担的，这就是为啥那个系统做得好
能干掉很多同行的原因，风险并不可怕，可怕的是不可控的风险
所以java好啊，java你清楚滴知道它在干嘛，其他语言我靠
一个var可以搞死一片人

【在 d******e 的大作中提到】

: mq是必须的。data 来的时候通常是一个spike.你http要配多强大才好? 丢数据,
: connection reject怎么半。http 当了你怎么retry.必要要mq熨平数据流。

z*e2015-11-11 08:11

76 楼

放屁，node慢得一塌糊涂
techempower那个benchmark不懂得看？人家连代码都给出来了

【在 c*********e 的大作中提到】

: node.js确实块，这个连java可能都比不过。不过，javascript写东西，难维护。
:
: js

z*e2015-11-11 08:11

77 楼

关键是那一套工具一般外行没接触过
jira, confluence, fisheye, jenkins, idea这一套天天用
虽然都是收费的，但是真的很cheap，比ibm那一套便宜太多
很多外行猴子还在用vi写代码，你没法解释
连用个ide都要解释，说什么好？
根本上就很不专业，用个version control就觉得了不得了
用java2-3周一个service，小菜，快的话，一周就搞定了
剩下一到两周做下一个iteration的活
swjtuer那个四万行一年应该是很多熟练猴的开发速度

【在 w**z 的大作中提到】

c*e2015-11-11 08:11

78 楼

原来是这些。你们一缩写，我就不认识了。

【在 w**z 的大作中提到】

: uber, Airbnb, Pinterest