Redian新闻
>
coltzhao的公司还在用mongo吗?
avatar
coltzhao的公司还在用mongo吗?# Programming - 葵花宝典
s*y
1
去年9月海归,税表上state of residence是填海归前居住的州,还是填海外?
多谢多谢!
avatar
j*s
2
. 【搞副业的请进】招聘销售代理
亲爱的同胞你们好! 我公司是大陆做外贸产品的,主要是通过ebay,Amazon yahoo,
ioffer ibid等网站卖,我公司已进到好多网上热销的产品。主要针对国家有美国,加
拿大,英国,欧洲,澳大利亚,南美等国家,现招聘人在国外,对网络销售感兴趣的友
来联合销售。欢迎广大留学生来联系。
具体要求如下:
1, 必须人在国外,或者有国外的ebay账户或者其他网站的销售帐户
2, 本公司的产品全部对外国,不做国内代理,国内朋友谢绝谈判。
3, 合作者对电脑操作熟练,每天有固定的1-2个小时来处理订单,当地语言不要求太
高。
4, 我们的合作可以供货也可以联合销售,所以请合作者必须有高的信用意识。
5, 具体怎样操作.我们详谈
联系方式是: QQ:719968529
MSN:l********[email protected]
E-mail:l********[email protected]
avatar
z*e
3
感觉自从spark出来之后,感觉mongo和couch的两拨人马都萧条了很多
接口不一致,没有人买他们的服务了,apache太猛了
cassandra如火如荼啊,我们也准备淘汰couchbase了
所以想看看coltzhao的公司,是不是还保留有mongo
如果是的话,如何让spark的rdd用上mongo呢?
rdd好像目前搞个cassandra都挺麻烦的,但是不是不能搞
还是可以搞的,mongo和couch我就不知道怎么搞了
avatar
A*g
4
如果在美国有固定住址报税,应该还是填海归前居住的州吧
avatar
p*2
5
可以把mongo数据先导到hdfs
cassandra connnector 已经算容易用得了 相对来说 spark 还是太早期

【在 z****e 的大作中提到】
: 感觉自从spark出来之后,感觉mongo和couch的两拨人马都萧条了很多
: 接口不一致,没有人买他们的服务了,apache太猛了
: cassandra如火如荼啊,我们也准备淘汰couchbase了
: 所以想看看coltzhao的公司,是不是还保留有mongo
: 如果是的话,如何让spark的rdd用上mongo呢?
: rdd好像目前搞个cassandra都挺麻烦的,但是不是不能搞
: 还是可以搞的,mongo和couch我就不知道怎么搞了

avatar
s*y
6
多谢回复。再问一下,federal return是按resident报的,州税是不是也得按resident
报?

【在 A***g 的大作中提到】
: 如果在美国有固定住址报税,应该还是填海归前居住的州吧
avatar
n*3
7
但好像大家都在上spark

【在 p*****2 的大作中提到】
: 可以把mongo数据先导到hdfs
: cassandra connnector 已经算容易用得了 相对来说 spark 还是太早期

avatar
z*e
8
我也是这样搞的,本来想直接在couchbase上弄spark
后来搞了半死吐血,搞不定,算了,还是不继续折腾了

【在 p*****2 的大作中提到】
: 可以把mongo数据先导到hdfs
: cassandra connnector 已经算容易用得了 相对来说 spark 还是太早期

avatar
p*2
9
大势所趋
先占住队

【在 n*****3 的大作中提到】
: 但好像大家都在上spark
avatar
g*o
10
最近的mongo days上,mongodb公司已经有了mongo-spark-connector了。
2.8还会把collection level lock变成document-level lock,performance会大幅改
进。
应该还能活跃一段时间吧~~~

【在 z****e 的大作中提到】
: 感觉自从spark出来之后,感觉mongo和couch的两拨人马都萧条了很多
: 接口不一致,没有人买他们的服务了,apache太猛了
: cassandra如火如荼啊,我们也准备淘汰couchbase了
: 所以想看看coltzhao的公司,是不是还保留有mongo
: 如果是的话,如何让spark的rdd用上mongo呢?
: rdd好像目前搞个cassandra都挺麻烦的,但是不是不能搞
: 还是可以搞的,mongo和couch我就不知道怎么搞了

avatar
r*k
11
看见大家提到spark,溜进来说说观点。同mapreduce 比起来,spark 的确提供了一种
新的计算方式,但他的应用场景有很大的限制, 看一下quora的问答:
http://www.quora.com/What-are-use-cases-for-spark-vs-hadoop
基本上有2点:
1. From the machine learning side: 比如说你有很大的data, and want to apply
different ML algorithms to the same piece of data iteratively。mapred 基本上
需要load data from file system every time. spark 则可以保证这些data in
memory to avoid io. 在这种场景下,spark 可以带来极大的performance 提升。
2. Interactive Analytics: still, load some data in memory and do something
iteratively.
第一点我完全同意, 这是我们 team 唯一的用法。对第2点,基本上没人会这么用:对
于一个大型的分布计算系统,最重要的就是allocate and share limited resource
among a computer pool,设想一个兄弟load a big piece of data in memory, run
some scala, then go home without quit the job ... data operation team 非疯掉
不可。除非这个cluster 就是为你一个“interactively”独用的。
设想一个十分常见的 data analytics use case: scan a lot of data, do grouping,
filtering, and aggregate, spark 和 mapreduce 的 performance 会完全一样(不
会更好)。而这些use case, 已经有了更好的方案,像是impala, etc.
我不认为spark可以替代mapred。当spark 开始出现的时候,大家基本还认为是个不错
的idea 来补充hadoop, 后来spark的炒作简直是太离谱了. databrics 居然能拿 50M,
简直是fucking crazy market。
Berkley AMPLab 这些小伙子都挺聪明(尤其是Matei),但eventually they need to
go through all the development shit mapreduce encountered. 希望不会变成另一
个mapr.
也许是我没理解spark 的精髓? :)
avatar
p*2
12
就spark这么简单易用就比mapreduce强几条街

apply

【在 r*******k 的大作中提到】
: 看见大家提到spark,溜进来说说观点。同mapreduce 比起来,spark 的确提供了一种
: 新的计算方式,但他的应用场景有很大的限制, 看一下quora的问答:
: http://www.quora.com/What-are-use-cases-for-spark-vs-hadoop
: 基本上有2点:
: 1. From the machine learning side: 比如说你有很大的data, and want to apply
: different ML algorithms to the same piece of data iteratively。mapred 基本上
: 需要load data from file system every time. spark 则可以保证这些data in
: memory to avoid io. 在这种场景下,spark 可以带来极大的performance 提升。
: 2. Interactive Analytics: still, load some data in memory and do something
: iteratively.

avatar
d*r
13
hadoop 那一堆东西把简单的 idea implement 成这么大一坨,感觉很不爽
玩 spark 又要上 scala, 很纠结 +_+

【在 p*****2 的大作中提到】
: 就spark这么简单易用就比mapreduce强几条街
:
: apply

avatar
r*k
14
> 就spark这么简单易用就比mapreduce强几条街
你的意思是说spark的scala interface 比用java 写mapred code 简单?还是说spark
比mapred easier to deploy and manage?
``强几条街'' 完全是你个人的感觉还是大家普遍的看法?就像hive 和shark 的出发点
,都是希望提供一个更友好的数据访问方法,但实际执行和使用起来就是另一会儿事儿
了。
如果你只是喜欢scala来写mapreducde,这点无法说明spark实现本身如何出色。况且现
在多数人直接使用pig之类更高层的一些query language.
第二个问题就更不好说了,有真的production usage 吗?yahoo lab 不算啊,那种十
个八个node cluster也不算啊
我也觉得spark想法不错,某些场景很有用。但他们现在有点吹过了,每次看他们说比
hadoop 快100倍就头疼,我不知道他们到时如何能够更够圆这个说法。terasort比
hadoop快100倍?

【在 p*****2 的大作中提到】
: 就spark这么简单易用就比mapreduce强几条街
:
: apply

avatar
p*2
15
scala挺好玩的其实
可挖掘的东西很多
当然看你怎么用 我现在正在规范化 规范以后学习就容易多了

【在 d*******r 的大作中提到】
: hadoop 那一堆东西把简单的 idea implement 成这么大一坨,感觉很不爽
: 玩 spark 又要上 scala, 很纠结 +_+

avatar
p*2
16
代码简单 deploy也简单
简单就是卖点 复杂的东西早晚要淘汰 速度是不是快100倍倒是其次

spark

【在 r*******k 的大作中提到】
: > 就spark这么简单易用就比mapreduce强几条街
: 你的意思是说spark的scala interface 比用java 写mapred code 简单?还是说spark
: 比mapred easier to deploy and manage?
: ``强几条街'' 完全是你个人的感觉还是大家普遍的看法?就像hive 和shark 的出发点
: ,都是希望提供一个更友好的数据访问方法,但实际执行和使用起来就是另一会儿事儿
: 了。
: 如果你只是喜欢scala来写mapreducde,这点无法说明spark实现本身如何出色。况且现
: 在多数人直接使用pig之类更高层的一些query language.
: 第二个问题就更不好说了,有真的production usage 吗?yahoo lab 不算啊,那种十
: 个八个node cluster也不算啊

avatar
z*e
17
关键是yarn上弄ml很恶心
啥都要自己动手,很麻烦
而且hadoop sql不管是hive还是pig
都做得不三不四的
虽然说hdfs离真正的real time处理,还有很长一段距离
但是hive和pig也慢得可以了
mapreduce现在沦为一个batch工具
这里面显然有很大的提升空间
spark至少说rdd模型就把这个给做了
然后再谈sql, r和ml这些上层建筑
我觉得很make sense,把rdd看成一个cache就是了
分布式每层都做一个cache很正常
db,web/app server这些都有内嵌的cache
而mapreduce则没有
现在主流公司集体转向spark,都全力支持spark
固然有这样那样的问题,但是比起hadoop的mapreduce
感觉是要好很多了,spark上再搞sql这些,才是the way to go

apply

【在 r*******k 的大作中提到】
: 看见大家提到spark,溜进来说说观点。同mapreduce 比起来,spark 的确提供了一种
: 新的计算方式,但他的应用场景有很大的限制, 看一下quora的问答:
: http://www.quora.com/What-are-use-cases-for-spark-vs-hadoop
: 基本上有2点:
: 1. From the machine learning side: 比如说你有很大的data, and want to apply
: different ML algorithms to the same piece of data iteratively。mapred 基本上
: 需要load data from file system every time. spark 则可以保证这些data in
: memory to avoid io. 在这种场景下,spark 可以带来极大的performance 提升。
: 2. Interactive Analytics: still, load some data in memory and do something
: iteratively.

avatar
z*e
18
我对hadoop最大的抱怨就是hdfs跟mapreduce结合过于紧密
分开的话,其实没那么复杂
但是分开又不符合hadoop整个项目组的利益
又大又全几乎是所有项目的陷阱
往往到后面,你只用其中十分之一的东西
另外上spark真不用scala
用轮子不需要懂得怎么造轮子
你用spark,python都可以,为啥非要scala?
对scala唯一要求就是down下来,设置一下SCALA_HOME就可以了
如果觉得java没有shell的话
打开eclipse就可以当一个复杂化的shell用
python和scala都有shell

【在 d*******r 的大作中提到】
: hadoop 那一堆东西把简单的 idea implement 成这么大一坨,感觉很不爽
: 玩 spark 又要上 scala, 很纠结 +_+

avatar
z*e
19
俺对databricks融资多少钱一点意见没有
你想啊,mongodb有啥东西?
基本上是把以前db做的东西重新做一遍
分布式其实本质就是,这个玩意以前不能分布,要分布
必然有tradeoff,那么就看牺牲哪一块而已了
db主要问题是尾大不掉,什么都做了
完全没考虑到分布式的场景,那现在要改,改起来就痛苦了
nosql的公司就抓住这个机会,重新把轮子造一遍,其实没啥新意
你看mongo忽悠了多少钱去,现在市值都12亿了
databricks用的数学比mongo这些nosql公司深多了
才50m,太少了
主要是你不能用mapreduce那个眼光看这家公司
你要看到machine learning,这个是多火爆的一个topic
这代表了future,databaricks融资五千万都不为过
因为这个东西站在时代的前沿,这个东西,别人没做过
才有得搞,今年炸药生理卫生奖给了John O'Keefe
这个就是做神经网络的Hebb的学生的学生
spark的mllib做下去,就会接轨Hebb的那些理论
很快就有那种science的感觉了

apply

【在 r*******k 的大作中提到】
: 看见大家提到spark,溜进来说说观点。同mapreduce 比起来,spark 的确提供了一种
: 新的计算方式,但他的应用场景有很大的限制, 看一下quora的问答:
: http://www.quora.com/What-are-use-cases-for-spark-vs-hadoop
: 基本上有2点:
: 1. From the machine learning side: 比如说你有很大的data, and want to apply
: different ML algorithms to the same piece of data iteratively。mapred 基本上
: 需要load data from file system every time. spark 则可以保证这些data in
: memory to avoid io. 在这种场景下,spark 可以带来极大的performance 提升。
: 2. Interactive Analytics: still, load some data in memory and do something
: iteratively.

avatar
z*e
20
现在支持pig,hive的金主们都转向sparksql了
而且pig和hive本身的应用就有大量重合
database和data warehouse的差异并不是那么大
现在统一成一个sparksql,方便很多
当然苦的就是现在在prod.里面用了hive&pig的公司
尾大不掉,要改挺麻烦的
sparkr将会是下一个很有搞头的东西
但是r非常大,统计的方法非常多
这个需要很长时间来完善
mllib目前只是text analysis,但是也做得差不多了
下一步是deep learning
再往后其实就跟很多生物里面神经科学
cs里面搞ai的wsn弄的东西差不多了
这就开始接触比较麻烦痛苦的高等数学了
对于nosql你想了解深入一点,adv. database学过
知道database是怎么造出来的,nosql就没有秘密了
顶多加一点分布式算法,分布式算法为基础
再去弄text analysis,了解点统计,这就是big data入门了
然后是deep learning,一点一点接近生物phd
生物统计已经可以接轨了,当然再往后很难说
陈章良的救星就快出现了,要不然老骂它
丫的21世纪是生物的世纪坑了不少人

spark

【在 r*******k 的大作中提到】
: > 就spark这么简单易用就比mapreduce强几条街
: 你的意思是说spark的scala interface 比用java 写mapred code 简单?还是说spark
: 比mapred easier to deploy and manage?
: ``强几条街'' 完全是你个人的感觉还是大家普遍的看法?就像hive 和shark 的出发点
: ,都是希望提供一个更友好的数据访问方法,但实际执行和使用起来就是另一会儿事儿
: 了。
: 如果你只是喜欢scala来写mapreducde,这点无法说明spark实现本身如何出色。况且现
: 在多数人直接使用pig之类更高层的一些query language.
: 第二个问题就更不好说了,有真的production usage 吗?yahoo lab 不算啊,那种十
: 个八个node cluster也不算啊

avatar
z*e
21
分布式和神经网络居然会相似
这个非常出乎意料之外,我以前一直以为生物是生物
cs是cs,现在我不这么看了
只是觉得生物转行生物统计,再转行做软件,反而非常合适
尤其是前一段看到某个生物phd,发现她搞的东西
几乎就是我们平常弄的东西,生物可能还真的是将来
分布式搞下去,以后就是造一个skynet出来
看谁不爽,就造几个州长出来屠杀人类
avatar
c*o
22
still mongodb
Web service glue together play/kinesis/spark/redshift
Weare testing 50 nodes m3.large, may use up to 400 nodes
avatar
B*g
23
小声问,你每天上班吗?

【在 z****e 的大作中提到】
: 分布式和神经网络居然会相似
: 这个非常出乎意料之外,我以前一直以为生物是生物
: cs是cs,现在我不这么看了
: 只是觉得生物转行生物统计,再转行做软件,反而非常合适
: 尤其是前一段看到某个生物phd,发现她搞的东西
: 几乎就是我们平常弄的东西,生物可能还真的是将来
: 分布式搞下去,以后就是造一个skynet出来
: 看谁不爽,就造几个州长出来屠杀人类

avatar
z*e
24
上啊,麻痹的还在做datanode
烦死了,我上网时候就在上班

【在 B*****g 的大作中提到】
: 小声问,你每天上班吗?
avatar
d*e
25
asdf

【在 z****e 的大作中提到】
: 分布式和神经网络居然会相似
: 这个非常出乎意料之外,我以前一直以为生物是生物
: cs是cs,现在我不这么看了
: 只是觉得生物转行生物统计,再转行做软件,反而非常合适
: 尤其是前一段看到某个生物phd,发现她搞的东西
: 几乎就是我们平常弄的东西,生物可能还真的是将来
: 分布式搞下去,以后就是造一个skynet出来
: 看谁不爽,就造几个州长出来屠杀人类

avatar
s*y
26
Deep learning is our best shot at progress towards real AI.
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。