paper needed - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Biology - 生物学

paper needed

paper needed# Biology - 生物学

S*s2010-09-29 07:09

1 楼

有个朋友海龟，推荐她看官仙来了解国内各个阶层的人的言行。结果她差点跟我翻脸，
这才想起来这个小说前面确实写得乱七八糟，很多侮辱妇女的情节，而且太底层的东西
也没多大意义。应该从什么地方开始才比较文明？

y*c2010-09-29 07:09

2 楼

公司不用jvm, 现在领导说要用Spark的python API. 有成功／失败经验的吗?

g*j2010-09-29 07:09

3 楼

Unno T, Jang J, Han D, Kim JH, Sadowsky MJ, Kim OS, Chun J, Hur HG.
Environ Sci Technol. 2010 Sep 20. [Epub ahead of print]
Use of Barcoded Pyrosequencing and Shared OTUs To Determine Sources of Fecal
Bacteria in Watersheds.
s*****[email protected]
Thanks

a*o2010-09-29 07:09

4 楼

看来你长得不帅。

【在 S*******s 的大作中提到】

: 有个朋友海龟，推荐她看官仙来了解国内各个阶层的人的言行。结果她差点跟我翻脸，
: 这才想起来这个小说前面确实写得乱七八糟，很多侮辱妇女的情节，而且太底层的东西
: 也没多大意义。应该从什么地方开始才比较文明？

z*e2010-09-29 07:09

5 楼

不用jvm怎么跑spark？

m*s2010-09-29 07:09

6 楼

http://www.sendspace.com/file/ls0zb1

S*s2010-09-29 07:09

7 楼

你认为谁长得帅？

【在 a*o 的大作中提到】

: 看来你长得不帅。

w*g2010-09-29 07:09

8 楼

有python API。慢得跟翔一样。除了算出来结果是对的（存疑），基本上丧失了spark
的一切好处。我们以前图省事用过，后来还是老实学了scala。

【在 z****e 的大作中提到】

: 不用jvm怎么跑spark？

g*j2010-09-29 07:09

9 楼

thank you

c*i2010-09-29 07:09

10 楼

侮辱妇女是目前后清的主流文化。
招考公务员都要看乳房是否对称。

【在 S*******s 的大作中提到】

y*c2010-09-29 07:09

11 楼

http://emptypipes.org/2015/01/17/python-vs-scala-vs-spark/
找到这个benchmark数据，除了速度，有没有其他问题？
offline 处理数据速度不是最重要（数据不是超大）

l*o2010-09-29 07:09

12 楼

就不能给太正经的人看。哪开始都不成

w*g2010-09-29 07:09

13 楼

你那个benchmark的数据也就300M，连基本的benchmark诚意也无，没有任何意义。
要做这种benchmark，至少弄个30G数据吧。我说30G，版上估计还有人要笑我呢。
你这个benchmark的事情要是在面试的时候说出来，遇到明白人基本上就没戏了。
你要是只有300M，直接上python就可以了。不需要spark。

【在 y*c 的大作中提到】

: http://emptypipes.org/2015/01/17/python-vs-scala-vs-spark/
: 找到这个benchmark数据，除了速度，有没有其他问题？
: offline 处理数据速度不是最重要（数据不是超大）

o*l2010-09-29 07:09

14 楼

这可是与世界“接轨”啊。

【在 c******i 的大作中提到】

: 侮辱妇女是目前后清的主流文化。
: 招考公务员都要看乳房是否对称。

z*e2010-09-29 07:09

15 楼

那个就是cpython吧，那个慢正常，我们读书时候做作业
40m都经常搞死电脑，要算几十分钟的很多
我记得hadoop都已经放弃cpython，改成jython了
pypy也许好点

spark

【在 w***g 的大作中提到】

: 有python API。慢得跟翔一样。除了算出来结果是对的（存疑），基本上丧失了spark
: 的一切好处。我们以前图省事用过，后来还是老实学了scala。

c*i2010-09-29 07:09

16 楼

这算领先世界吧，还没看见其它地方有这么奇葩。
后清终于也有原创可以让别人山寨了，价值观输出了。
呵呵

【在 o******l 的大作中提到】

: 这可是与世界“接轨”啊。

w*g2010-09-29 07:09

17 楼

我觉得pypy有兼容性问题，要能跑起来就是撞大运。如果不能跑numpy和scikit-learn，
就是再快也没用。python走的是糙快猛的路数，从语言到程序都不是怎么严谨的。
兼容性问题我觉得无法解决。
下面摘自scikit-learn的文档。
In case you didn’t know, PyPy is the new, fast, just-in-time compiling
Python implementation. We don’t support it. When the NumPy support in PyPy
is complete or near-complete, and SciPy is ported over as well, we can start
thinking of a port. We use too much of NumPy to work with a partial
implementation.

【在 z****e 的大作中提到】

: 那个就是cpython吧，那个慢正常，我们读书时候做作业
: 40m都经常搞死电脑，要算几十分钟的很多
: 我记得hadoop都已经放弃cpython，改成jython了
: pypy也许好点
:
: spark

z*e2010-09-29 07:09

18 楼

用python就是各种撞大运
我以前做作业遇到算一个晚上不出结果的
都是编造点结果上去交差
反正不是论文，老师也不是很在乎作业对错
只要有做，就给分

learn，
PyPy
start

【在 w***g 的大作中提到】

: 我觉得pypy有兼容性问题，要能跑起来就是撞大运。如果不能跑numpy和scikit-learn，
: 就是再快也没用。python走的是糙快猛的路数，从语言到程序都不是怎么严谨的。
: 兼容性问题我觉得无法解决。
: 下面摘自scikit-learn的文档。
: In case you didn’t know, PyPy is the new, fast, just-in-time compiling
: Python implementation. We don’t support it. When the NumPy support in PyPy
: is complete or near-complete, and SciPy is ported over as well, we can start
: thinking of a port. We use too much of NumPy to work with a partial
: implementation.

w*g2010-09-29 07:09

19 楼

靠，这种事情你也敢出来承认。我给你立此存照了。
发20个包子过来我可以删贴。

【在 z****e 的大作中提到】

: 用python就是各种撞大运
: 我以前做作业遇到算一个晚上不出结果的
: 都是编造点结果上去交差
: 反正不是论文，老师也不是很在乎作业对错
: 只要有做，就给分
:
: learn，
: PyPy
: start

w*m2010-09-29 07:09

20 楼

1.3之前pyspark很慢。
1.3之后有了dataFrame，python优化得比scala都快了。重要的是单机的pandas直接移
植。
所以建议无脑上python。

w*g2010-09-29 07:09

21 楼

都1.3了。看来我落后了。现在世事更新太快，我已经跟不上了。我们那个系统开发的
过程中就经历了好几个版本，最后好像用的是1.1。

【在 w********m 的大作中提到】

: 1.3之前pyspark很慢。
: 1.3之后有了dataFrame，python优化得比scala都快了。重要的是单机的pandas直接移
: 植。
: 所以建议无脑上python。

z*e2010-09-29 07:09

22 楼

dynamic types要能比static types快
这个应该是天方夜谭吧，v8用了各种专利优化，最后还是慢于static types的语言
python的优化估计还不能碰这些专利

【在 w********m 的大作中提到】

: 1.3之前pyspark很慢。
: 1.3之后有了dataFrame，python优化得比scala都快了。重要的是单机的pandas直接移
: 植。
: 所以建议无脑上python。

w*g2010-09-29 07:09

23 楼

这个应该类似SQL和matlab，对于标准操作，后台其实使用scala实现的，
就可以做的很快。如果你非要传进去一个python写的回调函数，势必还是要慢的。
他说的应该是1.3标准操作的范围扩大了很多。

【在 z****e 的大作中提到】

: dynamic types要能比static types快
: 这个应该是天方夜谭吧，v8用了各种专利优化，最后还是慢于static types的语言
: python的优化估计还不能碰这些专利

N*m2010-09-29 07:09

24 楼

确实啊
https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-
large-scale-data-science.html

【在 w********m 的大作中提到】

: 1.3之前pyspark很慢。
: 1.3之后有了dataFrame，python优化得比scala都快了。重要的是单机的pandas直接移
: 植。
: 所以建议无脑上python。

w*m2010-09-29 07:09

25 楼

Catalyst optimizer吧，本版的reynold xin大神就是搞这个的。

【在 z****e 的大作中提到】

: dynamic types要能比static types快
: 这个应该是天方夜谭吧，v8用了各种专利优化，最后还是慢于static types的语言
: python的优化估计还不能碰这些专利

z*e2010-09-29 07:09

26 楼

准备上flink吧
streaming好像比较热
rxjava什么都在做这一块

【在 w***g 的大作中提到】

: 都1.3了。看来我落后了。现在世事更新太快，我已经跟不上了。我们那个系统开发的
: 过程中就经历了好几个版本，最后好像用的是1.1。

w*g2010-09-29 07:09

27 楼

这种东西都是用到了才上的。版本升级跟玩似的，学了也是白学。
要用的时候学，也就是半天时间。

【在 z****e 的大作中提到】

: 准备上flink吧
: streaming好像比较热
: rxjava什么都在做这一块

z*e2010-09-29 07:09

28 楼

make sense
把python直接编译成byte code
那就是最后的执行还是在jvm上了
只能说理论上scala也能这样搞
但是估计scala不会针对spark搞一个优化

【在 w********m 的大作中提到】

: Catalyst optimizer吧，本版的reynold xin大神就是搞这个的。

z*e2010-09-29 07:09

29 楼

那你们streaming用什么？
spark的stream是micro batch，有些难用的说
不用flink就只有storm了

【在 w***g 的大作中提到】

: 这种东西都是用到了才上的。版本升级跟玩似的，学了也是白学。
: 要用的时候学，也就是半天时间。

z*e2010-09-29 07:09

30 楼

就是针对api优化了
对于一般的python建模部分的代码，应该不太可能会再做一次优化
那样就等于写一个脚本引擎了都

【在 w***g 的大作中提到】

: 这个应该类似SQL和matlab，对于标准操作，后台其实使用scala实现的，
: 就可以做的很快。如果你非要传进去一个python写的回调函数，势必还是要慢的。
: 他说的应该是1.3标准操作的范围扩大了很多。

w*g2010-09-29 07:09

31 楼

所有模型都是周期性完整重算，还没到要用streaming的地步。
在线算法用C++写的，同时也负责处理上次模型计算以来新到的数据对模型的影响。
我觉得用C++写计算速度不是最主要的。肯定比scala快，但应该快不了好几倍。
C++的好处是省内存。100G内存可以处理全量用户。然后多台机器纯粹是
replicate增加吞吐量。用scala写在线模块的话，机器数量再加5倍估计都不够，
而且数据一旦出了内存，对吞吐量的影响是灾难性的。
我做的是音频类app的在线推荐，用户量从百度上查出来也有好几千万。同时在线的显
然没那么多。从性能和技术上来说，我可以用一台服务器搞定所有的推荐请求。实际肯定
不会那么做。但是replicate和sharding在实现难易程度上是有很大的差距的。
用C++使得整个在线服务的架构得到非常大的简化，架构简化得到的稳定性提高和维护
开销减少是非常大的。而且就是代码行数上来说，其实也并不吃亏。
离线用spark，看重的是可以很容易地尝试新的算法和模型。当时确实用的很爽。

【在 z****e 的大作中提到】

: 那你们streaming用什么？
: spark的stream是micro batch，有些难用的说
: 不用flink就只有storm了

d*e2010-09-29 07:09

32 楼

赵老师知道什么是平pandas 马
这玩意就是从c代码 numpy 千锤百炼了多少年数值计算
为什么不会比Scala快

【在 z****e 的大作中提到】

: dynamic types要能比static types快
: 这个应该是天方夜谭吧，v8用了各种专利优化，最后还是慢于static types的语言
: python的优化估计还不能碰这些专利

z*e2010-09-29 07:09

33 楼

改变不了python本身慢的事实
你丫往里面丢一个你自己用python写的model试试看
调个api算个p啊，那玩意只需要看个tutorial就可以了

【在 d******e 的大作中提到】

: 赵老师知道什么是平pandas 马
: 这玩意就是从c代码 numpy 千锤百炼了多少年数值计算
: 为什么不会比Scala快

z*e2010-09-29 07:09

34 楼

这种在线推荐应该很容易分治啊
你为啥要用一个100g的node做？
切成n块，每一块丢一个job，最后汇总一下就好了

肯定

【在 w***g 的大作中提到】

: 所有模型都是周期性完整重算，还没到要用streaming的地步。
: 在线算法用C++写的，同时也负责处理上次模型计算以来新到的数据对模型的影响。
: 我觉得用C++写计算速度不是最主要的。肯定比scala快，但应该快不了好几倍。
: C++的好处是省内存。100G内存可以处理全量用户。然后多台机器纯粹是
: replicate增加吞吐量。用scala写在线模块的话，机器数量再加5倍估计都不够，
: 而且数据一旦出了内存，对吞吐量的影响是灾难性的。
: 我做的是音频类app的在线推荐，用户量从百度上查出来也有好几千万。同时在线的显
: 然没那么多。从性能和技术上来说，我可以用一台服务器搞定所有的推荐请求。实际肯定
: 不会那么做。但是replicate和sharding在实现难易程度上是有很大的差距的。
: 用C++使得整个在线服务的架构得到非常大的简化，架构简化得到的稳定性提高和维护

w*g2010-09-29 07:09

35 楼

1个100g的node，在性能上可能是好几倍10个10g的node的总和。
抛开分治需要写额外的代码不提(代码越多，出错的可能性也越多),
没有任何系统可以做到linear scale out。而且随着节点数量的增多，
mean time to failure会急剧缩短。所以总体开销其实会更大。
这个好处只有我自己知道，魏老师可能也知道，没法跟用AWS的人说明白。
我手头production system好几个，要是成天出错需要救火的话，
哪来那么多时间上网灌水。我有一个50多个节点的系统，实在是
数据量太大，没办法的那种。每台机器也有80～100g内存。隔
一两天就要处理一个错误。相比而言，那种两台机器做replicate的
monolithic系统，都是十天半个月都不需要碰一下。

【在 z****e 的大作中提到】

: 这种在线推荐应该很容易分治啊
: 你为啥要用一个100g的node做？
: 切成n块，每一块丢一个job，最后汇总一下就好了
:
: 肯定

z*e2010-09-29 07:09

36 楼

你直接操作内存出错的概率远比你托管了gc加大内存出错的概率要大
大得多，而且这种玩意出错了，比如本该推荐a音频的，你给推荐成了b
这个你老板知道？好像也难吧

【在 w***g 的大作中提到】

: 1个100g的node，在性能上可能是好几倍10个10g的node的总和。
: 抛开分治需要写额外的代码不提(代码越多，出错的可能性也越多),
: 没有任何系统可以做到linear scale out。而且随着节点数量的增多，
: mean time to failure会急剧缩短。所以总体开销其实会更大。
: 这个好处只有我自己知道，魏老师可能也知道，没法跟用AWS的人说明白。
: 我手头production system好几个，要是成天出错需要救火的话，
: 哪来那么多时间上网灌水。我有一个50多个节点的系统，实在是
: 数据量太大，没办法的那种。每台机器也有80～100g内存。隔
: 一两天就要处理一个错误。相比而言，那种两台机器做replicate的
: monolithic系统，都是十天半个月都不需要碰一下。

z*e2010-09-29 07:09

37 楼

你应该丢一个chaos monkey进去砸一顿
测试一下系统的健壮程度

【在 w***g 的大作中提到】

w*g2010-09-29 07:09

38 楼

这个就看各人本事了。能把代码写对本来就是一种本事。
我的C++程序deliver之前都要先用valgrind跑过的，连libjpeg里
的那些内存没有初始化的错误我都会给改好。
至于推荐效果，和程序正确性是两个独立问题。

【在 z****e 的大作中提到】

: 你直接操作内存出错的概率远比你托管了gc加大内存出错的概率要大
: 大得多，而且这种玩意出错了，比如本该推荐a音频的，你给推荐成了b
: 这个你老板知道？好像也难吧

w*g2010-09-29 07:09

39 楼

我说的是我自己的情况，包含吹牛的成分。版上不会C++的同学
羡慕一下就可以了，千万别真的上C++了。不然到时候segfault
事小，出了raise condition程序上不了线，bug没法reproduce，
那可真是叫天天不应叫地地不灵了。慎之慎之。
适合C++写的都是那些在线是只读，或者近乎只读的，算法都只
涉及纯算法的情况。碰到那些需要写数据，算法需要处理业务
逻辑的，C++根本不在考虑范围内。我最近去看望博导，他还
跟我谈起他以前公司某牛人写raid logic的事迹，说该君先花了
好几个星期debug state machine，准确无误了才翻译成C代码，
然后在公司悬赏现金让人找bug。说产品卖了这么多年了只找出来
过1个bug。这种才是硬本事。

【在 w***g 的大作中提到】

n*32010-09-29 07:09

40 楼

second this;
python or R 一个模块， function 的下面都是 c／c++，当然快。
要是整个 system 都比 java 快，
那 c／c++， java 都不要混了。

【在 z****e 的大作中提到】

: 改变不了python本身慢的事实
: 你丫往里面丢一个你自己用python写的model试试看
: 调个api算个p啊，那玩意只需要看个tutorial就可以了

c*o2010-09-29 07:09

41 楼

这个是肯定的，scala都是对vertical scaling好过horizontal scaling.
主要是有 ceiling,我们一个成功的游戏现在后端db 已经是AWS多个最大的storage
machine了。再往上只能horizontal scaling.
Big data的那些更夸张，最后一算，居然在AWS用的钱爆表了，还不如用BigQuery.
对于错误率，我倒不觉得，多节点就是小错不断，大错没有。都自动化处理了。
我们有过5x volume increase的，也就最初3分钟有latency问题，然后一切照常，再来
5x也可以。
有过2/3mongodb cluster down的，也是一点事没有，等到30minutes以后failed
instance automatically replaced, 再连来一个2/3mongodb cluster down 也没事。
这个和两个大机器一般没事，有事就是大事不一样。

【在 w***g 的大作中提到】

N*m2010-09-29 07:09

42 楼

后端db用的啥？

【在 c******o 的大作中提到】

: 这个是肯定的，scala都是对vertical scaling好过horizontal scaling.
: 主要是有 ceiling,我们一个成功的游戏现在后端db 已经是AWS多个最大的storage
: machine了。再往上只能horizontal scaling.
: Big data的那些更夸张，最后一算，居然在AWS用的钱爆表了，还不如用BigQuery.
: 对于错误率，我倒不觉得，多节点就是小错不断，大错没有。都自动化处理了。
: 我们有过5x volume increase的，也就最初3分钟有latency问题，然后一切照常，再来
: 5x也可以。
: 有过2/3mongodb cluster down的，也是一点事没有，等到30minutes以后failed
: instance automatically replaced, 再连来一个2/3mongodb cluster down 也没事。
: 这个和两个大机器一般没事，有事就是大事不一样。

g*g2010-09-29 07:09

43 楼

他做的是offline系统，健壮性不是最重要的，所以可以接受。我们是出了问题半夜三
点都得起来解决，有问题宁可上班时间出，所以需要猴子。

【在 z****e 的大作中提到】

: 你应该丢一个chaos monkey进去砸一顿
: 测试一下系统的健壮程度

w*g2010-09-29 07:09

44 楼

我也都是线上系统。只是我们用户没你们多，我拿的钱肯定也没你们拿得多，甚至可能
比赵策都要少好多。系统倒没彻底挂过，但偶尔带病运转，拖个10来个小时甚至有时候
过周末了拖二三十个小时才解决的，也没啥大问题。我的好处：不用坐班，不签合同，
活干完了自己想干嘛干嘛。
其实不管用啥技术做系统，都有挂掉的可能，就是Google做到现在偶尔也还会有major
outage。你们netflix的outage可能比google还多点。我的outage可能也就是比你们再
多那么一点。这个跟用大机器还是用AWS没啥太大的关系，和系统设计还有代码质量
关系更大。AWS也就是最近十来年的事情，之前还不都靠大机器。

【在 g*****g 的大作中提到】

: 他做的是offline系统，健壮性不是最重要的，所以可以接受。我们是出了问题半夜三
: 点都得起来解决，有问题宁可上班时间出，所以需要猴子。

g*g2010-09-29 07:09

45 楼

我们的系统很复杂，复杂在多region，还要active-active failover。美国西部要是地
震停电了我们能半个小时内把用户都搬到东部。99.9%的availability已经不错了。这
个跟用大机器还是AWS关系还是很大的，大机器一旦挂了就是挂了。至于用AWS是因为我
们没钱没时间去做那么多数据中心。

major

【在 w***g 的大作中提到】

: 我也都是线上系统。只是我们用户没你们多，我拿的钱肯定也没你们拿得多，甚至可能
: 比赵策都要少好多。系统倒没彻底挂过，但偶尔带病运转，拖个10来个小时甚至有时候
: 过周末了拖二三十个小时才解决的，也没啥大问题。我的好处：不用坐班，不签合同，
: 活干完了自己想干嘛干嘛。
: 其实不管用啥技术做系统，都有挂掉的可能，就是Google做到现在偶尔也还会有major
: outage。你们netflix的outage可能比google还多点。我的outage可能也就是比你们再
: 多那么一点。这个跟用大机器还是用AWS没啥太大的关系，和系统设计还有代码质量
: 关系更大。AWS也就是最近十来年的事情，之前还不都靠大机器。

z*e2010-09-29 07:09

46 楼

coltzhao不是已经说了么？

【在 N*****m 的大作中提到】

: 后端db用的啥？