Redian新闻
>
我觉得关于datascience最近看到的几个有价值的贴
avatar
我觉得关于datascience最近看到的几个有价值的贴# DataSciences - 数据科学
r*o
1
上周大S和汪小菲结婚了。据报道,现场温馨浪漫,大S更是几度落泪。自从两人恋情曝光,他们背负了太多的压力。大家不愿意相信他们是一见钟情的,更相信是35岁的大S终于绑住了一个豪门,汪小菲借大S炒作,为俏江南进去台湾市场铺路,甚至有媒体猜测他们是一夜情之后,奉子成婚。
两人的爱情从一开始就不被看好,女方家庭的高调和男方家庭的低调又形成一对天生的矛盾。更重要的是,大家 一直不相信两人之间有爱情。据媒体报道,两人也承认,见第一面就确定了关系,第二面见父母,第三面登记,所有过程一共历时一个月时间。
大家情愿相信他们是金钱关系,也不愿意相信一见钟情。既然两人结婚了,我们也应该祝福他们,希望是一场童话,希望所有质疑都是庸人自扰。
大S这件事让我想起梁洛施。外界也不相信她和李泽楷之间有真爱。最近分手事件更是让外界猜测梁洛施只是“生育工具”。她的经纪人表示,两人乃真爱,但因为传统的李嘉诚不能接受一个娱乐圈的女孩而被迫分手。
我是相信他们之间有爱情的,李泽楷自小丧母,而梁洛施是私生女,两个月大的时候父亲就去世了,从小没有父爱,家境又贫寒,12岁就和英皇签约签下15年死约。两人惺惺相惜,李泽楷不惜高价为她赎身。
似乎大家更多地会去相信嫁入豪门都是因为金钱,似乎只有嫁给穷人才是真爱。我们不知道公众人物之间的 真实心路历程。也许大S的一见钟情就是事实,也许梁洛施认为情分已尽自然分手也是事实。
中国传统文化有太多的规则约束。中国神话里的尧舜禹,高尚得让大家都汗颜,希腊神话大王宙斯,道德可败坏。中国古代的小说情节常常是穷小子有着纯洁善良的心,一心向善,治家治国治天下,最后成了圣人。我们是被规则圈养的民族,所以中国历史上没有出过尼采这样的人,中华文化圈子里也不能理解爱德华八世为了一个寡妇放弃皇位,不能理解大S,梁洛施的故事是真爱。
avatar
z*e
2
接触big data时间不长,但是随着现在big data的兴起
越来越多的人投入这个领域,加上以前是做分布式系统开发的
所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
这个领域我的感觉,就是cs的应用统计学,这块占了80%
剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
http://www.mitbbs.com/article/JobHunting/32600683_0.html
里面说到的clustering,这个可能是最新的一个比较好的option
http://www.mitbbs.com/article_t/DataSciences/6761.html
面试关键字,看东肥的贴
http://www.mitbbs.com/article_t/JobHunting/32058385.html
关于学习,我觉得apprentice00说的关于python和java的经验
跟我的感觉高度吻合,具体见这个贴
http://www.mitbbs.com/article/JobHunting/32721739_3.html
avatar
M*g
3
说得真好,赞美女。
中国文化的劣根性就是道德说教。道家愚民,儒家教化,佛家隐忍,都是为了灌输一种
道德观念。很可惜,我们浸淫其中多年,就算不喜欢,思考问题的方式或多或少都要受
其左右。
btw,尧舜禹的故事,基本被证实是谎言,禅让是没有的,杀戮是必不可少的。儒家教
化之利害,可见一斑。
avatar
b*n
4
赞!这个总结的很好,多谢!!

接触big data时间不长,但是随着现在big data的兴起
越来越多的人投入这个领域,加上以前是做分布式系统开发的
所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
这个领域我的感觉,就是cs的应用统计学,这块占了80%
剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
http://www.mitbbs.com/article/JobHunting/32600683_0.html
里面说到的clustering,这个可能是最新的一个比较好的option
http://www.mitbbs.com/article_t/DataSciences/6761.html
面试关键字,看东肥的贴
http://www.mitbbs.com/article_t/JobHunting/32058385.html
关于学习,我觉得apprentice00说的关于python和java的经验
跟我的感觉高度吻合,具体见这个贴
http://www.mitbbs.com/article/JobHunting/32721739_3.html

【在 z****e 的大作中提到】
: 接触big data时间不长,但是随着现在big data的兴起
: 越来越多的人投入这个领域,加上以前是做分布式系统开发的
: 所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
: 这个领域我的感觉,就是cs的应用统计学,这块占了80%
: 剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
: 这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
: http://www.mitbbs.com/article/JobHunting/32600683_0.html
: 里面说到的clustering,这个可能是最新的一个比较好的option
: http://www.mitbbs.com/article_t/DataSciences/6761.html
: 面试关键字,看东肥的贴

avatar
C*h
5
分析的很好

曝光,他们背负了太多的压力。大家不愿意相信他们是一见钟情的,更相信是35岁的大
S终于绑住了一个豪门,汪小菲借大S炒作,为俏江南进去台湾市场铺路,甚至有媒体猜
测他们是一夜情之后,奉子
的矛盾。更重要的是,大家 一直不相信两人之间有爱情。据媒体报道,两人也承认,
见第一面就确定了关系,第二面见父母,第三面登记,所有过程一共历时一个月时间。
该祝福他们,希望是一场童话,希望所有质疑都是庸人自扰。
是让外界猜测梁洛施只是“生育工具”。她的经纪人表示,两人乃真爱,但因为传统的
李嘉诚不能接受一个娱乐圈的女孩而被迫分手。
父亲就去世了,从小没有父爱,家境又贫寒,12岁就和英皇签约签下15年死约。两人惺
惺相惜,李泽楷不惜高价为她赎身。
不知道公众人物之间的 真实心路历程。也许大S的一见钟情就是事实,也许梁洛施认为
情分已尽自然分手也是事实。
神话大王宙斯,道德可败坏。中国古代的小说情节常常是穷小子有着纯洁善良的心,一
心向善,治家治国治天下,最后成了圣人。我们是被规则圈养的民族,所以中国历史上
没有出过尼采这样的人,中

【在 r********o 的大作中提到】
: 上周大S和汪小菲结婚了。据报道,现场温馨浪漫,大S更是几度落泪。自从两人恋情曝光,他们背负了太多的压力。大家不愿意相信他们是一见钟情的,更相信是35岁的大S终于绑住了一个豪门,汪小菲借大S炒作,为俏江南进去台湾市场铺路,甚至有媒体猜测他们是一夜情之后,奉子成婚。
: 两人的爱情从一开始就不被看好,女方家庭的高调和男方家庭的低调又形成一对天生的矛盾。更重要的是,大家 一直不相信两人之间有爱情。据媒体报道,两人也承认,见第一面就确定了关系,第二面见父母,第三面登记,所有过程一共历时一个月时间。
: 大家情愿相信他们是金钱关系,也不愿意相信一见钟情。既然两人结婚了,我们也应该祝福他们,希望是一场童话,希望所有质疑都是庸人自扰。
: 大S这件事让我想起梁洛施。外界也不相信她和李泽楷之间有真爱。最近分手事件更是让外界猜测梁洛施只是“生育工具”。她的经纪人表示,两人乃真爱,但因为传统的李嘉诚不能接受一个娱乐圈的女孩而被迫分手。
: 我是相信他们之间有爱情的,李泽楷自小丧母,而梁洛施是私生女,两个月大的时候父亲就去世了,从小没有父爱,家境又贫寒,12岁就和英皇签约签下15年死约。两人惺惺相惜,李泽楷不惜高价为她赎身。
: 似乎大家更多地会去相信嫁入豪门都是因为金钱,似乎只有嫁给穷人才是真爱。我们不知道公众人物之间的 真实心路历程。也许大S的一见钟情就是事实,也许梁洛施认为情分已尽自然分手也是事实。
: 中国传统文化有太多的规则约束。中国神话里的尧舜禹,高尚得让大家都汗颜,希腊神话大王宙斯,道德可败坏。中国古代的小说情节常常是穷小子有着纯洁善良的心,一心向善,治家治国治天下,最后成了圣人。我们是被规则圈养的民族,所以中国历史上没有出过尼采这样的人,中华文化圈子里也不能理解爱德华八世为了一个寡妇放弃皇位,不能理解大S,梁洛施的故事是真爱。

avatar
T*u
6
强贴需顶
avatar
S*n
7
zan!

曝光,他们背负了太多的压力。大家不愿意相信他们是一见钟情的,更相信是35岁的大
S终于绑住了一个豪门,汪小菲借大S炒作,为俏江南进去台湾市场铺路,甚至有媒体猜
测他们是一夜情之后,奉子
的矛盾。更重要的是,大家 一直不相信两人之间有爱情。据媒体报道,两人也承认,
见第一面就确定了关系,第二面见父母,第三面登记,所有过程一共历时一个月时间。
该祝福他们,希望是一场童话,希望所有质疑都是庸人自扰。
是让外界猜测梁洛施只是“生育工具”。她的经纪人表示,两人乃真爱,但因为传统的
李嘉诚不能接受一个娱乐圈的女孩而被迫分手。
父亲就去世了,从小没有父爱,家境又贫寒,12岁就和英皇签约签下15年死约。两人惺
惺相惜,李泽楷不惜高价为她赎身。
不知道公众人物之间的 真实心路历程。也许大S的一见钟情就是事实,也许梁洛施认为
情分已尽自然分手也是事实。
神话大王宙斯,道德可败坏。中国古代的小说情节常常是穷小子有着纯洁善良的心,一
心向善,治家治国治天下,最后成了圣人。我们是被规则圈养的民族,所以中国历史上
没有出过尼采这样的人,中

【在 r********o 的大作中提到】
: 上周大S和汪小菲结婚了。据报道,现场温馨浪漫,大S更是几度落泪。自从两人恋情曝光,他们背负了太多的压力。大家不愿意相信他们是一见钟情的,更相信是35岁的大S终于绑住了一个豪门,汪小菲借大S炒作,为俏江南进去台湾市场铺路,甚至有媒体猜测他们是一夜情之后,奉子成婚。
: 两人的爱情从一开始就不被看好,女方家庭的高调和男方家庭的低调又形成一对天生的矛盾。更重要的是,大家 一直不相信两人之间有爱情。据媒体报道,两人也承认,见第一面就确定了关系,第二面见父母,第三面登记,所有过程一共历时一个月时间。
: 大家情愿相信他们是金钱关系,也不愿意相信一见钟情。既然两人结婚了,我们也应该祝福他们,希望是一场童话,希望所有质疑都是庸人自扰。
: 大S这件事让我想起梁洛施。外界也不相信她和李泽楷之间有真爱。最近分手事件更是让外界猜测梁洛施只是“生育工具”。她的经纪人表示,两人乃真爱,但因为传统的李嘉诚不能接受一个娱乐圈的女孩而被迫分手。
: 我是相信他们之间有爱情的,李泽楷自小丧母,而梁洛施是私生女,两个月大的时候父亲就去世了,从小没有父爱,家境又贫寒,12岁就和英皇签约签下15年死约。两人惺惺相惜,李泽楷不惜高价为她赎身。
: 似乎大家更多地会去相信嫁入豪门都是因为金钱,似乎只有嫁给穷人才是真爱。我们不知道公众人物之间的 真实心路历程。也许大S的一见钟情就是事实,也许梁洛施认为情分已尽自然分手也是事实。
: 中国传统文化有太多的规则约束。中国神话里的尧舜禹,高尚得让大家都汗颜,希腊神话大王宙斯,道德可败坏。中国古代的小说情节常常是穷小子有着纯洁善良的心,一心向善,治家治国治天下,最后成了圣人。我们是被规则圈养的民族,所以中国历史上没有出过尼采这样的人,中华文化圈子里也不能理解爱德华八世为了一个寡妇放弃皇位,不能理解大S,梁洛施的故事是真爱。

avatar
j*n
8
老赵,你现在转战这里了? 我觉得python vs java 的话,能够上 java 还是上 java,
python 在 hadoop world 是个怪胎. 所谓大家写的python 大部分都在后台被变成了
jython or cython. 由于隔着这1层纱,很多 performance 的问题根本没法debug.
python 是入门用的, 几十行的function call 用python写还行。几百行,上千行的lib
还是得用jvm 写才行。

【在 z****e 的大作中提到】
: 接触big data时间不长,但是随着现在big data的兴起
: 越来越多的人投入这个领域,加上以前是做分布式系统开发的
: 所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
: 这个领域我的感觉,就是cs的应用统计学,这块占了80%
: 剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
: 这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
: http://www.mitbbs.com/article/JobHunting/32600683_0.html
: 里面说到的clustering,这个可能是最新的一个比较好的option
: http://www.mitbbs.com/article_t/DataSciences/6761.html
: 面试关键字,看东肥的贴

avatar
L*e
9
reiko很sharp

曝光,他们背负了太多的压力。大家不愿意相信他们是一见钟情的,更相信是35岁的大
S终于绑住了一个豪门,汪小菲借大S炒作,为俏江南进去台湾市场铺路,甚至有媒体猜
测他们是一夜情之后,奉子
的矛盾。更重要的是,大家 一直不相信两人之间有爱情。据媒体报道,两人也承认,
见第一面就确定了关系,第二面见父母,第三面登记,所有过程一共历时一个月时间。
该祝福他们,希望是一场童话,希望所有质疑都是庸人自扰。
是让外界猜测梁洛施只是“生育工具”。她的经纪人表示,两人乃真爱,但因为传统的
李嘉诚不能接受一个娱乐圈的女孩而被迫分手。
父亲就去世了,从小没有父爱,家境又贫寒,12岁就和英皇签约签下15年死约。两人惺
惺相惜,李泽楷不惜高价为她赎身。
不知道公众人物之间的 真实心路历程。也许大S的一见钟情就是事实,也许梁洛施认为
情分已尽自然分手也是事实。
神话大王宙斯,道德可败坏。中国古代的小说情节常常是穷小子有着纯洁善良的心,一
心向善,治家治国治天下,最后成了圣人。我们是被规则圈养的民族,所以中国历史上
没有出过尼采这样的人,中

【在 r********o 的大作中提到】
: 上周大S和汪小菲结婚了。据报道,现场温馨浪漫,大S更是几度落泪。自从两人恋情曝光,他们背负了太多的压力。大家不愿意相信他们是一见钟情的,更相信是35岁的大S终于绑住了一个豪门,汪小菲借大S炒作,为俏江南进去台湾市场铺路,甚至有媒体猜测他们是一夜情之后,奉子成婚。
: 两人的爱情从一开始就不被看好,女方家庭的高调和男方家庭的低调又形成一对天生的矛盾。更重要的是,大家 一直不相信两人之间有爱情。据媒体报道,两人也承认,见第一面就确定了关系,第二面见父母,第三面登记,所有过程一共历时一个月时间。
: 大家情愿相信他们是金钱关系,也不愿意相信一见钟情。既然两人结婚了,我们也应该祝福他们,希望是一场童话,希望所有质疑都是庸人自扰。
: 大S这件事让我想起梁洛施。外界也不相信她和李泽楷之间有真爱。最近分手事件更是让外界猜测梁洛施只是“生育工具”。她的经纪人表示,两人乃真爱,但因为传统的李嘉诚不能接受一个娱乐圈的女孩而被迫分手。
: 我是相信他们之间有爱情的,李泽楷自小丧母,而梁洛施是私生女,两个月大的时候父亲就去世了,从小没有父爱,家境又贫寒,12岁就和英皇签约签下15年死约。两人惺惺相惜,李泽楷不惜高价为她赎身。
: 似乎大家更多地会去相信嫁入豪门都是因为金钱,似乎只有嫁给穷人才是真爱。我们不知道公众人物之间的 真实心路历程。也许大S的一见钟情就是事实,也许梁洛施认为情分已尽自然分手也是事实。
: 中国传统文化有太多的规则约束。中国神话里的尧舜禹,高尚得让大家都汗颜,希腊神话大王宙斯,道德可败坏。中国古代的小说情节常常是穷小子有着纯洁善良的心,一心向善,治家治国治天下,最后成了圣人。我们是被规则圈养的民族,所以中国历史上没有出过尼采这样的人,中华文化圈子里也不能理解爱德华八世为了一个寡妇放弃皇位,不能理解大S,梁洛施的故事是真爱。

avatar
j*n
10
python 还有个问题是 太容易写了,每个人写得都不一样。新手写得乱七八糟,当
matlab 写得有; function programming 过来得人 map/reduce/filter/lambda 一个叠
一个,完全追求代码“行数”的少,不顾可读性和可debug性, 后来人根本没法看, 这
一点我完全同意 好虫 关于 scala 的看法, you save on thinking, not typing.
Python 也是一样的,还有performance 问题。
avatar
D*r
11
哪种文化不是为了灌输道德观念呢,西方历史没有大一统的专制集权,所以各种文化思
潮会比较多,就像春秋的诸子百家。

【在 M*****g 的大作中提到】
: 说得真好,赞美女。
: 中国文化的劣根性就是道德说教。道家愚民,儒家教化,佛家隐忍,都是为了灌输一种
: 道德观念。很可惜,我们浸淫其中多年,就算不喜欢,思考问题的方式或多或少都要受
: 其左右。
: btw,尧舜禹的故事,基本被证实是谎言,禅让是没有的,杀戮是必不可少的。儒家教
: 化之利害,可见一斑。

avatar
z*e
12
big data有两套生态啊,python的scipy和java的hadoop这些
我用python就不用hadoop了,直接上scipy和numpy
建模容易,虽然运行很慢,但是写起来来快,不适合生产,但是适合建模
用hadoop我就不用python,直接上java
我们是用python来快速modelling,然后对sample做test
没问题之后,再由我等java编程师转译成java代码,测试无问题后下放生产
基本上对python的使用是用完就扔掉,下次要用再写,基本上都不重用
java则是大量重用代码,以造可复用的轮子为主要目的
scala用来写一些类库挺好,基本上除了java以外,其他所有语言
都不宜写太多,都不适合搞软件工程
其实我java代码也写得不多,一般超过200行就分类了

【在 j*****n 的大作中提到】
: python 还有个问题是 太容易写了,每个人写得都不一样。新手写得乱七八糟,当
: matlab 写得有; function programming 过来得人 map/reduce/filter/lambda 一个叠
: 一个,完全追求代码“行数”的少,不顾可读性和可debug性, 后来人根本没法看, 这
: 一点我完全同意 好虫 关于 scala 的看法, you save on thinking, not typing.
: Python 也是一样的,还有performance 问题。

avatar
v*s
13
穷人富人都有真爱。作为富人,已经很多资源了,拿出来让穷人酸一把算啥,就跟我们
交很多税一样,维护社会。
真爱是不怕六眼飞鱼的!
avatar
z*e
14
不过用什么语言是次要的,关键是理论或者说idea
那几个帖子说的都很靠谱,切中要害,适合入门和实战
“就是work”

java,
lib

【在 j*****n 的大作中提到】
: 老赵,你现在转战这里了? 我觉得python vs java 的话,能够上 java 还是上 java,
: python 在 hadoop world 是个怪胎. 所谓大家写的python 大部分都在后台被变成了
: jython or cython. 由于隔着这1层纱,很多 performance 的问题根本没法debug.
: python 是入门用的, 几十行的function call 用python写还行。几百行,上千行的lib
: 还是得用jvm 写才行。

avatar
R*e
15
说的好

【在 v******s 的大作中提到】
: 穷人富人都有真爱。作为富人,已经很多资源了,拿出来让穷人酸一把算啥,就跟我们
: 交很多税一样,维护社会。
: 真爱是不怕六眼飞鱼的!

avatar
g*o
16
我也特讨厌lambda和map, 本来写代码的时候想工作逻辑就够乱了, 还要在代码上加点
曲折..

【在 j*****n 的大作中提到】
: python 还有个问题是 太容易写了,每个人写得都不一样。新手写得乱七八糟,当
: matlab 写得有; function programming 过来得人 map/reduce/filter/lambda 一个叠
: 一个,完全追求代码“行数”的少,不顾可读性和可debug性, 后来人根本没法看, 这
: 一点我完全同意 好虫 关于 scala 的看法, you save on thinking, not typing.
: Python 也是一样的,还有performance 问题。

avatar
M*g
17
如果真的是百家争鸣的文化,也就不存在道德说教的问题了。有人喜欢棉毛裤,我就喜
欢裸奔。我不喜欢裸奔了,我还可以穿比基尼奔。
来吧,奔吧。

【在 D******r 的大作中提到】
: 哪种文化不是为了灌输道德观念呢,西方历史没有大一统的专制集权,所以各种文化思
: 潮会比较多,就像春秋的诸子百家。

avatar
d*i
18
千万不要被任何FP欺骗上当,FP从来不是,现在不是,将来也不是编程的主流,相信我
这一句就行了。老老实实用传统语言,有你吃香的喝辣的,FP就是没事找事。作为开发
者,记得一句话: We are coming here to solve problem, not to create problem。

【在 g*****o 的大作中提到】
: 我也特讨厌lambda和map, 本来写代码的时候想工作逻辑就够乱了, 还要在代码上加点
: 曲折..

avatar
M*4
19
reiko的理论一套一套的, 佩服

曝光,他们背负了太多的压力。大家不愿意相信他们是一见钟情的,更相信是35岁的大
S终于绑住了一个豪门,汪小菲借大S炒作,为俏江南进去台湾市场铺路,甚至有媒体猜
测他们是一夜情之后,奉子
的矛盾。更重要的是,大家 一直不相信两人之间有爱情。据媒体报道,两人也承认,
见第一面就确定了关系,第二面见父母,第三面登记,所有过程一共历时一个月时间。
该祝福他们,希望是一场童话,希望所有质疑都是庸人自扰。
是让外界猜测梁洛施只是“生育工具”。她的经纪人表示,两人乃真爱,但因为传统的
李嘉诚不能接受一个娱乐圈的女孩而被迫分手。
父亲就去世了,从小没有父爱,家境又贫寒,12岁就和英皇签约签下15年死约。两人惺
惺相惜,李泽楷不惜高价为她赎身。
不知道公众人物之间的 真实心路历程。也许大S的一见钟情就是事实,也许梁洛施认为
情分已尽自然分手也是事实。
神话大王宙斯,道德可败坏。中国古代的小说情节常常是穷小子有着纯洁善良的心,一
心向善,治家治国治天下,最后成了圣人。我们是被规则圈养的民族,所以中国历史上
没有出过尼采这样的人,中

【在 r********o 的大作中提到】
: 上周大S和汪小菲结婚了。据报道,现场温馨浪漫,大S更是几度落泪。自从两人恋情曝光,他们背负了太多的压力。大家不愿意相信他们是一见钟情的,更相信是35岁的大S终于绑住了一个豪门,汪小菲借大S炒作,为俏江南进去台湾市场铺路,甚至有媒体猜测他们是一夜情之后,奉子成婚。
: 两人的爱情从一开始就不被看好,女方家庭的高调和男方家庭的低调又形成一对天生的矛盾。更重要的是,大家 一直不相信两人之间有爱情。据媒体报道,两人也承认,见第一面就确定了关系,第二面见父母,第三面登记,所有过程一共历时一个月时间。
: 大家情愿相信他们是金钱关系,也不愿意相信一见钟情。既然两人结婚了,我们也应该祝福他们,希望是一场童话,希望所有质疑都是庸人自扰。
: 大S这件事让我想起梁洛施。外界也不相信她和李泽楷之间有真爱。最近分手事件更是让外界猜测梁洛施只是“生育工具”。她的经纪人表示,两人乃真爱,但因为传统的李嘉诚不能接受一个娱乐圈的女孩而被迫分手。
: 我是相信他们之间有爱情的,李泽楷自小丧母,而梁洛施是私生女,两个月大的时候父亲就去世了,从小没有父爱,家境又贫寒,12岁就和英皇签约签下15年死约。两人惺惺相惜,李泽楷不惜高价为她赎身。
: 似乎大家更多地会去相信嫁入豪门都是因为金钱,似乎只有嫁给穷人才是真爱。我们不知道公众人物之间的 真实心路历程。也许大S的一见钟情就是事实,也许梁洛施认为情分已尽自然分手也是事实。
: 中国传统文化有太多的规则约束。中国神话里的尧舜禹,高尚得让大家都汗颜,希腊神话大王宙斯,道德可败坏。中国古代的小说情节常常是穷小子有着纯洁善良的心,一心向善,治家治国治天下,最后成了圣人。我们是被规则圈养的民族,所以中国历史上没有出过尼采这样的人,中华文化圈子里也不能理解爱德华八世为了一个寡妇放弃皇位,不能理解大S,梁洛施的故事是真爱。

avatar
m*r
20
非常感谢,学习了。
avatar
D*r
21
儒家的根本是两个字“仁”和“恕”,其他任何文化核心都离不开这两个字。只是任何
文化思想在统治阶级的操纵下,变换了味道,就如佛教到了西藏就变的残忍嗜杀。所以
,我觉得你批评传统文化本身是不对的,而大一统的专制制度也是必然的。美星才子你
再怎么做潇洒状,仁道和恕道总是跟随着你,挥之不去。

【在 M*****g 的大作中提到】
: 如果真的是百家争鸣的文化,也就不存在道德说教的问题了。有人喜欢棉毛裤,我就喜
: 欢裸奔。我不喜欢裸奔了,我还可以穿比基尼奔。
: 来吧,奔吧。

avatar
d*n
22
我发表一下看法:
过去二十年CS深受OO和互联网的影响。所有的数据和业务逻辑都被封装在大大小小的模
块里面,这样保证了能够传输,移植和复用等问题。
但是被小心翼翼封装在json或者packet里面的数据已经没法流动起来了。rdbms虽然能
够处理transaction但是对于高维稀疏而且schema多变的数据也无能为力,以致于现在
最靠谱的数据共享方式还是文件或者文件的变种。
所谓的大数据工具,是一种海量拆包的工具,只不过是在反过来做过去20年各种无谓的
encapsulation。可以认为互联网每天成千上百个pb的数据里面,真正有价值的部分只
是几十个tb,而其中能够分析也不过这当中的一个百分比。无论是tableau也好还是
gnip也好还是sumologic也好,做的都是这些器,这些东西十几年前都做过了,只不过
现在从pc软件变成了web service。

【在 z****e 的大作中提到】
: 接触big data时间不长,但是随着现在big data的兴起
: 越来越多的人投入这个领域,加上以前是做分布式系统开发的
: 所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
: 这个领域我的感觉,就是cs的应用统计学,这块占了80%
: 剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
: 这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
: http://www.mitbbs.com/article/JobHunting/32600683_0.html
: 里面说到的clustering,这个可能是最新的一个比较好的option
: http://www.mitbbs.com/article_t/DataSciences/6761.html
: 面试关键字,看东肥的贴

avatar
M*g
23
我并不反对传统文化,如兄所言,我其实也是其传承下一小卒。我所反感的只是其为人
刀笔禁锢人性的一面。我要自由!!!哈哈
咱们没分歧,拥抱一下。。。

【在 D******r 的大作中提到】
: 儒家的根本是两个字“仁”和“恕”,其他任何文化核心都离不开这两个字。只是任何
: 文化思想在统治阶级的操纵下,变换了味道,就如佛教到了西藏就变的残忍嗜杀。所以
: ,我觉得你批评传统文化本身是不对的,而大一统的专制制度也是必然的。美星才子你
: 再怎么做潇洒状,仁道和恕道总是跟随着你,挥之不去。

avatar
d*y
24
zan
avatar
L*e
25
你们两个人真有趣

【在 M*****g 的大作中提到】
: 我并不反对传统文化,如兄所言,我其实也是其传承下一小卒。我所反感的只是其为人
: 刀笔禁锢人性的一面。我要自由!!!哈哈
: 咱们没分歧,拥抱一下。。。

avatar
o*a
26
FP是指function programming?传统语言是指c语言吗?

【在 d****i 的大作中提到】
: 千万不要被任何FP欺骗上当,FP从来不是,现在不是,将来也不是编程的主流,相信我
: 这一句就行了。老老实实用传统语言,有你吃香的喝辣的,FP就是没事找事。作为开发
: 者,记得一句话: We are coming here to solve problem, not to create problem。

avatar
p*t
27
。。。要自由还能结婚吗?

【在 M*****g 的大作中提到】
: 我并不反对传统文化,如兄所言,我其实也是其传承下一小卒。我所反感的只是其为人
: 刀笔禁锢人性的一面。我要自由!!!哈哈
: 咱们没分歧,拥抱一下。。。

avatar
z*e
28
靠谱
不过oo跟互联网还不是一个时代,互联网更靠后一些
oop很早就显现出了替代其他各种paradigms的架势
随之而来的是软件工程这个学科的兴起
然后逐步替换并淘汰掉c为代表的硬件/命令式编程
开始剥离出抽象的逻辑代码而非命令代码
最早做出垮平台的是fortran,字节码那些都是fortran先搞出来的
然后oop优化最早是smalltalk,以及后来的strongtalk搞出来的理论
再然后lars bak等人根据strongtalk的经验
address了sun的一个项目组用c++用疯了的问题
这就是oak以及后来的java还有官方jvm hotspot的第一版
然后就是java瞄准了网络时代,sun提出了the network is the computer
java上各种socket等的编程也远比c什么容易很多,封装得更彻底
最早c/c++什么用corba,简直不是人用的
然后java在corba基础之上搞出了rmi
再后来是ejb,ejb就是分布式系统的一个典型应用
然后ejb太过于复杂,加上m$被一脚踢出了java阵营
所以迫不及待需要一个更高level的通信协议,这就是后来xml
然后基于xml演化出了uddi, wsdl&soap这个web service的第一代
但是web service还是太过于复杂,于是有个phd提出了restful构架
简化了web service,然后就有了网络上各种产品比如json的今天
同时server side以ejb为代表的j2ee大规模应用,但是ejb本身也太过于复杂
rod johnson和gavin king为代表的aussie建议简化,同时orm也被提出
建议对传统db做封装,因为sql太不统一了,而且关系型数据跟oo概念有很大出入
这就有了spring和hibernate,然后spring和hibernate横行,就有了分布式今天的基础
架构
再然后,google等web公司逐步兴起,又提出了很多新概念,比如nosql和map reduce这些
后来,yahoo根据google的各种概念,作出了java版的google系统的翻版
然后贡献给了apache并开源了,其他公司就都跑去抄yahoo的这个东西,不要钱比什么
都重要
这就是hadoop,hadoop在一定程度上拓宽了传统db的范畴
这几个基本上构成了今天分布式的基础架构
再然后,这一套完成之后,人们开始想办法针对这一套架构做优化
简单说就是如何引入脚本来简化某些领域的开发,就像以前sql对db一样
这就有了ruby以及jruby,js以及rhino和nashorn,python和jython
同时jvm自身也在摸索一些更为合理的编程方式,这就是scala,groovy还有clojure
再然后,也就是一年前,更多的专业脚本语言被提出,要搬到jvm上去
这就是renjin,也就是r在jvm上的impl,以及hadoop自身发展出的类似sql的ql
比如cassandra用的cql,同时java本身也在拓展jvm的性能
java引入了script engine,随着java版本的逐步完善,以后让jvm直接执行脚本
比如python, ruby, js,groovy这些,会变得更为方便和便捷
但是jvm毕竟还是java的一部分,不懂jvm还是不行
另外很多人还在用并行计算的思维来思考分布式计算,都是hpc那些,这个也不对
不懂分布式就很难理解分布式所带来的各种问题,hadoop等都在尝试着让分布式变得更
简单
cloud也在努力使分布式变得更为简单,但是要做到无脑就用的程度
还是太遥远了,因为各种东西都很不完善,至少现阶段,还是要会java才行
否则都是toy,各种兼容性的问题,不胜其烦,生产系统可没办法这样搞
多来几个生产bugs,编程师就要准备打包滚蛋了
不过这些都是empirical东西
真正的big data和分布式理论要超越这些具体的impl
理论上用什么都可以做出来,用汇编都行,但是实践是另外一回事
实际干活还是以堆轮子为首选,否则没办法维护

【在 d****n 的大作中提到】
: 我发表一下看法:
: 过去二十年CS深受OO和互联网的影响。所有的数据和业务逻辑都被封装在大大小小的模
: 块里面,这样保证了能够传输,移植和复用等问题。
: 但是被小心翼翼封装在json或者packet里面的数据已经没法流动起来了。rdbms虽然能
: 够处理transaction但是对于高维稀疏而且schema多变的数据也无能为力,以致于现在
: 最靠谱的数据共享方式还是文件或者文件的变种。
: 所谓的大数据工具,是一种海量拆包的工具,只不过是在反过来做过去20年各种无谓的
: encapsulation。可以认为互联网每天成千上百个pb的数据里面,真正有价值的部分只
: 是几十个tb,而其中能够分析也不过这当中的一个百分比。无论是tableau也好还是
: gnip也好还是sumologic也好,做的都是这些器,这些东西十几年前都做过了,只不过

avatar
G*s
29
李嘉诚传统?传统怎么教下儿子让人生3个娃然后不娶
avatar
j*n
30
您老挺能写的 ...

【在 z****e 的大作中提到】
: 靠谱
: 不过oo跟互联网还不是一个时代,互联网更靠后一些
: oop很早就显现出了替代其他各种paradigms的架势
: 随之而来的是软件工程这个学科的兴起
: 然后逐步替换并淘汰掉c为代表的硬件/命令式编程
: 开始剥离出抽象的逻辑代码而非命令代码
: 最早做出垮平台的是fortran,字节码那些都是fortran先搞出来的
: 然后oop优化最早是smalltalk,以及后来的strongtalk搞出来的理论
: 再然后lars bak等人根据strongtalk的经验
: address了sun的一个项目组用c++用疯了的问题

avatar
p*8
31
一生何求?
女人嘛,找个好老板不如嫁个好老公!
大S算是嫁了个好老公,梁洛施算是找对了老板!
avatar
g*5
32
赵老师啊,问你个简单的问题。
平行计算就是为了效率。既然这么讲求效率,为什么还用java作为平台语言,搞个
Hadoop?难道不是应该用汇编和C吗?比如用C去implement MPI不就挺好吗?

【在 z****e 的大作中提到】
: 靠谱
: 不过oo跟互联网还不是一个时代,互联网更靠后一些
: oop很早就显现出了替代其他各种paradigms的架势
: 随之而来的是软件工程这个学科的兴起
: 然后逐步替换并淘汰掉c为代表的硬件/命令式编程
: 开始剥离出抽象的逻辑代码而非命令代码
: 最早做出垮平台的是fortran,字节码那些都是fortran先搞出来的
: 然后oop优化最早是smalltalk,以及后来的strongtalk搞出来的理论
: 再然后lars bak等人根据strongtalk的经验
: address了sun的一个项目组用c++用疯了的问题

avatar
M*g
33
一语击中要害。。。唉

【在 p**t 的大作中提到】
: 。。。要自由还能结婚吗?
avatar
z*e
34
jvm也是c写的,最终什么都是c,但是c和汇编都太底层了
跟人的思维接不上,人毕竟是人,不可能完全用机器的思维方式去思考和书写语言
整个计算机系统就是层层封装的结果
并行计算跟分布式计算是两回事
并行计算很多时候对于单机更有意义,共享内存这些
分布式计算一定涉及网络连接,分布式计算不在乎甚至有意识地破坏某些nodes
以测试整个系统的健壮程度,比如chaos monkey,就是要让某些nodes fail掉
看看系统work不work,并行计算用得比较多的是hpc,而不是分布式系统
分布式系统因为nodes上各种乱七八糟的系统什么良莠不齐
所以找到一个统一的平台非常重要,否则每个node都要求定制软件,工作量太大
jvm是目前能找到的最好平台
其他语言要么效率比不过jvm,要么就是兼容性比不过java
hpc上的mpi这些到还真是用c比较多,物理系什么都很喜欢写pbsscript
然后提交hpc排队,执行后看结果,并行计算和分布式计算有一些共性和重叠
但是毕竟不是一个东西,不同的topics
从效率上说,效率提升不只比单线程的效率
是多线程,多进程的效率提升,能并行处理的部分越多,可以提升的空间就越大
要并行处理,就需要decoupling,割裂多个模块,使之可以并行
这个要看需求,不同需求决定了dependency的多寡,一般科学计算依赖较强
web的相互依赖较弱,所以一般这种都最先用在web上
还有就是效率本身,java和c的差异主要体现在内存的管理上
那效率也是由综合因素决定的,也不仅仅取决于内存操作的执行效率
还同样取决于网络,which是分布式计算一定要涉及的部分
网络的io比起内存,那是要慢太多了
一般来说操作效率cpu>>内存>>硬盘>>网络
这里面还有什么l1 cache,l2 cache这些就都不细说了,n年不搞这些了
但是网络的latency远远高过硬盘,内存耗时这些应该是个共识
工作时候,网络的io是要尽量减少的,所以就算你辛辛苦苦用c实现了
提升了内存效率,但是还是改变不了网络的延迟,该慢还是慢,那你用c做有意义么?
木桶原理,决定高度的是最短的一块,分布式最短也就是最慢的一般都是网络操作
但是分布式又离不开网络操作,否则就不是分布式了
而且割裂的平台会使得很多优化手段无法使用
一个统一的平台远比几个不同平台各搞各的要容易优化
python的包很多都是fortran, c++还有python自身写的
乱七八糟,不仅垮平台很难实现,还同时导致综合执行效率降低
c++的有些优化手段,fortran就用不了,反之亦然,因为毕竟不是一个语言
很多特性不一样,相比之下,java所有的包都是jvm上的
所有代码有一个工整的执行格式,那么优化手段就多了
jvm本身在lars bak手下制作的时候,lars bak注册了23项专利
大部分都是优化专利,google后来雇用了lars bak,搞了v8引擎
结果就被oracle告了,就因为lars bak的专利
lars bak从strongtalk时代开始搞oop的优化,老鸟中的老鸟,巨牛无比
其他没有办法过他手优化的,比如ruby和python,效率就偏低,就慢
所以现在都争着往jvm上搬,什么jruby, jython, js这些,都有jvm的版本
到了jvm,就能用上lars bak的东西了,就快不少
现在lars bak在搞dart
大多数人,如果没有经过一定的代码优化理论训练
就算能用c或者汇编写一个hadoop这么大的东西出来
其执行效率还是会低于jvm和hadoop,更不要说开发和维护的效率了
分布式是一个非常大的topic,能涵盖你所知道的全部
我不认为有谁能够一个人搞定全部,这么想的基本上都属于盲目自大的
所以搞分布式学会利用别人做好的轮子非常重要,否则事倍功半
有些东西根本不是一个人一天两天能写出来的,比如os, jvm, db这些
这些都是群策群力多年积累下来的东西,大多数人穷其一生
能做其中一个,并得到市场的认同
就牛得不得了了,更不要说上面各种类库,spring, hibernate, hadoop
这些要是有人能写一个出来,都不要写完整了,你能参与其中
你就已经很牛了,这些都是apache top level档次的projects
能做其中一个,做到创始人的话,应该就能在wikipedia上有一个term来描述你的生平
你这辈子其实不用打工了,到处演讲卖书就好了
甚至到一些大学里面混个什么荣誉博士,问题不大

【在 g****5 的大作中提到】
: 赵老师啊,问你个简单的问题。
: 平行计算就是为了效率。既然这么讲求效率,为什么还用java作为平台语言,搞个
: Hadoop?难道不是应该用汇编和C吗?比如用C去implement MPI不就挺好吗?

avatar
R*e
35
哈哈哈哈

【在 M*****g 的大作中提到】
: 一语击中要害。。。唉
avatar
z*e
36
不过为啥我们老在谈这些呢?
这些都是it系统,跟真正big data理论核心无关
跟分布式算法也没有太大联系,都是单机上的那些东西,没啥意思
这里是data science,应该说说clustering,那篇最新的论文
有谁看懂了,解释解释,有些部分我还有些迷惑
avatar
y*5
37
幸福就好,何必在乎世俗眼光
avatar
g*5
38
收藏了!
我是把分布式计算和并行计算混为一谈,因为我用到的都是后者。
按照你的说法,其实分布式计算很适合节点间数据传递较少的任务。对于这些任务,网
速不一定是瓶颈。比如一个大程序,是同时cpu intensive和memory intensive的,但
是可以分割,并且每个分割出来的小任务,也都是cpu&memory intensive的,但是同时
节点间的数据传递有限。这样的任务,网络的latency就不是瓶颈了吧。而且用C也比
java效率高吧?
跨平台的确是个问题。要不是有这个问题,肯定现在最流行的是C,并且比第二的语言
可能高出一个数量的使用度。问个外行话,能不能先在所有的unix和linux系统下先把C
跨平台了?

【在 z****e 的大作中提到】
: jvm也是c写的,最终什么都是c,但是c和汇编都太底层了
: 跟人的思维接不上,人毕竟是人,不可能完全用机器的思维方式去思考和书写语言
: 整个计算机系统就是层层封装的结果
: 并行计算跟分布式计算是两回事
: 并行计算很多时候对于单机更有意义,共享内存这些
: 分布式计算一定涉及网络连接,分布式计算不在乎甚至有意识地破坏某些nodes
: 以测试整个系统的健壮程度,比如chaos monkey,就是要让某些nodes fail掉
: 看看系统work不work,并行计算用得比较多的是hpc,而不是分布式系统
: 分布式系统因为nodes上各种乱七八糟的系统什么良莠不齐
: 所以找到一个统一的平台非常重要,否则每个node都要求定制软件,工作量太大

avatar
n*r
39
我也相信梁洛施和李泽楷是真爱,最后还是分了,很让人伤心的。

曝光,他们背负了太多的压力。大家不愿意相信他们是一见钟情的,更相信是35岁的大
S终于绑住了一个豪门,汪小菲借大S炒作,为俏江南进去台湾市场铺路,甚至有媒体猜
测他们是一夜情之后,奉子成婚。
的矛盾。更重要的是,大家 一直不相信两人之间有爱情。据媒体报道,两人也承认,
见第一面就确定了关系,第二面见父母,第三面登记,所有过程一共历时一个月时间。
该祝福他们,希望是一场童话,希望所有质疑都是庸人自扰。
是让外界猜测梁洛施只是“生育工具”。她的经纪人表示,两人乃真爱,但因为传统的
李嘉诚不能接受一个娱乐圈的女孩而被迫分手。
父亲就去世了,从小没有父爱,家境又贫寒,12岁就和英皇签约签下15年死约。两人惺
惺相惜,李泽楷不惜高价为她赎身。
不知道公众人物之间的 真实心路历程。也许大S的一见钟情就是事实,也许梁洛施认为
情分已尽自然分手也是事实。
神话大王宙斯,道德可败坏。中国古代的小说情节常常是穷小子有着纯洁善良的心,一
心向善,治家治国治天下,最后成了圣人。我们是被规则圈养的民族,所以中国历史上
没有出过尼采这样的人,中华文化圈子里也不能理解爱德华八世为了一个寡妇放弃皇位
,不能理解大S,梁洛施的故事是真爱。

【在 r********o 的大作中提到】
: 上周大S和汪小菲结婚了。据报道,现场温馨浪漫,大S更是几度落泪。自从两人恋情曝光,他们背负了太多的压力。大家不愿意相信他们是一见钟情的,更相信是35岁的大S终于绑住了一个豪门,汪小菲借大S炒作,为俏江南进去台湾市场铺路,甚至有媒体猜测他们是一夜情之后,奉子成婚。
: 两人的爱情从一开始就不被看好,女方家庭的高调和男方家庭的低调又形成一对天生的矛盾。更重要的是,大家 一直不相信两人之间有爱情。据媒体报道,两人也承认,见第一面就确定了关系,第二面见父母,第三面登记,所有过程一共历时一个月时间。
: 大家情愿相信他们是金钱关系,也不愿意相信一见钟情。既然两人结婚了,我们也应该祝福他们,希望是一场童话,希望所有质疑都是庸人自扰。
: 大S这件事让我想起梁洛施。外界也不相信她和李泽楷之间有真爱。最近分手事件更是让外界猜测梁洛施只是“生育工具”。她的经纪人表示,两人乃真爱,但因为传统的李嘉诚不能接受一个娱乐圈的女孩而被迫分手。
: 我是相信他们之间有爱情的,李泽楷自小丧母,而梁洛施是私生女,两个月大的时候父亲就去世了,从小没有父爱,家境又贫寒,12岁就和英皇签约签下15年死约。两人惺惺相惜,李泽楷不惜高价为她赎身。
: 似乎大家更多地会去相信嫁入豪门都是因为金钱,似乎只有嫁给穷人才是真爱。我们不知道公众人物之间的 真实心路历程。也许大S的一见钟情就是事实,也许梁洛施认为情分已尽自然分手也是事实。
: 中国传统文化有太多的规则约束。中国神话里的尧舜禹,高尚得让大家都汗颜,希腊神话大王宙斯,道德可败坏。中国古代的小说情节常常是穷小子有着纯洁善良的心,一心向善,治家治国治天下,最后成了圣人。我们是被规则圈养的民族,所以中国历史上没有出过尼采这样的人,中华文化圈子里也不能理解爱德华八世为了一个寡妇放弃皇位,不能理解大S,梁洛施的故事是真爱。

avatar
g*5
40
clustering算法还是到数学版,或者军版说比较有共鸣,哈哈
这边可能对怎么应用大数据的软件更感兴趣,对算法本身就算了。

【在 z****e 的大作中提到】
: 不过为啥我们老在谈这些呢?
: 这些都是it系统,跟真正big data理论核心无关
: 跟分布式算法也没有太大联系,都是单机上的那些东西,没啥意思
: 这里是data science,应该说说clustering,那篇最新的论文
: 有谁看懂了,解释解释,有些部分我还有些迷惑

avatar
p*t
41
我是不是看错了。。。

【在 n*****r 的大作中提到】
: 我也相信梁洛施和李泽楷是真爱,最后还是分了,很让人伤心的。
:
: 曝光,他们背负了太多的压力。大家不愿意相信他们是一见钟情的,更相信是35岁的大
: S终于绑住了一个豪门,汪小菲借大S炒作,为俏江南进去台湾市场铺路,甚至有媒体猜
: 测他们是一夜情之后,奉子成婚。
: 的矛盾。更重要的是,大家 一直不相信两人之间有爱情。据媒体报道,两人也承认,
: 见第一面就确定了关系,第二面见父母,第三面登记,所有过程一共历时一个月时间。
: 该祝福他们,希望是一场童话,希望所有质疑都是庸人自扰。
: 是让外界猜测梁洛施只是“生育工具”。她的经纪人表示,两人乃真爱,但因为传统的
: 李嘉诚不能接受一个娱乐圈的女孩而被迫分手。

avatar
p*a
42


【在 z****e 的大作中提到】
: 接触big data时间不长,但是随着现在big data的兴起
: 越来越多的人投入这个领域,加上以前是做分布式系统开发的
: 所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
: 这个领域我的感觉,就是cs的应用统计学,这块占了80%
: 剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
: 这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
: http://www.mitbbs.com/article/JobHunting/32600683_0.html
: 里面说到的clustering,这个可能是最新的一个比较好的option
: http://www.mitbbs.com/article_t/DataSciences/6761.html
: 面试关键字,看东肥的贴

avatar
p*t
43
总有一天你会不想要自由的

【在 M*****g 的大作中提到】
: 一语击中要害。。。唉
avatar
z*e
44
c把跨平台,gc这些常见问题都给搞定了的话,那就是java了
java本身就是c like的语言,跟c++,obj c什么一样,都是c家族
不过可能是唯一一个不把c作为key letter放进去的c like语言
跟python这种非c like语言不太一样
java最早设计出来就是把那些c/c++工程中常见的问题
给统一用一个类库或者环境给搞定,所以最早有说法说是java类库最全最多
分布式并不是适合数据传递较少,相反,是传递较多才用分布式
但是尽量减少网络的io,是一个常见的优化手段
但是再少,都比并行计算用得多呀,毕竟网络是分布式的一个主要特征
而并行计算不用网络也没啥,弄点共享内存什么的,hpc一样可以搞并行计算
小程序没问题,用什么写都有可能,但是一旦项目变大
再在跨平台gc这种问题上折腾的话,实在是吃不消,力不从心,太累
大多数时候都是拿个轮子,直接抄来用了,java哲学比较讨人喜欢
如非万不得已,不要重复造轮子

把C

【在 g****5 的大作中提到】
: 收藏了!
: 我是把分布式计算和并行计算混为一谈,因为我用到的都是后者。
: 按照你的说法,其实分布式计算很适合节点间数据传递较少的任务。对于这些任务,网
: 速不一定是瓶颈。比如一个大程序,是同时cpu intensive和memory intensive的,但
: 是可以分割,并且每个分割出来的小任务,也都是cpu&memory intensive的,但是同时
: 节点间的数据传递有限。这样的任务,网络的latency就不是瓶颈了吧。而且用C也比
: java效率高吧?
: 跨平台的确是个问题。要不是有这个问题,肯定现在最流行的是C,并且比第二的语言
: 可能高出一个数量的使用度。问个外行话,能不能先在所有的unix和linux系统下先把C
: 跨平台了?

avatar
z*e
45
难,clustering都是基于vsm的
这个算是线性空间,线性代数方式建模,然后应用统计学
数学多数不搞这个,数学那些高大上都在搞几何代数和分析
这种统计学,还是应用统计学,一般数学家不屑搞的,太实用
理论性不强,搞再好都不能拿费儿子奖

【在 g****5 的大作中提到】
: clustering算法还是到数学版,或者军版说比较有共鸣,哈哈
: 这边可能对怎么应用大数据的软件更感兴趣,对算法本身就算了。

avatar
l*n
46
属实。应用的东西理论很简单,但是实际情况比理论的假设条件复杂太多,所以才有很
多改进的可能

【在 z****e 的大作中提到】
: 难,clustering都是基于vsm的
: 这个算是线性空间,线性代数方式建模,然后应用统计学
: 数学多数不搞这个,数学那些高大上都在搞几何代数和分析
: 这种统计学,还是应用统计学,一般数学家不屑搞的,太实用
: 理论性不强,搞再好都不能拿费儿子奖

avatar
v*9
47
感谢楼主的在high level 层面的解释,非常有帮助!

【在 z****e 的大作中提到】
: big data有两套生态啊,python的scipy和java的hadoop这些
: 我用python就不用hadoop了,直接上scipy和numpy
: 建模容易,虽然运行很慢,但是写起来来快,不适合生产,但是适合建模
: 用hadoop我就不用python,直接上java
: 我们是用python来快速modelling,然后对sample做test
: 没问题之后,再由我等java编程师转译成java代码,测试无问题后下放生产
: 基本上对python的使用是用完就扔掉,下次要用再写,基本上都不重用
: java则是大量重用代码,以造可复用的轮子为主要目的
: scala用来写一些类库挺好,基本上除了java以外,其他所有语言
: 都不宜写太多,都不适合搞软件工程

avatar
z*u
48
所以搞计算&建模的再次被鄙视了。。。。o(╯□╰)o

【在 z****e 的大作中提到】
: 难,clustering都是基于vsm的
: 这个算是线性空间,线性代数方式建模,然后应用统计学
: 数学多数不搞这个,数学那些高大上都在搞几何代数和分析
: 这种统计学,还是应用统计学,一般数学家不屑搞的,太实用
: 理论性不强,搞再好都不能拿费儿子奖

avatar
z*2
49
怒赞!
avatar
w*g
50
algorithmic那个帖子写得太好了。

【在 z****e 的大作中提到】
: 接触big data时间不长,但是随着现在big data的兴起
: 越来越多的人投入这个领域,加上以前是做分布式系统开发的
: 所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
: 这个领域我的感觉,就是cs的应用统计学,这块占了80%
: 剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
: 这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
: http://www.mitbbs.com/article/JobHunting/32600683_0.html
: 里面说到的clustering,这个可能是最新的一个比较好的option
: http://www.mitbbs.com/article_t/DataSciences/6761.html
: 面试关键字,看东肥的贴

avatar
s*h
51
python 做统计的话lib多得多吧。大概就是java和R的折中

java,
lib

【在 j*****n 的大作中提到】
: 老赵,你现在转战这里了? 我觉得python vs java 的话,能够上 java 还是上 java,
: python 在 hadoop world 是个怪胎. 所谓大家写的python 大部分都在后台被变成了
: jython or cython. 由于隔着这1层纱,很多 performance 的问题根本没法debug.
: python 是入门用的, 几十行的function call 用python写还行。几百行,上千行的lib
: 还是得用jvm 写才行。

avatar
Q*u
52
好帖,感激!
avatar
l*q
53
关于学习,我觉得apprentice00说的关于python和java的经验 跟我的感觉高度吻合,
具体见这个贴
http://www.mitbbs.com/article/JobHunting/32721739_3.html
这个链接的帖子被删了,哪位能重新贴下?

【在 z****e 的大作中提到】
: 接触big data时间不长,但是随着现在big data的兴起
: 越来越多的人投入这个领域,加上以前是做分布式系统开发的
: 所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
: 这个领域我的感觉,就是cs的应用统计学,这块占了80%
: 剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
: 这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
: http://www.mitbbs.com/article/JobHunting/32600683_0.html
: 里面说到的clustering,这个可能是最新的一个比较好的option
: http://www.mitbbs.com/article_t/DataSciences/6761.html
: 面试关键字,看东肥的贴

avatar
z*e
54
接触big data时间不长,但是随着现在big data的兴起
越来越多的人投入这个领域,加上以前是做分布式系统开发的
所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
这个领域我的感觉,就是cs的应用统计学,这块占了80%
剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
http://www.mitbbs.com/article/JobHunting/32600683_0.html
里面说到的clustering,这个可能是最新的一个比较好的option
http://www.mitbbs.com/article_t/DataSciences/6761.html
http://data-sci.appspot.com/index.html
面试关键字,看东肥的贴
http://www.mitbbs.com/article_t/JobHunting/32058385.html
关于学习,我觉得apprentice00说的关于python和java的经验
跟我的感觉高度吻合,具体见这个贴
http://www.mitbbs.com/article/JobHunting/32721739_3.html
avatar
b*n
55
赞!这个总结的很好,多谢!!

接触big data时间不长,但是随着现在big data的兴起
越来越多的人投入这个领域,加上以前是做分布式系统开发的
所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
这个领域我的感觉,就是cs的应用统计学,这块占了80%
剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
http://www.mitbbs.com/article/JobHunting/32600683_0.html
里面说到的clustering,这个可能是最新的一个比较好的option
http://www.mitbbs.com/article_t/DataSciences/6761.html
面试关键字,看东肥的贴
http://www.mitbbs.com/article_t/JobHunting/32058385.html
关于学习,我觉得apprentice00说的关于python和java的经验
跟我的感觉高度吻合,具体见这个贴
http://www.mitbbs.com/article/JobHunting/32721739_3.html

【在 z****e 的大作中提到】
: 接触big data时间不长,但是随着现在big data的兴起
: 越来越多的人投入这个领域,加上以前是做分布式系统开发的
: 所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
: 这个领域我的感觉,就是cs的应用统计学,这块占了80%
: 剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
: 这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
: http://www.mitbbs.com/article/JobHunting/32600683_0.html
: 里面说到的clustering,这个可能是最新的一个比较好的option
: http://www.mitbbs.com/article_t/DataSciences/6761.html
: http://data-sci.appspot.com/index.html

avatar
T*u
56
强贴需顶
avatar
j*n
57
老赵,你现在转战这里了? 我觉得python vs java 的话,能够上 java 还是上 java,
python 在 hadoop world 是个怪胎. 所谓大家写的python 大部分都在后台被变成了
jython or cython. 由于隔着这1层纱,很多 performance 的问题根本没法debug.
python 是入门用的, 几十行的function call 用python写还行。几百行,上千行的lib
还是得用jvm 写才行。

【在 z****e 的大作中提到】
: 接触big data时间不长,但是随着现在big data的兴起
: 越来越多的人投入这个领域,加上以前是做分布式系统开发的
: 所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
: 这个领域我的感觉,就是cs的应用统计学,这块占了80%
: 剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
: 这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
: http://www.mitbbs.com/article/JobHunting/32600683_0.html
: 里面说到的clustering,这个可能是最新的一个比较好的option
: http://www.mitbbs.com/article_t/DataSciences/6761.html
: http://data-sci.appspot.com/index.html

avatar
j*n
58
python 还有个问题是 太容易写了,每个人写得都不一样。新手写得乱七八糟,当
matlab 写得有; function programming 过来得人 map/reduce/filter/lambda 一个叠
一个,完全追求代码“行数”的少,不顾可读性和可debug性, 后来人根本没法看, 这
一点我完全同意 好虫 关于 scala 的看法, you save on thinking, not typing.
Python 也是一样的,还有performance 问题。
avatar
z*e
59
big data有两套生态啊,python的scipy和java的hadoop这些
我用python就不用hadoop了,直接上scipy和numpy
建模容易,虽然运行很慢,但是写起来来快,不适合生产,但是适合建模
用hadoop我就不用python,直接上java
我们是用python来快速modelling,然后对sample做test
没问题之后,再由我等java编程师转译成java代码,测试无问题后下放生产
基本上对python的使用是用完就扔掉,下次要用再写,基本上都不重用
java则是大量重用代码,以造可复用的轮子为主要目的
scala用来写一些类库挺好,基本上除了java以外,其他所有语言
都不宜写太多,都不适合搞软件工程
其实我java代码也写得不多,一般超过200行就分类了

【在 j*****n 的大作中提到】
: python 还有个问题是 太容易写了,每个人写得都不一样。新手写得乱七八糟,当
: matlab 写得有; function programming 过来得人 map/reduce/filter/lambda 一个叠
: 一个,完全追求代码“行数”的少,不顾可读性和可debug性, 后来人根本没法看, 这
: 一点我完全同意 好虫 关于 scala 的看法, you save on thinking, not typing.
: Python 也是一样的,还有performance 问题。

avatar
z*e
60
不过用什么语言是次要的,关键是理论或者说idea
那几个帖子说的都很靠谱,切中要害,适合入门和实战
“就是work”

java,
lib

【在 j*****n 的大作中提到】
: 老赵,你现在转战这里了? 我觉得python vs java 的话,能够上 java 还是上 java,
: python 在 hadoop world 是个怪胎. 所谓大家写的python 大部分都在后台被变成了
: jython or cython. 由于隔着这1层纱,很多 performance 的问题根本没法debug.
: python 是入门用的, 几十行的function call 用python写还行。几百行,上千行的lib
: 还是得用jvm 写才行。

avatar
g*o
61
我也特讨厌lambda和map, 本来写代码的时候想工作逻辑就够乱了, 还要在代码上加点
曲折..

【在 j*****n 的大作中提到】
: python 还有个问题是 太容易写了,每个人写得都不一样。新手写得乱七八糟,当
: matlab 写得有; function programming 过来得人 map/reduce/filter/lambda 一个叠
: 一个,完全追求代码“行数”的少,不顾可读性和可debug性, 后来人根本没法看, 这
: 一点我完全同意 好虫 关于 scala 的看法, you save on thinking, not typing.
: Python 也是一样的,还有performance 问题。

avatar
d*i
62
千万不要被任何FP欺骗上当,FP从来不是,现在不是,将来也不是编程的主流,相信我
这一句就行了。老老实实用传统语言,有你吃香的喝辣的,FP就是没事找事。作为开发
者,记得一句话: We are coming here to solve problem, not to create problem。

【在 g*****o 的大作中提到】
: 我也特讨厌lambda和map, 本来写代码的时候想工作逻辑就够乱了, 还要在代码上加点
: 曲折..

avatar
m*r
63
非常感谢,学习了。
avatar
d*n
64
我发表一下看法:
过去二十年CS深受OO和互联网的影响。所有的数据和业务逻辑都被封装在大大小小的模
块里面,这样保证了能够传输,移植和复用等问题。
但是被小心翼翼封装在json或者packet里面的数据已经没法流动起来了。rdbms虽然能
够处理transaction但是对于高维稀疏而且schema多变的数据也无能为力,以致于现在
最靠谱的数据共享方式还是文件或者文件的变种。
所谓的大数据工具,是一种海量拆包的工具,只不过是在反过来做过去20年各种无谓的
encapsulation。可以认为互联网每天成千上百个pb的数据里面,真正有价值的部分只
是几十个tb,而其中能够分析也不过这当中的一个百分比。无论是tableau也好还是
gnip也好还是sumologic也好,做的都是这些器,这些东西十几年前都做过了,只不过
现在从pc软件变成了web service。

【在 z****e 的大作中提到】
: 接触big data时间不长,但是随着现在big data的兴起
: 越来越多的人投入这个领域,加上以前是做分布式系统开发的
: 所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
: 这个领域我的感觉,就是cs的应用统计学,这块占了80%
: 剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
: 这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
: http://www.mitbbs.com/article/JobHunting/32600683_0.html
: 里面说到的clustering,这个可能是最新的一个比较好的option
: http://www.mitbbs.com/article_t/DataSciences/6761.html
: http://data-sci.appspot.com/index.html

avatar
d*y
65
zan
avatar
o*a
66
FP是指function programming?传统语言是指c语言吗?

【在 d****i 的大作中提到】
: 千万不要被任何FP欺骗上当,FP从来不是,现在不是,将来也不是编程的主流,相信我
: 这一句就行了。老老实实用传统语言,有你吃香的喝辣的,FP就是没事找事。作为开发
: 者,记得一句话: We are coming here to solve problem, not to create problem。

avatar
z*e
67
靠谱
不过oo跟互联网还不是一个时代,互联网更靠后一些
oop很早就显现出了替代其他各种paradigms的架势
随之而来的是软件工程这个学科的兴起
然后逐步替换并淘汰掉c为代表的硬件/命令式编程
开始剥离出抽象的逻辑代码而非命令代码
最早做出垮平台的是fortran,字节码那些都是fortran先搞出来的
然后oop优化最早是smalltalk,以及后来的strongtalk搞出来的理论
再然后lars bak等人根据strongtalk的经验
address了sun的一个项目组用c++用疯了的问题
这就是oak以及后来的java还有官方jvm hotspot的第一版
然后就是java瞄准了网络时代,sun提出了the network is the computer
java上各种socket等的编程也远比c什么容易很多,封装得更彻底
最早c/c++什么用corba,简直不是人用的
然后java在corba基础之上搞出了rmi
再后来是ejb,ejb就是分布式系统的一个典型应用
然后ejb太过于复杂,加上m$被一脚踢出了java阵营
所以迫不及待需要一个更高level的通信协议,这就是后来xml
然后基于xml演化出了uddi, wsdl&soap这个web service的第一代
但是web service还是太过于复杂,于是有个phd提出了restful构架
简化了web service,然后就有了网络上各种产品比如json的今天
同时server side以ejb为代表的j2ee大规模应用,但是ejb本身也太过于复杂
rod johnson和gavin king为代表的aussie建议简化,同时orm也被提出
建议对传统db做封装,因为sql太不统一了,而且关系型数据跟oo概念有很大出入
这就有了spring和hibernate,然后spring和hibernate横行,就有了分布式今天的基础
架构
再然后,google等web公司逐步兴起,又提出了很多新概念,比如nosql和map reduce这些
后来,yahoo根据google的各种概念,作出了java版的google系统的翻版
然后贡献给了apache并开源了,其他公司就都跑去抄yahoo的这个东西,不要钱比什么
都重要
这就是hadoop,hadoop在一定程度上拓宽了传统db的范畴
这几个基本上构成了今天分布式的基础架构
再然后,这一套完成之后,人们开始想办法针对这一套架构做优化
简单说就是如何引入脚本来简化某些领域的开发,就像以前sql对db一样
这就有了ruby以及jruby,js以及rhino和nashorn,python和jython
同时jvm自身也在摸索一些更为合理的编程方式,这就是scala,groovy还有clojure
再然后,也就是一年前,更多的专业脚本语言被提出,要搬到jvm上去
这就是renjin,也就是r在jvm上的impl,以及hadoop自身发展出的类似sql的ql
比如cassandra用的cql,同时java本身也在拓展jvm的性能
java引入了script engine,随着java版本的逐步完善,以后让jvm直接执行脚本
比如python, ruby, js,groovy这些,会变得更为方便和便捷
但是jvm毕竟还是java的一部分,不懂jvm还是不行
另外很多人还在用并行计算的思维来思考分布式计算,都是hpc那些,这个也不对
不懂分布式就很难理解分布式所带来的各种问题,hadoop等都在尝试着让分布式变得更
简单
cloud也在努力使分布式变得更为简单,但是要做到无脑就用的程度
还是太遥远了,因为各种东西都很不完善,至少现阶段,还是要会java才行
否则都是toy,各种兼容性的问题,不胜其烦,生产系统可没办法这样搞
多来几个生产bugs,编程师就要准备打包滚蛋了
不过这些都是empirical东西
真正的big data和分布式理论要超越这些具体的impl
理论上用什么都可以做出来,用汇编都行,但是实践是另外一回事
实际干活还是以堆轮子为首选,否则没办法维护

【在 d****n 的大作中提到】
: 我发表一下看法:
: 过去二十年CS深受OO和互联网的影响。所有的数据和业务逻辑都被封装在大大小小的模
: 块里面,这样保证了能够传输,移植和复用等问题。
: 但是被小心翼翼封装在json或者packet里面的数据已经没法流动起来了。rdbms虽然能
: 够处理transaction但是对于高维稀疏而且schema多变的数据也无能为力,以致于现在
: 最靠谱的数据共享方式还是文件或者文件的变种。
: 所谓的大数据工具,是一种海量拆包的工具,只不过是在反过来做过去20年各种无谓的
: encapsulation。可以认为互联网每天成千上百个pb的数据里面,真正有价值的部分只
: 是几十个tb,而其中能够分析也不过这当中的一个百分比。无论是tableau也好还是
: gnip也好还是sumologic也好,做的都是这些器,这些东西十几年前都做过了,只不过

avatar
j*n
68
您老挺能写的 ...

【在 z****e 的大作中提到】
: 靠谱
: 不过oo跟互联网还不是一个时代,互联网更靠后一些
: oop很早就显现出了替代其他各种paradigms的架势
: 随之而来的是软件工程这个学科的兴起
: 然后逐步替换并淘汰掉c为代表的硬件/命令式编程
: 开始剥离出抽象的逻辑代码而非命令代码
: 最早做出垮平台的是fortran,字节码那些都是fortran先搞出来的
: 然后oop优化最早是smalltalk,以及后来的strongtalk搞出来的理论
: 再然后lars bak等人根据strongtalk的经验
: address了sun的一个项目组用c++用疯了的问题

avatar
g*5
69
赵老师啊,问你个简单的问题。
平行计算就是为了效率。既然这么讲求效率,为什么还用java作为平台语言,搞个
Hadoop?难道不是应该用汇编和C吗?比如用C去implement MPI不就挺好吗?

【在 z****e 的大作中提到】
: 靠谱
: 不过oo跟互联网还不是一个时代,互联网更靠后一些
: oop很早就显现出了替代其他各种paradigms的架势
: 随之而来的是软件工程这个学科的兴起
: 然后逐步替换并淘汰掉c为代表的硬件/命令式编程
: 开始剥离出抽象的逻辑代码而非命令代码
: 最早做出垮平台的是fortran,字节码那些都是fortran先搞出来的
: 然后oop优化最早是smalltalk,以及后来的strongtalk搞出来的理论
: 再然后lars bak等人根据strongtalk的经验
: address了sun的一个项目组用c++用疯了的问题

avatar
z*e
70
jvm也是c写的,最终什么都是c,但是c和汇编都太底层了
跟人的思维接不上,人毕竟是人,不可能完全用机器的思维方式去思考和书写语言
整个计算机系统就是层层封装的结果
并行计算跟分布式计算是两回事
并行计算很多时候对于单机更有意义,共享内存这些
分布式计算一定涉及网络连接,分布式计算不在乎甚至有意识地破坏某些nodes
以测试整个系统的健壮程度,比如chaos monkey,就是要让某些nodes fail掉
看看系统work不work,并行计算用得比较多的是hpc,而不是分布式系统
分布式系统因为nodes上各种乱七八糟的系统什么良莠不齐
所以找到一个统一的平台非常重要,否则每个node都要求定制软件,工作量太大
jvm是目前能找到的最好平台
其他语言要么效率比不过jvm,要么就是兼容性比不过java
hpc上的mpi这些到还真是用c比较多,物理系什么都很喜欢写pbsscript
然后提交hpc排队,执行后看结果,并行计算和分布式计算有一些共性和重叠
但是毕竟不是一个东西,不同的topics
从效率上说,效率提升不只比单线程的效率
是多线程,多进程的效率提升,能并行处理的部分越多,可以提升的空间就越大
要并行处理,就需要decoupling,割裂多个模块,使之可以并行
这个要看需求,不同需求决定了dependency的多寡,一般科学计算依赖较强
web的相互依赖较弱,所以一般这种都最先用在web上
还有就是效率本身,java和c的差异主要体现在内存的管理上
那效率也是由综合因素决定的,也不仅仅取决于内存操作的执行效率
还同样取决于网络,which是分布式计算一定要涉及的部分
网络的io比起内存,那是要慢太多了
一般来说操作效率cpu>>内存>>硬盘>>网络
这里面还有什么l1 cache,l2 cache这些就都不细说了,n年不搞这些了
但是网络的latency远远高过硬盘,内存耗时这些应该是个共识
工作时候,网络的io是要尽量减少的,所以就算你辛辛苦苦用c实现了
提升了内存效率,但是还是改变不了网络的延迟,该慢还是慢,那你用c做有意义么?
木桶原理,决定高度的是最短的一块,分布式最短也就是最慢的一般都是网络操作
但是分布式又离不开网络操作,否则就不是分布式了
而且割裂的平台会使得很多优化手段无法使用
一个统一的平台远比几个不同平台各搞各的要容易优化
python的包很多都是fortran, c++还有python自身写的
乱七八糟,不仅垮平台很难实现,还同时导致综合执行效率降低
c++的有些优化手段,fortran就用不了,反之亦然,因为毕竟不是一个语言
很多特性不一样,相比之下,java所有的包都是jvm上的
所有代码有一个工整的执行格式,那么优化手段就多了
jvm本身在lars bak手下制作的时候,lars bak注册了23项专利
大部分都是优化专利,google后来雇用了lars bak,搞了v8引擎
结果就被oracle告了,就因为lars bak的专利
lars bak从strongtalk时代开始搞oop的优化,老鸟中的老鸟,巨牛无比
其他没有办法过他手优化的,比如ruby和python,效率就偏低,就慢
所以现在都争着往jvm上搬,什么jruby, jython, js这些,都有jvm的版本
到了jvm,就能用上lars bak的东西了,就快不少
现在lars bak在搞dart
大多数人,如果没有经过一定的代码优化理论训练
就算能用c或者汇编写一个hadoop这么大的东西出来
其执行效率还是会低于jvm和hadoop,更不要说开发和维护的效率了
分布式是一个非常大的topic,能涵盖你所知道的全部
我不认为有谁能够一个人搞定全部,这么想的基本上都属于盲目自大的
所以搞分布式学会利用别人做好的轮子非常重要,否则事倍功半
有些东西根本不是一个人一天两天能写出来的,比如os, jvm, db这些
这些都是群策群力多年积累下来的东西,大多数人穷其一生
能做其中一个,并得到市场的认同
就牛得不得了了,更不要说上面各种类库,spring, hibernate, hadoop
这些要是有人能写一个出来,都不要写完整了,你能参与其中
你就已经很牛了,这些都是apache top level档次的projects
能做其中一个,做到创始人的话,应该就能在wikipedia上有一个term来描述你的生平
你这辈子其实不用打工了,到处演讲卖书就好了
甚至到一些大学里面混个什么荣誉博士,问题不大

【在 g****5 的大作中提到】
: 赵老师啊,问你个简单的问题。
: 平行计算就是为了效率。既然这么讲求效率,为什么还用java作为平台语言,搞个
: Hadoop?难道不是应该用汇编和C吗?比如用C去implement MPI不就挺好吗?

avatar
z*e
71
不过为啥我们老在谈这些呢?
这些都是it系统,跟真正big data理论核心无关
跟分布式算法也没有太大联系,都是单机上的那些东西,没啥意思
这里是data science,应该说说clustering,那篇最新的论文
有谁看懂了,解释解释,有些部分我还有些迷惑
avatar
g*5
72
收藏了!
我是把分布式计算和并行计算混为一谈,因为我用到的都是后者。
按照你的说法,其实分布式计算很适合节点间数据传递较少的任务。对于这些任务,网
速不一定是瓶颈。比如一个大程序,是同时cpu intensive和memory intensive的,但
是可以分割,并且每个分割出来的小任务,也都是cpu&memory intensive的,但是同时
节点间的数据传递有限。这样的任务,网络的latency就不是瓶颈了吧。而且用C也比
java效率高吧?
跨平台的确是个问题。要不是有这个问题,肯定现在最流行的是C,并且比第二的语言
可能高出一个数量的使用度。问个外行话,能不能先在所有的unix和linux系统下先把C
跨平台了?

【在 z****e 的大作中提到】
: jvm也是c写的,最终什么都是c,但是c和汇编都太底层了
: 跟人的思维接不上,人毕竟是人,不可能完全用机器的思维方式去思考和书写语言
: 整个计算机系统就是层层封装的结果
: 并行计算跟分布式计算是两回事
: 并行计算很多时候对于单机更有意义,共享内存这些
: 分布式计算一定涉及网络连接,分布式计算不在乎甚至有意识地破坏某些nodes
: 以测试整个系统的健壮程度,比如chaos monkey,就是要让某些nodes fail掉
: 看看系统work不work,并行计算用得比较多的是hpc,而不是分布式系统
: 分布式系统因为nodes上各种乱七八糟的系统什么良莠不齐
: 所以找到一个统一的平台非常重要,否则每个node都要求定制软件,工作量太大

avatar
g*5
73
clustering算法还是到数学版,或者军版说比较有共鸣,哈哈
这边可能对怎么应用大数据的软件更感兴趣,对算法本身就算了。

【在 z****e 的大作中提到】
: 不过为啥我们老在谈这些呢?
: 这些都是it系统,跟真正big data理论核心无关
: 跟分布式算法也没有太大联系,都是单机上的那些东西,没啥意思
: 这里是data science,应该说说clustering,那篇最新的论文
: 有谁看懂了,解释解释,有些部分我还有些迷惑

avatar
p*a
74


【在 z****e 的大作中提到】
: 接触big data时间不长,但是随着现在big data的兴起
: 越来越多的人投入这个领域,加上以前是做分布式系统开发的
: 所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
: 这个领域我的感觉,就是cs的应用统计学,这块占了80%
: 剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
: 这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
: http://www.mitbbs.com/article/JobHunting/32600683_0.html
: 里面说到的clustering,这个可能是最新的一个比较好的option
: http://www.mitbbs.com/article_t/DataSciences/6761.html
: http://data-sci.appspot.com/index.html

avatar
z*e
75
c把跨平台,gc这些常见问题都给搞定了的话,那就是java了
java本身就是c like的语言,跟c++,obj c什么一样,都是c家族
不过可能是唯一一个不把c作为key letter放进去的c like语言
跟python这种非c like语言不太一样
java最早设计出来就是把那些c/c++工程中常见的问题
给统一用一个类库或者环境给搞定,所以最早有说法说是java类库最全最多
分布式并不是适合数据传递较少,相反,是传递较多才用分布式
但是尽量减少网络的io,是一个常见的优化手段
但是再少,都比并行计算用得多呀,毕竟网络是分布式的一个主要特征
而并行计算不用网络也没啥,弄点共享内存什么的,hpc一样可以搞并行计算
小程序没问题,用什么写都有可能,但是一旦项目变大
再在跨平台gc这种问题上折腾的话,实在是吃不消,力不从心,太累
大多数时候都是拿个轮子,直接抄来用了,java哲学比较讨人喜欢
如非万不得已,不要重复造轮子

把C

【在 g****5 的大作中提到】
: 收藏了!
: 我是把分布式计算和并行计算混为一谈,因为我用到的都是后者。
: 按照你的说法,其实分布式计算很适合节点间数据传递较少的任务。对于这些任务,网
: 速不一定是瓶颈。比如一个大程序,是同时cpu intensive和memory intensive的,但
: 是可以分割,并且每个分割出来的小任务,也都是cpu&memory intensive的,但是同时
: 节点间的数据传递有限。这样的任务,网络的latency就不是瓶颈了吧。而且用C也比
: java效率高吧?
: 跨平台的确是个问题。要不是有这个问题,肯定现在最流行的是C,并且比第二的语言
: 可能高出一个数量的使用度。问个外行话,能不能先在所有的unix和linux系统下先把C
: 跨平台了?

avatar
z*e
76
难,clustering都是基于vsm的
这个算是线性空间,线性代数方式建模,然后应用统计学
数学多数不搞这个,数学那些高大上都在搞几何代数和分析
这种统计学,还是应用统计学,一般数学家不屑搞的,太实用
理论性不强,搞再好都不能拿费儿子奖

【在 g****5 的大作中提到】
: clustering算法还是到数学版,或者军版说比较有共鸣,哈哈
: 这边可能对怎么应用大数据的软件更感兴趣,对算法本身就算了。

avatar
l*n
77
属实。应用的东西理论很简单,但是实际情况比理论的假设条件复杂太多,所以才有很
多改进的可能

【在 z****e 的大作中提到】
: 难,clustering都是基于vsm的
: 这个算是线性空间,线性代数方式建模,然后应用统计学
: 数学多数不搞这个,数学那些高大上都在搞几何代数和分析
: 这种统计学,还是应用统计学,一般数学家不屑搞的,太实用
: 理论性不强,搞再好都不能拿费儿子奖

avatar
v*9
78
感谢楼主的在high level 层面的解释,非常有帮助!

【在 z****e 的大作中提到】
: big data有两套生态啊,python的scipy和java的hadoop这些
: 我用python就不用hadoop了,直接上scipy和numpy
: 建模容易,虽然运行很慢,但是写起来来快,不适合生产,但是适合建模
: 用hadoop我就不用python,直接上java
: 我们是用python来快速modelling,然后对sample做test
: 没问题之后,再由我等java编程师转译成java代码,测试无问题后下放生产
: 基本上对python的使用是用完就扔掉,下次要用再写,基本上都不重用
: java则是大量重用代码,以造可复用的轮子为主要目的
: scala用来写一些类库挺好,基本上除了java以外,其他所有语言
: 都不宜写太多,都不适合搞软件工程

avatar
z*u
79
所以搞计算&建模的再次被鄙视了。。。。o(╯□╰)o

【在 z****e 的大作中提到】
: 难,clustering都是基于vsm的
: 这个算是线性空间,线性代数方式建模,然后应用统计学
: 数学多数不搞这个,数学那些高大上都在搞几何代数和分析
: 这种统计学,还是应用统计学,一般数学家不屑搞的,太实用
: 理论性不强,搞再好都不能拿费儿子奖

avatar
z*2
80
怒赞!
avatar
w*g
81
algorithmic那个帖子写得太好了。

【在 z****e 的大作中提到】
: 接触big data时间不长,但是随着现在big data的兴起
: 越来越多的人投入这个领域,加上以前是做分布式系统开发的
: 所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
: 这个领域我的感觉,就是cs的应用统计学,这块占了80%
: 剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
: 这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
: http://www.mitbbs.com/article/JobHunting/32600683_0.html
: 里面说到的clustering,这个可能是最新的一个比较好的option
: http://www.mitbbs.com/article_t/DataSciences/6761.html
: http://data-sci.appspot.com/index.html

avatar
s*h
82
python 做统计的话lib多得多吧。大概就是java和R的折中

java,
lib

【在 j*****n 的大作中提到】
: 老赵,你现在转战这里了? 我觉得python vs java 的话,能够上 java 还是上 java,
: python 在 hadoop world 是个怪胎. 所谓大家写的python 大部分都在后台被变成了
: jython or cython. 由于隔着这1层纱,很多 performance 的问题根本没法debug.
: python 是入门用的, 几十行的function call 用python写还行。几百行,上千行的lib
: 还是得用jvm 写才行。

avatar
Q*u
83
好帖,感激!
avatar
l*q
84
关于学习,我觉得apprentice00说的关于python和java的经验 跟我的感觉高度吻合,
具体见这个贴
http://www.mitbbs.com/article/JobHunting/32721739_3.html
这个链接的帖子被删了,哪位能重新贴下?

【在 z****e 的大作中提到】
: 接触big data时间不长,但是随着现在big data的兴起
: 越来越多的人投入这个领域,加上以前是做分布式系统开发的
: 所以很自然地就进入了领域,一路弄下来,庆幸的是统计没白学
: 这个领域我的感觉,就是cs的应用统计学,这块占了80%
: 剩下20%是分布式算法,我觉得有几个帖子很有价值,罗列如下:
: 这个贴把每个大概的部分最关键的方法论全部点出来了,非常精炼
: http://www.mitbbs.com/article/JobHunting/32600683_0.html
: 里面说到的clustering,这个可能是最新的一个比较好的option
: http://www.mitbbs.com/article_t/DataSciences/6761.html
: http://data-sci.appspot.com/index.html

avatar
t*y
85
mark
avatar
t*e
86
太赞!收藏!
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。