avatar
从今天起开始鼓吹R了# Programming - 葵花宝典
t*n
1
有两千来点,有点鸡肋了,不知道能不能并到老婆的账户里?
谢谢啦
avatar
n*7
2
一直到处说R的坏话,设计烂坑多
今天又遇到一个坑,不过是之前的遇过的
很快发现问题搞定了
突然意思到这就是所谓的XX年经验的好处
花了时间吃了亏,也总是有点回报的
如果因为坑多放弃了,就白被坑过了
既然R还在上升期,用户也不少
现在的工作也必须用R
完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
从今天起努力忽悠更多人上船
然后他们遇到坑的时候,就会来找砖家我了
avatar
J*n
3
no

【在 t*******n 的大作中提到】
: 有两千来点,有点鸡肋了,不知道能不能并到老婆的账户里?
: 谢谢啦

avatar
e*o
4
哈哈
R 现在火的不行 再加上 r studio 傻瓜化 美化你忽悠R 好忽悠的很

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

avatar
s*g
5
没可能

【在 t*******n 的大作中提到】
: 有两千来点,有点鸡肋了,不知道能不能并到老婆的账户里?
: 谢谢啦

avatar
w*m
6
同意,牛人的正确姿势就是
心里想的和口里说的不一样
avatar
g*t
7
这叫flexible

【在 w********m 的大作中提到】
: 同意,牛人的正确姿势就是
: 心里想的和口里说的不一样

avatar
p*r
8
这就是开源的盈利模式,
先使劲忽悠人进坑,然后等差不多了,把你们都埋里面,
最后只能求他办事。

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

avatar
n*3
9
r 不太一样, 是 acdemy guys

【在 p**r 的大作中提到】
: 这就是开源的盈利模式,
: 先使劲忽悠人进坑,然后等差不多了,把你们都埋里面,
: 最后只能求他办事。

avatar
n*7
10
一样坑
我都被迫买过ggplot的书

【在 n*****3 的大作中提到】
: r 不太一样, 是 acdemy guys
avatar
n*3
11
我是指他们不以赚钱为目的。
rstudio 应该是要赚钱的, 大公司会买

【在 n******7 的大作中提到】
: 一样坑
: 我都被迫买过ggplot的书

avatar
m*r
12
此话怎讲 ? 能不能展开说说。
因为我正在自学二语言。 很好奇为什么二会流行。
谢谢。

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

avatar
p*e
13
我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
那么这种情况下能供用R吗?

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

avatar
m*r
14
理论上, 一个字, 能。 而且产品都已经出来了。
但实际上,二语言和bigdata能结合的有多好,能处理多大的数据,有多快, 就很难说
了。

【在 p******e 的大作中提到】
: 我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
: 的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
: 那么这种情况下能供用R吗?

avatar
m*r
15
理论上, 一个字, 能。 而且产品都已经出来了。
但实际上,二语言和bigdata能结合的有多好,能处理多大的数据,有多快, 就很难说
了。

【在 p******e 的大作中提到】
: 我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
: 的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
: 那么这种情况下能供用R吗?

avatar
n*7
16
说说我的理解
R流行有历史原因和自己的原因
本来R是作为S的开源版本出现的 (R在S前面)
自然做统计的人关注
R的核心数据结构是data frame 这个做数据分析太方便了
python的pandas就是python版的data frame 实现
R绘制静态2D图的质量是常见工具里面最好的 (最近几年python的工具也不错)
而visualization是做统计的人了解data关键
综合在一起就导致了一个结果:几乎天下所有的统计方法都有R的实现
这个就绕不过去了:)

【在 m******r 的大作中提到】
: 此话怎讲 ? 能不能展开说说。
: 因为我正在自学二语言。 很好奇为什么二会流行。
: 谢谢。

avatar
n*7
17
我没用过
不过spark现在已经有R的接口了
类似python,GIL只是对 python/R code自己来说的
调用外部包的时候没有这个限制

【在 p******e 的大作中提到】
: 我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
: 的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
: 那么这种情况下能供用R吗?

avatar
m*r
18
i see. 可惜我对作图没兴趣。 平时基本就画两个图,lift chart, gainchart就够用
了。
你觉得r的速度怎么样 ? 有没有一跑跑半天的情况 ?
能处理的数据量大概能有多大? 比如.5g, 1个g, 10个g的数据? R能handle吗 ?

【在 n******7 的大作中提到】
: 说说我的理解
: R流行有历史原因和自己的原因
: 本来R是作为S的开源版本出现的 (R在S前面)
: 自然做统计的人关注
: R的核心数据结构是data frame 这个做数据分析太方便了
: python的pandas就是python版的data frame 实现
: R绘制静态2D图的质量是常见工具里面最好的 (最近几年python的工具也不错)
: 而visualization是做统计的人了解data关键
: 综合在一起就导致了一个结果:几乎天下所有的统计方法都有R的实现
: 这个就绕不过去了:)

avatar
l*n
19
r内存管理不好,处理不了大量数据。不过r可以call其他的来做。

【在 m******r 的大作中提到】
: i see. 可惜我对作图没兴趣。 平时基本就画两个图,lift chart, gainchart就够用
: 了。
: 你觉得r的速度怎么样 ? 有没有一跑跑半天的情况 ?
: 能处理的数据量大概能有多大? 比如.5g, 1个g, 10个g的数据? R能handle吗 ?

avatar
n*3
20
你要有 大内存的话, R就能处理大数据

【在 l******n 的大作中提到】
: r内存管理不好,处理不了大量数据。不过r可以call其他的来做。
avatar
n*7
21
R的速度很慢,我感觉比python还慢一个数量级
当然我没有时间和动力去系统测试,只是实际使用的感受
之前用过同一个工具,有python和R的wrapper
R跑了一个上午,python跑了30min,我直接调用大概20min
R的原生工具性能普遍很差几年前我读一个比较大的数据
大概几个G吧
用read.table 一个小时都没有动静
换了data.table一分多搞定
这类工具现在挺多的 还有bigmemory什么的
我这几年都想用python取代R,也没深入了解过
其实用好了可以克服R的最大缺陷,还是挺值得学习的

【在 m******r 的大作中提到】
: i see. 可惜我对作图没兴趣。 平时基本就画两个图,lift chart, gainchart就够用
: 了。
: 你觉得r的速度怎么样 ? 有没有一跑跑半天的情况 ?
: 能处理的数据量大概能有多大? 比如.5g, 1个g, 10个g的数据? R能handle吗 ?

avatar
s*e
22
R现在在国内也用的很普遍了
avatar
l*n
23
你说学校吧?去年国内人大部分公司都一脸懵逼的问啥是r

【在 s*******e 的大作中提到】
: R现在在国内也用的很普遍了
avatar
e*o
24
国内R 大会都火了好多年了
推广R 的大牛 yihui xie 就是国内出来的
我在国内本科的时候都自己折腾R了

【在 l******n 的大作中提到】
: 你说学校吧?去年国内人大部分公司都一脸懵逼的问啥是r
avatar
l*n
25
google了一下,13毕业后在rstudio工作,推广r也很正常。你年纪看来挺小,本科r就出
来了

【在 e*******o 的大作中提到】
: 国内R 大会都火了好多年了
: 推广R 的大牛 yihui xie 就是国内出来的
: 我在国内本科的时候都自己折腾R了

avatar
m*r
26
xie好像是人大的。特别喜欢琢磨图形,字体这些东西。
对了 还有统计。
起初我挺不理解,不是搞美术的为什么会琢么字体。 后来想想kunth,job steven这些
人,说明人家有天分。

【在 l******n 的大作中提到】
: google了一下,13毕业后在rstudio工作,推广r也很正常。你年纪看来挺小,本科r就出
: 来了

avatar
e*o
27
他出国前就小有名气了
可能不如王有才 但是要踏实的多 混得也好一些
关于语言 他写了个formatR 跟王做的领域也有交集

【在 m******r 的大作中提到】
: xie好像是人大的。特别喜欢琢磨图形,字体这些东西。
: 对了 还有统计。
: 起初我挺不理解,不是搞美术的为什么会琢么字体。 后来想想kunth,job steven这些
: 人,说明人家有天分。

avatar
m*r
28
反正都是牛人。 国内用过R的,就捧谢益辉;用sas的,就捧胡江堂。
我正在自学R,根本就是狗p不通嘛。 尤其看到R里面的summary function, 更是每天
问候他们家人800遍。这个函数在R里面只给出5个固定的centile,连多少missing vaule
也捂着不让我看。 想看看一串数里面小数有多小,大数有多大? 嗨,也是藏着掖着。
相比之下,sas proc summary就牛逼多了。 精通这么一个函数,或者叫过程步,单变
量的问题基本没什么解决不了的。 各种古怪的descriptive stat,各种data rollup ,
基本上就这么一个函数一网打尽。 这么说吧,sql能干的, summary也都能干。 用
起来心里这个叫敞亮。

【在 e*******o 的大作中提到】
: 他出国前就小有名气了
: 可能不如王有才 但是要踏实的多 混得也好一些
: 关于语言 他写了个formatR 跟王做的领域也有交集

avatar
T*e
31
你这个说法非常不全面,R让你感觉慢是因为很多人用法不对,你拿for loop进R里搞那
肯定不行的。 活用几个apply去vectorize你的东西才能体现R的真实速度。 当然R确实
在parallel方面有问题。

【在 n******7 的大作中提到】
: R的速度很慢,我感觉比python还慢一个数量级
: 当然我没有时间和动力去系统测试,只是实际使用的感受
: 之前用过同一个工具,有python和R的wrapper
: R跑了一个上午,python跑了30min,我直接调用大概20min
: R的原生工具性能普遍很差几年前我读一个比较大的数据
: 大概几个G吧
: 用read.table 一个小时都没有动静
: 换了data.table一分多搞定
: 这类工具现在挺多的 还有bigmemory什么的
: 我这几年都想用python取代R,也没深入了解过

avatar
T*e
32
chuanhai liu那个supR 搞完了就可能给R一个相当大的提升。
avatar
n*7
33
一直到处说R的坏话,设计烂坑多
今天又遇到一个坑,不过是之前的遇过的
很快发现问题搞定了
突然意思到这就是所谓的XX年经验的好处
花了时间吃了亏,也总是有点回报的
如果因为坑多放弃了,就白被坑过了
既然R还在上升期,用户也不少
现在的工作也必须用R
完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
从今天起努力忽悠更多人上船
然后他们遇到坑的时候,就会来找砖家我了
avatar
e*o
34
哈哈
R 现在火的不行 再加上 r studio 傻瓜化 美化你忽悠R 好忽悠的很

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

avatar
w*m
35
同意,牛人的正确姿势就是
心里想的和口里说的不一样
avatar
g*t
36
这叫flexible

【在 w********m 的大作中提到】
: 同意,牛人的正确姿势就是
: 心里想的和口里说的不一样

avatar
p*r
37
这就是开源的盈利模式,
先使劲忽悠人进坑,然后等差不多了,把你们都埋里面,
最后只能求他办事。

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

avatar
n*3
38
r 不太一样, 是 acdemy guys

【在 p**r 的大作中提到】
: 这就是开源的盈利模式,
: 先使劲忽悠人进坑,然后等差不多了,把你们都埋里面,
: 最后只能求他办事。

avatar
n*7
39
一样坑
我都被迫买过ggplot的书

【在 n*****3 的大作中提到】
: r 不太一样, 是 acdemy guys
avatar
n*3
40
我是指他们不以赚钱为目的。
rstudio 应该是要赚钱的, 大公司会买

【在 n******7 的大作中提到】
: 一样坑
: 我都被迫买过ggplot的书

avatar
m*r
41
此话怎讲 ? 能不能展开说说。
因为我正在自学二语言。 很好奇为什么二会流行。
谢谢。

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

avatar
p*e
42
我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
那么这种情况下能供用R吗?

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

avatar
m*r
43
理论上, 一个字, 能。 而且产品都已经出来了。
但实际上,二语言和bigdata能结合的有多好,能处理多大的数据,有多快, 就很难说
了。

【在 p******e 的大作中提到】
: 我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
: 的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
: 那么这种情况下能供用R吗?

avatar
n*7
44
说说我的理解
R流行有历史原因和自己的原因
本来R是作为S的开源版本出现的 (R在S前面)
自然做统计的人关注
R的核心数据结构是data frame 这个做数据分析太方便了
python的pandas就是python版的data frame 实现
R绘制静态2D图的质量是常见工具里面最好的 (最近几年python的工具也不错)
而visualization是做统计的人了解data关键
综合在一起就导致了一个结果:几乎天下所有的统计方法都有R的实现
这个就绕不过去了:)

【在 m******r 的大作中提到】
: 此话怎讲 ? 能不能展开说说。
: 因为我正在自学二语言。 很好奇为什么二会流行。
: 谢谢。

avatar
n*7
45
我没用过
不过spark现在已经有R的接口了
类似python,GIL只是对 python/R code自己来说的
调用外部包的时候没有这个限制

【在 p******e 的大作中提到】
: 我想请教一个问题。我听说目前R主要还是单线程的处理数据。那么非常大量
: 的数据,必须用并行的方法,比方说mapreduce,或者是spark在cluster上处理。
: 那么这种情况下能供用R吗?

avatar
m*r
46
i see. 可惜我对作图没兴趣。 平时基本就画两个图,lift chart, gainchart就够用
了。
你觉得r的速度怎么样 ? 有没有一跑跑半天的情况 ?
能处理的数据量大概能有多大? 比如.5g, 1个g, 10个g的数据? R能handle吗 ?

【在 n******7 的大作中提到】
: 说说我的理解
: R流行有历史原因和自己的原因
: 本来R是作为S的开源版本出现的 (R在S前面)
: 自然做统计的人关注
: R的核心数据结构是data frame 这个做数据分析太方便了
: python的pandas就是python版的data frame 实现
: R绘制静态2D图的质量是常见工具里面最好的 (最近几年python的工具也不错)
: 而visualization是做统计的人了解data关键
: 综合在一起就导致了一个结果:几乎天下所有的统计方法都有R的实现
: 这个就绕不过去了:)

avatar
l*n
47
r内存管理不好,处理不了大量数据。不过r可以call其他的来做。

【在 m******r 的大作中提到】
: i see. 可惜我对作图没兴趣。 平时基本就画两个图,lift chart, gainchart就够用
: 了。
: 你觉得r的速度怎么样 ? 有没有一跑跑半天的情况 ?
: 能处理的数据量大概能有多大? 比如.5g, 1个g, 10个g的数据? R能handle吗 ?

avatar
n*3
48
你要有 大内存的话, R就能处理大数据

【在 l******n 的大作中提到】
: r内存管理不好,处理不了大量数据。不过r可以call其他的来做。
avatar
n*7
49
R的速度很慢,我感觉比python还慢一个数量级
当然我没有时间和动力去系统测试,只是实际使用的感受
之前用过同一个工具,有python和R的wrapper
R跑了一个上午,python跑了30min,我直接调用大概20min
R的原生工具性能普遍很差几年前我读一个比较大的数据
大概几个G吧
用read.table 一个小时都没有动静
换了data.table一分多搞定
这类工具现在挺多的 还有bigmemory什么的
我这几年都想用python取代R,也没深入了解过
其实用好了可以克服R的最大缺陷,还是挺值得学习的

【在 m******r 的大作中提到】
: i see. 可惜我对作图没兴趣。 平时基本就画两个图,lift chart, gainchart就够用
: 了。
: 你觉得r的速度怎么样 ? 有没有一跑跑半天的情况 ?
: 能处理的数据量大概能有多大? 比如.5g, 1个g, 10个g的数据? R能handle吗 ?

avatar
s*e
50
R现在在国内也用的很普遍了
avatar
l*n
51
你说学校吧?去年国内人大部分公司都一脸懵逼的问啥是r

【在 s*******e 的大作中提到】
: R现在在国内也用的很普遍了
avatar
e*o
52
国内R 大会都火了好多年了
推广R 的大牛 yihui xie 就是国内出来的
我在国内本科的时候都自己折腾R了

【在 l******n 的大作中提到】
: 你说学校吧?去年国内人大部分公司都一脸懵逼的问啥是r
avatar
l*n
53
google了一下,13毕业后在rstudio工作,推广r也很正常。你年纪看来挺小,本科r就出
来了

【在 e*******o 的大作中提到】
: 国内R 大会都火了好多年了
: 推广R 的大牛 yihui xie 就是国内出来的
: 我在国内本科的时候都自己折腾R了

avatar
m*r
54
xie好像是人大的。特别喜欢琢磨图形,字体这些东西。
对了 还有统计。
起初我挺不理解,不是搞美术的为什么会琢么字体。 后来想想kunth,job steven这些
人,说明人家有天分。

【在 l******n 的大作中提到】
: google了一下,13毕业后在rstudio工作,推广r也很正常。你年纪看来挺小,本科r就出
: 来了

avatar
e*o
55
他出国前就小有名气了
可能不如王有才 但是要踏实的多 混得也好一些
关于语言 他写了个formatR 跟王做的领域也有交集

【在 m******r 的大作中提到】
: xie好像是人大的。特别喜欢琢磨图形,字体这些东西。
: 对了 还有统计。
: 起初我挺不理解,不是搞美术的为什么会琢么字体。 后来想想kunth,job steven这些
: 人,说明人家有天分。

avatar
m*r
56
反正都是牛人。 国内用过R的,就捧谢益辉;用sas的,就捧胡江堂。
我正在自学R,根本就是狗p不通嘛。 尤其看到R里面的summary function, 更是每天
问候他们家人800遍。这个函数在R里面只给出5个固定的centile,连多少missing vaule
也捂着不让我看。 想看看一串数里面小数有多小,大数有多大? 嗨,也是藏着掖着。
相比之下,sas proc summary就牛逼多了。 精通这么一个函数,或者叫过程步,单变
量的问题基本没什么解决不了的。 各种古怪的descriptive stat,各种data rollup ,
基本上就这么一个函数一网打尽。 这么说吧,sql能干的, summary也都能干。 用
起来心里这个叫敞亮。

【在 e*******o 的大作中提到】
: 他出国前就小有名气了
: 可能不如王有才 但是要踏实的多 混得也好一些
: 关于语言 他写了个formatR 跟王做的领域也有交集

avatar
T*e
59
你这个说法非常不全面,R让你感觉慢是因为很多人用法不对,你拿for loop进R里搞那
肯定不行的。 活用几个apply去vectorize你的东西才能体现R的真实速度。 当然R确实
在parallel方面有问题。

【在 n******7 的大作中提到】
: R的速度很慢,我感觉比python还慢一个数量级
: 当然我没有时间和动力去系统测试,只是实际使用的感受
: 之前用过同一个工具,有python和R的wrapper
: R跑了一个上午,python跑了30min,我直接调用大概20min
: R的原生工具性能普遍很差几年前我读一个比较大的数据
: 大概几个G吧
: 用read.table 一个小时都没有动静
: 换了data.table一分多搞定
: 这类工具现在挺多的 还有bigmemory什么的
: 我这几年都想用python取代R,也没深入了解过

avatar
T*e
60
chuanhai liu那个supR 搞完了就可能给R一个相当大的提升。
avatar
m*n
61
活用几个apply去vectorize你的东西才能体现R的真实速度。
apply有那么牛逼吗?
avatar
r*g
62
这是扯。apply 就是for loop的wrapper,语法糖而已。
当然我七八年不用r了,也许情况有变,那就请贴benchmark.

【在 m*****n 的大作中提到】
: 活用几个apply去vectorize你的东西才能体现R的真实速度。
: apply有那么牛逼吗?

avatar
d*c
63
没错,apply没什么神奇效果,最多就是减少了一些函数调用开销,一般for loop慢往
往是用的人没有经验,最常见的问题就是每次循环去增长一个数据结构,而不是事先定
好大小初始化好。
真正神奇的是找到对应的vectorized的函数,如果有的话,一般都提高性能10倍以上。
反正真正性能关键的就用C实现然后R wrap就是了,都应该这么办。data.table就是快
在这里。

【在 r*g 的大作中提到】
: 这是扯。apply 就是for loop的wrapper,语法糖而已。
: 当然我七八年不用r了,也许情况有变,那就请贴benchmark.

avatar
w*2
64
I used R about 10 years ago. It was cutting edge. Now it is getting
mainstream. Its key advantage is its free open source culture. Beats sas,
spas, stat, etc. But requires more coding experience, and then more flexible
than SAS.
avatar
w*2
65
I used R about 10 years ago. It was cutting edge. Now it is getting
mainstream. Its key advantage is its free open source culture. Beats sas,
spas, stat, etc. But requires more coding experience, and then more flexible
than SAS.
avatar
n*7
66
如同rgg说的
apply家族并不能提升速度,只是一个语法糖
这可能是关于R最大的一个误解了,当年别人也是这么跟我说的
结果写啥都想apply,有时候真是画猫不成
直到后来看到stackoverflow的一个讨论才发现自己傻了很多年
R的parallel其实还可以
最近用过两个R的parallel包,其中一个在linux下面还可以多线程
基本都是把apply函数替换一下就好

【在 T*******e 的大作中提到】
: 你这个说法非常不全面,R让你感觉慢是因为很多人用法不对,你拿for loop进R里搞那
: 肯定不行的。 活用几个apply去vectorize你的东西才能体现R的真实速度。 当然R确实
: 在parallel方面有问题。

avatar
n*7
67
是的
R炼狱 这本书里面讲了很多这种细节
强烈推荐

【在 d******c 的大作中提到】
: 没错,apply没什么神奇效果,最多就是减少了一些函数调用开销,一般for loop慢往
: 往是用的人没有经验,最常见的问题就是每次循环去增长一个数据结构,而不是事先定
: 好大小初始化好。
: 真正神奇的是找到对应的vectorized的函数,如果有的话,一般都提高性能10倍以上。
: 反正真正性能关键的就用C实现然后R wrap就是了,都应该这么办。data.table就是快
: 在这里。

avatar
f*r
68
R的并行计算挺方便的,parallel,doparallel,foreach
有些库自身就提供并行化计算,比如forecast,caret
apply系列并不真的并行化,只是写code简介
vectorization有一定帮助,但是不解决根本问题
最终要想性能上去还是要用c/c++写库然后wrap
R的最大优势就是几乎所有最新的统计算法都能第一时间登陆这个平台
R唯一的缺憾是只能内存操作,但是现在也有大数据平台的接口和用硬盘做swap的库
另一个之前的午后是深度学习库,现在mxnet有Amazon撑腰了,而且对R的支持还不错。
avatar
d*c
69
这本书是我接触R一开始就看的
我现在觉得,用什么东西先去找个靠谱的负面意见看看,如果看了之后,了解了缺点仍
然还用它,就比较可靠了,证明它的优点的确是超过缺点。
R的很多误会是它比较特别,很多和习惯不一样,了解多了以后会发现它语言设计有不
少聪明的地方。
灵活,表达力强,适合wrap各种库,有个不错包管理系统,自己写包也容易
生命力会很强

【在 n******7 的大作中提到】
: 是的
: R炼狱 这本书里面讲了很多这种细节
: 强烈推荐

avatar
g*t
70
就怕技能点加了洗不掉啊。


: 这本书是我接触R一开始就看的

: 我现在觉得,用什么东西先去找个靠谱的负面意见看看,如果看了之后,了解了
缺点仍

: 然还用它,就比较可靠了,证明它的优点的确是超过缺点。

: R的很多误会是它比较特别,很多和习惯不一样,了解多了以后会发现它语言设
计有不

: 少聪明的地方。

: 灵活,表达力强,适合wrap各种库,有个不错包管理系统,自己写包也容易

: 生命力会很强



【在 d******c 的大作中提到】
: 这本书是我接触R一开始就看的
: 我现在觉得,用什么东西先去找个靠谱的负面意见看看,如果看了之后,了解了缺点仍
: 然还用它,就比较可靠了,证明它的优点的确是超过缺点。
: R的很多误会是它比较特别,很多和习惯不一样,了解多了以后会发现它语言设计有不
: 少聪明的地方。
: 灵活,表达力强,适合wrap各种库,有个不错包管理系统,自己写包也容易
: 生命力会很强

avatar
n*7
71
很多流行build都加了这个点
你怕啥?
倒是你加的emacs julia啥的点废掉的可能性更大

【在 g****t 的大作中提到】
: 就怕技能点加了洗不掉啊。
:
:
: 这本书是我接触R一开始就看的
:
: 我现在觉得,用什么东西先去找个靠谱的负面意见看看,如果看了之后,了解了
: 缺点仍
:
: 然还用它,就比较可靠了,证明它的优点的确是超过缺点。
:
: R的很多误会是它比较特别,很多和习惯不一样,了解多了以后会发现它语言设
: 计有不
:
: 少聪明的地方。
:
: 灵活,表达力强,适合wrap各种库,有个不错包管理系统,自己写包也容易

avatar
m*r
72
这本书我没有搜到。 能给个链接吗?

【在 n******7 的大作中提到】
: 是的
: R炼狱 这本书里面讲了很多这种细节
: 强烈推荐

avatar
c*o
74
up
vectorized是R for loop 的大杀器,可以快10倍

【在 d******c 的大作中提到】
: 没错,apply没什么神奇效果,最多就是减少了一些函数调用开销,一般for loop慢往
: 往是用的人没有经验,最常见的问题就是每次循环去增长一个数据结构,而不是事先定
: 好大小初始化好。
: 真正神奇的是找到对应的vectorized的函数,如果有的话,一般都提高性能10倍以上。
: 反正真正性能关键的就用C实现然后R wrap就是了,都应该这么办。data.table就是快
: 在这里。

avatar
s*h
75
我小菜鸟一个,用着R一直不太习惯他的environment的概念。
从S3到S4的转化感觉让语法更加混乱……
avatar
d*c
76
大部分时候S3就够了
environment概念挺好啊,有个namespace
看javascript这方面才叫恶心,函数定义可以放到调用后面

【在 s*********h 的大作中提到】
: 我小菜鸟一个,用着R一直不太习惯他的environment的概念。
: 从S3到S4的转化感觉让语法更加混乱……

avatar
s*h
77
R的namespace让人头疼啊。
一次只能加一整个library,不能import 一个函数。
经常导致namespace污染严重,还要加XXX::XXXfunc这样,感觉非常麻烦。

【在 d******c 的大作中提到】
: 大部分时候S3就够了
: environment概念挺好啊,有个namespace
: 看javascript这方面才叫恶心,函数定义可以放到调用后面

avatar
d*c
78
https://github.com/smbache/import

【在 s*********h 的大作中提到】
: R的namespace让人头疼啊。
: 一次只能加一整个library,不能import 一个函数。
: 经常导致namespace污染严重,还要加XXX::XXXfunc这样,感觉非常麻烦。

avatar
n*t
79
您倒底想說什麼。。。

【在 n******7 的大作中提到】
: 一直到处说R的坏话,设计烂坑多
: 今天又遇到一个坑,不过是之前的遇过的
: 很快发现问题搞定了
: 突然意思到这就是所谓的XX年经验的好处
: 花了时间吃了亏,也总是有点回报的
: 如果因为坑多放弃了,就白被坑过了
: 既然R还在上升期,用户也不少
: 现在的工作也必须用R
: 完全没有为了追求自己喜欢的语言而放弃一个自己熟悉又有用的工具
: 从今天起努力忽悠更多人上船

avatar
d*c
80
没有完美的语言,喜欢的语言不一定能赚钱,为了赚钱,换个角度把语言缺点变成自己
的优势。

【在 n******t 的大作中提到】
: 您倒底想說什麼。。。
avatar
n*t
81
R就是一個統計軟件,其實就是個開源版本的S, 不是一個serious programming
language,作為一個統計軟件,其實還算不錯的了,但是因為用的人多,硬要用它去做
一些它本來就不合適的事情,類似load一個巨大的數據表,那是用的人的問題。

【在 d******c 的大作中提到】
: 没有完美的语言,喜欢的语言不一定能赚钱,为了赚钱,换个角度把语言缺点变成自己
: 的优势。

avatar
d*c
82
多大算巨大?比内存小就问题不大,data.table专门对付这个。
什么算合适?什么语言更合适这种任务?实际上还看你要干什么,要干的事情有没有现
成并且好用的库。
不具体比较这些来讨论合不合适没有意义。

【在 n******t 的大作中提到】
: R就是一個統計軟件,其實就是個開源版本的S, 不是一個serious programming
: language,作為一個統計軟件,其實還算不錯的了,但是因為用的人多,硬要用它去做
: 一些它本來就不合適的事情,類似load一個巨大的數據表,那是用的人的問題。

avatar
d*c
83
R其实是一个很好的接口软件,去连接各种包,各种服务,表达力很强,封装很好。而
且包的发布,安装都做得不错,这是个巨大的优点。
任何事情如果性能要求高,用底层的写然后用R封装就是了。

【在 n******t 的大作中提到】
: R就是一個統計軟件,其實就是個開源版本的S, 不是一個serious programming
: language,作為一個統計軟件,其實還算不錯的了,但是因為用的人多,硬要用它去做
: 一些它本來就不合適的事情,類似load一個巨大的數據表,那是用的人的問題。

avatar
w*m
84
R没有collection,比如hash map,priority queue。有想法找不到数据结构实现。
另外,jetbrain没有为它开发ide。现在的ide都太儿戏了。
avatar
n*t
85
嗯,我說的不是這個意思。我要說的就是,R這樣的軟件,就是面向用戶的,而不是開
發者。去問“多大算巨大”,或者“比內存大還是內存小”這樣的問題就沒有意義。問
這樣的問題還知道怎麼解決的,恐怕不會用R去解決這種問題,問這樣問題還不懂系統
編程的人,繞來繞去也不會很好地解決這樣的問題。

【在 d******c 的大作中提到】
: 多大算巨大?比内存小就问题不大,data.table专门对付这个。
: 什么算合适?什么语言更合适这种任务?实际上还看你要干什么,要干的事情有没有现
: 成并且好用的库。
: 不具体比较这些来讨论合不合适没有意义。

avatar
m*x
86

R 能对付几十G的数据的regression了吗?

【在 n******t 的大作中提到】
: 嗯,我說的不是這個意思。我要說的就是,R這樣的軟件,就是面向用戶的,而不是開
: 發者。去問“多大算巨大”,或者“比內存大還是內存小”這樣的問題就沒有意義。問
: 這樣的問題還知道怎麼解決的,恐怕不會用R去解決這種問題,問這樣問題還不懂系統
: 編程的人,繞來繞去也不會很好地解決這樣的問題。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。