在R里merge两个dataframe太慢了 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>DataSciences - 数据科学

在R里merge两个dataframe太慢了

在R里merge两个dataframe太慢了# DataSciences - 数据科学

c*n2014-07-04 07:07

1 楼

和alli一起拍的。找不到她的原帖了，还是单独开一个吧。

h*k2014-07-04 07:07

2 楼

但是如果你们尊重我们的话
也请尊重我们的神
因为我们都是神的子民
你如果去教堂高声喧哗的话, 我想也会有人善意的提醒你
我相信版上的很多福音朋友, 对主耶稣已经不少的了解了
虽然还会就着人天然里的理解来看待他, 但是既然你们听到着复印, 神已经拣选了你们
是麦子还是稗子, 就要看你个人了
我会为你们切切的祷告
感谢主
阿门

g*r2014-07-04 07:07

3 楼

R的merge效率太低了。根据一个列合并两个dataframe，长的有1m行，短的1k行：
long =data.frame(a=seq(1,1000000), b=rnorm(10) )
short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
system.time(merge(x=long, y=short, all.x=T))
user system elapsed
10.286 0.370 10.624
4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
我的真实数据比例子里的复杂些，且有100m行或更高，卡了半天没动静，只好强行终止
进程。对这个效率有点失望。早听说merge很慢，这次领教了。
如果不依靠外部程序（shell，python之类的script），大家是怎么多快好省做合并的
呢？菜鸟一个，轻拍。

Y*i2014-07-04 07:07

4 楼

赞！！！我试过在雪地里只穿衬衫，结果不到1分钟就冻死鸟。。。
这对新人很强！！！

s*g2014-07-04 07:07

5 楼

请问，你是哪一派的？

【在 h*****k 的大作中提到】

: 但是如果你们尊重我们的话
: 也请尊重我们的神
: 因为我们都是神的子民
: 你如果去教堂高声喧哗的话, 我想也会有人善意的提醒你
: 我相信版上的很多福音朋友, 对主耶稣已经不少的了解了
: 虽然还会就着人天然里的理解来看待他, 但是既然你们听到着复印, 神已经拣选了你们
: 是麦子还是稗子, 就要看你个人了
: 我会为你们切切的祷告
: 感谢主
: 阿门

x*m2014-07-04 07:07

6 楼

这个没办法，R就是慢。R在出来table的时候，后台会有很多enviromental variables
，所以会很慢。况且你是100m row的data，也不小了，好奇你是怎么读到R里面的？
既然都会R了，就试试python吧，很简单的，几行就能搞定。

c*n2014-07-04 07:07

7 楼

我穿着雪衣雪裤也冻的不行

【在 Y**i 的大作中提到】

: 赞！！！我试过在雪地里只穿衬衫，结果不到1分钟就冻死鸟。。。
: 这对新人很强！！！

h*k2014-07-04 07:07

8 楼

什么叫派?
我信主, 是基督徒

【在 s******g 的大作中提到】

: 请问，你是哪一派的？

z*i2014-07-04 07:07

9 楼

http://stackoverflow.com/questions/11146967/efficient-alternati

【在 g*r 的大作中提到】

: R的merge效率太低了。根据一个列合并两个dataframe，长的有1m行，短的1k行：
: long =data.frame(a=seq(1,1000000), b=rnorm(10) )
: short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
: system.time(merge(x=long, y=short, all.x=T))
: user system elapsed
: 10.286 0.370 10.624
: 4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
: 我的真实数据比例子里的复杂些，且有100m行或更高，卡了半天没动静，只好强行终止
: 进程。对这个效率有点失望。早听说merge很慢，这次领教了。
: 如果不依靠外部程序（shell，python之类的script），大家是怎么多快好省做合并的

P*l2014-07-04 07:07

10 楼

wow，超美

【在 c*******n 的大作中提到】

: 和alli一起拍的。找不到她的原帖了，还是单独开一个吧。

s*g2014-07-04 07:07

11 楼

伊斯兰教也信主，算不算基督徒阿？

【在 h*****k 的大作中提到】

: 什么叫派?
: 我信主, 是基督徒

i*t2014-07-04 07:07

12 楼

不是都该用data.table了吗。。。

M*g2014-07-04 07:07

13 楼

mm超漂亮，赞
风景真棒。

c*s2014-07-04 07:07

14 楼

但是如果你们尊重我们的话
也请尊重我们的神

S*y2014-07-04 07:07

15 楼

Python is the way to go
You can load your smaller file into a dictionary first...

c*n2014-07-04 07:07

16 楼

谢谢版主

【在 P*******l 的大作中提到】

: wow，超美

h*k2014-07-04 07:07

17 楼

呵呵, 没想到连中国文化也成了十字架的仇敌...
我们当然尊重中国的文化
但文化和信仰没有冲突
一个在魂, 一个在灵
主耶稣不是西方文化, 也不仅仅是以色列的神, 他更是外邦人的救主

g*r2014-07-04 07:07

18 楼

长的数据100m行不是读入，而是在R里面生成的。
短的数据才是从外部文件导入的。
想把两者合并。

variables

【在 x******m 的大作中提到】

: 这个没办法，R就是慢。R在出来table的时候，后台会有很多enviromental variables
: ，所以会很慢。况且你是100m row的data，也不小了，好奇你是怎么读到R里面的？
: 既然都会R了，就试试python吧，很简单的，几行就能搞定。

c*n2014-07-04 07:07

19 楼

谢谢，拍的时候大家都冷的不行。风景的话，我想如果爬到高一点的地方可能会更好。

【在 M*****g 的大作中提到】

: mm超漂亮，赞
: 风景真棒。

x*x2014-07-04 07:07

20 楼

愿观音菩萨保佑你.

【在 h*****k 的大作中提到】

B*O2014-07-04 07:07

21 楼

用match比较快。
> long =data.frame(a=seq(1,1000000), b=rnorm(10) )
> short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
> system.time(merge(x=long, y=short, all.x=T))
user system elapsed
7.253 0.071 7.385
> system.time(long$cuser system elapsed
0.002 0.000 0.001
> system.time(long$c[match(short$a,long$a)]user system elapsed
0.119 0.000 0.119