h*k
2 楼
但是如果你们尊重我们的话
也请尊重我们的神
因为我们都是神的子民
你如果去教堂高声喧哗的话, 我想也会有人善意的提醒你
我相信版上的很多福音朋友, 对主耶稣已经不少的了解了
虽然还会就着人天然里的理解来看待他, 但是既然你们听到着复印, 神已经拣选了你们
是麦子还是稗子, 就要看你个人了
我会为你们切切的祷告
感谢主
阿门
也请尊重我们的神
因为我们都是神的子民
你如果去教堂高声喧哗的话, 我想也会有人善意的提醒你
我相信版上的很多福音朋友, 对主耶稣已经不少的了解了
虽然还会就着人天然里的理解来看待他, 但是既然你们听到着复印, 神已经拣选了你们
是麦子还是稗子, 就要看你个人了
我会为你们切切的祷告
感谢主
阿门
g*r
3 楼
R的merge效率太低了。根据一个列合并两个dataframe,长的有1m行,短的1k行:
long =data.frame(a=seq(1,1000000), b=rnorm(10) )
short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
system.time(merge(x=long, y=short, all.x=T))
user system elapsed
10.286 0.370 10.624
4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
我的真实数据比例子里的复杂些,且有100m行或更高,卡了半天没动静,只好强行终止
进程。对这个效率有点失望。早听说merge很慢,这次领教了。
如果不依靠外部程序(shell,python之类的script),大家是怎么多快好省做合并的
呢?菜鸟一个,轻拍。
long =data.frame(a=seq(1,1000000), b=rnorm(10) )
short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
system.time(merge(x=long, y=short, all.x=T))
user system elapsed
10.286 0.370 10.624
4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
我的真实数据比例子里的复杂些,且有100m行或更高,卡了半天没动静,只好强行终止
进程。对这个效率有点失望。早听说merge很慢,这次领教了。
如果不依靠外部程序(shell,python之类的script),大家是怎么多快好省做合并的
呢?菜鸟一个,轻拍。
Y*i
4 楼
赞!!!我试过在雪地里只穿衬衫,结果不到1分钟就冻死鸟。。。
这对新人很强!!!
这对新人很强!!!
x*m
6 楼
这个没办法,R就是慢。R在出来table的时候,后台会有很多enviromental variables
,所以会很慢。况且你是100m row的data,也不小了,好奇你是怎么读到R里面的?
既然都会R了,就试试python吧,很简单的,几行就能搞定。
,所以会很慢。况且你是100m row的data,也不小了,好奇你是怎么读到R里面的?
既然都会R了,就试试python吧,很简单的,几行就能搞定。
z*i
9 楼
http://stackoverflow.com/questions/11146967/efficient-alternati
【在 g*r 的大作中提到】
: R的merge效率太低了。根据一个列合并两个dataframe,长的有1m行,短的1k行:
: long =data.frame(a=seq(1,1000000), b=rnorm(10) )
: short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
: system.time(merge(x=long, y=short, all.x=T))
: user system elapsed
: 10.286 0.370 10.624
: 4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
: 我的真实数据比例子里的复杂些,且有100m行或更高,卡了半天没动静,只好强行终止
: 进程。对这个效率有点失望。早听说merge很慢,这次领教了。
: 如果不依靠外部程序(shell,python之类的script),大家是怎么多快好省做合并的
【在 g*r 的大作中提到】
: R的merge效率太低了。根据一个列合并两个dataframe,长的有1m行,短的1k行:
: long =data.frame(a=seq(1,1000000), b=rnorm(10) )
: short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
: system.time(merge(x=long, y=short, all.x=T))
: user system elapsed
: 10.286 0.370 10.624
: 4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
: 我的真实数据比例子里的复杂些,且有100m行或更高,卡了半天没动静,只好强行终止
: 进程。对这个效率有点失望。早听说merge很慢,这次领教了。
: 如果不依靠外部程序(shell,python之类的script),大家是怎么多快好省做合并的
i*t
12 楼
不是都该用data.table了吗。。。
M*g
13 楼
mm超漂亮,赞
风景真棒。
风景真棒。
c*s
14 楼
但是如果你们尊重我们的话
也请尊重我们的神
也请尊重我们的神
S*y
15 楼
Python is the way to go
You can load your smaller file into a dictionary first...
You can load your smaller file into a dictionary first...
h*k
17 楼
呵呵, 没想到连中国文化也成了十字架的仇敌...
我们当然尊重中国的文化
但文化和信仰没有冲突
一个在魂, 一个在灵
主耶稣不是西方文化, 也不仅仅是以色列的神, 他更是外邦人的救主
我们当然尊重中国的文化
但文化和信仰没有冲突
一个在魂, 一个在灵
主耶稣不是西方文化, 也不仅仅是以色列的神, 他更是外邦人的救主
B*O
21 楼
用match比较快。
> long =data.frame(a=seq(1,1000000), b=rnorm(10) )
> short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
> system.time(merge(x=long, y=short, all.x=T))
user system elapsed
7.253 0.071 7.385
> system.time(long$cuser system elapsed
0.002 0.000 0.001
> system.time(long$c[match(short$a,long$a)]user system elapsed
0.119 0.000 0.119
> long =data.frame(a=seq(1,1000000), b=rnorm(10) )
> short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
> system.time(merge(x=long, y=short, all.x=T))
user system elapsed
7.253 0.071 7.385
> system.time(long$cuser system elapsed
0.002 0.000 0.001
> system.time(long$c[match(short$a,long$a)]user system elapsed
0.119 0.000 0.119
g*r
24 楼
出于力求“简单统一”的考虑,不想调用其他程序。(比如换到windows下跑,就需要
先安装python了)
试了一下大家的另外两个建议。
data.table是个好东西,瞬间完成!match稍慢,但可以接受。
先安装python了)
试了一下大家的另外两个建议。
data.table是个好东西,瞬间完成!match稍慢,但可以接受。
r*n
30 楼
这种简单查找型 merg 显然是用 awk 比较快了
【在 g*r 的大作中提到】
: R的merge效率太低了。根据一个列合并两个dataframe,长的有1m行,短的1k行:
: long =data.frame(a=seq(1,1000000), b=rnorm(10) )
: short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
: system.time(merge(x=long, y=short, all.x=T))
: user system elapsed
: 10.286 0.370 10.624
: 4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
: 我的真实数据比例子里的复杂些,且有100m行或更高,卡了半天没动静,只好强行终止
: 进程。对这个效率有点失望。早听说merge很慢,这次领教了。
: 如果不依靠外部程序(shell,python之类的script),大家是怎么多快好省做合并的
【在 g*r 的大作中提到】
: R的merge效率太低了。根据一个列合并两个dataframe,长的有1m行,短的1k行:
: long =data.frame(a=seq(1,1000000), b=rnorm(10) )
: short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
: system.time(merge(x=long, y=short, all.x=T))
: user system elapsed
: 10.286 0.370 10.624
: 4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
: 我的真实数据比例子里的复杂些,且有100m行或更高,卡了半天没动静,只好强行终止
: 进程。对这个效率有点失望。早听说merge很慢,这次领教了。
: 如果不依靠外部程序(shell,python之类的script),大家是怎么多快好省做合并的
o*a
32 楼
进来学习
k*u
41 楼
zan
不过冷不。。
不过冷不。。
c*n
42 楼
冷是一定的啊
P*l
44 楼
漂亮~
相关阅读
找DS的工作 帮忙分析下social media data刚知道有这个版。问一下nosql比sql好在哪里?data scientist的五个方面data scientists 都要求 PhD吗?也来报个OFFER,大家帮忙看看要不要接 (转载)data science 的coding skill requirement 跟码工比如何?感觉已经把market上的data scientist投遍了团结内推,从我开始 (转载)用R画图如何设置X-Y轴的比例Chief Data Scientist at NYCold soldiers never die统计系的paper怎么都这么能扯问一个R的问题说说最近的一次面试,兼告诫国人初入data science的困惑职业方向求建议 (转载)Bioinformatics Position in a Genomics Center in a University in the Southern California报L家offer 兼问如何选择 (转载)hadoop pig的问题