h*k
2 楼
但是如果你们尊重我们的话
也请尊重我们的神
因为我们都是神的子民
你如果去教堂高声喧哗的话, 我想也会有人善意的提醒你
我相信版上的很多福音朋友, 对主耶稣已经不少的了解了
虽然还会就着人天然里的理解来看待他, 但是既然你们听到着复印, 神已经拣选了你们
是麦子还是稗子, 就要看你个人了
我会为你们切切的祷告
感谢主
阿门
也请尊重我们的神
因为我们都是神的子民
你如果去教堂高声喧哗的话, 我想也会有人善意的提醒你
我相信版上的很多福音朋友, 对主耶稣已经不少的了解了
虽然还会就着人天然里的理解来看待他, 但是既然你们听到着复印, 神已经拣选了你们
是麦子还是稗子, 就要看你个人了
我会为你们切切的祷告
感谢主
阿门
g*r
3 楼
R的merge效率太低了。根据一个列合并两个dataframe,长的有1m行,短的1k行:
long =data.frame(a=seq(1,1000000), b=rnorm(10) )
short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
system.time(merge(x=long, y=short, all.x=T))
user system elapsed
10.286 0.370 10.624
4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
我的真实数据比例子里的复杂些,且有100m行或更高,卡了半天没动静,只好强行终止
进程。对这个效率有点失望。早听说merge很慢,这次领教了。
如果不依靠外部程序(shell,python之类的script),大家是怎么多快好省做合并的
呢?菜鸟一个,轻拍。
long =data.frame(a=seq(1,1000000), b=rnorm(10) )
short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
system.time(merge(x=long, y=short, all.x=T))
user system elapsed
10.286 0.370 10.624
4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
我的真实数据比例子里的复杂些,且有100m行或更高,卡了半天没动静,只好强行终止
进程。对这个效率有点失望。早听说merge很慢,这次领教了。
如果不依靠外部程序(shell,python之类的script),大家是怎么多快好省做合并的
呢?菜鸟一个,轻拍。
Y*i
4 楼
赞!!!我试过在雪地里只穿衬衫,结果不到1分钟就冻死鸟。。。
这对新人很强!!!
这对新人很强!!!
x*m
6 楼
这个没办法,R就是慢。R在出来table的时候,后台会有很多enviromental variables
,所以会很慢。况且你是100m row的data,也不小了,好奇你是怎么读到R里面的?
既然都会R了,就试试python吧,很简单的,几行就能搞定。
,所以会很慢。况且你是100m row的data,也不小了,好奇你是怎么读到R里面的?
既然都会R了,就试试python吧,很简单的,几行就能搞定。
z*i
9 楼
http://stackoverflow.com/questions/11146967/efficient-alternati
【在 g*r 的大作中提到】
: R的merge效率太低了。根据一个列合并两个dataframe,长的有1m行,短的1k行:
: long =data.frame(a=seq(1,1000000), b=rnorm(10) )
: short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
: system.time(merge(x=long, y=short, all.x=T))
: user system elapsed
: 10.286 0.370 10.624
: 4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
: 我的真实数据比例子里的复杂些,且有100m行或更高,卡了半天没动静,只好强行终止
: 进程。对这个效率有点失望。早听说merge很慢,这次领教了。
: 如果不依靠外部程序(shell,python之类的script),大家是怎么多快好省做合并的
【在 g*r 的大作中提到】
: R的merge效率太低了。根据一个列合并两个dataframe,长的有1m行,短的1k行:
: long =data.frame(a=seq(1,1000000), b=rnorm(10) )
: short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
: system.time(merge(x=long, y=short, all.x=T))
: user system elapsed
: 10.286 0.370 10.624
: 4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
: 我的真实数据比例子里的复杂些,且有100m行或更高,卡了半天没动静,只好强行终止
: 进程。对这个效率有点失望。早听说merge很慢,这次领教了。
: 如果不依靠外部程序(shell,python之类的script),大家是怎么多快好省做合并的
i*t
12 楼
不是都该用data.table了吗。。。
M*g
13 楼
mm超漂亮,赞
风景真棒。
风景真棒。
c*s
14 楼
但是如果你们尊重我们的话
也请尊重我们的神
也请尊重我们的神
S*y
15 楼
Python is the way to go
You can load your smaller file into a dictionary first...
You can load your smaller file into a dictionary first...
h*k
17 楼
呵呵, 没想到连中国文化也成了十字架的仇敌...
我们当然尊重中国的文化
但文化和信仰没有冲突
一个在魂, 一个在灵
主耶稣不是西方文化, 也不仅仅是以色列的神, 他更是外邦人的救主
我们当然尊重中国的文化
但文化和信仰没有冲突
一个在魂, 一个在灵
主耶稣不是西方文化, 也不仅仅是以色列的神, 他更是外邦人的救主
B*O
21 楼
用match比较快。
> long =data.frame(a=seq(1,1000000), b=rnorm(10) )
> short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
> system.time(merge(x=long, y=short, all.x=T))
user system elapsed
7.253 0.071 7.385
> system.time(long$cuser system elapsed
0.002 0.000 0.001
> system.time(long$c[match(short$a,long$a)]user system elapsed
0.119 0.000 0.119
> long =data.frame(a=seq(1,1000000), b=rnorm(10) )
> short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
> system.time(merge(x=long, y=short, all.x=T))
user system elapsed
7.253 0.071 7.385
> system.time(long$cuser system elapsed
0.002 0.000 0.001
> system.time(long$c[match(short$a,long$a)]user system elapsed
0.119 0.000 0.119
g*r
24 楼
出于力求“简单统一”的考虑,不想调用其他程序。(比如换到windows下跑,就需要
先安装python了)
试了一下大家的另外两个建议。
data.table是个好东西,瞬间完成!match稍慢,但可以接受。
先安装python了)
试了一下大家的另外两个建议。
data.table是个好东西,瞬间完成!match稍慢,但可以接受。
r*n
30 楼
这种简单查找型 merg 显然是用 awk 比较快了
【在 g*r 的大作中提到】
: R的merge效率太低了。根据一个列合并两个dataframe,长的有1m行,短的1k行:
: long =data.frame(a=seq(1,1000000), b=rnorm(10) )
: short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
: system.time(merge(x=long, y=short, all.x=T))
: user system elapsed
: 10.286 0.370 10.624
: 4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
: 我的真实数据比例子里的复杂些,且有100m行或更高,卡了半天没动静,只好强行终止
: 进程。对这个效率有点失望。早听说merge很慢,这次领教了。
: 如果不依靠外部程序(shell,python之类的script),大家是怎么多快好省做合并的
【在 g*r 的大作中提到】
: R的merge效率太低了。根据一个列合并两个dataframe,长的有1m行,短的1k行:
: long =data.frame(a=seq(1,1000000), b=rnorm(10) )
: short=data.frame(a=seq(1,2000, 2), c=rnorm(10) )
: system.time(merge(x=long, y=short, all.x=T))
: user system elapsed
: 10.286 0.370 10.624
: 4m行就要将近1分钟。8m行超过2分钟。16m要4分钟。
: 我的真实数据比例子里的复杂些,且有100m行或更高,卡了半天没动静,只好强行终止
: 进程。对这个效率有点失望。早听说merge很慢,这次领教了。
: 如果不依靠外部程序(shell,python之类的script),大家是怎么多快好省做合并的
o*a
32 楼
进来学习
k*u
41 楼
zan
不过冷不。。
不过冷不。。
c*n
42 楼
冷是一定的啊
P*l
44 楼
漂亮~
相关阅读
Hastie/Tibs 的新书下载 (转载)下星期有个netflix sr. data analyst 的第二轮,求面经!请问大家有谁知道怎么分析社交游戏的数据应用统计硕士选课求教Data Science方向 (转载)Kaggle四月一号的题The Random Number Grand Challenge太搞笑了fresh graduate转行找工作历程 (转载)Big data是下一个大坑吗MS Analysis service高手看过来Re: OPT被拒-急问CPT对OPT的影响 (转载)请问学BI的certificate课程对于我这种背景的找相关工作有用么?有没有人想报Cloudera的Data Scientist Certificate的在NY的小伙伴们加这个DS群吧statistical learning--Stanford open course做data scientist好海归么data scientist考coding的题目可以用python吗?报面筋求实习合租 (转载)也问个模型Data/research scientist, Statistician 公司分档能不能介绍一些面试的常见问题?寻找CS背景的technical cofounder