Redian新闻
>
data.table谁用过? 有那么神吗?
avatar
data.table谁用过? 有那么神吗?# Programming - 葵花宝典
b*h
1
我马上博士毕业,如果能去另外一所学校AP,我想问一下我能否和老板要求加我做co-PI
?大家有遇到这样的情况吗?这个在客观条件上允许吗?谢谢
avatar
l*n
2
两个人,第一个叫Seema,是个印度女孩, 第二个记不清名字了,是个男的。问的问题
都巨简单:
1. One array of integer, find a pair inside which the sum is n
2. Model a chess game
3. Talk about linkedlist
4. Talk about binary search tree
5. Talk about hashtable
6. One array includes integers, only one integer appears odd times, find it
out and the efficiency of this algorithm.
avatar
m*r
3
在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
add/modify/delete of columns by group using no copies at all, list columns,
a fast friendly file reader and parallel file writer.
--https://cran.r-project.org/web/packages/data.table/
avatar
h*w
4
只有两种情况有可能:
1)你老板是出奇的好人,基本不在乎钱,又特别喜欢你
2)你做的东西除了你没别人能做,包括你老板自己也做不了,等于他外包一部分给你
做。
另外我得提醒你,NIH现在没有co-PI这一说,只有co-I,NSF可以。

PI

【在 b*******h 的大作中提到】
: 我马上博士毕业,如果能去另外一所学校AP,我想问一下我能否和老板要求加我做co-PI
: ?大家有遇到这样的情况吗?这个在客观条件上允许吗?谢谢

avatar
f*b
5
r u fresh or experienced?

it

【在 l********n 的大作中提到】
: 两个人,第一个叫Seema,是个印度女孩, 第二个记不清名字了,是个男的。问的问题
: 都巨简单:
: 1. One array of integer, find a pair inside which the sum is n
: 2. Model a chess game
: 3. Talk about linkedlist
: 4. Talk about binary search tree
: 5. Talk about hashtable
: 6. One array includes integers, only one integer appears odd times, find it
: out and the efficiency of this algorithm.

avatar
c*e
6
100GB in RAM? 你内存有这么大?

fast
columns,

【在 m******r 的大作中提到】
: 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
: 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
: Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
: add/modify/delete of columns by group using no copies at all, list columns,
: a fast friendly file reader and parallel file writer.
: --https://cran.r-project.org/web/packages/data.table/

avatar
b*h
7
R01的co-I能分到钱吗?
哎,前两天还把老板给惹了。。。真是傻透腔了。。。。

【在 h*****w 的大作中提到】
: 只有两种情况有可能:
: 1)你老板是出奇的好人,基本不在乎钱,又特别喜欢你
: 2)你做的东西除了你没别人能做,包括你老板自己也做不了,等于他外包一部分给你
: 做。
: 另外我得提醒你,NIH现在没有co-PI这一说,只有co-I,NSF可以。
:
: PI

avatar
H*M
8
你model一个chess game怎么答得?

it

【在 l********n 的大作中提到】
: 两个人,第一个叫Seema,是个印度女孩, 第二个记不清名字了,是个男的。问的问题
: 都巨简单:
: 1. One array of integer, find a pair inside which the sum is n
: 2. Model a chess game
: 3. Talk about linkedlist
: 4. Talk about binary search tree
: 5. Talk about hashtable
: 6. One array includes integers, only one integer appears odd times, find it
: out and the efficiency of this algorithm.

avatar
h*2
9
在内存里aggtegate 100g的数据

fast
columns,

【在 m******r 的大作中提到】
: 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
: 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
: Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
: add/modify/delete of columns by group using no copies at all, list columns,
: a fast friendly file reader and parallel file writer.
: --https://cran.r-project.org/web/packages/data.table/

avatar
h*w
10
完全看你老板怎么安排,我走之前是我老板两个R01的co-I,其中一个还是我写的,一
分钱都没有给我。。。
我现在隔壁的同事就从她老板那里分了将近50万,所以我说看情况

【在 b*******h 的大作中提到】
: R01的co-I能分到钱吗?
: 哎,前两天还把老板给惹了。。。真是傻透腔了。。。。

avatar
g*y
11
thanks for sharing!
By the way, did they ask about your project experience? behavior questions?
Any questions about basic knowledge concepts regarding some programming
language/OS/network...etc?
Thanks~~
avatar
c*e
12
不怕你笑话,我的laptop, ram只有4gb,其中只有3.87gb usable.

fast
columns,

【在 m******r 的大作中提到】
: 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
: 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
: Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
: add/modify/delete of columns by group using no copies at all, list columns,
: a fast friendly file reader and parallel file writer.
: --https://cran.r-project.org/web/packages/data.table/

avatar
w*e
13
If he/she is a Chinese or An AP, Just forget it.

PI

【在 b*******h 的大作中提到】
: 我马上博士毕业,如果能去另外一所学校AP,我想问一下我能否和老板要求加我做co-PI
: ?大家有遇到这样的情况吗?这个在客观条件上允许吗?谢谢

avatar
c*y
14
I also want to ask him this question. :)

【在 H*M 的大作中提到】
: 你model一个chess game怎么答得?
:
: it

avatar
n*3
15
performace wish, R 里面最好的
但是 推荐用 dplyr 那一套 package
better design and better support

fast
columns,

【在 m******r 的大作中提到】
: 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
: 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
: Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
: add/modify/delete of columns by group using no copies at all, list columns,
: a fast friendly file reader and parallel file writer.
: --https://cran.r-project.org/web/packages/data.table/

avatar
b*h
16
谢谢!好吧,也就是说操作上是可行的,但是完全看老板?

【在 h*****w 的大作中提到】
: 完全看你老板怎么安排,我走之前是我老板两个R01的co-I,其中一个还是我写的,一
: 分钱都没有给我。。。
: 我现在隔壁的同事就从她老板那里分了将近50万,所以我说看情况

avatar
a*p
17
Chess Game OOD好像不简单,要考虑很多。
avatar
v*e
18
我们用R只做两件事情,1. plot画图 2. call glm之类的统计函数。
想要join,排序,搞column之类,你没有python吗,没有sql吗。就不要用R搞它不擅长
的东西。
avatar
b*h
19
美国人,基本不缺经费。但是最近关系有点紧张,我还是先缓和缓和之后再说吧

【在 w******e 的大作中提到】
: If he/she is a Chinese or An AP, Just forget it.
:
: PI

avatar
l*n
20
2 class: JQizi, JBoard
1 interface: Game (can have multiple implementations)
JQizi has couple of attributes, like name, party, position, and some actions
, like move, clear
The implementation of Game has deal method which used to play the game
I think the most important thing is to show you OO design skills, the game itself is very complicate, no one can make one in very short time.

【在 H*M 的大作中提到】
: 你model一个chess game怎么答得?
:
: it

avatar
n*g
21
我用过,但是没处理国那么大数据
hadley也承认data.table 比dplyr快很多,后者可读性强点。
当你的数据超过1百万行,你就需要data.table了. 不信你试试看

fast
columns,

【在 m******r 的大作中提到】
: 在学R. data.table号称只用1/10的内存,速度快10倍。 谁用过? 真有这么神吗?
: 外语不好,谁给看看这话什么意思? 是要我有100g的内存吗?
: Fast aggregation of large data (e.g. 100GB in RAM), fast ordered joins, fast
: add/modify/delete of columns by group using no copies at all, list columns,
: a fast friendly file reader and parallel file writer.
: --https://cran.r-project.org/web/packages/data.table/

avatar
h*w
22
听你的口气基本没戏,不过尝试下也没什么不好,别抱太大希望。你独立以后就是你原
来老板的竞争对手,最后你们不变成对头是你主要要考虑的,我知道很多人包括我在内
,都是生怕这个,至于分钱简直就是想都没想过。
我隔壁的那个同事情况非常特殊,她来之前一个月她老板才交申请到NIH,而且不是普
通的R01,整个项目有500万,里面包含了7,8个人,她很走运分了50万,而且她是女的
也占便宜。我自己的情况是钱都已经拿到了,让我原来老板再吐出来是不可能的事情。

【在 b*******h 的大作中提到】
: 谢谢!好吧,也就是说操作上是可行的,但是完全看老板?
avatar
l*n
23
experienced.

【在 f****b 的大作中提到】
: r u fresh or experienced?
:
: it

avatar
n*g
24
python pandas的速度不如data.table ,
这个data.table虽然是R package, 但是地层是C, 用Rcpp写的。

【在 v*******e 的大作中提到】
: 我们用R只做两件事情,1. plot画图 2. call glm之类的统计函数。
: 想要join,排序,搞column之类,你没有python吗,没有sql吗。就不要用R搞它不擅长
: 的东西。

avatar
b*h
25
我老板也是打算6月份申,应该是普通的R01,里面主要prelim results都是我phd期间做
的。不过照你说的架势,我觉得还是没有戏。。。

【在 h*****w 的大作中提到】
: 听你的口气基本没戏,不过尝试下也没什么不好,别抱太大希望。你独立以后就是你原
: 来老板的竞争对手,最后你们不变成对头是你主要要考虑的,我知道很多人包括我在内
: ,都是生怕这个,至于分钱简直就是想都没想过。
: 我隔壁的那个同事情况非常特殊,她来之前一个月她老板才交申请到NIH,而且不是普
: 通的R01,整个项目有500万,里面包含了7,8个人,她很走运分了50万,而且她是女的
: 也占便宜。我自己的情况是钱都已经拿到了,让我原来老板再吐出来是不可能的事情。

avatar
l*n
26
I was asked my background, no behavior questions.
There are some other small questions, like what's the difference between
hashtable and hashmap, basic Java questions. no OS/network..

?

【在 g*******y 的大作中提到】
: thanks for sharing!
: By the way, did they ask about your project experience? behavior questions?
: Any questions about basic knowledge concepts regarding some programming
: language/OS/network...etc?
: Thanks~~

avatar
l*n
27
pandas巨慢,用numpy,肯定比任何r package快

【在 n******g 的大作中提到】
: python pandas的速度不如data.table ,
: 这个data.table虽然是R package, 但是地层是C, 用Rcpp写的。

avatar
h*w
28
一般老板的R01里面主要prelim results都是phd学生做的吧,我当初不仅给我老板做,
还给他写proposal,前后因为我的结果拿到的钱有小几百万了,我也没分到一分钱。
试试吧,别抱太大希望,记住从别人兜里掏钱是很困难的事情,你独立以后和你老板就
没关系了,如果以后你们做一个方向反而会是竞争对手。

【在 b*******h 的大作中提到】
: 我老板也是打算6月份申,应该是普通的R01,里面主要prelim results都是我phd期间做
: 的。不过照你说的架势,我觉得还是没有戏。。。

avatar
n*g
29
好我尽快试试
[在 longtian (有人的地方,就有江湖) 的大作中提到:]
:pandas巨慢,用numpy,肯定比任何r package快
avatar
b*h
30
好吧,我清醒了。谢谢

【在 h*****w 的大作中提到】
: 一般老板的R01里面主要prelim results都是phd学生做的吧,我当初不仅给我老板做,
: 还给他写proposal,前后因为我的结果拿到的钱有小几百万了,我也没分到一分钱。
: 试试吧,别抱太大希望,记住从别人兜里掏钱是很困难的事情,你独立以后和你老板就
: 没关系了,如果以后你们做一个方向反而会是竞争对手。

avatar
m*n
31
好像都没有matlab快
但是python那套也挺慢的
avatar
j*w
32
真是搞不清楚想你这样的junior people,又没事儿惹老板,又指望老板做好事,可能
吗?不明白很简单的道理,you scratch my back, I scratch yours?
avatar
n*3
33
nummy
太底层了,不好用
dplyr 是 data analysis 方面 so far 最好的 设计
amount all the languages

【在 l******n 的大作中提到】
: pandas巨慢,用numpy,肯定比任何r package快
avatar
b*h
34
我这也是才发现老板重要呀,哎
你的比喻倒是很恰当。

【在 j***w 的大作中提到】
: 真是搞不清楚想你这样的junior people,又没事儿惹老板,又指望老板做好事,可能
: 吗?不明白很简单的道理,you scratch my back, I scratch yours?

avatar
r*g
35
numpy还底层,我自从学了J以后,觉得其他这些数组运算设计都丑暴了。

【在 n*****3 的大作中提到】
: nummy
: 太底层了,不好用
: dplyr 是 data analysis 方面 so far 最好的 设计
: amount all the languages

avatar
w*g
36
有比我悲催的。看来我也不用耿耿于怀。

【在 h*****w 的大作中提到】
: 一般老板的R01里面主要prelim results都是phd学生做的吧,我当初不仅给我老板做,
: 还给他写proposal,前后因为我的结果拿到的钱有小几百万了,我也没分到一分钱。
: 试试吧,别抱太大希望,记住从别人兜里掏钱是很困难的事情,你独立以后和你老板就
: 没关系了,如果以后你们做一个方向反而会是竞争对手。

avatar
n*g
37
longtian说的对,numpy数组比pandas 快,我已经在改code,去掉一切pandas
dependency

【在 n*****3 的大作中提到】
: nummy
: 太底层了,不好用
: dplyr 是 data analysis 方面 so far 最好的 设计
: amount all the languages

avatar
b*n
38
This really makes sense

【在 j***w 的大作中提到】
: 真是搞不清楚想你这样的junior people,又没事儿惹老板,又指望老板做好事,可能
: 吗?不明白很简单的道理,you scratch my back, I scratch yours?

avatar
n*g
39
膜拜大牛,J是啥东东?比LAPACK还快吗?

【在 r*g 的大作中提到】
: numpy还底层,我自从学了J以后,觉得其他这些数组运算设计都丑暴了。
avatar
j*l
40
有道理。
然后很多博士生骂老板怎么mean,而不提其实自己惹老板在前。
如果不幸老板是个中国人,就像楼上的whoiwere马上就搞种族歧视.

>【 在 whoiwere (dddddddd) 的大作中提到: 】

【在 j***w 的大作中提到】
: 真是搞不清楚想你这样的junior people,又没事儿惹老板,又指望老板做好事,可能
: 吗?不明白很简单的道理,you scratch my back, I scratch yours?

avatar
r*g
41
J是第一个array language APL的后代。不快,就是数组运算简洁干净,当玩具玩的。

【在 n******g 的大作中提到】
: 膜拜大牛,J是啥东东?比LAPACK还快吗?
avatar
x*u
42
scipy后端都是C库啊

【在 n******g 的大作中提到】
: longtian说的对,numpy数组比pandas 快,我已经在改code,去掉一切pandas
: dependency

avatar
l*n
43
data analysis也要考虑速度和效率,很多所谓好用的工具是以牺牲速度和效率来换易
用性。你上手容易,但是很快就会发现这些工具不能满足你更深入一些的要求,这时候
你又得换轮子了。

【在 n*****3 的大作中提到】
: nummy
: 太底层了,不好用
: dplyr 是 data analysis 方面 so far 最好的 设计
: amount all the languages

avatar
n*7
44
这个做法是对的,少了很多折腾
但是有时候很难决定
比如本来也就两行R代码的事情,还要额外写个python脚本就没必要了
另外,即使python处理过的数据,也可能很大,这时候data.table这类玩意还是有用的

【在 v*******e 的大作中提到】
: 我们用R只做两件事情,1. plot画图 2. call glm之类的统计函数。
: 想要join,排序,搞column之类,你没有python吗,没有sql吗。就不要用R搞它不擅长
: 的东西。

avatar
n*7
45
几年前有次处理个几个G的数据
原生的read.table处理了几十分钟没动静
换成data.table两分钟不到搞定

【在 n******g 的大作中提到】
: 我用过,但是没处理国那么大数据
: hadley也承认data.table 比dplyr快很多,后者可读性强点。
: 当你的数据超过1百万行,你就需要data.table了. 不信你试试看
:
: fast
: columns,

avatar
n*7
46
pandas 用过几次
感觉语法比较别扭
总是记不住
如果还跟numpy performance有差距
真没必要了
白白增加了很多复杂度

【在 n******g 的大作中提到】
: longtian说的对,numpy数组比pandas 快,我已经在改code,去掉一切pandas
: dependency

avatar
n*7
47
问题是python工具链上手也不容易
做data analysis的话,要实现类似R的功能
得numpy + scipy + pandas + matplotlib + scikit-learn
折腾几种开源包很花精力的
而且还没有R的“保证”:太阳下面统计的东西,都有R的实现
另外工具上,python这边还没有Rstudio这样好用的IDE
用过几天spyder2,感觉还是差点 比较糙
当然,这里主要是说统计分析,python这个这些包肯定也有一些R包没有实现的功能
特别scikit-learn,我觉得非常好用
总之,从好用来说,还是专业的R语言做data analysis好用
如果遇到速度瓶颈了,很多时候是代码本身写的没效率
另外就是把R不擅长的东西尽量分离出去
R很多包底层就是c/cpp,如果这些包也不能满足要求,换语言可能也不会有很大起色

【在 l******n 的大作中提到】
: data analysis也要考虑速度和效率,很多所谓好用的工具是以牺牲速度和效率来换易
: 用性。你上手容易,但是很快就会发现这些工具不能满足你更深入一些的要求,这时候
: 你又得换轮子了。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。