avatar
最近的一些面经# DataSciences - 数据科学
c*z
1
首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
要栽几个跟头才能学到的。
然后是面经。大概有这么几类的题目:
1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
model混淆了)。对不起内推的大哥了。
2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的
,但是细节不能说 :P
3,基础操作类。大公司爱问,基本上SQL解决。我最近有点轻敌,没有重视SQL,觉得
这东西老古董。结果被人问了一个SQL很容易而R,Pig和Scala都很难解决的数据操作的
问题。还有Linkedin的三姐让我15分钟内写出reshape函数,歇菜了。同对不起内推的
兄弟了。
4,产品类。都爱问,对于我们的产品有什么看法,怎么改进。我从来不用social
network,只能临时抱佛脚。于是Facebook和Linkedin歇菜了,理由是不够confident。
对不起内推的兄弟了。
5,分析类。都爱问,像加州有多少出租车之类的。思路差不多就是那样,从需求开始
,简单的算术。
6,编程类。F和L爱问LC那样的,小公司问的比较简单。都怪我上次BSO说从来没有考过
code,这次全部考code。像什么BFS,max substring都来了。我要是能刷题我就不报DS
了,报SDE去了啊。
最后是拒掉的唯一一个offer: 小公司,16万base,1万签字费,1万股权/4年,20%奖金
,6个月办绿卡。主要是又要我做技术骨干,太累了,而且不安稳。
好想好想找个大公司混绿卡啊。只有接着找吧。虽然现在的公司必倒,但是大概还能有
几个月的时间。求bless!
另外一点经验,可以在offer里面要一个parachute term,如果公司让走人,必须提供
额外一个月的H1B,薪水和benefits。这样多少能安心一点。
还有一点经验,就是小心猎头,一定什么都不能promise。我被他们忽悠,promise了一个
决定是否接受offer的deadline,结果搞得非常被动。就说现在还不能决定。
avatar
l*n
2
1万股权/4年太少了

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
c*z
3
根本就是操卖白粉的心,赚卖白菜的钱

【在 l******n 的大作中提到】
: 1万股权/4年太少了
avatar
l*n
4
我最近也找了几家,不过都是附近的小公司,基本都要求很强的coding能力,和SDE基
本没啥区别
现在个人更倾向于service类型的公司,做product的ds基本就是当成SDE在用

【在 c***z 的大作中提到】
: 根本就是操卖白粉的心,赚卖白菜的钱
avatar
c*z
5
可是大公司的DS不是做product就是做product support,基本上都是CS背景的人
有什么好公司比较安稳又有钱么(想得美)
avatar
l*n
6
consulting呀,一般是大公司,工资高,工作轻松,就是没有股票/期权,没有暴富的
机会

【在 c***z 的大作中提到】
: 可是大公司的DS不是做product就是做product support,基本上都是CS背景的人
: 有什么好公司比较安稳又有钱么(想得美)

avatar
c*z
7
consulting累死了,KPMG据说50%travel
avatar
l*n
8
所以能不能remote很重要

【在 c***z 的大作中提到】
: consulting累死了,KPMG据说50%travel
avatar
c*z
9
无聊查了一下http://h1bdata.info
还是portfolio manager 工资高
乖乖80万base
要不大家一起搞一个data driven portfolio management firm吧
avatar
l*n
10
那是fund吧,没钱玩不起

【在 c***z 的大作中提到】
: 无聊查了一下http://h1bdata.info
: 还是portfolio manager 工资高
: 乖乖80万base
: 要不大家一起搞一个data driven portfolio management firm吧

avatar
c*z
11
找四大牛人圈钱?
avatar
Y*e
12
好多这样的公司了啊,dataminr 之类的

【在 c***z 的大作中提到】
: 无聊查了一下http://h1bdata.info
: 还是portfolio manager 工资高
: 乖乖80万base
: 要不大家一起搞一个data driven portfolio management firm吧

avatar
c*t
13
要混绿卡那要去商业银行和大保险公司,钱少点但活不累尽开会。去starup干嘛

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
c*z
14
thanks alot for sharing!

【在 Y***e 的大作中提到】
: 好多这样的公司了啊,dataminr 之类的
avatar
c*z
15
因为贪财
穷怕了...

【在 c****t 的大作中提到】
: 要混绿卡那要去商业银行和大保险公司,钱少点但活不累尽开会。去starup干嘛
avatar
r*d
16
Bless!
赞面经!
优点特点兼备,你肯定没问题!
我将来还打算跟你混呢 :)

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
c*z
17
谢谢大牛
我这人呆得很,还是我跟大牛混吧 :)
avatar
l*s
18
所以大部分data scientist还是码工的干活?

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
c*z
19
更接近码农
avatar
s*r
20
码工,码农啥区别?

【在 c***z 的大作中提到】
: 更接近码农
avatar
b*n
21
工人和农民的区别,呵呵

码工,码农啥区别?

【在 s********r 的大作中提到】
: 码工,码农啥区别?
avatar
d*n
23
大牛果然牛啊。

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
c*z
24
not at all
you are the real 大牛
please refer me :)

【在 d****n 的大作中提到】
: 大牛果然牛啊。
avatar
d*n
25
我们以后一起开startup吧。

【在 c***z 的大作中提到】
: not at all
: you are the real 大牛
: please refer me :)

avatar
c*z
26
好啊好啊,做点什么?big data driving business and investment consulting?

【在 d****n 的大作中提到】
: 我们以后一起开startup吧。
avatar
c*z
27
大牛有卡么,不如现在就开?

【在 d****n 的大作中提到】
: 我们以后一起开startup吧。
avatar
D*e
28
哈哈哈

【在 b*********n 的大作中提到】
: 工人和农民的区别,呵呵
:
: 码工,码农啥区别?

avatar
M*9
29
太牛了。 搞这么多面试。。。

★ 发自iPhone App: ChineseWeb 7.8

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
c*z
30
如果只是电面就被据的话,还是很容易搞很多的 :(

【在 M*********9 的大作中提到】
: 太牛了。 搞这么多面试。。。
:
: ★ 发自iPhone App: ChineseWeb 7.8

avatar
D*e
31
大一点的quant fund像Jane St, Renaissance里面都有人做这个吧

【在 Y***e 的大作中提到】
: 好多这样的公司了啊,dataminr 之类的
avatar
M*9
32
如果没琢磨回国, 先把破卡搞到吧。 要不太不自由。
你们开了startup, 俺要报名打杂。。。

★ 发自iPhone App: ChineseWeb 7.8

【在 c***z 的大作中提到】
: 大牛有卡么,不如现在就开?
avatar
c*z
33
Ren tech 和 Jane st 都没有DS职位
还是说那东西在那边叫别的名字
谢啦
avatar
h*7
34
Random Forest怎么split,怎么cross validate,
还有Neural Network怎么back propagate, 怎么feature selection,
这个估计是你简历里边写了才问的吧,要没写问这些细枝末节谁答得上来,我可以问他
一百个类似的问题保证他一个都答不上来。

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
z*e
35
求一并带上路

【在 d****n 的大作中提到】
: 我们以后一起开startup吧。
avatar
c*z
36
不如我们桃园结义吧
感觉要战胜烙印就必须走帮派路线 :)

【在 z****e 的大作中提到】
: 求一并带上路
avatar
c*z
37
写了 supervised learning
也写了survival analysis,但是在上一个公司的经验里面

【在 h*****7 的大作中提到】
: Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,
: 这个估计是你简历里边写了才问的吧,要没写问这些细枝末节谁答得上来,我可以问他
: 一百个类似的问题保证他一个都答不上来。

avatar
h*y
38
zan!
avatar
h*7
39
我博士毕业的时候也面了两个IT公司的DS,都是聊聊简历上的东西,加一点点无脑
design题。on site就是去show off自己的论文。他们也不含糊,使劲吹自己的公司多
牛方向多好。我跟着感叹捧场,顺带问了问SF的中餐馆。最后一起鄙视了一些山头,仰
视了另一些山头。高高兴兴回家,几天后就给offer了。没见有这么多问题的。

【在 c***z 的大作中提到】
: 写了 supervised learning
: 也写了survival analysis,但是在上一个公司的经验里面

avatar
c*z
40
F,L根本不和我聊简历上的东西,上来就白板
可能是竞争加大了
avatar
s*w
42
Thanks for sharing!
I am a postdoc in signal processing and wish to seek for a position in data
science industry. How can I prepare for the interviews?

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
s*w
43
ca, big ox! Does your background fit for the jd pretty much?

【在 h*****7 的大作中提到】
: 我博士毕业的时候也面了两个IT公司的DS,都是聊聊简历上的东西,加一点点无脑
: design题。on site就是去show off自己的论文。他们也不含糊,使劲吹自己的公司多
: 牛方向多好。我跟着感叹捧场,顺带问了问SF的中餐馆。最后一起鄙视了一些山头,仰
: 视了另一些山头。高高兴兴回家,几天后就给offer了。没见有这么多问题的。

avatar
h*7
44
not ox. background fit is very important.

【在 s*****w 的大作中提到】
: ca, big ox! Does your background fit for the jd pretty much?
avatar
c*z
45
这才是大牛,谈笑间强虏灰飞烟灭
我跟大牛相比,就是游击队和正规军的区别啊

【在 s*****w 的大作中提到】
: ca, big ox! Does your background fit for the jd pretty much?
avatar
c*z
46
主要补充一下统计方面的,还有机器学习
Statistical Inference https://www.coursera.org/course/statinference
R Programming https://www.coursera.org/course/rprog
Machine learning https://www.coursera.org/course/ml
You still need to pick up big data, try play with the Cloudera VM

data

【在 s*****w 的大作中提到】
: Thanks for sharing!
: I am a postdoc in signal processing and wish to seek for a position in data
: science industry. How can I prepare for the interviews?

avatar
Y*e
47
这两家你是面写production那种,还是偏business analytics 那种?

【在 c***z 的大作中提到】
: F,L根本不和我聊简历上的东西,上来就白板
: 可能是竞争加大了

avatar
m*r
48
bless~~
加油!!

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
a*k
49
多谢!有要现场处理数据或是在product design时用R/Python写出 ML算法去处理假定
数据的吗?不好意思,刚才点错了,把我的问题发到你信箱里了

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
c*z
50
product analysis, i.e. would this product be successful?
the right answer to "success metric" question is: what is the business
objective (i.e. what do you mean by successful)?
A/B testing is heavily used there

【在 Y***e 的大作中提到】
: 这两家你是面写production那种,还是偏business analytics 那种?
avatar
d*n
51
大牛工作多少年啦?
avatar
c*z
52
2 years and 8 months
not niu at all
it feels like walking on thin ice all the time, since I have no idea if my
ideas would work or not...
avatar
m*r
53
bless~~

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
X*e
54
为啥不作马工?以侬的背景难道不比ds有前途?

data

【在 s*****w 的大作中提到】
: Thanks for sharing!
: I am a postdoc in signal processing and wish to seek for a position in data
: science industry. How can I prepare for the interviews?

avatar
z*e
55
这两个在互相融合啊

【在 X*****e 的大作中提到】
: 为啥不作马工?以侬的背景难道不比ds有前途?
:
: data

avatar
c*z
56
Actually I am CS background, my degrees are in CS, Discrete Math, MFE, not
Stats
But I can't write bug free code on a white board...

【在 X*****e 的大作中提到】
: 为啥不作马工?以侬的背景难道不比ds有前途?
:
: data

avatar
P*6
57
照这意思,做data scientist还得刷编程试题?结果变成了什么都得会?

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
S*y
58
>"可能是竞争加大了"
Yes. I totally agree with you.
---
Pls check your pm. Thanks!

【在 c***z 的大作中提到】
: F,L根本不和我聊简历上的东西,上来就白板
: 可能是竞争加大了

avatar
P*6
59
请教一下,您搞得好像跟marketing更相关,也要survival analysis?
大致用在什么方面?
我以为survival analysis 就生物统计用的多?

【在 c***z 的大作中提到】
: 写了 supervised learning
: 也写了survival analysis,但是在上一个公司的经验里面

avatar
s*g
60
Churn analysis

【在 P*****6 的大作中提到】
: 请教一下,您搞得好像跟marketing更相关,也要survival analysis?
: 大致用在什么方面?
: 我以为survival analysis 就生物统计用的多?

avatar
d*4
61
Random forest 的split不就是和bagging差不多嘛?每次random的选择 a set of
covariates.
对不对?

【在 c***z 的大作中提到】
: 首先说说教训。如果你是技术骨干,那么在介绍项目的时候,得悠着点,注意不能说涉
: 及保密的东西。这个对于有些人来说是常识,但是对于比较呆的人(比如我),却是需
: 要栽几个跟头才能学到的。
: 然后是面经。大概有这么几类的题目:
: 1,理论类。Netflix爱问,追着我问Random Forest怎么split,怎么cross validate,
: 还有Neural Network怎么back propagate, 怎么feature selection,用的什么包裹,
: 什么原理,一直问到survival analysis的公式,很久没用于是歇菜了(和treatment
: model混淆了)。对不起内推的大哥了。
: 2,实践类。小公司爱问,类似于码工面试的设计题。这种情况怎么搞,那种情况怎么
: 搞,没见到data只能胡说,就说以前我有一个项目,情况有点类似,我大体是这么做的

avatar
c*z
62
yes :)

【在 d******4 的大作中提到】
: Random forest 的split不就是和bagging差不多嘛?每次random的选择 a set of
: covariates.
: 对不对?

avatar
t*u
63
这个算是统计还是machine learning?

【在 c***z 的大作中提到】
: yes :)
avatar
c*z
64
both :)
avatar
g*n
65
我猜问的是如何split data to build nodes of a tree in the random forest,而不
是split variables.

【在 d******4 的大作中提到】
: Random forest 的split不就是和bagging差不多嘛?每次random的选择 a set of
: covariates.
: 对不对?

avatar
a*g
66
consulting 加班加到死
avatar
s*n
67
我猜 Data2014 说的是怎么样采样训练数据,bootstrap / sample with replacement
etc.
而面试问的问题是具体到每一个decision tree里面,从上一层的节点到下一层的左右
子节点的分类原则。最长用到的两个指标是Gini Impurity 和 information gain。 http://en.wikipedia.org/wiki/Decision_tree_learning

【在 g*********n 的大作中提到】
: 我猜问的是如何split data to build nodes of a tree in the random forest,而不
: 是split variables.

avatar
w*a
68
不是 每次random的选择 a set of covariates.
是 每次random的选择 a set of variables from ALL available variables

【在 d******4 的大作中提到】
: Random forest 的split不就是和bagging差不多嘛?每次random的选择 a set of
: covariates.
: 对不对?

avatar
m*t
69
covariates和variables不就是一个东西俩名字么?
RF最基本的几个点还是挺容易的
1. random sample with replacement 1-e^-1的概率被抽到
2. 问题的考点可能是这个 在split的时候 并不是所有的feature都被用到
只有有限个feature 一般来说是n^1/2
3. how to split, information gain总是要知道的 gini impurity也该知道
其实我也没自己写过RF 有个问题从来没问过 却一直有点疑问
random sample with replacement之后到底是把duplicate扔掉还是不扔
就是开始有n个sample 最后是0.63n 还是n个进入每一个tree

【在 w*****a 的大作中提到】
: 不是 每次random的选择 a set of covariates.
: 是 每次random的选择 a set of variables from ALL available variables

avatar
m*a
70
covariate 可以是 把多个 variable combine 在一起的东西吧

【在 m********t 的大作中提到】
: covariates和variables不就是一个东西俩名字么?
: RF最基本的几个点还是挺容易的
: 1. random sample with replacement 1-e^-1的概率被抽到
: 2. 问题的考点可能是这个 在split的时候 并不是所有的feature都被用到
: 只有有限个feature 一般来说是n^1/2
: 3. how to split, information gain总是要知道的 gini impurity也该知道
: 其实我也没自己写过RF 有个问题从来没问过 却一直有点疑问
: random sample with replacement之后到底是把duplicate扔掉还是不扔
: 就是开始有n个sample 最后是0.63n 还是n个进入每一个tree

avatar
m*t
71
有没有人给谈谈survival analysis在churn analysis里究竟怎么应用?

【在 s*******g 的大作中提到】
: Churn analysis
avatar
h*9
72
THX
avatar
j*3
73
mark
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。