大家电话面试都怎么准备的啊 - 未名空间MITBBS历史存档

I*d2014-12-16 08:12

1 楼

住费城，但是好像没看见费城有婚纱摄影师，就想最远的纽约也可以。我们不打算婚礼
，就是简单的外
景婚纱照。请问有好的摄影师可以推荐吗？
还有啊，如果拍婚纱照，请问婚纱是自己准备还是摄影工作室提供呢？还有化妆之类的
也是自己需要准
备吗？
感谢！

q*n2014-12-16 08:12

2 楼

说是半小时，不知道能讲点什么？
一个小的网上购物公司

R*u2014-12-16 08:12

3 楼

在这里，找摄影师都是只管照相，一般情侣在订婚后，会排engagement photo，穿便装
。然后在婚礼的当天，在ceremony前，会穿婚纱拍，婚纱是自己买，化妆师也是另找的
。一般engagment photos和ceremony是找一个摄影师。
如果你想排中国式的婚纱照，纽约的中国城里有很多是可以拍得，他们会提供婚纱和化
妆。

t*g2014-12-16 08:12

4 楼

看下job description, 有针对性做下准备
自己的简历过几遍，想想怎么介绍自己做的projects等

g*x2014-12-16 08:12

5 楼

来NY的话，我可以帮你拍外景，就是服装化妆得自己解决

【在 I**********d 的大作中提到】

: 住费城，但是好像没看见费城有婚纱摄影师，就想最远的纽约也可以。我们不打算婚礼
: ，就是简单的外
: 景婚纱照。请问有好的摄影师可以推荐吗？
: 还有啊，如果拍婚纱照，请问婚纱是自己准备还是摄影工作室提供呢？还有化妆之类的
: 也是自己需要准
: 备吗？
: 感谢！

c*h2014-12-16 08:12

6 楼

半小时应该问不了啥实质内容，估计就简历问问，再几个behavior。你再准备几个问题
问他们

q*n2014-12-16 08:12

7 楼

忘了，第一题还问了t-test, significant什么的，不明白，没学过统计。

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司

c*12014-12-16 08:12

8 楼

谢谢分享！很有意思的题目

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司

c*12014-12-16 08:12

9 楼

不知道版上各位大牛对第三题有什么想法没？我有一个比较粗浅的想法，也不太肯定是
否make sense:建立一个数据库，退货率是其中一个variable，还有其他的varaible像
是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
regularized regression，选取其中显著的变量，然后进一步研究被选取变量和退货率
的关系。到了这一步多半得用business sense了。

s*h2014-12-16 08:12

10 楼

我的粗浅的想法：
如果客户基本不做重复购买，比如像亚马逊那种，退货和不退货就是binary的，有很多
方法可以搞。
如果是企业级客户，就用GLM的binomial试试？

【在 c********1 的大作中提到】

: 不知道版上各位大牛对第三题有什么想法没？我有一个比较粗浅的想法，也不太肯定是
: 否make sense:建立一个数据库，退货率是其中一个variable，还有其他的varaible像
: 是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
: regularized regression，选取其中显著的变量，然后进一步研究被选取变量和退货率
: 的关系。到了这一步多半得用business sense了。

q*n2014-12-16 08:12

11 楼

展开说说，这个太浮于水面了。

【在 s*********h 的大作中提到】

: 我的粗浅的想法：
: 如果客户基本不做重复购买，比如像亚马逊那种，退货和不退货就是binary的，有很多
: 方法可以搞。
: 如果是企业级客户，就用GLM的binomial试试？

L*t2014-12-16 08:12

12 楼

电面就问技术问题啊

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司

O*h2014-12-16 08:12

13 楼

请教一下，Q2的假变量指的是什么？dummy variable?

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司

q*n2014-12-16 08:12

14 楼

不是，就是建模型的时候本来需要比如说2000个变量，结果用了4000个，所以一半变量
其实用不着，问如何挑出这些来。

【在 O*********h 的大作中提到】

:
: 请教一下，Q2的假变量指的是什么？dummy variable?

O*h2014-12-16 08:12

15 楼

请问现在业内通常是如何选择的呢？
通常social science习惯用step-wise看每个variable对explained sum of squares的
贡献。按照这个case，MSS阀值以下的变量就被抛弃了。
抱歉歪了下楼：）我是social science出身，正在学习ML的term和校正对ML一些实现的
理解。

【在 q********n 的大作中提到】

: 不是，就是建模型的时候本来需要比如说2000个变量，结果用了4000个，所以一半变量
: 其实用不着，问如何挑出这些来。

O*h2014-12-16 08:12

16 楼

说下我对退货率问题的看法。既然是退货率，必然涉及退货，所以公司对退货cases的
了解有多深入？比如，哪些客户，买了哪些产品，期间是否受到recommendation
system的影响等等，组成的segment(s)比较容易退货？
基于上面的逻辑，先根据business sense做segmentation。对于和结果关联紧密的
segmentation可以直接汇报，或者进一步modeling drivers；不紧密的要么抛弃，要么
再细分。
顺便问一下，如果在这个case用neural network，可不可以理解为对数据先做数量未知
的segmentation，然后再研究/预测每个segment对return的影响？

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司

n*y2014-12-16 08:12

17 楼

我也在学统计，第一题我刚刚看书看到，跟大家交流一下，希望指正～
把数据copy几次得到更多数据，但是redundent数据，不能提供更多的信息。所以得到
的模型式子不变（y = a1x1 + a2x2 + ...），但是我们会误以为这个模型的
confidence level很高，也就是误以为参数ai的standard error很小，confident
interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant，现
在你会误以为它significant。
比如想知道全美男子的平均身高，但是只量了一个人科比，然后把data复制10000次。
看data的人发现哇靠量了10000人全是6'6"...

q*n2014-12-16 08:12

18 楼

正解，能说说看得哪本书么？我看过一些统计的书和资料，但总觉得没看到过这种的，
可能是看的书的类型不对？

【在 n*******y 的大作中提到】

: 我也在学统计，第一题我刚刚看书看到，跟大家交流一下，希望指正～
: 把数据copy几次得到更多数据，但是redundent数据，不能提供更多的信息。所以得到
: 的模型式子不变（y = a1x1 + a2x2 + ...），但是我们会误以为这个模型的
: confidence level很高，也就是误以为参数ai的standard error很小，confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant，现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高，但是只量了一个人科比，然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

A*t2014-12-16 08:12

19 楼

没错，如果只是把数据copy几遍来增加sample size，没有提供更多的信息。其实在
inference上也会得到一样的结果。如果是linear model的话，copy以后的data point
不再是独立，model assumption就不一样了。

【在 n*******y 的大作中提到】

: 我也在学统计，第一题我刚刚看书看到，跟大家交流一下，希望指正～
: 把数据copy几次得到更多数据，但是redundent数据，不能提供更多的信息。所以得到
: 的模型式子不变（y = a1x1 + a2x2 + ...），但是我们会误以为这个模型的
: confidence level很高，也就是误以为参数ai的standard error很小，confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant，现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高，但是只量了一个人科比，然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

c*22014-12-16 08:12

20 楼

第一题确实是point estimation不会变，想一想estimate parameter 用的 normal
equation就知道了。
但是confidence interval, hypothesis testing 会变，因为standard error里面分母
的n变成2n了，所以standard error变小了，更容易得到significant的结果，可能会增
加Type I error的概率。

A*t2014-12-16 08:12

21 楼

copy产生的数据要考虑correlation，比如简单的t test，算standard error得到的结
果是一样的。point estimate不变，hypothesis testing的结果也应该不变

b*h2014-12-16 08:12

22 楼

你面的啥职位？

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司

n*y2014-12-16 08:12

23 楼

我看的是an introduction to statistical learning with applications in R
http://pan.baidu.com/wap/link?uk=1765079087&shareid=2552203541&
这个书语言比较通俗，内容比较浅吧。我想看完了再看专业点的。。。
（科比不是这个书上讲的）
最好有网络课程就好了，我觉得浅显的书也不如听啊。大家知道有这方面的网络课程吗
？我看了一下coursera上JHU的statistical inference，全是数学，讲的不太好懂

【在 q********n 的大作中提到】

: 正解，能说说看得哪本书么？我看过一些统计的书和资料，但总觉得没看到过这种的，
: 可能是看的书的类型不对？

q*n2014-12-16 08:12

24 楼

data scientist 啊

【在 b********h 的大作中提到】

: 你面的啥职位？

w*22014-12-16 08:12

25 楼

请问，
二是模型有2000个变量，有一半是假的，问如何甄别？
能解释“假的”吗？是noisy吗？

q*n2014-12-16 08:12

26 楼

什么是 noisy？哪行的术语？

【在 w**2 的大作中提到】

: 请问，
: 二是模型有2000个变量，有一半是假的，问如何甄别？
: 能解释“假的”吗？是noisy吗？

k*g2014-12-16 08:12

27 楼

Q2用step-wise的F-test是最传统的统计方法吧？新手，请指正。

j*l2014-12-16 08:12

28 楼

网络课
http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

F*n2014-12-16 08:12

29 楼

这个要怒赞一把，太好了！我就看了三节课，立马明白上次面试为什么挂掉了。很久没
有这种听君一席话，胜读十年书的感觉了。

【在 j*******l 的大作中提到】

: 网络课
: http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

T*u2014-12-16 08:12

30 楼

我对q3的粗浅理解，两个方面，一个是针对客户/销售/marketing的，一个是针对产品/
process提高质量口味的。送儿子上学，回来说。

r*o2014-12-16 08:12

31 楼

zan!

【在 j*******l 的大作中提到】

: 网络课
: http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

y*n2014-12-16 08:12

32 楼

没懂，为什么confidence level会变，样本的distribution不是没有没变吗？
如果这样能够改变confidence level？ Bootstrap怎么讲？
不太懂统计，求指教

【在 n*******y 的大作中提到】

: 我也在学统计，第一题我刚刚看书看到，跟大家交流一下，希望指正～
: 把数据copy几次得到更多数据，但是redundent数据，不能提供更多的信息。所以得到
: 的模型式子不变（y = a1x1 + a2x2 + ...），但是我们会误以为这个模型的
: confidence level很高，也就是误以为参数ai的standard error很小，confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant，现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高，但是只量了一个人科比，然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

s*t2014-12-16 08:12

33 楼

Q1:
year rate cor(year,rate)
fit1 = lm(rate~year)
summary(fit1)
year2 = rep(year, 100)
rate2 = rep(rate, 100)
cor(year2,rate2)
fit2 = lm(rate2~year2)
summary(fit2)
> summary(fit1)
Call:
lm(formula = rate ~ year)
Residuals:
1 2 3 4 5
0.132 -0.003 -0.178 -0.163 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1419.20800 126.94957 11.18 0.00153 **
year -0.70500 0.06341 -11.12 0.00156 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2005 on 3 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9684
F-statistic: 123.6 on 1 and 3 DF, p-value: 0.001559
> summary(fit2)
Call:
lm(formula = rate2 ~ year2)
Residuals:
Min 1Q Median 3Q Max
-0.178 -0.163 -0.003 0.132 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.419e+03 9.853e+00 144.0 <2e-16 ***
year2 -7.050e-01 4.922e-03 -143.2 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1556 on 498 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9763
F-statistic: 2.052e+04 on 1 and 498 DF, p-value: < 2.2e-16
So after copying the data for 100 times, the estimates remain the same, but
the std.error drops dramatically. And t value is much large, t-test is much
more significant.

q*n2014-12-16 08:12

34 楼

说是半小时，不知道能讲点什么？
一个小的网上购物公司
---------------------------------
一是问了regression的时候，老板让你把数据copy几次造成更多的数据，这样能不能提
高模型精确度，需要解释为何？
二是模型有2000个变量，有一半是假的，问如何甄别？
三他们公司一直是有退货率高的问题，问有没有什么idea如何用machine learning的办
法降低退货率。

t*g2014-12-16 08:12

35 楼

看下job description, 有针对性做下准备
自己的简历过几遍，想想怎么介绍自己做的projects等

c*h2014-12-16 08:12

36 楼

半小时应该问不了啥实质内容，估计就简历问问，再几个behavior。你再准备几个问题
问他们

q*n2014-12-16 08:12

37 楼

忘了，第一题还问了t-test, significant什么的，不明白，没学过统计。

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候，老板让你把数据copy几次造成更多的数据，这样能不能提
: 高模型精确度，需要解释为何？
: 二是模型有2000个变量，有一半是假的，问如何甄别？
: 三他们公司一直是有退货率高的问题，问有没有什么idea如何用machine learning的办
: 法降低退货率。

c*12014-12-16 08:12

38 楼

谢谢分享！很有意思的题目

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候，老板让你把数据copy几次造成更多的数据，这样能不能提
: 高模型精确度，需要解释为何？
: 二是模型有2000个变量，有一半是假的，问如何甄别？
: 三他们公司一直是有退货率高的问题，问有没有什么idea如何用machine learning的办
: 法降低退货率。

c*12014-12-16 08:12

39 楼

不知道版上各位大牛对第三题有什么想法没？我有一个比较粗浅的想法，也不太肯定是
否make sense:建立一个数据库，退货率是其中一个variable，还有其他的varaible像
是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
regularized regression，选取其中显著的变量，然后进一步研究被选取变量和退货率
的关系。到了这一步多半得用business sense了。

s*h2014-12-16 08:12

40 楼

我的粗浅的想法：
如果客户基本不做重复购买，比如像亚马逊那种，退货和不退货就是binary的，有很多
方法可以搞。
如果是企业级客户，就用GLM的binomial试试？

【在 c********1 的大作中提到】

: 不知道版上各位大牛对第三题有什么想法没？我有一个比较粗浅的想法，也不太肯定是
: 否make sense:建立一个数据库，退货率是其中一个variable，还有其他的varaible像
: 是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
: regularized regression，选取其中显著的变量，然后进一步研究被选取变量和退货率
: 的关系。到了这一步多半得用business sense了。

q*n2014-12-16 08:12

41 楼

展开说说，这个太浮于水面了。

【在 s*********h 的大作中提到】

: 我的粗浅的想法：
: 如果客户基本不做重复购买，比如像亚马逊那种，退货和不退货就是binary的，有很多
: 方法可以搞。
: 如果是企业级客户，就用GLM的binomial试试？

L*t2014-12-16 08:12

42 楼

电面就问技术问题啊

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候，老板让你把数据copy几次造成更多的数据，这样能不能提
: 高模型精确度，需要解释为何？
: 二是模型有2000个变量，有一半是假的，问如何甄别？
: 三他们公司一直是有退货率高的问题，问有没有什么idea如何用machine learning的办
: 法降低退货率。

O*h2014-12-16 08:12

43 楼

请教一下，Q2的假变量指的是什么？dummy variable?

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候，老板让你把数据copy几次造成更多的数据，这样能不能提
: 高模型精确度，需要解释为何？
: 二是模型有2000个变量，有一半是假的，问如何甄别？
: 三他们公司一直是有退货率高的问题，问有没有什么idea如何用machine learning的办
: 法降低退货率。

q*n2014-12-16 08:12

44 楼

不是，就是建模型的时候本来需要比如说2000个变量，结果用了4000个，所以一半变量
其实用不着，问如何挑出这些来。

【在 O*********h 的大作中提到】

:
: 请教一下，Q2的假变量指的是什么？dummy variable?

O*h2014-12-16 08:12

45 楼

请问现在业内通常是如何选择的呢？
通常social science习惯用step-wise看每个variable对explained sum of squares的
贡献。按照这个case，MSS阀值以下的变量就被抛弃了。
抱歉歪了下楼：）我是social science出身，正在学习ML的term和校正对ML一些实现的
理解。

【在 q********n 的大作中提到】

: 不是，就是建模型的时候本来需要比如说2000个变量，结果用了4000个，所以一半变量
: 其实用不着，问如何挑出这些来。

O*h2014-12-16 08:12

46 楼

说下我对退货率问题的看法。既然是退货率，必然涉及退货，所以公司对退货cases的
了解有多深入？比如，哪些客户，买了哪些产品，期间是否受到recommendation
system的影响等等，组成的segment(s)比较容易退货？
基于上面的逻辑，先根据business sense做segmentation。对于和结果关联紧密的
segmentation可以直接汇报，或者进一步modeling drivers；不紧密的要么抛弃，要么
再细分。
顺便问一下，如果在这个case用neural network，可不可以理解为对数据先做数量未知
的segmentation，然后再研究/预测每个segment对return的影响？

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候，老板让你把数据copy几次造成更多的数据，这样能不能提
: 高模型精确度，需要解释为何？
: 二是模型有2000个变量，有一半是假的，问如何甄别？
: 三他们公司一直是有退货率高的问题，问有没有什么idea如何用machine learning的办
: 法降低退货率。

n*y2014-12-16 08:12

47 楼

我也在学统计，第一题我刚刚看书看到，跟大家交流一下，希望指正～
把数据copy几次得到更多数据，但是redundent数据，不能提供更多的信息。所以得到
的模型式子不变（y = a1x1 + a2x2 + ...），但是我们会误以为这个模型的
confidence level很高，也就是误以为参数ai的standard error很小，confident
interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant，现
在你会误以为它significant。
比如想知道全美男子的平均身高，但是只量了一个人科比，然后把data复制10000次。
看data的人发现哇靠量了10000人全是6'6"...

q*n2014-12-16 08:12

48 楼

正解，能说说看得哪本书么？我看过一些统计的书和资料，但总觉得没看到过这种的，
可能是看的书的类型不对？

【在 n*******y 的大作中提到】

: 我也在学统计，第一题我刚刚看书看到，跟大家交流一下，希望指正～
: 把数据copy几次得到更多数据，但是redundent数据，不能提供更多的信息。所以得到
: 的模型式子不变（y = a1x1 + a2x2 + ...），但是我们会误以为这个模型的
: confidence level很高，也就是误以为参数ai的standard error很小，confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant，现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高，但是只量了一个人科比，然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

A*t2014-12-16 08:12

49 楼

没错，如果只是把数据copy几遍来增加sample size，没有提供更多的信息。其实在
inference上也会得到一样的结果。如果是linear model的话，copy以后的data point
不再是独立，model assumption就不一样了。

【在 n*******y 的大作中提到】

: 我也在学统计，第一题我刚刚看书看到，跟大家交流一下，希望指正～
: 把数据copy几次得到更多数据，但是redundent数据，不能提供更多的信息。所以得到
: 的模型式子不变（y = a1x1 + a2x2 + ...），但是我们会误以为这个模型的
: confidence level很高，也就是误以为参数ai的standard error很小，confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant，现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高，但是只量了一个人科比，然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

c*22014-12-16 08:12

50 楼

第一题确实是point estimation不会变，想一想estimate parameter 用的 normal
equation就知道了。
但是confidence interval, hypothesis testing 会变，因为standard error里面分母
的n变成2n了，所以standard error变小了，更容易得到significant的结果，可能会增
加Type I error的概率。

A*t2014-12-16 08:12

51 楼

copy产生的数据要考虑correlation，比如简单的t test，算standard error得到的结
果是一样的。point estimate不变，hypothesis testing的结果也应该不变

b*h2014-12-16 08:12

52 楼

你面的啥职位？

【在 q********n 的大作中提到】

: 说是半小时，不知道能讲点什么？
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候，老板让你把数据copy几次造成更多的数据，这样能不能提
: 高模型精确度，需要解释为何？
: 二是模型有2000个变量，有一半是假的，问如何甄别？
: 三他们公司一直是有退货率高的问题，问有没有什么idea如何用machine learning的办
: 法降低退货率。

n*y2014-12-16 08:12

53 楼

我看的是an introduction to statistical learning with applications in R
http://pan.baidu.com/wap/link?uk=1765079087&shareid=2552203541&
这个书语言比较通俗，内容比较浅吧。我想看完了再看专业点的。。。
（科比不是这个书上讲的）
最好有网络课程就好了，我觉得浅显的书也不如听啊。大家知道有这方面的网络课程吗
？我看了一下coursera上JHU的statistical inference，全是数学，讲的不太好懂

【在 q********n 的大作中提到】

: 正解，能说说看得哪本书么？我看过一些统计的书和资料，但总觉得没看到过这种的，
: 可能是看的书的类型不对？

q*n2014-12-16 08:12

54 楼

data scientist 啊

【在 b********h 的大作中提到】

: 你面的啥职位？

w*22014-12-16 08:12

55 楼

请问，
二是模型有2000个变量，有一半是假的，问如何甄别？
能解释“假的”吗？是noisy吗？

q*n2014-12-16 08:12

56 楼

什么是 noisy？哪行的术语？

【在 w**2 的大作中提到】

: 请问，
: 二是模型有2000个变量，有一半是假的，问如何甄别？
: 能解释“假的”吗？是noisy吗？

k*g2014-12-16 08:12

57 楼

Q2用step-wise的F-test是最传统的统计方法吧？新手，请指正。

j*l2014-12-16 08:12

58 楼

网络课
http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

F*n2014-12-16 08:12

59 楼

这个要怒赞一把，太好了！我就看了三节课，立马明白上次面试为什么挂掉了。很久没
有这种听君一席话，胜读十年书的感觉了。

【在 j*******l 的大作中提到】

: 网络课
: http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

T*u2014-12-16 08:12

60 楼

我对q3的粗浅理解，两个方面，一个是针对客户/销售/marketing的，一个是针对产品/
process提高质量口味的。送儿子上学，回来说。

r*o2014-12-16 08:12

61 楼

zan!

【在 j*******l 的大作中提到】

: 网络课
: http://www.r-bloggers.com/in-depth-introduction-to-machine-lear

y*n2014-12-16 08:12

62 楼

没懂，为什么confidence level会变，样本的distribution不是没有没变吗？
如果这样能够改变confidence level？ Bootstrap怎么讲？
不太懂统计，求指教

【在 n*******y 的大作中提到】

: 我也在学统计，第一题我刚刚看书看到，跟大家交流一下，希望指正～
: 把数据copy几次得到更多数据，但是redundent数据，不能提供更多的信息。所以得到
: 的模型式子不变（y = a1x1 + a2x2 + ...），但是我们会误以为这个模型的
: confidence level很高，也就是误以为参数ai的standard error很小，confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant，现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高，但是只量了一个人科比，然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

s*t2014-12-16 08:12

63 楼

Q1:
year rate cor(year,rate)
fit1 = lm(rate~year)
summary(fit1)
year2 = rep(year, 100)
rate2 = rep(rate, 100)
cor(year2,rate2)
fit2 = lm(rate2~year2)
summary(fit2)
> summary(fit1)
Call:
lm(formula = rate ~ year)
Residuals:
1 2 3 4 5
0.132 -0.003 -0.178 -0.163 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1419.20800 126.94957 11.18 0.00153 **
year -0.70500 0.06341 -11.12 0.00156 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2005 on 3 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9684
F-statistic: 123.6 on 1 and 3 DF, p-value: 0.001559
> summary(fit2)
Call:
lm(formula = rate2 ~ year2)
Residuals:
Min 1Q Median 3Q Max
-0.178 -0.163 -0.003 0.132 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.419e+03 9.853e+00 144.0 <2e-16 ***
year2 -7.050e-01 4.922e-03 -143.2 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1556 on 498 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9763
F-statistic: 2.052e+04 on 1 and 498 DF, p-value: < 2.2e-16
So after copying the data for 100 times, the estimates remain the same, but
the std.error drops dramatically. And t value is much large, t-test is much
more significant.

h*e2014-12-16 08:12

64 楼

这个和bootstrap有啥不同？
谢谢

point

【在 A****t 的大作中提到】

: 没错，如果只是把数据copy几遍来增加sample size，没有提供更多的信息。其实在
: inference上也会得到一样的结果。如果是linear model的话，copy以后的data point
: 不再是独立，model assumption就不一样了。