Redian新闻
>
大家电话面试都怎么准备的啊
avatar
大家电话面试都怎么准备的啊# DataSciences - 数据科学
I*d
1
住费城,但是好像没看见费城有婚纱摄影师,就想最远的纽约也可以。我们不打算婚礼
,就是简单的外
景婚纱照。请问有好的摄影师可以推荐吗?
还有啊,如果拍婚纱照,请问婚纱是自己准备还是摄影工作室提供呢?还有化妆之类的
也是自己需要准
备吗?
感谢!
avatar
q*n
2
说是半小时,不知道能讲点什么?
一个小的网上购物公司
avatar
R*u
3
在这里,找摄影师都是只管照相,一般情侣在订婚后,会排engagement photo,穿便装
。然后在婚礼的当天,在ceremony前,会穿婚纱拍,婚纱是自己买,化妆师也是另找的
。一般engagment photos和ceremony是找一个摄影师。
如果你想排中国式的婚纱照,纽约的中国城里有很多是可以拍得,他们会提供婚纱和化
妆。
avatar
t*g
4
看下job description, 有针对性做下准备
自己的简历过几遍,想想怎么介绍自己做的projects等
avatar
g*x
5
来NY的话,我可以帮你拍外景,就是服装化妆得自己解决

【在 I**********d 的大作中提到】
: 住费城,但是好像没看见费城有婚纱摄影师,就想最远的纽约也可以。我们不打算婚礼
: ,就是简单的外
: 景婚纱照。请问有好的摄影师可以推荐吗?
: 还有啊,如果拍婚纱照,请问婚纱是自己准备还是摄影工作室提供呢?还有化妆之类的
: 也是自己需要准
: 备吗?
: 感谢!

avatar
c*h
6
半小时应该问不了啥实质内容,估计就简历问问,再几个behavior。你再准备几个问题
问他们
avatar
q*n
7
忘了,第一题还问了t-test, significant什么的,不明白,没学过统计。

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司

avatar
c*1
8
谢谢分享!很有意思的题目

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司

avatar
c*1
9
不知道版上各位大牛对第三题有什么想法没?我有一个比较粗浅的想法,也不太肯定是
否make sense:建立一个数据库,退货率是其中一个variable,还有其他的varaible像
是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
regularized regression,选取其中显著的变量,然后进一步研究被选取变量和退货率
的关系。到了这一步多半得用business sense了。
avatar
s*h
10
我的粗浅的想法:
如果客户基本不做重复购买,比如像亚马逊那种,退货和不退货就是binary的,有很多
方法可以搞。
如果是企业级客户,就用GLM的binomial试试?

【在 c********1 的大作中提到】
: 不知道版上各位大牛对第三题有什么想法没?我有一个比较粗浅的想法,也不太肯定是
: 否make sense:建立一个数据库,退货率是其中一个variable,还有其他的varaible像
: 是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
: regularized regression,选取其中显著的变量,然后进一步研究被选取变量和退货率
: 的关系。到了这一步多半得用business sense了。

avatar
q*n
11
展开说说,这个太浮于水面了。

【在 s*********h 的大作中提到】
: 我的粗浅的想法:
: 如果客户基本不做重复购买,比如像亚马逊那种,退货和不退货就是binary的,有很多
: 方法可以搞。
: 如果是企业级客户,就用GLM的binomial试试?

avatar
L*t
12
电面就问技术问题啊

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司

avatar
O*h
13

请教一下,Q2的假变量指的是什么?dummy variable?

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司

avatar
q*n
14
不是,就是建模型的时候本来需要比如说2000个变量,结果用了4000个,所以一半变量
其实用不着,问如何挑出这些来。

【在 O*********h 的大作中提到】
:
: 请教一下,Q2的假变量指的是什么?dummy variable?

avatar
O*h
15
请问现在业内通常是如何选择的呢?
通常social science习惯用step-wise看每个variable对explained sum of squares的
贡献。按照这个case,MSS阀值以下的变量就被抛弃了。
抱歉歪了下楼:)我是social science出身,正在学习ML的term和校正对ML一些实现的
理解。

【在 q********n 的大作中提到】
: 不是,就是建模型的时候本来需要比如说2000个变量,结果用了4000个,所以一半变量
: 其实用不着,问如何挑出这些来。

avatar
O*h
16
说下我对退货率问题的看法。既然是退货率,必然涉及退货,所以公司对退货cases的
了解有多深入?比如,哪些客户,买了哪些产品,期间是否受到recommendation
system的影响等等,组成的segment(s)比较容易退货?
基于上面的逻辑,先根据business sense做segmentation。对于和结果关联紧密的
segmentation可以直接汇报,或者进一步modeling drivers;不紧密的要么抛弃,要么
再细分。
顺便问一下,如果在这个case用neural network,可不可以理解为对数据先做数量未知
的segmentation,然后再研究/预测每个segment对return的影响?

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司

avatar
n*y
17
我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
confidence level很高,也就是误以为参数ai的standard error很小,confident
interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
在你会误以为它significant。
比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
看data的人发现哇靠量了10000人全是6'6"...
avatar
q*n
18
正解,能说说看得哪本书么?我看过一些统计的书和资料,但总觉得没看到过这种的,
可能是看的书的类型不对?

【在 n*******y 的大作中提到】
: 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
: 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
: 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
: confidence level很高,也就是误以为参数ai的standard error很小,confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

avatar
A*t
19
没错,如果只是把数据copy几遍来增加sample size,没有提供更多的信息。其实在
inference上也会得到一样的结果。如果是linear model的话,copy以后的data point
不再是独立,model assumption就不一样了。

【在 n*******y 的大作中提到】
: 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
: 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
: 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
: confidence level很高,也就是误以为参数ai的standard error很小,confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

avatar
c*2
20
第一题确实是point estimation不会变,想一想estimate parameter 用的 normal
equation就知道了。
但是confidence interval, hypothesis testing 会变,因为standard error里面分母
的n变成2n了,所以standard error变小了,更容易得到significant的结果,可能会增
加Type I error的概率。
avatar
A*t
21
copy产生的数据要考虑correlation,比如简单的t test, 算standard error得到的结
果是一样的。point estimate不变,hypothesis testing的结果也应该不变
avatar
b*h
22
你面的啥职位?

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司

avatar
n*y
23
我看的是an introduction to statistical learning with applications in R
http://pan.baidu.com/wap/link?uk=1765079087&shareid=2552203541&
这个书语言比较通俗,内容比较浅吧。我想看完了再看专业点的。。。
(科比不是这个书上讲的)
最好有网络课程就好了,我觉得浅显的书也不如听啊。大家知道有这方面的网络课程吗
?我看了一下coursera上JHU的statistical inference,全是数学,讲的不太好懂

【在 q********n 的大作中提到】
: 正解,能说说看得哪本书么?我看过一些统计的书和资料,但总觉得没看到过这种的,
: 可能是看的书的类型不对?

avatar
q*n
24
data scientist 啊

【在 b********h 的大作中提到】
: 你面的啥职位?
avatar
w*2
25
请问,
二是模型有2000个变量,有一半是假的,问如何甄别?
能解释“假的”吗?是noisy吗?
avatar
q*n
26
什么是 noisy?哪行的术语?

【在 w**2 的大作中提到】
: 请问,
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 能解释“假的”吗?是noisy吗?

avatar
k*g
27
Q2用step-wise的F-test是最传统的统计方法吧?新手,请指正。
avatar
T*u
30
我对q3的粗浅理解,两个方面,一个是针对客户/销售/marketing的,一个是针对产品/
process提高质量口味的。送儿子上学,回来说。
avatar
y*n
32
没懂,为什么confidence level会变,样本的distribution不是没有没变吗?
如果这样能够改变confidence level? Bootstrap怎么讲?
不太懂统计,求指教

【在 n*******y 的大作中提到】
: 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
: 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
: 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
: confidence level很高,也就是误以为参数ai的standard error很小,confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

avatar
s*t
33
Q1:
year rate cor(year,rate)
fit1 = lm(rate~year)
summary(fit1)
year2 = rep(year, 100)
rate2 = rep(rate, 100)
cor(year2,rate2)
fit2 = lm(rate2~year2)
summary(fit2)
> summary(fit1)
Call:
lm(formula = rate ~ year)
Residuals:
1 2 3 4 5
0.132 -0.003 -0.178 -0.163 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1419.20800 126.94957 11.18 0.00153 **
year -0.70500 0.06341 -11.12 0.00156 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2005 on 3 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9684
F-statistic: 123.6 on 1 and 3 DF, p-value: 0.001559
> summary(fit2)
Call:
lm(formula = rate2 ~ year2)
Residuals:
Min 1Q Median 3Q Max
-0.178 -0.163 -0.003 0.132 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.419e+03 9.853e+00 144.0 <2e-16 ***
year2 -7.050e-01 4.922e-03 -143.2 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1556 on 498 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9763
F-statistic: 2.052e+04 on 1 and 498 DF, p-value: < 2.2e-16
So after copying the data for 100 times, the estimates remain the same, but
the std.error drops dramatically. And t value is much large, t-test is much
more significant.
avatar
q*n
34
说是半小时,不知道能讲点什么?
一个小的网上购物公司
---------------------------------
一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
高模型精确度,需要解释为何?
二是模型有2000个变量,有一半是假的,问如何甄别?
三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
法降低退货率。
avatar
t*g
35
看下job description, 有针对性做下准备
自己的简历过几遍,想想怎么介绍自己做的projects等
avatar
c*h
36
半小时应该问不了啥实质内容,估计就简历问问,再几个behavior。你再准备几个问题
问他们
avatar
q*n
37
忘了,第一题还问了t-test, significant什么的,不明白,没学过统计。

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
: 高模型精确度,需要解释为何?
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
: 法降低退货率。

avatar
c*1
38
谢谢分享!很有意思的题目

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
: 高模型精确度,需要解释为何?
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
: 法降低退货率。

avatar
c*1
39
不知道版上各位大牛对第三题有什么想法没?我有一个比较粗浅的想法,也不太肯定是
否make sense:建立一个数据库,退货率是其中一个variable,还有其他的varaible像
是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
regularized regression,选取其中显著的变量,然后进一步研究被选取变量和退货率
的关系。到了这一步多半得用business sense了。
avatar
s*h
40
我的粗浅的想法:
如果客户基本不做重复购买,比如像亚马逊那种,退货和不退货就是binary的,有很多
方法可以搞。
如果是企业级客户,就用GLM的binomial试试?

【在 c********1 的大作中提到】
: 不知道版上各位大牛对第三题有什么想法没?我有一个比较粗浅的想法,也不太肯定是
: 否make sense:建立一个数据库,退货率是其中一个variable,还有其他的varaible像
: 是商品的相关信息和客户的相关信息。以退货率之外的其他所有变量对退货率做一个
: regularized regression,选取其中显著的变量,然后进一步研究被选取变量和退货率
: 的关系。到了这一步多半得用business sense了。

avatar
q*n
41
展开说说,这个太浮于水面了。

【在 s*********h 的大作中提到】
: 我的粗浅的想法:
: 如果客户基本不做重复购买,比如像亚马逊那种,退货和不退货就是binary的,有很多
: 方法可以搞。
: 如果是企业级客户,就用GLM的binomial试试?

avatar
L*t
42
电面就问技术问题啊

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
: 高模型精确度,需要解释为何?
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
: 法降低退货率。

avatar
O*h
43

请教一下,Q2的假变量指的是什么?dummy variable?

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
: 高模型精确度,需要解释为何?
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
: 法降低退货率。

avatar
q*n
44
不是,就是建模型的时候本来需要比如说2000个变量,结果用了4000个,所以一半变量
其实用不着,问如何挑出这些来。

【在 O*********h 的大作中提到】
:
: 请教一下,Q2的假变量指的是什么?dummy variable?

avatar
O*h
45
请问现在业内通常是如何选择的呢?
通常social science习惯用step-wise看每个variable对explained sum of squares的
贡献。按照这个case,MSS阀值以下的变量就被抛弃了。
抱歉歪了下楼:)我是social science出身,正在学习ML的term和校正对ML一些实现的
理解。

【在 q********n 的大作中提到】
: 不是,就是建模型的时候本来需要比如说2000个变量,结果用了4000个,所以一半变量
: 其实用不着,问如何挑出这些来。

avatar
O*h
46
说下我对退货率问题的看法。既然是退货率,必然涉及退货,所以公司对退货cases的
了解有多深入?比如,哪些客户,买了哪些产品,期间是否受到recommendation
system的影响等等,组成的segment(s)比较容易退货?
基于上面的逻辑,先根据business sense做segmentation。对于和结果关联紧密的
segmentation可以直接汇报,或者进一步modeling drivers;不紧密的要么抛弃,要么
再细分。
顺便问一下,如果在这个case用neural network,可不可以理解为对数据先做数量未知
的segmentation,然后再研究/预测每个segment对return的影响?

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
: 高模型精确度,需要解释为何?
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
: 法降低退货率。

avatar
n*y
47
我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
confidence level很高,也就是误以为参数ai的standard error很小,confident
interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
在你会误以为它significant。
比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
看data的人发现哇靠量了10000人全是6'6"...
avatar
q*n
48
正解,能说说看得哪本书么?我看过一些统计的书和资料,但总觉得没看到过这种的,
可能是看的书的类型不对?

【在 n*******y 的大作中提到】
: 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
: 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
: 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
: confidence level很高,也就是误以为参数ai的standard error很小,confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

avatar
A*t
49
没错,如果只是把数据copy几遍来增加sample size,没有提供更多的信息。其实在
inference上也会得到一样的结果。如果是linear model的话,copy以后的data point
不再是独立,model assumption就不一样了。

【在 n*******y 的大作中提到】
: 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
: 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
: 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
: confidence level很高,也就是误以为参数ai的standard error很小,confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

avatar
c*2
50
第一题确实是point estimation不会变,想一想estimate parameter 用的 normal
equation就知道了。
但是confidence interval, hypothesis testing 会变,因为standard error里面分母
的n变成2n了,所以standard error变小了,更容易得到significant的结果,可能会增
加Type I error的概率。
avatar
A*t
51
copy产生的数据要考虑correlation,比如简单的t test, 算standard error得到的结
果是一样的。point estimate不变,hypothesis testing的结果也应该不变
avatar
b*h
52
你面的啥职位?

【在 q********n 的大作中提到】
: 说是半小时,不知道能讲点什么?
: 一个小的网上购物公司
: ---------------------------------
: 一是问了regression的时候,老板让你把数据copy几次造成更多的数据,这样能不能提
: 高模型精确度,需要解释为何?
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 三他们公司一直是有退货率高的问题,问有没有什么idea如何用machine learning的办
: 法降低退货率。

avatar
n*y
53
我看的是an introduction to statistical learning with applications in R
http://pan.baidu.com/wap/link?uk=1765079087&shareid=2552203541&
这个书语言比较通俗,内容比较浅吧。我想看完了再看专业点的。。。
(科比不是这个书上讲的)
最好有网络课程就好了,我觉得浅显的书也不如听啊。大家知道有这方面的网络课程吗
?我看了一下coursera上JHU的statistical inference,全是数学,讲的不太好懂

【在 q********n 的大作中提到】
: 正解,能说说看得哪本书么?我看过一些统计的书和资料,但总觉得没看到过这种的,
: 可能是看的书的类型不对?

avatar
q*n
54
data scientist 啊

【在 b********h 的大作中提到】
: 你面的啥职位?
avatar
w*2
55
请问,
二是模型有2000个变量,有一半是假的,问如何甄别?
能解释“假的”吗?是noisy吗?
avatar
q*n
56
什么是 noisy?哪行的术语?

【在 w**2 的大作中提到】
: 请问,
: 二是模型有2000个变量,有一半是假的,问如何甄别?
: 能解释“假的”吗?是noisy吗?

avatar
k*g
57
Q2用step-wise的F-test是最传统的统计方法吧?新手,请指正。
avatar
T*u
60
我对q3的粗浅理解,两个方面,一个是针对客户/销售/marketing的,一个是针对产品/
process提高质量口味的。送儿子上学,回来说。
avatar
y*n
62
没懂,为什么confidence level会变,样本的distribution不是没有没变吗?
如果这样能够改变confidence level? Bootstrap怎么讲?
不太懂统计,求指教

【在 n*******y 的大作中提到】
: 我也在学统计,第一题我刚刚看书看到,跟大家交流一下,希望指正~
: 把数据copy几次得到更多数据,但是redundent数据,不能提供更多的信息。所以得到
: 的模型式子不变(y = a1x1 + a2x2 + ...),但是我们会误以为这个模型的
: confidence level很高,也就是误以为参数ai的standard error很小,confident
: interval很窄。可能本来一个参数会在hypothesis test里边被认为insignificant,现
: 在你会误以为它significant。
: 比如想知道全美男子的平均身高,但是只量了一个人科比,然后把data复制10000次。
: 看data的人发现哇靠量了10000人全是6'6"...

avatar
s*t
63
Q1:
year rate cor(year,rate)
fit1 = lm(rate~year)
summary(fit1)
year2 = rep(year, 100)
rate2 = rep(rate, 100)
cor(year2,rate2)
fit2 = lm(rate2~year2)
summary(fit2)
> summary(fit1)
Call:
lm(formula = rate ~ year)
Residuals:
1 2 3 4 5
0.132 -0.003 -0.178 -0.163 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1419.20800 126.94957 11.18 0.00153 **
year -0.70500 0.06341 -11.12 0.00156 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2005 on 3 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9684
F-statistic: 123.6 on 1 and 3 DF, p-value: 0.001559
> summary(fit2)
Call:
lm(formula = rate2 ~ year2)
Residuals:
Min 1Q Median 3Q Max
-0.178 -0.163 -0.003 0.132 0.212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.419e+03 9.853e+00 144.0 <2e-16 ***
year2 -7.050e-01 4.922e-03 -143.2 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1556 on 498 degrees of freedom
Multiple R-squared: 0.9763, Adjusted R-squared: 0.9763
F-statistic: 2.052e+04 on 1 and 498 DF, p-value: < 2.2e-16
So after copying the data for 100 times, the estimates remain the same, but
the std.error drops dramatically. And t value is much large, t-test is much
more significant.
avatar
h*e
64
这个和bootstrap有啥不同?
谢谢

point

【在 A****t 的大作中提到】
: 没错,如果只是把数据copy几遍来增加sample size,没有提供更多的信息。其实在
: inference上也会得到一样的结果。如果是linear model的话,copy以后的data point
: 不再是独立,model assumption就不一样了。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。