真题大搜罗 | 2022年人大432真题解析与解读
第一题(20分)
30个学生对学校食堂满意度(0~100分)其中
男生:24,27,36,42,46,47,49,55,57,62,63,63,67,67,69,75,78,79,100 女生:29,28,39,52,58,63,67,72,76,77,85
请问你认为用什么描述统计方法分析合适?通过你可以得到什么样的结论?
解析
茎叶图
箱线图
直方图 概括性数字度量
结论
男生对食堂满意度的平均值、中位数均低于女生,可能意味着男生总体对食堂满意度平均水平不如女生总体。 男生对食堂满意度的四分位差、方差、标准差、变异系数均小于女生,可能意味着男生总体对食堂满意度的评价离散程度较低。 通过对箱线图与茎叶图的观察,进一步佐证了上述结论。除此之外,男生对食堂满意度的最值都比女生极端,极差大于女生。因此,可能意味着男生总体此次的抽样并不理想,代表性不佳。 男生的偏度系数为正,女生的为负,说明男生样本右偏,女生样本左偏,因此总体也可能具有相同的特点;男生的峰度系数大于0,但女生的峰度系数小于0,说明女生样本较男生样本分布更为平峰,因此总体也可能具有相同的特点。
学长解读
本题数据明确,分析目的清晰,需要使用描述统计方法进行分析。因此,我们不需要,也千万不能答出一些多余的假设检验的方法,写了必扣分!描述性统计的方法包括数据收集、预处理、图表概括、概括性数字度量,因此我们只需答出图表和概括性数字度量的方法就好,不必画蛇添足;此外,由于是描述性统计方法,除概括性数字度量外,并不能得出关于总体确定性语气极强的论断,因此措辞上规避强确定性的表述。
第二题(15分)
设二维随机变量(X,Y)的联合密度函数为
确定常数A,并求概率,,
解析
根据概率的正则性,有:
因此
所以
学长解读
普通数三题,细心即可;
第三题(15分)
设总体X有密度函数
已知 是来自总体的一个样本,证明的矩估计
是的一致估计量
解析
因为
所以
又因为诸独立同分布
所以
所以
根据相合性的判定条件,是的相合估计。
构造一个的函数,易知,该函数在上连续。
因为相合估计的函数仍是相合估计
所以
是的相合估计,化简后即为的相合估计
学长解读
这个题是个拉分题,需要用到两个茆书数理统计关于相合性的定理,先证明样本均值的相合性,再证明样本均值变换的函数连续的,最后利用相合估计的连续函数亦是相合的,即可得证。
第四题(20分)
采用随机抽样估计某有限总体的均值。总体规模为,样本容量。请分别推导放回简单抽样与不放回简单随机抽样的所有可能样本均值的估计量方差,并进行比较分析。
解析
设总体均值为:
总体方差为:
样本均值为:
样本方差为:
(1)放回场合
放回场合下,每次抽出的个体都是独立同分布的,而每个单位的方差就可以当成总体方差代入计算。因此
(2)不放回场合
不放回场合下,每次抽样的个体都是不独立的,因此不妨构造一个抽样哑变量:
由于对于每个总体单位而言,要么入样成为,要么不入样。因此,
这种情况下,我们可视为诸是确定的非随机的,而哑变量是随机的。我们不妨先探索的性质。由于诸的地位实质上是对等的,因此诸是同分布的。对于
又一共有n个单位入样,因此
不妨令
则
再考虑两个总体中不同单位,他们同时入样,意味着固定这两个单位后,只有个单位可以被随机选入个剩余的样本中。如此,他们同时入样的概率为:
因此
到此为止,我们便可求出不放回场合的样本均值方差:
又对总体方差展开,得:
代入上式,得到:
(3)两者比较 简单对比后可以发现:
两者都是总体方差乘以一定系数修饰后的结果;前者乘的是,但后者乘的是。由于,f介于0,1之间,因此1-f小于1,所以不放回抽样的样本方差,总是小于放回抽样的样本方差。这意味着相同样本量的场合下,放回抽样比不放回抽样的具有更高的估计精度。 同时,随着n的增大,f也增大,1-f减小,因此,增大样本量,放回抽样的样本方差和不放回抽样的样本方差均单调减小。 当样本量n增大到N时,不放回样本方差缩小至0且不可继续减小,但是放回样本方差并不能缩减至0;随着样本量趋于无穷,放回样本方差才趋于0。
学长解读
放回简单随机抽样,就是数理统计学中“一点多次”式的抽样,每个单位独立同分布,而不放回随机抽样,就是抽样调查中的“一次多点”式的抽样,每个单位不独立,需要人为构造抽样的哑变量完成估计,这就是抽样理论的核心定理。
第五题(25分)
回归系数 | 标准误差 | |
---|---|---|
截距项 | 2.100 | 0.258 |
价格 | -0.304 | +0.178 |
品牌-华为 | 1.218 | 0.233 |
品牌-苹果 | 2.133 | 0.557 |
有促销 | 1.385 | 0.278 |
品牌-华为*有促销 | -0.327 | 0.067 |
品牌-苹果*没有促销 | 0.419 | 0.141 |
n=500台,因变量为电脑销量(万台),建立自变量价格(万元),品牌(三个水平,华为,苹果,其他),促销(有两个水平,有促销,无促销)的多元线性回归模型。并在模型中考虑了品牌与促销活动的交互效应。
请根据检验结果评估对的影响。要求写出完整的假设检验步骤。
解析
1)理论回归模型
不妨令
以其他品牌作为品牌变量的基准水平;
再令
以无促销作为基准水平;
令表示价格。由此,可以表示据此构建的理论回归模型
其中是对应的回归系数,是随机误差项。
(2)回归系数的假设检验
建立原假设:
构造检验统计量:
根据给定的显著性水平,确定拒绝域具体形式:
计算具体样本检验统计量具体取值,并且进行判断
此题中,我们令显著性水平为0.05与0.1,则
3)解释影响
当显著性水平为0.05时,除价格对应给回归系数未通过显著性检验外,其余系数均通过显著性检验,这说明价格对电脑销量的影响不明显,电脑品牌是否是华为或者苹果都相对于其他品牌对销量有显著性影响,有促销相对于无促销对销量有显著性影响,华为有促销相对于单纯华为品牌,或者单纯促销行为,都有显著不同的影响。(考场中如果有时间,可以结合具体的系数样本估计值,答出每个变量对销量的影响)
学长解读
这道题是一道考察回归系数意义与其估计量显著性检验的问题。我们首先应写出回归的理论模型,尤其注意哑变量的处理,再据此答出回归系数的具体意义,最后也是比较麻烦的是,我们应该不仅要写出完整的回归系数估计显著性检验的完整步骤,还需要对每个系数的显著性进行分别的解释说明,这需要我们用表格或者递推式的形式写出各个系数检验对应的步骤。
第六题(20分)
请问平稳性在时间序列中的意义?请问写出MA(q)模型的完整形式,说明该模型是否平稳,并给出可逆条件。MA(2)模型:
请将其改写成AR模型。
解析
1)平稳性的含义
a)由于序列各项均值相等,可以用各期均值作为总体均值的估计,减少待估参数,提高估计精度。
b)由于序列自协方差函数与自相关函数与起始位置无关,仅与间隔有关,因此可以利用样本的自相关函数估计总体各期自相关函数,并据此确定平稳时间序列的ARMA模型的口径。尤其特殊的,我们可以利用样本0阶自相关函数,估计总体方差。
2)MA(q)的完整形式
对某一随机序列,应有:
其中应有
3)关于的平稳性 任意正整数阶的MA模型都应当平稳,原因是其自回归方程为,特征根恒为0,必在单位圆内,因此MA模型必平稳。
4)
方法一:逆函数法
不妨令,为该MA(2)的移动平均系数多项式,易知根据逆函数的公式,该模型的逆函数为:
使得
所以
当时,有
所以
所以
所以
经检验亦服从上式
因此,原的逆转形式为:
方法二:直接泰勒展开法:
不妨令,为该MA(2)的移动平均系数多项式,易知因此,
并将之视为关于B的函数。由于B=0时原式收敛,所以,直接在B=0处泰勒展开,得:
即为原MA(2)的逆转形式。
学长解读
时间序列题目当中基础题型,这要求我们不仅要背熟ARMA模型的定义、基本假设,还要会背Green函数和逆函数。同时,题干中要求回答平稳性在时序分析中的含义,而非定义!所以答了定义没什么用的!必须要答出拥有平稳性条件对估计的改善才能得分!另外,Green函数与逆函数法是一种通用情况下追求一般解的公式方法,对于低阶场合,我们仍然可以使用“捷径”,利用数三中级数展开的方法,直接对移动平均系数多项式变换后进行泰勒展开,从而直接得到答案。不过这种方法需要说明延迟算子在B=0处展开收敛,不说的话多少会扣一点分。两种方法均呈现在解答过程中。
第七题(15分)
已知五个样本点两两间的距离矩阵如下:
用系统聚类法对五个样本点进行聚类,类间距离采用最短距离法,并画出谱系聚类图。
解析
根据最短距离法,初始距离矩阵中,1、4类距离最短,为1,故合并之,并得到下一步距离矩阵
第二步中,中最小的非零元素是3,因此合并2,5,并对得到
第三步中,中最小的非零元素是4,因此合并(1,4)(2,5),并对得到
最后,中最小的非零元素为6,故合并与
谱系聚类图
学长解读
这道题有力地展现了人大向“背诵型”选手说不的决心。单纯考察多元统计方法的思想与步骤的时代已经过去了,以后年年都至少会出现一道多元或者抽样部分的证明或计算。聚类的时候注意距离矩阵的运算,个体相似性指标的定义与类间距离的定义,以及很多同学忽视的谱系聚类图的绘制。(注意要用尺子严格按照聚类距离比例去画谱系图)
第八题(20分)
在建立多元线性回归模型进行数据分析时,对数据进行“标准化”是一种常用的做法,请问为什么需要进行数据标准化?标准化的具体步骤是什么?请证明标准化回归系数和原始回归系数之间的关系,并阐述如何解读标准化回归系数?
解析
标准化的原因
防止因为量纲和数量级差异过大,导致资料矩阵多重共线性 减少因为数量级过大,而导致计算时产生过大的舍入误差 标准化后不同的回归系数可以用于比较对应的自变量对因变量影响的相对重要性。
标准化的具体步骤
有两种方法对原始数据进行变换:
a)
其中
b)
此后,再进行建立回归方程。
标准化回归系数和原始回归系数之间的关系
不论是以上哪种情况,回归系数都满足以下关系
并且没有常数项。
原始经验回归方程有:
由于经验回归方程过数据点的重心,即:
原式减上式,得
因此:
或
因此得证
的意义:在其他自变量不变的情况下,自变量相对于(或者)变化1%,因变量均值相对于(或者)变化。
学长解读
回归时数据的标准化是个细节知识点,确实容易弄混。不要自以为是地把中心化、0-1正则化的东西答上去,多答无用的知识会扣分的。尤其要注意不同的书上有不同的标准化定义方法,答出任意一种即可。
推荐
小统微信
扫一扫,添加官方微信号小统,备注考研院校,邀你加入相应院校的交流群:
微信扫码关注该文公众号作者