t检验:
目的:在样本中比较连续变量的平均数,以检验均值之间的差异是否大于能被机遇所解释的差异。
样本均值有差异,总体之间确实存在差异的概率是多少?
包括单样本t检验、独立样本t检验、配对样本t检验,都是用来通过样本均值对总体均值的推断检验。
适用于小样本的检验方法,当样本较小时(50以下),服从t分布;样本量较大时近似服从正态分布。在实际应用中,主要适用在两组样本的均值比较中。
某个变量的样本均数与给定总体的已知均数相比,其差异是否有显著。
数据要求:小样本时来自的总体服从正态分布,如果大样本或者是数据收集的时候没有 特殊性,可以忽略正态分布的假设。
提出零假设:
- 总体均值与检验值之间不存在显著差异(样本均值所引起的差异是抽样误差引起的)
选择检验统计量
假设总体分布服从正态分布,方差已知时,构造Z统计量;方差未知时,构造t统计量
计算检验统计量观测值和概率P值
给出显著性水平,并作出决策
- 如果该P值太小,成为了我们所定义的小概率事件(小于等于α水准),则我们怀疑所做的假设不成立,从而拒绝H0。
- 反之,我们就不能拒绝H0。
1)单样本t检验:用来检验样本中某个连续变量的均值与给定的总体均值是否存在差异。
原假设:样本来自总体的该变量均值与给定均值之间没有显著差异。
研究假设:样本来自总体的该变量均值与给定均值之间有显著差异。
当p<0.05,则研究假设成立。
用到的变量:一个连续变量
操作:分析-比较平均值-单样本t检验
独立样本均值t检验:
根据两独立样本的数据,对两总体均值是否有显著差异进行推断 。
例:
某证券公司调查到到散户股民买进、卖出和投资的有关数据,要检验文化程度高的股民和文化程度低的股民各项指标的均值有无不同
数据要求:样本来自的总体服从正态分布 。
两样本必须相互独立,即:抽取其中一批样本对抽取另一批样本没有任何影响,两组样本的个案数可以不相等
要求两样本是大样本,小样本则必须来自正态总体
提出原假设:两样本的总体均值没有显著差异
进行方差齐性检验:在两样本的总体均值方差未知的情况下计算t值
根据t值对应的P值,得出结论
方差齐性检验
是用来检验不同组的总体方差是否相等。
在一些统计推断的过程,要求进行比较的两组或多组数据的方差相等,即要求方差齐性,如均值比较、方差分析 。
方差齐性检验的方法
- Hartley检验、Cochran检验、Bartlett检验和Levene检验,前三者对样本数据有正态分布的要求,但是Levene检验则没有这种要求,也是最常用的一种方法。
- 独立样本t检验
用来检验两组独立样本在某个连续变量的均值是否有显著差异。
原假设:两组独立样本来自的总体在该变量的均值上没有显著差异
研究假设:两组独立样本来自的总体在该变量的均值上有显著差异
用到的变量:一个连续变量和一个分类变量(也可以将连续变量进行分组得到一个分类变量)
配对样本均值t检验
是指对同一样本进行两次测试所获得的两组数据,或对两个完全相同的样本在不同条件下进行测试所得的两组数据。
例:某种减肥茶是否有效
数据要求:
两样本数据必须两两配对,即:样本个数相同,个案顺序相同,如减肥茶效果、不同广告形式对 销售额的影响。
两总体服从正态分布(小样本情况下),样本容量>30的情况下,且数据收集是随机的,可以认为服从正态分布
思路:先求出每对观测值的差,再将差值与总体均数0比较的t检验。
操作:分析-比较平均值-独立样本t检验
- 配对样本t检验
用来检验同一组样本不同时间/部位/处理条件测量得到的两组数据均值是否存在差异。
原假设:两组配对数据之间没有显著差异。
研究假设:两组配对数据之间有显著差异。
变量:两个连续变量(其实是针对同一组人群不同时间/部位/处理条件测量的两组数据)
操作:分析-比较平均值-成对样本t检验
F检验/方差检验/ANOVA
对3个以上的组之间的平均值的差进行比较,从统计学意义上判断是否有显著差异,用来揭示作用于一个因变量的几个分类自变量(称为因素)的主效应和交互效应。
变量:自变量既可以是分类也可以是连续变量,因变量必须是连续变量
需在两个前提成立下才能使用:1.变量各总体服从正态分布(数据进行方差检验前需检验分布情况),2.变量各总体方差相同(数据进行方差检验前需做方差齐性检验)。通常是针对自变量是分类变量,因变量是连续变量进行的检验。
原理:
第一步,计算组内、组间、随机因素的数据差异程度;
第二步,计算组间数据差异程度占观测变量(因变量)数据总差异的比例,与组内差异、随机因素的差异占比之间的大小关系。
SST=SSA+SSE,SST为观测变量总离差平方和,SSA为组间离差平方和,SSE为组内离差平方和。
1单因素方差检验
检验3组及以上人群在某个连续变量均值上是否存在差异,或某个分类变量对某个连续变量是否存在显著相关
变量:因变量是一个,且为连续变量;自变量是一个,为分类变量;
原假设:自变量与因变量之间不存在显著相关(不同人群之间在该连续变量的均值上没有显著差异)
研究假设:自变量与因变量之间存在显著相关(不同人群之间在该连续变量的均值上有显著差异)
操作:分析-比较平均值-单因素ANOVA检验
1)两两比较中根据方差齐性检验结果,来选择方差相等的比较结果或方差不等的检验结果。
2)方差齐性检验:选项-方差齐性检验。当方差不齐时,则通过非参数检验中的k个独立样本检验法进行检验
2多因素方差检验
检验多个连续变量均值上是否存在差异,或多个变量对某个连续变量是否存在显著相关
变量:因变量是一个,且为连续变量;自变量是多个,既可以是分类变量也可以是连续变量
原假设:多个自变量与因变量之间不存在显著相关
研究假设:多个自变量与因变量之间存在显著相关
全因子模型:既考虑所有变量对于因变量直接效应,有考虑所有分类变量的交互作用对因变量的影响。
定制模型:可根据研究者自身需求,定制需要考虑的对因变量的影响因素。比如:只考虑自变量的直接效应,或部分自变量的交互作用。
当自变量特别多时,尤其是分类自变量特别多时,且样本量不多时,应该使用定制模型。