主要内容
参考: 基于均值进行推断的条件
当我们想对一个比例进行推断(建立置信区间或做显著性检验)时,方法的准确性取决于几个条件。在对区间进行实际计算或检验之前,检查这些条件是否已满足非常重要,否则后面的计算和结论实际上并不有效。
对平均值进行推断需要的条件是:
- 随机:通过随机抽样或随机实验来获取数据。
- 正态:
(样本平均值)的样本分布需要近似正态。如果总体呈正态分布或样本量足够大 ,这一条件就满足。 - 独立:个体实测值需要是独立的。如果以没有替换的方式收集样本,样本大小不应该大于总体的
。
让我们更深入地看看每一个条件。
随机条件
随机样本给出了来自总体的无偏数据。如果没有随机选择,得到的数据通常会有某种形式的偏差,因此使用这些数据来推断总体的一些情况可能有风险。
更具体的说,样本平均值是对其总体平均值的公正估计。例如,有一袋乒乓球标着 到 ,所以总体平均值是 。我们可以用随机抽样来抓球并且算出每个样本的平均值。有些样本的平均值会高于 ,有些的值会低于 。但是平均下来,每个样本的平均值是 。我们将其写成 ,只要是随机抽样,这个等式就成立。
如果样本不是随机选择的,这种情况也不一定会发生。偏置样本会导致不正确的答案,所以我们不应该用它来创建置信区间或进行显著性检验。
正态条件
抽样分布的 (样本平均值)只在少数情况下近似正态。 的分布形状主要取决于总体的分布形状和样本量 。
第一种情况:总体呈正态分布
如果总体呈正态分布,则无论样本大小如何, 的采样分布都是近似正态的。因此, 如果我们知道总体是正态分布,即使样本量很小,这个条件也满足。然而实际上,我们通常不知道总体是否正态分布。
第二种情况:总体不呈正态分布或未知;样本量很大( )
只要样本量足够大, 的采样分布就近似正态分布。由于中心极限定理, 当 时,无论总体的形状如何,我们都可以将 的采样分布看作近似正态。
在少数罕见的情况下,总体具有非常特殊的形状,当样本量接近 时,样本平均值 的采样分布并不呈正态。这些情况很少见,因此实际上,当 时,我们通常可以放心地假设采样分布近似正态。
第三种情况:总体不呈正态分布或未知;样本量很小( )
只要总体没有异常值或严重的偏度,即使更小的样本也会产生近似正态的 抽样分布。在实践中,我们通常不知道总体的形状,但是我们可以根据样本中的数据分布来推断形状。如果样本中的数据有偏度或异常值,我们应该怀疑总体是否近似正态,因此 的抽样分布也可能不呈正态。但是,如果样本数据大致对称,没有出现异常值或强偏度,我们可以假设 的抽样分布近似正态。
主要的想法是当 时,我们要画出样本数据,然后根据样本数据来判断正态条件。
独立条件
要使用公式计算 的标准差,个体实测值观察需要是独立的。在实验中,好的设计通常会考虑到受试者之间的独立性(对照组、不同的处理方法、随机化)。
在一项没有替换抽样的观察性研究中,个体实测值严格上来说并不独立,因为去除每项实测值都会改变总体。然而, 条件表明,如果我们抽样总体的 或更少,就可以把个人实测值视为独立的,因为删除每个实测值不会对总体产生很大的影响。例如,如果样本量为 ,则总体量应至少为 ,才能满足独立条件。
假设观测之间的独立性允许我们在进行置信区间或进行显著性检验时使用此公式计算 的标准差:
我们一般不知道总体标准差 ,所以将样本标准差 作为替代 来估算出 。当我们这样做时,称之为 的标准误差,与标准差作区分。
所以 的标准误差是:
总结
如果这三个条件都得到满足,那么我们就可以使用 分布来进行置信区间或进行显著性检验。满足这些条件使计算更准确,结论更可靠。
随机条件也许是最重要的。如果不满足随机条件,数据中可能会有偏差。纠正有偏样本的唯一可靠方法是以无偏见的方式重新收集数据。
另外两个条件很重要,但如果无法满足正态或独立的条件,可能并不需要重新开始。例如,当抽样超过 的总体,有一种方法可以解决缺乏独立性这个问题,但它超出了我们现在学习的范围。
主要的想法是,在建立这些置信区间或进行显著性检验之前,必须验证特定条件是否满足。