主要内容
参考: 基于比例进行推断的条件
当我们想对一个比例进行推断(建立置信区间或做显著性检验)时,我们方法的准确性取决于几个条件。在对区间进行实际计算或测试之前,先检查这些条件是否已满足是非常重要的,否则下面的计算和结论实际上并不有效。
我们对一个比例进行推断需要的条件是:
- 随机:数据需要来自随机抽样或随机试验。
- 正态:
的采样分布需要近似正态 — 需要至少 次预期成功和 次预期失败。 - 独立:个体实测值需要是独立的。如果是没有替换的采样,采样大小不应该大于总体的
。
让我们更深入地看看每一个条件。
随机条件
随机样本可以从总体中得到无偏数据。当样本不是随机选择时,数据通常会有某种形式的偏差,因此使用未随机选择的数据来推断其总体情况可能会有风险。
更具体的说,抽样比例是对其总体比例的公正估计。比如,如果有一袋糖果,其中 是橙色的,我们从袋子中随机抽取多个样本,一些样本将有超过 是橙色,而且一些样本中橙色少于 。但是平均来看,每个样本中的橙色糖果比例将等于 。我们将其写成 ,只要抽样是随机的,这个等式就成立。
不过,如果样本不是随机选择的,这种情况也不一定会发生。偏置样本会导致不准确的结果,因此不应使用它们来创建置信区间或进行显著性检验。
正态条件
只要预期成功次数和失败次数都不少于 , 的采样分布近似正态。只要样本大小 足够大就可以满足条件。其证明超出了AP 统计课程的范围,但关于采样分布的教程可以提供一些关于这个条件的启发和验证。
因此,我们需要:
如果我们要建立一个置信区间,在没有 值的情况下,可以计算样本数据中观察到的成功和失败的数量,来确保它们都不少于 。如果要进行显著性检验,可以用样本大小 和估计的 来计算预期成功和失败次数。
独立条件
要使用公式计算 的标准差,个体实测值需要是独立的。在没有替换的情况下采样时,个体实测值其实不是独立的,因为每删除一个值将改变总体数量。
但是 条件要求抽样大小不多于总体的 ,我们可以把个体实测值看作是独立的,因为去除每个实测值并不显著地影响总体。例如,如果样本大小 ,总体数量至少应为 。
可以用公式计算 的标准差:
在显著性检验中,使用样本大小 和预期 。
如果为 建立一个置信区间,在未知 的情况下,可以用 来预测 。当我们这样做时,得到的是 的 标准误差,与其标准差作区分。
所以 的标准误差的公式为