If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

参考: 基于比例进行推断的条件

当我们想对一个比例进行推断(建立置信区间或做显著性检验)时,我们方法的准确性取决于几个条件。在对区间进行实际计算或测试之前,先检查这些条件是否已满足是非常重要的,否则下面的计算和结论实际上并不有效。
我们对一个比例进行推断需要的条件是:
  • 随机:数据需要来自随机抽样或随机试验。
  • 正态p^ 的采样分布需要近似正态 — 需要至少 10 次预期成功和 10 次预期失败。
  • 独立:个体实测值需要是独立的。如果是没有替换的采样,采样大小不应该大于总体的 10%
让我们更深入地看看每一个条件。

随机条件

随机样本可以从总体中得到无偏数据。当样本不是随机选择时,数据通常会有某种形式的偏差,因此使用未随机选择的数据来推断其总体情况可能会有风险。
更具体的说,抽样比例是对其总体比例的公正估计。比如,如果有一袋糖果,其中 50% 是橙色的,我们从袋子中随机抽取多个样本,一些样本将有超过 50% 是橙色,而且一些样本中橙色少于 50%。但是平均来看,每个样本中的橙色糖果比例将等于 50%。我们将其写成 μp^=p,只要抽样是随机的,这个等式就成立。
不过,如果样本不是随机选择的,这种情况也不一定会发生。偏置样本会导致不准确的结果,因此不应使用它们来创建置信区间或进行显著性检验。

正态条件

只要预期成功次数和失败次数都不少于 10p^ 的采样分布近似正态。只要样本大小 n 足够大就可以满足条件。其证明超出了AP 统计课程的范围,但关于采样分布的教程可以提供一些关于这个条件的启发和验证。
因此,我们需要:
预期成功:np10预期失败:n(1p)10
如果我们要建立一个置信区间,在没有 p 值的情况下,可以计算样本数据中观察到的成功和失败的数量,来确保它们都不少于 10。如果要进行显著性检验,可以用样本大小 n 和估计的 p 来计算预期成功和失败次数。

独立条件

要使用公式计算 p^ 的标准差,个体实测值需要是独立的。在没有替换的情况下采样时,个体实测值其实不是独立的,因为每删除一个值将改变总体数量。
但是 10% 条件要求抽样大小不多于总体的 10%,我们可以把个体实测值看作是独立的,因为去除每个实测值并不显著地影响总体。例如,如果样本大小 n=150,总体数量至少应为 N=1500
可以用公式计算 p^ 的标准差:
σp^=p(1p)n
在显著性检验中,使用样本大小 n 和预期 p
如果为 p 建立一个置信区间,在未知 p 的情况下,可以用 p^ 来预测 p。当我们这样做时,得到的是 p^标准误差,与其标准差作区分。
所以 p^ 的标准误差的公式为
σp^p^(1p^)n

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.