主要内容

参考: 基于比例进行推断的条件

Google课堂

当我们想对一个比例进行推断（建立置信区间或做显著性检验）时，我们方法的准确性取决于几个条件。在对区间进行实际计算或测试之前，先检查这些条件是否已满足是非常重要的，否则下面的计算和结论实际上并不有效。

我们对一个比例进行推断需要的条件是：

随机：数据需要来自随机抽样或随机试验。
正态： $\hat{p}$ ‍ 的采样分布需要近似正态 — 需要至少 $10$ ‍ 次预期成功和 $10$ ‍ 次预期失败。
独立：个体实测值需要是独立的。如果是没有替换的采样，采样大小不应该大于总体的 $10 %$ ‍。

让我们更深入地看看每一个条件。

随机条件

随机样本可以从总体中得到无偏数据。当样本不是随机选择时，数据通常会有某种形式的偏差，因此使用未随机选择的数据来推断其总体情况可能会有风险。

更具体的说，抽样比例是对其总体比例的公正估计。比如，如果有一袋糖果，其中

50 %

是橙色的，我们从袋子中随机抽取多个样本，一些样本将有超过

50 %

是橙色，而且一些样本中橙色少于

50 %

。但是平均来看，每个样本中的橙色糖果比例将等于

50 %

。我们将其写成

μ_{\hat{p}} = p

，只要抽样是随机的，这个等式就成立。

不过，如果样本不是随机选择的，这种情况也不一定会发生。偏置样本会导致不准确的结果，因此不应使用它们来创建置信区间或进行显著性检验。

正态条件

只要预期成功次数和失败次数都不少于

10

，

\hat{p}

的采样分布近似正态。只要样本大小

n

足够大就可以满足条件。其证明超出了AP 统计课程的范围，但关于采样分布的教程可以提供一些关于这个条件的启发和验证。

因此，我们需要：

\begin{aligned} 预期成功： n p \geq 10 \\ 预期失败： n (1 - p) \geq 10 \end{aligned}

如果我们要建立一个置信区间，在没有

p

值的情况下，可以计算样本数据中观察到的成功和失败的数量，来确保它们都不少于

10

。如果要进行显著性检验，可以用样本大小

n

和估计的

p

来计算预期成功和失败次数。

独立条件

要使用公式计算

\hat{p}

的标准差，个体实测值需要是独立的。在没有替换的情况下采样时，个体实测值其实不是独立的，因为每删除一个值将改变总体数量。

但是

10 %

条件要求抽样大小不多于总体的

10 %

，我们可以把个体实测值看作是独立的，因为去除每个实测值并不显著地影响总体。例如，如果样本大小

n = 150

，总体数量至少应为

N = 1500

。

可以用公式计算

\hat{p}

的标准差：

σ_{\hat{p}} = \sqrt{\frac{p (1 - p)}{n}}

在显著性检验中，使用样本大小

n

和预期

p

。

如果为

p

建立一个置信区间，在未知

p

的情况下，可以用

\hat{p}

来预测

p

。当我们这样做时，得到的是

\hat{p}

的 标准误差，与其标准差作区分。

所以

\hat{p}

的标准误差的公式为

σ_{\hat{p}} \approx \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}

想加入讨论吗？

排序方式:

尚无帖子。

你会英语吗？单击此处查看更多可汗学院英文版的讨论.

统计和概率

课程: 统计和概率 > 单元 12

随机条件

正态条件

独立条件

想加入讨论吗？