If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

使置信区间有效的条件

使置信区间有效的条件.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

这个视频里我们要 深入讨论一下置信区间 在其他的视频,我们计算并了解了它们 这里我们要保证 我们做的是正确的假设 这样我们才可以对我们的置信区间有信心 或保证我们正确的计算了 或者在正确的背景下计算。 做一点复习, 在置信区间里 我们试着估测一些总体参数。 称之为占比。 可能是投票给候选人的比例 我们不能调查每个人,所以选择抽样。 在这个样本里, 可能我们计算了样本的总量。 用这个样本的占比, 我们计算了置信区间 在样本的占比的两边。 我们知道如果我们这样做 很多很多次 每次我们都可能有 不同的样本占比, 这就是样本占比1,样本占比2. 每次这样做,我们会有 或许这次是样本比例2, 我们可能会得到不一样的内容, 我猜你可以说我们区间的中心, 但误差幅度可能会改变 因为我们用的是样本占比。 但第一个假设,必须是对的。 关于置信区间的任何说法 说的都是样本是随机的, 所以要有一个随机的抽样。 如果你想估测人口的比例 会投票给某个候选人的人 但你只调查了高级社区的人, 这不是真正的随机抽样, 如果我们只是要调查在学校的人, 用统计来做, 你需要保证 你做的是随机抽样 要注意这点。 第二件事是我们要假设, 这有时被称为正态的情况, 正态情况, 记住,置信区间的基础 是我们假设样本占比 的分布, 样本占比的分布 大约是正态的形状。 为了让这个假设 变得大约正态, 我们要有这个正态的情况 这里的经验法则是你期望 每个抽样大于10次成功, 成功, 成功和失败每次 每次。 比如,样本大小为10 真实的比例是50%或0.5. 这不是正态的情况 因为你期待5次成功 5次失败对于每一次抽样来说。 因为我们做置信区间时经常 不知道真实的总体参数, 我们实际上做的是 观察样本,算 有多少次成功和失败 如果它们其中小于10次, 这就有问题了。 每次要至少大于等于 10次成功或失败 甚至不需要说期望这样, 因为你有一个样本 你可以直接算出多少成功 多少失败。 如果没看出来,那么正态的情况 不符合你为置信区间做的假设。 它将变得无效。 最后一件事是要保证 都是独立的情况 独立的情况 这是10%法则。 如果我们抽样的时候没有放回 有的时候是不容易放回的。 如果你调查人们谁离开 了店铺,比如, 你不能让他们再回到店里, 让他们再回来非常尴尬 所以独立的情况是你的样本大小, 样本,或者n n小于10%的总量。 总数为100,000个人 如果调查1000个人 这是总数的1% 可能感觉还不错 符合互相独立的条件 再一次,做抽样是有价值的 当你不放回的话。 现在,我们的置信区间 可能不是我们认为的它们可以做到的 当有些东西被破坏后 我会之后重点说明 随机抽样的条件 在统计学里是非常重要的 首先看这样的情况 独立性条件被打破 在这里 可以看到我们用了一些口香糖球来模拟 在口香糖球的模拟里, 我们有一个真实的总数占比 但有些做抽样的人可能不知道 我们想要建造一个置信区间 是95%的置信区间 我们在这里设置的是,我们不替换。 我们样本里的每一项 我们没有拿出来再放回 我们只是找了一个200的样本 找一个总数 远远超过总量的10% 当我找了一堆样本 这就是我在这里做的 接近1500个样本大小都是200 在这里可以看见 我们真实的总体参数 包含在置信区间里 当我们算样本的时候。 你可以看到红色的部分不是 可以看到的,我们只有一个成功的例子 置信区间和 我们计算的真实总体参数的重叠 93%的情况下会发生。 这是数量很多的样本 在95%的置信区间 95%的情况下都是这样。 同样的,我们观察情况 我们正常状态被破坏了。 我们的正态情况 可以看到样本大小是15 事实上,如果我向下滚动一点 可以看到模拟另我担心。 这比预期10次的成功要少 当我这么做的时候 再一次,我举了很多样本 我找了2000个样本 即便我尝试建立这些置信区间 每一次我计算它, 大约有95%的命中的概率 这里只有94%的概率 我们做了很多的样本 重要的是 如果不是随机的,事情就会变得不合理, 如果你感到不好 关于实际的样本分布关于 样本的占比有多正态 或你的样本容量足够大 关于总量,并且没有放回 你违反了独立条件 所以置信区间 你计算的 当你设置置信区间时,可能是无效的。