If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

用于假设实验 "独立性" 的 10% 法则

用于假设实验 "独立性" 的 10% 法则 .

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

随着我们在统计领域的进一步发展, 假设 某些分布是正态分布 或有些时候假设他们是二项分布 是有意义的,因为我们这么做 就可以找到他们的很多有趣的推论 基于我们的假设 关于正态分布一个重要的事情是 或二项分布的是我们假设他们是和 或可以被看作为 一堆独立试验的和 所以我们只需要假设 试验都是独立的 这在很多情况下很有道理 但是有些时候,假设你在做 一个关于人们离开商场的调查 在这个情况下你在调查 他们是否报完了税 当他们离开商场的时候 这样很难有放回抽样 他们离开了商场 你不能说,你好,等一下 我问了你一个问题 然后你回答了 现在回到商场里 因为我需要每一个试验都是相互独立的 我们都知道这样是有道理的 如果商场里有10,000个人 我想抽10个人 独立性还会很重要吗 我们已经很接近独立性了 不是吗 因为这样的想法 因为我们做的推论 基于这些接近一个二项分布 或正态分布 我们有一个10%法则 10%法则说了如果我们的样本 如果我们的样本小于等于总数的10% 假设大概的相互独立是可以的 这里有一些复杂的方式来得到 10%的阙值 人们可以选择9% 可以选择10.1% 但是10%是一个很好的整数 如果我们看一些具体的例子 它看起来做得很好 比如在这里 让x等于3个试验里 从一个有n个学生的教室里抽出来的男生的数量 其中教室里50%是男生 50%是女生 在这里我们有 有很多不同的n 如果教室里有20个学生会怎么样? 有30个呢? 有100个呢? 如果有10,000个呢? 这样我们可以找到概率 选择3个男孩并有放回的 在三个情况下的概率 我们也可以找到 选择3个男孩没有放回的概率 可以考虑一下 我们样本的大小占总数的比例 我们可以说 10%法则有用吗? 第一列 我们选择3个男孩有放回 在这样的情况下因为我们有放回 每一个试验都是独立的 独立的 如果我们的试验是独立的 x就是二项分布了 在这里,我们不是独立的因为我们没有放回 所以不是独立的 正式的来说,在这里的这一列 我们没有放回的时候, x不会被认为是二项式随机变量 看看是否有一个阙值 当我们的样本大小占总量的比例很小时 我们感觉可以 假设x接近于二项分布 在所有的情况下当你有独立的试验 50%的总体是男生,50%的是女生 你将有1/2乘1/2乘1/2 在所有的情况下我们有12.5%的概率 x等于3 在这样的情况下x将是二项变量 但看这里 当3是一个很大的总量的占比 这个情况下是15% 不放回抽样3个男生的概率 是10.5%,和12.5%很不一样 有2%的不同,但是为相较于12.5%的2% 大约是在10%和20%之间的区别 就概率来说 这是很大的不同 当我们增加总量的大小 不增加样本的大小时 我们看到这些数字 变得和对方越来越相近 如果你有 10,000个人在总量里 你做了3个试验, 数字变得越来越接近 实际上是大约12.49% 但如果你四舍五入到十分之一, 你可以看出来他们很接近 我认为大部分人会说 好了,如果你的样本 占总量的万分之三 你会感觉不错 把不放回的这一列 当作是和二项变量很接近的 大部分人可能会说 好了,第一个情况 当你的样本大小是总体的15% 你不会将不放回一栏当作 二项式随机变量 但哪里是分界线呢? 正如我们之前在视频中提到的 这条界线就是10% 如果你的样本大小 小于等于总体的10% 不是不可以把随机变量 ——即便它不是正规意义上的二项变量—— 看作是二项式 从这里 我可以在统计领域中 推断出这些强大的结果 虽说如此, 样本占总体比例越小越好 澄清一下, 这不是说样本容量越小越好 越大越不好 在统计里,大的样本容量比 小的样本容量更好 但当你想用独立性的假设 即便这不是完全正确 你希望你的样本 占总体的比例越小越好 如果在商场里做试验 你可能想要调查100个人 但你希望这里至少 有1,000个人在商场里 来让你的试验变得独立 如果有10,000个人在商场里 或者50,000个人在商场里 这是一个大商场,这将会更好