If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

为什么我们在方差中要除以 n-1

另一个可视化证据也说明,除以n-1可以真实地得到无偏差估计的总体方差。 模拟过程:http://www.khanacademy.org/cs/unbiased-variance-visualization/1167453164. Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

这是一个可汗学院使用者Justin制作的模拟, 再一次帮助我们尝试了解为什么 我们除以n-1可以得到无偏估计的方差。 当我们尝试去计算样本的方差的时候。 他在这里做的事,这个模拟, 它有一个均匀分布的总体。 他说,我用一个平坦的概率分布 在总体里从0到100。 然后我们开始从总体里抽样 我们将用大小为50的样本。 然后对于每一个样本, 我们计算样本的方差,通过除以n的方式。 除以n-1,和n-2/ 然后当我们有越来越多的样本, 我们拿出算出的方差平均数 从不同的方法中。 我们找出这些平均数收敛于什么, 这是一个样本。 这是另一个样本, 这是另一个样本。 如果我如果我在这里抽样,那么我现在加了一堆, 而且是连续抽样。 他看到一些有趣的事发生了。 当我除以n,我的样本方差是不变的, 即使是取很多很多样本方差的均值, 我依然低估了真正的方差。 当我除以n-1,看起来 我们有一个很好的估测, 我所有样本的方差的平均数 收敛于真正的方差。 为了方便,除以n-2 很清楚的是我高估了 通过我的样本方差的平均数。 我高估了真正的样本方差。 所以这给了我们一个很好的想法,关于n-1 是正确的事情。 现在这有另一个很有趣的方式来考虑它。 在这里的横坐标上, 我们每一个图都是我们样本之一。 离右边的距离有多少就是样本的平均数离真实平均数的距离。 我们考虑左边,这是样本的平均数比真实的平均数少了多少。 比如,在这里的这个样本, 一直到右边。 样本平均数比真实平均数多了很多。 样本平均数比真实平均数少了很多。 这里的样本平均数只比真实平均数多了一点。 在纵轴上,用这个分母,除以n, 我们找到了两个不同的方差。 一个方差,我们用了样本的平均数, 另一个方差,我们用了总体的平均数。 这个,在纵轴上,我们 比较了平均数计算出的不同 分别是用样本平均数和总体平均数。 比如,在这里的这个点, 当我们用样本平均数计算我们的平均数, 这是很普遍的方式,它非常 低估了平均数 会是什么,如果我们有可能知道总体平均数是什么 然后我们可以那样去计算。 你得到这个非常有趣的形状。 这是一些我们需要思考的事情。 他建议去思考为什么是这个形状或者应该是什么样, 另一个有趣的地方是,当你这样来看, 这很清楚整个图 是在横轴之下的。 我们一直,当我们计算样本方差的时候 用这个公式,当我用了样本的平均数来做, 这是我们经常做的,我们总是得到一个更小的方差 和我们用总体平均数来比较的话。 在这里,当我们除以n-1 我们并不是一直低估的。 有的时候我们会高估。 当你用了这些方差的所有平均数,就收敛了。 这里我们高估了一些。 为了更清楚的说明我们讨论的这三 个图,让我截图并 解释的更深一点。 在这个红色的图里, 让我这么做, 选一个接近的颜色。 这个橘色,这里的距离 关于每一个样本, 我们计算样本的方差通过,让我, 用样本平均数。 在这个情况下,我们用n代表我们的分母。 在这里的这个情况下。 从这里,我们减去了样本的方差, 我猜你也可以称其为伪样本方差 如果我们知道总体均值。 这在统计学中并不常见。 但它衡量的是在没有真实总体均值的情况下样本方差被低估的程度 所以这个是距离。 这是我们想计算的距离。 你看我们一直在低估。 现在我们高估了一点。 并且也低估了。 但当你用了平均数,当你平均了所有的它们 这会收敛于真实的值。 所以这里我们除以n-1 这里我们除以n-2。