If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

样本方差存在偏差的模拟展示

彼得·科林里奇的模拟使我们更好地理解了在计算无偏差样本方差时为什么要除以 (n-1)。模拟过程:http://www.khanacademy.org/cs/challenge-unbiased-estimate-of-population-variance/1169428428. Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

现在屏幕上你所看到的 是我同事Peter Collingridge 用咱可汗学院的一个画图软件 给你们画的一个信息模拟图 咱们画这个主要是为了帮你弄清楚 为什么在算一些无偏的样本方差的时候咱要除以一个"n-1" 至于为什么要算这个叫“无偏样本方差”的东西 主要是为了估算一下总体方差 一上来这个东西会先给你 生成几张完全随机的 数据分布图 每次你进这个软件时 他都会给你生一张新的 现在这张表的总数据量大概是383 然后根据这个总体 这表还贴心地帮咱算了一些总体的值 你看这个总平均值就是10.9,总方差就是25.5 然后呢,在右下角 它在不断的从总体里给我们采样 差不多几个几个的再给我们采 一直采,是个无情的采样机器了 每一次采样它都会给我们算当前这个样本的一些值 就比如当前样本的平均数还有方差 注意,它现在算的是有偏的样本方差,而非无偏 这个时候这张表就已经给了我一种 脑子一亮,灵光一闪的感觉 更神奇的是,你还可以通过放大这些表 来把它们放大,然后研究一下细节 然后我已经截图了 然后把截的图都放到了小黑板上 一会儿我们可以来好好钻研一下截图 然后看看它具体是想表达些啥 你看这些都是我截的图 这一次他的数据总量大概是 有529左右 总体平均10.6 然后在左下角这个表上 他贴心地帮我们把总体平均标出来了,你看这,10.6 标一下,然后回上面 我们看到总体方差是36.8 然后在左下角这条横线也帮我们把36.8标出来了 左下角这个图看起来乱 其实它告诉了我们不少东西 再提醒一下哈,他算的是每一个样本的“有偏”的样本方差 是有偏的 然后右边每多一次采样,左边就会 添一个描述右边样本的点 这个样子 怎么去算差样本方差呢,就是从第一个样点 一直走到最后一个样点 然后对于每一个样点呢 咱都给他减去样本平均,再给他平方 然后把这一大堆平方都给加起来,但不除以n-1 而是除以总量n 然后呢,这张表告诉了我们一些有趣的事情 他首先告诉我们 在某些情况下,我们取的样本 的有偏方差会很小 都接近0了 而且你看当这些有偏样本方差接近0的时候,大多数情况下 他们的样本平均值都跟总平均值 差了十万八千里 咱也可以反过来说: “当这些样本平均值跟总平均值两极分化的时候” “这些有偏样本的方差都会变得” “很小很小很小...” 你可能还注意到了 另一件事:就是如果我们单次采样的 样本含有的数据量小的话,它的点的颜色会偏粉一点 像是那种8个以上的样本数据多的,颜色就偏蓝一点 然后你看左边 大概算是这个山脚的这两个地方 大部分组成山脚的点点们都有种粉粉红红的感觉 像是那种蓝色的点就都会 往中间聚一聚,这告诉我们 样本数据量越大估算越准确 这里也有红点 红加蓝就有点像是紫色 你看这俩小山脚 就是十分纯粹的红 虽然偶尔有几个 蓝色组的稀客 但是明显这些地方还是红点居多 其实仔细想想 这种情况还是有点道理的 想想看,当你的样本大小偏小的时候 一般情况下都算不太准确。这个时候你算的 样本平均都会和总平均差得很多 因为样本数据量小嘛 你的有偏样本方差和有偏总方差还是会有不少差距的 右边这张表就更加直接地告诉了你这一点 因为,你看这张表, 对于每一个样本的数据量 你看这个样本数据量为2的 如果我们每一次采样, 每一次计算方差都只算两个人的话 把每一个样本方差除以总体方差, 再给它一平均之后 你就会发现,在经过无数次 的计算之后 样本方差除以总方差的这个百分比 竟然只有区区一半不到 当每次采样数据量为3的时候,这个百分比就会提升一点, 接近2/3,也就是66.6% 当样本数据量为四的时候 样本方差除以总方差再平均的这个神奇的百分比 才开始接近75%这个地方 我们可以找出规律 所以当我们使用有偏方差的时候 我们的样本方差并没有向总体方差的位置靠拢 而是向着 “(n-1)/n 乘总体方差 这一个目标 在大步前进 设n为样本的数据量,当n等于2时,有偏样本方差在接近1/2 当n等于3时,有偏样本方差在接近2/3,66.6% 当n等于4时,这个方差就在接近3/4,也就是75%这个地方了 所以为什么叫它“有偏”啊 那我们怎么化有偏为无偏呢? 如果我们真的想对总方差进行最 完美的估算的话 而不是对 “n-1/n)乘总体方差的话 我们就。。。 我先换个颜色 我们就把这个等式两边同时除以“n-1/n”,也就是两边同时乘以“n/n-1”就好啦 这样右边不就变成了真正的方差啦 你看这里,这堆东西就相互抵消了 就剩下了咱真正的总方差 这就是我们所求的 你再看左边,这俩一抵消,我们就剩下了这个完美的,能估算总方差的, 无偏样本方差的公式 无偏的样本方差公式 就跟我们之前 在很多视频,很多课本里看到的公式一模一样 之前你在看这公式的时候你可能会有疑问 但是希望Peter给你做的“样本模拟器” 应该能给你一种醍醐灌顶,豁然开朗的感觉 所以以后咱都可以安心的“除以n-1”了!