If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

回顾和理解为什么我们计算无偏差样本方差时要除以 n-1

回顾总体均值、样本均值、总体方差、样本方差,并建立一个直觉,说明为什么我们计算无偏差样本方差时要除以 n-1. Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

这个视频我想要回顾一下 我们之前已经介绍过的一些内容 希望能够帮助大家建立一定的概念,关于我们为什么要除以n-1 当我们通过计算样本方差来对总体方差进行无偏估计时 那么我们先想象一个整体 假设这里就是我们的总体 然后总体大小记为大写N, 并且在总体中有一组样本 这里是一组总体中的样本 包含小写n个数据的样本量 让我们回顾一下我们目前学习过的所有参数和统计量 第一个概念是均值 如果我们要计算总体均值 这是一个参数还是一个统计量呢? 如果我们要针对总体计算均值 那么我们是在计算一个参数 我们是在计算一个参数 让我把这个写下来 所以这个就是,对于总体 我们是在计算参数 这是一个参数 如果想要针对一组样本进行计算 我们把它称为统计量 那么我们如何计算总体均值? 首先,我们将它记为希腊字母μ 然后我们取出总体中所有数据 我们把所有数据进行加和 我们从第一个数据开始 然后一直到第N个数据 我们把所有的数据进行加和 那么这是第i个数据 x1 + x2 一直加到第N个x 然后我们除以总体数据量 那么,我们怎么计算样本均值呢? 样本均值,计算过程和总体均值差不多 只不过对象是样本 我们把它记为x上面加一横 我们要取到样本中所有数据 一直将他们加和到第n个数据 所以这里是将所有样本中的数据进行加和 然后除以样本量 现在,另一个 我们想要计算的另一个总体参数 是方差,我们也会计算样本方差 并且用方差来估计总体 方差是用来衡量总体离散程度 或者说衡量数据较均值差异的指标 那么让我们把方差写在这边 对于一个总体方差的计算 我们如何进行标记 对于总体来说,我们将方差记为—— 我们用希腊字母sigma平方进行标记——也就等于 你可以将它看做是与总体均值之间距离平方的均值 但是我们要用到每一个数据 所以i等于1,然后一直加到n 我们取出每一个数据,减去总体均值 那么如果你想要计算这个 你需要知道上面这个是怎么算的 这是一种方式 我们看看另一种计算方式 两种方式可以一起计算 但是最简单或者最容易理解的方法 是先计算这个,然后对于每一个数据 取每个数据,然后减去 减去均值,再进行平方 然后除以数据总量 现在,到了有趣的部分——样本方差 有几种方法——当我们提到样本方差时 在他们的工具箱里有几种方法 或者说有几种方法来计算它 第一种方法是有偏样本方差 这是一种对于总体方差的非无偏估计量 它通常被记为s 附带一个下标n 什么是有偏估计量?我们如何计算它呢? 计算方式和我们这边计算总体方差的方式非常接近 但是我们是针对我们的样本进行计算,而不是总体 对于样本中的所有数据——我们有n个样本 我们取某一个数据 从这个数据开始,我们减去样本均值 减去样本均值,再进行平方 然后除以样本量 但是我们在上一个视频中已经讲过 我们如何找到——对于总体方差,最合适的无偏估计量 这也是我们通常想要得到的 我们想要找到总体方差的无偏估计量 上一个视频中,我们讲过 我们是否需要无偏估计量 在这个视频中,我希望 帮助大家理解其中的原因 我们要进行加和 所以我们会取到样本中所有的数据 我们取到某一个数据 把它减去样本均值,对其平方 但是我们要除以n-1,而不是除以n 我们用一个更小的数字去除 如果你有一个更小的数去除 你将会得到一个更大的值 所以这会是一个更大的值 这个值会更小 这个就是无偏估计量 这个,我们称为有偏估计 如果只是这样写 那么指的就是样本方差 我们希望能够区分 他们指的是哪一个 但是如果没有其他信息 这里通常指的是 方差的无偏估计量 所以你可能需要除以n-1 但是让我们想一下,为什么这个估计量是有偏的 为什么我们希望得到一个像这样更大的估计量 以后我们可能会通过一个计算机程序 或者其他方法让我们更好地理解 除以n-1能够 更好地估计真实的总体方差 那么让我们想象一下总体中的所有数据 我会把他们画在一条数据线上 这就是我的数据线 这是我的数据线 然后我把所有总体数据画在上面 这是一些数据 这是一些数据 这里有一些数据 然后这里也有一些数据 我可以想画多少都可以 所以这些是线上的一些数据点 现在,假设我取了一些样本 这是我的总体 让我们算一下有多少 这里有1,2,3,4,5,6,7,8,9,10,11,12,13,14 在这个例子里,我们的N是多少? N=14 N=14 假设我抽取一部分样本,小写n等于 假设我的样本量为3 我可以取——在我考虑这个之前 假设一下我们的总体均值大概会在哪个位置 那么我画出它的方法——我不会 把它准确地算出来—— 看起来均值可能落在这个位置 所以均值,真实的总体均值 这个参数会落在这里 现在,让我们想一下当我们抽样时会发生什么 我会取一个很小的样本量 来给我们一点概念,但是对于任何样本量来说都是成立的 假设我们的样本量是3 那么有可能 我们抽取的3个样本的 样本均值正好很接近总体均值 举个例子,如果我们抽取这个点,这个点 以及这个点,有可能我们的样本均值 会非常接近 我们的总体均值 但是也很有可能 很有可能,我会抽样抽到这个点 这个点以及这个点 这里关键的点是,当你取样本时 你的样本均值一定是在你的样本点之间 所以就有可能当你抽样时, 总体均值可能在样本之外, 因此在这个情况下—— 这里只是简单介绍一下概念 所以你的样本均值 有可能是在这里的某个位置 所以如果你想要计算每个点 距离样本均值的距离—— 所以这个距离,那个距离,然后你平方一下 然后除以样本量 这个估计量就会比 真实的方差小很多 真实方差距离实际总体均值 看起来距离非常、非常、非常远 当然,总体均值也不会总是落在样本之外 但是这种情况是有可能的 所以通常来说,当你进行抽样 计算样本点与样本均值距离的平方 这个值总是会落在你的样本点中 即使真实的总体均值可能落在样本点之外 或者有可能是样本点的某一个边界点 无论是你想到的那种情况 你都有可能低估了 真实的总体方差 所以这边的是一个低估的估计量 那么如果你—— 除以n-1,而不是除以n 你会得到一个稍微大一点的样本方差 这就是一个无偏估计量 下一个视频里——我可能不会立马讲到—— 我会通过一些计算机程序 通过更有说服力方法,告诉大家这是一个总体方差的更好的估计量 相比起这个方法来说