If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

样本方差

思考如何通过查看样本中的数据来估计总体的方差。 Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

假设,你对人们看电视的习惯 很好奇。 你特别想知道这个国家的人看多久电视。 你所关注的,如果我们设想 整个国家 -- 我们之前已经说过了 -- 特别是像美国这样的国家, 但几乎任何国家都一样 人口众多。 在美国, 约3亿人的数量。 因此,理想情况下,如果你能以某种方式神奇地做到, 你会调查或以某种方式观察所有3亿人 并对某一天人们看多少个小时的电视 取其平均值。 然后你就可以得到一个参数,即总体平均数。 但我们已经说过了,在一个这样的案例中, 这是一个非常不切实际的做法。 即使你真的这么做了,等到你完成数据统计的时候, 你的数据可能已经过时了,因为有些人可能已经过世了, 有些人刚刚出生。 谁知道会发生什么呢? 所以这有一个存在的事实, 有一个理论上的总体平均值, 也就是美国人每天看电视 的平均小时数。 在任何一个时间点,都有一个这样存在的事实, 只是几乎不可能有办法 得到确切的答案,得出这个确切的真相。 但你不放弃。 你说,好吧,也许我不需要调查所有的三亿人, 或观察所有三亿人。 相反,我只要观察一个样本。 观察一个在这里的样本。 举个例子,为了使计算简单, 你取了一个六人的样本。 我们稍后会说到为什么六个样本量可能 不够理想,这个样本量不够大。 你调查了这些人看多久电视。 你发现有一个人看了1.5小时。 另一个人看了2.5个半小时。 另一个人看了4个小时。 然后有一个人看了2个小时。 还有两个人各看了1小时。 所以,基于你的样本的这些数据, 你得到的样本平均值是多少? 样本平均数,我们会用小写字母x上面加个一横来表示, 它是 所有数据的总和除以数据点的数量。 所以我们看到我们有1.5加2.5加4加2 加1加1。 所有这些除以6,也就是 让我们看看,分子是1.5加2.5是4,加4是8。 加2是10,再加2是12。 所以是12除以6, 等于看2小时电视。 所以至少对于你的样本,你可以说, 我的样本平均值是看2小时电视。 这是个估计值。 这是个统计量,它试图估计 这个很难获得的参数。 但这是我们最好的选择。 如果我们得到更多的数据点,也许我们会得到一个更好的答案。 但这是我们目前可以做到的。 现在,你需要问自己的下一个问题: 我不想只是估计我的总体平均值, 我还想估计另一个参数。 我也对估计总体方差 感兴趣。 所以同样地,由于我们不能调查 人口中的每一个人, 这是几乎不可能知道的。 但我们要尝试估计这个参数。 我们已经估计了总体平均值, 现在我们还将尝试估计 这个参数,这个方差参数。 那么你会怎么做呢? 合理的想法是我们也许将 对样本做出 与对总体一样的处理。 当你在得出总体方差的时候, 你会取总体中的每个数据点, 找到它与总体均值之间的距离, 取该差值的平方。 然后把所有这些差值的平方加起来, 然后再除以你所拥有的数据点的数量。 那么,让我们在这里尝试一下吧。 取这些数据点中的每一个, 并找到差值 --让我用不同的颜色--取这些数据点中的每一个, 找到每一个数据点 和我们的样本平均数的差值--不是总体平均值, 我们不知道总体均值是多少-- 要的是样本均值。 所以这就是第一个数据点加上第二个数据点 --是4减2的平方加上1减2的平方。 如果你要求总体方差, 你需要做相同的事。 如果这是你的总体数据 , 这就是你如何得到总体均值, 如果这是总体的话。 然后你找到这些数据中每一个(到平均数的)平方距离, 然后将这些数据(相加)并除以 数据点的数量。 让我们稍微想想, 1减2的平方。 然后2.5减去2 --2是样本平均数--平方。 换成绿色 加2减2的平方。 加1减2的平方。 然后你会除以数据点的数量, 你所拥有的数据点的数量。 在这个例子中,我们要除以6。 那么在这种情况下,我们会得到什么? 我们做下计算,1.5减去2 是-0.5。 我们把它平方, 就变成了+0.25。 4减去2的平方,就是2的平方,也就是4。 1减去2的平方--好吧,那就是-1的平方, 也就是1。 2.5减去2就是0.5的平方,就是0.25。 2减去2的平方--好吧,那就是0。 然后1减去2的平方是1,它是-1的平方。 所以我们只得到1 如果我们把所有这些加起来 让我先把整数加起来。 4加1是5,加1是6,然后我们有两个0.25。 所以这等于6.5 让我用中性色来写这个。 所以这是6.5,除以6。 我们有几种方法来写这个答案, 但我还是要把计算器拿出来, 让我们直接计算出答案。 所以6.5除以6得到的是--如果我们四舍五入, 约是1.08。 所以这个计算结果大约是1.08。 现在我们要考虑的是 这是否是最好的计算,这是否 是否是对总体方差的最佳估计, 基于我们拥有的数据。 你可以说我们可以有更多的数据。 但是基于我们拥有的数据,这是不是用来估计总体方差的 最好方式呢? 给你几秒来思考一下这个问题。 事实证明,这很接近, 这接近于最好的计算,是我们能做到的 最好的估计。 有时这被称为样本方差。 但这是一种特殊类型的样本方差, 我们直接除以我们拥有的数据点的数量。 人们会在这里写一个n。 所以这是定义样本方差的一种方式 用来估计我们的总体方差。 但事实上--在接下来的视频中 我将给你一个直观的解释 为什么会这样。 然后我还想做一个计算机模拟, 至少这种实验性的解释,能使你 更好地理解。 但事实证明,你有办法得到一个更好的估计 -- 这一开始看上去有点奇怪, 有点像玄学-- 你会得到一个更好的关于总体方差的估计, 如果你不除以6,如果你 不除以你拥有的数据点的数量, 而是除以你拥有的 数据点的数量减1。 那么,我们该如何做呢? 我们可以把它表示为样本方差。 当大多数人谈论样本方差时, 他们谈论的是这个样本方差, 这里,你不是是除以6, 而是除以5。 你要除以5。 他们会说你要除以n减去1。 那么在这种情况下,我们会得到什么? 嗯,上面的分子部分是完全相同的。 我们得到6.5。 但是我们的分母,我们这里的n是6。 我们有6个数据点。 但我们要除以6减1。 我们要除以5。 而6.5除以5等于1.3。 我们用这种计算方式得到我们的样本方差, 这是更主流的方法-- 它看上去很玄学-- 为什么我们要除以n减1。 而对于总体方差我们要除以n? 但请记住,我们是在试图估计总体方差。 总体方差 而事实证明,这是一个更好的估计。 因为之前这个计算方法低估了 总体方差,现在这个计算方法是一个更好的估计。 我们并不确定它是什么。 这两个计算方法都可能有很大的偏差。 现在的结果只是基于我们碰巧取到的样本。 但在许多样本中--有许多方法来想这个问题-- 但在许多样本中, 现在这个将是一个更好的计算。 它能给你一个更好的估计。 那么,我们该如何写下这个呢? 我们如何用数学符号写下来呢? 记住,我们先是在取和, 而我们要取的是每一个数据点。 我们将从第一个数据点开始 一直到第n个数据点。 这个小写的n表示,我们要的是样本。 如果我有一个大写的N,那通常就是 表示我们正在对总体数据 进行取和。 在这里,我们要的是样本个数,小写的n。 而我们正在取每个数据点,所以每个x下标i。 并从中减去样本平均值。 然后我们将其平方化。 我们要取的是距离的平方之和。 然后我们要除以,不是除以数据点的数量 而是除以我们拥有的数据点数量减1。 所以这个计算,我们把所有的这些加起来, 然后我们除以5,而不是除以6, 这个计算就是样本方差的标准定义。 我们现在就讲到这里。 在下一个视频中,我将尝试 给你一个直观的解释,为什么我们要除以n减1 而不是除以n?