If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

标准差与偏差示例

小撒给出了一个计算标准差和偏差的例子。 Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

假设你是一位种植西瓜的农民, 你想研究 西瓜种子的密度。 你想这样做也许是因为,随着时间的推移, 你正在尝试培育种子更少的西瓜, 你想看看你是否真的有进展。 你并不想把西瓜农场里的每个西瓜都切开 或者有补丁或者随便怎么称呼它 因为你想要卖掉大部分。 你只需要抽取几个西瓜作为样本, 然后拿这些西瓜样本 求出种子的密度, 希望能计算出这些样本的统计数据 来对总体参数有个合理估计。 我们开始吧。 假设你从随机的西瓜样本中 取出这些小立方块。 然后数里面种子的数量。 你有8个这样的样本。 你在其中一个里面找到了4颗种子。 接下来,你找到了3, 5, 7, 2, 9 ,11和7。 这是一个样本, 确保我们把它正确地形象化。 如果这是所有西瓜块的总体 我想我们可以把它看成1立方英寸 这样的立方英寸块存在于我的整个西瓜农场, 我从中抽样了一个很小的样本。 也许这里有100万个。 我的农场可以生产出 上百万块西瓜,但我只是取样 所以大写的N是100万, 小写的n等于8。 再提一下,你可能会想要更多的样本, 但这使计算变得简单。 现在,让我们想想我们可以测量什么统计值。 嗯,我们经常用到的第一个方法是 测量集中趋势。 也就是算术平均数。 但在这,我们试图通过样本均值 估算总体均值。 那么样本均值是多少呢? 嗯,我们要做的就是把这些点加起来, 把这些测量值加起来, 然后除以测量值的个数。 我们用计算器算一下。 其实也许我并不需要计算器。 让我们来看看。 那么4加3等于7。 7加5等于12。 12加7等于19。 19加2等于21, 加9等于30, 加11等于41, 加7等于48。 得到48除以8个数据点。 这进展得不错。 48除以8等于6。 所以样本均值等于6。 这是对总体均值的估计。 但我们也想知道在总体中需要估计多少 分布是多少, 或者说测量值与均值有多少不同。 这里,我们可以通过计算样本方差 来估计总体方差。 我们来计算一下无偏样本方差。 希望我们现在已经很清楚 为什么要除以n - 1了。 我们来计算一下无偏样本方差。 如果我们这样做,我们会得到什么? 我换个颜色。 4减6的平方加3减6的平方 加5减6的平方加7减6的平方 加2减6的平方加9减6的平方 加11减6的平方加7减6的平方 总和除以 —— 不是8。 记住我们想要的是无偏样本方差。 除以8 - 1。 除以7。 让我多留点空间。 无偏样本方差 —— 我甚至可以用这个来表示 那就是小写的n减1 —— 等于——我们来看看,4减6等于负2。 它的平方是正4。 这个我算完了。 3减6是负3。 它的平方是9。 5减6的平方是1的平方,也就是1。 7减6也是1的平方,也就是1。 2减6,负4的平方等于16。 9减6的平方,嗯,等于9。 11减6的平方等于25。 最后,7减6的平方,这又是一个1。 除以7。 我们看看能不能心算一下。 4加9等于13,加1等于14,15,31,40,65,66。 等于66除以7。 也就是9又7分之3 写一下9又7分之3。 或者如果我们想把它写成小数, 66除以7等于9 —— 我四舍五入一下。 大概等于9.43。 这就得到了无偏样本方差。 嗯,如何计算样本标准差呢? 我们希望得到 总体标准差的估计值。 逻辑上讲,我们可以这么说, 这是无偏样本方差。 这是真实总体方差的 最佳估计值。 当我们考虑总体参数 来得到总体标准差时, 取总体方差的平方根。 如果想得到样本标准差的估计, 为什么不取 无偏样本方差的平方根呢? 这就是我们要做的。 我们这样定义它。 我们称之为样本标准差。 我们定义它是 无偏样本方差的平方根。 它等于这个值的平方根, 我们把计算器拿出来。 它等于我刚才输入的值的平方根。 算第二个答案。 也就是这的最后一行 所以它的平方根是 —— 四舍五入一下。 大约等于3.07。 现在,我要告诉你一些 非常违反直觉的事。 或者至少一开始是违反直觉的, 但希望你以后会领会。 这个我们已经深入讨论过了。 有人甚至创建了模拟来证明 当除以n - 1 是总体方差的无偏估计值。 这是一个很好的起点 如果我们要取任何数的平方根。 但事实证明,因为平方根函数 是非线性的, 那这个样本标准差 —— 这就是它的定义 —— 样本标准差 也就是样本方差的平方根, 从 i = 1到n的无偏样本方差 除以n - 1。 这就是除以样本标准差的方法。 因为平方根函数是非线性的, 这不是真实总体标准差的 无偏估计的结果。 如果有兴趣的话, 我鼓励大家做一些模拟。 然后你可能会说,嗯,我们费了很大劲 才能除以n - 1 为了得到总体方差的无偏估计。 为什么我们不经历同样的痛苦 得出总体标准差的 无偏估计的公式呢? 之所以难,是因为要使样本方差无偏, 需要除以n - 1而不是n。 我们需要除以n - 1而不是n。 但这对任何概率分布 都成立。 对标准差 也是一样的结果。 这并是这么不简单的。 这取决于 总体的分布情况。 所以在统计值中,我们只定义样本标准差。 我们通常使用的是 无偏样本方差的平方根。 但当你取平方根时, 它会给你一个有偏差的结果, 当你试图用它来估计 总体标准差时 。 但它是我们有的最简单、最好的工具。