If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

分散度的衡量方法:极差,方差和标准差

小撒将介绍三种最常见的分布状况测量方法!. Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

在上一个视频中,我们谈到了用不同的方法来 表示一个数据集的中心趋势或平均值。 在这个视频中,我们要做的是将其扩展一下, 以了解数据的 分散程度。 让我们稍微思考一下。 假设我有-10,0,10,20和30。 我们说这是一个数据集。 假设另一个数据集是8、9、10、11和12。 现在让我们计算一下这两个数据集的 算术平均值。 让我们计算一下平均值。 当你进一步学习统计学时,你将会 理解 总体和样本之间的区别。 我们假设这是 我们数据的整个总体。 我们要计算的是总体平均数。 如你所见,我们要了解的是 总体数据分散的程度。 我知道这些用语听上去都很学术。 以后,你不会有所有的数据。 你只是会有一些样本,而且你需要 试图估计整个总体 的情况。 我不希望你现在过多地担心这些用语。 但如果你要在统计学上更进一步,我只是 提前预告一下。 现在,总体平均数,或这个数据集的算术平均数 它是-10加0加10 加20加30,除以--我们有五个数据点--除以5。 这等于什么呢? -10与10相抵消,20加30是50 除以5,等于10。 另外一组数据的平均值是多少? 8加9加10加11加12,所有这些除以5。 我们可以这样想,8加12是20, 9加11又是一个20。这是40,然后 我们有一个50, 因为要再加10。 同样地,50除以5. 这和前一组的总体平均数完全相同。 如果你不想过多考虑总体或样本这两个用词 在这里的使用,我也可以说这两组数据集有 完全相同的算术平均值。 当你对所有这些数字进行平均并除以5 我的意思是当你把这些数字的总和除以5时, 你会得到10。这些数字加起来除以5, 你也会得到10。 但是很明显,这几组数字是不同的。 你知道,如果你只是看这个数字,你会觉得 也许这两组数字是非常相似的。 但是当你看这两组数据时, 有一件事可能会引起你的注意。 这些数字都非常接近于10。 我的意思是,这里离10最远的数字也就隔了2。 12离10只差2。 而在这里,这些数字离10更远。 即使是较近的数字到10也差了10,而这些更是离10 差了20 因此,这里左边这个数据集,比右边这个数据集更加 分散是吗? 左边这些数字比起右边这些数字 离我们的平均值更远。 因此,让我们考虑一下我们可以如何用不同的方式来衡量 分散性,或者说 我们的数据平均而言,离中心有多远? 有一种方法,这是最 最简单的衡量方法,就是极差(又称:全距)。 你不会经常看到它被使用,但它是一种 非常简单的衡量方式,可以理解最大和最小的数字之间的 差距有多大。 你从字面上取最大的数字,也就是 我们例子中的30,然后从这个数字中减去最小的数字。 30减去-10,等于40,这告诉我们 最大的数字和最小的数字之间的差值 是40,所以我们这个数据集的极差是40。 而这里,极差是最大的数字,12,减去最小的 数字,也就是8,等于4。 这里,极差实际上可以很好地衡量 分散性。 好吧,这两个数据集的平均值都是10。 但是当我比较极差时,这个数据集的极差要大得多, 这告诉我左边是一个更分散的集合。 但极差总是不能告诉你全貌。 你可能有两个数据集的极差完全相同 但是,根据数字的组合方式,它们 可能仍然有非常不同的 数字分布。 而你会看到最常使用的一个度量 被称为方差。 实际上,我们在这段视频中还将看到 标准差。 标准差可能才是最经常使用的, 但它与方差有着非常密切的关系。 方差的符号-- 我们要考虑的是总体方差。 再一次,我们假设这是我们总体的所有的数据, 我们不是在抽样, 不是在抽取数据集的一个子集。 方差,它的符号就是这个σ,这个 希腊字母,平方。 这就是方差的符号。 我们将看到,σ这个字母实际上是 标准差的符号。 这是有原因的。 回到方差,方差的定义你从字面上看 就是把这些数据点中的每一个,找到这些数据点 和你的平均值之间的差异,将其平方,然后 取这些平方的平均数。 我知道这听起来很复杂,但是当我 实际计算时,你会发现它并不难。 记住,这里的平均值是10。 我取了第一个数据点。 让我在这里写出计算步骤, 把黑板向下划动一点。 我取了第一个数据点。 -10。 从这个数据中,我减去我们的平均值,然后我 将其平方。 我找到了第一个数据点和平均数之间的差值, 然后将其平方。 这基本上是为了使它成为正数。 加上第二个数据点,0减去10 -- 这是平均值,是这里这个10 -- 平方,然后加上 10减去10的平方 -- 前一个10指的是数据集中间的10 -- 加20减10--那是数据集20--的平方 加上30减去10的平方。 所以这是每个数字 与平均值之间的平方差。 这是平均数。 我找到每个数据点与平均数之间的差值, 将其平方化,并且求和。 然后,除以这些数据点的数量。 所以我在取这些数字的平均值, 取这些平方距离的平均值。 当你在口头上说方差的计算步骤时,它听起来非常 复杂。 但你只需要取每个数字。 找出它到平均数的差值,将其平方, 取出这些平方的平均值。 我有1,2,3,4,5个平方,除以5。 那么,这等于什么呢? 负10减去10是负20。 负20的平方是400。 0减去10是负10的平方是100,所以加100。 10减去10的平方,就是0的平方,也就是0。 加上20减10是10的平方,是100。 加30减10,也就是20,平方是400。 所有这些除以5。 我们现在得到什么呢? 400加100是500,再加500是1000。 它等于1000/5,也就是等于200。 所以在这种情况下,我们的方差将是200。 这就是我们对分散性的衡量。 让我们把它与这边的数据集进行比较。 让我们把它与这个分散程度较低的数据集的 方差进行比较。 让我把黑板往边上滚动一点,这样我们就能 写下计算步骤了。 或许我该把黑板往上滚动一点。 好的。 让我计算一下这个数据集的方差。 我们已经知道了它的平均值。 所以这个数据集的方差将等于8 减去10的平方,加上9减去10的平方,加上10减去10的 平方,加11减10--让我向上滚动一下-- 的平方,加12减10的平方。 记住,10是我们计算得出的平均值。 你必须先计算出平均值。除以 -- 我们有1、 2、3、4、5个平方差。 所以这等于......8减去10是负2 平方,是正4。 9减去10是负1的平方,是正1。 10减去10是0的平方。 你仍然得到0。 11减去10是1。 将其平方,你会得到1。 12减去10是2。 将其平方,你得到4。 那么这等于什么呢? 所有这些除以5。 是10/5。 所以这是--好的,得出的计算结果是10/5, 等于2。 所以这里的方差--让我检查一下我没算错。 是的,我们计算得出10/5。 所以这个不那么分散的数据集的方差 小了很多。 这里的这个数据集的方差只有2。 这会让你觉得, 右边这个比起左边的, 绝对是一个分散性较小的数据集。 方差的问题是,你取这些数字 找到它们和平均数之间的差值, 然后你把它平方化。 这就给了你一个人为处理过的数字, 考虑一下单位,比方说 如果这些是距离。 所以这是负10米,0米,10米,这是8 米,以此类推,那么当你将其平方时, 就会得到以平方米为单位的方差。 这个单位就有些奇怪了。 因此,人们更喜欢使用标准偏差来表达, 也就是方差的平方根, 或者σ平方的平方根。 而标准差的符号 就是σ。 现在我们既然已经算出了方差, 就很容易算出这两个数据集的 标准差了。 第一组数据的标准差是什么? 第一个数据集的标准差是200的平方根。 200的平方根是什么? 2乘以100的平方根。 这等于10根号2。 这是第一个数据集。 现在,第二个数据集的标准差是 其方差的平方根,也就是根号2。 所以第二个数据集的标准差是 第一个数据集的1/10。 这是10根号2,而这只是根号2。 所以这是右边标准差的10倍。 而标准差,能让我们更能了解这两组数据的分散程度。 这样想想, 左边这个是右边标准差的10倍。 让我们记住我们是如何计算它的。 方差,我们计算出每个数据点 离平均值有多远,将其平方化,然后取 这些数据的平均值。 然后我们取了平方根,实际上只是为了使单位和初始数据统一, 最终的结果是,我们说第一组数据集的标准差 是第二组数据的10倍。 让我们看一下这两个数据集。 这个数据集有另一个数据集10倍的标准差, 这样我们就能更直观地理解,对吗? 两个数据集里都有一个10,但这两个数据中的每一个数据, 9离10只有1,0离10 差了10,少10倍。 8离10只有2。 而-10离10有20。 所以左边这离的数据平均来说,离平均值有右边的10倍远。 因此,标准差,至少在我看来,是给了一个 能更好地衡量数据 与平均值距离的方式。 总之,希望你能觉得这个视频对你有用。