If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

分布的形状

有些数据分布是对称的,因为数据均匀地在平均值周围排列。有些分布是 "倾斜的",数据偏向平均值的左边或右边。我们有时会说倾斜的分布有 "尾巴"。

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

我这次想要讲的 是分布的形状和 如何形容这些形状 所以这里我们可以看到 我们讨论的是Matt的咖啡店 有不同的年龄段的情况 这里是年龄的直方图 每个柱子表示的是 那个年龄段的顾客的数目 我们没有低于20岁的顾客 我们有一定数量的20~30岁的顾客 还有很多在 30~40岁的顾客 一定数量的40~50岁的顾客 随着年龄增大 顾客量下降 所以当你看到像这样的 分布图时 你会首先想到这些 就好像当你去想象 一只穿山甲时 这里就像穿山甲的身体 然后我们会看到右边有点向 穿山甲的尾巴 我们会用这些词语 去描述数据的分布 所以这里的这个分布 看上去像有一条朝向右边尾巴 左边并没有尾巴 事实上,我们没有小于20岁的顾客 但是我们却有在60~70岁的顾客 甚至有在70~80岁的顾客 甚至80~90岁都有 所以,如果它的形状就是像这样 有一条尾巴 在右侧 这就是右尾分布 我们就叫这个分布是右尾的 我们马上做一些可汗学院的练习题 看看更多的例题 坦白地说,你也需要一起来做 因为我会帮你检验你的知识 这里的例子不是左尾 左尾的话我们能够看到一个这样的尾巴 如果既是左尾又是右尾 你很有可能看到一个近似对称的图 什么是对称?你定义一条中间的线 一种类型的对称就是 线两边的图片 是镜像的 如果你沿着那条线折叠 图像会基本重合 这个图并没有重合 因为如果你认为可能有一条对称的线 你试着折叠之后 会发现根本不重合 线的两边不一致 所以我觉得可以说这是一个右尾的图 看看这个图 每一个顾客退休的年龄 这个图名没起好 但是我们可以凑活看看 图表示了不同年龄段的 顾客数量 所以这是在Logan Assisted Living的 顾客数量 我们可以看到有大量的顾客 年龄在60~70岁 还有一部分的在50~60岁 或者70~80岁 这个分布图看着十分对称 如果我画一条对称线 在这里的话 这个线应该会是在 65岁这里 我猜你会说这条是60~70岁 当你沿着这条线折叠后 就会发现非常对称 但并不是严格对称 这条没有和这条一样高,但是非常接近了 这些和这些接近 这些和这些接近 所以我觉得可以这么说 这是近似对称的 现在我们看看其他选项的意思 左偏斜或者右偏斜 如果你今后学习统计学 会看到这两个词更具体的定义 但是我这里有一个更容易理解的方式 就是当一个图是左尾时 它也就是左偏斜 同理,当一个图是右尾时 它就是右偏斜 另一个去理解左偏斜的方式就是 平均值在中位数 和众数的左边 可能不太好理解 尾巴的说法可能更好理解一些 如果是左尾,就应该是左偏斜 如果是右尾,就应该是右偏斜 我们继续吧 看看另一个例子 可好玩了这个 我们不给出直方图 也没有条状图 这次给出的是一个箱线图 这个图显示了 关键的不同的尾巴 我们可以回忆一下 这个是数据集的最小值 数据范围的底端 所以最小值是 至少有一个11 接下来看看最大值 我们至少有一个25 这条线表示的是中位数 最中间的数是21 这个盒子定义了数据集里面 中间的50%的数据 就是一个分布里最关键的地方 我们可以试着去画出来 这个数据集的直方图 我们现在毫无头绪 因为我们可能有很多个11 尽管这个图的倾斜情况说明不会特别多 但是可能会不止有一个11 但是和这个图匹配的分布图 应该画出来是有 这样一个尾巴 然后上升到这里 这里是分布的大部分值 大概这个样子 我没法现在画出来 因为在做练习 但是画出来的话就是这样 有一个左边的尾巴 有一个左边的尾巴 它的范围相对低一些 不会有很多值出现在这里 假如有很多值出现在左侧 那么这个盒子会应该要左移一些 因为有更大的比例的值在左侧 所以我觉得可以这么说 这个图是左倾斜的 它绝对不是对称的 要是对称的话,那中位数 应该靠近中央 这个盒子应该在中央 它也不是右倾斜的 要是右倾斜的话 你应该可以看到一个右边的尾巴 这边的线应该会 比这里的长很多 下课