If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

示例: 比较不同的分布

使用展形、中心、分散程度和异常值的特征来比较分布.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

在这个视频里, 我们会开始比较分布图。 那么比如说,我们有两个分布图 显示了在一月里不同的城市的 不同的温度情况。 这是波特兰的温度分布。 比如说,有8天的温度 在1到4摄氏度之间; 有12天的温度在4到7摄氏度之间; 等等。 接着这里是密尼苏达州的温度分布。 现在,当我们做这些比较的时候, 我们会把注意力放在分布图的中心处, 进行比较,然后再对分散程度进行比较。 有时,人们也会谈论 这些分布的变异性。 所以,这些就是 我们将要比较的东西。 为了要进行比较, 我们实际上会试着用眼睛观察一下。 我们不会试着选出一个中心趋势的度量, 比如平均值或者中位数 然后准确的计算出分布对应的数值。 如果中心离得很近,我们可能会想要去计算具体数字, 但是如果我们能用眼睛看出来就更好了。 分散程度和变异性也是一样。 在这两种情况里, 我们都可以选择不同的度量方式。 平均值和中位数可以很好的反映中心。 考虑分散程度和变异性时,可以用极差,四分位差, 平均绝对离差,和标准差。 有各种各样的度量方式。 但是有时候,你可以通过观察来估计一下。 那么,在这第一个比较中, 哪一个分布有更高的中心值,或者它们的中心值是否差不多? 如果你看一下波特兰的分布图, 观察一下分布的中心,比如说我们只考虑平均值, 虽然我觉得在这里平均值和中位数 相当近, 看起来平均值大约是 7或者比7稍微大一点儿。 所以, 平均值大概是在这个范围内。 我们的中心趋势也许是在5到7之间。 这将会是我们的平均值或者中位数。 在密尼苏达州的分布图中,看起来我们的中心 更接近于大约-2 或者-3摄氏度。 所以在这里,尽管我们不知道 这些分布的具体的平均值 或者中位数, 你还是可以说波特兰的分布图的 中心值更高一些。 中心值更高。 但是,你会想要测定一下平均值或者中位数。 现在,分散程度和变异性的情况怎么样呢? 如果你简单的想一想极差, 你可以看到在这里没有低于1摄氏度 或者高于13摄氏度的温度。 所以这里你大约最多有13度的极差。 实际上,这第一列有哪些数字? 可能有很多3度左右的温度, 甚至3.9度, 相似的,最后这一列 可能有很多10.1度左右的温度, 但是你在这边最多会有12度的极差。 而在这边,看起来你会有, 会有大约27度的极差。 所以,根据这个,哪怕你只是用眼睛看一下, 这显然是----我们的横轴用的是同样的尺寸, 在这里,温度轴, 而这个的分布显然是比这边的这个分布 要宽的多的。 所以你会说,密尼苏达州的分布 有一个更高的分散程度 或者说变异性。 所以,这边是高分散程度。 让我们再做一个例题。 我们会用一个不同的方式表现这些数据。 我们被告知在奥林匹克竞赛中, 很多比赛都会有好几轮。 这其中一项比赛时男子100米仰泳。 上面的散点图显示了2012年奥林匹克竞赛中 最快到达重点的的8人的 完成时间,以秒为单位。 所以是绿色的这个,决赛成绩。 下面的散点图则显示了相同的8名选手 在半决赛中的用时。 那么,这两个分布图中 哪一个的中心值更高? 再次重申,在这里, 实际上用眼睛观察一下中位数 可能会更容易。 要得到平均值 就得做一点数学了。 但是比如说中位数---- 我们来看, 有1,2,3,4,5, 6,7,8个数据点。 所以中位数会在 最高的的4个数和最低的四个数之间。 所以这就是 决赛的中心趋势。 看起来大概是57.1秒。 如果我们想一想中位数, 半决赛的中心趋势, 我们来看。 1,2,3,4, 5,6,7,8, 看起来数量是对的。 所以这个大约是比57.3大一点。 所以,半决赛似乎有更高的 中心趋势----这似乎有点不合乎常理。 你会以为参加决赛的人平均会 比在半决赛中游的更快。 但是这不是数据所显示的信息。 所以半决赛这一轮的中心值更高。 中心值更高。 而我只是用眼观察出了中位数。 我估计第二个分布图的平均值 也会更高。 那么变异性呢? 重申一次,如果你看一看极差, 这些都在同样的范围内, 如果你只是看一看这里的变异性, 决赛的极差是比 半决赛的极差要大的。 所以你会说决赛 有更高的变异性。 变异性。 它有更高的极差。 观察一下,它看起来 有更高的分散程度,当然有时候 一个分布可能有更高的极差 到那时更低的标准差。 举个例子,你可能会有一组数据, 其中有两个白色的数据点距离的非常远, 但是其余的数据点 里彼此都非常非常近, 所以,比如说,一个类似于这样的分布图... 我会画一个横轴, 这样你就可以想象这是一个分布图, 一个类似这样的分布图 可能会有比另一些分布图 更高的极差,但是一个更低的标准差。 让我来... 我现在在画一个非常粗略的例子。 一个像这样的分布图可能有更低的极差 但是实际上可能有更高的标准差。 也许它会有比上面的这个分布图 更高的标准差。 实际上,我甚至可以画的更好。 一个像这样的分布图 会有一个更低的极差 但是也会有一个更高的标准差。 所以你不能只看极差, 不能总是只看其中一种度量 比如极差或者标准差 然后就能确定了; 但是在这个例子中,我们可以很确定的说, 当你通过观察来判断时, 这个绿色的图,也就是决赛数据, 确实看上去有更高的极差,更高的变异性, 所以我认为这没什么问题。 这是一个高水平的比较。