If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

平均值与标准差 v.s. 中位数与四分位距

当异常值存在于某个数据集时,学习如何选择"最优的"测量中心与分布的方法。

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

[旁白]我们有九个学生,他们最近 从一个班级规模为9人的小学校毕业。 他们想知道他们毕业一年后 工资的集中趋势是什么? 他们还想了解一下毕业一年后工资的 集中趋势周围的分布情况。 为此,他们都同意把他们的工资输入电脑。 这些是他们的工资情况。 它们是以千为单位计算的。 这些人每年各赚35,000,50,000,50,000,50000,56,000 有两个人赚60,000,有一个人赚75,000,还有一个人赚250,000。 这个人很能赚钱。 电脑会基于这些数据 提供一些的参数。 它给出了两个典型的衡量集中趋势的指标。 平均数大约是76.2。 计算机会把所有这些数加起来, 把这九个数字加起来,然后除以9。 中位数是56,中位数是很容易计算的。 你只需将这些数字排序,然后 取这里的中间数字,是56。 现在我想让你暂停一下这个视频 并思考这个数据集。 对于这个工资总体, 哪种衡量集中趋势的指标会比较好呢? 好的,让我们来思考一下这个问题。 我在这里画一条数轴。 我把数据全都画在这个数轴上,这样我们就能更好地了解。 我们没有办法看到精确的数字, 但是我们能看到的是这些数字 相对于彼此的位置。 我们说这里是零。 我们说这是,让我看看,一,二,三,四,五。 所以这是250,这是50,100,150,200。 让我们来看看。 比方说,如果这里是50,那么这个就 大概是40,我只是粗略地估计一下。 这里大概是60、70、80、90,分布得挺平均的。 我可以把这个画得更整齐一点。 60、70、80、90。 让我把这里也调整一下。 这里的这个40应该 离这个50稍微近一点。 让我把40画在这里。 所以那是40,然后这个是30,20,10。 好的,数轴看上去不错。 让我们把数据都标上去。 一个学生赚了35,000,画在那边。 有两个人赚50,000,不,是三个人赚50,000。 所以,画一个、两个和三个点。 画在这里。 有一个人赚56,000个,画在这里。 一个人赚60,000,不对,实际上是两个人赚60,000。 这样画 一个人赚7.5万,这里是6万、7万、7.5万。 所以画在这里。 然后一个人赚25万。 就那一个人的工资是在这里。 我们计算出平均值为76.2 并把它作为我们对集中趋势的衡量。 76.2大概在这里。 那么,平均数是一个好的衡量集中趋势的指标吗? 对我来说,感觉不是那么好。 因为这个衡量集中趋势的指标(平均数)现在 除了一个数据以外比所有的的数据点都要大。 而原因是就是这个例外的数据点, 我们的数据因为这个在25万的数据点而产生严重的偏斜。 它与整个分布的其他部分离得太远了。 它与其他数据离得太远了,这导致平均数产生了偏移。 这种情况经常发生。 如果你的数据是偏斜的,特别是像 这种工资数据里, 大多数人都赚5万、6万、7万块,但有人可能赚到两百万。 而这就会使平均值或平均数出现偏差, 因为你要把它们全部加起来, 然后除以数据点的个数。 在这种情况下,特别是当你的数据点 会使平均数出现偏移时,中位数会显得比较可靠。 中位数是56,就在这里, 中位数似乎对集中趋势的指示性要强得多。 让我们这样想。 假设最后这个数据点不是250,000(25万) 而是250,000,000,也就是2.5亿 这是一笔巨大的收入。 它会使平均值产生非常离谱的偏移, 但这里它对中位数不会产生任何影响。 因为中位数 和最后一个数多大没有任何关系。 最后这个数据可以是一万亿美元, 可以是十万亿美元, 而中位数始终不变。 因此,当你的数据集存在偏态时, 中位数更可靠。 而在以下情况中,平均数就更有意义了:当你的数据集是对称的; 或者数据大致处于平均值之上和之下的地方; 或者数据没有朝着一个方向偏态, 尤其是像这个例子只有少量数据的时候。 在这个例子中,中位数是一个更加好的 衡量集中趋势的指标。 那么数据的扩散该用哪个指标呢? 你可能会想,我已经告诉你们了 平均数在这里不是好的指标, 而标准差是基于平均值的。 你计算每一个数据点到平均值的距离, 将这些数字平方,然后将这些平方相加, 除以数据点的个数。 如果我们是在计算总体标准差, 那么你需要把刚刚得出的数字开根号。 既然这是基于平均数的,而平均数 并不是一个好的衡量集中趋势的指标, 那么这个异常值也同样会使标准差产生偏移。 得到的标准差非常大, 而这个标准差体现的分布 比你看到的实际分布情况要大得多。 是的,因为你有这一个数据点, 它离平均数或中位数都很远 取决于你想用那种指标,但是大部分的数据点 似乎都更加接近这两个指标。所以对于这种情况, 我们不但选择使用中位数, 而且四分位距也是更可靠的。 我们如何计算四分位距? 你先取中位数,然后再取 前半部分的数据,并计算它们的中位数。 前半部分的中位数是50。 然后你取后半部分的数据, 它们的中位数是,60和75的平均值,也就是67.5。 如果你对这个计算步骤不是很熟悉, 我们有很多 关于四分位距和计算标准差、中位数和平均数的视频。 这里只是大致复习一下。 两个中位数的差值是17.5 注意,这两个数之间的距离,也就是这个17.5, 它是不会变的, 即使这变成了2500亿元。 因此,再一次声明,当你的数据集存在偏态时, 右边这两种指标是更可靠的, 还有一个需要强调的是,如果你的数据集大致对称的话, 平均数和标准差并没有什么问题。 如果数据集里没有明显的异常值 导致数据产生偏斜时, 平均数和标准差也是很可靠的。 但是,如果你的数据会因为 少量数据产生严重偏移,那么中位数 中位数和四分位距会更可靠。 中位数体现集中趋势, 四分位距体现集中趋势附近分布。 这就是为什么你会看到人们在谈论工资时, 会经常谈论中位数, 因为工资的数据往往是像上偏移的。 当我们谈论像房屋价格这样的事时,你会发现 中位数往往比平均值更有代表性。 因为一个社区的房价, 或者一个城市的房价,很多房子可能 在20万到30万左右,但也许有一个巨大的豪宅 售价1亿元。如果你计算一下平均价格, 那就会出现偏移,而这会给人 该城市房价的均价或集中趋势的错误印象。