If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

判断数据集的异常值

使用四分位距(IQR)来判断数据集的异常值。

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

[讲师]我们这里有15个数字。 让我们思考里面是否有异常值。 为了帮助我们做到这一点,让我们把 数据分布可视化。 那么我们开始吧。 在这条横轴上, 我画了1到19. 我们有两个1. 这是第一个1,这是第二个1。 我们有一个6. 把6放在这里。 我们有一个13, 不对,是两个13。 画在这里,第一个13,第二个13. 我们有三个14。 第一个14, 第二个14, 第三个14。 我们有两个15. 第一个15 第二个15。 我们有一个16 把16画在这里 我们有三个18 一个,二个,三个 第一个 第二个 然后画第三个。 我们有一个19 把19画在这里 所以当你 当你从视觉上看数字的分布时, 主要是分布在 这个区域,这里。 所以有些人可能会说: “那么,我们有三个异常值, 是两个1和一个6。” 有些人可能会说: “6其实挺靠近主要分布区域的, 可能只有那两个1是异常值。“ 这两种说法可以说都是合理的。 为了验证合理性, 统计学家有时会使用一个规则。 我们把那些 比Q1低1.5倍四分位距以上 或 比Q3高1.5倍四分位距以上 的数值叫做异常值。 我们讲的这个概念具体是什么样的呢? 让我们先找出中位数, 再找出Q1和Q3, 然后我们就能求出四分位距。 然后我们就可以根据定义来计算 什么是异常值了。 如果你能理解前面讲的这些, 那么我建议你可以暂停一下这个视频, 并试着自己去解答。 或者现在跟着我一步步计算。 好的,那么这里的中位数是哪个呢? 中位数是排在最中间的那个数。 我们有15个数字,所以最中间的数是在 那个两边都有7个数的位置。 所以我们要找的是第8个数字。 1,2,3,4,5,6,7个数字 是这个数吗? 是的,是我们的中位数。 因为右边你也有 1,2,3,4,5,6,7个数字。 所以这是中位数,我们有时称它为Q2。 这是我们的中位数。 那么Q1是什么呢? Q1是这第一组的最中间的数。 这第一组有七个数字。 所以最中间的数字将是第四个数字。 这有三个,那有三个。 左边有三个数,右边有三个数。 所以这就是Q1。 然后Q3是 右边这组最中间的那个数。 这组也有七个数字。 所以,最中间的数在这里。 它左右两边个有三个数。 这就是Q3. 所以四分位距是什么呢? 四分位距 是 Q3 减去Q1, 18和13的差值。 就是18减去13 等于5. 现在我们来找出异常值。 异常值是数值小于 所以异常值是, 小于 Q1 减去1.5倍的 四分位距。 注意,这并不是什么自然法则。 这是统计学家们 作出的规定, 如果我们想对异常值有一个更好的定义, 我们会认为 异常值是 比Q1低1.5倍四分位距以上 或 比Q3高1.5倍四分位距以上 的数值。 再一次声明, 这是统计学家作出的规定。 有些人觉得不应该是1.5倍,应该是1.6倍. 有些人觉得是1倍或者2倍,或是别的数值。 但1.5倍是现在比较倾向于使用的。 然后我们来看看异常值是哪些。 我们已知Q1, 所以是13 减去1.5倍四分位距。 四分位距是5 所以是1.5乘以5,等于7.5 所以是7.5 13减去7.5等于? 13减去7等于6 然后再减去0.5,就是5.5 所以我们的异常值 应该小于5.5 或者 Q3等于18, 这里(之前算过了)等于7.5 18减去7.5 等于25.5。 或者异常值 应该大于25.5 所以根据计算得出 这里关于异常值的范围。 我们不是凭感觉 认定1是异常值或者6是异常值。 根据求出的异常值范围, 只有这两个1是小于5.5的。 这里是5.5的分界线。 数值6这个点不在异常值的范围里。 然后我们在右边没有找到异常值。 现在要考虑的另一件事是 根据Q1,中位数,和全距, 整个数列的范围 画箱线图(箱须图)。 有两种思路, 你可以考虑异常值, 或者不考虑异常值。 我们有几种方法可以做到这点。 让我清一下屏, 既然这里我们都已经搞清楚了, 就让我把这些先擦除。 我们现在要画箱线图(箱须图)。 让我再添加一个数轴, 再加一个,放两个好了。 这是第一个, 再在底下放一个。 这是另一个。 现在如果只是要我们画 一个经典的箱线图(箱须图), 中位数是14, 两边都标记一下。 中位数是14 中位数是14 Q1是13 Q1是13 Q1是13 Q3是18 Q3是18 Q3是18 这就是箱子的部分。 让我把这个箱形画完整。 让我画得直一点, 好了。 这是一个箱形。 这也是一个箱形。 我就是在重复之前的事。 如果我们不考虑异常值, 我们想知道全距是什么。 我们的数列是从1到19. 所以一种作法是, 我们从1开始, 然后全距是, 让我重新画得好一点。 我们 从1一直 画到19. 这里,我们涵盖了所有的数 包括两个异常值。 但是如果当我们不想涵盖这两个异常值, 我们想要指出它们是异常值的时候, 该怎么做呢? 我们可以这样, 只涵盖非异常值, 我们这时要从6开始, 因为6在数据里, 并且6不是异常值。 让我画得直一点。 我们要 我们要 从6开始一直画到19 然后我们有异常值, 我们会标出异常值在这里。 这是一个使用同样数据 不考虑异常值的箱线图(箱须图)。 然后这一个是我们特别指出 异常值的箱线图(箱须图)。