主要内容
使用 1.5xIQR 规则识别离群值
离散值是分布中总体模式之外的数据点。
下面的分布显示了 名申请人的驾照考试成绩。你看到多少个异常值?
有些人可能会说有 个离群值,但其他人可能不同意,说有 或 个离群值。统计学家已经发展出许多方法来确定什么应该被称为离群值,什么不应该被称为离群值。
一个常用的规则:如果一个数据点高于第三个四分位数 ,或者低于第一个四分位数,那么它就是一个离群值。换句话说,低的离群值低于 ,高的离群值高于 。
让我们从上面的分布上试试。
步骤1)找到中位数、四分位数和四分位数范围
这里列出了 个成绩。
Step 2) 在第一个四分位数以下计算 ,并检查低离群值。
Step 3) 在第三个四分位数以上计算 ,并检查高离群值。
额外学习:在盒须图中显示离群值。
盒须图通常将异常值显示为与图的其余部分分离的点。
这是从上方的分布的盒须图,没有显示离群值。
这是从上方的分布的盒须图,有显示离群值。
请注意,异常值是如何以点表示的,而晶须很难去更改。晶须延伸到数据中不是离群值的最远点,即 .。
下面是用于比较的原始数据集。