If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

聚集, 间隔, 峰和异常值

了解数据分布的特征,如聚集,间隔,峰和异常值的例题.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

[画外音]在这个视频中,我想讲一些 关于分布情况的例子。尤其关注的是那些不同的分布特征, 比如分布中的集群(聚类)、间隔和峰值。 所以现在,我想给出一些例子。 以下哪些选项是关于分布情况的 准确描述? 选择所有符合的选项。 第一个选项说的是是分布里有一个离群点(异常点)。 一个离群点(异常点)指的是一个偏离了 其他数据点的数据点。 它往往比其他形成集群(聚类)的数据点都 大得多或小得多。 如果我们观察这里会发现, 我们有很多处于0到6之间的数据点。 让我们想一想他们在指的是什么数据: 是超市里每个苹果的保质期。 比方说,我们看到有一、二、三、四、 五、六、七个苹果的保质期是0天, 所以,(哈哈),它们马上要坏了。 你看你有一个,两个,三个,四个,五个,六个,七个, 八个苹果还可以再吃一天。 你有两个苹果 还有六天保质期。 你还有一个苹果可以吃10天,这个数据有点异常。 它是我们这里的离群值(异常值)。 它比我们这其他所有的数据都要大。 我想说,这肯定有一个异常点。 我们只有这一个数据点 是在数轴上的最右边, 而且比其他苹果的保质期都要长很多。 所以这个分布里有一个异常点,这个就是异常点。 (这个选项说)分布有一个从4天到6天的集群(聚类)。 我们确实看到了一个从4天到6天的集群(聚类)。 一个集群(聚类),你可以想象,它是一组分布在一起 的数据。你能看到有一组苹果的 保质期是在4到6天之间。 你肯定能看到这个集群(聚类)。 因为我已经选择了两个选项, 所以我不可能选这个“没有符合选项”的选项。 让我检查一下我的答案。 让我做几道这样的题目。 以下哪些选项是对分布情况的 准确描述? 同样地,我们要选择所有适用的选项。 (选项)这个分布有一个离群点。 让我们来看看这个分布。 这里确实有一个数据点是在最高端, 还有一个数据点在最低端。 但我没有看到任何数据点是处于 远高于或远低于大部分数据的位置。 如果我有一个数据点在这里,那么, 我就会说这是一个在右的离群点, 或者一个正向的离群点。 如果我有一个数据点在左边的位置,一直到超出屏幕,那么这也可以是一个离群点。 但是在我们现在这个分布里,我没有看到任何明显的离群点。 所有的数据都是非常集中的。 所以我不会说这个分布有离群点。 (选项)分布在22度的地方有一个峰值。 没错,看上去确实是这样。 让我们看看我们实际测量的是什么: 爱荷华州埃奇顿7月份每天的最高温度。 从分布上来看,确实我们在最高温度是22度那里 有最多的天数。 7月份出现天数最多的最高温 是22度,所以这是一个峰值。 如果你把它想象成一座山的话 这就是山峰,这是一个最高点。 起码在局部范围内,最多天数是 在22度这里。 所以我会选这个选项,在那里肯定有一个峰值。 既然我已经选了选项,我就不会再选 “以上都不是”。 我们再来做几个这样的题目吧。 哪些选项是对以下分布情况 的准确描述? 第一个选项,分布有一个离群点。 让我们看看。 面包店每天的客流量。 让我们看看,最低的... 他们没有哪一天 的客流量是0到19人。 也没有哪一天的客流量是20到39人。 看上去有9天的 客流量在40到59人之间。 有20天的客流量是60到79人。 一直到最后,这里看起来有8天 的客流量是180到199人。 关于离群值,这里似乎并没有 哪一天有异常的客流量。 没有哪一天的客流量是在这里的, 比如有500个客人。 所以我想说这个分布没有异常点。 (选项)这个分布有一个客流量从0到39个的集群(聚类)。 0到39的客流量是在这里,0到39个客人 没有哪一天的客流量是在0到39之间的, 没有客流量是0到19的日子,也没有客流量是20到39的日子。 所以那里绝对不是一个集群。 我想说的是,集群应该是在几天之间, 客流量是40到199那几天。 绝对不是0到39人, 因为没有客流量是0到39人的日子。 所以我很有把握地选“以上都不是”。 我们再来做一题。 哪些选项是关于以下分布的 准确描述? (笑)好的。 (选项)12到13间有个峰值。 让我看看这是在测量什么,这个数据是关于什么的。 方老师班上学生的考试成绩。 有一个学生的成绩在0到1分之间 这是20分制, 我猜有20道题目。这个同学的成绩在0到1分之间。 然后你会发现,没有学生在 2到3分,或者4到5分,或者6到7分这几个分数段里。 我们有一个学生在8和9分之间。 10到11分的分数段里有3个学生。 分数继续增长, 好像有12个学生得了16或者17分, 或者16和17之间(比如16.5之类)的分数, 如果打分有小数点的话。 然后看起来有10个学生是在18到19的分数段。 (选项)分布在12到13分间有一个峰值 12到13分, 我们有5个学生在这个分数段,但这并不是一个峰值。 只看一下到14到15分段的情况,就有发现有更多的学生。 所以这绝对不是一个峰值。 如果你把这看成是一座山的话, 你肯定不会把这个点说成是一个山峰。 你会说这个分布确实有一个峰值。 它在16到17的分数段里 有最多的学生。 所以那里才是峰值,而不是12到13分。 所以我不会选择那个第一选择。 (选项)这个分布有一个离群点。 嗯,对的,看看这里:你有这个离群点。 大多数学生的得分是在8到19分之间, 然后只有一个学生的 分数是在0到1分之间,这很明显是个离群值。 你甚至可以从图表上直观地看出这一点。 它甚至与分布的其他部分没有连在一起。 它靠得太左边了。 如果一个数值过于偏向左边或右边, 如果它异常地低或异常地高,这就是一个离群值(异常值)。 我肯定要选“分布有一个离群值”, 所以不能选“以上均不符合”。 好了,我们完成了所有的题目。