If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

统计简介:平均数,中位数和众数

视频字幕

从现在开始我们要在统计的世界里遨游了, 我们开始学习 各种数据了。 统计就是全部关于数据的。 作为我们遨游统计世界的开端, 我们会跟 描述统计打交道。 假设我们有一堆数据,然后我们 想要在不提供所有数据的前提下 描述这些数据, 我们能否通过一小部分的数字来描述呢? 这就是我们这期视频的重点。 当我们学会如何计算 描述统计的时候, 我们就可以得到关于这些数据的推论了, 包括一些结论,包括一些判断。 然后我们就开始跟推论统计打交道, 开始做推论。 首先把其他的先放一边,我们先来思考 我们如何来描述数据。 假设我们有一组数字。 我们可以把这看作是数据。 也许是我们测量的花园里的 植物的高度。 假设我们有六盆植物。 高度分别是4英寸、3英寸、1英寸、6英寸、 又一个1英寸,最后一个是7英寸。 然后假设有人说——在另一个房间, 没有看到你的那些植物,就说, 你知不知道,你的植物的高度是多少呢? 他们只是想得到一个数字。 他们希望得到一个数字 能代表所有这些不同高度的植物。 你会怎么做呢? 那么,你会说,好吧,我们怎么才能用—— 也许一个特定的数字。 也许我需要一个数字来表示一个中间数。 也许我需要一个最常出现的数字。 也许我需要一个可以代表 这些数字的中心。 如果你想的是这些内容的话, 你就和那些 首先发明描述统计的人们 想的一样了。 他们会说,那我们应该怎么做呢? 我们首先想的是平均数的概念。 在我们的常识里,平均数 有一个非常特殊的含义,我们待会儿会学到的。 当人们说到平均时, 说的就是算数平均数, 我们待会儿就会学到它。 但在统计学里,平均代表了更广泛的概念。 它就是表示一个典型的, 或者说中间数,或者——这些都是或者。 这真的就是尝试去求 一个集中的数字。 所以我重复一遍,你有一堆数字。 你想要通过某一个数字来表示这一堆数字 而我们称之为平均,在某种程度上 是这些数字的一个典型的数字,或者中间的数字, 或者中心的数字。 我们待会儿就能看到,平均有很多种类型。 第一种你可能非常熟悉了。 这就是人们经常提到的, 测验的平均分或者平均身高。 这就是算术平均数。 我来写下来。 我用黄色来写,算术平均数。 当算数是一个名词时,我们称之为计算。 当算数是一个形容词就像现在这样,我们称之为算数的, 算术平均数。 其实就等于这些数字的和 除以——这是人类想出来的一个 很有帮助的定义——这些数字的和除以 数字的个数。 据此来看,这些数据的 算术平均数是多少呢? 我们来算一下。 就等于4加3加1加6加1 加7除以数据点的个数。 一共有6个数据点。 所以我们要除以6。 然后4加3是7,加1是8,加6是14, 加1是15,加7。 15加7是22。 我再来算一遍。 7、8、14、15、22,这个总数除以6。 我们可以写成带分数的形式。 22除以6得到3余4。 所以是3又4/6,也就等同于3又2/3。 我们也可以写成3.6 6循环的形式。 所以这也等于3.6 6循环。 我们可以用任意一种方式来表示。 这是一个具有代表性的数字。 这是在尝试得到一个集中的数字。 我重复一遍,这些都是人类发明的。 从来没有人——没有人 在一个宗教学的文件里找到说, 这就是算术平均数 的定义。 这不是纯计算 比如说求圆的周长, 这就是——一种——我们 了解这个宇宙的方式。 这不是了解宇宙的方式。 这是人类发明的一个 对人类很有帮助的定义。 现在还有其他的方式来计算平均数 或者说找一个典型的数字或者说中间值。 其中一种非常典型的方式就是中位数。 我来写中位数。 我没有新的颜色了。 我用粉色来写中位数。 这就是中位数。 中位数就是字面意思去找那个中间的数字。 所以如果你将集合里所有数字都排好序 然后找到最中间的那个数字,这就是中位数。 据此来看,这组数字的中位数 是什么呢? 让我们来找一下。 我们先来排序。 首先是1。 还有一个1。 然后是一个3。 然后是一个4、一个6、一个7。 所以我刚才只是重新排序了。 那中间的数字是多少呢? 你看这里。 因为这组数据是偶数的,我们有6个数字, 所以没有一个中间的数字。 那你就需要找出这里中间的那两个数字。 这里有两个中间的数字。 3和4。 所以这总情况下,当有连个中间的数字, 你就需要取这两个数字的中点数。 本质上就是取这两个数字 的算术平均数为中位数。 因此中位数就是 3和4之间的数,也就是3.5。 因此这里的中位数就是3.5。 所以假如你的数据是偶数个的,中位数 或者说中间的两个数,本质上 就是中间两个数的算术平均数,或者说中间两个数字之间的中点数。 如果数据是奇数个的, 那就更容易算出来了。 为了让大家看得更明白,让我 再给出一组数据。 假设这组数据——我会 先排好序——假设这组数据 是0、7、50,然后,10000,最后1000000。 假设这就是我们的数据。 偏差挺大的数据。 在这种情况下,中位数是多少呢? 这里有5个数字。 也就是奇数个数字。 所以很容易找到中间数。 中间数就是大于其中两个数 又小于另外两个数。 那就正好是中间的数字了。 所以在这道题目里,中位数是50。 现在,第三种方式来表示集中的数字, 这也可能是 生活中用得最少的情况了,就是众数。 人们通常会将它遗忘。 听着好像很复杂。 其实实际上就是 一个非常直观的概念。 在某些情况下,它就是最基础的数据。 众数就是数据组里出现次数最多的那个数字。 如果有一个出现次数最多的数字。 如果所有的数字出现的次数都相同, 如果没有某一个特定数字出现的次数更多, 那么就没有众数。 根据众数的定义来看, 在最初的这组数据里, 出现次数最多的数字是哪一个呢? 这里只有一个4。 只有一个3。 但有两个1。 还有一个6和一个7。 所以这里出现次数最多的数字 就是1。 所以众数,最典型的数字,出现次数最多的数字 就是1。 所以,你看,这些都是用不同的方式 来尝试表述一个特定的,或者说中间的,集中的数字。 但它们的做法完全不同。 随着我们更深入学习统计学, 我们会看到它们在不同情况下的优势的。 这些都是很常见的。 当数据偏差很大的时候中位数就是很好的代表 否则就会把算术平均数 扭曲了。 众数在某些情况下很有用, 特别是当某一个数字出现的次数 及其频繁的时候。 无论如何,我就先讲到这里。 然后我们——在接下来的几期视频中,我们会更深入地 学习统计学。