If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

数据基本统计

当我们的数据储存在文本文件、电子表格、或者数据库中,我们可以对描述数据集的统计量进行计算。
我们可以使用很多工具进行数据分析,用哪个工具,取决于我们的需要和能力。在这里我们使用两种最流行的工具,电子表格与SQL,你选哪个都行,只要你用的顺手。我们的目标是要理解数据,所以只要是能帮助我们理解数据的工具都行。

使用统计函数

首先:我们得有数据。我们经常听说快餐是不健康的,那么现在我们来分析一些快餐行业的数据,自己找找答案。
我已经把快餐菜单中菜品的营养数据载入 谷歌电子表格SQL 数据库 中。
现在我们来试着回答一些关于这些数据的问题……

一共有多少数据呢?

一个数据集的最简单的统计量就是它有多少行。这是我们应该知道的第一件事,因为它会告诉我们这个数据集有多么全面(或者有多么不全面),并且能让我们明白从中得到的结论是否可靠。
  • 在电子表格中,我们可以看左边的行数,或者使用 COUNTA 函数
  • 在 SQL 中,我们可以使用 COUNT 函数
测验你的理解
快餐数据集中有多少行数据?
  • 你的答案是
  • 一个整数,例如 6
  • 一个最简真分数,如 3/5
  • 一个最简假分数,如 7/4
  • 一个混合带分数,例如 1 3/4
  • 一个精确的十进位小数,例如0.75
  • pi 的倍数, 例如 12\ \text{pi} 或 2/3\ \text{pi}$

数值列的平均数是什么?

要了解一个数值列的数值范围,我们可以计算平均数等统计指标,以及其他更复杂的指标,比如中位数、众数、标准差等。
测验你的理解
热量的平均数是多少(四舍五入)?
  • 你的答案是
  • 一个整数,例如 6
  • 一个最简真分数,如 3/5
  • 一个最简假分数,如 7/4
  • 一个混合带分数,例如 1 3/4
  • 一个精确的十进位小数,例如0.75
  • pi 的倍数, 例如 12\ \text{pi} 或 2/3\ \text{pi}$

一列中的最大值和最小值是多少?

另一种了解数值列的方法是计算此列的最大值和最小值。
测验你的理解
最小的单份重量是多少?
  • 你的答案是
  • 一个整数,例如 6
  • 一个最简真分数,如 3/5
  • 一个最简假分数,如 7/4
  • 一个混合带分数,例如 1 3/4
  • 一个精确的十进位小数,例如0.75
  • pi 的倍数, 例如 12\ \text{pi} 或 2/3\ \text{pi}$

最高含钠量是多少?
  • 你的答案是
  • 一个整数,例如 6
  • 一个最简真分数,如 3/5
  • 一个最简假分数,如 7/4
  • 一个混合带分数,例如 1 3/4
  • 一个精确的十进位小数,例如0.75
  • pi 的倍数, 例如 12\ \text{pi} 或 2/3\ \text{pi}$

一列的总和是多少?

数值列的总和是很有用的,举例来说,很多公司会关心与它们盈利能力相关的指标,比如销售额或页面浏览量,统计这类指标的总和就能看出公司经营情况是否良好。
测验你的理解
如果列表中的 每一样 食物你都吃了一份,那你得到的总热量是多少?
  • 你的答案是
  • 一个整数,例如 6
  • 一个最简真分数,如 3/5
  • 一个最简假分数,如 7/4
  • 一个混合带分数,例如 1 3/4
  • 一个精确的十进位小数,例如0.75
  • pi 的倍数, 例如 12\ \text{pi} 或 2/3\ \text{pi}$

筛选数据

当我们想要在数据集的一个 子集 中计算统计量时,我们就需要进行数据筛选。比如说我们不想统计汉堡,我们只想统计奶昔的情况。
最简单的筛选是我们只保留数据某列等于某个定值的那些行。比如,我们可以将快餐数据集筛选只留下 “type” 列为 “Milkshake” 的那些行。
  • 在电子表格中,使用 IF 函数,比如使用 COUNTIF 来统计某列数据等于特定值的行数。相关的函数还有 AVERAGEIFSUMIFMINIFSMAXIFS
  • 在 SQL 中,使用之前的函数时加上 WHERE 作为附加条件
测验你的理解
数据集中有多少奶昔?
  • 你的答案是
  • 一个整数,例如 6
  • 一个最简真分数,如 3/5
  • 一个最简假分数,如 7/4
  • 一个混合带分数,例如 1 3/4
  • 一个精确的十进位小数,例如0.75
  • pi 的倍数, 例如 12\ \text{pi} 或 2/3\ \text{pi}$

可以有更复杂更强大的方法来筛选数据。你可以按照大于或小于某个值得条件做筛选,比如 calories > 500,也可以用不同列的多个条件组合进行筛选,比如 calories > 500 AND serving_size < 200。使用哪种方式取决于你想如何切片和分割数据。

分类汇总

我们之前的操作都是对整个数据集或者其子集计算一个单一的统计量。但有时我们需要看到数据按组分类之后的统计汇总,比如每个餐厅的菜品数量或者每类食物的平均热量。
谷歌电子表格的透视表截图,其数据如下:
类型平均卡路里
Breaded Chicken Sandwich522
Burger620
Chicken Nuggets275
French Fries314
Grilled Chicken Sandwich408
Milkshake607
  • 在电子表格中,使用透视表 按某特定列将数据分组,并显示你所需要的此列数据的统计量。
  • 在 SQL中,对目标列使用 GROUP BY 函数
现在我们知道如何生成数据按组分类之后的汇总统计表,我们可以马上找到很多问题的答案。
测验你的理解
哪家餐馆食物的卡路里最低?

哪家餐厅提供热量最高的食物?

戴里女王的食物的最大卡路里数量是什么?
  • 你的答案是
  • 一个整数,例如 6
  • 一个最简真分数,如 3/5
  • 一个最简假分数,如 7/4
  • 一个混合带分数,例如 1 3/4
  • 一个精确的十进位小数,例如0.75
  • pi 的倍数, 例如 12\ \text{pi} 或 2/3\ \text{pi}$

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.