主要内容
数据基本统计
当我们的数据储存在文本文件、电子表格、或者数据库中,我们可以对描述数据集的统计量进行计算。
我们可以使用很多工具进行数据分析,用哪个工具,取决于我们的需要和能力。在这里我们使用两种最流行的工具,电子表格与SQL,你选哪个都行,只要你用的顺手。我们的目标是要理解数据,所以只要是能帮助我们理解数据的工具都行。
数值列的平均数是什么?
要了解一个数值列的数值范围,我们可以计算平均数等统计指标,以及其他更复杂的指标,比如中位数、众数、标准差等。
- 在电子表格中,我们对目标列使用
AVERAGE
函数。 - 在 SQL 中,我们使用
AVG
函数。
筛选数据
当我们想要在数据集的一个 子集 中计算统计量时,我们就需要进行数据筛选。比如说我们不想统计汉堡,我们只想统计奶昔的情况。
最简单的筛选是我们只保留数据某列等于某个定值的那些行。比如,我们可以将快餐数据集筛选只留下 “type” 列为 “Milkshake” 的那些行。
- 在电子表格中,使用
IF
函数,比如使用COUNTIF
来统计某列数据等于特定值的行数。相关的函数还有AVERAGEIF
、SUMIF
、MINIFS
、MAXIFS
。 - 在 SQL 中,使用之前的函数时加上
WHERE
作为附加条件。
可以有更复杂更强大的方法来筛选数据。你可以按照大于或小于某个值得条件做筛选,比如
calories > 500
,也可以用不同列的多个条件组合进行筛选,比如 calories > 500 AND serving_size < 200
。使用哪种方式取决于你想如何切片和分割数据。