If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

在数据集中寻找模式

我们经常收集数据,以便我们能够找到数据的模式,例如上升的数字或两组数字之间的相互关系。
根据数据和模式,有时我们可以在简单的表格格式中看到这种模式。有时,它有助于在图表中显示数据,如时间序列、线性图或散点图。
让我们一起探索可以在我们周围的数据中找到的模式的例子。

发现趋势

数量趋势指总体增长或减少的数字。
考虑1955-2015年间,印度妇女人均婴儿的数据:
年份平均每名妇女的婴儿
19605.91
19705.59
19804.83
19904.05
20003.31
20102.60
这里,每十年的数字稳步 下降 ,因此这是 下降趋势
现在思考美国自1920年到2000年的预估寿命:
年份预估寿命
192055.38
193059.57
194063.24
195068.07
196069.86
197070.86
198073.91
199075.4
199076.9
这里,每十年的数字稳步增加,因此,这是上升趋势

可视化图表

让我们尝试分辨图表上的上升和下降趋势,就像时间序列图一样。
这张 来自GapMinder的图表基于每年的数据点,而不是每十年的,显现了印度平均每名妇女的婴儿:
一个以x轴表示年份,y轴表示平均每名妇女的婴儿的线形图。x轴始于1960年至2010年,y轴始于2.6至5.9。线条自1960年的5.9连续下坡至2010年的2.5。
这张图有明显的下降趋势,且从1968年起似乎几乎是一条直线。
📉 表格选项: x轴是从1960年到2010年, y轴从2.6到5.9。如果调换轴,趋势会更明显还是更不明显? 用GapMinder上的选项 自己试验。
这是一张 来自GapMinder的预估寿命图表,也是基于每年的数据点,而不是每十年的:
一个以x轴表示年份,y轴表示预估寿命的线形图。x轴从1920年到2000年,y轴从55岁到77岁。一条线从1920年的55岁向上倾斜(有一些波动),直至2000年的77岁。
这个趋势在前几十年并不是明显上升,而是上下波动,但在之后的几十年间明显上升。
📉 选择表格: x轴从1920年到2000年,y轴始于55岁。那些选择会怎样影响我们对于图像的理解?试着自己改变GapMinder上的选项 看看。
测验你的理解
谷歌分析被许多网站(包括可汗学院!) 用来跟踪用户行为。
这一谷歌分析图显示了我们从2017年10月至2018年6月的AP统计课程的页面视图:
一个以x轴表示月份,y轴表示页面浏览量的线形图。x轴从2017年十月到2018年六月。y轴从0到150万。图标始于25万,保持接近这一数字直到2017年十二月份。然后直线上升至2018年五月达到100万。随后在最后一个月下滑。
这一图表显示出什么趋势?
选出正确答案:

统计波动

谷歌搜索趋势 是一个可以显示时段内谷歌搜索关键词的流行程度的网站。
我们可以使用谷歌趋势研究“数据科学”的普遍程度,一个将统计数据分析和计算技能结合起来的新领域。
这是他们的 "数据科学"的图表 ,从2014年4月至2019年4月:
一个以x轴表示时间,y轴表示流行程度的线形图。x轴从2014年四月到2019年四月,y轴从0到100。一条锯齿状走势的曲线从12左右开始上升到80左右结束。
这一图显示这段时间内波动很大(包括每年圣诞节的骤降)。但是,这种情况也显示了一段时间内的明显上升。
当我们处理像这样波动的数据时,我们可以计算“趋势线”并在图表上叠加(或让图表应用程序为我们添加它)。如果能找到一条趋势线就可以是数据更加平滑,使总体趋势更加明确。
这是添加了趋势线的同一图表:
一个以x轴表示时间,y轴表示流行程度的线形图。x轴从2014年四月到2019年四月,y轴从0到100。一条锯齿状走势的曲线从12左右开始上升到80左右结束。一条直线叠加于锯齿状线之上,和锯齿状的线开始和终结于差不多同样的地方。
趋势线显示出非常明确的上升趋势,这是我们预料到的。它有助于我们选择在这么长的时间内观察数据,因为这一数据在整年内随季节波动。
每当你分析和观察数据时,考虑可以证实波动的收集数据的方法。对基于时间的数据来说,波动经常会发生在在工作日(因为工作日和休息日的不同)和季节间。

做出预测

我们分析数据的一个原因是提出预测。
考虑这组四年制私立大学平均学费的数据。
学年学费
2011-12$30,210
2012-13$30,970
2013-14$31,570
2014-15$32,140
2015-16$33,180
2016-17$34,100
我们可以清楚地看到,从2011年到2016年,数字每年都在增加。为了作出预测,我们需要理解数字增加的速率
有一个方法是计算每年变化的百分比。这是在第三列添加了计算结果的同一表格。
学年学费一年的百分比变化
2011-12$30,210
2012-13$30,9702.5%
2013-14$31,5701.9%
2014-15$32,1401.8%
2015-16$33,1803.2%
2016-17$34,1002.8%
它还可以帮助显示图表形式上的增加的数字:
一个以x轴表示年份,y轴表示学费的线形图。x轴从2011年到2016年,y轴从30000到35000。轴上有六个点表示每一年,点数随着年份的增加而增加。一条线连接点。
如果速率保持不变(并且图表完全是线性的),那么我们很容易预测下一个值。但是,在这种情况下,利率在1.8%至3.2%之间变化,因此预测并不那么简单。
让我们尝试几个预测2017至12018年的方式:
方法预测变化预测学费
最近的速率2.8%$35,054
前三个速率的平均值2.6%$34,986.6
所有速率的平均值2.44%$34,932.04
你觉得那个方法最好?结果是,2017至2018年的学费其实是34740美元。它只涨了1.9%,少于我们所有方法预测的。最接近的是所有速率的平均值。
统计员和数据分析师一般用一个叫做 线性回归 的方法,它找到能让我们基于这条线做出预测的一条最适用于数据的线。有了这些数据,线性回归的预测也是2.44%。
我们如何能够作出更准确的预测?我们可以设法收集更多的数据,并将这些数据纳入我们的模型,例如考虑到总体经济增长对大学学费上涨的影响。
最后,我们需要理解,一个预测只是预测。更多的数据和更好的技术有助于我们更好地预测未来,但是没有任何东西可以保证完全准确的预测。

寻找相关性

分析数据的另一个目标是计算两组数字之间的相关性、统计关系。
相关性可能是正的、负的或根本不存在。一个散点图 是想象两种数字之间的相关性的一种常见方法。
温度与冰激凌销售之间存在 相关:
一个以x轴表示温度,y轴表示销量的散点图。x轴从0摄氏度到30摄氏度,y轴从0美元到800美元。19个点分散在图中,并普遍随x轴的增长而升高。
随着气温升高,冰激凌销量也增加了。
温度和汤的销量呈 相关:
一个以x轴表示气温,y轴表示销量的散点图。x轴从0摄氏度到30摄氏度,y轴从0美元到800美元。19个点分散在图上,并普遍随x轴的减少而降低。
随着气温上升,汤销量减少。
气温和盐的销量 相关。
一个以x轴表示气温,y轴表示盐的销量的散点图。 x轴从0摄氏度到30摄氏度,y轴从0到800美元。19个点分散在图中,都在350到750美元之间。点并没有什么倾斜度,他们在所有气温值之间均匀分布。
气温的增加与盐的销量无关。
统计员与数据分析师一般用11 之间的数字表示相关性,用1 表示强烈的负相关,用 1 表示强烈的正相关,用 0 表示不相关。你可以在可汗学院的相关系数学到更多。
散射图的一个变种是气泡图,点的大小取决于数据的第三个维度。
这是一个 GapMinder的气泡图 ,它比较了收入和预估寿命,每个点表示了一个国家和其人口。
一个以x轴表示收入,y轴表示预估寿命的气泡图。x轴从400到128000,用了对数刻度,每个刻度加倍。y轴从19到86。不同颜色和大小的气泡分散在图中央,普遍随x轴的增加而上升。
📉 选择图表:这些点的颜色基于大陆,绿色代表美洲,黄色代表欧洲,蓝色代表非洲,红色代表亚洲。y轴从19到86,x轴从400到96 000,使用对数刻度,每个刻度翻倍。对数刻度是一种当变化的维度很大时普遍的选择。
随着各国在收入轴上上升,它们一般都在预期寿命轴上上升。收入与预期寿命之间存在着 相关 。
这是另一个来自 GapMinder的气泡图,这次比较的是二氧化碳的排放量和预估寿命:
一个以x轴表示二氧化碳排放量,y轴表示预估寿命的气泡图。x轴从0到100,使用了每个刻度增加一个10的因子的对数刻度。y轴从19到86。不同颜色和大小的气泡分散于图像中间,始于60岁左右的预估寿命并普遍随x轴的增加而升高。
📉 选择图表:这一次,x轴从0.0升至250,使用每个刻度升高10的因子的对数刻度。
我们又一次看到了正相关:当二氧化碳排放量增加时,预估寿命增加。
等等,这意味着我们应该赚更多的钱,排放更多的二氧化碳,以保证更长的寿命么?不,不一定。
相关性 并不 意味着因果关系。相关性告诉我们两组数字之间有一定的关系,但并不告诉我们 为什么 有关系。
在这种情况下,这种相关性可能是由于一些隐蔽的原因,而正是这种原因是造成了这两组数字,例如总体生活水平。
在其他情况下,相关性可能只是一个大巧合。有很多有趣的实例可以在假性相关的网站上看到。
找到相关性只是理解数据的第一步。它不能告诉你原因,但它 可以 指引给你可能的原因和实验以便了解更多。
测验你的理解
Our World In Data 是一个非营利性的,收集并图像化世界趋势的网站。
他们对工作时间的研究包括这一图表,该图表将生产率(每小时国内生产总值)与每个人工作小时平均数比较。
一个以x轴表示生产率,y轴表示工作小时数的气泡图。x轴从时薪0美元到时薪100美元。y轴从1400小时到2400小时。不同颜色和大小的气泡分散在图中,从大约每小时2美元工作2400小时开始,随着x轴变大而逐渐减小。
什么最好地描述了生产率和工作时间之间的关系?
选出正确答案:

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.