If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

例子:相关系数的认知

Sal 解释了相关系数背后的知识,并解决了相关系数与散点图相匹配的问题。

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

这里有一些屏幕截图, 是我从可汗学院相关系数课程截的。 这些是相关系数, 我们得把他们与对应的散点图匹配起来。 我们可以把他们拖放到图中, 与相应的散点图匹配。 重点是应该怎样计算相关系数呢, 一会儿我们会讲到这点。 不过,要想凭直观来得出数值, 主要在于先弄清楚 相关系数是用来衡量 一个线性模型是否很好地描述了两个变量之间关系的系数。 比方说, 我先来画一些坐标轴吧。 比方说这是一个变量, 我画一个y变量,y坐标, 这边是变量,x坐标。 当x值低的时候,y值也低。 当x值稍稍变大,y值也相应变大。 x值再变大,y值跟着变大。 x值变得很大,y值也变大。 在这里,一个线性模型能够非常好地描述这种变化, 于是我们很容易就能画出一条线, 这条线穿过每一个点。 这个线性模型就会有一个相关系数r, r的值等于1。 表明线性模型很好地描绘了xy的关系, 他们正向相关。 当其中一个上升,或者说变大, 另一个也随之变大。 当其中一个变小, 另一个也随之变小。反之亦然。 现在如果说相关系数r为负,会是什么情形? 当然,在这种情况下, 线性模型依然能够很好地描绘出来。 只不过当一个变量值上升时, 另一个变量会下降,反之亦然。 画一个坐标轴, 再画个坐标轴。 我要画一组数据, 他们体现的相关系数r是负值。 可能当y值较高的时候,x值会很低。 y值变低的时候,x反而变高。 y值下降很多, x值会升高很多。 y值继续下降, x值继续上升。或者可以说x值上升时y值下降。 总之他们是朝反方向运动的。 不过你很容易就能画出一条线, 像这样的一条线。 这就是一条相关系数为负1的线。 那当r为零的时候, 就会出现一堆数据点, 这些点无法描成单一的一条线。 我画个小点的坐标轴吧, 没地方画了。 一个相关系数r为零的图, 看起来就像这样。 比如我在这画一个点, 这一个点, 这儿又一个点, 这边……这边…… 可能不会分布得这么整齐, 你能理解就行。 你要怎么才能把这些点连成线? 这条线这么划也行, 这么划也行, 这么划也行。 所以在这个线性模型中, 变量的关系是不好描述的。 关于相关系数r的解释就先说到这。 我们来看下怎么解析这些散点。 我的方法是 先目测一下他们的线性模型。 要给一堆散点赋上一个合适的线性模型 有很多办法。 线性模型可以是分布得很完美的, 特别是当r值为负1或者正1时。 但是在现实中,模型都是像这样散乱的。 各点完美连成线的情况极少。 对于A散点图,如果要划线, 就会像这样。 我要尽量将各点到线的距离最小化, 这样就能看出一个大概趋势。 我们看这边的数据点, 当y值较高时,x值较低。 而当x值较高时,y值又变低。 这么看r值就肯定低于零, 而且低于零不少。 这个图就趋近于这边的图。 再来看看几个选项。 r值等于0.65肯定不对, 这两个r值都是正数,肯定不对。 这个就基本上没有相关性了, r值等于-0.02,接近零了。 所以我觉得应该是r等于-0.72. 必须申明一下,要是没有这几个选项, 我肯定不会断然地说, 仅凭这些散点, 不用做计算, 就能得出r=-0.72的结论。 我只不过是估测。 因为r是负值,而且相关性较强。 因为你能直观地看出趋势, y值较大时x值较小, x值大时y值又小。 所以我觉得 这个r值是接近于-1的。 好,这个选项就用过了。 现在来看散点图B。 试着目测一下,这个图也不是精确相关。 但要想划线,也是可以看出趋势的。 就像这样。 这条线看起来挺合适。 虽然还有一些点没有落在线上。 还离线有点远。 这条线看起来是正向相关。 y值小时,x值也相对较小,反之亦然。 当x值变大时y值变大,y变大时x也变大。 这肯定是正相关, 而且相关性较强。 这就有两个选项了。 我不确定哪个是对的, 可能r等于0.65, 也可能是0.84。 继续看散点图C,这些点到处都是, 看起来很像我们画的这个图。 能划出什么样的线呢? 你怎么想象这条线都行。 这么划? 或者这么划? 这里没有一个明确的变化方向, 比如说x值升高的时候y升高或者降低。 这些点没有变化规律, 因此看起来互不相关。 所以相关系数接近于零。 所以比较能确定 r值等于-0.02。 实际上如果真的要划出最接近的线, 这条线可能会是相关系数稍低于零的。 大概像这样。 注意,尽管我们勉为其难划了线, 还是有很多点散布在线外很远。 所以这个线性模型切合得不好。 所以r=0.02 选出这个选项。 现在只剩散点图D。 将要匹配这两个选项中的一个。 这个图看起来是正相关的。 当y值低时x也低, x值高时y值也高,反之亦然。 我们可以划一条 大概像这样的线。 但是这条线没有上面这条完美。 你看我们还要去够很多点, 还有很多点距离模型很远。 因此这个模型切合度不太好。 所以散点图B的切合度要好一点。 也就是说线性模型相当于散点图D来说, 更切合散点图B。 因此散点图B的线性系数会高一点。 散点图D匹配的是较低的r值, 也就是r=0.65。 再说一下,这是因为虽然能看出线性趋势, 但是在D图中, 还有很多点分布在线外, 而且线外的点要比B图多。 两个图都有一些点远离线外, 但D图中这些点离得更远得多。