如果你看到这则信息,这表示下载可汗学院的外部资源时遇到困难.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

主要内容

相关系数 r 的计算

计算相关系数 r. 计算背后的直觉理解和 r.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

在这个视频中 我们将手动计算 一组双变量数据的相关系数 当我说到双变量的时候 另一种理解就是每一个x数据点 都有相对应的y数据点 在计算相关系数之前 让我们确保 我们理解题中给出的其它一些数据 我们假设这些是x以及其对应的y的 从更大的群体中 得到的样本 我们有x的样本平均值 以及x的样本标准差 x的样本平均值很好计算 应该是 (1 + 2 + 2 + 3)/ 4 这是8/4 这里确实是2 x的样本标准差 我们以前也见过 这应该算是复习了 这应该是 每个点到平均值的差的平方 再取平方根 1-2的平方 加上2-2的平方 加上2-2的平方 加上3-2的平方 整个除以…… 因为我们面对的是 样本标准差 我们有四个数据点 所以应该是4-1=3 这个约分出来之后比较方便 因为这里是0,这里是0 这里是1,这里是1 最后变成2/3的的平方根 大约是0.816 这里就是这样 y的数据同理 y的样本平均值 把1 + 2 + 3 + 6 除以4,四个数据点 这是12除以4 确实是3 然后是y的样本标准差 用算x的同样方法 来计算y的 最后会得到2.160 现在我们都理解了 让我们来学习一下 如何计算相关系数 这边就是计算 相关系数方程的一种展示 一开始可能会令你望而生畏 直到你发现一些事情 这里代表的就是 每一个相对的x和y 找到x的z分数 我们写作Zx 对于某一个x 所以是Zxi 我们可以说这个是 某一个y的z分数 Zyi是另一种你可以理解的方法 你可以理解为对于每一个数据点 找到这个数据点和它对应的平均值的差 然后除以样本标准差 就是这个数据距离平均值 差出多少个样本标准差 这就是x数据点的z分数 然后这是相对的y数据点的z分数 它距离样本平均值 查出多少样本标准差 在实际应用中,你并不会只有4组数据 而且手动计算会非常的困难 我们一般是用计算机来计算 但是知道如何手动计算是很重要的 可以帮助你理解到底发生了什么 对于这道题来说 r将会是(1/n)-1 这里有4对,所以是1/3 然后去乘这些 z分数相加之后的总和 这里的第一对 这个的z分数 是1-2 和x的样品平均值的距离 除以x样本标准差,0.816 整个,乘1 我们现在关注的是变量y y的z分数 所以是1-3 1-3除以y的样本标准差,2.160 剩下的计算同理 我写在这边 下一个是 2-2,除以0.816 第一个2是从这里来的 然后减去样本平均值 乘,我们现在关注的是这个2 2-3,除以2.160 加上…… 很庆幸这里只有4组 又是2-2 2-2,除以0.816 3-3,除以2.160 然后最后一对是3-2 3-2 3-2,除以0.816 乘,6-3,除以2.160 在我拿出计算器开始计算之前 让我们看看能不能约分 2-2 = 0 0乘任何的东西都是0 这里整个就变成了0 2-2 = 0 3-3 = 0 所以这里就变成0 * 0 这里整个也是0 这里是1-2 结果是-1 1-3 = -2 所以这里就是r等于1/3 乘…… 负负得正 所以这里是2除以 0.816乘2.160 然后加上 3-2 = 1 6-3 = 3 所以加上3除以(0.816*2.160) 这些有同样的分母 所以可以改写一下 如果我有2除以这些 加上3除以这些 那就是5除以这些 所以我可以把整个这里改写一下 5 /(0.816*2.160) 现在我可以用计算器来 开始计算了 我们有 (输入中) 0不会有什么影响 但是我还是写一下 然后是括号 让我们看一下答案 我们得到一个r 因为所有的数字 全部都到千分位 我也取到千分位 r的数值是0.946 所以,r是大概0.946 这个数字代表着什么? 相关系数所计算的是 一条线能够多准确地描述 x和Y之间的关系 r永远是 大于等于-1 并且小于或等于1 如果r是正数 这代表一条向上倾斜的线 能够完整的去形容这段关系 如果r是-1 则意味着一条向下倾斜的线 能够完整的去形容这段关系 r在任何中间的位置就代表着 它并不是最贴近的形容 如果r是0则代表一条线 完全不能够形容这段关系 在我们的情况中 (谐音梗) (r和our读音相近) 在我们的情况中 得出的r很接近1 这代表着有一条线能够比较好的 去形容 x和y之间的关系 比如,我要尝试 手绘一条线 事实证明,最小二乘法直线 会穿过x和y的 平均值 x的平均值是2 y的平均值是3 我们会在未来的视频中进行更深度的学习 这看起来像是一条 画的不错的线 让我画在这里 你可以看到我实际上是可以画出一条 能够很好形容(xy关系)的一条线 这并不是完美的 如果它穿过每一个点 那么r就会等于1 但是它能够很好的形容 到底发生了什么 下一个我想关注的是 直觉 z分数这里到底发生了什么? 相对应的z分数的乘积 为什么会让我们得到这样的特质? r等于1代表强烈的正相关 r等于-1 代表强烈的负相关 让我们画一下样本平均值 x的样本平均值是2 这是我们的x轴 这里是x=2 y的样本平均值是3 这条线代表y=3 我们也可以画出标准差 这是…… x的标准差是0.816 我会大概画一下 如果是平均值减去0.816 会大约在这里 这里是平均值下一个标准差 平均值上一个标准差 会是大概在这里 如果我在y轴做同样的事情 平均值上一个标准差,2.160 所以是5.160 是在大约这个地方 平均值下一个标准差 (计算中) (计算中) (计算中) 大约在这个位置 第一组数据 1,1 我们在干什么? 这是低于平均值 多少个标准差 结果是-1除以0.816 我们在这里得到的数字 这就是应该被计算出来的 然后是y方向的 多少个标准差 这里就是-2除以2.160 注意,因为它们都是负数 它会提供给r 一个正向的数字 一种理解方法就是 它帮助r更接近1 如果它们同时有负的z分数 这就代表两个变量之间 是正相关的 当一个是小于平均值 另一个是 小于大约同等的平均值 如果我们去看下一个数据点 2,2 就在这里 这里发生了什么? 变量x直接在平均值上 所以整项都变成了0 x的z分数是0 这会让我们的相关系数 减少一点 会减少一点的原因是 虽然它不是负数 但是它没有被计算进最后的和 但是却要被除以一个较大的数字 为了要包括另外这一对 假设有一个数据点,x是小于平均值 y是大于平均值 大概是这个样子 如果这个其中一个数据点 这一项就会是负数 因为y的z分数会是正数 x的z分数会是负数 所以当你带回到求和里 这其实会 减小总和 所以r会更小 同样的,这样的一个点 会让r变得更小 因为你的x会有一个正的z分数 y会有负的z分数 正数和负数的乘积 是负数