If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

R-的平方或可决系数

R-的平方或可决系数. Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

在前几个视频中,我们看到如果有n个点,每个点 每一个点都有x和坐标。 我画出n个点。 我们称这个点为1。 它的坐标为(x1, y1) 第二个点在这里。 它的坐标是(x2, y2) 我们一直在这上面放点,最终我们得到 第n个点 它的坐标是xn yn。 我们看到的是有一条线我们可以找到它 使距离的平方最小。 这条直线,我称它为y 等于mx + b。 有些直线可以使到这些点将距离的 平方最小。 来回顾一下距离的平方是什么。 有时,它被称为平方误差。 这是直线和点1之间的误差。 我称之为误差1。 这是直线和点二之间的误差。 我们称之为误差2。 这是直线和点n之间的误差。 如果你想要总误差,如果你想要 总的平方误差——这是我们开始这整个讨论 时的做法——点和线之间的总平方误差 你只需要取每个点 的y值。 例如,你可以取y1。 也就是这个值,用y1减去 直线上这一点的y值。 就是直线上的这点。实际上,y的值就是 你把x1代入这个方程得到的值。 我把x1代入这个方程。 也就是- mx1 + b。 这里,这是y的值。 是mx1 b。 我不想把图弄得太乱。 所以我把它删掉。 这是误差1。 我们要求的是直线上每个点之间 的平方误差。 这是第一个。 然后对第二点做同样的事情。 我们就这样开始了我们的讨论。 y2 - mx2 + b ^ 2,一直到,我要点点—— 我用点,点,点来说明在第n个点之前, 我们还需要做很多次这样的运算—— 一直到yn - mxn + b ^ 2。 现在我们已经知道如何求m和b了, 我给你们看了公式。 事实上,我们已经证明了这个公式。 我们可以找到这条直线。 如果我们想问,误差有多大? 我们可以计算它。 因为我们现在知道了m和b。 所以我们可以对特定的数据进行计算 下面,我想给出一个更有意义的估计值 来估计这条线的拟合程度. 为了做到这一点,我们会问 我们要问自己一个问题: 变化的百分比是多少? y是由x的变化来描述的吗? 我们想一下。 y的总变化量是多少 y的变化很明显。 这个y值在这里。 这个点的y值在这里。 显然y有很多变化。 但是其中有多少是由 x的变化来描述的呢? 是是用线条来描述? 我们想一下。 首先,我们考虑一下总变量是多少。 y的总变化量是多少? 我们来求一下y的总变化量。 它只是一个用来测量的工具。 我们还需要考虑方差, 也就是y的均值变化。 如果你考虑到某个集中 趋势距离的平方y,的最佳中心度量是 算术平均数。 所以我们可以说,y的总变化量 等于各y轴的距离之和。 得到y1 - y均值的平方。 加上y2 - y均值的平方。 再加上,一直算到 第n个y值。 也就是yn减去y均值的平方。 这是y的总变化量。 你可以把所有的y都提出来。 求它们的均值。 它会是某个值,可能 在这里的某个地方。 你甚至可以用和我们一样的方法来理解它 这和直线的平方误差是一样的。 如果你把它形象化,你可以想象成 直线y = y的均值。 它看起来就像这样。 我们测量的是这个误差 也就是这个距离的平方。 这一点垂直于这条线。 第二个就是这段距离。 正好碰到线。 第n个就是从这里到 这条直线的距离。 中间还有一些点。 这是y的总变化量。 有道理。 如果除以n,就会得到 y的方差,也就是距离的 平方的平均值。 现在,我们有总距离的平方。 所以我们要做的是 的总变化量是多少 也许我们可以这样想。 我们的分母,我们想知道,y的变化量占总变化量的 百分比是多少呢? 我这样写一下。 我称它为均值的平方误差。 也许我可以称它为y均值的 平方误差。 这是y的总变化量。 我们把它写成分母。 y的总变化,也就是y均值的 平方误差。 现在我们想知道x的变化量占这个的 百分比是多少。 现在,什么不是由x的变化来描述的? 我们想知道x的变化量 是多少。 但是如果我们想知道有多少总变化没有 被回归描述可以吗? 嗯,我们已经有了一个测量方法。 这是直线的平方误差。 这告诉我们,我们的线到每一点距离 的平方。 所以就是这个方法。 它告诉我们总变化中有多少变化 没有被回归线描述。 如果你想知道有多少百分比的总变化 没有被回归线描述,就是 直线的平方误差,因为它的 总变化不是由 回归线描述的, 我讲清楚一点。 这里,告诉我们没有 被x的变化所描述 的百分比。 或者被回归线描述的 所以回答了我们关于 ”被变化量所描述的百分比是多少?“的问题。 剩下的部分必须由x的变化 来描述。 因为我们的问题是总变化的百分比是多少 是由x的变化量来描述的。 这是没有描述的百分比。 如果这个数字是30%如果30%的y变化 没有被直线描述, 那么剩下的将被直线描述。 所以我们可以用1减去这个。 用1减去数据点和直线之间的平方误差 除以y与直线之间的平方误差 y表示的是 总变化的百分比。 你可以把它看成是 直线或者是x的变化量。 这个数,叫做 决定系数。 这只是统计学家决定给它起的名字。 它也被称为r²。 当人们谈论回归时,你可能听过 这个词。 现在我们来想一下。 如果直线的平方误差非常小 这是什么意思? 这意味着这些误差, 在这里,非常小。 这意味着这条线非常适合。 我把它写在这里。 如果直线的平方误差很小,它告诉我们 这条线很合适。 那么这里会发生什么呢? 如果这个数很小, 那么这个分数也很小。 1减去一个很小的分数等于一个 接近1的数。 那么,r²将接近于1,这告诉我们 y的很多变化都是由x的变化 来描述的。 这是有道理的,因为这条线很适合。 你取相反的情况。 如果直线的平方误差很大,那就意味着 数据点和直线之间有很多误差。 如果这个数很大,那么这个数 也会很大。 或者说它的百分比接近于1。 而1减去它就接近于0。 如果直线的平方误差很大,这整个 会接近于1。 如果整个式子接近于1,整个 决定系数,整个r² 接近0,这是有道理的。 这告诉我们,y总变化量的很小一部分是 用x的变化来描述,或者用直线来描述的。 好吧,不管怎样,我到目前为止都处理的 有点抽象。 下一节,我们将看一些数据样本 并计算它们的回归线。 然后计算r²,看看它的拟合程度 有多好。