If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

残差和最小二乘回归简介

残差和最小二乘回归简介.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

我对人们身高(英寸)和体重(磅)之间的关系很感兴趣。 我随机的找一群人抽样 测量他们的身高和体重 对于每一个人,画一个点 来代表他们的身高和体重 比如我测量一个人 高60英寸,大约五英尺高 重100磅。 我去找60英寸100磅的地方 在这里,是这个点 点在60逗号60逗号100 可以这么想,身高 在x轴上测量,或 沿着x轴绘制,体重沿着y轴。 这个人的点是0.60,100 代表60英寸,100磅 我完成了1,2,3,4 5,6,7,8,9个人,可以一直这样 用这个方法画点, 看起来大致是一个线性的关系 看起来是正的,通常来说 身高增加时体重也增加。 我可以画一条线 大约是这样的趋势。 试着来做,这是我的线 可以考虑很多线 像这样的, 大部分数据在线下面 看来不是正确的 我可以做一些这样的比如 做一些像这样的 但看起来不是合适的 大部分数据都在线上面 再一次,我是目测的 在未来你会学习更好的方法来找到 一个最合适的线 像这样,我目测出来的 看起来正确 这条线,可以叫做回归线。 可以写成y等于mx加b 我们需要找到斜率 和y轴的交点,我们通过 我刚才画的,甚至当它为 体重来找到斜率。 体重等于我们的斜率乘身高 乘身高加y轴的交点。 如果你把垂直的纵轴看成体重轴 这就是你的体重的交点。 但不论什么方法,这是我 目测出来的,这是我的回归线。 我想把这些点对应起来 但不能穿过 一条线不能够把所有点连起来。 对于每一个点会有不同 或不是所有点,但是大部分的 实际结果和预测结果之间存在一些差异。 实际的四个点和预期的差值 告诉了身高 被叫做残差 写下来 对于每一个数据点都有残差。 比如,我把这个叫做 把这个点叫1,点1的残差。 将是,对于我们的变量, 对于我们的身高变量60英寸。 实际上是100磅。 我们需要减去可以被预测的。 可以被预测的在这里。 可以在式子里直接减去60 将是M乘60加b。 可以写成M, 我写成60M加B 我把60磅 放到我的模型里, 体重将被预测出来。 只是为了这里有的数字 把画线工具拿出来 尝试从这个点画直线。 让我画一个直线。 看起来不太直。 一点点,好了 看起来是150磅。 我的模型将预测150磅。 残差将等于负50 负的残差是实际上 低于预测。 这里的 是我们的1,一个负的残差 如果你有,想要找, 这里的残差,这个点的。 这个r2,将是正的残差 因为实际的数更大 比预测的。 残差是好的说法, 你的线,回归有多好 你的模型是否符合给定的数据点 或者给定的数据点的比较。 可能要做的是考虑 所有残差的组合 尽量最小化它们。 可能你会说,为什么直接加起来 这些残差,再考虑最小化它们。 这会有点棘手,因为一些是正的 一些是负的,所以一个很大的负残差 将抵消掉很大的正残差, 看起来,加在一起是0 看起来没有残差, 你可以加起来绝对值。 可以说,算 残差的和,所有的绝对值 的和。 让我改掉线的M和B 来最小化它,是一个技巧 来建造一个回归线。 另外一个方法是 最经典的方法,将会在统计里看到 人们算这些残差的平方的和。 平方的和,当你平方 不论是正还是负, 都将是正的,解决了 关于负数和正数互相抵消的问题 当你平方一个数,很大的残差 将变得更大,相对而言。 你知道的,如果你平方你一个很大的,你知道1是 如果这样考虑,让我用普通的数字 1,2,3,4 都是彼此连续的。 如果我平方它们,1,4,9,16 互相离的更远了。 残差越大 当你平方它,平方的和 将在总数中占更大的比例 在未来的视频里 有个方法叫做 最小二乘回归 最小二乘回归。 当你找到M和B通过给定的数据 这最小化了残差平方的和。 这是有价值的,经常用的原因是 这会考虑到 重要的异常值。 离模型很远的那些数据。 这将很, 和最小二乘回归。 将最小化 或将变得比重更大 因为当你平方它,会变成 更大的一部分。 这是概念上的介绍。 在未来的视频,我们会计算残差。 真正的找到公式 关于如何找到一条线的M和B 可以最小化残差平方的和。