如果你看到这则信息,这表示下载可汗学院的外部资源时遇到困难.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

主要内容

残差图

基于回归线制作并分析残差图.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

[讲师]我们在这个视频中要做的是 对于一个给定的回归 谈一谈其残差图的概念, 和它所要解释的数据。 在这里, 我们有一个相当简单的最小二乘法回归。 我们试图拟合这四个点。 而在之前的视频中,我们得到了 这个最小二乘法回归线的方程。 我现在要做的是 是绘制这些点的残差。 那么什么是残差? 提示一下, 一个给定的点的残差 等于实际观察值 减去估计值。 那么,我怎样才能使之形象化呢? 这里这个点的残差是多少呢? 对于这里这个点 当x等于1时,实际的y是1。 但当x等于1的时候, 对于这个最小二乘法回归线来说, 2.5乘以1减去2, y的估计值等于0.5。 所以我们的残差是1减去0.5 我们得到一个正数, 我们得到一个+0.5的残差。 对于这个点,残差为0。 实际观察值等于估计值。 而对于这个点, 当x等于2时,y的实际观察值是2。 但是估计值是3。 所以我们这里的残差, 再一次套用公式,当x等于2的时候, y的实际观察值等于2。 y的估计值,2乘以2.5减去2是3。 所以结果是2减去3, 残差等于-1。 然后在这里,我们的残差是…… 当x等于3的时候,y的实际观察值是6。 当x等于3时,y的估计值是5.5。 所以6减去5.5。 就是+0.5。 所以这些是残差,但我们如何绘制它呢? 我们会先设置一个数轴。 让我画在这里。 1, 2, 3。 让我们看看,这里的最大残差是+0.5, 然后这里的最小值是-1。 这里大概是0.5,1 -0.5,-1。 这个是-1, 这个是+1。 那么当x等于1的时候,残差是多少? 实际观察值是1,估计值是0.5 1减去0.5 就是0.5。 对于这里这个残差,我们画到那里。 残差是0.5。 当x等于2时,我们实际上有两个数据点。 我先记录这一个。 两个点2和3, 一个残差是0。 对于其中一个,残差是0。 现在,另一个的残差是-1。 让我用不同的颜色来标这个。 另一个,残差是-1。 所以我们要把它画在这里。 然后是这最后一个点。 残差是+0.5。 所以就这样画在这里。 我刚刚画的这个图, 在这里我们能看到 对于每一个x,我们都有一个对应的点。 我们根据残差把每个点画在 线的上方或下方。 我们称这样的图为残差图。 现在,我想问一个问题:为什么人们 要费功夫 创建一个像这样的残差图? 答案是,无论回归线是否 是向上倾斜的还是向下倾斜的, 残差图可以体现出回归线的拟合度有多高 以及这条回归线是否能很好地解释 变量之间的关系。 一般来讲,如果你看到残差图中这些点 相当均匀地散布或随机地散布 在这条线的上方和下方, 且看不出残差图存在什么趋势, 那么这条直线对于这些数据来说就是一个好的模型。 但如果你在残差图中看到了某种类型的趋势, 比如残差有像这样的上升趋势, 或者它们先是向上弯曲,然后又向下弯曲, 又或是它们有一个下降的趋势, 那么你可能会说,"呀,这条线不是很拟合。 也许我们需要做一个非线性模型。" 其他残差图的例子有哪些呢? 让我们试着对它们进行一下分析。 在这里你有一条回归线 和它相应的残差图。 像之前那样分析,你看这里 这个残差是很小的正数, 实际观察值是略高于该线的。 然后你可以看到它在对应的残差图中,也是数值略小的正数。 这个残差也是正数,数值稍大一些,你看在那里。 就像我们刚才看的那个例子一样, 这些残差看上去是非常均匀地散布在 线的上方和下方。 我们没有发现任何可识别的趋势。 所以我认为,这是一个线性模型。 特别地,这条回归线 对于这些数据来说是一个好的模型。 但如果我们看这样的图, 会发现它和之前的例子是不同类型的。 当我只看残差图的时候, 它看起来并不像均匀散布的, 看上去这里有某种类型的趋势。 数据从这里下降, 又开始上升了。 当你看到这样的趋势,当在残差图上 数据先都在x轴下面,之后又都处于x轴上面。 这往往暗示着线性模型 在这里可能并不适用。 也许某种类型的非线性模型, 某种类型的非线性曲线 可能会更符合数据。 或者说Y和X之间的关系 是非线性的。 你也可以用另一种方式来考虑它, 当你观察到很多残差值 离残差图中的x轴很远的时候, 你也可以认为 这条线不够拟合数据。 如果你在这里计算一下R值, 它只会是一个很小的正数。 但它并不会接近于1。