If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

残差标准差或均方根偏差(RMSD)

计算残差 (或根均方误差 (RMSD) 或根均方偏差 (RMSD)) 的标准偏差, 以测量线性回归模型和一组数据之间的差异.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

[讲师]在这段视频中, 我们要做的是计算一个典型的衡量标准, 即实际数据点与一个模型的吻合程度。 在这个视频中,我们给出的模型是一个线性模型。 这个衡量标准有几种不同的叫法。 我们可以叫它 残差的标准差, 这就是我们要计算的东西。 你也可以叫它均方根误差(剩余标准差)。 你会明白为什么它被称为这个, 因为这个叫法描述了我们如何计算它。 所以,我们要做的是 是看一下这些点的残差 然后我们要找到这些残差的标准差。 先对残差的计算进行一点回顾。 第i个残差等于给定X 所对应的第i个Y的实际观察值 减去给定X 所对应的Y的估计值。 这里的y-帽 指的是对于一个给定的x 线性回归预测的y的值。 然后这个值指的是y的实际观察值。 举个计算残差的例子,我们在其他视频中已经具体讲解过了。 这是对残差计算的简单回顾 当x等于1的时候,我们来计算下这里的残差。 我们有y等于1 但模型所预测的y是 2.5乘以1减去2,就是0.5。 所以,1减去0.5。 所以这里这个残差 残差等于1 减去0.5,等于0.5。 这是+0.5 如果实际的数据点高于模型, 那么你就会有一个正的残差。 这里这个残差 也是实际的数据点比模型高, 所以这也是一个正的残差。 同样地,当x等于3的时候, y的实际观察值是6。 y的估计值是3的2.5倍, 也就是7.5再减去2,是5.5。 6减去5.5, 所以我在这里写残差等于6减去5.5 等于0.5。 你再一次得到了一个正的残差。 对于这个位于模型上的点。 实际观察值就等于估计值。 当X是2时,y的实际观察值是3 而模型所预测的y值也是3。 所以这里的残差等于实际观察值是3 减去估计值3, 就等于0。 最后一个点, 在这里, 残差是 当x等于2的时候,y的实际观察值2 减去y的估计值。 当x等于2的时候,估计值等于 2.5乘以2 等于5,再减去2等于3。 残差等于2减去3等于-1。 当实际观察值低于回归线时。 会得到一个负的残差。 所以这里这个残差是-1。 现在我们可以计算这些残差的 标准差了。 我们要把这第一个残差 0.5 我们要把它平方。 我们要把它加上这里第二个残差的平方 我用蓝色/青色来表示。 残差是0,平方一下。 然后我们有第三个残差,是-1。 所以加上-1的平方 最后,我们有第四个残差 是0.5,平方一下 0.5的平方。 我们取了每一个残差, 你可以把它看作是 数据点和模型预测之间的距离。 我们把每一个残差平方。 当你计算一个典型的标准差时, 你要取的是一个点与平均值之间的距离。 在这里,我们取的是一个点 和模型预测的距离。 我们对这些残差进行平方 并把它们全部加在一起。 就像我们对样本标准差所做的那样, 我们现在要除以 残差数量减去1。 我们有4个残差, 我们要除以4减去1, 等于3。 你可以把这部分看作是误差平方的平均值。 现在我们要取它的平方根。 让我看看,这等于 这是0.25 这是0 这是+1 这是0.5的平方, 等于0.25, 0.25,这些加起来除以3。 这个分子是1.5, 这除以3,等于 1.5正好是3的一半。 我们可以说这就等于 1/2的平方根, 也是1除以2的平方根。 1除以2的平方根 等于 让我们保留三位小数, 大约是0.707。 近似0.707。 而如果你想把它形象化, 回归线下一个残差的标准差 会看起来像这样。 而高于该线一个残差的标准差, 就是对于任何给定的X值都会有 一个高于它一个残差标准差的值。 它看起来会是这样的。 显然,这只是一个手绘的近似图像 但你可以看到,这指出了 典型残差的大致位置。 需要注意的是, 有时人们会说这是残差的平均值。 这取决于你如何看待平均这个词 因为我们对残差进行平方, 所以异常值(离回归线很远的数据点), 当我们对异常值进行平方时, 在这里会产生很大的影响。 如果你不希望有这种情况发生, 那么我们可以做一些事情来避免, 比如,找到绝对残差的平均值。 这实际上会使计算更简单, 但是我们这里用的方式是人们试图弄清楚 一个模型与实际数据有多大的差异的标准方法。 所以你可以想象这个数字越小, 模型的拟合度就越高。