主要内容
变换非线性数据
使用对数将非线性数据转换为线性关系,以便使用最小二乘回归方法。
视频字幕
【讲师】这里有一些数据 我们可以画个像这样的散点图 我们可以画个像这样的散点图 接下来的问题就是 我们已经讨论很多次的回归线 我们能给这图匹配出回归线吗? 如果要试一下呢 我们要画出大概这样一条线来 我们要画出大概这样一条线来 我只是目测,你们可以输入电脑 尝试建立一个线性回归模型 使得这些点到这条线的 均方距离的和 最小 使得这些点到这条线的 均方距离的和 最小 能看出来这很费劲 还有人可能会说 这看起来更像某种指数关系 也许我们可以用指数函数来表示它 应该大概是这样的 这也没错 但是有一种方法,我们可以将线性回归的工具应用到这个数据集上 我们可以不画 x 和 y 的坐标 而只考虑 x 和 y的对数 这是相同的数据集 X 这列都是一样的 y 这列,我们取了以10为底的对数 y 这列,我们取了以10为底的对数 10的多少次方等于2307.23 10的3.36次方等于2307.23 我把这里所有的数据点都求了对数 我用Excel表格做的 如果把这些都画出来 这图就神了 当我们画出x 和 log(y) 时 或者 log(y) 和 x 的曲线,突然变成线性的了 要清楚 x 和 y 之间真正的关系并不是线性的 它们看起来像某种指数关系 但是数据转换之后的值 你可以有不同的方法来做 本题中,我们选了 y 的对数 这样想的话 现在我们可以使用线性回归的工具 因为这个数据集 你可以很好地拟合线性回归线 你可以想象一条这样的直线 可以很好的符合数据点 而你想这么做的原因是 比起用指数关系来拟合 我们已经开发了很多关于线性回归的工具 还有关于斜率和置信区间的假设检验 还有关于斜率和置信区间的假设检验 这可能是你想要的方向 有趣的是,一旦你符合线性回归 从数学上讲,从线性模型回归到指数模型并不困难 从数学上讲,从线性模型回归到指数模型并不困难 所以这里的重要结论是 要想使用线性回归工具 哪怕 x 和 y 之间的基本关系是非线性的 哪怕 x 和 y 之间的基本关系是非线性的 我们也可以通过转换数据来使用 本题我们取了 y 的对数 这有助于我们看出log(y) 和 x 之间的线性关系 这有助于我们看出log(y) 和 x 之间的线性关系