If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

理解计算机回归数据

理解由计算机产生的回归数据并以此找到最小二乘回归线的方程. 预测值和系数. S 和 R-的平方.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

[旁白] 在其他视频中, 我们已经手算了线性回归, 但我们提到,大多数回归 实际上是用某种类型的计算机或计算器完成的。 所以,在这个视频中 我会讲解一个我们可能会看到的计算机输出的例子。 不要被这么多输出数据吓到, 这个视频会告诉我们这些输出数据是如何让我们 得到回归线的方程式的, 并会解释一些其他输出数据的含义。 这个例子讲的是,谢阿姨 想知道那些摄入更多咖啡因的学生是否 也会更多地投入学习。 她随机选择了她学校的20名学生, 并记录他们的咖啡因摄入量(以毫克为单位), 和他们花在学习上的时间。 根据数据画出的散点图显示了一种线性关系。 这是一个计算机输出的最小二乘法 的回归分析结果。 我们有这些数据,分别是预测因子, 系数,然后我们有这些其他的数据, 系数的标准误差,T和P, 然后还有所有这下面的数据。 我们该如何理解这些数据 从而获得线性回归的 方程式呢? 我们先直接说说我们的变量吧。 我们说y 是我们要预测的东西。 所以这是花在学习上的小时数。 学习了几小时。 然后我们说x是 我们认为x是能解释学习时长的原因 或者说是能解释学习时长的因素之一, 也就是摄入咖啡因的数量。 所以这就是咖啡因 以毫克为单位的消耗量。 因此,我们的回归线是 y-帽,表示的是一个线性回归, 它试图估计给定x的实际y值。 y-帽等于,m乘以x再加上b。 现在,我们如何根据这个电脑输出值 得到m和b呢? 所以当你看这个表格的时候, 这第一栏写着预测因子, 一行是常数,一行是咖啡因。 这表示的是 当你试图预测学习时长时, 当你试图预测y时, 有两个基本输入。 一个是常量值,另一个是变量, 在这个例子中变量是咖啡因,你用它来预测 学习时长。 这列告诉你的是每个输入值的系数。 常数的系数就是常数本身。 你可以把它看作是 x的零次方的系数。 因此,常数的系数 就是常数本身。 2.544 然后,是咖啡因的系数。 我们刚才说x是咖啡因的消耗量, 所以这就是那个系数m。 0.164。 像这样, 我们就得到了回归线的方程式, 这也是为什么说这些计算机输出是有用的。 我们可以直接把方程式写出来。 y-帽等于 0.164乘以x加上 2.544 2.544。 这就是我们的回归线。 电脑输出的其他信息是什么呢? 我无法给你一个非常满意的答案, 因为这一切都是 对推论统计很有用的信息。 这些信息可以用来思考一些问题, 比如这个模型 拟合度很高的概率是多少? 这里这个是R平方, 如果你想算出R, 只需取一下平方根。 R等于 0.60032的平方根, 取决于你的精度。 你可能想知道,我们如何知道 R应该取正数平方根还是负数平方根呢? R的取值应该 在-1和+1之间。 答案是,你需要看下这里的斜率。 我们有一个正的斜率,这告诉我们 R是正数。 如果我们有一个负的斜率,那么R 那么我们就取负的平方根。 这里这个是调整R方, 这个例子里我们不需要太关注它, 因为我们现在考虑的只是双变量数据, 我们这里谈论的只是 咖啡因和学习时间。 当我们开始有更多的 解释学习时间的变量时, 那么我们就需要关注调整R方。 但我们现在不需要这么做。 最后是这个S变量, 这是残差的标准差, 我们在其他视频中讲解过。 那么它有什么用处呢? 这是一个衡量回归线与数据拟合程度的标准, 我们可以说这是一个关于典型误差的 衡量标准。 总结一下,计算机输出是很有用的, 它提供了很多数据, 关键是你如何从中挑出 那些你真正需要的信息。当你知道如何去挑选时, 理解这些数据会变得非常简单。