If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

回归直线斜率的置信区间

回归直线斜率的置信区间.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

小马对他所在学校的学生 花在学习上的时间和咖啡因消耗量之间的关系 很感兴趣。 他在学校里随机选了20名学生 记录他们摄取了多少毫克的咖啡因 以及在某一周内的学习时间。 这是基于他的样本的 最小二乘法电脑分析结果。 假设所有的推论条件都已满足。 最小二乘法回归线斜率的95%置信区间是什么? 如果你感兴趣,请暂停本视频, 看看你是否能解出这个问题。 否则,我们一起来解决这个问题。 好了,首先我们先来回顾一下问题。 让我们画出回归的图示。 水平轴,即x轴, 是咖啡因的摄入量 (以毫克计)。 而y轴,即竖轴, 代表了以小时计的时间 学习时间。 小马随机选择了20名学生。 对每一个学生, 他得到学生的咖啡因摄入量 和学生花在学习上的时间 然后在这里画上相应的点。 所以有20个数据点。 1,2,3,4,5,6,7,8,9,10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20。 接下来他把这些数据输入计算机。 目的是拟合一条最小二乘回归线。 假设这条最小二乘回归线 看起来像这样。 最小二乘回归线 来自于尝试最小化 回归线和所有这些点的距离的平方。 这里是关于这条最小二乘回归线的信息。 这里最有价值的信息, 如果我们想可视化或理解这条回归线, 是这一列的信息。 这个常量系数告诉我们 这里的y轴截距是多少。 截距是2.544。 而关于咖啡因的这个系数, 这是,可以这么想, 是每份咖啡因的增加量, 对应于多少学习时间的增加量? 你可能已经意识到了 这是最小二乘回归线的斜率。 所以 这是斜率, 等于0.164。 而这里的信息, 告诉我们最小二乘回归线对数据的拟合度如何。 R的平方,你应该已经熟悉了, 它表示的是y变量的方差 能被x变量解释多少。 如果这个值是1或100%, 表明能被完全解释。 那么这是个非常好的拟合。 如果这个值是0,表明完全不能解释, 那么这是个非常差的拟合。 大写S,是残值的标准差。 这是衡量数据偏离回归线的另一个量度。 这一列的信息 对于回答我们的问题非常有用。 这是系数的标准误差。 这个系数是我们真正关心的, 我们真正关心的统计量是 回归线的斜率。 而这个是回归线斜率的标准误差。 你可以把它看作是 回归线斜率的采样分布的标准差的估计值。 记住,这里我们取了20个学生的样本, 然后我们计算了回归线斜率的统计量。 每当你取不同的样本 你很可能会得到不同的斜率。 这个斜率是总体中某些真实参数的估计值。 这有时也被称为最小二乘回归线斜率的标准误差。 最后两列你不用关心, 跟本视频的内容关系不大。 这用于, 假设咖啡因摄入量和学习时间没有关系, 对于我们这里计算的统计值,相关的T统计量是多少? 还有, 假设没有相关性,极端情况的概率是多少? 比如说, 真实的回归线斜率是0. 那么,这个概率其实是非常低的。 大概只有1%的几率你会得到这些结果。 如果咖啡因摄入量和学习时间之间没有关系。 有了前面这些铺垫, 现在让我们回答这个问题。 那么,为了构造一个统计值的置信区间, 你需要一个从样本中计算出的统计值。 这里是0.164. 然后加上或减去一个t临界值, 这个t值基于我们想要的95%的置信区间 以及自由度, 稍后我会谈到。 然后,你乘以 这个统计值的标准误差。 本题中,我们关心的统计量 是斜率。 所以标准误差是0.057。 乘以0.057. 我们使用t临界值 而非z临界值 是因为我们统计量的标准误差 是一个估计值。 我们并不知道 样本分布的标准差。 那么最后我们需要做的 是找出t临界值是多少。 你可以使用计算器 或者t值表。 我会使用表格。 用表格,我们需要知道自由度。 像本题中的回归线斜率的情况, 自由度是 数据点的数目减去2。 所以我们自由度是20减2, 即18。 当前我不想再深入下去了, 至于为什么你要减去2, 这已经超出了本视频的范围。 但是这样我们可以查表了, 这个是自由度。 我们关心95%的置信区间。 即两边有2.5%的尾端。 自由度是18。 所以t临界值是2.101。 那么,95%的置信区间是 0.164加上或减去t临界值 2.101乘以该统计量的标准误差。 乘以, 我这里用一个小括号, 0.057。 如果你想得到一个确切的值,你可以把这个公式输入计算器。 95%置信区间的意思是95%的时间, 即你计算的95%的置信区间, 包括了我们估计的参数的真实值。