If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

介绍线性回归中斜率的推断

介绍样本斜率, 并利用它们构造置信区间或对最小二乘回归中的总体斜率进行检验 .

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

【讲师】这一节我们将介绍回归线 【讲师】这一节我们将介绍回归线 但这已经不是我们第一次讨论回归线了 如果你还不熟悉回归的概念 我建议你先看一下介绍它的视频 今天我们要讲如何从回归线进行推理 今天我们要讲如何从回归线进行推理 如果你对统计推理或假设检验还很陌生 如果你对统计推理或假设检验还很陌生 还是刚才的建议,先去看那些视频 现在我们假设 鞋码 和 身高 是正相关的 现在我们假设 鞋码 和 身高 是正相关的 现在我们假设 鞋码 和 身高 是正相关的 我们可以画出这样的横轴,表示鞋码 我们可以画出这样的横轴 x,表示鞋码 鞋码可以是1、2、3、4、5 6、7、8、9、10、11、12 可以一直画下去 然后是身高 画在纵轴 y 上 表示身高 单位是英呎(大约30cm),1、2、3、4 5、6、7 英呎 然后可以取一个样本,看看这之间的关联 然后可以取一个样本,看看这之间的关联 假设从20人的总量中随机取样 假设从20人的总量中随机取样 在以后的视频中我们会讨论 做出适当推理的必要条件 假设那20个人就是这20个数据点 这里有一个小朋友,这里应该是个成年人 他们的脚更大一些,个子也更高 还有3、4、5、6、7、8、9 10、11、12 13、14、15 16、17 18、19、20个人 现在20个数据点都有了 然后你可能要做的就是把它们输入电脑 然后你可能要做的就是把它们输入电脑 你可以手工处理 不过现在有电脑给我们帮忙了 电脑会试着拟合出一条回归线 当然有很多方法可以做到 但是比较典型的方法是 使得这些点到直线的距离的平方值最小 这条回归线会有一个方程 就像任何直线都有方程一样 我们通常用 y^ 表示 (y 头顶上有一个小帽子 ^) 这个小帽子告诉我们这是一条回归线 等于 y 轴截距 a 加上斜率 b 乘以变量 x 的值 在图上这里是 a 这里要说清楚,如果你再取一个样本 你可能会得到不同的结果 我们就把这第一个样本叫做 y₁ 吧 这里就是 a₁ 和 b₁,图上也是a₁ 如果再取20个人的样本 我们来做一下 新数据1、2、3 4、5、6、7、8 9、10、11、12 13、14、15、16 17、18、19、20 然后你根据这些数据也拟合出了一条线 它有可能看起来是这样的 y 轴截距和斜率可能都略有不同 y 轴截距和斜率可能都略有不同 我们把这里第二个样本称为 y₂ ^ y₂ = a₂ + b₂ x y₂ = a₂ + b₂ x 你每取一次样本,都会得到不一样的结果 你每取一次样本,都会得到不一样的结果 对于这些值,它们本质上是统计数据 要记住,统计就是我们从样本中得到的,并用来估计总体参数的实际值 要记住,统计就是我们从样本中得到的,并用来估计总体参数的实际值 要记住,统计就是我们从样本中得到的,并用来估计总体参数的实际值 那么,我们努力估算的总体参数的实际值会是什么呢? 那么,我们努力估算的总体参数的实际值会是什么呢? 好,假设这样 想象有这样一个世界 能够找出真正的线性关系 或者说,也许鞋码和身高之间存在某种真正的线性关系 或者说,也许鞋码和身高之间存在某种真正的线性关系 理论上讲,如果能测量地球上的每一个人,就能得到实际值 理论上讲,如果能测量地球上的每一个人,就能得到实际值 根据你如何定义人口总量 是所有现在活着的人 还是曾经活过的所有人 这无法实际操作 但假设你已经完成取样 你有几十亿个真实人口的数据点了 你有几十亿个真实人口的数据点了 又根据这些数据拟合出了回归线 那这就是真实总量的回归线 y^ = 这里要再明确一下 这里的 y 轴截距和斜率 这是总体参数的实际值 所以我们不用 a, 而是用阿尔法 α 表示 用贝塔 β 代替 b,乘以 x 但是很难求出确切的 α 和 β 值 但是很难求出确切的 α 和 β 值 所以我们才用不同样本的不同 a、b 值来估算 所以我们才用不同样本的不同 a、b 值来估算 先记着这点,来看个有意思的 我们可以根据样本进行推理 我们知道,比如看这个 b₂ 并不是刚好等于 β 的 但我们能有多大把握说 至少存在一个正线性关系或非零线性关系呢? 至少存在一个正线性关系或非零线性关系呢? 或者说,我们是否可以根据这个统计值创建一个置信区间 来更好地了解总体参数的实际值? 来更好地了解总体参数的实际值? 答案当然是可以 这和我们基于比例或均值做推理时的概念是一样的 这和我们基于比例或均值做推理时的概念是一样的 这和我们基于比例或均值做推理时的概念是一样的 做推理时,比如这里 真实回归线的实际斜率 可以用这个样本 得到了这个斜率 称为 b₂ 可以根据它来创建一个置信区间 这个置信区间 基于某个临界值,乘以 理想状态下,是样本统计量抽样分布的标准差 理想状态下,是样本统计量抽样分布的标准差 在本题中,就是样本回归线斜率 但由于我们不知道实际值 所以无法精确计算 只能根据一个样本来估算 这也就是统计的标准误差 SE 我们会在以后的视频中深入讲解 由于这里使用的是估计值 就要用上之前学过的 临界 t 值 就要用上之前学过的 临界 t 值 基于你想得到的置信水平 我们就取95%吧 还要看 自由度 取决于我们有多少数据点 我们就能求出 t* 根据样本可以求出 SE 这样就能求出 b₂ 这就构建出了置信区间 我们在这里还可以做假设检验 可以先做 零假设 H₀ 可以先做 零假设 H₀ 不存在非零线性关系 或者说,回归线的实际斜率 β = 0 或者说,回归线的实际斜率 β = 0 备择假设 实际关系可以是 β > 0 那就是一个正的线性关系 或者 β ≠ 0,那就是非零线性关系 然后你可以做的是,假设 得到这样最小或最大极值的概率是多少 得到这样最小或最大极值的概率是多少 如果低于某个阈值 你可能会拒绝零假设 而给出备择假设 这就是我们之前做过的 根据统计量创建置信区间 或进行假设检验 对真实参数进行假设 唯一不同的是 我们要估计的参数 是理论总量回归线的参数 我们要用样本统计量来计算样本回归线 我们要用样本统计量来计算样本回归线