If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

协方差和回归线

回归线的协方差,方差和斜率. Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

在这段视频中,我想做的是给你介绍 两个随机变量之间协方差的概念。 它被定义为距离的期望值—— 或者说是与每个随机变量的均值 的距离的乘积, 或者是与期望值的距离。 我把它写在这儿。 所以首先我有了一个x,我换个颜色。 所以这是随机变量x的期望值 减去X的期望值,你可以看到 也就是全部X的均值乘以—— 这是个随机变量Y—— 乘以Y到期望值的距离 或者说y的总体均值。 如果仍这不是很直观的话 ——你可以仅仅 想想它在用一些数字 做什么。 但事实是,它表示的是它们一起变化的程度。 每个数据的点都有X和y。 假设有整个数据。 每一个X和Y都在一起 可以定位坐标。 将会发生的是——假设当Y低于均值时, X高于均值。 假设总体中有一个点。 这是随机变量的一个实例 你从宇宙中取样一次 得到X = 1 Y等于——假设 Y等于3 假设你提前知道, X的期望值是0。 假设Y的期望值是4。 在这种情况下,发生了什么? 我们不知道整个协方差, 这个随机变量只有一个样本。 但是刚才发生了什么? 我们有1减去——要计算一下, 我们不打算计算整个期望值, 我只是想计算一下会发生什么 也就是期望值内的情况。 我们有1 - 0,所以有1 * 3 - 4, 乘以- 1。 所以有1乘以- 1,也就是 -1. 这告诉我们什么? 它告诉我们至少对于这个样本,这一次 我们对随机变量X和Y进行抽样 当Y低于它的期望值时, x高于它的期望值。 如果我们继续这样做,假设对整个总体 协方差是负的,这事的发生 就说得通了。 一个上升的话,另一个下降。 当一个向下时,另一个上升。 如果它们一起上升,它们 会有一个正的方差,或者两者一起下降。 以及他们合作的程度 会告诉你协方差的大小。 希望这能让你们对协方差的含义有 一些直观的感觉。 但是在这集视频中我想做的更重要的事情是 同这个公式联系起来。 我想结合协方差的定义 和我们用过的最小二乘回归联系起来。 这是一种有趣的数学问题 为了向你们展示所有这些联系, 真正的让协方差的定义 变得有用。 我真的认为这在很大程度上是有动机的 它在回归中出现的地方。 这些都是我们 之前见过的,你会以不同的方式看待它。 这整个视频,我要 重写协方差的定义。 这将是一样的期望值, 我要把这两个 二项式相乘。 也就是随机变量X的期望值 乘以随机变量Y——好,我 先做X。 加上X乘以Y的负期望值。 也就是- X乘以Y的期望值。 这个负号来自于在这里的 这个负号。 然后是负的X乘以Y的期望值, 只是用了两次分配律, 最后是X的负期望值 乘以Y的负期望值。 负号抵消了。 也就是加上X的期望值 乘以y的期望值,当然, 是整个式子的期望值。 现在我们看看能不能重写一下。 一堆随机变量和的期望值, 或者说随机变量的和或差, 也就是期望值的 和或差。 所以这是一样的。 记住,期望值,在很多情况下, 可以看成是算术平均值。 或者,在连续分布中, 你可以把它看成概率加权和, 或者概率加权积分。 我想我们以前见过。 重写一下。 这等于随机变量的期望值 X和y X乘以y,用颜色标记一下。 然后是- X乘以Y的期望值。 然后是- X的期望值 乘以y的期望值。保持正确的颜色。 然后减去这个的 期望值——我把括号括起来—— 这个的。 X乘以y的期望值,我知道 与所有嵌入的期望值相比, 这看起来可能很混乱。 但是一种思考的方式是 考虑已经存在的东西的预期值, 你可以把这些看成数字。 你已经用过了。 我们要把它们从期望值中取出来, 因为期望值的期望值 和期望值是一样的。 我把它写在这里,提醒一下大家。 X的期望值就是 X的期望值。这样想。 你可以把它看成随机变量 的总体均值。 所以这是一个已知的事实,它在那里, 它存在于宇宙之中。 它的期望值就是它本身。 如果总体均值,或者说X的期望值是5—— 这相当于5的期望值。 5的期望值 是5,也就是和X的期望值相同。 希望这讲得通,我们 马上就会用到它。 我们差不多做完了。 我们求出了它的期望值,还剩下一项。 最后一项,这个家伙的期望值。 在这里,我们从一开始就可以使用产权。 我把它写下来。 它的期望值——用大括号括起来—— 在这里。 X的期望值乘以y的期望值 看看能不能化简一下。 这也就是这两个随机变量 乘积的期望值。 我就这样放着了。 所以让我,我要把这些东西 保持原样,我要把它们冻结起来。 也就是XY的期望值。 那么这里是什么呢? X的期望值乘以—— 同样,你可以把它看成 如果你回到我们刚才说的—— 这是仅仅是一个数字,Y的期望值, 我们可以把这个提出来。 如果这是3X的期望值, 也就是3乘以X的期望值。 我们可以写成Y的负期望值 乘以Y的期望值x,当我们把它从期望值中取出时, 你可以这样看, 我们提出来了。 就像这样。 然后是负号。 这里也是一样。 你可以提出这个x的期望值 减去X的期望值乘以Y的期望值。 E到处都是,让人 很困惑。 最后,这两个期望值 的期望值, 也就是这两个期望值 的乘积。 所以这就等于——我把它 冻结——X的期望值乘以 Y的期望值。 现在我们得到了什么? Y的期望值乘以X的期望值。 然后减去X的期望值 乘以Y的期望值。 这两个是一样的。 对吗? 所以这将是——看看这个。 我们减去它两次,然后还有一个。 这些都是一样的。 这是Y的期望值乘以X的期望值。 这是Y的期望值乘以X的期望值, 只是顺序不同。 这是Y的期望值乘以X的期望值 把x减去两次,然后再加一次。 或者,一种考虑方法是这个和这个 会抵消掉。 你也可以选这个和那个。 但是我们还剩下什么? 这是两个随机变量的协方差。 X和Y等于—— 换回我的颜色,因为这个 最终结果是X的期望值乘以 XY的期望值减去—— 这是什么? Y的期望值乘以X的期望值。 现在你可以计算这些期望值了 如果你知道每一个的概率分布或密度函数 的随机变量, 或者如果你有全部数据, 无论何时,你都可以 从这些随机变量中抽取样本。 假设你有这些随机 变量的样本。 你怎么估计呢? 如果你估计它的期望值, 假设你有一些数据点, 一些坐标。 我想你们会发现这和我们的回归 是如何联系起来的。 X乘以Y的期望值 可以用X和Y乘积的 样本均值来近似。 也就是X和Y的样本均值。 取每一个XY组合, 求它们的乘积,然后求它们的均值。 这就是X和Y的乘积。 然后这一项, Y的期望值可以用Y的样本值来近似 X的期望值 可以用X的样本均值来近似。 两个随机变量的协方差 可以用什么来近似呢? 可以用什么来近似呢? 这是它们乘积的均值 样本减去样本Y的均值 乘以样本X的均值。 这个看起来很眼熟。 这看起来有点熟悉,因为这是什么? 这是分子。 这是我们要求回归线 斜率时的分子。 当我们试着求回归线的斜率时 我们有——我把公式重写一下 来提醒你——它等于XY各点乘积的 均值减去Y的均值再乘以 X的均值。 整个除以X²的均值。 你可以这样看, 除以X的均值乘以X。 我可以把X²写在这里, 减去X²的均值。 这就是我们求回归线斜率的方法。 或者更好的思考方式是, 如果我们在回归线中假设 我们得到的点是 从整个宇宙的可能点中提取样本, 那么你可以说我们 接近了攻击线的斜率。 你可能会在很多书上看到这个符号。 我不想让你们感到困惑。 也就是从样本中近似 总体回归线。 现在,这里——所有的东西 我们已经学过了——这是协方差, 这是X和Y协方差的估计值。 这个是什么? 我刚说了,你可以重写 这很容易——下面这部分 ——可以写成X的均值乘以X,也就是 也就是X²- X的均值 乘以X的均值,对吗? 这就是X²的均值。 好吧,这是什么? 这可以看成是X和X的协方差。 但是我们已经见过了。 我之前已经给你们看了很多, 很多视频,当我们第一次学习它的时候。 随机变量与自身的协方差 就是该随机变量的方差。 你们可以自己验证一下。 如果把Y换成X, 变成X减去期望值 乘以X减去X的期望值。 这是X的期望值 减去X的期望值的平方。 这就是方差的定义。 我们可以从另一个角度来考虑我们的回归线, 可以看成是两个随机变量的 协方差除以X的方差。 或者你可以把它看成是独立 随机变量。 这就是回归线的斜率。 总之,我觉得这很有趣。 而且我想把你在统计学的不同部分 看到的东西联系起来. 并且向你展示他们真的是有联系的。