If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

相关性 (独立性) 的卡方检验

相关/独立的卡方检验。

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

【讲师】我们已经了解了卡方统计 【讲师】我们已经了解了卡方统计 如果还不太了解,我建议先去看那期的视频 如果还不太了解,我建议先去看那期的视频 我们已经用卡方统计做了一些假设检验 我们已经用卡方统计做了一些假设检验 我们还做了基于双向表的假设检验 我们还做了基于双向表的假设检验 今天我们要进一步扩展 用卡方检验来检验两个变量之间的相关性 用卡方检验来检验两个变量之间的相关性 现在我们来假设一个人脚的长度和手的长度有关联 现在我们来假设一个人脚的长度和手的长度有关联 而不是互相独立的 好,我们要做的是建立一个假设检验 记住,假设检验种的零假设 总是假设没有关联 这里我们就假设 脚长和手长没有关联 写下来:脚长和手长没有关联 写下来:脚长和手长没有关联 另一种表达是:他们互相独立 通常我们做的是独立性卡方检验 通常我们做的是独立性卡方检验 那么,备择假设则是我们假设两者之间存在关联 那么,备择假设则是我们假设两者之间存在关联 写下来:脚长和手长有关联 也就是,脚长和手长不是互相独立的 我们接下来要做的就是 在一个总体中随机抽样 假设我们随机抽样100个人 在这100人中 我们测量他们的右手更长,还是左手更长,还是两只手一样长 我们测量他们的右手更长,还是左手更长,还是两只手一样长 同时还会测量他们的脚长 之后把所有数据制表 这就是我们实际拿到的数据 这里值得我们思考一下 刚才做的这些和同质性的卡方检验有什么区别 刚才做的这些和同质性的卡方检验有什么区别 做同质性的卡方检验时 我们从两组不同的总体中抽样 我们看两个不同的组 来检验某个变量在两个不同的组中的分布是否相同 来检验某个变量在两个不同的组中的分布是否相同 来检验某个变量在两个不同的组中的分布是否相同 而现在我们是从一个组中抽样 然后分析同一个组里两个不同的变量 然后分析同一个组里两个不同的变量 本题我们分析的是脚长和手长 本题我们分析的是脚长和手长 这里可以看到,有11个人的右手更长 同时右脚也更长 3个人的右手更长但左脚更长 3个人的右手更长但左脚更长 还有8个人的右手更长但两脚等长 还有8个人的右手更长但两脚等长 同样地,有9个人的左脚更长左手也更长 同样地,有9个人的左脚更长左手也更长 还有2个人的左手更长,而右脚更长 还有2个人的左手更长,而右脚更长 其他这些都可以过一遍 但是要做卡方检验 我们会问 每个数据点的期望值是多少? 当零假设成立时 也就是脚长和手长 不相关时 为了分析 我把这些列做个求和加总 所有行也做求和加总,画上线分开 所以,这里右手更长的人一共有多少? 所以,这里右手更长的人一共有多少? 11+3+8 =22 左手更长的人,一共有 2+9+14 =25 然后是两只手一样长的人 12+13+28 =25+28 =53 再把这列求和加总 22+25+53 =100 再加总这边 右脚更长的人,11+2+12 =25 左脚更长的人,3+9+13 也是 25 我们可以把这列求和加总 得到50,或者 总计这行,25+25+ ? =100 这样算也是50 现在来算这些期望值 记住,我们计算的期望值是 当零假设成立时 也就是假设这些分布都是独立的 脚长和手长都是独立变量 那么,既然互相独立,我们就假设 右手更长的最佳估值是22% 右脚更长的最佳估值是25% 那么在100人中 预估会有 0.22 x 0.25 x 100 个人右手右脚都更长 预估会有 0.22 x 0.25 x 100 个人右手右脚都更长 我只是把概率相乘 如果是独立变量,就是这样计算 0.22 x 0.25 x100 也就是 22的 1/4,等于5.5 也就是 22的 1/4,等于5.5 这里右手更长而左脚更长的人 期望值是多少呢? 应该是 0.22 x 0.25 x 100 我们刚才已经算过了 等于5.5 然后是这里的期望值 右手更长,而两脚等长的人 右手更长,而两脚等长的人 (22/100) x (50/100) x 100 也就是22的1/2 =11 然后继续算 这里的期望值是 0.25 x 0.25 x 100 =6.25 这里是 0.25 x 0.25 x 100 又是 6.25 最后这个 有两种计算方法 可以 0.25x0.5x100 =12.5 或者用 6.25 +6.25 + ? =25 也得到 12.5 这个期望值可以这样计算 5.5 + 6.25 + ? =25 5.5 +6.25 =11.75 11.75 + 13.25 = 25 这里也是一样 应该是13.25,因为前面是11.75 加起来是25 这两个加起来是 26.5 26.5 + ? =53 也是 26.5 一旦你算完这些期望值 就是开始检验条件的时候了 第一个条件是,随机抽样 我们假设是随机抽样的 第二个条件是,任意一个数据点的期望值至少等于5 第二个条件是,任意一个数据点的期望值至少等于5 我们可以看到所有的期望值都大于5了 我们可以看到所有的期望值都大于5了 实际的数据点本身可以不等于5 实际的数据点本身可以不等于5 所以这里的 2 是没问题的 因为它对应的期望值都大于等于5了 最后一条是,条件独立 我们要么用重复抽样(放回抽样) 或者样本容量不超过总体的10% 或者样本容量不超过总体的10% 我们假设这也符合了 所以假设我们所有条件都满足了 我们就可以计算卡方统计了 我们要做的是 对每一个数据点 都计算实际数据和期望值的差 X² = (11-5.5)² / 期望值5.5 这是第一个数据点 然后做下一个 + (3 - 5.5)² / 5.5 再下一个 + (8 -11) ² /11 然后算这个点 + (2- 6.25)² / 6.25 然后继续算 把所有的9个数据点都算完 为了节省时间,我提前算好了 为了节省时间,我提前算好了 继续把9个数据点都算完 最后得到的卡方统计 X² = 11.942 在计算 P值 之前 我们先想一下自由度是多少? 我们先想一下自由度是多少? 我们的表格是 3行 x 3列 的 一个思路是 行数减一 ,(3-1) 乘以 列数减一, (3-1) 2 x 2 = 4 另一个思路是 如果你知道这些数据点中的4个,并知道这些总数 你就能算出其他的5个数据点 所以现在我们可以计算 P值了 可以用计算器算 也可以用卡方表 我们已经用计算器算好了 P 值 = 0.018 提醒我们自己一下这是什么呢,是概率 是卡方统计在这个值或更大值分布的概率 是卡方统计在这个值或更大值分布的概率 接下来,我们要做的是假设检验 接下来,我们要做的是假设检验 我们将其与显著性水平进行比较 我们其实应该在最开始就设定好显著性水平 我们其实应该在最开始就设定好显著性水平 所以我们假设当最开始设定这两种假设时 就设定了显著性水平为0.05 就设定了显著性水平为0.05 这应该是在计算之前先设定好的 然后来对比 P值和显著性水平 然后来对比 P值和显著性水平 这个p值比我们的显著性水平小很多 这个p值比我们的显著性水平小很多 可以这样理解 这些期望值都是 当零假设成立时 但得到这个极值或更极值的概率是小于2%的 但得到这个极值或更极值的概率是小于2%的 但得到这个极值或更极值的概率是小于2%的 这小于我们的显著性水平 这就使得我们否定了零假设 也就是说,手长和脚长之间有相关性 也就是说,手长和脚长之间有相关性