If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

同质的卡方检验简介

同质的卡方检验简介.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

我们已经在之前的视频介绍了卡方统计 我们已经在之前的视频介绍了卡方统计 现在我们要用它来检验同质性 同质性 homogeneity 用大白话说就是,看有多相似 这就是我们今天要测试的 我们会观察两个不同的组 看看这些组对于某个变量的分布是否相似 看看这些组对于某个变量的分布是否相似 所以这就是本视频要研究的问题 比如说 我们来关注 左撇子和右撇子 他们对学科的偏好相同吗? 他们是否同样喜欢 科学、技术、工程、数学、人文 这些学科 或者都不喜欢? 我们可以建立零假设和备择假设 零假设是指 在分布上没有差别 左撇子和右撇子 在偏好的学科中 没有差别 写下来:在学科偏好中,没有差别 写下来:在学科偏好中,没有差别 对于 左撇子和右撇子 左撇子和右撇子 接下来是备择假设 就是有差别 写下来:有差别 那么我们如何进行测试呢? 我们已经在很多视频里做了很多次假设检验了 我们已经在很多视频里做了很多次假设检验了 但这里,我们要从两个不同的群体中取样 所以用这个表示右撇子组 这是左撇子组 这是左撇子组 从右撇子当中取样60人 从右撇子当中取样60人 然后在左撇子组中取样 甚至不需要同样的样本大小 所以左撇子当中我们取样40人 这个图表是真正拿到的数据 在60个右撇子当中 有30人喜欢理科 STEM 代表科学、技术、工程和数学 15人喜欢文科 还有15人是文理科都喜欢 在左撇子的40人当中 10人喜欢理科,25人喜欢文科 5人是文理科都喜欢 这行是总数 右60人,左40人 还有2组的总人数 喜欢理科的2组总数 喜欢文科的2组总数 文理科都喜欢的总数 下面考虑当 零假设为真 时,期望值是多少 下面考虑当 零假设为真 时,期望值是多少 也就是左撇子和右撇子对学科偏好没有差别 也就是左撇子和右撇子对学科偏好没有差别 这列是右撇子 这列是左撇子 现在讨论当 零假设为真 时 左撇子和右撇子对学科偏好没有差别 左撇子和右撇子对学科偏好没有差别 我们对总体中偏好分布的最佳估计量 我们对总体中偏好分布的最佳估计量 通常来自总数这一列 我们已经假设没有差别 所以可以假设在任何一组中 每100人中有40个喜欢理科,也就是40% 还有40%喜欢文科 还有20%文理科都喜欢 这样我们在右撇子组中的60人 预计有40%喜欢理科 60的40%是多少? 0.4 x 60 = 24 同样地,有40%的人喜欢文科 同样地,有40%的人喜欢文科 还是 60 x 40% =24 右撇子组中还应该有20%文理科都喜欢 右撇子组中还应该有20%文理科都喜欢 60 x 20% = 12 这里是一样的,总数为60 再看左撇子组 我们做同样的计算 其中40%喜欢理科 40的40%,是16人 喜欢文科的也是40的40%,16人 文理科都喜欢的,40的20%,8人 这些人总数是40 一旦你计算出这些期望值 这就是确认是否满足卡方检验条件的好时机 这就是确认是否满足卡方检验条件的好时机 首先一点是随机条件 ,样本必须是真正的随机样本 希望我们满足这个条件 第二点是这些数据点的期望值必须至少等于5 第二点是这些数据点的期望值必须至少等于5 第二点是这些数据点的期望值必须至少等于5 这个条件我们也满足了 这里所有的数值都大于5了 最后一点,条件独立 我们要么用重复抽样 (放回抽样) 要么不用重复抽样(放回抽样) 我们要庆幸样本不超过总数的10% 我们要庆幸样本不超过总数的10% 假设也是这种情况 现在可以计算卡方统计了 X² = 应该等于 实际值和期望值 差异的平方 实际值和期望值 差异的平方 这里是 (30-24)² 除以期望值 24 对全部6个数据点都做同样计算 来看下一个 这里是 加上这一组的 (10-16)² 除以期望值16 之后,加上这组 (15-24)² 除以期望值24 (15-24)² 除以期望值24 我都没颜色可换了 然后看这组 这里是 + (25-16)² /16 接下来是这组 + (15-12)² 除以期望值12 最后一组 我换个没用过的颜色 我们要看这组 + (5- 8)² 除以期望值8 一旦得到卡方统计的值 接下来的问题就是,自由度是多少? 通过 经验法则 (拇指法则) 来看数据 看一下 行数和列数 我们有 3行 2列 那么自由度就是 行数减一,3-1 乘以列数减一,2-1 = 2 x 1 = 2 = 2 x 1 = 2 这非常容易理解 自由度为2 如果你知道其中 2 个数据点 而且如果你知道所有的总数 你就能算出其他的数据点 如果知道这两个数据点 30 和 15 就能求出这个 15 知道这个30 和总数 40 就能算出这个10 知道这个15 和总数40 能算出这个25 算出10和25 就能算出这个5 这就是经验法则的作用 行数减一 乘以 列数减一 就得出自由度 现在这个卡方统计 我还没有计算 但你可以用计算器算出来 自由度是这里 =2 这就能算出 P 值 我们就能得出卡方统计的极值或更极值分布的概率 我们就能得出卡方统计的极值或更极值分布的概率 我们就能得出卡方统计的极值或更极值分布的概率 如果低于我们提前设定的显著性差异水平 如果低于我们提前设定的显著性差异水平 那就否定了零假设 就可能是备择假设 如果不低于显著性差异水平 就不能否定零假设