If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

应急表卡方试验

萨尔用应急表卡方测试, 看看是否有几种不同的草药能防止人们生病。 Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

假设有一些人们相信能够预防流感的药草 本字幕由网易公开课提供,更多课程请到http//open.163.com 为了检验这个 我们等到流感季节 随机将人们分为三组 流感季节中 1组服用药草1 网易公开课官方微博 http://t.163.com/163open 2组服用药草2 3组则服用安慰剂 安慰剂实际没有效果 但你告诉病人安慰剂可能有效 它其实只是像药剂的糖丸 oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org 使用安慰剂是为了 避免某种安慰剂效应 即患者的心理作用 觉得自己病好多了 即患者的心理作用 觉得自己病好多了 安慰剂可以是一种糖丸 少量糖对流感是不会有影响的 少量糖对流感是不会有影响的 这里我们有个表 这种表叫列联表 上面列有各组患病和不患病的人数 通过这些 我们能计算出总数 1组总共是120人 2组140人 1组总共是120人 2组140人 而安慰剂组 也就是服用糖丸的那一组 总共是120人 我们还能算出患病的总人数 20+30=50 50+30=80 最右侧一列表示总和 下面是没患病的总人数 100+110=210 210+90=300 总人数是380 不管是从行还是从列加 下面想想 如何通过列联表 下面想想 如何通过列联表 及我们对χ2分布的知识 来得到某种结论 首先建立零假设 也就是药草没有效果 首先建立零假设 也就是药草没有效果 然后备择假设是 药草有效果 我这里没有说改进 我只是说有效果 因为药草不排除增加得流感的概率 我们没有检验它是否会让情况好转 我们只是说 药草是不是和没用药不同 和所有假设检验一样 首先假定零假设成立 和所有假设检验一样 首先假定零假设成立 看得到这样极端数据的可能性是否很低 看得到这样极端数据的可能性是否很低 如果很低 我们将拒绝零假设 假设检验中 首先需要确定显著性水平 假设检验中 首先需要确定显著性水平 这里显著性水平是10% 或者说0.10 下面我们要对该列联表计算χ2统计量 这和之前餐厅的情况很类似 在零假设成立的前提下 求出每个单元格的预计结果 求出每个单元格的预计结果 在零假设下 求出预计值 在零假设下 求出预计值 然后求出观测值和预计值差值的平方 然后用预计值标准化 取这些差值平方之和 如果该平方和很大 得到这种结果的概率很小 我们就该拒绝零假设 下面来求预计值 假设药草没有效果 在此前提下 药草对患病人数应该无影响 我们于是能够求出患病或不患病的人数 我们于是能够求出患病或不患病的人数 这里80/380的人患病 我得注意 不要说"总体" 这并非全世界所有服用此草药的人 这只是样本 我可不想把你们绕糊涂了 我可不想把你们绕糊涂了 样本中 我们使用了所有的数据 因为我们假设用没用草药没有差别 所以使用所有数据来计算患病和不患病的比例 80/380的人没有患病 也就是21% 21%的人没有患病 那么这里就应该是79% 即1-21% 300/380肯定也会得到79% 根据总的样本数据 应该是21%的人患病 79%的人不患病 对每个组分别算一下 这里是120人 预计有21%的人患病 这里的预计值是多少呢 用21%乘以120 结果四舍五入 25.3人患病 我在这里写一下 预计值用黄色 这里的预计值 如果假设有21%的人患病 那么1组中预计有25.3人患病 剩下的人不患病 可以减一下 或者用79%乘以120 我这里用120-25.3 得到94.7 94.7人不患病 这是预计值 每一组都进行相同计算 2组仍然是21%人预计患病 21%乘以该组人数140得到29.4 不患病人数为140-29.4 结果是110.6 如果草药无效 预计有29.4人患病 而这里预计 没有患病的人数是110.6 看起来很接近 所有数据合起来 从数字上看 药草似乎没有太大作用 再看安慰剂组 120人中预计有21%的人患病 求得25.2 这里是四舍五入造成的 应该和这里数字一样 我说是21% 其实应该是21点几几几 这里组人数一样多 因此预计值也应该一样 都写25.3 保持一致 得到25.2的原因是因为21%后面损失了一些精度 这里 我和前面保持一致 然后这里预计值是94.7 看起来药草2让情况更糟糕了… 不对 我就不照着数字乱说了 下面来求χ2统计量 我还是把它写成大X吧 因为这个随机变量的分布只是近似于χ2分布 所以先写成这样 自由度之后再说 还是写成花体吧 有些人喜欢写χ 而不是X 这里的χ2统计量 也就是求 观测值和预计值之差的平方除以预计值 也就是(20-25.3)2/25.3+(30-29.4)2/29.4+(30-25.3)2/25.3 后面还有 我接着写 忽略这些黄字 +(100-94.7)2/94.7+(110-110.6)2/110.6+(90-94.7)2/94.7 我用计算器算一下 (20-25.3)2/25.3+(30-29.4)2/29.4+(30-25.3)2/25.3+ +(100-94.7)2/94.7+(110-110.6)2/110.6+(90-94.7)2/94.7 结果四舍五入是2.53 零假设成立前提下 χ2统计量等于2.53 然后我们还需要知道自由度 我给大家讲一下这种列联表的经验法则 以后我们还会进一步探讨自由度的问题 列联表有行数和列数 列联表有行数和列数 这里是2行3列 根据经验法则 列联表自由度的公式是 行数-1乘以列数-1 这里是2行3列 因此是(2-1)×(3-1) 也就是1×2 也就是2 自由度是2 原因以后我还会讲 这里只给一些直观理解方法 如果你知道所有的这些总和信息 如果你知道所有的这些总和信息 也许如果你还知道总体的参数 如果你知道所有这些总和信息 而且你知道r-1行的信息 最后一条信息就能通过总和求出 比如这里 知道这个 这个也能很快求出来 这不是新信息 只不过是总和-20 同理 如果知道这个 下面这条也不是新信息 类似地 如果知道这两条信息 后面第三条也不是新信息 你可以用总和减去前两条信息之和得到它 因此自由度是列数-1乘以行数-1 因此这里χ2分布具有2个自由度 而显著性水平α是10% 下面 我们要求出 得到显著性水平10%的χ2统计量临界值 如果实际样本比这更极端 如果得到实际结果的概率比得到临界值的10%还低 我们就会拒绝零假设 如果没那么极端 我们就不会拒绝零假设 因此我们要求出2自由度χ2分布的临界值 因此我们要求出2自由度χ2分布的临界值 查表 自由度是2 显著性水平是10% 因此临界χ2值是4.60 我们可以通过2自由度的χ2分布图像看看 我们可以通过2自由度的χ2分布图像看看 也就是这条蓝色曲线 临界值是4.60 这是5 4.60大概在这里 因此得到的值至少如此极端的概率是10% 就是这一部分 如果我们算出的χ2统计量落在这个拒绝区域内 那么我们就将拒绝零假设 但χ2统计量只有2.53 大概在这里 在零假设的前提下 得到这个值并不算很疯狂 根据现有数据 我们无法拒绝零假设 我们不能确定草药是否无效 但我们也不能说草药有效 我们无法拒绝零假设 虽然这不是100%正确 但我们无法拒绝它 至少从假设检验结果来看 药草之间 药草和安慰剂之间没有显著差别 药草之间 药草和安慰剂之间没有显著差别