If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

大样本比例假设检验

萨尔使用大量样本来测试超过30% 的美国家庭是否有互联网接入。 Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

我们要检验一个假设 即超过30%美国家庭 拥有互联网接入 显著性水平5% 我们采集了150个家庭作为样本 结果57家拥有接入 要进行假设检验 首先要设定零假设和备择假设 要进行假设检验 首先要设定零假设和备择假设 零假设也就是 要检验的内容不正确 零假设是 美国家庭总体的互联网接入率小于等于30% 零假设是 美国家庭总体的互联网接入率小于等于30% 而备择假设 和要检验的一致 即接入率大于30% 也就是这个 超过30%的美国家庭拥有互联网接入 对应这个 要检验的内容就是备择假设的内容 然后我们要根据零假设得到一个总体中的占比值p 然后我们要根据零假设得到一个总体中的占比值p 在这个假设下 看样本中150户中有57户接入互联网的概率是多少 在这个假设下 看样本中150户中有57户接入互联网的概率是多少 如果该概率小于5% 小于我们的显著性水平 那么我们就能拒绝零假设 接受备择假设 想一下这个 一开始假设零假设是正确的 根据该假设 我们得到一个总体均值μ 或者说总体占比p 伯努利分布中μ=p 我要选择的这个占比值 需要尽可能让得到这种情况的概率最大 得到样本中这种情况的概率现在还不知道 我来算下 得到样本中这种情况的概率现在还不知道 我来算下 样本150户中有57户拥有互联网接入 57/150 样本占比是0.38 样本占比是0.38 假设零假设成立 也就是假设 总体占比p 使得得到这个值的概率最大 零假设前提下 让这个概率最大的 p其实就是30% 零假设前提下 让这个概率最大的 p其实就是30% 零假设前提下 让这个概率最大的 p其实就是30% 这是总体占比 假设零假设成立 我们可以假设这个占比值等于0.3 或者说30% 想想 28%或29%也满足零假设 想想 28%或29%也满足零假设 不过28%或29%让得到这个的概率更低 这时 该检验就不够强 所以我们选择的占比值p 既满足零假设 同时又让得到这个的概率最大 如果得到这个的概率仍然低于5% 我们就能很好地接受备择假设了 所以这里假设总体占比是0.3 考虑下总体分布的状况 我画一下 总体分布大概是这样 基于我们这里的假设 总体分布中 30%的家庭拥有互联网接入 这表示为1 剩下的家庭没有互联网接入 70%没有互联网接入 这是伯努利分布 我们知道其均值等于有互联网接入的占比 我们知道其均值等于有互联网接入的占比 所以这里的均值也就是0.3 也就是30% 这是总体均值 也许应该这样写 零假设成立前提下的总体均值是0.3 零假设成立前提下的总体均值是0.3 而总体标准差… 我用黄色来写 零假设成立前提下的总体标准差 最开始讲伯努利分布时我就讲过了 这个标准差等于根号下有网的占比0.3乘以无网的占比0.7 这个标准差等于根号下有网的占比0.3乘以无网的占比0.7 这个标准差等于根号下有网的占比0.3乘以无网的占比0.7 也就是根号下0.21 后面我们可以用计算器算一下 我们这里要求的 样本占比达到0.38的概率 我们这里要求的 样本占比达到0.38的概率 先来看一下样本占比的分布 任意容量为150的样本 得到的都会是二项分布 这个我提过 你会得到二项分布 也就是很多这样的条形 当n比较大的时候 特别是… 这里相当于判别… 如果np… 这里p是30% 如果np>5 而且n(1-p)>5 则可以假定样本占比的分布为正态分布 而且n(1-p)>5 则可以假定样本占比的分布为正态分布 你可以从总体中抽出150个家庭作为样本 得到所有这些条形 你可以从总体中抽出150个家庭作为样本 得到所有这些条形 但由于n很大 n=150 150×0.3显然大于5 150×0.7也大于5 你可以近似认为这是正态分布 所以这里 我们用正态分布来近似 所以这里 我们用正态分布来近似 这个占比的正态分布 其均值… 这个占比的正态分布 其均值… 记住 这里一切的前提是零假设成立 因此 这个均值 也就是样本占比的均值 它等于总体均值 所以这等于0.3 和总体均值一样 而标准差可以根据中心极限定理来求 样本占比的标准差=零假设下的总体标准差/根号下样本容量 样本占比的标准差=零假设下的总体标准差/根号下样本容量 样本占比的标准差=零假设下的总体标准差/根号下样本容量 样本占比的标准差=零假设下的总体标准差/根号下样本容量 样本占比的标准差=零假设下的总体标准差/根号下样本容量 这里样本容量是150 这是可以计算的 这里样本容量是150 这是可以计算的 分子上的值 刚计算出是根号下0.21 因此这里是根号0.21除以根号150 用计算器算一下 按照写的方式来算 根号0.21 然后除以根号150 根号0.21 然后除以根号150 结果是0.037 这里的样本占比分布的标准差是0.037 这里样本占比分布的标准差是0.037 这里样本占比分布的标准差是0.037 这里样本占比分布的标准差是0.037 要求样本占比得到0.38的概率 我们需要求出0.38离均值有多少标准差远 也就是计算z统计量 或者理解为z分数 也就是计算z统计量 或者理解为z分数 z分数表示离均值有多少标准差远 然后看得到此z统计量的概率是多于还是少于5% 首先求离均值有多少个标准差远 还是那样 样本占比可以看成是该分布的一个可能样本值 还是那样 样本占比可以看成是该分布的一个可能样本值 那么 它离均值有多少个标准差远呢 也就是用样本占比减去 样本占比分布的均值 然后除以样本占比分布的标准差 也就是(0.38-0.3)/0.037 也就是(0.38-0.3)/0.037 这里分子也就是0.08 分母是0.037 我们算一下 0.08除以之前的这个值 0.037 结果四舍五入是2.14个标准差 因此这里是2.14个标准差 或者说 表示离均值多少标准差远的z统计量等于2.14 或者说 表示离均值多少标准差远的z统计量等于2.14 或者说 表示离均值多少标准差远的z统计量等于2.14 准确说 这里是比均值高出2.14个标准差 我们关心的是单侧 得到这个z统计量的概率是多于还是少于5% 如果少于5% 我们将拒绝零假设 接受备择假设 这里考虑标准化的正态分布 如果你想的话 可以称之为z分布 一个完全标准化的正态分布 其均值为0 这里每个值都是z分数 如果这里是1 就表示离均值1个标准差远 这里我们需要找到临界z值 记作临界z分数 或临界z值 让得到z值高于此值的概率等于5% 让这个面积等于5% 5%也就是我们的显著性水平 如果z值落在这个范围内 我们就会拒绝零假设 如果z值落在这个范围内 我们就会拒绝零假设 这个面积是5% 那么这整个面积也就是95% 这里是一个单侧检验 我们只关心更大的z值 z值超过临界值 我们就会拒绝零假设 可以通过查表来求临界z值 该z值要让小于它的面积等于95% 表中给出的也正是小于某值的累积概率 表中给出的也正是小于某值的累积概率 查表找95% 有一个0.9495 一个0.9505 用这个 这个更接近一些 这个z值也就是1.6 最后一位是5 1.65 因此临界z值等于1.65 也就是说标准化正态分布中 z值小于1.65的概率 也就是说标准化正态分布中 z值小于1.65的概率 或任何正态分布中 均值右侧1.65个标准差以内的概率是95% 或任何正态分布中 均值右侧1.65个标准差以内的概率是95% 这是临界z值 实际样本中的z值 或者说z统计量是2.14 实际样本中的z值 或者说z统计量是2.14 大概在这附近 到这里的概率显然小于5% 我们甚至可以求出这么极端甚至更极端情况的概率 我们甚至可以求出这么极端甚至更极端情况的概率 可以用z表格求出这个区域的面积 可以求出该结果的p值 这里 我们只是想练习一下 在5%显著性水平下能否拒绝零假设 这里是可以的 这个值比临界z值更极端 于是我们可以拒绝零假设 接受备择假设