如果你看到这则信息,这表示下载可汗学院的外部资源时遇到困难.

If you're behind a web filter, please make sure that the domains *.kastatic.org and *.kasandbox.org are unblocked.

主要内容

比较人口比例2

萨尔继续以大选为例。 Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

上一节最后 我们正在试图弄清 男性投给特定候选人的占比和女性占比是否有显著区别 男性投给特定候选人的占比和女性占比是否有显著区别 我们随机抽取了1000个男生 1000个女性 得到分别的样本占比 结果男性是0.642 女性是0.591 我们的目标是求得95%置信区间 根据实际样本 我写一下 男性的样本占比减去… 换个中性的颜色 男性样本占比减去女性样本占比是0.642-0.591=0.051 男性样本占比减去女性样本占比是0.642-0.591=0.051 我刚算了这两个数字的差 我们这里是在求一个置信区间 记住 置信表示并非完全准确 我们希望相信 95%的几率… 这两个样本占比之差相当于此统计量抽样分布的一个样本值 这两个样本占比之差相当于此统计量抽样分布的一个样本值 这两个样本占比之差相当于此统计量抽样分布的一个样本值 我们希望有95%几率 实际均值p 我们希望有95%几率 实际均值p 落在这个样本差值0.051左右某距离d的范围内 这我写过很多次了 不过我没有按照教科书给的一般公式 那个其实很容易记 这里你可以理解为什么置信区间是如此 95%几率 总体占比之差p 95%几率 总体占比之差p 95%几率 总体占比之差p 这也就是说 95%几率 0.051在均值p 95%几率 0.051在均值p 因此我们需要在这个均值周围找出一个距离d 如果从抽样分布中随机抽取一个样本值 比如这就是该分布的一个随机样本值 它有95%几率落在这个均值周围d范围内 它落在均值左右d范围内也就是 均值落在它左右d范围内 这就能求出置信区间 我们的置信区间也就是这个值-d到这个值+d 那么这个距离d是多少呢 对于标准化正态分布 我们可以查z表格 我们假设分布是正态的 因为抽样分布的样本容量n很大 而且占比值也不接近于0或1 它在中间 所以不会碰到边界处的怪异情况 正态分布均值左右多少个标准差内包含95%概率呢 正态分布均值左右多少个标准差内包含95%概率呢 正态分布均值左右多少个标准差内包含95%概率呢 这个z表格给出的是累积概率 我们要求的是这个z值 如果这中间是95% 那么尾部就是2.5% 这里尾部也是2.5% 那么在表示累积概率的z表格中 我们也就是要找97.5% 那么在表示累积概率的z表格中 我们也就是要找97.5% 那么在表示累积概率的z表格中 我们也就是要找97.5% 即包括所有这些面积的位置 得到z值然后用作上下限 中间的概率就是95%了 得到z值然后用作上下限 中间的概率就是95%了 这里找97.5% 在这里 对应1.96个标准差 这里找97.5% 在这里 对应1.96个标准差 对于标准化正态分布得到1.96 或者说z分数是1.96 把它用到这个正态分布 这个距离d也就是1.96×分布的标准差 这个距离d也就是1.96×分布的标准差 也就是1.96乘以所有这些 1.96乘以此分布的标准差 我们需要用这个乘以1.96 不过有个问题 实际的占比p 不过有个问题 实际的占比p 我们想了解p 不过由于样本容量很大 我们可以用样本占比估计p 不过由于样本容量很大 我们可以用样本占比估计p 所以这里可以改成约等号 用样本占比来替代 这些我们是知道的 这个n=1000 下面用计算器算一下 这个计算比较繁杂 根号 然后括号 男性的样本占比是0.642 用它乘以(1-0.642) 然后除以1000 加上 女性这一侧的相应值 样本占比是0.591 乘以(1-0.591) 也就是这个 然后除以1000 括号不要搞错 最后要写上反括号 括号不要搞错 最后要写上反括号 因为是根号下所有这些 结果是0.022 因此这个值约等于0.022 然后求这个距离d 这个标准差的最好估计值是0.022 乘起来 0.022×1.96四舍五入是0.043 因此这个d=0.043 据此就能求出置信区间 有95%几率 总体占比之差落在样本占比之差左右0.043范围内 有95%几率 总体占比之差落在样本占比之差左右0.043范围内 有95%几率 总体占比之差落在样本占比之差左右0.043范围内 下面实际算一下区间 下限是0.051-0.043 即0.008 下面实际算一下区间 下限是0.051-0.043 即0.008 然后0.051+0.043=0.094 因此投给某一特定候选人的男女总体占比之差的95%置信区间 因此投给某一特定候选人的男女总体占比之差的95%置信区间 也就是p 这就是刚才计算器算的 这就算完了 我们相信 有95%几率 男女占比之差落在这个范围内 该范围内男性比女性占比更大