If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

关于引入偏差的抽样不足的示例

关于引入偏差的抽样不足的示例.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

一位参议员想知道她所在州的人们对互联网隐私问题的看法 一位参议员想知道她所在州的人们对互联网隐私问题的看法 一位参议员想知道她所在州的人们对互联网隐私问题的看法 她从电话簿中随机抽取100人的名字,做了一项民意调查 她从电话簿中随机抽取100人的名字,做了一项民意调查 注意电话簿里不包含手机号 和 特殊号 (申请不被登记的号码) 注意电话簿里不包含手机号 和 特殊号 (申请不被登记的号码) 参议员办公室给选中的这100个人打电话,直到接听 参议员办公室给选中的这100个人打电话,直到接听 调查显示,42%的受访者表示“非常担心”网络隐私 调查显示,42%的受访者表示“非常担心”网络隐私 在这个案例中 偏差最可能来自什么? 还要考虑到 有可能出现什么类型的偏差呢? 被调查者的数值被高估还是低估了? 被调查者的数值被高估还是低估了? 或者没有偏差? 但是我们没有这个选项 但是我们没有这个选项 这题是三选一 我建议你们暂停视频,想想刚才说的这些 我建议你们暂停视频,想想刚才说的这些 我们是参议员 我们想知道受访者中,非常担心网络隐私的人,占比多少 我们想知道受访者中,非常担心网络隐私的人,占比多少 我们想知道受访者中,非常担心网络隐私的人,占比多少 然后我们从电话簿上抽取了100个人 我们每个号都打通 得出42%的人非常担心 那偏差会来自什么? 我们一起来分析 A是无响应偏差,我们并没有这个情况 我们选了100个人 如果只有50人接听了电话 然后我们就不再打了 那么我们可以说,样本中50人无响应 那么我们可以说,样本中50人无响应 这是无响应偏差 那50个无响应的人会怎么回答? 也许就会带偏调查结果 或者如果我们打通了 而得到更好的数据 但是本题中已经说了 选中的100个号码都会持续拨打,直到有人接听 选中的100个号码都会持续拨打,直到有人接听 所以就确保了这100个选中的人 都给出了回答,都有响应 所以不存在无响应偏差 下一个选项,覆盖不全偏差 覆盖不全偏差是指, 你无法从部分人群中取样 你无法从部分人群中取样 正因为没有取样的这部分 而可能产生的偏差 我们再来看这题的情形 我们是参议员 我们想要对所有的选民进行抽样 我们想要对所有的选民进行抽样 但是我们选择 只从电话簿上列出的号码中抽样 这里代表电话簿上列出的人 这里代表电话簿上列出的人 而我们没有抽取这些电话簿上没列出的人 而我们没有抽取这些电话簿上没列出的人 他们可能也有电话号,只是申请不登记到电话簿上 (特殊号) 他们可能也有电话号,只是申请不登记到电话簿上 (特殊号) 也有可能他们没有电话,或只有手机号 你可能会问,这重要吗? 我们来想, 那些申请不把号码登记到电话簿上的人(特殊号) 或者连电话都不用的人 他们有可能比别人更担心隐私 他们有可能比别人更担心隐私 他们明确选择不被列入电话簿 所以覆盖不全偏差肯定是一个最应该考虑的偏差来源 所以覆盖不全偏差肯定是一个最应该考虑的偏差来源 我们在所有想调查的选民中,只选了一个子集来取样 我们在所有想调查的选民中,只选了一个子集来取样 而我们错过的刚好是最可能担心隐私的群体 而我们错过的刚好是最可能担心隐私的群体 而且我想说,因为覆盖不全偏差 “42%的人担心网络隐私” 这个结果数值是被低估的 “42%的人担心网络隐私” 这个结果数值是被低估的 很可能有比42% 更多的人担心隐私 因为有人申请号码不列入电话簿 还有人都不用电话 所以覆盖不全偏差是存在的 这也表明 “42%的人担心网络隐私” 这个结果数值是被低估的 这也表明 “42%的人担心网络隐私” 这个结果数值是被低估的 这也表明 “42%的人担心网络隐私” 这个结果数值是被低估的 现在看最后一个选项,志愿者响应取样偏差 在这个题目里 如果参议员这样做 在公告牌上贴个广告 或者在网站上宣传 来投票吧,告诉我们你有多介意网络隐私 来投票吧,告诉我们你有多介意网络隐私 这时的偏差来源 就是谁会看这个网站 再说一遍 如果你是在网站上说,来做调查吧 你收集到的信息都来自一个子集 就是那些愿意来参加调查的人 也就是志愿者 但这题里并不是这样做的 我们没有征集100个志愿者 而是从电话簿里抽取了参加调查的人 所以肯定选 覆盖不全偏差