If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

公平抽样

要得到一个有价值的结论,我们需要一个有代表性的,没有偏向性的样本。 Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

市议员凯莉想要知道 她辖区里的居民 对重划学区计划的看法。 以下哪种调查方式 可以使市议员凯莉就 关于她辖区内居民对 该企划案的看法做出有效结论呢? 在我们开始做题之前,我们只 需要明白如果你想要 得出一个有效结论是关于 她整个辖区的居民 对于企划案的看法的话,她 需要找出有代表性的样本, 而不是那种有偏差的 只能代表她部分辖区的那种样本。 那让我们来看一下她的选项。 她能否直接问她的邻居呢? 那么,她可能住在一个 从重划学区计划受益的地区 亦或是从重划学区计划受损的地区。 因此仅作为她的邻居无法 代表整个辖区。 所以只询问邻居不大合理。 询问魏斯派瑞树退休社区的居民。 同样的道理,第一条是在地理上产生了偏差。 过度采样了她的邻居而非整个辖区。 在这里,她在特定年纪的人口特征上过度采样了。 所以她过度采样了年迈居民 也就有可能跟 中年或年轻居民持不同意见。 所以这样做也是不合理的。 向辖区内200个居民调查 且他们的名字是随机抽取的。 那么,这听着比较合理了。 这样你就不大可能 在某个角度上过度采样了。 这是最有可能能得到合理的具有代表性的 样本了。 且这个样本的数量也相当大。 因此可以说,这个随机过程很重要, 她是如何得到这些名字的呢? 但这个看起来的确很合理。 向本地游乐园的一群父母询问。 同样的道理,这就跟询问你的邻居是一样的。 也就是在取样某一群特定的人口特征。 这里可能就是那群 最在意学校的人了。 但她想要得到的整个辖区关于 重划学区计划的看法。 所以同样的道理,这是一个本地的游乐园。 不能代表辖区内的所有 游乐园。 因此我不会选这个。 我们再来做一题。 咪咪想要做一个关于她的300位同学的调查是关于 投票给哪一位候选人来当班长——拿破仑 戴拿迈或者布莱尔沃尔多夫——谁在竞选中 处于领先。 咪咪会提问,假如今天就是 竞选日的话,你会投票给哪一位候选人? 以下哪种调查方式 能使得咪咪得到关于 哪位候选人处于领先的有效结论呢? 那么让我们来看一下,询问所有 跟布莱尔午餐坐一张桌子的所有学生? 不。 那就会使结果偏向布莱尔了,很有可能。 这并不是具有代表性的样本。 询问所有拿破仑所在的足球队成员? 不,同样的道理了。 他们很可能都喜欢拿破仑 或者都不喜欢拿破仑, 或者都反对拿破仑。 无论是哪一种都是有偏差的样本。 把所有学生的名字都放在帽子里 然后抽50个名字。 询问被抽到的这些学生。 那么这个看起来是比较像样的随机样本了 可以很好地代表 整个群体。 询问所有名字开头为N或者B的学生? 那么,这可以看作是某种程度上的随机性。 但要注意了,N是拿破仑的名字开头, B是布莱尔的名字开头。 你可能会说,这其实挺公平的。 这两个字母开头的学生你都选了。 但也许有10个人的名字是以N开头的 但只有2个人的名字是以B开头的呢。同样的道理, 这并不是一个数量足够多的样本。 撇开这一切不谈,也许 有些人就是会更倾向于选择 那些和他们的名字开头相同的人呢。 我会排除这个选项。 询问班上的每一个人? 这个方法是对的。 一共有300个学生,也许不会 太过于耗时。 询问群体里每一个人的选择 是最好的样本了。 以下哪种调查方式 能使得咪咪得到关于 哪位候选人处于领先的有效结论呢? 那么,这就是最好的结论了。 人们可能会改变主意。 这并不是确切的选择。 整个群体 就是最好的样本数量了。 给班上每位学生分配一个编号 然后用电脑程序生成 在1到300之间的任意50个数字。 询问被选中的数字的那些学生。 这很接近把所有学生的名字放进 帽子里然后抽50个名字。 我会选这个。 这个看着也很合理。