If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

随机抽样和避免偏差的方法

随机抽样和避免偏差的方法.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

-【老师】假设我们经营一所学校, 在学校里 有一群学生。 这是我们的总体 我们想知道这些学生 对学校的数学教学质量有什么感觉, 所以我们做了一个调查, 我们只需要决定 让谁来回答这个调查。 选择1是去找总体的每一个成员 但是如果我们说这是一所很大的学校 假设这是一所大学, 大学里有一万人。 我们不能跟每个人都谈。 相反地,让我们对总体进行抽样 来了解整个学校学生的感受。 我们将进行抽样。 我们将对总体进行抽样。 现在,为了避免我们的回应 带有偏差, 为了更好地反映总体的情况, 我们希望样本是随机的。 样本可以是随机的, 随机,或者不是随机的。 不是随机的。 乍一看随机抽样好像很简单, 但当你真正去做的时候, 它并不像你想的那么容易。 一种类型的随机样本是简单随机样本。 所以,简单 随机样本 这就是说, 好吧,让我给学校里的每个人分配一个号码, 也许他们已经有一个学生证号码, 我要用一台电脑, 一个随机数生成器, 来产生一个100个人的样本,100个学生的样本, 假设有100个学生的样本, 我将把调查应用到他们身上, 这是一个简单随机样本。 我们只是随机地进入总体, 我把它画出来。 这是总体,我们只是随机地选出人, 我们知道这是随机的, 因为有一个随机数生成器,或者我们有一串数字 或者类似的, 让我们可以挑选学生。 这很好, 这个样本不太可能产生偏差。 但是也有可能, 你的随机数生成器碰巧选择了 男女人数不成比例的样本, 或者是新生人数不成比例的样本, 或者工程专业学生 与英语专业学生的人数不成比例的样本。 所以,即使你生成的是一个真正的简单随机样本, 同样的, 有可能这个样本不能代表整个总体。 为了减轻这种情况, 我们可以还使用其他的技巧。 技巧1是分层抽样。 分层抽样。 就是对整个总体 进行分层的方法。 假设我们用同样的总体 同样的总体, 为了方便,我把它画成正方形, 我们要把它分层, 假设我们想要一个合适的 大一,大二,大三,大四的样本。 所以我们会按大一,大二, 大三,大四来划分, 然后我们从每组中抽取25个学生作为样本。 这就是分层抽样。 这是大一,大二,大三,大四, 我们不是从总体中抽取100个学生作为样本, 而是每个组抽取25个学生作为样本, 就像这样。 这样可以确保, 你至少从大学里的不同年龄段 , 或不同水平的学生那里 得到参考性的回应。 现在可能还有另一个问题, 事实上,我更关心的是 是否能准确表现学校的男女比例, 如果我随机选100个人, 概率很可能是50比50,这是有可能的。 但也有可能, 由于随机性,有不成比例的男性 或不成比例的女性的样本。 这也是有可能发生在分层抽样的。 你可能会说, 你知道我要做什么吗? 有一种技巧叫做集群抽样。 我写在这, 集群抽样,然后我们对每组进行抽样。 我们确信,每组中, 男女比例都很平均。 例如, 我们可能不是从整体中抽取个体, 我们可能会说 在每周二和周四, 好吧,你看出来这不是一件小事, 假设 我们把 总体分成几组, 这些是班级, 每个班级的男女比例都是均匀分布的, 或者非常接近均匀分布。 实际上,我们要做的就是对班级进行抽样, 这就是为什么它被称为集群,或集群法 或集群随机抽样, 因为我们要对班级随机抽样, 每个班级的男女比例都很接近或者刚好相等 所以我们知道我们会得到好的表现, 但我们仍然在抽样,我们从群体中抽样, 然后我们要调查 每个群体中的每一个人, 也就是其中一个班级里的每一个人。 这些都是随机调查或随机样本的形式。 你有简单随机样本, 你可以分层或者集群 然后随机选择一个集群 调查该集群中的每个人。 如果这些都是随机样本, 那么非随机样本是什么样的呢? 一个非随机的例子是, 你有一个自愿调查, 或自愿回应样本 你告诉学校里的每个学生, “嘿,这里有个网址。 “如果你有兴趣,填一下这份调查吧。” 这可能会引入偏差, 因为 也许是喜欢学校数学教学的学生 更有可能填写这张表格, 也许是不喜欢它的学生更有可能填写, 也许是有更多时间的孩子 更有可能填写表格。 所以这很有可能引入偏差。 这些填写调查的学生 可能会有更大的偏差, 因为他们是自愿的。 另一个不是随机样本会被称为, 你引入偏差是出于方便 即偏差抽样,这是经常使用的术语, 我们就从100个最先到学校的学生 中抽取样本。 这对我来说很方便 因为我不需要使用随机数, 或者分层抽样,或者做任何的集聚抽样, 你可以理解为这也会导致偏差, 因为到学校的前100名学生, 可能是最勤奋的学生, 也许他们上的早鸟数学课 有一个非常好的老师,他们对此很满意。 也有可能是另一种情况, 老师不是最好的, 所以可能会引入另一种情况的偏差。 如果你让人们自愿参与调查 或者你说 “哦,我调查前N个学生" 或者你说,”让我和所有现在刚好 在我面前的学生谈谈。" 他们可能是出于方便而出现在你面前, 但他们可能不是真正的随机样本。 还有其他原因可以解释为什么你会引入偏差, 不是因为抽样导致的。 你可能引入偏差 是因为你调查的用词。 你可以想象一个调查问, ”你认为自己能幸运得到 世界上很少有人能得到的数学教育吗“ 你可能会说, “嗯,是的,我觉得自己很幸运。” 如果用词是, 你同意你们学校 代数不及格的学生比例 比周围的学校要高的事实吗? 这可能会让你产生负面的偏差。 所以用词在调查中非常非常重要, 这可大有学问。 另一种情况是, 被称为回答偏差。 再说一遍,这不是关于… 回答偏差 这只是人们不想说出真相 或者根本不想回应。 也许他们害怕 自己的回应 会被数学老师或管理人员看见, 或者如果他们的回应太消极, 害怕被以某种方式被报复。 正因为如此, 他们可能会不诚实, 所以他们的回应可能过于积极 或者根本不填。 最后,这是对如何思考抽样的 一个高度概述: 你想要进行随机抽样 因为它降低了引入偏差的概率, 然后这里有一些技巧。 同时也要考虑 你是否陷入了这些有可能引入偏差 的陷阱。