If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

总线速度统计意义

萨尔确定有关总线速度的实验结果是否具有统计学意义。

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

乔凡娜通常乘B路公共汽车去上班 但她现在认为A路公交车能让她上班更快。 她随机选择50个工作日作为实验组和对照组 对于实验组的每一天,她乘坐A路公交车 对于对照组的每一天,她乘坐B路公交车 她每天都计算上班所需的时间 她做的事情很有趣,这是 很重要的,她随机选取了50个工作日。 在她做这些事情之前,她只是每天早上起床 然后自己决定乘坐哪种公交车 因为人们非常不擅长随机 即便我们自认为是随机的 我们并不是那么随机 她可能无意中在一周的早些时候坐A路公共汽车 或者她的工作时间更短 或者她无意间乘A路公交的时候 天气更好,交通更通畅。 记住,人有一种自然的倾向 来证实他们自己的假设。 所以,如果她认为A路公交车更快 有可能是因为她选择了她想 证实她的猜测的那天的数据。 她随机选择的50天是很重要的 我能猜测到她可能是通过 在一些纸上写下那些工作日的日期来选择的 她将会有50张纸,然后她把 这些纸的正面都翻过去,或者她闭上眼睛 然后她把这些纸全放在桌子上 闭着眼睛,随机移动一些纸 到桌子的左边或者右边 如果一些纸被移动到左边,那么这些天 她会乘坐A路公交车,如果她把一些纸移到右边 的桌子上,这些天她就要乘坐B路公交车。 这个方法就是她用来保证是随机的。 所以它告诉我们,这是重要的, 实验的结果告诉我们, 乘坐A路公交车上班的时间的中位数比乘坐B路公交车上班时间的中位数少8分钟。 或者换一种方法来想这件事,如果我们说 实验组的 中位数减去对照组的中位数 我们能得到什么? 实验组比对照组少8分钟,对吗 这是A,这是B,所以如果A 比B小8的话 然后这会等于负8 这就是另外一种方法来重述我 在这里画下划线的部分。 有人的汽车鸣笛了,希望你们不要在意。 不论如何,再响的话,我会努力集中注意力的 (笑) 来测试这个结果可不可以被 随机性来解释,她做了下面这个表 这个表总结了1000个重复随机选择的 数据的结果,这些结果的中位数的差异 精确到大约5分钟 这是怎么回事? 你可能说,她拿到了她想要的结果 这些数据看起来证实了 A路公交车更快地送她上班。 那这些重复随机选择的结果 是用来做什么的? 需要知道的一个重要的事是,她发现 她拿到的我划线这里的这些数据 是随机的。 有一些可能性,可能A路公交车和B在路程上花的时间是完全一样的 她不经意在那天乘坐了A路公交车 当A路公交车带她上班更快。 有可能B路公交车更快,但是她在那天不经意 坐上了更快的A路公交车。 那天可能刚好交通不拥堵。 她在这里做的事情是重新随机选择了数据 她想看看通过这些重新随机选择的数据, 在1000个重新随机选择的数据里, 有百分之多少的数据证实了她的想法? 我能得到A路公交车比B快8分钟或更快的结果吗? 或者你可以认为A路公交车行驶时间的中位数 比B路公交车行驶时间的中位数少8分钟或者更多。 如果是少于9分钟,或者少于10分钟 或者少于15分钟,这些都是很有趣的数据, 这些数据证实了我们的推测, 那就是A路公交车行驶的更快。 让我们看看下面这个表格。 实际上是右边的 让我们提醒自己,她在这里做的事情 你第一次看到时 觉得有一点繁琐。 所以,在她的实验里, 我把这个单词写下来,实验... 汽车在外面鸣笛,希望你可能 听不见,这其实是一个很愉悦的 好听的鸣笛,听起来 像有点讨厌的鸟叫,无论如何(笑) 她的实验,就是我描述的 她在25天乘坐A路公交车 在25天乘坐B路公交车 她会记录所有的行驶时间,让我们说 我在每一列有25个数据。 这里是12分钟,20分钟,25分钟 你可以继续,一共有25个数据。 这里有12个数据都小于20分钟 12个数据大于20分钟。 这种情况下,对于A路公交车的中位数时间 是20分钟,我随便说的数字。 为了比B路公交车的中位数快8分钟 B路公交车的中位数是28, 可能位于这个位置。 可能这是18,然后你有12个数小于28 你有12个数大于28 所以B路公交车的中位数时间 是28,再一次,我随便说的数字。 如果你考虑实验组的中位数 我简写成TGM TGM减去对照组的中位数 能得到什么?20减去28是负8. 这就是最后的结果... 这些是理论的,可能的结果, 她实际实验的假设的结果。 现这个表是用来做什么的? 她选择了这些时间,然后说 你知道吗,让我们想象一个世界,我可以 随意选择时间乘坐任何公交车。 所以她随意的重新排序 在A与B之间,做了一千次 第一次,第二次,第三次。 她做了 1000次。 我假设她用了电脑程序 来重复排序,再一次, 她选择了她有的数据,她 重新排序,重新洗牌。 可能某一天是A, 是18 可能是25 可能是30 再说一遍,我有19,25,30 可能B是 你知道她在重新排序,所有这些 标成点的数据,可能B是 A有了18,25和30, 或许12,20和28 在这种情况下,这种随机排序 她持续做了很多遍。 在这种随机排序中,实验组的中位数 减去对照组的中位数是多少? 等于正5。 在这种随机排序里,这样的推测 A路公交车将会比B路公交车慢5分钟。 如果她在重新排序中得到了这个结果 这将会... 她将在这里插一行写5 这样她将 在这里放一个缺口。 看起来她分类了,或者她没有拿到数据 但是她通过2的倍数来分类了 如果她再一次得到这个结果,她要在这里写上2 她就会说,“在多少次随机排序里 我得到了5分钟的不同?” 或是 “试验组有几次是慢5分钟的?” 这代表了什么? 举个例子,这里说了 在1000次重新排序中,有18次 1000次中的18次, 她发现实验组的中位数 比对照组的中位数多了10分钟。 A路公交车的中位数在这个猜测下 的重新排列中,实验组比 对照组慢了10分钟。 这里有159次实验组... 再说一次,她的随机排序中,这不是基于 观察,这是随机排序 这里有159次她的实验组 比对照组慢了4分钟。 做这件事的总体原因,她说 “得到比这个结果一样或者更好的概率是多少?” “更好”表示更加证实她的猜测: 他的实验组比对照组快。 这个情况是这个在这里的 另外一种情况,实验组更快,是在这里。 这里,实验组的中位数比对照组的中位数小10。 1000次中有多少次这样的情况发生? 这个发生了85次,这个发生了8次。 当你把这两种情况相加,1000次中有93次 在他的重新排序里,或者可以说 百分之9.3, 1000个重新随机筛选的数据中 百分之9.3的时间,她找到的数据 和她的推测相符,或者比实验的更多。 一种思考这个结果的方式是, 随机从她的实验中抽取的结果的概率, 或更好的结果的概率 为百分之9.3. 这是很低的概率,只有很低的概率 这件事纯粹因为偶然发生 现在的问题是,什么是阈值? 如果有百分之50的概率,你可能会说 这是很容易碰巧发生的。 如果是百分之25的概率,你可能会说 这不太会是碰巧发生的,但也可能会。 百分之9.3,大约为百分之10。 假如10个人做了像她这样的实验 即便一切都是随机的,一个人可能会得到这样的概率。 统计学家通常会做的事情是 划一个阈值,然后这个阈值 在统计学意义上一般是百分之5。 可以这样想,她碰巧拿到这个结果的概率 这个结果或者更极端的结果, 认为是碰巧发生的概率 是百分之9.3。 如果降低显著性到百分之5。 如果说,这应该小于等于百分之5. 然后说,这不是在统计上显著的。 偶然发生的事件上我得到这个结果的概率也可以超过了百分之5。 再一次,这仅仅依赖于 你的阈值在哪。 让我们回答题目,我认为我们已经回答了 最终的问题,根据猜测, 实验组的中位数比对照组的中位数小于8分钟或者更多的概率是多少? 再一次,大于等于8分钟,这就是 负8和负10。 我们刚才就得出来了,是在1000个随机筛选的数据中的93个, 所以是9.3%。 如果你设定5%为你的统计学显著性, 你可以说,这没有达到我的要求,所以这不符合 统计学显著性的结果