If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

密度曲线

介绍如何使用密度曲线让分布可视化. 简要回顾频率直方图和相对频率直方图.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

我们现在这个视频里 思考如何描述数据的分布 然后分析这些描述。 我们将最终得到 密度分布曲线。 但我们从一个简单的例子开始 来复习一些概念。 假设有16个学生 我让他们测量他们在过去三十天里每天喝多少杯水 然后平均一下 这个数据点在这里 告诉我们一个学生平均 每天喝0.5杯水 那个人可能非常脱水了。 这个人每天喝了8.1杯水 平均,在过去30天里,他们水分更多。 如果我们想要形象化 我们可以画一个频率直方图 我们可以创建一些分类。 第一个分类可以是关于数据点 他们大于等于0,小于1, 然后我们可以看到两个数据点 在这个分类里。 这就是为什么这个类别在这里 包含了2个内容。 在这里的这个类别大于 等于3,小于4. 看,这里有4个数据在这个类别里。 在这个频率直方图 它的高度是4. 这是一个很好的方式来看分布。 但你需要更注意 我的数据在这些类别中的百分比是怎样的? 这就变得很有趣了, 如果我有很多很多的数据, 假设我们有1,600,432,507个数据 我们只知道多少数据在 分类里不是很有用, 知道在每个分类里的百分比 更有用。 对于这个,我们可以建立 一个相对频率直方图 看,这代表了同样的数据, 但在第一个分类里, 高度不是2, 而是12.5% 为什么? 因为16个中的2个数据点在这个分类里, 2/16是1/8,即12.5% 在这里的这个,看 高度不是4, 4个数据点,现在是25% 但是这说的是同一件事, 16里面的4个数据点在这个分类里, 4/16是1/4,是25%。 这两种直方图都很有用 你将看到他们一直被用到。 但是也有情况是你有 很多很多的数据点, 并且你需要更细的分类, 你可以, 让我们把我们的类别划分的更精确 比如, 不用一杯来衡量水 可能你想用半杯来衡量 第一个类别是 大于或等于0.小于0.5 这会给你一个清晰的画面 假设 我们有超过16个数据点, 可能我们有1600万个数据 概率在左边, 大概这不够好, 可能你想要更精确 你把所有的类别 换成四分之一的杯子 但这还不够好, 你想得到更精确的, 你可以想象会发生什么, 你可能会持续然后达到 无穷数量的分类, 每个分类都无穷的小, 非常非常小,接近一个点, 如果你连接他们的顶部 你将得到一个曲线, 这样的曲线 我们经常用在统计学里, 像视频开头承诺的, 这就是我们谈到的密度分布曲线, 密度曲线的价值是 它描述的分布 数据点可以取任意值, 他们不只是被划分在区域里。 那怎么理解这样的曲线? 如果你观察整个区间, 从0,比如到9,假设没有一个人 平均喝超过9杯水 即便在我们1600万个数据里, 在这个区间里曲线下的这段区域里 是100%,或1.0 对于所有密度曲线都是对的 整个曲线的面积是100%, 代表了所有的数据点, 密度曲线也不会有负数 你不会看到曲线下沉 或者像这样奇怪的样子 好了 我们如何利用它呢 如果我想知道我数据落在2到4个杯子之间的概率 我会查看这个区间 从2到4 我会看这里的区间 我会算出在这段曲线下区域的面积 这段区域将是大于等于0, 小于等于100% 当我看到这里时, 这看起来是所有在曲线下面积的40% 只是看起来,我觉得40%的数据 在这个区间 如果我问你多少百分比的数据 大于3 你可能看这个区域 看起来是50% 但是,这是估测的 但你可以从观察开始 密度曲线很有用 现实生活里,统计经常用画图 来代表密度曲线的信息 他们可以是编程 或一些自动化工具 也有一些著名的密度曲线 我们将学习有名的钟形图 它有精确的数据 和很多工具来精确的计算面积 最后我想说的 是密度曲线的一个很关键的误区 如果问你,大约百分之多少 的数据正好是每天3杯水 当我说正好,正好 带0的数字3000一直延续下去, 是数字3. 你说好,这是3 让我看看曲线上的点 看起来是0.2,或者比0.2高一点 可能你会说是比20%多一点 或大约20% 我会说,这是错的 记住,数据在区间的百分比 不是曲线的高度 是在区间里曲线下的面积 如果我们只是讨论一个精确的值, 比如正好是3, 在曲线下是没有面积的, 我刚画的垂直的线 在这恶搞数字3上是没有宽度的 这在现实生活中也是有意义的, 放到1600万的人上, 很不可能每一个人 会每天都喝正好3杯水 我们讨论的不是比3杯水多一点或少一点 可能有很多人在2.9和3.1之间 但是没有一个人每天喝正好3杯水 当有人说我每天喝三杯水 这是一个大约的估计 他们可能喝3.001, 或 2.99999, 或3.15,或其他 所以,你可以说 百分之多少的落在这个区间 可能是大于等于2.9 且小于等于3.1 再一次你有一个区间 然后你可以看这个区域 我们从2.9看到3.1 现在我们有一个区间,有宽度的 这大约是 我涂阴影的黄色区域 我们可以用长方形估测 即便这个曲线的上班不是平的 我们可以说,看,这个大约 像是一个有0.2高的长方形 至于宽呢 这里的宽度,如果我们从2.9看到3.1 宽度是0.2 我们可以大约估测这部分的面积 将它看作长方形,长方形的面积 0.2乘0.2给我们面积是0.4 我们说,大约4%的数据 在这段区间里。