If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

方差分析 2: 计算 SSW 和 SSB (组内和组间的总平方和)

方差分析 2: 计算 SSW 和 SSB (组内和组间的总平方和). Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

上一节中 本字幕由网易公开课提供,更多课程请到http//open.163.com 我们计算了9个数据点的总平方和 9个数据点被分为了3组 或者更一般地 分为m组 这一节我想知道总平方和 网易公开课官方微博 http://t.163.com/163open 有多少是由于组内波动造成 多少是由于组间波动造成 首先 我要求的是组内总波动 组内平方和 oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org 黄色用过了 用蓝色吧 组内平方和SSW 其中W表示within(组内) 我们希望求出 总波动中有多少 是因为各组内数据点同各自均值之间的差异造成 是因为各组内数据点同各自均值之间的差异造成 从这里开始 我这里不是要求每个点同总均值的距离 而是求每点同各自组均值之间的距离 这里要求各点同各自组均值的距离平方之和 这里要求各点同各自组均值的距离平方之和 3减去该组均值2 平方 加(2-2)2 加(1-2)2 对每组都这样处理 每组数据分别减去各自组的均值 于是有+(5-4)2+(3-4)2+(4-4)2 最后再看第三组 用组中数字减去该组均值 平方 然后全部加起来 用组中数字减去该组均值 平方 然后全部加起来 于是第三组有 +(5-6)2+(6-6)2+(7-6)2 这等于多少呢 最上面是1+0+1 也就是2 中间是1+1+0 所以又要加个2 下面是1+0+1 还是加2 组内平方和是6 想想 总的波动是30 其中有6来自组内的波动 下面考虑一下 计算中有多少自由度 有多少个独立的数据点 假设每一组有n个数据点 这里n=3 如果你知道n-1个值 而且知道样本均值 你总能求出第n个值 在这里也就是说 如果知道2个数据点 总可以求出第3个 在这里也就是说 如果知道2个数据点 总可以求出第3个 比如知道这两点 就能求出第三个点的值 总的来说 每组n个数据 那么自由度就是n-1 总的来说 每组n个数据 那么自由度就是n-1 n表示组内数据的个数 那么每组的自由度是n-1 这里是n-1 n-1 n-1 这样说吧 每一组是n-1个自由度 然后有m组 所以总共是m?(n-1)个自由度 这个特定的题中 n-1=2 每一组是2个自由度 总共是3组 那就是6个自由度 未来我们会从数学上就自由度进行更深入的讨论 未来我们会从数学上就自由度进行更深入的讨论 这样想最简单 它是真正独立的数据点个数 假设我们知道计算平方距离的这些集中趋势统计量 假设我们知道计算平方距离的这些集中趋势统计量 第三个数据点可以通过其它两个求出来 所以这里是6个自由度 总波动中有这么多来自组内波动 下面考虑一下有多少总波动来自于组间波动 这就需要计算… 我换个好点的颜色 这些颜色貌似都用过 这里要计算的是组间平方和SSB B表示between(组间) 也就是说 总波动中有多少 是因为均值之间的波动 这就是我们现在要计算的 而SSW是每个点相对组均值的波动 这里求多少波动来自于这些之间 对于每个数据点而言… 先考虑一下第一组吧 第一组中 有多少波动是来自组均值相对总均值的波动 第一组中 有多少波动是来自组均值相对总均值的波动 我从第一个值的情况开始写一下 波动也就是其所在组的均值2减去总均值 平方 对于第二个值也一样 它对应的均值减去总均值 平方 第三个值也一样 它对应的均值2减去总均值 平方 总共是3个(2-4)2 也就是3×4 即12 对每一组都可以进行类似处理 我要求的是总和 对每一组都可以进行类似处理 我要求的是总和 我要求出总波动中 组间波动的贡献 我要求出总波动中 组间波动的贡献 刚才算的来自第一组 是第一组的贡献 再看第二组 计算这个5… 抱歉 不是计算它 该数据点 总波动中的组间波动是 (4-4)2 这里也是(4-4)2 考虑的不是样本点 而是样本均值 最后是(4-4)2 用这个 减去这个 然后平方 对每个数据点都是如此 最后剩下第三组 组均值是6 因此有(6-4)2+(6-4)2+(6-4)2 再想想 这里有多少自由度 我们可以这样想 已知总均值时 有多少是新信息 我们可以这样想 已知总均值时 有多少是新信息 我们可以这样想 已知总均值时 有多少是新信息 如果知道2个组均值 知道总均值 第3个组均值总能求出来 如果知道2个组均值 知道总均值 第3个组均值总能求出来 知道第一个第二个 可以求出第三个 知道这个和这个 可以求出那个 因为知道这三者的均值 一般而言 如果有m组 m个均值 自由度就是m-1 这个例子中m=3 所以自由度是2 这个例子中m=3 所以自由度是2 下面来具体算一下平方和 第一项 2-4=-2 平方得4 这里有3个4 所以是3×4 加3×0 加3×(6-4)2=3×22=3×4 3×4=12 12+0+12=24 由于组间均值差异导致的波动是24 由于组间均值差异导致的波动是24 把这些放到一起来看 9个数据点的总波动是30 我写一下 总平方和是30 然后每个数据点同该组均值之差的平方和 我们求出来是6 这也就是组内平方和 组内平方和是6 而且自由度是6 一般而言 自由度是m(n-1) 而总的自由度则是mn-1个自由度 自由度列在这一列 这里 自由度算出来是8 就在刚才 我们算出了组间平方和 组间平方和是24 自由度是m-1 这里等于2 这里很有趣 方差分析的结果非常漂亮 未来的视频中 我还会用这来进行假设检验 未来的视频中 我还会用这来进行假设检验 组内平方和+组间平方和=总平方和 组内平方和+组间平方和=总平方和 也就是说 数据中的总波动 可以由每个组内的波动 可以由每个组内的波动 加上组间的波动来描述 自由度也是如此 组间平方和有2个自由度 组内平方和有6个自由度 2+6=8 正好等于总平方和的自由度 一般而言 这总成立 组间平方和的自由度是m-1 组内自由度的平方和是m(n-1) 相加有m-1+mn-m 这两个消去 总共是mn-1个自由度 正好等于总平方和的自由度 上一节和这一节所做的这些运算 是想让你们理解 总的波动 可以看成是两个分量波动之和 一方面是组内的波动程度 另一方面是组间的波动程度 但愿没把你们搞糊涂