If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

方差分析 1: 计算 SST (总平方和)

方差分析 1 - 计算 SST (总平方和). Sal Khan 创建

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

这一节及后面几节 本字幕由网易公开课提供,更多课程请到http//open.163.com 我们将对如下数据进行一些处理 但愿通过这些计算 你们能直观理解方差分析的概念 这一节 我将计算总平方和 网易公开课官方微博 http://t.163.com/163open 简记为SST 总平方和 你可以将其考虑为计算方差时的分子部分 也就是这些数据点离均值的距离的平方之和 oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org 也就是这些数据点离均值的距离的平方之和 不需要像计算样本方差那样除以自由度 不需要像计算样本方差那样除以自由度 怎么算呢 首先需要求出这些数值的均值 怎么算呢 首先需要求出这些数值的均值 我将其称为总平均值 它等于每个数据集的均值的均值 它等于每个数据集的均值的均值 算一下总平均值 这里有3+2+1+5+3+4+5+6+7 总共9个数据点 9个数据点 所有这里除以9 看看等于多少 3+2+1=6 然后5+3+4=12 5+6+7=18 然后6+12=18 再加18得36 除以9 等于4 下面证明这等于均值的均值 第一组 也就是绿色这组 均值为 第一组 也就是绿色这组 均值为 3+2+1 也就是6 除以数据点数目3 结果是2 再求第二组的均值 5+3+4也就是12 除以3 等于4 再求第三组的均值 5+6+7=18 除以3 得6 这些就是每组的均值 求总平均值的另一种方式就是 2+4+6 得到12 然后除以均值个数3 结果还是4 总均值可以看成所有数据点的均值 或每组均值的均值 总均值可以看成所有数据点的均值 或每组均值的均值 两种都行 下面我们来求总平方和 它等于 (3-4)2… 4也就是总均值 +(2-4)2+(1-4)2 第二组我用紫色 +(5-4)2+(3-4)2+(4-4)2 +(5-4)2+(3-4)2+(4-4)2 还剩3个 +(5-4)2+(6-4)2+(7-4)2 第一项(3-4)2=(-1)2=1 第一项(3-4)2=(-1)2=1 加(-2)2 也就是4 加(-3)2 也就是9 然后紫红色部分 5-4=1 平方还是1 (3-4)2=(-1)2=1 4-4=0 平方还是0 还是写一下 表示计算过 还有3个数据点 (5-4)2=1 (6-4)2=22=4 加上(7-4)2=32=9 算一下 1+4+9=5+9=14 算一下 1+4+9=5+9=14 这里还有一个1+4+9=14 这里也是14 然后中间是2 14+14+2=28+2=30 总平方和是30 如果要求方差 可以除以自由度 自由度我讲过很多次了 假设这里是m组 我不会去严格证明 但我会展示给你们 统计学中某些奇怪的公式来自何方 我不会去严格证明 我会给一些直观理解 这里总共是m组 每组n个成员 那么总成员个数也就是m?n=3×3=9 那么总成员个数也就是m?n=3×3=9 考虑下自由度 自由度是数据点个数减1 如果你知道总均值 那么就只有9-1 即8条新信息 因为最后一条信息可以通过总均值求出 知道任意8条信息 总可以利用总均值求出剩下的1条 知道任意8条信息 总可以利用总均值求出剩下的1条 也就是说 这里只有8个独立的成员 一般而言 自由度也就是m?n-1 一般而言 自由度也就是m?n-1 这里计算方差 也就是用30除以mn-1 这里也就是8个自由度 30/8 这就是9元素的所有这些数字的方差 这一节就到这里 下一节 我将讲到 这个总的波动程度 下一节 我将讲到 这个总的波动程度 有多少来自每个组内的波动程度 有多少来自组间的波动程度 也许你们已经看出这种方差分析来自哪里了 这里的方差来自9个样本值 如果这些组有所不同 部分波动可能来自不同组 部分波动可能来自各组内 下一节我将计算这些 它们加起来将得到总平方和