If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

双变量关系的线性,强度和方向

描述双变量关系's 线性,强度和方向。

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.

视频字幕

- [讲师]我们这里有 六个不同的散点图,显示 不同变量之间的关系。 比如说,在这里的这个: 在横轴上,我们可能有 年龄之类的东西,然后这里 它可以是事故频率。 事故频率。 我只是在随便举个例子。 我可以用这些数据点来表示 也许是某种统计调查。 当年龄是这样的时候,无论这个数字是什么, 也许这是20岁,那这就是事故频率。 而它可能是每百人中的事故数。 而这里,当年龄是21岁的时候, 这就是对应的事故频率。 数据科学家,或统计学家 在这个散点图中绘制了所有这些东西。 这通常被称为双变量数据, 这是一种非常正式的叫法,描述的是 类似你正在绘制图像,需要 考虑两个变量, 你想看看 它们之间的关系是否存在某种模式。 而我们在这段视频中要做的是 是思考,我们能不能试着去拟合一条线, 它看起来是否 能体现不同轴上的变量之间 是线性关系还是非线性关系? 这个变量关系有多强? 它是正向的,还是负向的关系? 然后,我们再来思考一下离群值这个概念。 所以,让我们先思考一下 是否存在线性或非线性关系。 我把我的尺子拿出来。 这里这些数据, 看起来我可以得到一个,我可以画一条线在这, 这条线可以很好地穿过这些数据点。 这条线不太可能 这条线无法穿过所有的数据点, 但你可以试着画一条线,我现在正在做这个。 还有更多通过计算更精确的方法来获得这条线, 但我现在只是大致地画一条。 看起来我可以画一条线 就想这样。 大致上穿过数据。 这看起来很线性。 所以我把这称为线性关系。 当我们增加一个变量时 另一个变量看起来会减少, 因此,这是一条向下倾斜的线。 我想说这是一个负向的。 这是一个负向线性关系。 这个线性关系看起来很强。 因为这些点离我的线没有那么远。 这个点可能离得稍微有点距离, 但它也没有那么远,没有离得特别远的数据点。 所以,大多数数据点都很接近于线。 所以我把这称为负向的, 相当强的线性关系。 负向的,强的,我认为它是相当 强的线性关系,但是是相当强的线性关系 这就是这两个变量之间的线性关系。 现在,让我们来看看这个。 暂停这个视频,想一想 这个图中的变量对你来说会是什么关系。 让我们来看看。 我再把我的尺子工具拿出来。 看起来我可以试着放一条线。 一般来说 随着一个变量的增加,另一个变量 也会增加,所以这条线大概像这样, 通过数据点并且指出近似方向。 这看起来是正向的。 随着一个变量的增加,另一个 变量增加,大致如此。 所以这是一个正向的关系。 但这是弱的关系。 很多数据都偏离了,远远地偏离了这条线。 所以,正向的,弱的, 但我想说这仍然是线性的。 似乎,当我们增加一个变量, 另一个变量就会以大致相同的速度增加, 尽管这些数据点都在不同的地方。 所以,我还是会把这称为线性。 现在,还有一个离群值的概念。 如果我说,这条线路正在试图 描述这些数据,那么,我们有一些数据 我们有一些数据相当偏离这条线。 比如说,尽管我们在说 它是一个正向的、弱的、线性关系。 这里的这个点 在垂直变量上很大, 但在水平变量上却很小。 所以,这里的这个是一个离群值。 它离这条线很远。 你可以把它也看作是一个离群点。 这种判断是有点主观的。 离群值,哪些数据点看起来很 与其他数据离得比较远呢? 这也可能是一个离群点。 让我给这些写上标记。 离群点。 现在,暂停视频,看看是否 你能不能想一想这个散点图。 这是正向的还是负向的,是线性的还是 非线性的,关系是强的还是弱的? 我把我的尺子工具移过来, 就放在这里。 看起来我可以很好地把线拟合在这里。 我可以拟合一条线,画一条紫色的线。 我可以拟出一条看起来像这样的线。 这条线看上去是正向的。 因为对于这些数据点, 当一个变量增加时,另一个变量也会增加。 所以它是正向的。 我想说这是很强的关系。 这些点都很接近线的位置。 如果你只看这些点的话, 它看起来确实有点像一条粗线。 所以这是正向的,强的, 线性的,线性关系。 而且这些数据点中没有真正的明显离群值。 这个有一点点远, 但它们都很接近于线, 并大致描述了这种趋势。 好了,现在,让我们看看这里的数据。 那么,让我再把我的线条工具拿出来。 看起来我可以拟出一条线。 它看起来,它看起来是一个正向关系。 这条线将是向上倾斜的。 它看起来就像这样。 再说一次,我是在粗略地拟合一个大概。 你可以使用电脑和其他方法 来实际找到一条更精确的线 使所有数据点到这条线的距离最小化。 但这里看起来, 有一个正向关系,但是我想说 这是一个弱的线性关系。 因为我们有很多偏离直线的点。 所以,关系不是那么强。 我认为这是一个正向的, 弱的线性关系。 这里有很多离群值。 比如这里这个就离线很远。 现在,我们来看看这个。 暂停这个视频,想一想 它是正向的还是负向的,关系是强的还是弱的? 这是线性的还是非线性的? 我们要做的第一件事就是 让我们考虑它是线性的还是非线性的。 我可以试着在上面放一条线。 但是如果我试着在上面放一条线的话, 它实际上很难贴合这些数据点。 如果我试着做一条这样的线 你会发现所有点都 弯曲地远离这条线。 它看起来大概像,随着一个变量的增加, 另一个变量就会减少,但它们的变化 不是以线性方式进行的。 看起来有一些其他类型的曲线关系在起作用。 所以,我可以尝试画一个更复杂的曲线 看起来像这样。 而这似乎更拟合这些数据。 所以这个,我可以说是非线性的。 而且它有一个负向的关系。 当一个变量增加时,另一个变量就会减少。 所以,我说这是一个负向的关系, 相当强的非线性关系。 相当强。 相当强。 再说一下,这是很主观的。 这是一个负向的,相当强的 非线性关系。 也许你可以把这个叫做离群点。 但也没那么远,我甚至可以 拟合出一条更接近于这个点的曲线。 我现在只是大致拟合了一条线。 现在我们来看最后这个。 所以,这个对我来说看起来像是一个负向的线性关系。 这是一个相当强的负线性关系, 虽然有一些离群值。 让我来画这条线。 这条线似乎贴合这些数据。 所以这是一个负向的,相当强的, 相当强的线性关系。 但这些是非常明显的离群值。 这些都离其它数据很远 或者说远离了大多数点的聚类。 有一些显著的,至少有 这两个显著的离群值。 希望这能让你有点儿熟悉 这些术语,而且它是 重要的是要记住,这些判断都带有点主观性。 会有一些变量关系比其他变量关系更明显。 而且很多时候,你想做一个比较。 这个正向线性关系 比这里这个更强。 因为你可以看到 大部分的数据都更加接近这条线。 这个肯定是非线性的多于线性的, 这取决于你想怎么描述。 通常情况下,做一个比较, 或者主观判断如何描述这些数据。