主要内容

课程: 多变量微积分 > 单元 2

课程 1: 偏导数和梯度 (文章)

渐变

Google课堂

梯度存储多变量函数的所有偏导数信息。但它'不仅仅是一个存储设备, 它有几个美妙的解释和许多, 许多用途。

在开始本课之前你需要熟悉的概念

偏导数
矢量场
登高线图—只在本课的一个部分有必要。

我们要做的是什么

标量的多变量函数 $f (x, y, \dots)$ ‍ 的梯度，称为 $\nabla f$ ‍，将其所有的偏导数信息打包成一个向量：

$\nabla f = [\begin{matrix} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \\ ⋮ \end{matrix}]$ ‍

特别的是, 这意味着

\nabla f

是一个向量值函数。

如果你想象在 $f$ ‍ 的输入空间，站在某点 ( $x_{0}, y_{0}, \dots$ ‍)，向量 $\nabla f (x_{0}, y_{0}, \dots)$ ‍ 告诉你应该走哪个方向来最快地增加 $f$ ‍ 的值。
这些梯度向量 —— $\nabla f (x_{0}, y_{0}, \dots)$ ‍ —— 也垂直于 $f$ ‍ 的等高线。

定义

在知道了具有多维输入的函数有偏导数后，你可能会想知道这种函数的完整导数是多少。在标量的多变量函数 的情形下，这意味着是那些多维输入但是一维输出的函数，答案是梯度。

函数

f

的梯度 , 称为

\nabla f

, 是将其所有的偏导数信息打包成一个向量。

这是最容易理解的一个例子。

示例 1: 二维

如果

f (x, y) = x^{2} - x y

, 下列哪个表示了

\nabla f

选出正确答案：
(选择 A)
$[\begin{matrix} 2 x - x \\ x^{2} - y \end{matrix}]$ ‍
(选择 B)
$[\begin{matrix} 2 x - y \\ - x \end{matrix}]$ ‍

注意，

\nabla f

是一个 向量值函数，特别是其为一个二维输入一维输出的函数。这个意味着它能很好地以矢量场来可视化。该矢量场位于

f

的输入空间，即为

x y

平面。

这个矢量场常被称作

f

的梯度场。

反思题：为什么在这个矢量场中在

x y

平面中间沿着对角线向上的矢量那么小？

向量场由梯度定义：

\begin{array}{r} \nabla f (x, y) = [\begin{array}{c} 2 x - y \\ - x \end{array}] \end{array}

例如，这个意味着附属于点

(2, 3)

的向量是：

$[\begin{matrix} 2 (2) - 3 \\ - 2 \end{matrix}]$ ‍ $= [\begin{matrix} 1 \\ - 2 \end{matrix}]$ ‍

想要向量为小，它的

x

和

y

都必为小。每个向量的

x

部分为

2 x - y

，其沿着

y = 2 x

的线为零。因此所有靠近该线的向量均有一个小的水平部分。

每个向量的

y

部分为

- x

。只要点

(x, y)

靠近

y

轴，这个值就小。

因此，既靠近

y = 2 x

的直线，又靠近

y

轴的点会有附属于它们的小向量，就好像上面的圆形区域的例子那样。

就像我们马上要看到的一样，在这个区域的梯度向量小的事实是与

f (x, y)

的图像在该区域较为平坦的事实相对应的。

示例 2: 三维

f (x, y, z) = x - x y + z^{2}

的梯度是多少?

选出正确答案：
(选择 A)
$\nabla f (x, y, z) = [\begin{matrix} 1 - y \\ - x \\ 2 z \end{matrix}]$ ‍
(选择 B)
$\nabla f (x, y, z) = [\begin{matrix} 1 - y + z^{2} \\ x - x + z^{2} \\ x - x y + 2 z \end{matrix}]$ ‍

\nabla f

是一个三维输入三维输出的函数。因此，它能很好地在三维空间通过矢量场来可视化。

可汗学院视频播放器

查看视频字幕

理解梯度

在上面的每个粒钟，我们将

\nabla f

描绘为矢量场，但是我们要怎么理解这些矢量场呢？

更具体地来说，让我们思考

f

的输入为二维的情形。梯度将每个输入点

(x_{0}, y_{0})

转化为向量。

\begin{array}{r} \nabla f (x_{0}, y_{0}) = [\begin{array}{c} \frac{\partial f}{\partial x} (x_{0}, y_{0}) \\ \frac{\partial f}{\partial y} (x_{0}, y_{0}) \end{array}] . \end{array}

关于函数围绕点

(x_{0}, y_{0})

的行为，向量要告诉我们什么呢？

把

f

的图像想象成一个丘陵地形。如果站在图上位于点

(x_{0}, y_{0})

正上方——或下方——的位置，山丘的坡度取决于你走的方向。例如，如果你往

x

的正方向走，坡度为

\frac{\partial f}{\partial x}

；如果你往

y

的正方向走，坡度则为

\frac{\partial f}{\partial y}

。但是大部分的方向是两者的结合。

关于梯度最重要的需要记住的是: $f$ ‍ 的梯度, 如果以输入 $(x_{0}, y_{0})$ ‍计算, 指的是上升最陡的方向。

因此，如果你朝着梯度的方向走，你会直上山顶。同样，在该方向上，向量的大小 $\nabla f (x_{0}, y_{0})$ ‍ 告诉你山的坡度有多少。

为什么 把偏导数放入向量中会给你最大上升斜率并不是那么直接地一目了然，但是一旦我们学到方向导数就会解释这个。

当一个函数

f

的输入存在于多于两个维度的空间中，我们不再可以舒舒服服地把它描绘成一个丘陵地形了。尽管如此，背后的基本理念还是相同的。无论

f

的输入空间是二维的，三维的，还是1,000,000维的：

f

的梯度给出了一个在输入空间中的一个向量，即为指向使得函数

f

增长最快的方向。

示例 3: 局部极大值看上去是什么样子的

思考该函数

f (x, y) = - x^{4} + 4 (x^{2} - y^{2}) - 3

。它的梯度是多少？

这是

f

的图像所呈现的样子：

注意，它有两个峰值。这是

\nabla f

矢量场看上去的样子——颜色更红的向量应被理解为更长，颜色更蓝的向量应被理解为更短：

两个输入点与

f

图像中的峰值相对应，且峰值被指向这些点的箭头所包围。这是为什么？

这是因为在山顶的附近，最快上升的方向总是指向山顶。

反思题：在函数局部最小值附近的梯度场看上去会是什么样子的呢？

梯度垂直于等高线

正如矢量场，等高线图也是被绘制在函数的输入空间上，因此我们可能会问如果

\nabla f

的矢量场位于与

f

相对应的等高线图的最高点，这会发生什么？

让我们以函数

f (x, y) = x y

为例：

看上面的图片，你可能注意到了一些有趣的东西：每个向量都与它所碰到的等高线垂直。

想要知道为什么会这样，选取一条特定的等高线，它代表了输出为2的等高线，然后放大到该线上的一个点。我们知道梯度

\nabla f

指向

f

的值增加最快的方向。有两种方式可以来想这个方向：

选择一个固定的步长，然后找到一个可以使得每一步都让 $f$ ‍ 增加最多的方向。
距离某个特定点恒定大小的步长，梯度是其中使得 f 增长最多的。
图 1
选择 $f$ ‍ 的一个固定增长值，然后找到一个能使 $f$ ‍ 增加该固定值的最短步长的方向。
如果每一步使得 f 增加一个固定的值，那么梯度的方向就是其中最短的。
图 2

无论哪一种，你都在试图在行进重最大化升高的高度，要么通过最大化上升值，要么最小化行进长度。

等高线图很好的描绘出了第二视角可能看上去的样子。在上面的图2中，第二条等高线代表了2.1，它比最初的值为 2 的等高线大一点点。

f

的梯度则应该指向到达第二条线的尽可能短的方向。

我们越放大，这些线越像平行的直线。从一条线到另一条平行于它的线的最短距离始终垂直于该两条线，因此梯度会看上去与等高线垂直。

del算子

在多变量微积分中，或者其他情况下，算子这个词会多次出现。这个可能听上去很高大上，但是在大多数情况下，你可以把算子理解为“把一个函数变成另一个函数的东西”的意思。

导数就是一个算子的例子，因为它把函数

f

变成了一个新函数

f^{'}

。 微分算子 是所有把导数的概念扩展到不同的情境中的算子。

微分算子示例


名称	符号	示例
导数	$\frac{d}{d x}$ ‍	$\frac{d}{d x} (x^{2}) = 2 x$ ‍
偏导数	$\frac{\partial}{\partial x}$ ‍	$\frac{\partial}{\partial x} (x^{2} - x y) = 2 x - y$ ‍
梯度	$\nabla$ ‍	$\nabla (x^{2} - x y) = [\begin{matrix} 2 x - y \\ - x \end{matrix}]$ ‍

\nabla

这个符号被称为 nabla 或者 del。通常，nabla指的是符号本身，而del指的是它所代表的算子。这个可能会让人很困惑，因为del也可以表示符号

\partial

，但是，喂，啥时候数学术语明白过？

无论你想叫它啥，算子

\nabla

可以被没那么严谨地认为是偏导数算子的向量：

$\nabla = [\begin{matrix} \frac{\partial}{\partial x} \\ \frac{\partial}{\partial y} \\ ⋮ \end{matrix}]$ ‍

这不是一个特别确切的定义。一方面，这个向量的维度未定义，因为它取决于

\nabla

所应用的函数有多少输入。另外，通过算子产生的向量通常很快且宽松。但是，因为在实践中，它的含义通常都很清晰，人们几乎不怎么担心这个问题。

想象一下, 将此向量 "乘以" 一个标量值函数:

$\begin{aligned} \nabla f & = [\begin{array}{c} \frac{\partial}{\partial x} \\ \frac{\partial}{\partial y} \\ ⋮ \end{array}] f \\ = [\begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \\ ⋮ \end{array}] \end{aligned}$ ‍

当然，这个不是乘法，你真的只是在计算函数上的每个偏导数算子。尽管如此，这是个超有用的思考

\nabla

的角度，因为在之后我们要学习的另一些算子的情境中，它会再次出现：散度, 旋度, 和拉普拉斯。

总结

标量的多变量函数 $f (x, y, \dots)$ ‍ 的梯度，称为 $\nabla f$ ‍，将其所有的偏导数信息打包成一个向量：

$\nabla f = [\begin{matrix} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \\ ⋮ \end{matrix}]$ ‍

特别的是, 这意味着

\nabla f

是一个向量值函数。

如果你想象在 $f$ ‍ 的输入空间，站在某点 ( $x_{0}, y_{0}, \dots$ ‍)，向量 $\nabla f (x_{0}, y_{0}, \dots)$ ‍ 告诉你应该走哪个方向来最快地增加 $f$ ‍ 的值。
这些梯度向量 $\nabla f (x_{0}, y_{0}, \dots)$ ‍也垂直于 $f$ ‍ 的等高线。

想加入讨论吗？

排序方式:

尚无帖子。

你会英语吗？单击此处查看更多可汗学院英文版的讨论.