If you're seeing this message, it means we're having trouble loading external resources on our website.

如果你被网页过滤器挡住,请确保域名*.kastatic.org*.kasandbox.org 没有被阻止.

主要内容

二阶偏导数测试背后的原理

为了帮助那些想了解为什么二阶偏导数起作用的人,我在这里给出一个形象的证明。  

背景知识

上一篇文章中, 我给出二次函数测试, 但我只讲了为什么这大约是正确的. 这篇文章只给喜欢对数学刨根问底的人准备的, 但如果你只想用第二函数测试这并不是必要的.

我们要做的是什么

  • 来测试函数上一点是否是最小值/最大值, 看一下那点的二次逼近. 这比分析 最大值/最小值容易.
  • 对于两个未知数的函数, 这个表达式看起来是这样的:
ax2+2bxy+cy2
这叫做二次项形式. 这个规则是函数是否为正或负取决于二次函数测试.

一个变量情况通过二次逼近

首先, 我正式讲一下为什么一个变量 二次函数可以用. 正式地讲, 我们把开口的定义理解成一个无懈可击的理论.
在单变量微积分中, 当f(a)=0 对某些函数f 和某些值a, 看一下怎样用二次导数测试:
  • fa 有最大值如果 f(a)<0
  • fa 有最小值如果 f(a)>0
  • 如果 f(a)=0, 二次倒数不能决定 f 有最大值, 最小值或 拐点在 a.
为什么这个测试有效果呢, 逼近函数 泰勒函数 在一个二次形式,也叫二次逼近.
f(x)f(a)+f(a)(xa)+12f(a)(xa)2
因为 f(a)=0, 这个二次逼近是这样:
f(a)+12f(a)(xa)2
二次逼近在最小值.
二次逼近在最小值.
注意到, (xa)20 对所有值 x 因为平方数总是正数或零. 这个简单的事实告诉我们所有要知道的东西! 为什么呢?
这意味着当 f(a)>0, 我们可以读取逼近点:
f(a)+12f(a)(xa)2这是 0 f对所有值 x,并且等于 0 只当 x=a
因此 a 是个逼近点的最小值 . 事实上, 这是一个全球最低限度, 但我们只关心它是一个局部最低限度的事实。 当函数的二次近似在近似点上有一个局部最小值时, 函数本身也必须有一个局部最小值。 我将在最后一节中对此作更多的说明, 但目前直觉应该是明确的, 因为函数及其近似互相"围绕" a.
二次逼近在最大值.
二次逼近在最大值.
同样, 如果 f(a)<0, 我们可以读取近似点为
f(a)+12f(a)(xa)2这是 0对所有值 x,并且等于 0 只当 x=a
在这种情况下, 近似值在最大值x=a, 这表明函数本身也有一个本地最大值。
拐点的二次近似为平。
拐点的二次近似为平。
f(a)=0时, 我们的二次近似总是等于常数 f(a), 这意味着我们的函数在某种意义上过于平坦, 无法单独由二阶导数进行分析。
我们可以从中学到什么:
f(a)=0, fa 有无最大最小值取决于近似点12f(a)(xa)2 总是正或总是负.

两个变量情况, 视觉热身

假设你现在有一个 f(x,y) 函数,含有两个输入值和一个输出值, 并且你找到了一个稳定的点——在这个点, 偏导数均为 0,
fx(x0,y0)=0fy(x0,y0)=0
或可以更简洁的写成
f(x0,y0)=0零 向量
切线平面
f(x0,y0)=0 表示斜率在 (x0,y0) 为平的.
为了决定这是否为最大值, 最小值, 或都不是, 我们看二次逼近点. 我们看一下视觉上我们需要做什么:
  • f 有最小点在(x0,y0) 如果逼近点是向-上开口.
    局部最小值
  • f 将有局部最大值, 如果二次近似是一个凹面向下抛物面:
    局部最大值
  • 如果二次近似点是鞍形-的, f 既没有最大值也没有最小值.
    鞍点
  • 如果二次近似在一个或所有方向是平的, 我们没有足够信息总结 f.
二次近似在一个方向上是平的。
二次逼近是常数

分析二次逼近

f二次逼近公式, 以向量形式, 为:
Qf(x)=f(x0)常数+f(x0)(xx0)一次项+12(xx0)THf(x0)(xx0)二次项
因为我们关心斜率为零的点,我们可以去掉斜率项
Qf(x)=f(x0)+12(xx0)THf(x0)(xx0)
看一下两个未知数的情况, 我们展开,
Qf(x,y)=f(x0,y0)+12fxx(x0,y0)(xx0)2+fxy(x0,y0)(xx0)(yy0)+12fyy(x0,y0)(yy0)2
(注意, 如果逼近看似不眼熟, 看文章 二次逼近).
就像我刚展示的一项的例子, 策略是看逼近是为负为正还是为零.
Qf(x,y)=f(x0,y0)+12fxx(x0,y0)(xx0)2+fxy(x0,y0)(xx0)(yy0)+12fyy(x0,y0)(yy0)2}这总是 0 吗?这总是 0 吗?可以都是吗?
现在, 这项要写很多, 我们可以学习以下来提炼基础式:
ax2+2bxy+cy2
这样一般叫做"二次形式".
  • 次"二次的" 表示项序为二, 意味他们有两个变量的乘积.
  • "形式" 这个词很讨厌, 它总是使二次函数更复杂. 数学家说"二次函数形式" 而不是 "二次函数表达式" 来强调 所有 的项序为 2, 并没有常数项或一次项. 像是 "纯二次表达式" 是太合理并且可以理解的.
为了使二次形式的表示法更容易泛化为更高的维度, 它们通常是针对对称矩阵 M 写的
xMx=[xy][abbc][xy]
以下是关键问题 :
  • 我们如何判断表达式ax2+2bxy+cy2 是正, 是负, 或都不是, 只分析常数 a, bc?

分析二次形式

如果我们输入y0y, 我们得到一个变量的二次项:
ax2+2bxy0+c(y0)2
图像是抛物线, 与 x-轴 交叉如果他有实数值.
具有两个真正根的二次可以是正的,也可以是负的。
具有两个真正根的二次可以是正的,也可以是负的。
或者, 这为负或为正, 取决于符号 a.
一个没有实数根的二次项既可能是完全正的,也可能是完全负的
一个没有实数根的二次项既可能是完全正的,也可能是完全负的
我们可代入二次函数公式来看根为实数根还是虚数根.
ax2+2bxy0+c(y0)2
  • 首项是a.
  • 一次项是2by0.
  • 常数项是cy02
应用二次公式我们得到
2by0±(2by0)24acy022a2by0±2y0b2ac2ay0(b±b2aca)
如果y0=0, 函数有二次根在x=0, 抛物线只是轻轻亲了一下 x-axis . 不然, 根是否为真的 取决于符号b2ac.
  • 如果 b2ac0, 那就有实数根, 所以图像 ax2+2bxy0+c(y0)2 交叉在 x-axis.
  • 否则, 如果 b2ac<0, 将没有实数根, 所以图像 ax2+2bxy0+c(y0)2 是完全正的或完全负的.
例如, 考虑以下情况
  • a=1
  • b=3
  • c=5
在这种情况下, b2ac=32(1)(5)=4>0, 图像 f(x)=x2+6xy0+5y02 总交与 x-轴. 这是图像怎样移动的视频当我们改变 y0 值时.
可汗学院视频播放器
这与图像f(x,y)=x2+6xy+5y2 可为正为负的事实相照应.
可汗学院视频播放器
正相反,考虑一下
  • a=2
  • b=2
  • c=3
现在, b2ac=22(2)(3)=2<0. 这意味着图像 f(x)=2x2+4xy0+3y02 不交于x-轴, 既是它与接触时 y0 为零. 这是我们让 y0 变化时图像的视频:
可汗学院视频播放器
这对应了多变量函数f(x,y)=2x2+4xy+3y2恒为正的事实。
可汗学院视频播放器

二次型符号的规则

似乎是为了迷惑熟悉二次公式的学生, 关于二次型的规则通常是关于 acb2 instead of b2ac。 因为一个是另一个的负数, 这需要切换时, 0 当你说0. T数学原因为 acb2矩阵表示二次关系:
det([abbc])=acb2
作为提醒, 这就是使用矩阵的二次形式的外观。
ax2+2bxy+cy2=[xy][abbc][xy]
将此约定与我们在上一节中发现的内容结合起来, 我们编写 二次型 符号的规则, 如下所示:
  • 如果 acb2<0, 这个二次型可能为正或负,也可能在(x,y)=(0,0)之外的点上为0
  • 如果 acb2>0 根据符号 a这个式子为正或负, 但只为 0 at (x,y)=(0,0).
    • 如果 a>0, 这种形式总为正的, 所以 (0,0) 是这种形式的最小点.
  • 如果a<0, 这总为负, 所以 (0,0) 是最大点.
  • 如果 acb2=0, 并非正负, 但它可等于0 在除了 (x,y)=(0,0)的值

一些术语:

ax2+2bxy+cy2>0 对所有(x,y) 而不是 (x,y)=(0,0), 二次项和矩阵都是 正可数的.
ax2+2bxy+cy2<0 对所有(x,y) 而不是 (x,y)=(0,0), 他们都是负可被定义的.
如果将 >< 替换为 , 则相应的属性为 正半定 负半定

将其运用到 Qf

好了, 放大回我们开始的地方, 让我们再次写下我们的二次近似:
Qf(x,y)=f(x0,y0)+12fxx(x0,y0)(xx0)2+fxy(x0,y0)(xx0)(yy0)+12fyy(x0,y0)(yy0)2
Qf的二分段是关于(xx0)(yy0) 而不是简单地编写的, 而不是简单地 x and y, 所以在任何地方规则为二次形式的标志引用点 (0,0), 我们将它应用于点 (x0,y0).
与单变量情况一样, 当二次近似 Qf的局部最大值 (或最小值) 为 (x0,y0) 时, 这意味着 (x0,y0) 在这一点上有一个本地最大值 (或最小值)。 这意味着 我们可以直接转换二次型符号的规则, 以获得二阶导数测试 :
假设 f(x0,y0)=0, 那么
  • 如果 fxx(x0,y0)fyy(x0,y0)(fxy(x0,y0))2<0, f 没有最大最小值 (x0,y0),但有个鞍形点.
    鞍点
  • 如果 fxx(x0,y0)fyy(x0,y0)(fxy(x0,y0))2>0, f 肯定有最大值或最小值在 (x0,y0), 我们要看符号 fxx(x0,y0) 来看到底是哪个.
    • 如果 fxx(x0,y0)>0, f 有最小点.
      局部最小值
  • 如果 fxx(x0,y0)<0, f 有最大值.
    局部最大值
  • 如果 fxx(x0,y0)fyy(x0,y0)(fxy(x0,y0))2=0, 二次导数不能直接告诉我们 f 有最大值还是最小值.

我们现有的工具是不足的

这里展现的一些 好像完全是 一个完整的证明, 但我们还需要一步.
直觉上说,也许当一个二次逼近的弯曲, 和函数的弯曲在逼近点一样. 但我们怎样把这个直觉正式化?
不幸的是, 我们不会在这里这样做。 要使关于导数的论点完全严谨, 需要使用真正的分析, 这是微积分的理论支柱。
此外, 您可能想知道这是如何概括为具有两个以上输入的函数的。 有一个具有多个变量的二次形式的概念, 但当这种形式总是正数或负数时, 使用线性代数中的各种思想的规则。

总结

  • 来测试函数上一点是否是最小值/最大值, 看一下那点的二次逼近. 这比分析 最大值/最小值容易.
  • 对于两个未知数的函数, 这个表达式看起来是这样的:
ax2+2bxy+cy2
这叫做二次项形式. 这个规则是函数是否为正或负取决于二次函数测试.

想加入讨论吗?

尚无帖子。
你会英语吗?单击此处查看更多可汗学院英文版的讨论.