文章目录
微分
全微分 偏微分
d y d x \frac{dy}{dx} dxdy:全微分,y的变化率,根据链式法则
∂ y ∂ x \frac{\partial y}{\partial x} ∂x∂y:偏微分,y沿x方向的变化率,把其他变量当做常量对x求导
一元函数 y=f(x) 求导
只有一个变量,此时,导数=偏导=全微分=偏微分
d y = ∂ y ∂ x d x d y d x = ∂ y ∂ x = ∂ f ∂ x dy=\frac{\partial y}{\partial x}dx\\ \frac{dy}{dx}=\frac{\partial y}{\partial x}=\frac{\partial f}{\partial x} dy=∂x∂ydxdxdy=∂x∂y=∂x∂f
二元函数 y=f(x1,x2) 求导
有两个变量,此时,导数=全微分,偏导=偏微分
d y = ∂ y ∂ x 1 d x 1 + ∂ y ∂ x 2 d x 2 d y d x 1 = ∂ y ∂ x 1 + ∂ y ∂ x 2 ∂ x 2 ∂ x 1 d f d x 1 = ∂ f ∂ x 1 + ∂ f ∂ x 2 ∂ x 2 ∂ x 1 dy=\frac{\partial y}{\partial x_1}dx_1+\frac{\partial y}{\partial x_2}dx_2\\ \frac{dy}{dx_1}=\frac{\partial y}{\partial x_1}+\frac{\partial y}{\partial x_2}\frac{\partial x_2}{\partial x_1}\\ \frac{df}{dx_1}=\frac{\partial f}{\partial x_1}+\frac{\partial f}{\partial x_2}\frac{\partial x_2}{\partial x_1} dy=∂x1∂ydx1+∂x2∂ydx2dx1dy=∂x1∂y+∂x2∂y∂x1∂x2dx1df=∂x1∂f+∂x2∂f∂x1∂x2
二元隐函数求导 y = f ( x 1 , g ( x 1 ) ) , x 2 = g ( x 1 ) : d x 2 d x 1 = − f x 1 f x 2 y=f(x_1,g(x_1)),x_2=g(x_1):\frac{dx_2}{dx_1}=-\frac{f_{x_1}}{f_{x_2}} y=f(x1,g(x1)),x2=g(x1):dx1dx2=−fx2fx1
x 2 = g ( x 1 ) x_2=g(x_1) x2=g(x1)求导:
d x 2 = ∂ x 2 ∂ x 1 d x 1 d x 2 d x 1 = ∂ x 2 ∂ x 1 . . . . . . . . . ① dx_2=\frac{\partial x_2}{\partial x_1}dx_1\\ \frac{dx_2}{dx_1}=\frac{\partial x_2}{\partial x_1}………①\\ dx2=∂x1∂x2dx1dx1dx2=∂x1∂x2.........①
令:f(x_1,g(x_1))=c,两边求导,常数求导为0
∂ f ∂ x 1 d x 1 + ∂ f ∂ x 2 d x 2 = 0 ∂ f ∂ x 1 d x 1 + ∂ f ∂ x 2 ∂ x 2 ∂ x 1 d x 1 = 0 ∂ f ∂ x 1 d x 1 + ∂ f ∂ x 2 d x 2 d x 1 d x 1 = 0 : 由 ① 可 知 ∂ f ∂ x 1 + ∂ f ∂ x 2 d x 2 d x 1 = 0 d x 2 d x 1 = − ∂ f ∂ x 1 / ∂ f ∂ x 2 = − f x 1 f x 2 \frac{\partial f}{\partial x_1}dx_1+\frac{\partial f}{\partial x_2}dx_2=0\\ \frac{\partial f}{\partial x_1}dx_1+\frac{\partial f}{\partial x_2}\frac{\partial x_2}{\partial x_1}dx_1=0\\ \frac{\partial f}{\partial x_1}dx_1+\frac{\partial f}{\partial x_2}\frac{dx_2}{dx_1}dx_1=0:由①可知\\ \frac{\partial f}{\partial x_1}+\frac{\partial f}{\partial x_2}\frac{dx_2}{dx_1}=0\\ \frac{dx_2}{dx_1}=-\frac{\partial f}{\partial x_1}/\frac{\partial f}{\partial x_2}=-\frac{f_{x_1}}{f_{x_2}}\\ ∂x1∂fdx1+∂x2∂fdx2=0∂x1∂fdx1+∂x2∂f∂x1∂x2dx1=0∂x1∂fdx1+∂x2∂fdx1dx2dx1=0:由①可知∂x1∂f+∂x2∂fdx1dx2=0dx1dx2=−∂x1∂f/∂x2∂f=−fx2fx1
梯度
定义
是一个偏导数组成的向量,表示函数值在某点沿着该方向增长最大。
梯度的导数:为正
导数是函数在某点沿着某个方向的变化率,梯度方向是函数值增大的方向,则对应的导数为正
y = − 2 x , ∇ f = ( ∂ f ∂ x ) = ( − 2 ) = − 2 i ⃗ = 2 ( − i ⃗ ) 梯 度 方 向 是 x 轴 负 方 向 , 对 应 的 导 数 为 2 , 即 沿 着 x 轴 负 方 向 方 向 , 每 前 进 1 , 函 数 值 增 长 2 y=-2x,\nabla f=(\frac{\partial f}{\partial x})=(-2)=-2\vec{i}=2(\vec{-i})\\梯度方向是x轴负方向,对应的导数为2,即沿着x轴负方向方向,每前进1,函数值增长2 y=−2x,∇f=(∂x∂f)=(−2)=−2i =2(−i )梯度方向是x轴负方向,对应的导数为2,即沿着x轴负方向方向,每前进1,函数值增长2
梯度的方向
∇ f = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 ) = ( 3 , 4 ) = 3 i ⃗ + 4 j ⃗ : 梯 度 方 向 为 : 在 x 1 0 x 2 平 面 , 方 向 指 向 第 一 象 限 ( x 1 为 正 , x 2 为 正 , 因 为 3 i ⃗ + 4 j ⃗ ) , ∂ f ∂ x 2 / ∂ f ∂ x 1 = 4 / 3 , x 2 = 4 3 x 1 , ∇ f = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 ) = ( − 3 , − 4 ) = − 3 i ⃗ − 4 j ⃗ : 梯 度 方 向 为 : 在 x 1 0 x 2 平 面 , 方 向 指 向 第 三 象 限 ( x 1 为 负 , x 2 为 负 , 因 为 − 3 i ⃗ − 4 j ⃗ ) , ∂ f ∂ x 2 / ∂ f ∂ x 1 = 4 / 3 , x 2 = 4 3 x 1 , \nabla f=(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2})=(3,4)=3\vec{i}+4\vec{j}:\\ 梯度方向为:在x_{1}0x_2平面,方向指向第一象限(x_1为正,x_2为正,因为3\vec{i}+4\vec{j}),\frac{\partial f}{\partial x_2}/\frac{\partial f}{\partial x_1}=4/3,x_2=\frac{4}{3}x_1,\\ \nabla f=(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2})=(-3,-4)=-3\vec{i}-4\vec{j}:\\ 梯度方向为:在x_{1}0x_2平面,方向指向第三象限(x_1为负,x_2为负,因为-3\vec{i}-4\vec{j}),\frac{\partial f}{\partial x_2}/\frac{\partial f}{\partial x_1}=4/3,x_2=\frac{4}{3}x_1,\\ ∇f=(∂x1∂f,∂x2∂f)=(3,4)=3i +4j :梯度方向为:在x10x2平面,方向指向第一象限(x1为正,x2为正,因为3i +4j ),∂x2∂f/∂x1∂f=4/3,x2=34x1,∇f=(∂x1∂f,∂x2∂f)=(−3,−4)=−3i −4j :梯度方向为:在x10x2平面,方向指向第三象限(x1为负,x2为负,因为−3i −4j ),∂x2∂f/∂x1∂f=4/3,x2=34x1,
向量内积
a ⃗ = ( a 1 , a 2 ) , b ⃗ = ( b 1 , b 2 ) , β 为 a ⃗ 和 b ⃗ 的 夹 角 ( < 90 ) a ⃗ ⋅ b ⃗ = a 1 b 1 + a 2 b 2 = ∣ a ⃗ ∣ ⋅ ∣ b ⃗ ∣ ⋅ c o s β \vec{a}=(a_1,a_2),\vec{b}=(b_1,b_2),\beta为\vec{a}和\vec{b}的夹角(<90)\\ \vec{a}\cdot\vec{b}=a_1b_1+a_2b_2=|\vec{a}|\cdot|\vec{b}|\cdot cos\beta\\ a =(a1,a2),b =(b1,b2),β为a 和b 的夹角(<90)a ⋅b =a1b1+a2b2=∣a ∣⋅∣b ∣⋅cosβ
方向导数:标量
函数在某点沿着某个方向的变化率
令 : A ⃗ = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 ) , I ⃗ = ( c o s θ , s i n θ ) I ⃗ = c o s θ i ⃗ + c o s θ j ⃗ : 表 u ⃗ 正 方 向 单 位 向 量 , 见 上 图 i ⃗ : 表 x 轴 正 方 向 单 位 向 量 , j ⃗ : 表 y 轴 正 方 向 单 位 向 量 函 数 y = f ( x 1 , x 2 ) 在 某 点 , 沿 u ⃗ 的 导 数 为 : D u f = ∂ f ∂ x 1 c o s θ + ∂ f ∂ x 2 c o s θ D u f = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 ) ⋅ ( c o s θ , s i n θ ) D u f = ∣ A ⃗ ∣ ⋅ ∣ I ⃗ ∣ ⋅ c o s β : β 为 A ⃗ 和 u ⃗ 的 夹 角 当 β 为 0 ° 时 , D u f 取 最 大 值 , 此 时 有 : D u f = ∣ A ⃗ ∣ ⋅ ∣ I ⃗ ∣ ⋅ 1 = ∣ A ⃗ ∣ ⋅ ( c o s θ ) 2 + ( s i n θ ) 2 = ∣ A ⃗ ∣ = ( ∂ f ∂ x 1 ) 2 + ( ∂ f ∂ x 2 ) 2 令 g r a d f = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 ) 令:\vec{A}=(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}),\vec{I}=(cos\theta,sin\theta)\\ \vec{I}=cos\theta\vec{i}+cos\theta\vec{j}:表\vec{u}正方向单位向量,见上图\\ \vec{i}:表x轴正方向单位向量, \vec{j}:表y轴正方向单位向量\\ 函数y=f(x_1,x_2)在某点,沿\vec{u}的导数为:\\ D_uf=\frac{\partial f}{\partial x_1}cos\theta+\frac{\partial f}{\partial x_2}cos\theta\\ D_uf=(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2})\cdot(cos\theta,sin\theta)\\ D_uf=|\vec{A}|\cdot|\vec{I}|\cdot{cos\beta}:\beta为\vec{A}和\vec{u}的夹角\\ 当\beta为0°时,D_uf取最大值,此时有:\\D_uf=|\vec{A}|\cdot|\vec{I}|\cdot{1}=|\vec{A}|\cdot\sqrt{(cos\theta)^2+(sin\theta)^2}\\ =|\vec{A}|=\sqrt{(\frac{\partial f}{\partial x_1})^2+(\frac{\partial f}{\partial x_2})^2}\\ 令gradf=(\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2}) 令:A =(∂x1∂f,∂x2∂f),I =(cosθ,sinθ)I =cosθi +cosθj :表u 正方向单位向量,见上图i :表x轴正方向单位向量,j :表y轴正方向单位向量函数y=f(x1,x2)在某点,沿u 的导数为:Duf=∂x1∂fcosθ+∂x2∂fcosθDuf=(∂x1∂f,∂x2∂f)⋅(cosθ,sinθ)Duf=∣A ∣⋅∣I ∣⋅cosβ:β为A 和u 的夹角当β为0°时,Duf取最大值,此时有:Duf=∣A ∣⋅∣I ∣⋅1=∣A ∣⋅(cosθ)2+(sinθ)2 =∣A ∣=(∂x1∂f)2+(∂x2∂f)2 令gradf=(∂x1∂f,∂x2∂f)
一元函数 y=f(x)
此时,求导=全微分=偏微分
g r a d f = ∇ f = ( ∂ f ∂ x ) = ( d y d x ) = ( ∂ y ∂ x ) = d y d x i ⃗ = ∂ y ∂ x i ⃗ i ⃗ : 表 x 轴 正 方 向 单 位 向 量 此 时 梯 度 方 向 为 : i ⃗ 即 x 轴 正 方 向 , 梯 度 的 导 数 为 : ( ∂ f ∂ x ) 2 gradf=\nabla f=(\frac{\partial f}{\partial x})=(\frac{dy}{dx})=(\frac{\partial y}{\partial x})=\frac{dy}{dx}\vec{i}=\frac{\partial y}{\partial x}\vec{i}\\ \vec{i}:表x轴正方向单位向量\\ 此时梯度方向为:\vec{i}即x轴正方向,梯度的导数为:\sqrt{(\frac{\partial f}{\partial x})^2} gradf=∇f=(∂x∂f)=(dxdy)=(∂x∂y)=dxdyi =∂x∂yi i :表x轴正方向单位向量此时梯度方向为:i 即x轴正方向,梯度的导数为:(∂x∂f)2
y = 2 x y=2x y=2x
在点(0,0),此时 ∂ y ∂ x \frac{\partial y}{\partial x} ∂x∂y=2, ∇ f = 2 i ⃗ \nabla f=2\vec{i} ∇f=2i ,梯度方向的导数为: D ∇ f = 2 2 D_{\nabla }f=\sqrt{2^2} D∇f=22 =2,沿着x轴正方向增长最快,每沿着x轴正方向前进1个单位,函数值就增加2。
y = − 2 x y=-2x y=−2x
在点(0,0),此时 ∂ y ∂ x \frac{\partial y}{\partial x} ∂x∂y=-2, ∇ f = 2 ( − i ⃗ ) \nabla f=2(\vec{-i}) ∇f=2(−i ),梯度方向的导数为: D ∇ f = 2 2 D_{\nabla }f=\sqrt{2^2} D∇f=22 =2,沿着x轴负方向增长最快,每沿着x轴负方向前进1个单位,函数值就增加2。
二元函数 y=f(x1,x2)
g r a d f = ∇ f = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 ) = ( ∂ y ∂ x 1 , ∂ y ∂ x 2 ) = ∂ f ∂ x 1 i ⃗ + ∂ f ∂ x 2 j ⃗ = ∂ y d x i ⃗ + ∂ y ∂ x 2 j ⃗ i ⃗ : 表 x 轴 正 方 向 单 位 向 量 , j ⃗ : 表 y 轴 正 方 向 单 位 向 量 此 时 , 梯 度 方 向 的 导 数 为 : D ∇ f = 2 2 , 此 时 梯 度 方 向 为 : gradf=\nabla f=(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2})=(\frac{\partial y}{\partial x_1}, \frac{\partial y}{\partial x_2})=\frac{\partial f}{\partial x_1}\vec{i}+\frac{\partial f}{\partial x_2}\vec{j}=\frac{\partial y}{dx}\vec{i}+\frac{\partial y}{\partial x_2}\vec{j}\\ \vec{i}:表x轴正方向单位向量, \vec{j}:表y轴正方向单位向量\\ 此时,梯度方向的导数为:D_{\nabla }f=\sqrt{2^2},\\ 此时梯度方向为: gradf=∇f=(∂x1∂f,∂x2∂f)=(∂x1∂y,∂x2∂y)=∂x1∂fi +∂x2∂fj =dx∂yi +∂x2∂yj i :表x轴正方向单位向量,j :表y轴正方向单位向量此时,梯度方向的导数为:D∇f=22 ,此时梯度方向为:
y = 3 x 1 + 4 x 2 y=3x_1+4x_2 y=3x1+4x2
在点(0,0,0),此时 ∇ f = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 ) = ( 3 , 4 ) = 3 i ⃗ + 4 j ⃗ 梯 度 方 向 的 导 数 为 D ∇ f = 3 2 + 4 2 = 5 梯 度 方 向 为 : 在 x 1 0 x 2 平 面 , 方 向 指 向 第 一 象 限 ( x 1 为 正 , x 2 为 正 , 因 为 3 i ⃗ + 4 j ⃗ ) , ∂ f ∂ x 2 / ∂ f ∂ x 1 = 4 / 3 , x 2 = 4 3 x 1 , 每 沿 着 该 方 向 走 1 , 函 数 值 增 大 5 , \nabla f=(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2})=(3,4)=3\vec{i}+4\vec{j}\\ 梯度方向的导数为D_{\nabla}f=\sqrt{3^2+4^2}=5\\ 梯度方向为:在x_{1}0x_2平面,方向指向第一象限(x_1为正,x_2为正,因为3\vec{i}+4\vec{j}),\frac{\partial f}{\partial x_2}/\frac{\partial f}{\partial x_1}=4/3,x_2=\frac{4}{3}x_1,\\ 每沿着该方向走1,函数值增大5, ∇f=(∂x1∂f,∂x2∂f)=(3,4)=3i +4j 梯度方向的导数为D∇f=32+42 =5梯度方向为:在x10x2平面,方向指向第一象限(x1为正,x2为正,因为3i +4j ),∂x2∂f/∂x1∂f=4/3,x2=34x1,每沿着该方向走1,函数值增大5,
y = − 3 x 1 − 4 x 2 y=-3x_1-4x_2 y=−3x1−4x2
在点(0,0,0),此时 ∇ f = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 ) = ( − 3 , − 4 ) = − 3 i ⃗ − 4 j ⃗ 梯 度 方 向 的 导 数 为 D ∇ f = ( − 3 ) 2 + ( − 4 ) 2 = 5 梯 度 方 向 为 : 在 x 1 0 x 2 平 面 , 方 向 指 向 第 三 象 限 ( x 1 为 负 , x 2 为 负 , 因 为 − 3 i ⃗ − 4 j ⃗ ) , ∂ f ∂ x 2 / ∂ f ∂ x 1 = 4 / 3 , x 2 = 4 3 x 1 , 每 沿 着 该 方 向 走 1 , 函 数 值 增 大 5 , \nabla f=(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2})=(-3,-4)=-3\vec{i}-4\vec{j}\\ 梯度方向的导数为D_{\nabla}f=\sqrt{(-3)^2+(-4)^2}=5\\ 梯度方向为:在x_{1}0x_2平面,方向指向第三象限(x_1为负,x_2为负,因为-3\vec{i}-4\vec{j}),\frac{\partial f}{\partial x_2}/\frac{\partial f}{\partial x_1}=4/3,x_2=\frac{4}{3}x_1,\\ 每沿着该方向走1,函数值增大5, ∇f=(∂x1∂f,∂x2∂f)=(−3,−4)=−3i −4j 梯度方向的导数为D∇f=(−3)2+(−4)2 =5梯度方向为:在x10x2平面,方向指向第三象限(x1为负,x2为负,因为−3i −4j ),∂x2∂f/∂x1∂f=4/3,x2=34x1,每沿着该方向走1,函数值增大5,
特点
梯度与等高线切线垂直
等高线
梯度的导数越大,越陡,走一步造成的高度差越大,等高线越密
损失函数为凸函数时
设损失函数 y = f ( x 1 , x 2 ) y=f(x_1,x_2) y=f(x1,x2)是个曲面,被平面c(为常数)所截曲线方程为:
y = f ( x 1 , x 2 ) y = c y=f(x_1,x_2)\\ y=c\\ y=f(x1,x2)y=c
该曲线在 x 1 O x 2 平 面 上 投 影 为 一 条 曲 线 : f ( x 1 , x 2 ) = c , 即 为 y = f ( x 1 , x 2 ) 在 x 1 O x 2 平 面 上 的 一 条 等 高 线 : 由 上 图 可 知 , 中 心 处 损 失 最 低 x_1Ox_2平面上投影为一条曲线:f(x_1,x_2)=c,即为y=f(x_1,x_2)在x_1Ox_2平面上的一条等高线:由上图可知,中心处损失最低 x1Ox2平面上投影为一条曲线:f(x1,x2)=c,即为y=f(x1,x2)在x1Ox2平面上的一条等高线:由上图可知,中心处损失最低
在 等 高 线 f ( x 1 , x 2 ) 上 任 一 点 的 切 线 斜 率 为 : d x 2 d x 1 且 由 上 面 隐 函 数 求 导 可 知 : d x 2 d x 1 = − f x 1 f x 2 则 在 该 处 的 法 线 斜 率 为 : − 1 d x 2 d x 1 = − 1 − f x 1 f x 2 = f x 2 f x 1 由 上 面 梯 度 为 : ( ∂ f ∂ x 1 , ∂ f ∂ x 2 ) = ∂ f ∂ x 1 i ⃗ + ∂ f ∂ x 2 j ⃗ 在 x 1 O x 2 平 面 的 梯 度 方 向 为 : ∂ f ∂ x 2 / ∂ f ∂ x 1 , 并 指 向 远 离 圆 圈 中 心 的 方 向 【 梯 度 方 向 是 函 数 值 增 大 的 方 向 , 对 应 的 导 数 为 正 】 在等高线f(x_1,x_2)上任一点的切线斜率为:\frac{dx_2}{dx_1}\\ 且由上面隐函数求导可知:\frac{dx_2}{dx_1}=-\frac{f_{x_1}}{f_{x_2}}\\ 则在该处的法线斜率为:\frac{-1}{\frac{dx_2}{dx_1}}=\frac{-1}{-\frac{f_{x_1}}{f_{x_2}}}=\frac{f_{x_2}}{f_{x_1}}\\ 由上面梯度为:(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2})=\frac{\partial f}{\partial x_1}\vec{i} +\frac{\partial f}{\partial x_2}\vec{j}\\ 在x_1Ox_2平面的梯度方向为:\frac{\partial f}{\partial x_2}/\frac{\partial f}{\partial x_1},并指向远离圆圈中心的方向【梯度方向是函数值增大的方向,对应的导数为正】 在等高线f(x1,x2)上任一点的切线斜率为:dx1dx2且由上面隐函数求导可知:dx1dx2=−fx2fx1则在该处的法线斜率为:dx1dx2−1=−fx2fx1−1=fx1fx2由上面梯度为:(∂x1∂f,∂x2∂f)=∂x1∂fi +∂x2∂fj 在x1Ox2平面的梯度方向为:∂x2∂f/∂x1∂f,并指向远离圆圈中心的方向【梯度方向是函数值增大的方向,对应的导数为正】
凸函数
凸集
集 合 中 的 任 意 两 点 x 1 , x 2 ∈ χ , 有 t x 1 + ( 1 − t ) x 2 ∈ χ , t ∈ [ 0 , 1 ] , 即 任 意 两 点 的 连 线 都 在 集 合 内 , 闭 合 的 凸 集 指 包 含 有 所 有 边 界 点 的 凸 集 。 直 观 上 就 是 集 合 不 会 像 下 图 那 样 有 “ 凹 下 去 ” 的 部 分 集合中的任意两点x_{1},x_{2}\in \chi,有tx_{1}+(1-t)x_{2}\in \chi,t\in[0,1],即任意两点的连线都在集合内,闭合的凸集指包含有所有边界点的凸集。直观上就是集合不会像下图那样有“凹下去”的部分 集合中的任意两点x1,x2∈χ,有tx1+(1−t)x2∈χ,t∈[0,1],即任意两点的连线都在集合内,闭合的凸集指包含有所有边界点的凸集。直观上就是集合不会像下图那样有“凹下去”的部分
凸函数
在 定 义 域 凸 集 上 , 有 函 数 f , 集 合 中 的 任 意 两 点 x 1 , x 2 ∈ χ , 有 f ( t x 1 + ( 1 − t ) x 2 ) < = t f ( x 1 ) + ( 1 − t ) f ( x 2 ) , t ∈ [ 0 , 1 ] , 则 称 f 为 凸 函 数 在定义域凸集上,有函数f,集合中的任意两点x_{1},x_{2}\in \chi,有f(tx_{1}+(1-t)x_{2})<=tf(x_1)+(1-t)f(x_2),t\in[0,1],则称f为凸函数 在定义域凸集上,有函数f,集合中的任意两点x1,x2∈χ,有f(tx1+(1−t)x2)<=tf(x1)+(1−t)f(x2),t∈[0,1],则称f为凸函数
凸函数的一阶导数特征
f ( y ) > = f ( x ) + f ′ ( x ) ( y − x ) f(y)>=f(x)+f'(x)(y-x) f(y)>=f(x)+f′(x)(y−x)
在任一点的函数值都>=f(x)在x处以f’(x)速度增加到y点时的函数值,不严格的说,凸函数是曲线向上包。
凸函数的二阶导数特征
f二阶可微时,f为凸函数的充要条件为:hessian矩阵是半正定阵。
正定矩阵A:对称矩阵A的特征值全为正数
A 的 特 征 值 : λ 1 + λ 2 + . . + λ n = a 11 + a 22 + a n n > 0 A的特征值:\lambda_1+\lambda_2+..+\lambda_n=a_{11}+a_{22}+a_{nn}>0\\ A的特征值:λ1+λ2+..+λn=a11+a22+ann>0
特征值和特征向量
理论
A x = λ x 【 A n 阶 方 阵 , λ 是 A 的 特 征 值 , 非 0 列 向 量 x 是 A 的 特 征 向 量 】 ( A − λ E ) x = 0 ∣ A − λ E ∣ = 0 ∣ a 11 − λ a 12 ⋯ a 1 n a 21 a 22 − λ ⋯ a 2 s ⋮ ⋮ ⋮ a n 1 a n 2 ⋯ a n n − λ ∣ = 0 n 阶 方 阵 A 的 特 征 值 λ 1 , λ 2 , . . λ n 有 特 点 : λ 1 + λ 2 + . . + λ n = a 11 + a 22 + a n n λ 1 λ 2 . . . λ n = ∣ A ∣ Ax=\lambda x【A n阶方阵,\lambda 是A的特征值,非0列向量x是A的特征向量】\\ (A-\lambda E)x=0\\ |A-\lambda E|=0\\ \left|\begin{array}{cccc} a_{11}-\lambda & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22}-\lambda & \cdots & a_{2 s} \\ \vdots & \vdots & & \vdots \\ a_{n 1} & a_{n 2} & \cdots & a_{n n}-\lambda \end{array}\right|=0\\ n阶方阵A的特征值\lambda_1,\lambda_2,..\lambda_n有特点:\\ \lambda_1+\lambda_2+..+\lambda_n=a_{11}+a_{22}+a_{nn}\\ \lambda_1\lambda_2…\lambda_n=|A|\\ Ax=λx【An阶方阵,λ是A的特征值,非0列向量x是A的特征向量】(A−λE)x=0∣A−λE∣=0∣∣∣∣∣∣∣∣∣a11−λa21⋮an1a12a22−λ⋮an2⋯⋯⋯a1na2s⋮ann−λ∣∣∣∣∣∣∣∣∣=0n阶方阵A的特征值λ1,λ2,..λn有特点:λ1+λ2+..+λn=a11+a22+annλ1λ2...λn=∣A∣
解释
矩阵是运动,特征值是运动的速度,特征向量是运动的方向
A v ⃗ = λ v ⃗ : v ⃗ 在 矩 阵 A 的 作 用 下 , 保 持 方 向 不 变 , 进 行 比 例 为 λ 的 伸 缩 A\vec v=\lambda \vec v:\vec v在矩阵A的作用下,保持方向不变,进行比例为\lambda的伸缩 Av =λv :v 在矩阵A的作用下,保持方向不变,进行比例为λ的伸缩
从二次型f(x)、对称矩阵看正定矩阵
f ( x ) 为 二 次 型 : 出 现 两 个 x 相 乘 f ( x 1 , x 2 , … , x n ) = a 11 x 1 2 + a 22 x 2 2 + … + a n n x n 2 + 2 a 12 x 1 x 2 + … + 2 a n − 1 , n x n − 1 x n f ( x 1 , x 2 , … , x n ) = ∑ i = 1 n a i i x i 2 + 2 ∑ i = 1 n ∑ j = 1 n a i j x i x j 【 a i j = a j i 】 f ( x 1 , x 2 , … , x n ) = x T A x A 是 对 称 矩 阵 / 二 次 型 矩 阵 = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ] 任 意 x ≠ 0 , 有 f ( x ) > 0 , 则 f ( x ) 为 正 定 二 次 型 , A 为 正 定 矩 阵 \begin{array}{l} f(x)为二次型:出现两个x相乘\\ f\left(x_{1}, x_{2}, \ldots, x_{n}\right)=a_{11} x_{1}^{2}+a_{22} x_{2}^{2}+\ldots+a_{n n} x_{n}^{2}+2 a_{12} x_{1} x_{2}+\ldots+2 a_{n-1, n} x_{n-1} x_{n} \\ f\left(x_{1}, x_{2}, \ldots, x_{n}\right)=\sum_{i=1}^{n} a_{i i} x_{i}^{2}+2 \sum_{i=1}^{n} \sum_{j=1}^{n} a_{i j} x_{i} x_{j}【a_{ij}=a{ji}】\\ f\left(x_{1}, x_{2}, \ldots, x_{n}\right)=x^{T} A x\\ A是对称矩阵/二次型矩阵=\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n 1} & a_{n 2} & \cdots & a_{n n} \end{array}\right]\\ 任意x \not=0,有f(x)>0,则f(x)为正定二次型,A为正定矩阵 \end{array} f(x)为二次型:出现两个x相乘f(x1,x2,…,xn)=a11x12+a22x22+…+annxn2+2a12x1x2+…+2an−1,nxn−1xnf(x1,x2,…,xn)=∑i=1naiixi2+2∑i=1n∑j=1naijxixj【aij=aji】f(x1,x2,…,xn)=xTAxA是对称矩阵/二次型矩阵=⎣⎢⎢⎢⎡a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1na2n⋮ann⎦⎥⎥⎥⎤任意x=0,有f(x)>0,则f(x)为正定二次型,A为正定矩阵
正定二次型f(x)的几何意义
一 元 正 定 二 次 型 f ( x ) = x 2 , 当 x ≠ 0 时 , 有 f ( x ) > 0 : 开 口 向 上 , 顶 点 在 原 点 的 抛 物 线 一元正定二次型f(x)=x^2,当x\not=0时,有f(x)>0:开口向上,顶点在原点的抛物线 一元正定二次型f(x)=x2,当x=0时,有f(x)>0:开口向上,顶点在原点的抛物线
二 元 正 定 二 次 型 f ( x , y ) = x 2 + y 2 : 开 口 向 上 , 顶 点 在 原 点 的 抛 物 面 。 二元正定二次型f(x,y)=x^2+y^2:开口向上,顶点在原点的抛物面。 二元正定二次型f(x,y)=x2+y2:开口向上,顶点在原点的抛物面。
半正定矩阵A:对称矩阵A的所有特征值>=0
f ( x ) 为 二 次 型 【 出 现 两 个 x 相 乘 】 : 任 意 x ≠ 0 , 有 f ( x ) > 0 , 则 f ( x ) 为 正 定 二 次 型 , A 为 正 定 矩 阵 任 意 x ≠ 0 , 有 f ( x ) > = 0 , 则 f ( x ) 为 半 正 定 二 次 型 , A 为 半 正 定 矩 阵 A 的 特 征 值 : λ 1 + λ 2 + . . + λ n = a 11 + a 22 + a n n > = 0 f(x)为二次型【出现两个x相乘】:\\ 任意x \not=0,有f(x)>0,则f(x)为正定二次型,A为正定矩阵\\ 任意x \not=0,有f(x)>=0,则f(x)为半正定二次型,A为半正定矩阵\\ A的特征值:\lambda_1+\lambda_2+..+\lambda_n=a_{11}+a_{22}+a_{nn}>=0\\ f(x)为二次型【出现两个x相乘】:任意x=0,有f(x)>0,则f(x)为正定二次型,A为正定矩阵任意x=0,有f(x)>=0,则f(x)为半正定二次型,A为半正定矩阵A的特征值:λ1+λ2+..+λn=a11+a22+ann>=0
hessian矩阵:多元函数 f ( x 1 , x 2 , . . , x n ) f(x_1,x_2,..,x_n) f(x1,x2,..,xn)的二阶导
一元函数f(x)泰特展开:
f ( x ) = f ( x 0 ) + f ′ ( x 0 ) d x + 1 2 f ′ ′ ( x 0 ) d x 2 f(x)=f(x_0)+f'(x_0)dx+\frac{1}{2}f”(x_0)dx^2 f(x)=f(x0)+f′(x0)dx+21f′′(x0)dx2
多元函数f(x,y)泰特展开:二阶梯度即为hessian矩阵
f ( [ x , y ] ) = f ( [ x 0 , y 0 ] ) + [ d x , d y ] [ f x ′ f y ′ ] + 1 2 [ d x , d y ] [ f x x ′ f x y ′ f y x ′ f y y ′ ] [ d x d y ] f([x,y])=f([x_0,y_0])+[dx, dy] \begin{bmatrix} {f’_{x}}\\ {f’_{y}}\\ \end{bmatrix} +\frac{1}{2}[dx, dy] \begin{bmatrix} {f’_{xx}}&{f’_{xy}}\\ {f’_{yx}}&{f’_{yy}}\\ \end{bmatrix} \begin{bmatrix} {dx}\\ {dy}\\ \end{bmatrix} f([x,y])=f([x0,y0])+[dx,dy][fx′fy′]+21[dx,dy][fxx′fyx′fxy′fyy′][dxdy]
H(f)= [ f x x ′ f x y ′ f y x ′ f y y ′ ] \begin{bmatrix} {f’_{xx}}&{f’_{xy}}\\ {f’_{yx}}&{f’_{yy}}\\ \end{bmatrix} [fxx′fyx′fxy′fyy′]
Hessian矩阵半正定就相当于一元函数二阶导非负,即二阶梯度>=0,一阶梯度递增(或不变)
凸函数如何判断
不可能对每一个点都去计算函数的一阶导数,所以利用凸函数的二阶导数特征证明,即hessian矩阵是正定的。