# 微分

## 全微分 偏微分

d y d x \frac{dy}{dx} dxdy：全微分，y的变化率，根据链式法则
∂ y ∂ x \frac{\partial y}{\partial x} xy：偏微分，y沿x方向的变化率，把其他变量当做常量对x求导

## 一元函数 y=f(x) 求导

只有一个变量，此时，导数=偏导=全微分=偏微分
d y = ∂ y ∂ x d x d y d x = ∂ y ∂ x = ∂ f ∂ x dy=\frac{\partial y}{\partial x}dx\\ \frac{dy}{dx}=\frac{\partial y}{\partial x}=\frac{\partial f}{\partial x} dy=xydxdxdy=xy=xf

## 二元函数 y=f(x1,x2) 求导

有两个变量，此时，导数=全微分，偏导=偏微分
d y = ∂ y ∂ x 1 d x 1 + ∂ y ∂ x 2 d x 2 d y d x 1 = ∂ y ∂ x 1 + ∂ y ∂ x 2 ∂ x 2 ∂ x 1 d f d x 1 = ∂ f ∂ x 1 + ∂ f ∂ x 2 ∂ x 2 ∂ x 1 dy=\frac{\partial y}{\partial x_1}dx_1+\frac{\partial y}{\partial x_2}dx_2\\ \frac{dy}{dx_1}=\frac{\partial y}{\partial x_1}+\frac{\partial y}{\partial x_2}\frac{\partial x_2}{\partial x_1}\\ \frac{df}{dx_1}=\frac{\partial f}{\partial x_1}+\frac{\partial f}{\partial x_2}\frac{\partial x_2}{\partial x_1} dy=x1ydx1+x2ydx2dx1dy=x1y+x2yx1x2dx1df=x1f+x2fx1x2

## 二元隐函数求导 y = f ( x 1 , g ( x 1 ) ) , x 2 = g ( x 1 ) ： d x 2 d x 1 = − f x 1 f x 2 y=f(x_1,g(x_1)),x_2=g(x_1)：\frac{dx_2}{dx_1}=-\frac{f_{x_1}}{f_{x_2}} y=f(x1​,g(x1​)),x2​=g(x1​)：dx1​dx2​​=−fx2​​fx1​​​

x 2 = g ( x 1 ) x_2=g(x_1) x2=g(x1)求导：
d x 2 = ∂ x 2 ∂ x 1 d x 1 d x 2 d x 1 = ∂ x 2 ∂ x 1 . . . . . . . . . ① dx_2=\frac{\partial x_2}{\partial x_1}dx_1\\ \frac{dx_2}{dx_1}=\frac{\partial x_2}{\partial x_1}………①\\ dx2=x1x2dx1dx1dx2=x1x2.........

∂ f ∂ x 1 d x 1 + ∂ f ∂ x 2 d x 2 = 0 ∂ f ∂ x 1 d x 1 + ∂ f ∂ x 2 ∂ x 2 ∂ x 1 d x 1 = 0 ∂ f ∂ x 1 d x 1 + ∂ f ∂ x 2 d x 2 d x 1 d x 1 = 0 ： 由 ① 可 知 ∂ f ∂ x 1 + ∂ f ∂ x 2 d x 2 d x 1 = 0 d x 2 d x 1 = − ∂ f ∂ x 1 / ∂ f ∂ x 2 = − f x 1 f x 2 \frac{\partial f}{\partial x_1}dx_1+\frac{\partial f}{\partial x_2}dx_2=0\\ \frac{\partial f}{\partial x_1}dx_1+\frac{\partial f}{\partial x_2}\frac{\partial x_2}{\partial x_1}dx_1=0\\ \frac{\partial f}{\partial x_1}dx_1+\frac{\partial f}{\partial x_2}\frac{dx_2}{dx_1}dx_1=0：由①可知\\ \frac{\partial f}{\partial x_1}+\frac{\partial f}{\partial x_2}\frac{dx_2}{dx_1}=0\\ \frac{dx_2}{dx_1}=-\frac{\partial f}{\partial x_1}/\frac{\partial f}{\partial x_2}=-\frac{f_{x_1}}{f_{x_2}}\\ x1fdx1+x2fdx2=0x1fdx1+x2fx1x2dx1=0x1fdx1+x2fdx1dx2dx1=0x1f+x2fdx1dx2=0dx1dx2=x1f/x2f=fx2fx1

# 梯度

## 定义

### 梯度的导数：为正

导数是函数在某点沿着某个方向的变化率，梯度方向是函数值增大的方向，则对应的导数为正
y = − 2 x ， ∇ f = ( ∂ f ∂ x ) = ( − 2 ) = − 2 i ⃗ = 2 ( − i ⃗ ) 梯 度 方 向 是 x 轴 负 方 向 ， 对 应 的 导 数 为 2 ， 即 沿 着 x 轴 负 方 向 方 向 ， 每 前 进 1 ， 函 数 值 增 长 2 y=-2x，\nabla f=(\frac{\partial f}{\partial x})=(-2)=-2\vec{i}=2(\vec{-i})\\梯度方向是x轴负方向，对应的导数为2，即沿着x轴负方向方向，每前进1，函数值增长2 y=2xf=(xf)=(2)=2i =2(i )x2沿x12

### 梯度的方向

∇ f = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 ) = ( 3 , 4 ) = 3 i ⃗ + 4 j ⃗ ： 梯 度 方 向 为 ： 在 x 1 0 x 2 平 面 ， 方 向 指 向 第 一 象 限 ( x 1 为 正 ， x 2 为 正 ， 因 为 3 i ⃗ + 4 j ⃗ ) ， ∂ f ∂ x 2 / ∂ f ∂ x 1 = 4 / 3 ， x 2 = 4 3 x 1 ， ∇ f = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 ) = ( − 3 , − 4 ) = − 3 i ⃗ − 4 j ⃗ ： 梯 度 方 向 为 ： 在 x 1 0 x 2 平 面 ， 方 向 指 向 第 三 象 限 ( x 1 为 负 ， x 2 为 负 ， 因 为 − 3 i ⃗ − 4 j ⃗ ) ， ∂ f ∂ x 2 / ∂ f ∂ x 1 = 4 / 3 ， x 2 = 4 3 x 1 ， \nabla f=(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2})=(3,4)=3\vec{i}+4\vec{j}：\\ 梯度方向为：在x_{1}0x_2平面，方向指向第一象限(x_1为正，x_2为正，因为3\vec{i}+4\vec{j})，\frac{\partial f}{\partial x_2}/\frac{\partial f}{\partial x_1}=4/3，x_2=\frac{4}{3}x_1，\\ \nabla f=(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2})=(-3,-4)=-3\vec{i}-4\vec{j}：\\ 梯度方向为：在x_{1}0x_2平面，方向指向第三象限(x_1为负，x_2为负，因为-3\vec{i}-4\vec{j})，\frac{\partial f}{\partial x_2}/\frac{\partial f}{\partial x_1}=4/3，x_2=\frac{4}{3}x_1，\\ f=(x1f,x2f)=(3,4)=3i +4j x10x2(x1x23i +4j )x2f/x1f=4/3x2=34x1f=(x1f,x2f)=(3,4)=3i 4j x10x2(x1x23i 4j )x2f/x1f=4/3x2=34x1

### 向量内积

a ⃗ = ( a 1 , a 2 ) ， b ⃗ = ( b 1 , b 2 ) ， β 为 a ⃗ 和 b ⃗ 的 夹 角 ( < 90 ) a ⃗ ⋅ b ⃗ = a 1 b 1 + a 2 b 2 = ∣ a ⃗ ∣ ⋅ ∣ b ⃗ ∣ ⋅ c o s β \vec{a}=(a_1,a_2)，\vec{b}=(b_1,b_2)，\beta为\vec{a}和\vec{b}的夹角(<90)\\ \vec{a}\cdot\vec{b}=a_1b_1+a_2b_2=|\vec{a}|\cdot|\vec{b}|\cdot cos\beta\\ a =(a1,a2)b =(b1,b2)βa b (<90)a b =a1b1+a2b2=a b cosβ

### 方向导数：标量

函数在某点沿着某个方向的变化率

### 一元函数 y=f(x)

g r a d f = ∇ f = ( ∂ f ∂ x ) = ( d y d x ) = ( ∂ y ∂ x ) = d y d x i ⃗ = ∂ y ∂ x i ⃗ i ⃗ ： 表 x 轴 正 方 向 单 位 向 量 此 时 梯 度 方 向 为 ： i ⃗ 即 x 轴 正 方 向 ， 梯 度 的 导 数 为 ： ( ∂ f ∂ x ) 2 gradf=\nabla f=(\frac{\partial f}{\partial x})=(\frac{dy}{dx})=(\frac{\partial y}{\partial x})=\frac{dy}{dx}\vec{i}=\frac{\partial y}{\partial x}\vec{i}\\ \vec{i}：表x轴正方向单位向量\\ 此时梯度方向为：\vec{i}即x轴正方向，梯度的导数为：\sqrt{(\frac{\partial f}{\partial x})^2} gradf=f=(xf)=(dxdy)=(xy)=dxdyi =xyi i xi x(xf)2

### 二元函数 y=f(x1,x2)

g r a d f = ∇ f = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 ) = ( ∂ y ∂ x 1 , ∂ y ∂ x 2 ) = ∂ f ∂ x 1 i ⃗ + ∂ f ∂ x 2 j ⃗ = ∂ y d x i ⃗ + ∂ y ∂ x 2 j ⃗ i ⃗ ： 表 x 轴 正 方 向 单 位 向 量 ， j ⃗ ： 表 y 轴 正 方 向 单 位 向 量 此 时 ， 梯 度 方 向 的 导 数 为 ： D ∇ f = 2 2 ， 此 时 梯 度 方 向 为 ： gradf=\nabla f=(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2})=(\frac{\partial y}{\partial x_1}, \frac{\partial y}{\partial x_2})=\frac{\partial f}{\partial x_1}\vec{i}+\frac{\partial f}{\partial x_2}\vec{j}=\frac{\partial y}{dx}\vec{i}+\frac{\partial y}{\partial x_2}\vec{j}\\ \vec{i}：表x轴正方向单位向量， \vec{j}：表y轴正方向单位向量\\ 此时，梯度方向的导数为：D_{\nabla }f=\sqrt{2^2}，\\ 此时梯度方向为： gradf=f=(x1f,x2f)=(x1y,x2y)=x1fi +x2fj =dxyi +x2yj i xj yDf=22

## 特点

### 梯度与等高线切线垂直

#### 等高线

##### 损失函数为凸函数时

y = f ( x 1 , x 2 ) y = c y=f(x_1,x_2)\\ y=c\\ y=f(x1,x2)y=c

# 凸函数

## 凸函数

### 凸函数的一阶导数特征

f ( y ) > = f ( x ) + f ′ ( x ) ( y − x ) f(y)>=f(x)+f'(x)(y-x) f(y)>=f(x)+f(x)(yx)

### 凸函数的二阶导数特征

f二阶可微时，f为凸函数的充要条件为：hessian矩阵是半正定阵。

#### 正定矩阵A：对称矩阵A的特征值全为正数

A 的 特 征 值 ： λ 1 + λ 2 + . . + λ n = a 11 + a 22 + a n n > 0 A的特征值：\lambda_1+\lambda_2+..+\lambda_n=a_{11}+a_{22}+a_{nn}>0\\ Aλ1+λ2+..+λn=a11+a22+ann>0

##### 特征值和特征向量
###### 理论

A x = λ x 【 A n 阶 方 阵 ， λ 是 A 的 特 征 值 ， 非 0 列 向 量 x 是 A 的 特 征 向 量 】 ( A − λ E ) x = 0 ∣ A − λ E ∣ = 0 ∣ a 11 − λ a 12 ⋯ a 1 n a 21 a 22 − λ ⋯ a 2 s ⋮ ⋮ ⋮ a n 1 a n 2 ⋯ a n n − λ ∣ = 0 n 阶 方 阵 A 的 特 征 值 λ 1 , λ 2 , . . λ n 有 特 点 ： λ 1 + λ 2 + . . + λ n = a 11 + a 22 + a n n λ 1 λ 2 . . . λ n = ∣ A ∣ Ax=\lambda x【A n阶方阵，\lambda 是A的特征值，非0列向量x是A的特征向量】\\ (A-\lambda E)x=0\\ |A-\lambda E|=0\\ \left|\begin{array}{cccc} a_{11}-\lambda & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22}-\lambda & \cdots & a_{2 s} \\ \vdots & \vdots & & \vdots \\ a_{n 1} & a_{n 2} & \cdots & a_{n n}-\lambda \end{array}\right|=0\\ n阶方阵A的特征值\lambda_1,\lambda_2,..\lambda_n有特点：\\ \lambda_1+\lambda_2+..+\lambda_n=a_{11}+a_{22}+a_{nn}\\ \lambda_1\lambda_2…\lambda_n=|A|\\ Ax=λxAnλA0xA(AλE)x=0AλE=0a11λa21an1a12a22λan2a1na2sannλ=0nAλ1,λ2,..λnλ1+λ2+..+λn=a11+a22+annλ1λ2...λn=A

###### 解释

A v ⃗ = λ v ⃗ ： v ⃗ 在 矩 阵 A 的 作 用 下 ， 保 持 方 向 不 变 ， 进 行 比 例 为 λ 的 伸 缩 A\vec v=\lambda \vec v：\vec v在矩阵A的作用下，保持方向不变，进行比例为\lambda的伸缩 Av =λv v Aλ

##### 从二次型f(x)、对称矩阵看正定矩阵

f ( x ) 为 二 次 型 ： 出 现 两 个 x 相 乘 f ( x 1 , x 2 , … , x n ) = a 11 x 1 2 + a 22 x 2 2 + … + a n n x n 2 + 2 a 12 x 1 x 2 + … + 2 a n − 1 , n x n − 1 x n f ( x 1 , x 2 , … , x n ) = ∑ i = 1 n a i i x i 2 + 2 ∑ i = 1 n ∑ j = 1 n a i j x i x j 【 a i j = a j i 】 f ( x 1 , x 2 , … , x n ) = x T A x A 是 对 称 矩 阵 / 二 次 型 矩 阵 = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ] 任 意 x ≠ 0 ， 有 f ( x ) > 0 ， 则 f ( x ) 为 正 定 二 次 型 ， A 为 正 定 矩 阵 \begin{array}{l} f(x)为二次型：出现两个x相乘\\ f\left(x_{1}, x_{2}, \ldots, x_{n}\right)=a_{11} x_{1}^{2}+a_{22} x_{2}^{2}+\ldots+a_{n n} x_{n}^{2}+2 a_{12} x_{1} x_{2}+\ldots+2 a_{n-1, n} x_{n-1} x_{n} \\ f\left(x_{1}, x_{2}, \ldots, x_{n}\right)=\sum_{i=1}^{n} a_{i i} x_{i}^{2}+2 \sum_{i=1}^{n} \sum_{j=1}^{n} a_{i j} x_{i} x_{j}【a_{ij}=a{ji}】\\ f\left(x_{1}, x_{2}, \ldots, x_{n}\right)=x^{T} A x\\ A是对称矩阵/二次型矩阵=\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n 1} & a_{n 2} & \cdots & a_{n n} \end{array}\right]\\ 任意x \not=0，有f(x)>0，则f(x)为正定二次型，A为正定矩阵 \end{array} f(x)xf(x1,x2,,xn)=a11x12+a22x22++annxn2+2a12x1x2++2an1,nxn1xnf(x1,x2,,xn)=i=1naiixi2+2i=1nj=1naijxixjaij=ajif(x1,x2,,xn)=xTAxA/=a11a21an1a12a22an2a1na2nannx=0f(x)>0f(x)A

##### 半正定矩阵A：对称矩阵A的所有特征值>=0

f ( x ) 为 二 次 型 【 出 现 两 个 x 相 乘 】 ： 任 意 x ≠ 0 ， 有 f ( x ) > 0 ， 则 f ( x ) 为 正 定 二 次 型 ， A 为 正 定 矩 阵 任 意 x ≠ 0 ， 有 f ( x ) > = 0 ， 则 f ( x ) 为 半 正 定 二 次 型 ， A 为 半 正 定 矩 阵 A 的 特 征 值 ： λ 1 + λ 2 + . . + λ n = a 11 + a 22 + a n n > = 0 f(x)为二次型【出现两个x相乘】：\\ 任意x \not=0，有f(x)>0，则f(x)为正定二次型，A为正定矩阵\\ 任意x \not=0，有f(x)>=0，则f(x)为半正定二次型，A为半正定矩阵\\ A的特征值：\lambda_1+\lambda_2+..+\lambda_n=a_{11}+a_{22}+a_{nn}>=0\\ f(x)xx=0f(x)>0f(x)Ax=0f(x)>=0f(x)AAλ1+λ2+..+λn=a11+a22+ann>=0

#### hessian矩阵：多元函数 f ( x 1 , x 2 , . . , x n ) f(x_1,x_2,..,x_n) f(x1​,x2​,..,xn​)的二阶导

f ( x ) = f ( x 0 ) + f ′ ( x 0 ) d x + 1 2 f ′ ′ ( x 0 ) d x 2 f(x)=f(x_0)+f'(x_0)dx+\frac{1}{2}f”(x_0)dx^2 f(x)=f(x0)+f(x0)dx+21f(x0)dx2

f ( [ x , y ] ) = f ( [ x 0 , y 0 ] ) + [ d x , d y ] [ f x ′ f y ′ ] + 1 2 [ d x , d y ] [ f x x ′ f x y ′ f y x ′ f y y ′ ] [ d x d y ] f([x,y])=f([x_0,y_0])+[dx, dy] \begin{bmatrix} {f’_{x}}\\ {f’_{y}}\\ \end{bmatrix} +\frac{1}{2}[dx, dy] \begin{bmatrix} {f’_{xx}}&{f’_{xy}}\\ {f’_{yx}}&{f’_{yy}}\\ \end{bmatrix} \begin{bmatrix} {dx}\\ {dy}\\ \end{bmatrix} f([x,y])=f([x0,y0])+[dx,dy][fxfy]+21[dx,dy][fxxfyxfxyfyy][dxdy]
H(f)= [ f x x ′ f x y ′ f y x ′ f y y ′ ] \begin{bmatrix} {f’_{xx}}&{f’_{xy}}\\ {f’_{yx}}&{f’_{yy}}\\ \end{bmatrix} [fxxfyxfxyfyy]

Hessian矩阵半正定就相当于一元函数二阶导非负，即二阶梯度>=0，一阶梯度递增（或不变）