变量之间的相关性度量

1. 相关系数

称为Correlation coefficient,又称皮尔逊相关系数,衡量了两个变量的线性相关程度。定义变量 X X X Y Y Y的协方差 C o v ( X , Y ) Cov(X,Y) Cov(X,Y)
C o v ( X , Y ) = E { [ X − E ( x ) ] [ Y − E ( Y ) ] } Cov(X,Y)=E\{[X-E(x)][Y-E(Y)]\} Cov(X,Y)=E{ [XE(x)][YE(Y)]}
随机变量 X X X Y Y Y的相关系数 ρ X Y \rho_{XY} ρXY
ρ X Y = C o v ( X , Y ) D ( x ) D ( y ) \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(x)}\sqrt{D(y)}} ρXY=D(x) D(y) Cov(X,Y)

相关系数有如下的性质:
1. ∣ ρ X Y ∣ ≤ 1 |\rho_{XY}|\leq 1 ρXY1, ∣ ρ X Y ∣ |\rho_{XY}| ρXY越大,标明线性相关程度越高,当 ∣ ρ X Y ∣ = 0 |\rho_{XY}|=0 ρXY=0,表示为不相关。
2. ∣ ρ X Y ∣ = 1 |\rho_{XY}|=1 ρXY=1的充要条件是,存在常数 a , b a,b a,b使得 P { Y = a + b X } = 1 P\{Y=a+bX\}=1 P{ Y=a+

点赞