重回帰分析において、説明変数間で相関係数(の絶対値)が大きい場合に起きる残念な現象のことを多重共線性と言います。
説明変数が2つの場合
$Y=w_0+w_1X_1+w_2X_2$
という回帰モデルを考えましょう。$X_1,X_2$ が説明変数で $Y$ が目的変数です。
最小二乗法で回帰係数 $w_1,w_2$ を求めようとすると、
$\begin{pmatrix}\sigma_1^2&\sigma_{12}\\\sigma_{12}&\sigma_2^2\end{pmatrix}\begin{pmatrix}w_1\\w_2\end{pmatrix}=\begin{pmatrix}\mathrm{Cov}(X_1,Y)\\\mathrm{Cov}(X_2,Y)\end{pmatrix}$
という式が出てきます。
→重回帰分析における係数の意味と求め方
行列 $\begin{pmatrix}\sigma_1^2&\sigma_{12}\\\sigma_{12}&\sigma_2^2\end{pmatrix}$ は分散共分散行列と呼ばれますが、これの行列式は、
$\sigma_1^2\sigma_2^2-\sigma_{12}^2=\sigma_1^2\sigma_2^2(1-\rho^2)$
となります。ただし、$\rho$ は $X_1$ と $X_2$ の相関係数です。
つまり、相関係数 $\rho$ が $\pm 1$ である場合、分散共分散行列の行列式が $0$ になり、逆行列が存在せず、回帰係数 $w_1$、$w_2$ を計算することができません。
これを残念な現象1と呼ぶことにします。
また、相関係数が $\pm 1$ ではなくても $\pm 1$ に近い場合、行列式の値(の絶対値)が $0$ に近くなります。つまり、逆行列の各成分(の絶対値)が非常に大きくなってしまい、$w_1,w_2$ の推定値が不安定になります。
(例えば、説明変数 $X_1$ のデータにノイズが乗って少し変化したとき、$\mathrm{Cov}(X_1,Y)$ も少し変化しますが、$w_1$ と $w_2$ の推定値は大きく変化してしまいます)
これを残念な現象2と呼ぶことにします。
説明変数が3つ以上の場合
$Y=w_0+w_1X_1+\cdots +w_nX_n$
という回帰モデルを考えましょう。
二変数の場合と同様に、最小二乗法で回帰係数 $w_1,\dots,w_n$ を求めようとすると、
$\Sigma\overrightarrow{w}=\overrightarrow{c}$
という式が出てきます。
$d$ 個の説明変数 $X_{i_1},X_{i_2},\dots,X_{i_d}$ の間に、一次従属の関係式:
$a_1X_{i_1}+a_2X_{i_2}+\cdots +a_dX_{i_d}=0$
が成立している場合、分散共分散行列 $\Sigma$ の行列式は $0$ になってしまい、回帰係数を計算することができません。
まず、関係式と期待値の線形性を使うと、
$a_1E[X_{i_1}]+a_2E[X_{i_2}]+\cdots +a_dE[X_{i_d}]=0$
が分かります。
この2つの式から、
$\displaystyle\sum_{k=1}^da_k(X_{i_k}-E[X_{i_k}])=0$
が分かります。
この式を二乗することで、
$\overrightarrow{a}^{\top}\Sigma\overrightarrow{a}=0$
となる(零ベクトルではない)ベクトル $\overrightarrow{a}$ を構成できることが分かります。
分散共分散行列 $\Sigma$ は半正定値行列ですが、上の式より、正定値行列ではないことが分かります。つまり、$0$ が $\Sigma$ の固有値の一つとなり、$\det\Sigma=0$ が分かります。
次回は LASSO回帰とRidge回帰の意味とメリットを整理 を解説します。