重回帰分析における、重相関係数について解説します。
重相関係数とは
例えば、2つの説明変数 $X_1$、$X_2$ で目的変数 $Y$ を説明する重回帰式が
$\widehat{Y}=w_1X_1+w_2X_2$
となったとします。
このとき、
実際の目的変数 $Y$ と、
$X_1$、$X_2$ および予測式から計算できる $\widehat{Y}$
の間の相関係数を重相関係数と言います。
重相関係数と決定係数
以下、最小二乗法を用いた線形重回帰分析の場合の話です。
重相関係数は、決定係数 $R^2$ のルートと一致します。
ただし、決定係数 $R^2$ は、以下で定義される量とします:
$R^2=\dfrac{\displaystyle\sum_{i=1}^n(\widehat{y_i}-\mu_y)^2}{\sigma_y^2}$
ここで、
・$\mu_y$ と $\sigma_y^2$ は、目的変数の値の平均と分散
・$\widehat{y_1},\dots,\widehat{y_n}$ は目的変数の予測値
とします。
決定係数は、回帰式によって説明変数が目的変数をどれくらい説明できているかを表す量です。したがって、重相関係数も説明変数が目的変数をどれくらい説明できているかを表す量とみなすことができます。
重相関の計算式
重相関係数は、
$\sqrt{\overrightarrow{\rho}^{\top}C^{-1}\overrightarrow{\rho}}$
という式で計算することができます。
ただし、$X_1,\dots,X_d$ を説明変数とし。
・$\overrightarrow{\rho}$ は、第 $i$ 成分が $X_i$ と $Y$ の相関係数である縦ベクトル
・$C$ は相関行列($ij$ 成分が $X_i$ と $X_j$ の相関係数)
とします。
通常の相関係数を組合せることで、重相関係数が計算できます。
証明の方針
重相関係数、つまり $Y$ と $\widehat{Y}$ の相関係数は、
$\dfrac{E[Y\widehat{Y}]-\mu_yE[\widehat{Y}]}{\sigma_y\sqrt{\mathrm{Var[\widehat{Y}]}}}$
です。この式に対して、
・$\widehat{Y}=w_0+w_1X_1+\dots w_dX_d$ という回帰式
・重回帰分析における係数の意味と求め方に記載の公式
を使って計算していくと、
$\dfrac{\sqrt{\overrightarrow{w}^{\top}\Sigma\overrightarrow{w}}}{\sigma_y}$
となります。
一方、決定係数の定義式についても、$\widehat{y_i}$ に回帰を使って計算していくと、
$R^2=\dfrac{\overrightarrow{w}^{\top}\Sigma\overrightarrow{w}}{\sigma_y^2}$
となることから性質1が分かります。
また、上記の緑色の式を少し変形すると、性質2の式が得られます。
※気になる方は、ぜひ自力で計算してみてください。
次回は 多重共線性の意味を数式を使ってきちんと説明する を解説します。