重回帰分析の基本的な知識を復習した上で、偏回帰係数の意味と計算方法を説明します。
重回帰分析とは
やりたいこと:
複数の説明変数 $X_1,X_2,\dots,X_d$ から、目的変数 $Y$ を予測する式を作るのが目標です。
やること:
具体的には、
$Y=w_0+w_1X_1+w_2X_2+\cdots +w_dX_d$
という回帰式を仮定し、二乗誤差を最小にするようなパラメータ(偏回帰係数と呼ばれる)$w_0,w_1,\dots,w_d$ を求めます。
使うデータ:
$i$ 番目のデータを、$(y_i,x_{i1},x_{i2},\dots,x_{id})$ とします。また、データ数を $n$ とします。データの例を表に示します。
睡眠時間 $Y$ | 体重 $X_1$ | 身長 $X_2$ |
$y_1=8$ | $x_{11}=50$ | $x_{12}=160$ |
$y_2=7$ | $x_{21}=60$ | $x_{22}=170$ |
$\vdots$ | $\vdots$ | $\vdots$ |
$y_n=8$ | $x_{n1}=40$ | $x_{n2}=140$ |
偏回帰係数の意味
回帰式は
$Y=w_0+w_1X_1+w_2X_2+\cdots +w_dX_d$
です。
$w_i$ がプラスのとき
「$X_i$ の値が大きいとき、$Y$ も大きくなる」という関係があると予想されます。
$w_i$ がマイナスのとき
「$X_i$ の値が大きいとき、$Y$ は小さくなる」という関係があると予想されます。
$w_i$ が $0$ に近いとき
説明変数 $X_i$ は、目的変数 $Y$ にあまり影響を与えないと予想されます。
偏回帰係数の求め方
最小二乗法の考え方に従って計算すると、
$\mu_Y=w_0+w_1\mu_{X_1}+\cdots +w_d\mu_{X_d}$
$\Sigma\overrightarrow{w}=\overrightarrow{c}$
という2つの式が成立します(導出は記事末に記載)。
ただし、
・$\mu_Y$ は $Y$ の平均、$\mu_{X_1}$ は $X_1$ の平均、などです。
・また、$\Sigma$ は説明変数の分散共分散行列とします。つまり、$ij$ 成分が $X_i$ と $X_j$ の共分散であり、$ii$ 成分は $X_i$ の分散であるような行列です。
・また、$\overrightarrow{w}$ は $w_0$ 以外の偏回帰係数を並べた縦ベクトルです:
$\overrightarrow{w}=\begin{pmatrix}w_1\\w_2\\\vdots\\w_d\end{pmatrix}$
・そして、$\overrightarrow{c}$ は説明変数と目的変数の共分散を並べた縦ベクトルです。つまり、第 $i$ 成分は、$X_i$ と $Y$ の共分散です。
ステップ1.
下側の式を変形して、
$\overrightarrow{w}=\Sigma^{-1}\overrightarrow{c}$
を計算することで、$\overrightarrow{w}$ が求まる。
ステップ2.
上側の式を変形して、
$w_0=\mu_Y-w_1\mu_{X_1}-\cdots -w_d\mu_{X_d}$
を計算することで、$w_0$ が求まる。
2つの式の導出
表記を見やすくするために $d=2$ の場合で考えます。
$E=\displaystyle\sum_{i=1}^n(y_i-w_0-w_1x_{i1}-w_2x_{i2})^2$
を最小化する $w_0,w_1,w_2$ を求めるのが目標です。
$\dfrac{\partial E}{\partial w_0}=0$ より、
$\displaystyle\sum_{i=1}^n(y_i-w_0-w_1x_{i1}-w_2x_{i2})=0$
これを $n$ で割ると、
$\mu_Y-w_0-w_1\mu_{X_1}-w_2\mu_{X_2}=0$
となり、一つ目の式が導出できました。
次に、$\dfrac{\partial E}{\partial w_1}=0$ より、
$\displaystyle\sum_{i=1}^nx_{i1}(y_i-w_0-w_1x_{i1}-w_2x_{i2})=0$
となります。このシグマの中身は、一つ目の式を使って $w_0$ を消去すると、
$x_{i1}\{y_i-\mu_Y-w_1(x_{i1}-\mu_{X_1})-w_2(x_{i2}-\mu_{X_2})$
となります。これを使って上式を変形していくと、
$w_1\mathrm{Var}(X_1)+w_2\mathrm{Cov}(X_1,X_2)=\mathrm{Cov}(X_1,Y)$
という形になります。
これは、二つ目の式:$\Sigma\overrightarrow{w}=\overrightarrow{c}$ の第一成分です。第二成分も同様に $\dfrac{\partial E}{\partial w_2}=0$ から導出できます。
次回は 重相関係数の意味と、2つの性質について を解説します。