重回帰分析における係数の意味と求め方

具体例で学ぶ数学 > 確率、データ処理 > 重回帰分析における係数の意味と求め方

最終更新日 2017/11/07

重回帰分析の基本的な知識を復習した上で、偏回帰係数の意味と計算方法を説明します。

重回帰分析とは

やりたいこと：
複数の説明変数 $X_1,X_2,\dots,X_d$ から、目的変数 $Y$ を予測する式を作るのが目標です。

やること：
具体的には、
$Y=w_0+w_1X_1+w_2X_2+\cdots +w_dX_d$
という回帰式を仮定し、二乗誤差を最小にするようなパラメータ（偏回帰係数と呼ばれる）$w_0,w_1,\dots,w_d$ を求めます。

使うデータ：
$i$ 番目のデータを、$(y_i,x_{i1},x_{i2},\dots,x_{id})$ とします。また、データ数を $n$ とします。データの例を表に示します。

睡眠時間 $Y$	体重 $X_1$	身長 $X_2$
$y_1=8$	$x_{11}=50$	$x_{12}=160$
$y_2=7$	$x_{21}=60$	$x_{22}=170$
$\vdots$	$\vdots$	$\vdots$
$y_n=8$	$x_{n1}=40$	$x_{n2}=140$

偏回帰係数の意味

回帰式は
$Y=w_0+w_1X_1+w_2X_2+\cdots +w_dX_d$
です。

$w_i$ がプラスのとき
「$X_i$ の値が大きいとき、$Y$ も大きくなる」という関係があると予想されます。

$w_i$ がマイナスのとき
「$X_i$ の値が大きいとき、$Y$ は小さくなる」という関係があると予想されます。

$w_i$ が $0$ に近いとき
説明変数 $X_i$ は、目的変数 $Y$ にあまり影響を与えないと予想されます。

偏回帰係数の求め方

最小二乗法の考え方に従って計算すると、
$\mu_Y=w_0+w_1\mu_{X_1}+\cdots +w_d\mu_{X_d}$
$\Sigma\overrightarrow{w}=\overrightarrow{c}$
という２つの式が成立します（導出は記事末に記載）。
ただし、
・$\mu_Y$ は $Y$ の平均、$\mu_{X_1}$ は $X_1$ の平均、などです。

・また、$\Sigma$ は説明変数の分散共分散行列とします。つまり、$ij$ 成分が $X_i$ と $X_j$ の共分散であり、$ii$ 成分は $X_i$ の分散であるような行列です。

・また、$\overrightarrow{w}$ は $w_0$ 以外の偏回帰係数を並べた縦ベクトルです：
$\overrightarrow{w}=\begin{pmatrix}w_1\\w_2\\\vdots\\w_d\end{pmatrix}$

・そして、$\overrightarrow{c}$ は説明変数と目的変数の共分散を並べた縦ベクトルです。つまり、第 $i$ 成分は、$X_i$ と $Y$ の共分散です。

上の２つの式を使って、偏回帰係数を計算することができます。

ステップ１．
下側の式を変形して、
$\overrightarrow{w}=\Sigma^{-1}\overrightarrow{c}$
を計算することで、$\overrightarrow{w}$ が求まる。

ステップ２．
上側の式を変形して、
$w_0=\mu_Y-w_1\mu_{X_1}-\cdots -w_d\mu_{X_d}$
を計算することで、$w_0$ が求まる。

２つの式の導出

表記を見やすくするために $d=2$ の場合で考えます。
$E=\displaystyle\sum_{i=1}^n(y_i-w_0-w_1x_{i1}-w_2x_{i2})^2$
を最小化する $w_0,w_1,w_2$ を求めるのが目標です。

$\dfrac{\partial E}{\partial w_0}=0$ より、
$\displaystyle\sum_{i=1}^n(y_i-w_0-w_1x_{i1}-w_2x_{i2})=0$
これを $n$ で割ると、
$\mu_Y-w_0-w_1\mu_{X_1}-w_2\mu_{X_2}=0$
となり、一つ目の式が導出できました。

次に、$\dfrac{\partial E}{\partial w_1}=0$ より、
$\displaystyle\sum_{i=1}^nx_{i1}(y_i-w_0-w_1x_{i1}-w_2x_{i2})=0$
となります。このシグマの中身は、一つ目の式を使って $w_0$ を消去すると、
$x_{i1}\{y_i-\mu_Y-w_1(x_{i1}-\mu_{X_1})-w_2(x_{i2}-\mu_{X_2})$
となります。これを使って上式を変形していくと、
$w_1\mathrm{Var}(X_1)+w_2\mathrm{Cov}(X_1,X_2)=\mathrm{Cov}(X_1,Y)$
という形になります。

これは、二つ目の式：$\Sigma\overrightarrow{w}=\overrightarrow{c}$ の第一成分です。第二成分も同様に $\dfrac{\partial E}{\partial w_2}=0$ から導出できます。

次回は重相関係数の意味と、２つの性質についてを解説します。

重回帰分析における係数の意味と求め方

重回帰分析とは

偏回帰係数の意味

偏回帰係数の求め方

２つの式の導出

おすすめの問題集