確率変数(またはデータ) $X$ に対して、$Y=\dfrac{X-\mu}{\sigma}$ と変換すると、
$Y$ の平均は $0$、分散は $1$ となる。この操作を標準化と言う。
(ただし、$\mu$ は $X$ の平均、$\sigma$ は標準偏差)
データの標準化の例
例題:$1,2,3,4,5$ という5つのデータを標準化してみましょう。
平均は、$\dfrac{1+2+3+4+5}{5}=3$
標準偏差は、$\sqrt{\dfrac{1}{5}(2^2+1^2+0^2+1^2+2^2)}=\sqrt{2}$
なので、
$Y=\dfrac{X-3}{\sqrt{2}}$
が標準化を行う変換となります。
よって、$(1,2,3,4,5)$ を標準化すると、
$\left(\dfrac{-2}{\sqrt{2}},\dfrac{-1}{\sqrt{2}},0,\dfrac{1}{\sqrt{2}},\dfrac{2}{\sqrt{2}}\right)$
となります。このデータは平均が $0$ で、分散は $1$ になっています。
※標準化は正規化と呼ばれることもあります。
標準化の目的
標準化のメリットを具体例で説明します。$5$ 人でテストを受けたとしましょう。
同じ $50$ 点でも、周り4人が
$10,20,30,40$ 点の場合は「平均 $+20$ 点」の良い点数」ですが、
$30,40,60,70$ 点の場合は平均点ぴったりです。
つまり、前者の方が価値ある $50$ 点です。
このように、複数の状況の数字を比較するときには、データの数字そのものではなく、平均を基準にして考える必要があります。
また、
同じ $50$ 点でも、周り4人が
$10,20,30,40$ 点の場合よりも
$25,25,25,25$ 点の場合の方が「珍しい、価値ある $50$ 点」と考えることができます。
このように、複数の状況の数字を比較するときには、データの数字そのものだけではなく、周囲の数字の散らばり具合も合わせて考える必要があります。
そこで、点数そのものではなく「標準化した後の点数」を考えることで平均と分散を考慮した上での点数のすごさを評価することができます。
まとめ:標準化の目的は、平均と分散を考慮した上での数字の「大きさ」を得ること。
※テストの偏差値は標準化の考え方を使っています。
標準化の証明
$Y=\dfrac{X-\mu}{\sigma}$ とおいたとき、$Y$ の平均が $0$ で分散が $1$ になることを証明してみます。
まず平均(期待値)を $E[Y]$ と書くと、
$E[Y]=E\left[\dfrac{X-\mu}{\sigma}\right]\\
=\dfrac{1}{\sigma}(E[X]-E[\mu])\\
=\dfrac{1}{\sigma}(\mu-\mu)\\
=0$
となります。
分散は、$Y$ の平均が $0$ なので、
$E[Y^2]=E\left[\dfrac{(X-\mu)^2}{\sigma^2}\right]\\
=\dfrac{1}{\sigma^2}E[(X-\mu)^2]$
となりますが、
分散の定義より、$E[(X-\mu)^2]=\sigma^2$ なので、
$E[Y^2]=1$ となります。
次回は 無相関化と白色化の意味と式 を解説します。