標準誤差の意味と役立つ理由

標準誤差という統計学の用語について解説します。「標準偏差」と似ていて間違えやすいですが、意味は違います。

標準誤差とは

標準誤差とは、標本平均標準偏差のことです。

標本平均標準偏差とは?
例えば、日本人の身長の平均値を知りたい状況を考えます。日本人全員を調べるのは大変なので、$50$ 人選んでその平均身長 $X=\frac{X_1+\dots +X_{50}}{50}$ を計算してみます。この $X$ のことを標本平均と言います。

標本平均は、代表 $50$ 人の選び方によって異なります。つまり「代表 $50$ 人を選んで平均を計算する」ことを何回もやると、結果はばらつきます。このばらつき(標準偏差)が標準誤差です。

標準誤差の計算方法

標準誤差は、$\dfrac{\sigma}{\sqrt{n}}$ という式で計算することができます。

ただし、$n$ はサンプルサイズ(さきほどの例だと $n=50$)です。$\sigma$ は母集団(さきほどの例だと日本人全体)の標準偏差です。

サンプルサイズが大きいほうが、標準誤差が小さくなります。

計算式の証明

サンプル $X_1,\dots,X_n$ はそれぞれ独立に標準偏差が $\sigma$ の分布に従うので、標本平均の分散は
$\mathrm{Var}\left[\dfrac{X_1+\dots +X_n}{n}\right]\\
=\dfrac{1}{n^2}(\mathrm{Var}[X_1]+\dots +\mathrm{Var}[X_n])\\
=\dfrac{n\sigma^2}{n^2}\\
=\dfrac{\sigma^2}{n}$
となります。ルートを取ると、標本平均標準偏差$\dfrac{\sigma}{\sqrt{n}}$ であることが分かります。

標準誤差はいつ役立つか

標準誤差は、信頼区間を計算するのに使うことができます。

具体的には、(母集団が正規分布に従うとき)母平均の95%信頼区間は
標本平均 $\pm 1.96\times$ 標準誤差
で計算できます。

例えば、日本人の身長の例で、標本平均が $160\:\mathrm{cm}$、標準誤差 $\dfrac{\sigma}{\sqrt{n}}$ が $1\:\mathrm{cm}$ だったとしましょう。このとき95%信頼区間は、
$(160\pm 1.96)\:\mathrm{cm}$
となります(※)。

つまり、大雑把には、日本人全体の平均身長はおよそ $158\:\mathrm{cm}$ から $162\:\mathrm{cm}$ の間だろう と推定できます。

※95%信頼区間の正確な意味
「代表 $50$ 人を選んで信頼区間を計算する」ことを100回行うと、95回くらいは信頼区間が真の平均を含みます。この性質は、以下の2つの事実から導出できます。

1. 標本平均は、平均が「真の平均」で、標準偏差が $\dfrac{\sigma}{\sqrt{n}}$ の正規分布に従う。
2. 正規分布では「平均±1.96×標準偏差」の間に収まる確率が95%

標準誤差と信頼区間

95%信頼区間は
標本平均 $\pm 1.96\times$ 標準誤差
でしたが、確率を上げると信頼区間が広がります。

68.27%信頼区間:
標本平均 $\pm 1\times$ 標準誤差

90%信頼区間:
標本平均 $\pm 1.65\times$ 標準誤差

95.45%信頼区間:
標本平均 $\pm 2\times$ 標準誤差

99.73%信頼区間:
標本平均 $\pm 3\times$ 標準誤差

1σ、2σ、3σの意味と正規分布の場合の確率

補足

標準誤差は $\dfrac{\sigma}{\sqrt{n}}$ ですが、実際は母集団の標準偏差 $\sigma$ は分からないことが多いです。そのような場合には、サンプルの標準偏差(あるいは不偏標準偏差)を $\sigma$ の代わりに使って計算できます。

また、このページでは
標準誤差は、標本平均の標準偏差
と説明しましたが、より一般的に
標準誤差は、推定量の標準偏差
という意味で使われることもあります。

次回は 最小二乗法と最尤法の関係 を解説します。

スポンサーリンク

スポンサーリンク

ページ上部へ戻る