標準誤差の意味と役立つ理由

最終更新日 2019/03/31

標準誤差という統計学の用語について解説します。「標準偏差」と似ていて間違えやすいですが、意味は違います。

標準誤差とは

標準誤差とは、標本平均の標準偏差のことです。

標本平均の標準偏差とは？
例えば、日本人の身長の平均値を知りたい状況を考えます。日本人全員を調べるのは大変なので、$50$ 人選んでその平均身長 $X=\frac{X_1+\dots +X_{50}}{50}$ を計算してみます。この $X$ のことを標本平均と言います。

標本平均は、代表 $50$ 人の選び方によって異なります。つまり「代表 $50$ 人を選んで平均を計算する」ことを何回もやると、結果はばらつきます。このばらつき（標準偏差）が標準誤差です。

標準誤差の計算方法

標準誤差は、$\dfrac{\sigma}{\sqrt{n}}$ という式で計算することができます。

ただし、$n$ はサンプルサイズ（さきほどの例だと $n=50$）です。$\sigma$ は母集団（さきほどの例だと日本人全体）の標準偏差です。

サンプルサイズが大きいほうが、標準誤差が小さくなります。

計算式の証明

サンプル $X_1,\dots,X_n$ はそれぞれ独立に標準偏差が $\sigma$ の分布に従うので、標本平均の分散は
$\mathrm{Var}\left[\dfrac{X_1+\dots +X_n}{n}\right]\\
=\dfrac{1}{n^2}(\mathrm{Var}[X_1]+\dots +\mathrm{Var}[X_n])\\
=\dfrac{n\sigma^2}{n^2}\\
=\dfrac{\sigma^2}{n}$
となります。ルートを取ると、標本平均の標準偏差が $\dfrac{\sigma}{\sqrt{n}}$ であることが分かります。

標準誤差はいつ役立つか

標準誤差は、信頼区間を計算するのに使うことができます。

具体的には、（母集団が正規分布に従うとき）母平均の95％信頼区間は
標本平均 $\pm 1.96\times$ 標準誤差
で計算できます。

例えば、日本人の身長の例で、標本平均が $160\:\mathrm{cm}$、標準誤差 $\dfrac{\sigma}{\sqrt{n}}$ が $1\:\mathrm{cm}$ だったとしましょう。このとき95％信頼区間は、
$(160\pm 1.96)\:\mathrm{cm}$
となります（※）。

つまり、大雑把には、日本人全体の平均身長はおよそ $158\:\mathrm{cm}$ から $162\:\mathrm{cm}$ の間だろうと推定できます。

※95％信頼区間の正確な意味
「代表 $50$ 人を選んで信頼区間を計算する」ことを100回行うと、95回くらいは信頼区間が真の平均を含みます。この性質は、以下の２つの事実から導出できます。

1. 標本平均は、平均が「真の平均」で、標準偏差が $\dfrac{\sigma}{\sqrt{n}}$ の正規分布に従う。
2. 正規分布では「平均±1.96×標準偏差」の間に収まる確率が95％

標準誤差と信頼区間

95％信頼区間は
標本平均 $\pm 1.96\times$ 標準誤差
でしたが、確率を上げると信頼区間が広がります。

68.27％信頼区間：
標本平均 $\pm 1\times$ 標準誤差

90％信頼区間：
標本平均 $\pm 1.65\times$ 標準誤差

95.45％信頼区間：
標本平均 $\pm 2\times$ 標準誤差

99.73％信頼区間：
標本平均 $\pm 3\times$ 標準誤差

1σ、2σ、3σの意味と正規分布の場合の確率

補足

標準誤差は $\dfrac{\sigma}{\sqrt{n}}$ ですが、実際は母集団の標準偏差 $\sigma$ は分からないことが多いです。そのような場合には、サンプルの標準偏差（あるいは不偏標準偏差）を $\sigma$ の代わりに使って計算できます。

また、このページでは
標準誤差は、標本平均の標準偏差
と説明しましたが、より一般的に
標準誤差は、推定量の標準偏差
という意味で使われることもあります。

次回は最小二乗法と最尤法の関係を解説します。

標準誤差とは

標準誤差の計算方法

計算式の証明

標準誤差はいつ役立つか

標準誤差と信頼区間

補足

おすすめの問題集