独立性の検定（カイ二乗検定）を３ステップで説明

具体例で学ぶ数学 > 推定、検定 > 独立性の検定（カイ二乗検定）を３ステップで説明

最終更新日 2017/11/07

カイ二乗分布を用いた独立性の検定について。

やりたいこと

独立性の検定は、$m\times n$ 分割表が与えられたとき、２つの指標が独立かどうかを検定したい場合に使えます。

とりあえず $m=n=2$ の場合の具体例で説明します。

例えば、上記の表（１００人分のデータ）が与えられたとき、
血液型がA型なのかO型なのかと
甘い物の方が好きなのか辛い物の方が好きなのか
という２つの指標が、独立なのかどうかを検定したいとしましょう。

帰無仮説は「血液型と甘い辛いの好みは独立」
とします。

独立性の検定は３つの手順で構成されます。１つめは「理論値の計算」です。

分割表の合計値以外の各マスに対して「血液型と甘い辛いの好みは独立」という帰無仮説が正しい場合の理論値を計算します。

例えば、理論値 $r_{11}$ は以下のように計算します。
A型の割合は $\dfrac{70}{100}$ なので、A型の甘い物好きは $60\times\dfrac{70}{100}=42$ 人いそうです。

同様に、他のマスの理論値も計算すると、以下のようになります。

※「理論値」と言うより「期待値」と呼ぶ方が適切かもしれません。

理論値 $r_{ij}$ と実際の値 $x_{ij}$ の「ズレ」を計算します。ただし、ここでは
$\dfrac{(x_{ij}-r_{ij})^2}{r_{ij}}$
という式で計算される値を「ズレ」と呼びます。

例えば、A型の甘い物好きの理論値は $r_{11}=42$、実際の人数は $x_{11}=39$ なので、ズレは、
$\dfrac{(39-42)^2}{42}\fallingdotseq 0.2143$
となります。

他のマスの「ズレ」も同様に計算すると、以下のようになります。

各マスの「ズレ」の和を統計量 $T$ とします。この場合、
$T=0.2143+0.3214+0.5+0.75=1.7857$
となります。

また、使う分布は（$2\times 2$ 分割表の場合は）自由度 $1$ のカイ二乗分布です。例えば、有意水準を５％とすると、対応する値は $3.84$ です。

今回計算したズレ $1.7857$ は、しきい値 $3.84$ より小さいので、帰無仮説は棄却しません。

一般に、計算した統計量 $T$ がしきい値より大きいなら、帰無仮説を棄却します。
ズレが大きい → 血液型と甘い辛いの好みは独立ではないと考えられる

一方、今回のように、$T$ がしきい値より小さいなら、帰無仮説は棄却しません。
ズレが大きくない → 独立かどうかは分からない

以下のような、$m\times n$ 分割表に対しても同じ手法が使えます。

・１．理論値の計算
での各マスの理論値は、$r_{ij}=\dfrac{A_iB_j}{N}$
となります。

・２．「ズレ」の計算
上記の具体例と全く同じ式で計算します。

・３．統計量の計算、比較
で使う分布は、自由度 $(m-1)\times (n-1)$ のカイ二乗分布です。

データ数が少ないとき（各マスの頻度が小さいとき）には、この手法はよろしくないらしい（詳しくは統計学の本をご参照ください）ので、フィッシャーの直接確率法などを使います。