独立性の検定(カイ二乗検定)を3ステップで説明

最終更新日 2017/11/07

カイ二乗分布を用いた独立性の検定について。

やりたいこと

独立性の検定は、$m\times n$ 分割表が与えられたとき、2つの指標が独立かどうかを検定したい場合に使えます。

とりあえず $m=n=2$ の場合の具体例で説明します。
甘い物が好き 辛い物が好き 合計
A型 39 31 70
O型 21 30
合計 60 40 100

例えば、上記の表(100人分のデータ)が与えられたとき、
血液型がA型なのかO型なのか
甘い物の方が好きなのか辛い物の方が好きなのか
という2つの指標が、独立なのかどうかを検定したいとしましょう。

帰無仮説は「血液型甘い辛いの好みは独立」
とします。

1.理論値の計算

独立性の検定は3つの手順で構成されます。1つめは「理論値の計算」です。

分割表の合計値以外の各マスに対して「血液型甘い辛いの好みは独立」という帰無仮説が正しい場合の理論値を計算します。

甘い物が好き 辛い物が好き 合計
A型 $r_{11}$ $r_{12}$ 70
O型 $r_{21}$ $r_{22}$ 30
合計 60 40 100

例えば、理論値 $r_{11}$ は以下のように計算します。
A型の割合は $\dfrac{70}{100}$ なので、A型の甘い物好きは $60\times\dfrac{70}{100}=42$ 人いそうです。

同様に、他のマスの理論値も計算すると、以下のようになります。

甘い物が好き 辛い物が好き 合計
A型 $\dfrac{60\times 70}{100}=42$ $\dfrac{40\times 70}{100}=28$ 70
O型 $\dfrac{60\times 30}{100}=18$ $\dfrac{40\times 30}{100}=12$ 30
合計 60 40 100

※「理論値」と言うより「期待値」と呼ぶ方が適切かもしれません。

2.ズレの計算

理論値 $r_{ij}$ と実際の値 $x_{ij}$ の「ズレ」を計算します。ただし、ここでは
$\dfrac{(x_{ij}-r_{ij})^2}{r_{ij}}$
という式で計算される値を「ズレ」と呼びます。

例えば、A型の甘い物好きの理論値は $r_{11}=42$、実際の人数は $x_{11}=39$ なので、ズレは、
$\dfrac{(39-42)^2}{42}\fallingdotseq 0.2143$
となります。

他のマスの「ズレ」も同様に計算すると、以下のようになります。

甘い物が好き 辛い物が好き 合計
A型 $0.2143$ $0.3214$ 70
O型 $0.5$ $0.75$ 30
合計 60 40 100

3.統計量の計算、比較

各マスの「ズレ」の和を統計量 $T$ とします。この場合、
$T=0.2143+0.3214+0.5+0.75=1.7857$
となります。

また、使う分布は($2\times 2$ 分割表の場合は)自由度 $1$ のカイ二乗分布です。例えば、有意水準を5%とすると、対応する値は $3.84$ です。

今回計算したズレ $1.7857$ は、しきい値 $3.84$ より小さいので、帰無仮説は棄却しません。

一般に、計算した統計量 $T$ がしきい値より大きいなら、帰無仮説を棄却します。
ズレが大きい → 血液型と甘い辛いの好みは独立ではないと考えられる

一方、今回のように、$T$ がしきい値より小さいなら、帰無仮説は棄却しません。
ズレが大きくない → 独立かどうかは分からない

$m\times n$ 分割表の場合

以下のような、$m\times n$ 分割表に対しても同じ手法が使えます。

タイプ$b_1$ $\cdots$ タイプ$b_n$ 合計
タイプ$a_1$ $x_{11}$ $\cdots$ $x_{1n}$ $A_1$
$\vdots$ $\vdots$ $\ddots$ $\vdots$ $\vdots$
タイプ$a_m$ $x_{m1}$ $\cdots$ $x_{mn}$ $A_m$
合計 $B_1$ $\cdots$ $B_n$ $N$

・1.理論値の計算
での各マスの理論値は、$r_{ij}=\dfrac{A_iB_j}{N}$
となります。

・2.「ズレ」の計算
上記の具体例と全く同じ式で計算します。

・3.統計量の計算、比較
で使う分布は、自由度 $(m-1)\times (n-1)$ のカイ二乗分布です。

データ数が少ないとき(各マスの頻度が小さいとき)には、この手法はよろしくないらしい(詳しくは統計学の本をご参照ください)ので、フィッシャーの直接確率法などを使います。

次回は フィッシャーの直接確率法の考え方と計算方法 を解説します。

ページ上部へ戻る