カイ二乗分布を用いた独立性の検定について。
やりたいこと
独立性の検定は、$m\times n$ 分割表が与えられたとき、2つの指標が独立かどうかを検定したい場合に使えます。
甘い物が好き | 辛い物が好き | 合計 | |
A型 | 39 | 31 | 70 |
O型 | 21 | 9 | 30 |
合計 | 60 | 40 | 100 |
例えば、上記の表(100人分のデータ)が与えられたとき、
血液型がA型なのかO型なのかと
甘い物の方が好きなのか辛い物の方が好きなのか
という2つの指標が、独立なのかどうかを検定したいとしましょう。
帰無仮説は「血液型と甘い辛いの好みは独立」
とします。
1.理論値の計算
分割表の合計値以外の各マスに対して「血液型と甘い辛いの好みは独立」という帰無仮説が正しい場合の理論値を計算します。
甘い物が好き | 辛い物が好き | 合計 | |
A型 | $r_{11}$ | $r_{12}$ | 70 |
O型 | $r_{21}$ | $r_{22}$ | 30 |
合計 | 60 | 40 | 100 |
例えば、理論値 $r_{11}$ は以下のように計算します。
A型の割合は $\dfrac{70}{100}$ なので、A型の甘い物好きは $60\times\dfrac{70}{100}=42$ 人いそうです。
同様に、他のマスの理論値も計算すると、以下のようになります。
甘い物が好き | 辛い物が好き | 合計 | |
A型 | $\dfrac{60\times 70}{100}=42$ | $\dfrac{40\times 70}{100}=28$ | 70 |
O型 | $\dfrac{60\times 30}{100}=18$ | $\dfrac{40\times 30}{100}=12$ | 30 |
合計 | 60 | 40 | 100 |
※「理論値」と言うより「期待値」と呼ぶ方が適切かもしれません。
2.ズレの計算
理論値 $r_{ij}$ と実際の値 $x_{ij}$ の「ズレ」を計算します。ただし、ここでは
$\dfrac{(x_{ij}-r_{ij})^2}{r_{ij}}$
という式で計算される値を「ズレ」と呼びます。
例えば、A型の甘い物好きの理論値は $r_{11}=42$、実際の人数は $x_{11}=39$ なので、ズレは、
$\dfrac{(39-42)^2}{42}\fallingdotseq 0.2143$
となります。
他のマスの「ズレ」も同様に計算すると、以下のようになります。
甘い物が好き | 辛い物が好き | 合計 | |
A型 | $0.2143$ | $0.3214$ | 70 |
O型 | $0.5$ | $0.75$ | 30 |
合計 | 60 | 40 | 100 |
3.統計量の計算、比較
各マスの「ズレ」の和を統計量 $T$ とします。この場合、
$T=0.2143+0.3214+0.5+0.75=1.7857$
となります。
また、使う分布は($2\times 2$ 分割表の場合は)自由度 $1$ のカイ二乗分布です。例えば、有意水準を5%とすると、対応する値は $3.84$ です。
今回計算したズレ $1.7857$ は、しきい値 $3.84$ より小さいので、帰無仮説は棄却しません。
一般に、計算した統計量 $T$ がしきい値より大きいなら、帰無仮説を棄却します。
ズレが大きい → 血液型と甘い辛いの好みは独立ではないと考えられる
一方、今回のように、$T$ がしきい値より小さいなら、帰無仮説は棄却しません。
ズレが大きくない → 独立かどうかは分からない
$m\times n$ 分割表の場合
以下のような、$m\times n$ 分割表に対しても同じ手法が使えます。
タイプ$b_1$ | $\cdots$ | タイプ$b_n$ | 合計 | |
タイプ$a_1$ | $x_{11}$ | $\cdots$ | $x_{1n}$ | $A_1$ |
$\vdots$ | $\vdots$ | $\ddots$ | $\vdots$ | $\vdots$ |
タイプ$a_m$ | $x_{m1}$ | $\cdots$ | $x_{mn}$ | $A_m$ |
合計 | $B_1$ | $\cdots$ | $B_n$ | $N$ |
・1.理論値の計算
での各マスの理論値は、$r_{ij}=\dfrac{A_iB_j}{N}$
となります。
・2.「ズレ」の計算
上記の具体例と全く同じ式で計算します。
・3.統計量の計算、比較
で使う分布は、自由度 $(m-1)\times (n-1)$ のカイ二乗分布です。
次回は フィッシャーの直接確率法の考え方と計算方法 を解説します。