フィッシャーの直接確率法(フィッシャーの正確確率検定)について。
やりたいこと
フィッシャーの直接確率法は、2×2分割表において、2つの指標が独立かどうかを検定したい場合に使えます。
(3群以上の場合にも一般化が考えられます)
甘い物が好き | 辛い物が好き | 合計 | |
男性 | 2 | 6 | 8 |
女性 | 5 | 5 | 10 |
合計 | 7 | 11 | 18 |
例えば、上記の表(18人分のデータ)が与えられたとき、
男性なのか女性なのかと
甘い物の方が好きなのか辛い物の方が好きなのか
という2つの指標が、独立なのかどうかを検定したいとしましょう。
帰無仮説は「性別と甘い辛いの好みは独立」
対立仮説は「男性の方が辛い物が好きな傾向がある」
とします(片側検定を考えます)。
検定の方針
まず、検定の方針を大雑把に説明します。
与えられた分割表と合計値が等しい以下のようなタイプの分割表の中で、実際の値($a=2$ の場合)が帰無仮説のもとで、どれくらい珍しいかを考えます。
甘い物が好き | 辛い物が好き | 合計 | |
男性 | $a$ | $8-a$ | 8 |
女性 | $7-a$ | $3+a$ | 10 |
合計 | 7 | 11 | 18 |
もし珍しいなら「2つの指標は独立ではないだろう」と考え「男性の方が辛い物が好きな傾向がある」を採択します。
計算方法
帰無仮説「性別と甘い辛いの好みは独立」に基づき、
「8人の男性と10人の女性、合わせて18人から、7人の甘い物好きがランダムに選ばれる」
という状況を想定します。
このとき「男性が2人選ばれて女性が5人選ばれる」ような確率は、
$p_{2,5}=\dfrac{{}_8\mathrm{C}_2\times {}_{10}\mathrm{C}_5}{{}_{18}\mathrm{C}_7}$
となります。($a=2$ の場合に対応)
また「男性が1人選ばれて女性が6人選ばれる」ような確率は、
$p_{1,6}=\dfrac{{}_8\mathrm{C}_1\times {}_{10}\mathrm{C}_6}{{}_{18}\mathrm{C}_7}$
となります。($a=1$ の場合に対応)
同様に「男性が0人選ばれて女性が7人選ばれる」ような確率は、
$p_{0,7}=\dfrac{{}_8\mathrm{C}_0\times {}_{10}\mathrm{C}_7}{{}_{18}\mathrm{C}_7}$
となります。($a=0$ の場合に対応)
・$p=p_{2,5}+p_{1,6}+p_{0,7}$
が有意水準より小さい時、帰無仮説のもとで $a\leq 2$ となる確率は十分小さいわけです。そのような珍しいことが起こっているので、これは偶然ではなく、男性の方が辛いものが好きだからだと予想できます。そのため、帰無仮説を棄却します。
・一方、$p$ が有意水準より大きいとき、帰無仮説のもとで $a\leq 2$ となる確率はそれなりに高いわけです。そのため、$a=2$ となったのは偶然かもしれず、男性の方が辛いものが好きとは言い切れない、とみなし、帰無仮説は棄却しません。
補足
・$p$ はいわゆるP値です。$p$ が小さいほど、帰無仮説が棄却されやすくなります。
・一般に、合計値 $A,B,C,D,N$ が与えられた分割表について、上記と同様の計算をすると、
$p_{a,c}=\dfrac{{}_A\mathrm{C}_a\times {}_{B}\mathrm{C}_c}{{}_{N}\mathrm{C}_C}=\dfrac{A!B!C!D!}{N!a!b!c!d!}$
となります。
甘い物が好き | 辛い物が好き | 合計 | |
男性 | $a$ | $b$ | $A$ |
女性 | $c$ | $d$ | $B$ |
合計 | $C$ | $D$ | $N$ |
ただし、$p_{a,c}$ は、全体の中からランダムに $C$ 人選ぶときに、男性が $a$ 人選ばれて、女性が $C-a=c$ 人選ばれる確率です。
次回は バイトの単位(KB、MB、GB、TB)の意味と換算 を解説します。