マシューズ相関係数(Matthews Correlation Coefficient、MCC)は、2値分離問題の評価指標であり、以下の式で定義されます:
$\dfrac{AD-BC}{\sqrt{(A+B)(C+D)(A+C)(B+D)}}$
MCCの計算方法
MCCを計算するためには、混同行列(クラス分類の結果)を書きます。
予測:陽性 | 予測:陰性 | 合計 | |
実際:陽性 | A(真陽性数) | B(偽陰性数) | A+B |
実際:陰性 | C(偽陽性数) | D(真陰性数) | C+D |
合計 | A+C | B+D |
MCCの分子の計算:
そして、A と D は正解のマスの数(それぞれ True Positive と True Negative)
B と C は不正解のマスの数(False Positive と False Negative)とします。これらの「たすきがけ」がMCCの分子です。
MCCの分母の計算:
各行、各列の足し算がそれぞれ $(A+B)$、$(C+D)$、$(A+C)$、$(B+D)$ となります。この4つの積のルートがMCCの分母です。
MCCの性質
実際、MCCの分子は $AD-BC$ ですが、正解数である $A$ と $D$ が増えるほど MCC が大きくなり、不正解数である $B$ と $C$ が増えるほどMCCが小さくなります。
全て正解の場合、$B=C=0$ となり、MCCは $1$ となります。
全て不正解の場合、$A=D=0$ となり、MCCは $-1$ となります。
MCCと独立性の検定
という性質があります。
ただし、$n=A+B+C+D$ で、$\chi^2$ は、カイ二乗分布を用いた独立性の検定で使う統計量です。
参考:独立性の検定(カイ二乗検定)を3ステップで説明
したがって、真の分布と分類器による予測が「独立」の場合(つまり、分類がうまくいっていない場合)$\mathrm{MCC}\fallingdotseq 0$ になります。
逆に、真の分布と分類器による予測が「独立でない」場合、MCCの絶対値は大きな値になります。
上の式の証明は(独立性の検定における統計量の定義に従って)地道に計算すれば10分くらいでできるので、ぜひやってみてください。
MCCの最大値、最小値の証明
コーシー・シュワルツの不等式より、
$(A^2+B^2)(C^2+D^2)\geq (AD-BC)^2$
$(A^2+C^2)(B^2+D^2)\geq (AD-BC)^2$
また、$A,B,C,D$ は全て $0$ 以上なので、
$(A+B)^2\geq A^2+B^2$
$(C+D)^2\geq C^2+D^2$
$(A+C)^2\geq A^2+C^2$
$(B+D)^2\geq B^2+D^2$
これらを使うと、
$(AD-BC)^4\\
\leq (A+B)^2(C+D)^2(A+C)^2(B+D)^2$
が分かります。両辺の4乗根を取ると、
$|\mathrm{MCC}|\leq 1$
が分かります。
次回は MAP(Mean Average Precision)という指標の意味 を解説します。