マシューズ相関係数(Matthews Correlation Coefficient)

マシューズ相関係数(Matthews Correlation Coefficient、MCC)は、2値分離問題の評価指標であり、以下の式で定義されます:
$\dfrac{AD-BC}{\sqrt{(A+B)(C+D)(A+C)(B+D)}}$

MCCの計算方法

MCCを計算するためには、混同行列(クラス分類の結果)を書きます。

予測:陽性 予測:陰性 合計
実際:陽性 A(真陽性数) B(偽陰性数) A+B
実際:陰性 C(偽陽性数) D(真陰性数) C+D
合計 A+C B+D

MCCの分子の計算:
そして、A と D は正解のマスの数(それぞれ True Positive と True Negative)
B と C は不正解のマスの数(False Positive と False Negative)とします。これらの「たすきがけ」がMCCの分子です。

MCCの分母の計算:
各行、各列の足し算がそれぞれ $(A+B)$、$(C+D)$、$(A+C)$、$(B+D)$ となります。この4つの積のルートがMCCの分母です。

MCCの性質

MCCが大きいほど「良い分類ができている」とみなせます。

実際、MCCの分子は $AD-BC$ ですが、正解数である $A$ と $D$ が増えるほど MCC が大きくなり、不正解数である $B$ と $C$ が増えるほどMCCが小さくなります。

MCCの最大値は $1$、最小値は $-1$ になります。(証明は記事末尾に記載)

全て正解の場合、$B=C=0$ となり、MCCは $1$ となります。
全て不正解の場合、$A=D=0$ となり、MCCは $-1$ となります。

MCCと独立性の検定

$|\mathrm{MCC}|=\sqrt{\dfrac{\chi^2}{n}}$
という性質があります。

ただし、$n=A+B+C+D$ で、$\chi^2$ は、カイ二乗分布を用いた独立性の検定で使う統計量です。
参考:独立性の検定(カイ二乗検定)を3ステップで説明

したがって、真の分布と分類器による予測が「独立」の場合(つまり、分類がうまくいっていない場合)$\mathrm{MCC}\fallingdotseq 0$ になります。

逆に、真の分布と分類器による予測が「独立でない」場合、MCCの絶対値は大きな値になります。

上の式の証明は(独立性の検定における統計量の定義に従って)地道に計算すれば10分くらいでできるので、ぜひやってみてください。

MCCの最大値、最小値の証明

コーシー・シュワルツの不等式より、
$(A^2+B^2)(C^2+D^2)\geq (AD-BC)^2$
$(A^2+C^2)(B^2+D^2)\geq (AD-BC)^2$

また、$A,B,C,D$ は全て $0$ 以上なので、
$(A+B)^2\geq A^2+B^2$
$(C+D)^2\geq C^2+D^2$
$(A+C)^2\geq A^2+C^2$
$(B+D)^2\geq B^2+D^2$

これらを使うと、
$(AD-BC)^4\\
\leq (A+B)^2(C+D)^2(A+C)^2(B+D)^2$
が分かります。両辺の4乗根を取ると、
$|\mathrm{MCC}|\leq 1$
が分かります。

次回は MAP(Mean Average Precision)という指標の意味 を解説します。

スポンサーリンク

スポンサーリンク

誤植がございましたら @mathwordsnet までご連絡をお願いいたします。
ページ上部へ戻る