いろいろな予測誤差の指標について整理しました。
データの数 $n$
真の値:$y_1,\cdots,y_n$
予測した値:$f_1,\cdots,f_n$
とします。
RMSE(Root Mean Square Error)
・定義式は
$\mathrm{RMSE}=\displaystyle\sqrt{\dfrac{1}{n}\sum_{k=1}^n(f_i-y_i)^2}$
・標準偏差っぽい式です。
・平均平方二乗誤差、RMS Error、RMSD(Root Mean Square Deviation)などとも呼ばれることがあります。
例題:本当の値が $3,5,8$ であるような数値を、それぞれ $2,4,10$ と予測してしまった。このときの RMSE はいくらか。
RMSE は
$\sqrt{\dfrac{1}{3}\{(2-3)^2+(4-5)^2+(10-8)^2\}}\\
=\sqrt{2}$
となります。
MAE(Mean Absolute Error)
・定義式は
$\mathrm{MAE}=\dfrac{1}{n}\displaystyle\sum_{k=1}^n|f_i-y_i|$
・平均絶対誤差とも言います。
・RMSE と MAE は、ともによく使われる誤差の指標です。RMSE はルートの中身で二乗しているので、MAE よりも外れ値(大きなズレ)を、より大きな誤差として扱う傾向があります。
MSE(Mean Squared Error)
・定義式は
$\mathrm{MSE}=\dfrac{1}{n}\displaystyle\sum_{k=1}^n(f_i-y_i)^2$
・平均二乗誤差とも言います。
・分散っぽい式です。
相対誤差を使うもの
RMSPE(Root Mean Square Percentage Error、平均平方二乗誤差率)
$\mathrm{RMSPE}=\displaystyle\sqrt{\dfrac{100}{n}\sum_{k=1}^n\left(\dfrac{f_i-y_i}{y_i}\right)^2}$
($100$ はつけないこともあります)
MAPE(Mean Absolute Percentage Error、平均絶対誤差率):
$\mathrm{MAPE}=\dfrac{100}{n}\displaystyle\sum_{k=1}^n\left|\dfrac{f_i-y_i}{y_i}\right|$
($100$ はつけないこともあります)
相対誤差については相対誤差の計算方法と意義をご参照ください。
参考文献:MAE and RMSE — Which Metric is Better?
次回は 交差確認(交差検証、Cross-Validation)の簡単な説明 を解説します。