クラス分類:事前に正解が決まっている属性を適切に付与する問題(例:手書き文字認識)
クラスタリング:いくつかのかたまりにグループ分けする問題、絶対的な正解はない(例:顧客のグルーピング)
クラス分類とは
クラス分類とは「事前に正解が決まっている分類(属性)」を適切に付与する問題です。
~例(画像の分類)~
与えられるもの(訓練データ)
・りんごの画像複数枚(これはりんごの画像です、という正解情報も合わせて与えられる)
・みかんの画像複数枚(これはみかんの画像です、という正解情報も合わせて与えられる)
やりたいこと
・りんごまたはみかんの画像(りんごなのかみかんなのかは分からない)が与えられたときに、それがりんごなのかみかんなのかを正しく判別したい。
クラス分類のイメージは図のような感じです。青い点に対応する画像はなんとなくみかんっぽいですね。
クラスタリングとは
クラスタリングとはいくつかのかたまりにグループ分けする問題です。
~例(お客さんのグルーピング)~
与えられるもの
・お客さんの情報(例えば性別や年齢など)
やりたいこと
・お客さんたちを複数の集団に分割し「構造」や「傾向」を把握する。
クラスタリングのイメージは図のような感じです。
クラス分類とクラスタリングの比較
クラス分類とクラスタリングは一見似ていますが、全く違う問題です。
学習の種類
・クラス分類は教師あり学習です。与えられる訓練データに正解情報(「これはみかんの画像です」のようなラベル情報)も含まれているからです。
・クラスタリングは教師なし学習です。「正解情報」という概念は存在しないからです。
分類の個数
・クラス分類は、何グループに分類すればよいのかが、基本的には決まっています。例えば、みかんとりんごの分類問題は、グループ数が2なので2クラス分類と呼ばれます。グループ数が3以上の場合は多クラス分類と呼ばれます。
・クラスタリングの場合、クラスタ数は自分で決める必要があります。いろいろ試して「最もそれらしい構造」が得られるようなクラスタ数を採用します。
アルゴリズムの例
・クラス分類のアルゴリズムの例:サポートベクタマシン
・クラスタリングのアルゴリズムの例:K-Means、ウォード法
次回は VC次元の意味と例 を解説します。