クラス分類とクラスタリングの意味と違い

最終更新日 2018/09/05

クラス分類:事前に正解が決まっている属性を適切に付与する問題(例:手書き文字認識)
クラスタリング:いくつかのかたまりにグループ分けする問題、絶対的な正解はない(例:顧客のグルーピング)

クラス分類とは

クラス分類とは「事前に正解が決まっている分類(属性)」を適切に付与する問題です。

~例(画像の分類)~
与えられるもの(訓練データ)
・りんごの画像複数枚(これはりんごの画像です、という正解情報も合わせて与えられる)
・みかんの画像複数枚(これはみかんの画像です、という正解情報も合わせて与えられる)

やりたいこと
・りんごまたはみかんの画像(りんごなのかみかんなのかは分からない)が与えられたときに、それがりんごなのかみかんなのかを正しく判別したい。

クラス分類のイメージ

クラス分類のイメージは図のような感じです。青い点に対応する画像はなんとなくみかんっぽいですね。

クラスタリングとは

クラスタリングとはいくつかのかたまりにグループ分けする問題です。

~例(お客さんのグルーピング)~
与えられるもの
・お客さんの情報(例えば性別や年齢など)

やりたいこと
・お客さんたちを複数の集団に分割し「構造」や「傾向」を把握する。

クラスタリングのイメージ
クラスタリングのイメージは図のような感じです。

クラス分類とクラスタリングの比較

クラス分類とクラスタリングは一見似ていますが、全く違う問題です。

学習の種類
・クラス分類は教師あり学習です。与えられる訓練データに正解情報(「これはみかんの画像です」のようなラベル情報)も含まれているからです。
・クラスタリングは教師なし学習です。「正解情報」という概念は存在しないからです。

分類の個数
・クラス分類は、何グループに分類すればよいのかが、基本的には決まっています。例えば、みかんとりんごの分類問題は、グループ数が2なので2クラス分類と呼ばれます。グループ数が3以上の場合は多クラス分類と呼ばれます。
・クラスタリングの場合、クラスタ数は自分で決める必要があります。いろいろ試して「最もそれらしい構造」が得られるようなクラスタ数を採用します。

アルゴリズムの例
・クラス分類のアルゴリズムの例:サポートベクタマシン
・クラスタリングのアルゴリズムの例:K-Means、ウォード法

次回は VC次元の意味と例 を解説します。

ページ上部へ戻る