• HOME
  • コラム
  • クラスター分析とは?
    やり方から活用例までわかりやすく解説

クラスター分析とは?
やり方から活用例までわかりやすく解説

   

クラスター分析とは、年齢や性別といった単なる属性によるグループではなく、データの中から似たもの同士を見つけ出しグループ化する手法のことです。本コラムでは、クラスター分析という言葉を知ったばかりの方にもご理解いただけるように、クラスター分析の基本からやり方、活用例までわかりやすく解説します。

1.クラスター分析の活用例

クラスター分析について詳しく解説する前に、まずはクラスター分析がビジネスでどのように応用されているのか活用例を見ていきましょう。

小売業やWebショップ、金融業などでは、自社の顧客にはどのようなタイプがあるのかを明確化する目的でクラスター分析を行っています。商品の買いまわり状況からクラスター(集団)を作成し分析することで、それぞれのクラスターに適した訴求ができるようになるのです。

製造業では、製造過程の条件によってクラスター分類を行い、クラスター別に不良品発生の要因を特定するのにクラスター分析を使用しています。 また、製品の利用シーンによりグループ化し分析することで、製品開発に活かしている事例などもあります。

2.クラスター分析とは

次にクラスター分析とは何か、クレジットカードの利用履歴のデータをもとに詳しく見ていきましょう。

クラスター分析とは、複数の変数(列)で値が近いレコードをグループにまとめる統計的な分析手法です。つまり、類似レコード(行)のグループ化を行います。 

例えば、Webショップでの顧客の買いまわりパターンについて類似レコードのグループ化をする場合を考えてみましょう。上表は分析対象データのイメージです。一番左側に「顧客ID」が記載され、顧客の買い物パターンを表すデータとなっています。変数は、美容家電からシューズ量販店までの5つ。各変数の値は「1」と「0」の2つのみで、店舗で買い物をしていれば「1」、買い物をしていなければ「0」の値が割り当てられています。

元々のデータはかなりの数がありますが、まずは表で見えている4人分のデータをどのようにグループ化するか、ちょっと考えてみてください。 おそらく 2グループに分けるなんていう人が多かったと思います。最初の2人と、後の2人ですかね。

最初の2人は、美容家電店とエステサロンで買っていて、ロハス系アパレル店では買っていないので、これらは似ています。ただ、キャンプ専門店、シューズ量販店では買ったり買っていなかったりと全く同じではありません。

後の2人は、ロハス系アパレルとキャンプ専門店で買っていて、美容家電店とエステサロンでは買っていません。そして、シューズ量販店では買ったり買わなかったり。 クラスターにおいては、全てが同じパターンである必要はなく、似ていればいいので、最初の2人と、後の2人がグルーピング、クラスター化されるということになります。

3.クラスター分析の種類

クラスター分析は、クラスターの作成方法により「階層型クラスター分析」と「非階層型クラスター分析」の2つに分類できます。それぞれにメリットとデメリットがあり、データ数や目的により使い分けます。各クラスター分析の概要を解説します。

階層型クラスター分析

階層型クラスター分析は、全データの中で最も類似度の高い2つのレコードを1つのクラスターにまとめ、次に残ったレコードの中で近いものをまとめといったことを繰り返し、最終的に1つのクラスターにまとめる手法です。 似ているもの同士をまとめる過程で、デンドログラム(樹形図)が書けるので、視覚的に把握しやすいのがメリットです。またデンドグラムを作成後に、クラスター数を決められるので、いくつのクラスター数にするか最初に判断が難しい場合でも進めやすい点も良さですね。

一方で、階層型クラスター分析は計算負荷が大きいのがデメリットです。階層型クラスター分析では、全てのレコード間の類似度が計算され、最も類似度の高い2つのレコードを最初に1つのクラスターに分類します。次に、残ったレコードに生成されたクラスターを含め、全ての間の類似度を計算。これを順次進めてクラスターの数を階層的に減らしていきます。 階層型クラスター分析は、以上のようなメリットとデメリットがあるため、クラスター数が決まっていない、データ数があまり多くない(数百行までの小さなテーブル)データの分析に向いています。

非階層型クラスター分析

非階層型クラスター分析は、事前にいくつのクラスター数にするか決めたうえで、その数のグループに分割する手法です。計算方法は後述しますが、計算負荷を低く抑えられるため、ビッグデータを扱いやすい点が最大のメリットでしょう。数百万行を超えるような場合も対応できます。 非階層型クラスター分析を行う際の距離測定法としてよく知られているのが「K-means法」です。K-means法では、最初に分析者がクラスターの数を指定します。次に、指定した数の適切と思われるシード点が推定されます。その後、各点をクラスターに割り当てる作業とクラスター中心を再計算する作業が交互に繰り返されます。

例えば、上の表のように、店舗ごとの購入金額データがある場合を考えてみましょう。美容家電店とエステサロンでの購入金額をそれぞれ横軸と縦軸にとって作成した散布図が以下になります。

XとYの2変数の散布図でイメージすると、赤、オレンジ、青、グレー、緑の丸で囲われたそれぞれのバツ印(□内の×で示す点)が中心です。

散布図のドットを各顧客と見立て、まず、特定の顧客を1人選びます。次に、分析者が指定したクラスターの数になるよう、別の顧客も選びます。例えば、5つクラスターを作りたい場合は、最初の一人も含め、5人の顧客のドットが散布図の中で選ばれます。ただし、それぞれの顧客間の距離が最大になるような点が選ばれ、各クラスターの中心となります。次に、各中心と一人一人の顧客との距離を測って、一番近いクラスターに各顧客を分類します。

このようにクラスターを1回作り終えると、新たな中心点(×で示す点)が算出されるので、中心点を更新した上で、一人一人との距離を改めて測り、今所属しているクラスターよりも他のクラスター中心のほうが近かったら、再分類されます。これを矛盾がなくなるまで、繰り返し計算します。

以上のように非階層型クラスター分析は、全サンプル間の類似度を計算する階層型分析よりも計算量が減ることから、ビッグデータを扱いやすいのがメリットです。一方で最初にクラスター数を決める必要があるのがデメリットでしょう。クラスター数には正解がないため、1回で終わらず、クラスター数を変えて何パターンか試しに計算してみて最終的に判断するといったケースもあります。

AITでは、初心者からプロフェッショナルまで幅広いユーザーに向けた統計解析ツール「IBM SPSS Modeler」を提供しています。SPSS Modelerを使った「クラスター分析」デモ動画もご用意しましたので、あわせてご確認ください。

4.クラスター分析結果の評価基準

クラスター分析に正解はありません。予測モデル(例:決定木分析)における評価基準のような正答率や精度がないのです。そこで分析者が基準をもって評価します。ここでは、一般的に用いられる3つの基準を紹介します。

各クラスターのサイズで評価

全てのクラスターが同程度のレコード数を持つ、または、一つのクラスターがほとんどのレコードを含むなど、あらかじめ立てておいた仮説に各クラスターのサイズが近いかどうかで評価します。仮説から離れていても、以下に紹介する基準で新たな発見と評価がされれば、良いクラスターができたと判断します。

クラスター差別化の程度

全てのクラスターがそれぞれ異なる特徴を持つかどうかの指標のひとつとして、シルエット指標があります。シルエット指標は1から-1までの値をとり、1に近ければ各クラスターの差別化の程度が大きく、-1に近ければ、その程度が低いと評価されます。 Webショップの例で考えると、同じクラスター内で買いまわり(1と0)のパターンがまったく一致するとシルエット指標は1となり、差別化の程度が大きく、買いまわりのパターンに矛盾する部分が多いとシルエット指標は-1に近づき、差別化の程度は小さいと評価されます。差別化の程度が大きいと、良いクラスターができたと判断します。

各クラスタープロファイルの妥当性

各クラスターのプロファイル(特徴)が経験と照らし合わせて大きな違和感がないかが、3つ目の判断基準となります。Webショップの例で考えると、全ての店舗について、どこで買って、どこで買っていないか、という特徴に違和感がないか(納得感があるか)で判断します。 例えば、美容家電店とエステサロンを利用しているクラスターは、美意識の高い顧客の顔が見え、美意識クラスターと名付けることまでできます。確かにそういった買いまわり顧客がいるな、と納得できれば、良いクラスターができたと判断します。

5.まとめ

今回は、「クラスター分析」の基礎について解説しました。「クラスター分析」は様々なビジネス課題のヒントを得ることが期待できる分析手法です。

企業活動における分析対象は、企業内に蓄積されたデータのみならず、Webサイト上など社外の公開データ、さらにはSNSなどの外部データも含め、非常に多岐にわたるものとなっています。このため、社内外に蓄積された各種のデータを基に、透過的、そして一貫した形で予測分析を実現できる仕組みやサービスが求められています。 AITでは、分析プロジェクトの検討段階から、データ準備の支援、モデル開発、ビジネス活用、また人材育成までをトータルにご支援。お客様ご自身が継続的なデータ分析活動を推進できる組織、体制作りのお手伝いをします。お気軽にご相談ください。