時系列クラスタリング手法の分類とその長短

はじめに

近年IoTが流行ってきており, センサーデータなどの時系列情報から知見を取り出すことは有益である。そこで、時系列情報の解析において、代表的な操作である、時系列クラスタリングのための手法を紹介する。

時系列クラスタリング手法の3つの分類

  1. 距離に基づくアプローチ
    系列間の距離を定義し、特徴を作る。用いられる距離の例としては、ユークリッド距離、DTWなどが存在する。 そして、それに基づき教師なしクラスタリングであればk-NN、教師ありクラスタリングであればSVMなどを用いる。
  2. 特徴抽出に基づくアプローチ
    系列によって重要な特徴が既知である場合は、フィルターなどを用いて情報を取り出し特徴を作る。 その上で、距離に基づくアプローチ同様に、目的に合わせて解析を行う。
  3. 深層学習
    end-to-endに深層学習を用いて学習させ、特徴の設計もある程度自動化させる。具体的には、1次元畳み込みを行う、CNNを用いる場合が多いかと思います。
の3つがアプローチとして考えられます。

それぞれの長短

それぞれの手法の長短を書いておきます。間違いなどあればご指摘ください。
手法名 距離に基づくアプローチ 特徴抽出に基づくアプローチ 深層学習
特徴への知識 無くても可能 必要 無くても可能
計算コスト
学習データの量 そこそこ必要 少なくても可能 100オーダー以上は少なくとも必要
特徴設計コスト 距離の定義とモデルの設計のみ モデルの設計に加え、データのドメイン知識が必要 入出力定義、モデル選択とハイパーパラメータ選択
実現可能な精度 複雑なタスクでは出ない State of the art 相当を出すことが可能 State of the art 相当を出すことが可能

まとめ

このような感じとなっており、ケースに合わせて手法を使い分けることが必要かと思います。

0 件のコメント :

コメントを投稿