はじめに
近年IoTが流行ってきており, センサーデータなどの時系列情報から知見を取り出すことは有益である。そこで、時系列情報の解析において、代表的な操作である、時系列クラスタリングのための手法を紹介する。
時系列クラスタリング手法の3つの分類
- 距離に基づくアプローチ
系列間の距離を定義し、特徴を作る。用いられる距離の例としては、ユークリッド距離、DTWなどが存在する。 そして、それに基づき教師なしクラスタリングであればk-NN、教師ありクラスタリングであればSVMなどを用いる。
- 特徴抽出に基づくアプローチ
系列によって重要な特徴が既知である場合は、フィルターなどを用いて情報を取り出し特徴を作る。 その上で、距離に基づくアプローチ同様に、目的に合わせて解析を行う。
- 深層学習
end-to-endに深層学習を用いて学習させ、特徴の設計もある程度自動化させる。具体的には、1次元畳み込みを行う、CNNを用いる場合が多いかと思います。
の3つがアプローチとして考えられます。
それぞれの長短
それぞれの手法の長短を書いておきます。間違いなどあればご指摘ください。
手法名 |
距離に基づくアプローチ |
特徴抽出に基づくアプローチ |
深層学習 |
特徴への知識 |
無くても可能 |
必要 |
無くても可能 |
計算コスト |
小 |
中 |
大 |
学習データの量 |
そこそこ必要 |
少なくても可能 |
100オーダー以上は少なくとも必要 |
特徴設計コスト |
距離の定義とモデルの設計のみ |
モデルの設計に加え、データのドメイン知識が必要 |
入出力定義、モデル選択とハイパーパラメータ選択 |
実現可能な精度 |
複雑なタスクでは出ない |
State of the art 相当を出すことが可能 |
State of the art 相当を出すことが可能 |
まとめ
このような感じとなっており、ケースに合わせて手法を使い分けることが必要かと思います。
0 件のコメント :
コメントを投稿