はじめに
近年IoTが流行ってきており, センサーデータなどの時系列情報から知見を取り出すことは有益である。そこで、時系列情報の解析において、代表的な操作である、時系列クラスタリングのための手法を紹介する。
時系列クラスタリング手法の3つの分類
- 距離に基づくアプローチ
系列間の距離を定義し、特徴を作る。用いられる距離の例としては、ユークリッド距離、DTWなどが存在する。 そして、それに基づき教師なしクラスタリングであればk-NN、教師ありクラスタリングであればSVMなどを用いる。 
- 特徴抽出に基づくアプローチ
系列によって重要な特徴が既知である場合は、フィルターなどを用いて情報を取り出し特徴を作る。 その上で、距離に基づくアプローチ同様に、目的に合わせて解析を行う。 
- 深層学習 
end-to-endに深層学習を用いて学習させ、特徴の設計もある程度自動化させる。具体的には、1次元畳み込みを行う、CNNを用いる場合が多いかと思います。
 
の3つがアプローチとして考えられます。
それぞれの長短
それぞれの手法の長短を書いておきます。間違いなどあればご指摘ください。
| 手法名 | 
距離に基づくアプローチ | 
特徴抽出に基づくアプローチ | 
深層学習 | 
| 特徴への知識 | 
無くても可能 | 
必要 | 
無くても可能 | 
| 計算コスト | 
小 | 
中 | 
大 | 
| 学習データの量 | 
そこそこ必要 | 
少なくても可能 | 
100オーダー以上は少なくとも必要 | 
| 特徴設計コスト | 
距離の定義とモデルの設計のみ | 
モデルの設計に加え、データのドメイン知識が必要 | 
入出力定義、モデル選択とハイパーパラメータ選択 | 
| 実現可能な精度 | 
複雑なタスクでは出ない | 
State of the art 相当を出すことが可能 | 
State of the art 相当を出すことが可能 | 
 
まとめ
このような感じとなっており、ケースに合わせて手法を使い分けることが必要かと思います。
 
0 件のコメント :
コメントを投稿