系列データの統計モデリング　〜ハイパーパラメータの推定〜

【概要】

パーティクルフィルタを利用して系列データのモデリングと状態推定をやってみます
今回は、前回既知としていたモデルのハイパーパラメータを直接法を利用して推論してみます
直接法ってこういう理解であってるのかしら？？

【目次】

はじめに
モデルの学習
直説法による最適化の実装
おわりに
参考資料

はじめに

統計モデリングを行うにあたって、独立同分布(i.i.d; independent and identically distributed)を仮定することが多いと思います。

しかし、i.i.dを仮定できないケースはよくあります。時系列などの系列データが代表的です。また、i.i.dを仮定することが多い対象でも、計測対象や計測装置の経時的な変化（劣化）など本来的には系列を考慮しないといけない場面はあると思います。

系列データの解析について、主に「予測にいかす統計モデリングの基本」を参考に確認しましたので、数回に分けてまとめていこうと思います。なお、状態空間モデル(State Space Model)を使ったモデリングが対象です。私個人的には状態空間モデルでのモデリング経験はあるのですが、平滑化やパラメータ推論の理解が曖昧でしたので、このあたりの整理をメインに考えています。

第1回では、状態空間モデルを使って、時系列データの状態推定をパーティクルフィルタを利用して行ってみました。状態推定までは容易に行うことができましたが、その精度は事前に設定するパラメータに依存します。

そこで第2回では、パーティクルフィルタのハイパーパラメータを単純な方法（直接法）で推論してみます。

間違いや勘違いなど、なにかありましたら指摘いただけるとすごく助かります。

No.	リンク
第1回	系列データの統計モデリング〜パーティクルフィルタによる状態推定〜 - 機械と学習する
第2回	系列データの統計モデリング〜ハイパーパラメータの推定〜 - 機械と学習する
第3回	系列データの統計モデリング〜自己組織型状態空間モデルを利用した状態推定モデルのハイパーパラメータ推定〜 - 機械と学習する
第4回	系列データの統計モデリング〜カルマンフィルタの導出と実装〜 - 機械と学習する

【トップに戻る】

モデルの学習

モデルが既知の場面というのはそうそうありません。なので、データに基づいてモデルを学習させたいです。第1回で構築した状態空間モデルでも、観測モデルやシステムモデルに設定したガウス分布の分散は本来は未知のパラメータでした。

ここでは、どのように未知のパラメータを学習していくかを考えます。

学習

モデルには、情報が処理される「構造」と、具体的に情報の処理の仕方を決める「パラメータ」の大きく二つの要素があります。モデルの「構造」は、当ブログでいつも書いている「同時確率」で表現されます。モデルの「構造」は分析者が任意に決めるものです。

モデルの構造が決まっても、具体的な情報の処理のされ方は「パラメータ」に依存します。機械学習全般において「学習」とは、このモデルパラメータをデータに基づいて調整する行為と捉えられると思います。（モデルの複雑さや設計の違いで、この未知のパラメータが解釈可能なのか複雑で解釈することに意味がないかという違いはありますが）

パラメータを調整するにあたって、どのように調整するか？や、調整が良かったのか？を測るための指標が必要です。多くの場面では、パラメータを評価する指標として「尤度(Likelihood)」が用いられます。なお、実際に計算として出てくるのは尤度の対数をとった「対数尤度」が多いです。（「対数尤度」の符号反転を誤差関数と呼んだりもします）

最尤法（直接法）

尤度とは、データ $Y=\{y_1, y_2, \cdots, y_T \}$ をモデルに当てはめたときの当てはまりの良さを表します。基本的には、データYに対しての同時確率となります。

$\theta$ はパラメータです。データYは与えられるものなので、上記はパラメータ $\theta$ の関数になります。

同時確率が最大になる $\theta$ は、評価指標が最大ということで、これが求めたい $\theta$ ということになります。

尤度の最大化を考える際に、勾配法などを利用することが多いと思います。今回は、もっと簡単な「直接法」を試してみます。

直接法とは、その名の通り尤度を直接計算してより良いパラメータを探索します。まず、 $\theta$ を適当に離散化します。そして、離散化されたそれぞれの値で尤度を計算します。そして、計算された尤度が最も高くなるパラメータを $\hat{\theta}$ としようという方法です。（という理解で良いですよね？？）