【LTネタ】PyMCを使えばちょっと複雑な確率モデルも怖くない

【概要】

勉強会で話したLT資料を整理して置いておきます
線形回帰の混合モデルをPyMC3を使って推論するという話です(この記事がほぼ全て)
勉強会：確率的プログラミング言語を理解する会(8/8)

【目次】

はじめに
混合モデル
- 混合モデルのパラメータ推論
- PyMC3での実装
LT資料
おわりに
参考文献

はじめに

2020/08/08（土曜日）に開催の以下の勉強会でLTをしてきました。

ai-math.connpass.com

本会の趣旨は、

確率的プログラミング言語とは何かを理解する

ということで、私はPyMC3を利用して混合モデルのパラメータ推論をしてみたという話をしました。

私のLTは「PPLとは？」については全然触れずで、PPLを使った推論の実装例の紹介です。

【トップに戻る】

混合モデル

混合モデルについては、当ブログでも度々取り上げています。応用先が豊富で面白いので、個人的に好きなんです。混合モデル。

なので、混合モデルについての詳細は、当ブログの以下の記事などを参考にしてもらえたらと思います（正確に学びたいなら参考資料にある文献を当たるのが安心ですけどね）。ざっくり説明すると、複数の確率モデルを組み合わせたモデルで、潜在変数（クラスタを決めるIDみたいなもの）によって確率モデルをスイッチする構造をしたモデルです。組み合わせる確率モデルは種類が異なってもよく、非常に汎用性が高いと思っています。

ベイズ推論により混合分布のパラメータ推論をやってみる〜ガウス混合分布のパラメータ推論とクラスタリング〜 - 機械と学習する

これは基本的なガウス混合分布のパラメータ推論をして、応用例としてクラスタリングをしてみるという話です。

ベイズ推論により混合分布のパラメータ推論をやってみる〜線形回帰モデルの混合〜 - 機械と学習する

この記事が今回のLTの元ネタです。線形回帰モデルを組み合わせたモデル（混合線形回帰モデルと呼んでます）のパラメータ推論をしています。

自動微分変分推論でガウス混合モデルのパラメータ推論〜PyMC3を使った実装〜 - 機械と学習する

上記の二つの記事ではMCMCを使ってサンプリングでパラメータの推論をしていますが、こちらではADVI(自動微分変分推論)を使ってパラメータの推論をしています。

混合モデルのパラメータ推論

（添付の資料のp.11~13あたりの内容の解説です）

混合モデルのパラメータ推論を行うために、グラフィカルモデルと同時確率を考えます。

f:id:hippy-hikky:20200818211157p:plain — 混合モデルのグラフィカルモデル

同時確率は以下の通りです。

f:id:hippy-hikky:20200818211323p:plain

$x$ の生成分布 $p(x_n | s_n, \Theta)$ に適切な確率モデルを設定していきます。例えば正規分布を利用すれば、混合正規分布です。線形回帰モデルを生成分布に利用することもでき、今回はその例を示します。

確率モデルでは、共役関係にある確率分布を設定することで解析的に事後分布が計算できるケースがありますが、混合モデルの場合は周辺尤度 $p(X)$ の計算が困難なので、通常は何らかの近似計算を行います。今回はMCMC アルゴリズムを利用しています。

計算の効率化を進めるために、二つの工夫を導入しています。工夫といっても私が考案したわけではなく、モダンな手法では常識になっているらしいです（PyMC3のドキュメントより）。

正規分布の共分散行列をそのまま推論するのではなく、コレスキー分解して推論対象のパラメータを減らす
- 今回は、正規分布を基準にした線形回帰問題を扱っています。
- 共分散行列（精度行列）に対する共役関係にある分布としてウィシャート分布が知られていますが、モダンなアプローチでは使わないらしいです(参考)
クラスタIDを示す潜在変数を周辺化除去する
- 計算の安定性と高速化のため
- 推論対象のパラメータを減らせば計算効率が上がります。また、潜在変数は離散変数であり、離散変数のサンプリングが推論の不安定性を招くらしいです（実際は詳しくは理解できてないです。実験的には、高速化の効果はだいぶ大きかったです）