様々な確率分布 - 機械と学習する

確率分布をパーツとして、解析したい問題（現象）をモデリングしていきます。明示的に確率分布を組み合わせて構成したモデルを特に、「確率モデル」と呼ぶことが多い気がします（ここは言葉の理解が怪しいです）。「機械学習」の文脈でよく使われる、線形回帰やニューラルネットワークも確率モデルとして扱うことができます。

では実際に、確率分布とはどのようなものがあるのかを図で確認してみます。

上記のnotebookには以下の8種類の分布を可視化するためのコードが書かれています。馴染みのある分布から聞いたことがない分布もあると思いますが、特にベイズ推論の中ではこれらの分布は頻出します。

１次元ガウス分布
多次元ガウス分布
二項分布（ベルヌーイ分布）
多項分布（カテゴリ分布）
ポアソン分布
ベータ分布
ディリクレ分布
ガンマ分布

１次元ガウス分布(正規分布)

ガウス分布は正規分布とも呼ばれます。この分布は最も有名であり、また、最も良く使われる連続量の確率分布です。

ガウス分布は多くのノイズ（ばらつき）のモデルに利用されています。また、学力の程度を示す指標の一つである「偏差値」も試験の点数がガウス分布に従うと仮定して算出されています*1。さらに、ガウス分布でモデリングしているとは気付かずに使っている場合も多いです*2。

ガウス分布は以下の確率密度関数で表されます。

${ \displaystyle \mathcal{N}\left(x | \mu, \sigma^{2}\right) = \frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left\{-\frac{(x-\mu)^{2}}{2 \sigma^{2}} \right\} }$

ここで、 $\mu \in \mathbb{R}$ は1次元の実数値で、分布の中心を表します。 $\sigma^{2} \in \mathbb{R}$ は分散と呼ばれ、分布の広がりを定義します。

可視化してみると、以下のような形をしています。密度関数の式からも明らかに、平均 $\mu$ から左右に指数的に減少することがわかります。

f:id:hippy-hikky:20191022001640p:plain — ガウス分布の可視化．左は[tex: \mu=0, \sigma²=1]のガウス分布から10,000点のサンプルを取得して描いたヒストグラム．右は、[tex: \mu=0, \sigma²=[0.5, 1.0, 2.0]]の確率密度関数．

上記の図を描きだすためのコードは、notebookのセル番号[2]にあります。また、ガウス分布は、一様乱数から生成することができます(Box-Mullar法)。 Box-Mullar法によって一様乱数から生成するためのコードをセル番号[3]に記載しています。

多次元ガウス分布

上記のガウス分布を多変量に拡張した分布です。多変量なので、D次元の実数ベクトル（ $x \in \mathbb{R}^D$ ）を生成する確率分布です。

定義式は以下の通りです。

${ \displaystyle \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) = \frac{1}{\sqrt{(2 \pi)^{D}|\mathbf{\Sigma}|}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\top} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}) \right\} }$

ここで、 $\boldsymbol{\mu} \in \mathbb{R}^{D}$ はD次元の平均ベクトルで、多変量の各軸の中心を表します。 $\mathbf{\Sigma} \in \mathbb{R}^{D\times D}$ は共分散行列で、各変量間の関係性を表現しています。

二次元のガウス分布を可視化してみます。

f:id:hippy-hikky:20191023005259p:plain — 2変量ガウス分布の可視化．図の右と上にそれぞれの軸で周辺化した分布（1次元ガウス分布）を合わせて示す．

上記の図を描きだすためのコードは、notebookのセル番号[4]にあります。セル番号[4]は、scipyを使って2次元ガウス分布からの乱数を生成していますが、独立な正規分布に従う乱数を利用して変数変換することでライブラリを利用せずに多変量ガウス分布に従う乱数を生成することができます(参考:ガウス過程と機械学習)。実際に独立なガウス分布から生成した乱数を使って2次元ガウス分布に従う乱数を生成したコードはセル番号[5]に記載しています。

二項分布（ベルヌーイ分布）

コイントスのように、状態が二つ（表、裏）だけで、各試行が独立でその確率は一定であるような試行はベルヌーイ試行と呼ばれています。ベルヌーイ試行をN回行って、一つの状態が生じた回数x（コイントスの場合は表が出た回数など）が従う確率分布を二項分布と呼びます。

${ \displaystyle \operatorname{Bern}(x | \theta)=\theta^{x}(1-\theta)^{1-x} }$

ここで $\theta$ は、一方の状態が生じる確率です（他方の確率は $(1-\theta)$ となります）。なお、N=1の場合を特別に「ベルヌーイ分布」と呼びます。

二項分布のNと $\theta$ を変えて可視化してみます。

f:id:hippy-hikky:20191023011049p:plain — 二項分布の可視化．左右は確率θを変えた場合の分布．各グラフにはN=[10,50,100]の3パターンの分布を示す．

上記の図を描きだすためのコードは、notebookのセル番号[6]です。

多項分布（カテゴリ分布）

二項分布は状態が二つだけの分布でした。例えば、サイコロの出る目や、多クラス分類問題を扱いたい場合には、多次元の分布を考える必要があります。そこで、二項分布を多次元に拡張した分布として多項分布があります。

${ \displaystyle \operatorname{Mult}(\mathbf{x} | M, \pi) = M! \prod_{k=1}^{K} \frac{ \pi^{x_k} }{ x_k!} }$

ここで、 $\pi$ はK種類の状態それぞれの取りうる確率( $\pi = \{\pi_1, \pi_2, \cdots, \pi_K\}$ )を表します。 Mは全体の試行回数です。

確率 $\pi$ を変えてK=3の場合の多項分布を可視化してみます。

f:id:hippy-hikky:20191023012854p:plain — 多項分布の可視化．右はpi={0.4, 0.3, 0.3}，左はpi={0.15, 0.7, 0.15}の多項分布．

上記の図を描きだすためのコードは、notebookのセル番号[7]です。

上記の図はK=3（3次元）の確率変数ですが、xの総和はMと等しくなるので、二つの状態が確定すれば3つ目の状態も確定します。そのため、二次元のヒートマップで確率分布を表すことができます。また、確率の総和は1であるため、上三角の領域のみに値が存在します。

ポアソン分布

二項分布はN回の試行の中で事象が発生する回数xについての確率分布でした。世の中には明確に試行回数が決められないものも多くあります。例えば、交通事故の発生件数など*3。このように何らかの事象の発生回数xについての確率分布としてポアソン分布というものがあります。

二項分布について、発生確率が極度に小さく試行回数無限大の極限でポアソン分布が導出できます（だからといって試行回数が極端に多い現象にしか使えないという訳ではないですよ）(参考：データ解析のための統計モデリング入門)。

${ \displaystyle \rm{Poi}(x|\lambda) = \frac{\lambda^{y}\exp(-\lambda)}{x!} }$

ここで、 $\lambda$ は事象の平均発生回数を表すパラメータです。

パラメータ $\lambda$ を変えてみた場合のポアソン分布を可視化してみます。

f:id:hippy-hikky:20191023140245p:plain — ポアソン分布の可視化．lambda=[0.5, 5.0, 10.0]の場合のそれぞれの確率密度関数．横軸は発生回数．

上記の図を描きだすためのコードは、notebookのセル番号[8]です。

ベータ分布

ここまで、ガウス分布、離散確率分布といった比較的馴染み深い確率分布を紹介してきました。次に、ベータ分布という分布を紹介します。この分布は、0から1の範囲の実数 $\theta$ を生成するための確率分布です。

${ \displaystyle p(\theta | a, b) = {\rm Beta}(\theta | a, b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\theta^{a-1}(1-\theta)^{b-1} }$

ここで、a,bはそれぞれハイパーパラメータです。 $\Gamma(\cdot)$ はガンマ関数と呼ばれる関数です（ここでは扱いません）。

ベータ分布は、一般には馴染みが薄い分布だと思います。しかし、ベイズ推論の分野では以下の3つの理由から非常によく現れます。

0から1の範囲の変数を生成するという性質のため、「確率」をモデリングするには絶好の分布
ベータ分布はaとbという二つのパラメータを持ちます。この二つのパラメータを調整することで様々な形状の分布を生成することができます。
上式の正規化項を除いた部分に注目すると、この部分は二項分布と似ています。ベータ分布は二項分布（ベルヌーイ分布）の「共役事前分布」と呼ばれており、二項分布と掛け合わせることでベータ分布が生成されるという特別な関係があります。

特に3つ目の理由が重要で、この関係を利用することで推論計算を解析的に解くことができます。

パラメータ $a, b$ を変えてみた場合のベータ分布を可視化してみます。

f:id:hippy-hikky:20191023141646p:plain — ベータ分布の可視化．ハイパーパラメータa, bをそれぞれ3種類ずつ与えた場合の分布形状．

a,bのパラメータを調整することで、様々な形状になることがわかります。上記の図を描きだすためのコードは、notebookのセル番号[9]です。

ディリクレ分布

二項分布を一般化したものが多項分布でしたが、ベータ分布を多次元に拡張した分布がディリクレ分布です。ベータ分布の拡張ということからもわかるように、ディリクレ分布は多項分布の共役事前分布となります。

f:id:hippy-hikky:20191023144259p:plain:h50

ディリクレ分布は、K次元のベクトル $\mathbf{\pi} = (\pi_{1}, \cdots, \pi_{K})^{T}$ を出力します。それぞれの要素 $\pi_k$ は、 $\sum^{K}_{k=1}\pi_{k} = 1.0$ 、かつ、 $\pi_k \in (0,1)$ となります。