ノンパラメトリック密度推定（ヒストグラム密度推定、カーネル密度推定）

【概要】

趣味のデータ分析で必要になったので、ノンパラメトリックな確率密度推定法について実装して確認した
実装したのは、ヒストグラム密度推定とカーネル密度推定

【目次】

はじめに
ノンパラメトリックな密度推定
- ヒストグラム密度推定(Histogram Density Estimation)
- カーネル密度推定(Kernel Density Estimation)
実装
おわりに
参考資料

はじめに

確率モデルを使って推論計算をしていると、解析的な計算が難しい（めんどくさい）場面が出てくると思います。

そこで、MCMCや逐次モンテカルロのようなサンプル集合で確率密度を表現してやろうという手法がよく用いられると思います。

サンプル集合で確率分布を表現することで、その確率分布の特徴（平均や最頻値など）を捉えることはできますが、そのままでは再サンプルができません（逐次計算ができない）。サンプル集合から密度関数を推定する必要がでてきます。

そこで今回は、このような既知の確率分布を仮定しないシーンで用いられる密度関数法であるヒストグラム密度推定(HDE; Histogram Density Estimation)とカーネル密度推定(KDE; Kernel Density Estimation)を実装して確認しました。

まぁHDEは実用的じゃないしKDEはScipyなどで実装があるので実用的にはスクラッチで実装なんて必要ないんですが、あくまで練習ということで。

【トップに戻る】

ノンパラメトリックな密度推定

確率密度を推定するためには、大きく分けてパラメトリックな密度推定とノンパラメトリックな密度推定の二つがあります（参考文献[1]）。

パラメトリックな密度推定とは、手持ちのデータを既知の確率密関数に当てはめることを差します。例えば、正規分布を仮定して平均と分散を推定するというのは代表的なパラメトリック密度推定の一つです。

一方、ノンパラメトリックな密度推定とは、既知の確率密度関数を仮定せず、手持ちのデータだけから確率密度を推定します。ヒストグラムを書くイメージです。

今回はノンパラメトリックな密度推定について確認して実装してみます。

ヒストグラム密度推定(Histogram Density Estimation)

最も単純な手法で、データのヒストグラムに基づきます。

手元にN個のデータ（ $X = (x_1, \cdots, x_N)$ ）あるとします。そして、確率密度を推定する区間をM区間に分割し、分割幅をそれぞれ $\Delta_i, \left(i=1,\cdots, M\right)$ とします。データ区間iに含まれるデータの個数を $n_i$ とします。なお、 $\Delta_i$ の幅は一定であることは前提にしていません。密度の低い領域は $\Delta_i$ を広くとるみたいなことは有効そうですよね。