機械と学習する

統計解析、機械学習について学習したことをまとめていきます

【統計検定準一級】第8章 統計的推定の基礎 #1【番外編】

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズの番外編
  • 8章「統計的推定の基礎」の内容をまとめます
  • 今回は「十分統計量」について

【目次】


はじめに

統計学実践ワークブック(参考資料1)」の問題を解いていくシリーズをやっていく中で、8章「統計的推定の基礎」の内容をさっぱり理解していないことがわかったので、改めて整理しています。

参考にした資料は参考文献に列挙しています。中でも主に文献4を参考にしています。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

8章の流れ

統計の目的の一つとして、「未知パラメータの推定」という問題があり、この章ではその中でも「点推定」について扱っています*1。「区間推定」については9章で扱われています。

  • 情報の集約
    • 推論を行うにあたって、生データを全て保存するのではなく、情報を集約できればうれしい(メモリ的に)
    • 「十分統計量」
  • 推定法
    • パラメータの点推定を行うためにはいくつか方法がある
    • モーメント法
    • 最尤推定
  • 定量の評価、推定量の性質
    • 推定法は複数の方法がある。推定量は、真のパラメータ\theta *2の周辺に集中して欲しい。そこでその期待を満たすかをいくつかの指標で評価する。
    • 不偏性
      • 定量に偏り(バイアス)がない推定量が望ましい
      • クラメール・ラオの不等式 : 不偏推定量の分散の下限を評価
      • 有効推定量 : クラメール・ラオの不等式を満たす不偏推定量
    • 漸近的性質
      • 標本サイズを大きくしたと仮定した場合の漸近的な評価基準についての議論
      • 一致性 : 推定量が真のパラメータ\thetaに確率収束すること
      • 漸近有効性 : 漸近的な分散が下限に達していること(クラメール・ラオの下限に対応)
      • → 一致性
      • → 漸近正規性

この流れに沿って、確認内容をまとめていこうと思います。

今回は、情報の集約としての「十分統計量」について。

【トップに戻る】

情報の集約:十分統計量(sufficient statistics)

上記の通り、生データを全て保持するのではなく、パラメータの推論に必要な情報を抽出して保存しておくことができればうれしいです。しかし、必要な情報が失われては意味がないです。

そこで、パラメータ推論に関する情報を失っていない統計量のことを「十分統計量」と呼んでいるとのことです。パラメータ推論にあたって、「十分統計量」だけを残すようにすれば生データの保持が必要ないということです。

確率変数X、未知のパラメータ\thetaに対して統計量を T(X)=t としたとき、以下の関係が成り立つ T(X) が十分統計量です。


\begin{align}
 P(X=x | T(X)=t, \theta) = P(X=x | T(X)=t)
\end{align}

十分統計量を求めたい

どんな統計量が十分統計量たり得るかということについて、テキストにはi.i.dなデータについて順序統計量は十分統計量か?という例題があります。この例題については、i.i.dであることからデータの順番には意味がないはずです。だから十分統計量になります。

この例題は特殊で、一般にどのような統計量が十分統計量かを求めるために、因子分解定理(fatorization theorem)を使うそうです。

T(X)がXの十分統計量となる必要十分条件


\begin{align}
 f( \mathbf{x} | \theta) = h( \mathbf{x}) g( T(x) | \theta )
\end{align}

と表せる T(x) 。

これの証明は、参考文献4参考文献5に記載されていました。これらのテキストの証明を順に追って行ったメモをいかに貼り付けておきます。が、連続変数に対しての一般の証明については測度論を使う必要がありめっちゃ難しいということでした(調べてもない。。。)。

f:id:hippy-hikky:20210511165541p:plain

必要条件については分かりやすいのですが、十分条件についての最初の総和の形式に変形するところが理解できてないです。後ほど理解できたら補足しておきます。

十分統計量の導出例: ポアソン分布の場合

確率変数X=\{ X_1, \cdots, X_n\}ポアソン分布\mathrm{Poi}(\lambda)に従って i.i.d でサンプルが得られているとします。ポアソン分布のパラメータ\lambdaを推定するための十分統計量を求める。

f:id:hippy-hikky:20210511165943p:plain

メモの通り、同時確率を\lambdaに依存する項( g(T(X)|\theta) )と依存しない項( h(X) )に分解しました。このg(T(X)|\theta)のうち、Xの統計量として、 \sum X_iが十分統計量となります。

\lambdaを推論するにあたって、\lambdaに依存しない部分は定数となり、最適化にあたっては無視ができるので、h(X)の項は推論に影響を与えないということになると思います。

十分統計量の導出例: 正規分布の場合

(証明はできてないですが)連続変数として正規分布のパラメータを推論するための十分統計量も求めてみます。 簡単のために、分散は1で既知とします。平均パラメータμを推論するための十分統計量を求めるということになります。

f:id:hippy-hikky:20210511170013p:plain

ということで、μを推論するために必要な十分統計量は \bar{X} = \frac{1}{n}\sum X_iであることがわかりました(総和 \sum X_iだけでも良い?)。

ここで、上記メモの2行目から3行目の変換については、以下のようにしてx_iとμを分けています。

f:id:hippy-hikky:20210511170025p:plain

【トップに戻る】

参考資料

【トップに戻る】

*1:ここではパラメトリックなモデルを扱っています。ノンパラメトリックな方法については本書に記載があるのかは未確認です。

*2:真のパラメータってなんだ?という議論についてはここでは立ち入らないです。テキストの内容についてなるべく素直に読み解いていきます。