【統計検定準一級】第8章 統計的推定の基礎 #1【番外編】
【概要】
- 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズの番外編
- 8章「統計的推定の基礎」の内容をまとめます
- 今回は「十分統計量」について
【目次】
はじめに
「統計学実践ワークブック(参考資料1)」の問題を解いていくシリーズをやっていく中で、8章「統計的推定の基礎」の内容をさっぱり理解していないことがわかったので、改めて整理しています。
参考にした資料は参考文献に列挙しています。中でも主に文献4を参考にしています。
心優しい方、間違いに気付いたら優しく教えてください。
8章の流れ
統計の目的の一つとして、「未知パラメータの推定」という問題があり、この章ではその中でも「点推定」について扱っています*1。「区間推定」については9章で扱われています。
- 情報の集約
- 推論を行うにあたって、生データを全て保存するのではなく、情報を集約できればうれしい(メモリ的に)
- → 「十分統計量」
- 推定法
- パラメータの点推定を行うためにはいくつか方法がある
- → モーメント法
- → 最尤推定
- 推定量の評価、推定量の性質
この流れに沿って、確認内容をまとめていこうと思います。
今回は、情報の集約としての「十分統計量」について。
情報の集約:十分統計量(sufficient statistics)
上記の通り、生データを全て保持するのではなく、パラメータの推論に必要な情報を抽出して保存しておくことができればうれしいです。しかし、必要な情報が失われては意味がないです。
そこで、パラメータ推論に関する情報を失っていない統計量のことを「十分統計量」と呼んでいるとのことです。パラメータ推論にあたって、「十分統計量」だけを残すようにすれば生データの保持が必要ないということです。
確率変数X、未知のパラメータに対して統計量を T(X)=t としたとき、以下の関係が成り立つ T(X) が十分統計量です。
十分統計量を求めたい
どんな統計量が十分統計量たり得るかということについて、テキストにはi.i.dなデータについて順序統計量は十分統計量か?という例題があります。この例題については、i.i.dであることからデータの順番には意味がないはずです。だから十分統計量になります。
この例題は特殊で、一般にどのような統計量が十分統計量かを求めるために、因子分解定理(fatorization theorem)を使うそうです。
T(X)がXの十分統計量となる必要十分条件
と表せる T(x) 。
これの証明は、参考文献4、参考文献5に記載されていました。これらのテキストの証明を順に追って行ったメモをいかに貼り付けておきます。が、連続変数に対しての一般の証明については測度論を使う必要がありめっちゃ難しいということでした(調べてもない。。。)。
必要条件については分かりやすいのですが、十分条件についての最初の総和の形式に変形するところが理解できてないです。後ほど理解できたら補足しておきます。
十分統計量の導出例: ポアソン分布の場合
確率変数がポアソン分布に従って i.i.d でサンプルが得られているとします。ポアソン分布のパラメータを推定するための十分統計量を求める。
メモの通り、同時確率をに依存する項( )と依存しない項( )に分解しました。こののうち、Xの統計量として、が十分統計量となります。
を推論するにあたって、に依存しない部分は定数となり、最適化にあたっては無視ができるので、の項は推論に影響を与えないということになると思います。
十分統計量の導出例: 正規分布の場合
(証明はできてないですが)連続変数として正規分布のパラメータを推論するための十分統計量も求めてみます。 簡単のために、分散は1で既知とします。平均パラメータμを推論するための十分統計量を求めるということになります。
ということで、μを推論するために必要な十分統計量はであることがわかりました(総和だけでも良い?)。
ここで、上記メモの2行目から3行目の変換については、以下のようにしてとμを分けています。