【統計検定準一級】第8章 統計的推定の基礎 #3【番外編】
【概要】
【目次】
はじめに
「統計学実践ワークブック(参考資料1)」の問題を解いていくシリーズをやっていく中で、8章「統計的推定の基礎」の内容をさっぱり理解していないことがわかったので、改めて整理しています。
参考にした資料は参考文献に列挙しています。中でも主に文献4を参考にしています。
心優しい方、間違いに気付いたら優しく教えてください。
8章の流れ
統計の目的の一つとして、「未知パラメータの推定」という問題があり、この章ではその中でも「点推定」について扱っています*1。「区間推定」については9章で扱われています。
- 情報の集約
- 推論を行うにあたって、生データを全て保存するのではなく、情報を集約できればうれしい(メモリ的に)
- → 「十分統計量」
- 推定法
- パラメータの点推定を行うためにはいくつか方法がある
- → モーメント法
- → 最尤推定
- 推定量の評価、推定量の性質
この流れに沿って、確認内容をまとめていこうと思います。
今回は、推定量を評価する基準として「不偏性」という性質を扱います。
推定量の性質
前回は、パラメトリックなモデルにおけるパラメータの推論方法として、「モーメント法」と「最尤法」を扱いました。
パラメータの推論方法は他にも事後確率最大化法(MAP推定)などの方法がありますが、それらの推定量の性質を評価して、どのような推定量が好ましいのかを議論していきます。
不偏性
推定量は、データによって結果が変わるので確率変数です。確率変数なので、なんらかのばらつきを持っています。
この推定量が有していて欲しい性質として、真のパラメータの周辺にばらついて欲しいということがあります*3。データから推定したいのは真のパラメータであり、全然別の所に推定量のピークが立っていても全然嬉しくないですからね。
さらに、推定量がを中心にしていても大きくばらついていたらうれしくないです。
ということで、推定量の期待値と分散を評価するのが、推定量の評価基準として第一に挙げられます。以下の手書きメモのように、の期待値がと一致する推定量を「不偏推定量(unbiased estimator)」と定義されています。
また、の期待値との差を「バイアス(bias)」と呼びます。
平均二乗誤差(MLE; Mean Squared Error)
ということで、バイアスと分散が小さくなる推定量だとうれしいです。
バイアスと分散を合わせて評価する指標として平均二乗誤差(MLE; Mean Squared Error)があります。平均二乗誤差自体はよく使われる指標ですけど、バイアスと分散を1:1で評価する指標という意味があったんですね。
不偏分散と標本分散(最尤推移定量)を比較する
分散の推定量として、不偏分散[tex:V2]と標本分散[tex:S2]があります。とくに、標本分散は前回取り上げた最尤推定の結果として得られているもので、よく使われます。一方不偏分散は、上記の不偏性で触れたようにバイアスが0の推定量です*4。
どっちが好ましい推定量でしょうか?というのを確認してみます。参考文献[4]に記載の例題なので、詳しくはそちらを。
ここでは、サンプルは正規分布に従って独立に得られているとします。
まず、Qという量を定義しています。これは、カイ二乗分布に従う性質があることがわかっています*5。
カイ二乗分布に従う確率変数の期待値と分散の性質*6から、バイアス、分散が計算でき、これらを合わせてMSEを求めることができます。
実際に不偏分散と標本分散について、バイアス、分散、MSEを比較した結果、標本分散は分散とMSEが小さくなることがわかりました。
この結果から、標本分散の方が望ましいといって良いかは微妙なところです。推定量は真のパラメータとずれたところにピークが出ている可能性があるということなので。
分散はどこまで小さくできる?>クラーメル・ラオの不等式
不偏推定量はバイアスが0なので、分散が小さいほど良い推定量です。
この分散がどこまで小さくできるのか?という疑問がわきますが、この分散の下限は計算することができるようです。この下限をクラーメル・ラオの下限と呼んでいるようです。
この下限ですが、フィッシャー情報量の逆数で定義されるとのことです。フィッシャー情報量は以下のメモに記載のように、対数尤度の勾配の期待値となっています。勾配が鋭いほど分散が小さいということですし、データが多くなる程推定量の分散は小さくなっていきます。
正規母集団を例にしてクラーメル・ラオの下限を計算してみる
(これも詳しくは参考文献[4]を参照してください)
分散1として、平均パラメータμが未知の正規母集団に従う確率変数Xを考えます。 実際の計算は参考文献[4]に記載のフィッシャー情報量の3つの性質を使って容易に導出することができます(命題の証明は追ってない。。。)。
有効推定量とは?
参考文献[1]に書かれていますが、クラーメル・ラオの不等式の下限となる不偏推定量のことを「有効推定量(efficient estimator)」と呼ぶらしいです。
分散が最小の不偏推定量(=バイアスが0)なので、この推定量が最も良い推定量ということになります。