機械と学習する

統計解析、機械学習について学習したことをまとめていきます

【統計検定準一級】第8章 統計的推定の基礎 #3【番外編】

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズの番外編
  • 8章「統計的推定の基礎」の内容をまとめます
  • 今回は推定量を評価する基準として「不偏性」という性質を扱います

【目次】


はじめに

統計学実践ワークブック(参考資料1)」の問題を解いていくシリーズをやっていく中で、8章「統計的推定の基礎」の内容をさっぱり理解していないことがわかったので、改めて整理しています。

参考にした資料は参考文献に列挙しています。中でも主に文献4を参考にしています。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

8章の流れ

統計の目的の一つとして、「未知パラメータの推定」という問題があり、この章ではその中でも「点推定」について扱っています*1。「区間推定」については9章で扱われています。

  • 情報の集約
    • 推論を行うにあたって、生データを全て保存するのではなく、情報を集約できればうれしい(メモリ的に)
    • 「十分統計量」
  • 推定法
    • パラメータの点推定を行うためにはいくつか方法がある
    • モーメント法
    • 最尤推定
  • 定量の評価、推定量の性質
    • 推定法は複数の方法がある。推定量は、真のパラメータ\theta *2の周辺に集中して欲しい。そこでその期待を満たすかをいくつかの指標で評価する。
    • 不偏性
      • 定量に偏り(バイアス)がない推定量が望ましい
      • クラメール・ラオの不等式 : 不偏推定量の分散の下限を評価
      • 有効推定量 : クラメール・ラオの不等式を満たす不偏推定量
    • 漸近的性質
      • 標本サイズを大きくしたと仮定した場合の漸近的な評価基準についての議論
      • 一致性 : 推定量が真のパラメータ\thetaに確率収束すること
      • 漸近有効性 : 漸近的な分散が下限に達していること(クラメール・ラオの下限に対応)
      • → 一致性
      • → 漸近正規性

この流れに沿って、確認内容をまとめていこうと思います。

今回は、推定量を評価する基準として「不偏性」という性質を扱います。

【トップに戻る】

定量の性質

前回は、パラメトリックなモデルにおけるパラメータの推論方法として、「モーメント法」と「最尤法」を扱いました。

パラメータの推論方法は他にも事後確率最大化法(MAP推定)などの方法がありますが、それらの推定量の性質を評価して、どのような推定量が好ましいのかを議論していきます。

不偏性

定量\hat{\theta}は、データによって結果が変わるので確率変数です。確率変数なので、なんらかのばらつきを持っています。

この推定量\hat{\theta}が有していて欲しい性質として、真のパラメータ\thetaの周辺にばらついて欲しいということがあります*3。データから推定したいのは真のパラメータ\thetaであり、全然別の所に推定量のピークが立っていても全然嬉しくないですからね。

さらに、推定量\hat{\theta}\thetaを中心にしていても大きくばらついていたらうれしくないです。

ということで、推定量\hat{\theta}の期待値と分散を評価するのが、推定量の評価基準として第一に挙げられます。以下の手書きメモのように、\hat{\theta}の期待値が\thetaと一致する推定量を「不偏推定量(unbiased estimator)」と定義されています。

また、\hat{\theta}の期待値とthetaの差を「バイアス(bias)」と呼びます。

f:id:hippy-hikky:20210513220549p:plain

平均二乗誤差(MLE; Mean Squared Error)

ということで、バイアスと分散が小さくなる推定量だとうれしいです。

バイアスと分散を合わせて評価する指標として平均二乗誤差(MLE; Mean Squared Error)があります。平均二乗誤差自体はよく使われる指標ですけど、バイアスと分散を1:1で評価する指標という意味があったんですね。

f:id:hippy-hikky:20210513221135p:plain

不偏分散と標本分散(最尤推移定量)を比較する

分散の推定量として、不偏分散[tex:V2]と標本分散[tex:S2]があります。とくに、標本分散は前回取り上げた最尤推定の結果として得られているもので、よく使われます。一方不偏分散は、上記の不偏性で触れたようにバイアスが0の推定量です*4

どっちが好ましい推定量でしょうか?というのを確認してみます。参考文献[4]に記載の例題なので、詳しくはそちらを。

ここでは、サンプルは正規分布\mathcal{N}(\mu, \sigma^2)に従って独立に得られているとします。

まず、Qという量を定義しています。これは、カイ二乗分布に従う性質があることがわかっています*5

f:id:hippy-hikky:20210513221916p:plain

カイ二乗分布に従う確率変数の期待値と分散の性質*6から、バイアス、分散が計算でき、これらを合わせてMSEを求めることができます。

f:id:hippy-hikky:20210513222639p:plain

実際に不偏分散と標本分散について、バイアス、分散、MSEを比較した結果、標本分散は分散とMSEが小さくなることがわかりました。

f:id:hippy-hikky:20210513222710p:plain

この結果から、標本分散の方が望ましいといって良いかは微妙なところです。推定量は真のパラメータとずれたところにピークが出ている可能性があるということなので。

分散はどこまで小さくできる?>クラーメル・ラオの不等式

不偏推定量はバイアスが0なので、分散が小さいほど良い推定量です。

この分散がどこまで小さくできるのか?という疑問がわきますが、この分散の下限は計算することができるようです。この下限をクラーメル・ラオの下限と呼んでいるようです。

この下限ですが、フィッシャー情報量の逆数で定義されるとのことです。フィッシャー情報量は以下のメモに記載のように、対数尤度の勾配の期待値となっています。勾配が鋭いほど分散が小さいということですし、データが多くなる程推定量の分散は小さくなっていきます。

f:id:hippy-hikky:20210513223359p:plain

正規母集団を例にしてクラーメル・ラオの下限を計算してみる

(これも詳しくは参考文献[4]を参照してください)

分散1として、平均パラメータμが未知の正規母集団に従う確率変数Xを考えます。 実際の計算は参考文献[4]に記載のフィッシャー情報量の3つの性質を使って容易に導出することができます(命題の証明は追ってない。。。)。

f:id:hippy-hikky:20210513224222p:plain

有効推定量とは?

参考文献[1]に書かれていますが、クラーメル・ラオの不等式の下限となる不偏推定量のことを「有効推定量(efficient estimator)」と呼ぶらしいです。

分散が最小の不偏推定量(=バイアスが0)なので、この推定量が最も良い推定量ということになります。

【トップに戻る】

参考資料

【トップに戻る】

*1:ここではパラメトリックなモデルを扱っています。ノンパラメトリックな方法については本書に記載があるのかは未確認です。

*2:真のパラメータってなんだ?という議論についてはここでは立ち入らないです。テキストの内容についてなるべく素直に読み解いていきます。

*3:「真のパラメータ」についてはここでは深入りしません。

*4:逆に言うと、標本分散は真のパラメータとズレがあり、特にデータが少ない時に顕著になる。

*5:ここでは証明はおっていません。詳しくは参考文献[4]で。

*6:これも詳しくは参考文献[4]で。