機械と学習する

統計解析、機械学習について学習したことをまとめていきます

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#22

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズ
  • 第21回は9章「区間推定」から1問

【目次】


はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。 統計検定を受けるかどうかは置いておいて。

今回は9章「区間推定」から1問。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問9.2

問題

(本当の調査結果は知らないですが)「最も好きなスポーツ選手」の調査結果に基づいて、区間推定をします。

調査の回答者は1,227人で、そのうち有効回答数は917人ということです。

(テキストに記載されている調査結果はここでは掲載しません)

(1) イチロー選手が最も好きな人の割合の95%信頼区間を求めよ

調査結果として、最も好きな選手の1位はイチロー選手ということでした。

選手名 得票数 割合
イチロー 240 0.262

前回行ったのと同様に、95%信頼区間を計算します。z-scoreの導出が気になる方は前回を参照してください。

f:id:hippy-hikky:20210527211212p:plain

(2) 1位のイチロー選手と2位の羽生結弦選手の割合の差の95%信頼区間を求めよ

2位までの調査結果は以下の通りということです。

選手名 得票数 割合
イチロー 240 0.262
羽生結弦 73 0.08

信頼区間を求めるためには、知りたい確率変数を標準正規分布に押し込めるように考えます。ここで知りたい確率変数は、(\hat{p}_1 - \hat{p}_2)なので、この確率変数の期待値と分散を導出します。

期待値は容易に導出できます。ベルヌーイ分布に従う確率変数の標本平均(最尤推定量)は一致推定量となることを利用しました。

f:id:hippy-hikky:20210527212522p:plain

分散は、\hat{p}_iが独立ではないため、共分散\mathrm{Cov}(\hat{p}_1, \hat{p}_2)成分を考慮する必要があります。共分散は以下のメモのように分解されます。

f:id:hippy-hikky:20210527212556p:plain

ここで、N1, N2の期待値は明らかですが、E[N_1 N_2]は自明ではありません(テキストではここが書かれてない!)。なので、導出してみます。

期待値なので、確率分布p(n_1 n_2)を考える必要があります。これは、多項分布においてN_i = n_iとなる確率なので、以下のメモ(上部)のように変形できます。

次に総和の中身は、総和に関係しない成分を取り出すと、多項定理を利用して単純な形に変形することができます。するとこの部分は1になるということがわかりました。

f:id:hippy-hikky:20210527213145p:plain

ということで、共分散成分がわかったので、分散を導出することができました。

f:id:hippy-hikky:20210527213752p:plain

期待値と分散が求まったので、標準正規分布を考えると以下のメモのように95%信頼区間を導出することができました。

f:id:hippy-hikky:20210527213911p:plain

【トップに戻る】

参考資料

【トップに戻る】