機械と学習する

統計解析、機械学習について学習したことをまとめていきます

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#23

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズ
  • 第23回は10章「検定の基礎」から1問
    • この章も長くなりそう。。。

【目次】


はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。 統計検定を受けるかどうかは置いておいて。

今回は10章「検定の基礎」から1問。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

検出力

今回の問題では、検出力を導出せよとされています。そこでまず先に、検出力についてまとめていきます。

検出力についてはここまで参考にしていたテキストでどうしても理解ができず、参考文献2をあたりました。検定周りがどうにも理解ができていなかったのですが、この書籍はだいぶわかりやすかったので超絶おすすめです。

検定における2種類の誤り

統計的仮設検定では、限定的な形で帰無仮説H0を設定し、H0が棄却(H0は成り立たないと判断)できた場合に、対立仮設H1が支持できるだろうと考えます。(詳しくは何らかのテキストを見て)

この時、H0, H1が本当に成り立っているか、検定結果として棄却できるか否かの組み合わせで次の四通りあります。

  1. 本当はH0が成り立っているときに、検定結果としてH0が棄却できなかった(望んだ結果)
  2. 本当はH0が成り立っているときに、検定結果としてH0を棄却してしまった(間違い、この確率をαとする)
  3. 本当はH1が成り立っているときに、検定結果としてH0が棄却できなかった(間違い、この確率をβとする)
  4. 本当はH1が成り立っているときに、検定結果としてH0を棄却した(望んだ結果)

検定結果の誤りは上記2,3です。2は「第1種の過誤」、3は「第2種の過誤」と呼ばれています。この概念が重要です。

第1種の過誤はわかりやすくて、帰無仮説H0を設定した元で、手元にあるデータがH0を前提とした際に非常に小さい確率でしか発生しない(これを有意水準と呼び、だいたい5%とかにすると思います)となれば、H0が棄却されます。5%が「小さい確率」かどうかは分野によって違うと思いますが、5%の確率で誤判断してしまう可能性があるということになります。これが第1種の過誤です。

H0の元で確率α(有意水準)以下の確率か否かを判断するわけですが、H0とH1が共に近い仮説なら、本当はH1が成り立っているのにH0でも十分に起こり得るデータであり、H0を棄却できない状態というのはありえます。(なので、H0が棄却できないからといってH0が支持されているとは限らないということ)

f:id:hippy-hikky:20210602173310p:plain

「検出力」というのは、第2種の過誤を起こす確率βがどれだけ小さいかを示し、「第2種の過誤が発生しない確率(1-\beta)」として定義されています。

検出力の導出

仮説として、以下のH0, H1を考えます。

手元に標本サイズNの標本があるとします。この標本の平均を標準化したものをuとして、帰無仮説[tec:H_0]の下でのuu_0とします。

f:id:hippy-hikky:20210602180827p:plain

仮説検定では、このu_0有意水準\alpha以下の確率で生じるのかを算出します。

f:id:hippy-hikky:20210602181110p:plain

検出力1-\betaは、H_1の下で、H_0を棄却する確率となります。

f:id:hippy-hikky:20210602181600p:plain

検出力1-\betaの導出結果をさらに変形させていくと、サンプルサイズ、エフェクトサイズ(上記メモの\Delta)、標準正規分布における棄却点z_{\cdot}で構成される式が導出できます。

f:id:hippy-hikky:20210602181924p:plain

ということで、この式を利用して、サンプルサイズの設計や検出力の導出を行います。

【トップに戻る】

問10.1

問題

ある政党支持率の調査の結果、先月の支持率は0.45だった。

今月の支持率は0.5になってるんじゃないかという主張がされている。

(1) 帰無仮説としてH_0: p=p_0=0.45、対立仮説としてH_1:p=p_1=0.5としたときの検出力はいくらか?

今回の問題では、検定の仕様として次の設定がされています。

  • 検定の種類: 両側検定(対立仮設の種類としてp≠p0が設定されているとみられる)
  • 有意水準: 5%
  • サンプルサイズ: 600

データは、政党を支持するかしないかということで、ベルヌーイ分布となります。この平均が支持率となるわけなので、中心極限定理から検定統計量zは以下のメモの通り標準正規分布に従うことがわかります。

f:id:hippy-hikky:20210602191350p:plain

検出力は上記で導出したとおり当てはめていきます。

f:id:hippy-hikky:20210602191444p:plain

(2) 検出力を80%以上にするために必要なサンプルサイズを求めよ

検出力を設定したうえでのサンプルサイズについては、上記の式をサンプルサイズnについて展開することで導出できます。

f:id:hippy-hikky:20210602191607p:plain

【トップに戻る】

参考資料

【トップに戻る】