機械と学習する

統計解析、機械学習について学習したことをまとめていきます

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#2

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズ
  • 第2回は1章「事象と確率」の3問目(1章の最後)

【目次】


はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。 統計検定を受けるかどうかは置いておいて。

今回は1章の「事象と確率」の例題の残った1問。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問1.3

これは最近(?)ホットな偽陽性についての問題ですね。

問題設定

100人に一人の割合である病気にかかっているとします。

検査1では真に病気の人を99.0%で陽性と示しますが、病気ではない場合でも2%の確率で陽性になります。

検査2は、検査1で陽性の人に対して行われる検査で真に病気の人は90%で陽性になりますが、病気ではなくても10%で陽性を示します。

(どちらも実際上はだいぶガバガバなんではw)

f:id:hippy-hikky:20210424223640p:plain

(1) Aさんが検査1で陽性反応が出た場合に本当に病気の確率

これはベイズ統計で必ずと言っても良いほど出される問題です。

検査で陽性反応が出たことを条件として、真に病気である確率を条件付き確率の性質をそのまま使って算出します。

f:id:hippy-hikky:20210424223949p:plain

結果は\frac{1}{3}ということで、本当に病気かどうかなんてわかんないですね。

(2) 検査2でも陽性反応が出た場合に本当に病気の確率

これも上記とほとんど同じなんですが、注意しないといけないのは、検査2は「検査1で陽性反応の人が受信する」ということです。 事前分布が検査1の場合と異なります。検査1をパスした人だけが対象者なので。

ということで、以下の手書きメモにある通り、事前分布には検査1で陽性が出た人の中で真に病気の人の分布を使います。これは(1)で算出した結果です。

f:id:hippy-hikky:20210424224027p:plain

ということで結果は\frac{9}{11} \cong 82\%となりましたので、かなり病気っぽいですね。

検査2の精度が低そうに見えましたが、事前分布をだいぶ絞ることができたのでこのような結果になりました。一見した精度だけでなく、事前分布を考えないとこのように誤判断しちゃうことがあるよということがよくわかる例ですね。

【トップに戻る】

参考資料

【トップに戻る】