機械と学習する

統計解析、機械学習について学習したことをまとめていきます

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#27

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズ
  • 第27回は12章「一般の分布に関する検定」から3問

【目次】


はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。 統計検定を受けるかどうかは置いておいて。

今回は12章「一般の分布に関する検定」から3問。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問12.1

問題

ある小売店に対する、一週間分の「お問い合わせ」の回数の調査結果の表がある(ここでは表は掲載しません)。この調査結果に基づいて、曜日によって問い合わせ回数に差があるのかを考えたい。

一様性の検定を有意水準5%で行いたい。

(1) この検定を行うためのカイ二乗統計量を求めよ

適合度検定を行います。この時の検定統計量はテキストに書かれている通りです。以下の手書きメモなどを参考にしてください。

f:id:hippy-hikky:20210618214103p:plain

(2) 棄却限界値を求め、検定結果を求めよ

統計量はカイ二乗分布に従うので、自由度を考える必要があります。この場合、一週間(7)に対して自由に動けるパラメータは6となります(自由度=6)。

そのため、分布表から5%有意水準だと12.59であることがわかります(棄却限界値)。

ということで、[検定統計量 > 棄却限界値] なので、帰無仮説は棄却されることになります。結果として、曜日毎の回数は異なるといえます。

【トップに戻る】

問12.2

この問題は、論述問題でテキストの回答を見ればよく理解できると思います。一応私なりの回答(抜粋)を記載しますが、テキストの方を参照された方が良いと思います。

問題

(この問題も表が出てきますが、ここには掲載しません)

1年間の台風上陸回数を69年間に渡って調査した結果、平均2.99回、標準偏差は1.70回だった。

(1) この結果から、台風の上陸回数はポアソン分布に従うのではないかととの意見が出た。この意見の意味するところは何か?

上陸回数がポアソン分布に従うとすると、ポアソン分布の期待値と分散は同じです。

f:id:hippy-hikky:20210618215304p:plain

平均と分散が近い値になっているので、「ポアソン分布」に従うのではないか?との意見が出たということです。

(2) 台風上陸数がポアソン分布に従うと仮定した場合の期待度数の求め方を示せ

ポアソン分布の定義に従ってx回上陸する確率を導出します。合計で69なので、この確率に69を掛け合わせたものが期待度数となります。

(これはテキストの方が詳しいのでそちらを参照してください)

(3) カイ二乗統計量を導出した結果16.37となった。適合度検定を有意水準5%で行った時の結果について論ぜよ。

自由度はカテゴリ数が0回から10回までの11種類あります。また、パラメータとしてポアソン分布のパラメータが一つあるので、\nu = I - 1 - K = 11 - 1 - 1 = 9となります。

棄却限界値は、分布表から16.92であることがわかりますので、この検定結果は帰無仮説が棄却されます。

帰無仮説は棄却されましたが、検定統計量は棄却限界値に近い値となりました。統計量が大きくなってしまった理由として、上陸回数が「10以上」のカテゴリは期待度数が非常に小さい(確率が小さい)のにここの度数が1となってしまったことが挙げられます。

(4) 上陸回数を6回以上をまとめるようにカテゴリを変更した場合の検定結果と当てはまりの良さについて論ぜよ

6回以上をカテゴリとしてまとめると、以下のメモのようになり、検定統計量は小さくなりました。

f:id:hippy-hikky:20210618220631p:plain

【トップに戻る】

問12.3

問題

Instagramの男女別の利用者数の調査を行ったクロス集計表があります(これも表自体は掲載しません)。

男女での利用率に差があるのかを比較するために、有意水準5%で検定を行う

検定の設定として以下のメモの通りとなります。

f:id:hippy-hikky:20210618221223p:plain

ここでは比率の差(\theta_1 - \theta_2)がある(対立仮説)のかない(帰無仮説)のかを検定で確認します。

利用者か否かは、確率\thetaで利用するかしないかが決まるベルヌーイ過程であると考えます。また、男女での利用者数の割合はそれぞれの比率\theta_{M or F}にのみ従い、男女間の利用者数はそれぞれ独立と仮定します。

するとそこから、中心極限定理を利用して以下のメモの通り標準正規分布に従う量を導出することができます。

f:id:hippy-hikky:20210618221816p:plain

この量から、帰無仮説の元での統計量Z_0は自ずと導出できます(以下のメモ参照)。ということで、あとはこの統計量に具体的に数値を当てはめていけば良いです。

f:id:hippy-hikky:20210618222040p:plain

テキストでの回答は、ここからさらに統計量の分母について最尤推定量を利用すると書かれています。しかし、どちらでも良いとも書かれていますし、上記メモの方がわかりやすいと思うので、ここまでとします。

【トップに戻る】

参考資料

【トップに戻る】