2021-06-15

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#26

統計検定準一級統計的仮説検定

【概要】

統計検定準一級対応統計学実践ワークブックの問題を解いていくシリーズ
第25回は11章「正規分布に関する検定」から2問

【目次】

はじめに
問11.1
問11.2
補足
- (1) t検定統計量
- (2) 2標本の平均の差が従う分布のt検定統計量
参考資料

はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。統計検定を受けるかどうかは置いておいて。

今回は11章「正規分布に関する検定」から2問。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問11.1

問題

2店舗(A, Bとする)を展開するハンバーガーショップがある。ポテトのサイズは120gと仕様が決まっているが、店舗Aはサイズが大きいと噂されている。

無作為に10個抽出して重さを測った結果、平均125g、標準偏差が10.0であった。

以下の設定で仮説検定する。

f:id:hippy-hikky:20210614232217p:plain

(1) 検定統計量の値は？

補足(1)で書いた検定統計量に当てはめる。

f:id:hippy-hikky:20210614232619p:plain

(2) 有意水準を片側2.5%としたときの棄却限界値は？

t分布表から、 $t_{0.025}(\nu=9)$ を読み取れば良い。そのため、2.262となることがわかる。

(3) 帰無仮説は棄却されるか？

(1)で算出したtと(2)で求めた $t_{0.025}(\nu)$ を比較すると、 $t \lt t_{0.025}$ となるので、 $H_0$ は棄却されない。つまり、店舗Aのポテトのサイズは120gよりも大きいとは言えない。

(4) 有意水準2.5%(片側)で帰無仮説が棄却される最小の標本サイズはいくらか？

統計量をnについて展開すると以下のメモの通りとなります。ただし、 $t_{\alpha}(\nu)$ は自由度、つまり(n-1)に依存する関数となるので、素直に一つには決まりません。なので、具体的に値を入れて不等式が満たされる最小のnを探します。

f:id:hippy-hikky:20210614234447p:plain

もっと上手い方法ないですかね？

【トップに戻る】

問11.2

問題

問11.1の続きで、店舗Bでも同様に10個のポテトを無作為抽出して重量を計測したところ、平均115g、標準偏差が8.0gだった。

店舗A, Bのポテトはそれぞれ $\mathcal{N}(\mu_A, \sigma^2)$ と $\mathcal{N}(\mu_B, \sigma^2)$ に従うとする。（分散は共通とする）

f:id:hippy-hikky:20210614235008p:plain

(1) 店舗A, Bのデータを合わせた標本分散を求めよ

2標本の合併分散は、偏差平方和と自由度から以下のメモの通りに定義されます。

f:id:hippy-hikky:20210614235137p:plain

(2) 検定統計量の値を求めよ

補足(2)で求めた式に代入します。

f:id:hippy-hikky:20210615000500p:plain

(3) 有意水準5%(両側)としたときの棄却限界値は？

自由度が $\nu = 10+10-2 =18$ なので、素直にt分布表から値を探してきます。

$\nu_{0.025}(\nu=18) = 2.101$

(4) 帰無仮説は棄却されるか？

(2)、(3)の結果から、帰無仮説は棄却されることがわかります。

つまり、店舗A, Bのポテトフライの重さは有意水準5%で異なるということが支持されるようです。

【トップに戻る】

補足

(1) t検定統計量

標本平均の分布は $\mathcal{N}(\mu, \sigma^2 / n)$ に従う。そのため、標準正規分布に変換すると以下のようになる。

分散が未知の場合には、 $\sigma^2$ を消去する必要があり、 $\sqrt(s^2 / \sigma^2)$ で割る。

このtは自由度(n-1)のt分布に従う。

(2) 2標本の平均の差が従う分布のt検定統計量

平均の差が従う分布は独立な正規確率変数の和の性質から以下の分布になる。（分散が共通の場合）

補足(1)のt統計量の導出と同様に、分散が未知であるためこれを消去するように加工する。（以下のメモ参照）

f:id:hippy-hikky:20210614235433p:plain

【トップに戻る】

参考資料

[1] 日本統計学会, 統計学実践ワークブック, 2020, 学術図書出版社
日本統計学会公式認定統計検定準1級対応統計学実践ワークブック
- 学術図書出版社
Amazon
[2] 松原ら, 統計学入門, 1991, 東京大学出版会
統計学入門 (基礎統計学Ⅰ)
- 東京大学出版会
Amazon

【トップに戻る】

2021-06-08

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#25

統計検定準一級統計的仮説検定

【概要】

統計検定準一級対応統計学実践ワークブックの問題を解いていくシリーズ
第24回は10章「検定の基礎」から1問

【目次】

はじめに
問10.3
参考資料

はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。統計検定を受けるかどうかは置いておいて。

今回は10章「検定の基礎」から1問。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問10.3

問題

ある商品の抜き取り検査として、無作為に5個抽出してきて、そのうち2個以上不良品だった場合に、その箱全て不合格とするとの基準を設けたとする。

f:id:hippy-hikky:20210608222143p:plain

(1) 不良品率p=0.3の時、不良品が0, 1, 2個出てくる確率

5個の中でr個の不良品が現れる確率ということは、二項分布を考えれば良いです。

二項分布の式に素直に当てはめることで、以下のように算出できます。

f:id:hippy-hikky:20210608222457p:plain

(2) p=0.1での生産者危険、p=0.2での消費者危険のそれぞれの確率

市場では、不良率が0.1以下を期待されていると設定されています。

その中で、p=0.1以下でも不合格とされる確率が「生産者危険」です。ここでは、真の不良率p=0.1の時のこの確率を求めよとされていますので、p=0.1の時に、rが２以上になる確率を求めます。なお、テキストには各rでの確率が表になっているので、そのまま足すだけです。

f:id:hippy-hikky:20210608223115p:plain

次に、p=0.2以上、つまり、本当は期待以下（不合格品）なのに出荷されてしまう確率が「消費者危険」です。ここでは、真の不良率がp=0.2だった場合のこの確率を求めよとされています。これも上記と同様にp=0.2の時にrが1以上になる確率を求めれば良いです。

f:id:hippy-hikky:20210608223515p:plain

【トップに戻る】

参考資料

[1] 日本統計学会, 統計学実践ワークブック, 2020, 学術図書出版社
日本統計学会公式認定統計検定準1級対応統計学実践ワークブック
- 学術図書出版社
Amazon
[2] 松原ら, 統計学入門, 1991, 東京大学出版会
統計学入門 (基礎統計学Ⅰ)
- 東京大学出版会
Amazon

【トップに戻る】

2021-06-04

逆関数法を利用して切断指数分布に従う乱数を取得する

確率分布統計モデリング

【概要】

ちょっと切断指数分布に従う乱数が必要になったので、逆関数法を使って乱数を生成する方法をまとめた

【目次】

はじめに
切断分布
逆関数法
- 指数分布と切断指数分布
  - 指数分布
  - 切断指数分布
試してみる

はじめに

切断指数分布に従う乱数の生成が必要になったのですが、ちょっと調べたところ、切断指数分布に従う乱数を生成するためのAPIはあまり用意されてない？っぽかったです。なので本記事では、逆関数法を使って切断指数分布に従う乱数の生成についてまとめます。

（この記事を書く中でさらに調べたところscipyにtruncexponというAPIが用意されていました。なので、切断指数分布が必要な方はこちらを利用したら良いと思います。。。）

本記事に興味がある方はこちらも参考にしてください。

learning-with-machine.hatenablog.com

【トップに戻る】

切断分布

切断分布とは、値域が切断された確率密度関数です。

正規分布を例にするとこんな感じ。オレンジ線が $\mathcal{N}(x | \mu=0.0, \sigma^2=1.0)$ の確率密度関数。青線が同じパラメータで-1から1までの領域に限定した切断正規分布。

f:id:hippy-hikky:20210604222631p:plain

領域が切断されているため、積分して1になるという密度関数の定義を満たすために、値の定義される領域で密度関数の値は切断分布の方が大きくなっています。なので、単純に密度関数を切るだけではないということに注意が必要です。

切断正規分布などは稀に使われているところを見かけます。例えば、事前知識として値の領域が限定されていることがわかっているパラメータの推論をする際の事前分布とか。

【トップに戻る】

逆関数法

逆関数法とは、累積密度関数をの逆関数を利用して、一様分布に従う乱数（一様乱数）から所望の確率密度関数に従う乱数を生成する方法です。

f:id:hippy-hikky:20210604222743p:plain

上図を見れば一目瞭然で、乱数を得たい確率密度関数を $f(x)$ として、その累積分布関数 $F(x)$ を考えます。 $F(x)$ は0から1の範囲の関数なので(確率の定義から)、一様乱数に従うUを $F(x)$ の逆関数 $F^{-1}(U)$ に入力することで、 $f(x)$ に従う乱数xに変換することができます。

ということで、逆関数法を利用するには累積分布関数の逆関数 $F^{-1}(U)$ を導出する必要がありますが、複雑な関数の場合は解析的に導出することが難しい場合もあります。この点については、僕が以前書いたブログで、ノンパラメトリックな分布に対して逆関数法を適用してサンプルを取得している例があります。

【トップに戻る】

指数分布と切断指数分布

ここまでで逆関数法がわかったので、指数分布と切断指数分布にそれぞれ従う乱数を取得してみます。

指数分布

指数分布は以下の式で定義されています。

分布関数は、これを積分すればよく、以下の形として知られています。

逆関数 $F^{-1}(\cdot)$ は、上記の $F(x)$ をxについて解きます。

これで一様分布に従うUから指数分布 $\mathrm{Exp}(x | \mu)$ に従う乱数を取得できます。

切断指数分布

同様にして切断指数分布を考えます。切断点をTとして、xが0からTまでの範囲は $\exp(-\mu x)$ に比例します。それ以外の領域では0となります。なので、0からTの範囲で積分して正規化定数を導出します。

累積分布関数は

これで $F(x)$ をUとして、xについて解くと

ということで、切断指数分布に従う乱数を得るための変換式を導出できました。

【トップに戻る】

試してみる

詳細は以下のnotebookを参照してください。

f:id:hippy-hikky:20210604223801p:plain

こんな感じで、それぞれの分布に従う乱数を生成できました。

「はじめに」でも書きましたが、scipyにはtrancexponという関数が用意されているみたいです。ということで、scipy使えば逆関数法による導出は要らなかった。。。

2021-06-03

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#24

統計検定準一級統計的仮説検定

【概要】

統計検定準一級対応統計学実践ワークブックの問題を解いていくシリーズ
第24回は10章「検定の基礎」から1問

【目次】

はじめに
問10.2
参考資料

はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。統計検定を受けるかどうかは置いておいて。

今回は10章「検定の基礎」から1問。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問10.2

問題

あるメーカの既製品Aと新製品Bの重さXは独立に正規分布に従っているとする。それぞれ16個をランダムに抽出して偏差平方和[tex:T²]を算出した。

f:id:hippy-hikky:20210603181219p:plain

(1) 新製品Bの分散の95%信頼区間を求めよ

偏差平方和を分散で割った値は自由度(n-1)のカイ二乗分布に従います（以下のメモ参照）。

f:id:hippy-hikky:20210603181537p:plain

ということで、カイ二乗分布表を使って、95%区間を求めると以下のメモの通りとなります。

f:id:hippy-hikky:20210603181738p:plain

(2) 新製品の方が分散が小さいという主張を検定せよ

実際のテキストの問題では穴埋めの問題になっていますが、分散の比について検定してみます。

新製品の方が分散が小さいという主張なので、帰無仮説 $H_0$ 、対立仮説 $H_1$ は以下の通りとなります。

f:id:hippy-hikky:20210603182119p:plain

(1)で扱ったように、偏差二乗和[tex:T²]は自由度(n-1)のカイ二乗分布に従います。なので、フィッシャーの分散比をH0について求めると、検定統計量 $F_0$ はF分布( $F(n-1, n-1)$ )に従うことがわかります。

ということで、検定統計量とF分布表から、帰無仮説 $H_0$ は棄却できることがわかります。つまり、新製品の方が分散が小さいという主張が正しそうだと支持されます。

f:id:hippy-hikky:20210603182602p:plain

【トップに戻る】

参考資料

[1] 日本統計学会, 統計学実践ワークブック, 2020, 学術図書出版社
日本統計学会公式認定統計検定準1級対応統計学実践ワークブック
- 学術図書出版社
Amazon
[2] 松原ら, 統計学入門, 1991, 東京大学出版会
統計学入門 (基礎統計学Ⅰ)
- 東京大学出版会
Amazon

【トップに戻る】

2021-06-02

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#23

統計検定準一級統計的仮説検定検出力

【概要】

統計検定準一級対応統計学実践ワークブックの問題を解いていくシリーズ
第23回は10章「検定の基礎」から1問
- この章も長くなりそう。。。

【目次】

はじめに
検出力
- 検定における2種類の誤り
- 検出力の導出
問10.1
参考資料

はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。統計検定を受けるかどうかは置いておいて。

今回は10章「検定の基礎」から1問。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

検出力

今回の問題では、検出力を導出せよとされています。そこでまず先に、検出力についてまとめていきます。

検出力についてはここまで参考にしていたテキストでどうしても理解ができず、参考文献2をあたりました。検定周りがどうにも理解ができていなかったのですが、この書籍はだいぶわかりやすかったので超絶おすすめです。

検定における2種類の誤り

統計的仮設検定では、限定的な形で帰無仮説H0を設定し、H0が棄却（H0は成り立たないと判断）できた場合に、対立仮設H1が支持できるだろうと考えます。（詳しくは何らかのテキストを見て）

この時、H0, H1が本当に成り立っているか、検定結果として棄却できるか否かの組み合わせで次の四通りあります。

本当はH0が成り立っているときに、検定結果としてH0が棄却できなかった（望んだ結果）
本当はH0が成り立っているときに、検定結果としてH0を棄却してしまった（間違い、この確率をαとする）
本当はH1が成り立っているときに、検定結果としてH0が棄却できなかった（間違い、この確率をβとする）
本当はH1が成り立っているときに、検定結果としてH0を棄却した（望んだ結果）

検定結果の誤りは上記2,3です。2は「第1種の過誤」、3は「第2種の過誤」と呼ばれています。この概念が重要です。

第1種の過誤はわかりやすくて、帰無仮説H0を設定した元で、手元にあるデータがH0を前提とした際に非常に小さい確率でしか発生しない（これを有意水準と呼び、だいたい5%とかにすると思います）となれば、H0が棄却されます。5%が「小さい確率」かどうかは分野によって違うと思いますが、5%の確率で誤判断してしまう可能性があるということになります。これが第1種の過誤です。

H0の元で確率α（有意水準）以下の確率か否かを判断するわけですが、H0とH1が共に近い仮説なら、本当はH1が成り立っているのにH0でも十分に起こり得るデータであり、H0を棄却できない状態というのはありえます。（なので、H0が棄却できないからといってH0が支持されているとは限らないということ）

f:id:hippy-hikky:20210602173310p:plain