機械と学習する

統計解析、機械学習について学習したことをまとめていきます

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#11

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズ
  • 第11回は6章「連続型分布と標本分布」から1問

【目次】


はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。 統計検定を受けるかどうかは置いておいて。

今回は6章「連続型分布と標本分布」から1問。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問6.1

問題設定

テストの受験者が1,000人いて、点数が\mathcal{N}(65, 10^2)に従っている。

このテストにおいて、受験者Aの点数は85点、受験者Bの点数は60点だったとする。

f:id:hippy-hikky:20210503222024p:plain

(1) A, Bの偏差値はいくらか?

偏差値とは、データを\mathcal{N}(50, 10^2)に変換した場合のスコアになりますので、愚直に計算するだけです。

f:id:hippy-hikky:20210503223003p:plain

(2) A, Bの得点の間に入る受験者の人数の概算はいくらか?

A, Bの間の割合を導出すれば良いです。

A, Bの点数を標準正規分布でのスコアに変換することで割合を計算することができます。標準正規分布表を使って、それぞれの確率を求めることができます。

f:id:hippy-hikky:20210503224222p:plain

(3) このテストの受験者の四分位範囲はいくらか?

四分位範囲は25%tileから75%tileの幅です。これも準正規分布表から、25%のスコアが約0.675であることがわかります。これを今回のテストの点数の範囲に変換します。

f:id:hippy-hikky:20210503225611p:plain

(4) このテストで65点以上の受験者を集めた場合の得点の平均点はいくらか?

65点というのは平均です。なので、標準正規分布でいうところの0以上の確率分布を導出してその期待値を求めることになります。

確率密度関数が変わるので、指数部分を積分して正規化定数を導出します。

f:id:hippy-hikky:20210503230046p:plain

ここで導出した確率密度関数を使って期待値を導出します。

f:id:hippy-hikky:20210503232130p:plain

【トップに戻る】

参考資料

【トップに戻る】

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#10

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズ
  • 第9回は5章「離散型分布」から2問

【目次】


はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。 統計検定を受けるかどうかは置いておいて。

今回は5章「離散型分布」から2問。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問5.4

問題設定

二つのサッカーチームがある(T1, T2)。それぞれのチームの得点は以下のメモの通りのポアソン分布に従うとする。

f:id:hippy-hikky:20210502221822p:plain

(1) T1, T2の合計得点の従う分布を求めよ

ポアソン分布の性質として知られている結果を使えば一瞬で解が導出できるのですが、愚直に確率母関数を使って導出します。

f:id:hippy-hikky:20210502222123p:plain

ポアソン分布の期待値から考えて、確率変数の和の期待値は期待値の和という性質を使っても容易に導けます。

ちなみに補足ですが、ポアソン分布の期待値を改めて導出しました。

f:id:hippy-hikky:20210502222559p:plain

(2) 合計得点が5点という条件のもとで、T1の得点Xの分布を求めよ

条件付き分布を考えます。

2チームのそれぞれの得点は互いに独立ということを踏まえると、同時分布が単純な積で表現できるので、あとは定義に従って展開していくだけです。で、結局最後に二項分布の形が現れてくるので、これが二項分布であることがわかります。

f:id:hippy-hikky:20210502222656p:plain

最終的に二項分布が現れてくるのが面白かったです。途中は結構入り組んできれいな分布になるように思えなかったので、最終的によく知ってる形が現れた時には「おおっ!」て思いました。

問5.5

問題設定

k種類のシールが入っているお菓子がある。それぞれのシールは等確率で現れるとする。

f:id:hippy-hikky:20210502223212p:plain

(1) 4種類全てのシールを集めるまでに必要な購入数の期待値

持ってないシールが出る場合を「成功」とおき、持っているシールが出た事象を「失敗」とすると、成功するまでの試行回数は以下の幾何分布に従います。


\begin{align}
 \mathrm{Geo}(x | p) = p(1-p)^{x-1}
\end{align}

ここで、テキスト本文では幾何分布の確率変数の定義として、成功するまでの「失敗回数」の分布としていることに注意してください。上記の式は「成功するまでの試行回数」の分布です。成功まで含めるので、(1-p)にかかる指数が(x-1)になっています。

なお、テキストの解説を確認すると、Xを「成功するまでの試行回数」と定義した分布で解いているように見えます。成功した回数を含めるために期待値を+1すれば良いので同じ結果は得られるのですが、解説と本文に定義のズレがあるようなので、注意してください。

持っているシールの種類数をmとおくと、mを0~(k-1)までとした確率変数の和の期待値を導出すれば良いことがわかります。ということで、以下のメモの通りとなりました。

f:id:hippy-hikky:20210502224244p:plain

なお、上記の定義での幾何分布の期待値の導出は以下の通りとなりました。

f:id:hippy-hikky:20210502224400p:plain

(等比級数の無限和、また忘れてたのでここでも導出してます。。。効率悪い。。。)

(2) シールが1種類追加されたときの期待値について

問の詳細は以下の通りです。

シールが1種類追加されたあとで、追加された1種類を出して計5枚のシールを集めきるまでの試行回数の期待値をx。 初めから5種類のシールがあったときに5種類のシールを集め切るまでの試行回数の期待値をy。

x-yを求めよ。

ということで、x,yそれぞれ導出してみます。

xについては、(1)の結果を利用して、5種類のシールがあって4種類はすでにあるということで期待値を導出できます。

yについても(1)の結果を利用できて、(1)のk=5で計算すればよいです。

結果は以下の通りとなりました。

f:id:hippy-hikky:20210502225018p:plain

【トップに戻る】

参考資料

【トップに戻る】

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#9

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズ
  • 第9回は5章「離散型分布」から1問

【目次】


はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。 統計検定を受けるかどうかは置いておいて。

今回は5章「離散型分布」から1問。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問5.3

問題設定

N=9人のうち、関東出身者(R)は3人、関東以外の出身者(N-R)は6人。

この人らから4人を無作為に非復元抽出した(X_1, X_2, X_3, X_4)。

f:id:hippy-hikky:20210501220535p:plain

(1) X^2_iの期待値E[ X^2_i ]は?

まず、X_iの期待値を考えました。が、結局、X_iは1か0しかとらないので、E[ X_i ]E[ X^2_i ]も同じだと後で気づいたのでどっちで考えてもOKです。

X_iの期待値を考えると、X_iは1か0しかとらないので二つの場合の和になりますが、X_i=0のときは消えてしまうので、結局p(x_i=1)を導出すれば良いということがわかります。

f:id:hippy-hikky:20210501221406p:plain

N人からn人を抽出するということを考えると、1~Nの数字を並べ替えるパターン数(順列数)が全ての場合です。このうち、i番目( i \leq n)に関東出身者(R)がくるパターン数を考えればよいです。このパターン数は、i番目が固定されているので、(N-1)個から(n-1)個を抽出するパターン数ということになります。

ということで、計算すると以下の通りとなりました。

f:id:hippy-hikky:20210501221818p:plain

(2) E[ X_i X_j ], (i \neq j)は?

(1)と同じ考えかたで導出できます。

(1)の考え方ができるまでが苦労しました。。。

f:id:hippy-hikky:20210501222825p:plain

(3) 標本平均 \bar{X} = \frac{1}{4}\sum^{4}_{i=1}X_iの分散V[ \bar{X} ]は?

非独立な確率変数の和の分散はテキストに書かれているとおり以下のようになります。


\begin{align}
 V[\sum X_i] = \sum V[X_i] + \sum_{i \neq j} \mathrm{Cov}[X_i, X_j]
\end{align}

ということで、共分散を導出する必要があります。共分散は期待値を使って導出でき、(1), (2)で導出した結果を利用すれば計算できます。

f:id:hippy-hikky:20210501222958p:plain

Xは同一の分布になるので、共分散パターン数を掛け合わせるところが時折出てきます。共分散成分は、i \neq jとなる組み合わせの数分あり、これは順列数で計算すれば良いのですが、上記のメモに書いたように、分散共分散行列は正方行列であり、対角成分以外の数ということでも計算できます。(というか、こっちが思い浮かんで計算したあとに、解説を読んで納得した次第です)

【トップに戻る】

参考資料

【トップに戻る】

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#8

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズ
  • 第8回は5章「離散型分布」から2問
  • 数列の基礎がなってないなぁと感じてます

【目次】


はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。 統計検定を受けるかどうかは置いておいて。

今回は5章「離散型分布」から2問。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問5.1

問題設定

検査するウィルスの株数をnとする。n株はそれぞれ独立に検査され、ウィルスAを発見することが目的。

(1) Aが少なくとも1株は見つかる確率βを導出せよ

n株の中から一つも見つからない場合の補集合を考えます。

「一個も見つからない」という事象は、二項分布 \mathrm{Bin}(x=0 | p, n)となります。

f:id:hippy-hikky:20210430145405p:plain

素直に計算するだけです。

どうでも良いですが、二項係数、久しぶりに真面目に計算した。

(2) Aの発見率p=1/5000, β=0.98のとき、nの値を求めよ

テキストには近似値として、次の値が与えられています。

  •  \log(1-p) \simeq -p, (pが十分小さい場合)
  •  \log(0.02) \simeq -3.9

βの式については(1)で導出したので、これに値を当てはめて展開するだけ。

f:id:hippy-hikky:20210430145818p:plain

問5.2

問題設定

ある街から男女79人を無作為に抽出し、性別と就業者か非就業者かにわけて集計した。

f:id:hippy-hikky:20210430150006p:plain

この男女から無作為に25人を選ぶとき、男性で就業者の人数Xの確率関数を求めよ

上記の図にもありますが、男性で就業者をXという確率変数として、それ以外を\bar{X}とすると、以下の手書きメモにあるような超幾何分布になります。

f:id:hippy-hikky:20210430150407p:plain

こちらの問題ですが、テキスト中にある例題と同じような問題かと思ってしばらく考え込んでしまいました。

【トップに戻る】

参考資料

【トップに戻る】

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#7

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズ
  • 第7回は4章「変数変換」から1問

【目次】


はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。 統計検定を受けるかどうかは置いておいて。

今回は4章「変数変換」から1問(4章の最後)。今回の問題についてもテキストだけではよくわからなかったので、参考文献[2]を合わせて参考にしました。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問4.2

問題設定

指数分布に従う独立な確率変数X, Yがある。

X+Y確率密度関数を導出

X+Y=zとおいて、zの密度関数を考えます。

X+Y=zになるのは、X=x、Y=z-xの形式におけるxの全ての場合です。X,Yは独立なので、確率密度の積でこれを表し、xの全ての場合についての考慮として、xについて積分をします。

zが与えられれば、xの範囲は0~zの範囲に限定されるため、積分範囲がこの範囲に限定されます。

ということで計算したのが以下のメモです。

f:id:hippy-hikky:20210429204854p:plain

正直、テキストに記載のようにヤコビアンを使うやり方が理解できず、参考文献[2]に記載のやり方で解きました。

【トップに戻る】

参考資料

【トップに戻る】

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#6

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズ
  • 第6回は4章「変数変換」から1問

【目次】


はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。 統計検定を受けるかどうかは置いておいて。

今回は4章「変数変換」から1問。ちょっと計算が大変で時間がかかってしまいました。ちなみに、今回の範囲は対象テキストだけでは理解が難しかったので、参考文献[2]などを合わせて参考にしました。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問4.1

問題設定

対数正規分布の期待値、分散、確率密度関数を導出せよという問題。

f:id:hippy-hikky:20210428182327p:plain

正規分布に従う確率変数Xに指数関数をかけて変換したものをYという確率変数にすることで、対数正規分布が得られます。ということで、変数変換を使って導出していこうというのが問題の趣旨になります。

(1) 期待値E[Y]を求める

Y=\exp\{X\}なので、\exp\{X\}の期待値を考えます。以下のように愚直に計算していけばもとまります。

f:id:hippy-hikky:20210428183013p:plain

計算していくと2次形式のような構成が見えるので、平方完成します。

続きはこっち。

f:id:hippy-hikky:20210428183024p:plain

整理するとガウス積分が使える構成が現れます。

テキストの解説にあるように、ここでモーメント母関数E[ \exp\{t X\} ]を考えると、分散の計算が楽になったんですが、この時点では気付いてませんでした。

(2) 分散V[Y]を求める

分散V[Y]は期待値を使って計算することができます。


\begin{align}
 V[Y] = E[Y^2] - (E[Y])^2
\end{align}

E[Y]は先に求めているので、E[Y^2]を導出します。

Y^2=(\exp{X})^2=\exp{2X}となるので、これを使って(1)と同様に計算していきます。

f:id:hippy-hikky:20210428183933p:plain

手順は(1)と同じなので難しくはないですね。ここで、モーメント母関数を求めていれば、E[Y^2]の導出で手抜きができたわけです。

(3) 密度関数を求める

密度関数については、変数変換による密度関数の変化を使えば良いので、計算すると以下の通りになります。

f:id:hippy-hikky:20210428184236p:plain

【トップに戻る】

参考資料

【トップに戻る】

【統計検定準一級】統計学実践ワークブックの問題をゆるゆると解く#5

【概要】

  • 統計検定準一級対応 統計学実践ワークブックの問題を解いていくシリーズ
  • 第5回は3章「分布の特性値」から3問

【目次】


はじめに

本シリーズでは、いろいろあってリハビリも兼ねて統計学実践ワークブックの問題を解いていきます。 統計検定を受けるかどうかは置いておいて。

今回は3章「分布の特性値」の例題です。3章はほぼ当てはめるだけなのであまりおもしろくないです。

なお、問題の全文などは著作権の問題があるかと思って掲載してないです。わかりにくくてすまんですが、自分用なので。

心優しい方、間違いに気付いたら優しく教えてください。

【トップに戻る】

問3.1

問題設定

ある動物群の平均体重が60kg、標準偏差が12kgだった。これらの動物の1ヶ月後の平均体重は65kgだったけど変動係数は変化なかった。

f:id:hippy-hikky:20210427234126p:plain

変動係数と1ヶ月後の標準偏差を求める

変動係数は、標準偏差を平均で割ったものです。

変動係数に変化がなかったということから、標準偏差は容易に算出できます。

f:id:hippy-hikky:20210427234421p:plain

問3.2

問題設定

以下の問を加重平均、幾何平均、調和平均を使って算出する。

(1) 片道48kmの道のりを行きは8km、帰りは12kmで往復。往復の平均速度を求める

調和平均を使えば良さそうですが、ただただ当てはめるのは嫌なので、愚直に計算してみました。

f:id:hippy-hikky:20210427234910p:plain

(2) 3種類の定食があり。それぞれの売り上げ数から、定食1食あたりの平均金額を求める。

各定食の売り上げ数を重みとして正規化して加重平均を取れば良いです。

f:id:hippy-hikky:20210427235151p:plain

(3) ある指数の4年間の平均伸び率を求める

平均伸び率を\alphaとすると、初年度に[tex:\alpha4]をかければ4年後の値になるので、そこから幾何平均を使うということがわかります。

f:id:hippy-hikky:20210427235515p:plain

問3.3

問題設定

以下の手書きメモの通り、パンの厚さが平均E[X], 分散V[ X ]、ハムの厚さが平均E[Y], 分散V[ Y ]の材料を使ってサンドイッチを作る。

方法として、(1)予めパンを二枚に切ってためておき、そこからランダムにパンを2欠片選択する。(2)パンを半分に切ってそれを使ってサンドイッチを作成する。という二通りの作成方法がある。

f:id:hippy-hikky:20210427235630p:plain

2つの方法で作成するサンドイッチの厚さの分散をそれぞれ求める

方法1は2枚のパンの欠片が平均E[X], 分散V[ X ]にそれぞれ独立に従うということになります。

一方方法2はパンの厚さ自体は平均E[X], 分散V[ X ]に従いますが、2つの欠片それぞれは同じ厚さです。

ということで、分散の性質を利用し、また、パンとハムの厚さはそれぞれ独立であることを利用して以下のメモの通りに計算できます。

f:id:hippy-hikky:20210428000443p:plain

【トップに戻る】

参考資料

【トップに戻る】