統計学の基礎付け Fundamental


|| 統計の正しさの根拠

『データ数を増やせば、正しい値に近づく』

これを保証するものが「統計学の基礎」になります。

スポンサーリンク




目次


マルコフの不等式「平均と区間を表す定数で確率の上限が決まる」

チェビシェフの不等式「分散と区間で確率の上限が決まる」


大数の法則「標本を増やせば標本の平均が全体の平均に近づく」

   大数の弱法則「例外がどんどんなくなっていく感じ」

   大数の強法則「最終的には一定の状態に落ち着く感じ」

      中心極限定理「全ての標本平均が正規分布に近づく感じ」






いわゆる『大数の法則』というやつです。




これは結構、方程式な感じになります。

なので、ともかく必要な式について見てみましょう。






マルコフの不等式 Markov’s inequality


「区間」と「期待値」で『確率の最大値』を押さえられる

これが、マルコフの不等式の意味になります。



↓こんなです。

「データの値 X が正」で「データの区間 c>0 」なら

\displaystyle Pr[X≥c]≤\frac{E[X]}{c}



ざっと解説すると、まずは定義から


\displaystyle E[X]:=\int_{0}^{\infty}xf(x)\,dx


一点 c でこれを区切ると


\displaystyle \int_{0}^{\infty}xf(x)\,dx=\int_{0}^{c}xf(x)\,dx+\int_{c}^{\infty}xf(x)\,dx


ここで『確率』を「期待値」と「区切った点」で表せるんじゃ?

とか、なんとか思えてきます。(発想)




とりあえず式も複雑で変数が多いので、単純にしたい感じ

そこで『 x≥0 』と『確率密度関数の定義』から


\displaystyle \int_{a}^{b}f(x)\,dx≥0


0≤a<b

なので↓に間違いなくなります。


\displaystyle \int_{a}^{b}xf(x)\,dx≥0




この事実から、以下のことが間違いなく言えるわけです。

やってることは「 1+2≧2 」と同じです。


\displaystyle \int_{0}^{c}xf(x)\,dx+\int_{c}^{\infty}xf(x)\,dx=E[X]≥\int_{c}^{\infty}xf(x)\,dx



これでちょっと簡単になりました。

上を定数 E[X] で抑えることができたので

これだけでもそれなりの収穫と言えるでしょう。




ただまあ、これだけじゃあまりに当たり前すぎます。

とりあえず『 c 』との関連が欲しいところです。

なにより、このままでは『確率』についてよく分かりません。



というわけで、とりあえず『確率』が欲しいです。


\displaystyle Pr[X≥c]=\int_{c}^{\infty}\textcolor{skyblue}{f(x)}\,dx


↑が『確率の定義』になるので

xf(x)x が邪魔だと分かります。

これをどうやってか取り除けばいい感じです。



一番良いのは「定数化」ですね。

定数にしてしまえば、積分の演算の影響は消えます。

それでいて x と比較できるやつが望ましいです。




そんな条件を満たす定数なんてあるの?って感じですが

いや、あるじゃないですか。めっちゃ都合が良いやつが




まず↑の式では『 0<c≤x 』に確実になります。

そして「確率」は正の値になるので、↓が導かれます。



\displaystyle E[X]≥\int_{c}^{\infty}xf(x)\,dx≥\int_{c}^{\infty}cf(x)\,dx=c\int_{c}^{\infty}f(x)\,dx=cPr[X≥c]



はい、ということでこれでゴールです。

後は式変形をするだけで、マルコフの不等式ができあがります。


\displaystyle E[X]≥cPr[X≥c]\,\,\,⇒\,\,\,Pr[X≥c]≤\frac{E[X]}{c}






チェビシェフの不等式 Chebyshev’s inequality


これは『分散』を考えた場合の「マルコフの不等式」になります。



要は↑だと『期待値と定数』で「確率」を抑えたわけで

なら『分散と定数』でも「確率」を抑えられるんじゃ?

とまあ、こんな感じの発想でやってみたら、なんかうまくいった感じ。




やることは単純で



\displaystyle Pr[X≥c]≤\frac{E[X]}{c}



ですから「期待値 E[X] 」と「定数 c 」を

「分散」と「定数」に変えてみる感じです。




というわけで『分散の定義』から

σ^2=E[(X-μ_X)^2] なので

まずデータの値を「 X 」から「 (X-μ_X)^2 」へ




するとまあ、↓みたいになります。



\displaystyle Pr[(X-μ_X)^2≥c]≤\frac{E[(X-μ_X)^2]}{c}=\frac{σ^2}{c}



ただこのままだと、なんか「定数」が邪魔です。

式もただ変わっただけで、そんなに意味もありません。




そんなわけで、定数を適切な定数に置き換える必要が出てきました。

このままだと大して意味が無いので



そしてやるべきことを考えると

一つは「右辺の分散の値を排除する」ことと

「左辺の式を簡単にする」ことの二つが見つかります。




そこで「定数 c 」を『分散の倍数 nσ^2 』としてみます。



\displaystyle Pr[(X-μ_X)^2≥nσ^2]=Pr[|X-μ_X|≥|\sqrt{n}σ|]≤\frac{σ^2}{nσ^2}=\frac{1}{n}


\displaystyle ∴Pr[|X-μ_X|≥|\sqrt{n}σ|]≤\frac{1}{n}



すると、右辺の分散の値は割り切れてなくなるので、一つ達成です。

それに加えて『確率を定数だけで抑えられる』ことが分かりました。

この時点で、分散で抑えてみる試みには意味が生まれたわけです。




ただ、このままだと左辺が微妙です。

n 」が になるので、なんか嫌。



というわけで、特に問題も無さそうですから

定数 c を「 n^2σ^2 」にします。

こうすれば が消えて、式がすっきり



\displaystyle Pr[|X-μ_X|≥nσ]≤\frac{1}{n^2}\,\,\,\,\,(n>0,σ≥0)



というわけで、チェビシェフの不等式が得られました。







大数の法則 Law of Large Numbers


|| 数こそ正義という事実の裏付け

『標本数(サンプルの数)が多い』ほど


『標本平均(一部の平均)』が『真の平均(全体の平均)』に近づく

ということを表す法則




詳しく説明するには『確率収束』やら『概収束』が必要になります。

なのでまあ、普通にかなり長くなりますから別の記事で

ここではある程度細かく、けれど大雑把な感じを説明します。






これが成立する『前提』は、以下の条件になります。



『標本確率変数』が独立(当たり前な感じ)

『標本確率変数』が同一の分布に従う(全部合わせたら確率 1

「標本平均」も確率変数



はい、つまり『期待値の存在』もまた前提になります。

これらの前提を元にすると、この法則は成立するわけです。






大数の弱法則 Weak LLN


|| 確率収束?についてのお話

簡単に言うと『サンプル数が多く』なれば、

「例外が無視されていく」感じです。



形式的には↓みたいな。そのまま「確率収束」の感じになります。

ε,μ 」は定数で、「 \overline{X_n} 」が確率変数です。



\displaystyle Pr[(|\overline{X_n}-μ|≥ε]≤\frac{σ^2}{nε^2}


この『チェビシェフの不等式』を基礎にして「標本数 n 」から


\displaystyle \lim_{n \to \infty}Pr(|\overline{X_n}-μ|>ε)=0\,\,\,\,\,(∀ε>0)



ちなみに↓です。

\displaystyle Pr(|\overline{X_n}-μ|>ε)=\int_{-\infty}^{-ε+μ}f(x_n)\,dx_n+\int_{ε+μ}^{\infty}f(x_n)\,dx_n≤\frac{σ^2}{nε^2}\,\,\,\,\,(∀ε>0)



これを見れば分かる通り『誤差 ε が無ければ』

『確率』は必ず「 1 」になってしまいます。



それでいて「誤差 ε 」を可能な限り小さくとれば、

『確率』はどこまでも「 1 」に近づけることができます。



つまり『僅かにでも誤差 ε があれば』

『サンプル数 n をどこまでも大きくする』と、

『確率』は「 0 に近づいていく」と言ってるわけです。




これは↑で紹介した「チェビシェフの不等式」が基礎になります。


\displaystyle σ^2\,\,\,\,\,→\,\,\,\,\,\frac{σ^2}{n}


「標本平均の分散」が↑ですから↓になるわけですね。


\displaystyle Pr[(X-μ_X)^2≥c]≤\frac{E[(X-μ_X)^2]}{c}=\frac{σ^2}{c}

\displaystyle Pr[(\overline{X_n}-μ_{X_n})^2≥c]≤\frac{E[(\overline{X_n}-μ_{X_n})^2]}{c}=\frac{\frac{σ^2}{n}}{c}=\frac{σ^2}{nc}






大数の強法則 Strong LLN


|| 概収束?についてのお話

要は「最終的には一定になる」みたいな感じ。




感覚的には「動きが無くなる」感じです。



例えば「人一人が一日に手を動かす回数」なんてものを考えると、

実際にはどんな値をとるかは分かりません。

しかし「 1000 年後」では、ほとんど確実に「 0 回」です。




この「大数の強法則」はこの感じを表してます。




なので形式では↓みたいになります。

「真の値」に『ほとんど確実に』なる、と言ってます。



\displaystyle Pr(\lim_{n \to \infty}X_n=μ)=1




これの証明には「モーメント母関数」が必要になります。

具体的には、よく「 4 次のモーメント」が使われてます。

やると長くなりすぎるので別の記事で。






中心極限定理 Central Limit Theorem


|| 統計学の基本定理

要約すると「簡単な分布に落ち着く」感じです。



ここでの簡単な分布というのは「正規分布」のことです。

「期待値」と「分散」を持ってる分布って考えれば。




証明は「正規分布」と「特性関数」が必要になります。

簡単にはちょっと書けないです。

それに結論だけでも、正直なに書いてるか意味不明なので割愛。




詳しいことは別の記事で行います。