|| 統計の正しさの根拠
『データ数を増やせば、正しい値に近づく』
これを保証するものが「統計学の基礎」になります。
スポンサーリンク
目次
マルコフの不等式「平均と区間を表す定数で確率の上限が決まる」
チェビシェフの不等式「分散と区間で確率の上限が決まる」
大数の法則「標本を増やせば標本の平均が全体の平均に近づく」
大数の弱法則「例外がどんどんなくなっていく感じ」
大数の強法則「最終的には一定の状態に落ち着く感じ」
中心極限定理「全ての標本平均が正規分布に近づく感じ」
いわゆる『大数の法則』というやつです。
これは結構、方程式な感じになります。
なので、ともかく必要な式について見てみましょう。
マルコフの不等式 Markov’s inequality
「区間」と「期待値」で『確率の最大値』を押さえられる
これが、マルコフの不等式の意味になります。
↓こんなです。
「データの値 X が正」で「データの区間 c>0 」なら
\displaystyle Pr[X≥c]≤\frac{E[X]}{c}
ざっと解説すると、まずは定義から
\displaystyle E[X]:=\int_{0}^{\infty}xf(x)\,dx
一点 c でこれを区切ると
\displaystyle \int_{0}^{\infty}xf(x)\,dx=\int_{0}^{c}xf(x)\,dx+\int_{c}^{\infty}xf(x)\,dx
ここで『確率』を「期待値」と「区切った点」で表せるんじゃ?
とか、なんとか思えてきます。(発想)
とりあえず式も複雑で変数が多いので、単純にしたい感じ
そこで『 x≥0 』と『確率密度関数の定義』から
\displaystyle \int_{a}^{b}f(x)\,dx≥0
( 0≤a<b )
なので↓に間違いなくなります。
\displaystyle \int_{a}^{b}xf(x)\,dx≥0
この事実から、以下のことが間違いなく言えるわけです。
やってることは「 1+2≧2 」と同じです。
\displaystyle \int_{0}^{c}xf(x)\,dx+\int_{c}^{\infty}xf(x)\,dx=E[X]≥\int_{c}^{\infty}xf(x)\,dx
これでちょっと簡単になりました。
上を定数 E[X] で抑えることができたので
これだけでもそれなりの収穫と言えるでしょう。
ただまあ、これだけじゃあまりに当たり前すぎます。
とりあえず『 c 』との関連が欲しいところです。
なにより、このままでは『確率』についてよく分かりません。
というわけで、とりあえず『確率』が欲しいです。
\displaystyle Pr[X≥c]=\int_{c}^{\infty}\textcolor{skyblue}{f(x)}\,dx
↑が『確率の定義』になるので
xf(x) の x が邪魔だと分かります。
これをどうやってか取り除けばいい感じです。
一番良いのは「定数化」ですね。
定数にしてしまえば、積分の演算の影響は消えます。
それでいて x と比較できるやつが望ましいです。
そんな条件を満たす定数なんてあるの?って感じですが
いや、あるじゃないですか。めっちゃ都合が良いやつが
まず↑の式では『 0<c≤x 』に確実になります。
そして「確率」は正の値になるので、↓が導かれます。
\displaystyle E[X]≥\int_{c}^{\infty}xf(x)\,dx≥\int_{c}^{\infty}cf(x)\,dx=c\int_{c}^{\infty}f(x)\,dx=cPr[X≥c]
はい、ということでこれでゴールです。
後は式変形をするだけで、マルコフの不等式ができあがります。
\displaystyle E[X]≥cPr[X≥c]\,\,\,⇒\,\,\,Pr[X≥c]≤\frac{E[X]}{c}
チェビシェフの不等式 Chebyshev’s inequality
これは『分散』を考えた場合の「マルコフの不等式」になります。
要は↑だと『期待値と定数』で「確率」を抑えたわけで
なら『分散と定数』でも「確率」を抑えられるんじゃ?
とまあ、こんな感じの発想でやってみたら、なんかうまくいった感じ。
やることは単純で
\displaystyle Pr[X≥c]≤\frac{E[X]}{c}
ですから「期待値 E[X] 」と「定数 c 」を
「分散」と「定数」に変えてみる感じです。
というわけで『分散の定義』から
σ^2=E[(X-μ_X)^2] なので
まずデータの値を「 X 」から「 (X-μ_X)^2 」へ
するとまあ、↓みたいになります。
\displaystyle Pr[(X-μ_X)^2≥c]≤\frac{E[(X-μ_X)^2]}{c}=\frac{σ^2}{c}
ただこのままだと、なんか「定数」が邪魔です。
式もただ変わっただけで、そんなに意味もありません。
そんなわけで、定数を適切な定数に置き換える必要が出てきました。
このままだと大して意味が無いので
そしてやるべきことを考えると
一つは「右辺の分散の値を排除する」ことと
「左辺の式を簡単にする」ことの二つが見つかります。
そこで「定数 c 」を『分散の倍数 nσ^2 』としてみます。
\displaystyle Pr[(X-μ_X)^2≥nσ^2]=Pr[|X-μ_X|≥|\sqrt{n}σ|]≤\frac{σ^2}{nσ^2}=\frac{1}{n}
\displaystyle ∴Pr[|X-μ_X|≥|\sqrt{n}σ|]≤\frac{1}{n}
すると、右辺の分散の値は割り切れてなくなるので、一つ達成です。
それに加えて『確率を定数だけで抑えられる』ことが分かりました。
この時点で、分散で抑えてみる試みには意味が生まれたわけです。
ただ、このままだと左辺が微妙です。
「 n 」が √ になるので、なんか嫌。
というわけで、特に問題も無さそうですから
定数 c を「 n^2σ^2 」にします。
こうすれば √ が消えて、式がすっきり
\displaystyle Pr[|X-μ_X|≥nσ]≤\frac{1}{n^2}\,\,\,\,\,(n>0,σ≥0)
というわけで、チェビシェフの不等式が得られました。
大数の法則 Law of Large Numbers
|| 数こそ正義という事実の裏付け
『標本数(サンプルの数)が多い』ほど
『標本平均(一部の平均)』が『真の平均(全体の平均)』に近づく
ということを表す法則
詳しく説明するには『確率収束』やら『概収束』が必要になります。
なのでまあ、普通にかなり長くなりますから別の記事で
ここではある程度細かく、けれど大雑把な感じを説明します。
これが成立する『前提』は、以下の条件になります。
『標本確率変数』が独立(当たり前な感じ)
『標本確率変数』が同一の分布に従う(全部合わせたら確率 1 )
「標本平均」も確率変数
はい、つまり『期待値の存在』もまた前提になります。
これらの前提を元にすると、この法則は成立するわけです。
大数の弱法則 Weak LLN
|| 確率収束?についてのお話
簡単に言うと『サンプル数が多く』なれば、
「例外が無視されていく」感じです。
形式的には↓みたいな。そのまま「確率収束」の感じになります。
「 ε,μ 」は定数で、「 \overline{X_n} 」が確率変数です。
この『チェビシェフの不等式』を基礎にして「標本数 n 」から
\displaystyle \lim_{n \to \infty}Pr(|\overline{X_n}-μ|>ε)=0\,\,\,\,\,(∀ε>0)
ちなみに↓です。
\displaystyle Pr(|\overline{X_n}-μ|>ε)=\int_{-\infty}^{-ε+μ}f(x_n)\,dx_n+\int_{ε+μ}^{\infty}f(x_n)\,dx_n≤\frac{σ^2}{nε^2}\,\,\,\,\,(∀ε>0)
これを見れば分かる通り『誤差 ε が無ければ』
『確率』は必ず「 1 」になってしまいます。
それでいて「誤差 ε 」を可能な限り小さくとれば、
『確率』はどこまでも「 1 」に近づけることができます。
つまり『僅かにでも誤差 ε があれば』
『サンプル数 n をどこまでも大きくする』と、
『確率』は「 0 に近づいていく」と言ってるわけです。
これは↑で紹介した「チェビシェフの不等式」が基礎になります。
「標本平均の分散」が↑ですから↓になるわけですね。
\displaystyle Pr[(X-μ_X)^2≥c]≤\frac{E[(X-μ_X)^2]}{c}=\frac{σ^2}{c}
\displaystyle Pr[(\overline{X_n}-μ_{X_n})^2≥c]≤\frac{E[(\overline{X_n}-μ_{X_n})^2]}{c}=\frac{\frac{σ^2}{n}}{c}=\frac{σ^2}{nc}
大数の強法則 Strong LLN
|| 概収束?についてのお話
要は「最終的には一定になる」みたいな感じ。
感覚的には「動きが無くなる」感じです。
例えば「人一人が一日に手を動かす回数」なんてものを考えると、
実際にはどんな値をとるかは分かりません。
しかし「 1000 年後」では、ほとんど確実に「 0 回」です。
この「大数の強法則」はこの感じを表してます。
なので形式では↓みたいになります。
「真の値」に『ほとんど確実に』なる、と言ってます。
\displaystyle Pr(\lim_{n \to \infty}X_n=μ)=1
これの証明には「モーメント母関数」が必要になります。
具体的には、よく「 4 次のモーメント」が使われてます。
やると長くなりすぎるので別の記事で。
中心極限定理 Central Limit Theorem
|| 統計学の基本定理
要約すると「簡単な分布に落ち着く」感じです。
ここでの簡単な分布というのは「正規分布」のことです。
「期待値」と「分散」を持ってる分布って考えれば。
証明は「正規分布」と「特性関数」が必要になります。
簡単にはちょっと書けないです。
それに結論だけでも、正直なに書いてるか意味不明なので割愛。
詳しいことは別の記事で行います。