統計学の基礎付け Fundamental


|| 統計の正しさの根拠

『データ数を増やせば』正しい値に近づく

この「保証」の話が「統計学の基礎」になります。

スポンサーリンク

 

 


目次

 

マルコフの不等式「平均と区間を表す定数で確率の上限が決まる」

チェビシェフの不等式「分散と区間で確率の上限が決まる」

 

 

大数の法則「標本を増やせば標本の平均が全体の平均に近づく」

   大数の弱法則「例外がどんどんなくなっていく感じ」

   大数の強法則「最終的には一定の状態に落ち着く感じ」

      中心極限定理「全ての標本平均が正規分布に近づく感じ」

 

 

 

 

 


 

『大数の法則』という言葉を聞いたことはありませんか?

 

 

「サンプル」が『多ければ多いほど』

『正確な予測値が得られる』

 

 

こういう感じの話なんですが、

たぶん、聞いたことがある人は多いと思います。

 

\begin{array}{rlllll} \displaystyle P\Bigl( |\overline{X_n}-μ|≥ε \Bigr)&≤&\displaystyle\frac{σ^2}{nε^2} \\ \\ \\ \displaystyle \lim_{n \to \infty}P \Bigl( |\overline{X_n}-μ|>ε \Bigr)&=&0&&(∀ε>0) \\ \\ \\ \\ \displaystyle P\left(\lim_{n \to \infty}X_n=μ \right)&=&1 \end{array}

 

数式的にはこんな感じの話で

ちょっとややこしく見えますが

 

 

言ってること自体は非常に直感的なので

そんな難しく考えなくて良いです。

 

 

ただこれ、厳密にはちょっとややこしくて

かなり方程式方程式しています。

 

\begin{array}{llllll} \displaystyle P\Bigl( X≥c \Bigr)&≤&\displaystyle\frac{E[X]}{c} \\ \\ \displaystyle P\Bigl(|X-μ_X|≥nσ\Bigr)&≤&\displaystyle\frac{1}{n^2}&&(n>0,σ≥0) \end{array}

 

使うのはこれ。

それぞれに名前があって

これらは統計学の根拠になっています。

 

 

 


 


マルコフの不等式 Markov’s inequality

 

|| 確率を定数で抑えられる?

「区間」「期待値」で『確率の最大値』を抑えられる

 

\begin{array}{llllll} \displaystyle P\Bigl( X≥c \Bigr)&≤&\displaystyle\frac{E[X]}{c} \end{array}

 

これがこの不等式の主張になります。

 

 

「データの値 X が正」

「データの区間 c>0 」とします。

 

 

 

 

 

不等式の発想と導出

 

この不等式を得るまでの発想に至るため

とりあえず「期待値」の定義から確認しておきます。

 

\begin{array}{llllll} \displaystyle E[X]&:=&\displaystyle\int_{0}^{\infty}xf(x)\,dx \end{array}

 

そして「一点 c 」でこれを区切ると

 

\begin{array}{llllll} \displaystyle \int_{0}^{\infty}xf(x)\,dx&=&\displaystyle\int_{0}^{c}xf(x)\,dx+\int_{c}^{\infty}xf(x)\,dx \\ \\ &=&μ \end{array}

 

これはこうなるんですが

 

\begin{array}{llllll} \displaystyle \displaystyle\int_{0}^{c}xf(x)\,dx&≥&0 \\ \\ \displaystyle \int_{c}^{\infty}xf(x)\,dx &≥&0 \end{array}

 

「確率」を表している以上

この部分は必ずこうなります。

 

\begin{array}{llllll} \displaystyle E[X]&≥&\displaystyle \int_{c}^{\infty}xf(x)\,dx \end{array}

 

となるとこうなるわけですから

ここで『確率』を表す部分が

 

\begin{array}{llllll} \displaystyle ?&≥&\displaystyle \int_{c}^{\infty}f(x)\,dx \end{array}

 

「期待値」と「点」で表せるんじゃ?

みたいにぼんやりと思えてきます。

 

 

なにせこの場合の「区間」は「 c≤x 」です。

 

\begin{array}{llllll} \displaystyle \displaystyle \int_{c}^{\infty}xf(x)\,dx&≥&\displaystyle \int_{c}^{\infty}cf(x)\,dx \end{array}

 

つまり x=c のパターンは最小

 

\begin{array}{llllll} \displaystyle E[X]&≥&\displaystyle \int_{c}^{\infty}xf(x)\,dx \\ \\ &&\displaystyle \int_{c}^{\infty}xf(x)\,dx&≥&\displaystyle \int_{c}^{\infty}cf(x)\,dx \end{array}

 

ということはこうなるわけですから

 

\begin{array}{llllll} \displaystyle E[X]&≥&\displaystyle \int_{c}^{\infty}cf(x)\,dx \\ \\ &=&\displaystyle c\int_{c}^{\infty}f(x)\,dx \end{array}

 

こうなります。

 

\begin{array}{llllll} \displaystyle E[X]&≥&\displaystyle c\int_{c}^{\infty}f(x)\,dx \\ \\ \displaystyle \frac{E[X]}{c}&≥&\displaystyle \int_{c}^{\infty}f(x)\,dx \end{array}

 

てことはこうなるわけで、

これで良い感じの不等式が得られました。

 

 

 

確認しておくと

 

\begin{array}{rlllll} \displaystyle E[X]&=&μ \\ \\ c&≤&x \end{array}

 

この c,μ は定数です。

 

\begin{array}{llllll} \displaystyle \frac{E[X]}{c}&≥&\displaystyle \int_{c}^{\infty}f(x)\,dx \end{array}

 

つまり「区間」と「期待値」が定まっているのなら

 

\begin{array}{llllll} \displaystyle P\Bigl( X≥c \Bigr)&:=&\displaystyle \int_{c}^{\infty}f(x)\,dx \end{array}

 

\begin{array}{llllll} \displaystyle P\Bigl( X≥c \Bigr)&≤&\displaystyle\frac{E[X]}{c} \end{array}

 

その2つの定数によって

「確率」の値は制限される、と言うことができます。

 

 


 

 


チェビシェフの不等式 Chebyshev’s

 

|| 分散の時はどうなるんだろ?

これは『分散』を考えた場合の

「マルコフの不等式」になります。

 

\begin{array}{llllll} n>0,σ≥0 \\ \\ \displaystyle \displaystyle P\Bigl(|X-μ_X|≥nσ\Bigr)&≤&\displaystyle\frac{1}{n^2} \end{array}

 

『期待値と定数』で「確率」を抑えられる。

なら『分散と定数』でも「確率」を抑えられるんじゃ?

 

 

これはそんな感じの発想から生まれたもので

かなり数式数式しているものになります。

 

 

 

 

 

不等式の導出

 

この式の導出はちょっと複雑で、

あまり馴染みのない方法を使って求められています。

 

\begin{array}{llllll} \displaystyle P\Bigl( X≥c \Bigr)&≤&\displaystyle\frac{E[X]}{c} \end{array}

 

出発点はこの「マルコフの不等式」

ここから「期待値 E[X] 」と「定数 c 」を

「分散 σ^2 」と「定数」に変えてみるわけですが

 

\begin{array}{llllll} \displaystyle σ^2&=&E[(X-μ_X)^2] \\ \\ X&→&(X-μ_X)^2 \end{array}

 

\begin{array}{llllll} \displaystyle \displaystyle P\Bigl( (X-μ_X)^2≥c \Bigr)&≤&\displaystyle\frac{E[(X-μ_X)^2]}{c} \\ \\ &=&\displaystyle \frac{σ^2}{c}\end{array}

 

これはこの時点では特に意味を持ちません。

ただ文字が変わっただけです。

 

 

 

 

 

文字の削減

 

↓ の式のままでは特に意味が無い。

 

\begin{array}{llllll} \displaystyle \displaystyle P\Bigl( (X-μ_X)^2≥c \Bigr)&≤&\displaystyle \frac{σ^2}{c}\end{array}

 

これは確かなことで

だからこそ、ここでちょっと考える必要があります。

 

\begin{array}{llllll} \displaystyle c&→&? \end{array}

 

そこで注目されるのがこの部分で

思えば、この点 c は任意(なんでもいい)

 

\begin{array}{llllll} \displaystyle \frac{σ^2}{c} \end{array}

 

つまり「範囲内の値」であれば

どのような値をとったとしても特に問題はありませんから

 

\begin{array}{llllll} \displaystyle c&→&nσ^2 \end{array}

 

「文字の数を削減する」という方針で行くなら

このような適当な値を入れることができます。

 

\begin{array}{llllll} \displaystyle P \Bigl( (X-μ_X)^2≥nσ^2 \Bigr)&=&P \Bigl( |X-μ_X|≥|\sqrt{n}σ| \Bigr) \end{array}

 

\begin{array}{llllll} \displaystyle P \Bigl( |X-μ_X|≥|\sqrt{n}σ| \Bigr)&≤&\displaystyle \frac{σ^2}{nσ^2} \\ \\ &=&\displaystyle\frac{1}{n} \end{array}

 

\begin{array}{llllll} \displaystyle P \Bigl( |X-μ_X|≥|\sqrt{n}σ| \Bigr)&≤&\displaystyle\frac{1}{n} \end{array}

 

するとこうなるので

『分散の係数 n の点』を定めるだけで

『確率を定数 n だけで抑えられる』

 

 

こういう事実が分かるわけで

ということは、この時点で

「分散で抑えてみる試み」に意味が生まれます。

 

 

 

 

 

式の整理

 

ただ、このままだと左辺が微妙。

n 」が になるのでなんか収まりが悪い。

 

\begin{array}{llllll} \displaystyle P\Bigl(|X-μ_X|≥nσ\Bigr)&≤&\displaystyle\frac{1}{n^2} \end{array}

 

なので特に問題も無さそうですから

定数 c を「 n^2σ^2 」にして を消してみると

なんか良い感じに綺麗な式が出来上がります。

 

 

 

これが「チェビシェフの不等式」で

これにより『1つの値で確率の上限が決まる』

そんな事実が証明されることになりました。

 

 

 


 


大数の法則 Law of Large Numbers

 

|| 数こそ正義という事実の裏付け

『標本数(サンプルの数)が多い』ほど

 

\begin{array}{rlllll} \displaystyle P\Bigl( |\overline{X_n}-μ|≥ε \Bigr)&≤&\displaystyle\frac{σ^2}{nε^2} \\ \\ \\ \displaystyle \lim_{n \to \infty}P \Bigl( |\overline{X_n}-μ|>ε \Bigr)&=&0&&(∀ε>0) \\ \\ \\ \\ \displaystyle P\left(\lim_{n \to \infty}X_n=μ \right)&=&1\end{array}

 

『標本平均(一部の平均)』が

『真の平均(全体の平均)』に近づく

ということを表す法則のこと。

 

 

これは『確率収束』やら『概収束』の話で

式はそれを表すものになります。

 

 

 

 

 

大数の法則の条件

 

これが成立するには

3つほどの条件が必要になります。

 

 

『標本確率変数』が独立(当たり前な感じ)

『標本確率変数』が同一の分布に従う(別のやつじゃない)

「標本平均」も確率変数

 

 

以上がその条件なんですけど

まあこれだけ見てもよく分からないですよね。

 

 

まあ要は『普通の感覚』の話なんですが

独立同分布である」という言葉の意味を知らないと

きちんと理解するのは難しいかもしれません。

 

 


 

 

大数の弱法則 Weak LLN

 

|| 確率収束?についてのお話

『サンプル数が多く』なっていくと

「例外が無視されていく」感覚の話。

 

\begin{array}{rlllll} \displaystyle P\Bigl( |\overline{X_n}-μ|≥ε \Bigr)&≤&\displaystyle\frac{σ^2}{nε^2} \\ \\ \\ \displaystyle \lim_{n \to \infty}P \Bigl( |\overline{X_n}-μ|>ε \Bigr)&=&0&&(∀ε>0) \end{array}

 

ε,μ 」は定数

\overline{X_n} 」は確率変数を表す記号とします。

 

 

 

 

 

式の解説

 

『僅かにでも誤差 ε があれば』

『サンプル数 n をどこまでも大きくすれば』

 

\begin{array}{rlllll} \displaystyle P\Bigl( |\overline{X_n}-μ|≥ε \Bigr)&≤&\displaystyle\frac{σ^2}{nε^2} \\ \\ \\ \displaystyle \lim_{n \to \infty}P \Bigl( |\overline{X_n}-μ|>ε \Bigr)&=&0&&(∀ε>0) \end{array}

 

「標本平均 \overline{X_n} 」と『母数 μ との誤差 ε

『この誤差を超える確率 P 』が

0 に近づいていく」とこの式は言っています。

 

 

↑ の式はその感覚を表現するもので

 

\begin{array}{llllll} \displaystyle \displaystyle P\Bigl( |\overline{X_n}-μ|>ε \Bigr) \\ \\ \displaystyle =\int_{-\infty}^{-ε+μ}f(x_n)\,dx_n+\int_{ε+μ}^{\infty}f(x_n)\,dx_n&≤&\displaystyle\frac{σ^2}{nε^2} \end{array}

 

分解するとこんな感じのことを言っています。

 

 

基礎は「チェビシェフの不等式」です。

 

\begin{array}{llllll} \displaystyle \displaystyle σ^2 &&→&&\displaystyle\frac{σ^2}{n} \end{array}

 

また「標本平均の分散」は ↑ ですから

 

\begin{array}{llllll} \displaystyle P\Bigl[ (X-μ_X)^2≥c \Bigr] &≤&\displaystyle\frac{E[(X-μ_X)^2]}{c} \\ \\ &=&\displaystyle\frac{σ^2}{c} \end{array}

 

\begin{array}{llllll} \displaystyle P \Bigl[ (\overline{X_n}-μ_{X_n})^2≥c \Bigr] &≤&\displaystyle\frac{E[(\overline{X_n}-μ_{X_n})^2]}{c} \\ \\ &=&\displaystyle\frac{\displaystyle\left(\frac{σ^2}{n}\right)}{c} \\ \\ &=&\displaystyle\frac{σ^2}{nc} \end{array}

 

こうだと言えます。

 

 


 

 

大数の強法則 Strong LLN

 

|| 概収束?についてのお話

「最終的には一定になる」みたいな感じ。

 

\begin{array}{llllll} \displaystyle \displaystyle P\left(\lim_{n \to \infty}X_n=μ \right)&=&1 \end{array}

 

感覚的には「動きが無くなる」感じの話で

 

 

例えば「ある人物が1日に手を動かす回数」

こういうものを考える場合

 

 

実際にはどんな値をとるかは分かりませんが

しかし「 1000 年後」では

ほぼ確実に「 0 回」と言えますよね。

 

 

これが「大数の強法則」の感覚で

 

\begin{array}{llllll} \displaystyle \displaystyle P\left(\lim_{n \to \infty}X_n=μ \right)&=&1 \end{array}

 

この式は『最終的には( n\to\infty )』

「真の値 μ 」に『ほぼ確実に一致する』

ということを表現しています。

 

 

 

証明には「モーメント母関数」の知識が必要になるので

詳しくは別の記事で扱います。

 

 


 

 

中心極限定理 Central Limit Theorem

 

|| 統計学の基本定理

「簡単な分布に落ち着く」感じ。

 

 

ここでの簡単な分布というのは「正規分布」のことで

「期待値」と「分散」の存在は前提になります。

 

 

 

証明には「正規分布」「特性関数」の知識が必要に。

簡単にはちょっと書けないので

詳しいことは別の記事で話します。