正規分布 Normal Distribution


|| 山っぽい形のデータの分布

「だいたいのデータが従う分布」のこと

スポンサーリンク

 

 

 


目次

 

正規分布「平均と分散の型が決まってる分布」

   正規分布の母数「母平均と母分散の確認」

   単純な分布への近似「二項分布に寄せた成果が正規分布」

   確率化「得られた形を確率的に扱えるように加工する」

   標準正規分布「平均も分散も単純になってるやつ」

 

 

 

 

 


正規分布 Normal Distribution

 

|| よく見られる代表的なデータの分布

「平均 μ 」と「分散 σ^2 」に従う分布で

 

\begin{array}{lcr} N(μ,σ^2) && 正規分布 \\ \\ N(0,1) && 標準正規分布 \end{array}

 

\mathrm{Normal\,Distribution} 」の頭文字をとって

このように書かれることがあります。

 

\begin{array}{ccc} f(x) &=& \displaystyle \frac{1}{\sqrt{2πσ^2}}\exp{\left(-\frac{(x-μ)^2}{2σ^2}\right)} \end{array}

 

またこれの『確率密度関数 f 』はこうです。

(この式の意味がわからないと感じるのは正常)

 

 

 

 

 

よく見られるデータの偏り

 

「測量」や「天体観測」のデータ

「二項分布のヒストグラム」など

 

\begin{array}{ccc} よくある形 & \left\{ \begin{array}{lcl} 中央が盛り上がってる \\ \\ 左右対称な形をしてる \\ \\ 左右に遠くなるとほぼ0になる \end{array} \right. \end{array}

 

 

昔から統計的にこういった形は得られていて

 

\begin{array}{lcl} よく見る &\to& 多項式やらいろいろ試す \\ \\ 指数関数の試行 &\to& 結果的に実データとほぼ一致 \\ \\ &\to& 中心付近の丸みが丁度良い \\ \\ &\to& 指数なので左右の低下速度が速い \end{array}

 

これをうまい具合に数式で表現したものが

 

\begin{array}{lcl} 実データの観察 &\to& 特定の図形的な性質が分かる \\ \\ &\to& その性質を満たす式を探す \\ \\ &\to& 多項式関数や指数関数を試す \\ \\ &\to& 結果的にe^{-x^2}が良い感じだった \\ \\ \\ 事後的整理 &\to& 生成関数や中心極限定理 \\ \\ &\to& 数式的な正当化が可能になった \\ \\ &\to& 標準的な分布として定着した \end{array}

 

「正規分布」と呼ばれるものになります。

(つまり要請を都合よく満たしたものがあの複雑な式)

 

 

 

 

 

図形的な要請と指数関数

 

改めて整理すると

 

\begin{array}{ccc} よくある形 & \left\{ \begin{array}{lcl} 中央が盛り上がってる \\ \\ 左右対称な形をしてる \\ \\ 左右に遠くなるとほぼ0になる \end{array} \right. \end{array}

 

まず『正規分布の原型への要請』はこうです。

(この時点では『現実の数式による記述』が目的)

 

\begin{array}{lcl} 形の要請 &\to& いろんな関数の図を観察 \\ \\ &\to& まず単純な関数を調べる \\ \\ \\ 左右対称 &\to& xと-xのyが一致 \\ \\ &\to& x^2や|x|を使えば実現可能 \\ \\ \\ 山っぽい形 &\to& 0から+へ行くと急激に下がる \\ \\ &\to& 減少するタイプの関数と予想可能 \\ \\ \\ 端でほぼ0 &\to& 常に正の関数が理想的 \\ \\ &\to& \displaystyle \frac{1}{x}や\frac{1}{a^x}が候補に挙がる \end{array}

 

なので『発想される式の形』は

 

\begin{array}{l} コーシー分布の原型 && \displaystyle \frac{1}{x} &\to & \displaystyle \frac{1}{x^2} &\to& \displaystyle \frac{1}{1+x^{2}} \\ \\ ラプラス分布の原型 && \displaystyle \frac{1}{a^{x} } &\to& \displaystyle \frac{1}{a^{|x|}} &\to& \displaystyle \frac{1}{ e^{|x|} } \end{array}

 

「単純なもの」だとこのようなものが想定されます。

(山のような形で左右対称であるという要請から)

 

 

 

 

 

高精度化の要請

 

以上の候補を改めて整理すると

 

\begin{array}{ccc} \displaystyle \frac{1}{x} & \overset{対称に}{\to} & \displaystyle \frac{1}{|x|} & \overset{曲線的に}{\to} & \displaystyle \frac{1}{x^2} & \overset{0の整備}{\to} & \displaystyle \frac{1}{1+x^2} \end{array}

 

こういった「曲線的な感覚」により

 

 

『実際のデータに近い』という意味で

「高精度化される」のは

 

 

\begin{array}{ccc} \displaystyle \frac{1}{a^x} & \overset{対称に}{\to} & \displaystyle \frac{1}{ a^{|x|} } & \overset{曲線的に}{\to} & \displaystyle \frac{1}{ a^{x^2} } & \overset{単純に}{\to} & \displaystyle \frac{1}{ e^{x^2} } \end{array}

 

『例外はほぼ出ない』という要請と

(中央の近く以外はほぼ 0 になる)

 

 

『図形の観察から』明らかです。

(実際のデータの分布に近いのが 1/a^{x^2} の形)

 

 

整理すると

 

\begin{array}{lcl} 図形要請 &\to& 右と左で下がる形 \\ \\ &\to& 逆数なんかが使える \\ \\ &\to& 全体的な形は対称的にしたい \\ \\ &\to& |x|とかx^2が使える \\ \\ &\to& 図形中央の観察で比較 \\ \\ &\to& x^2の形の方が実際に近い \\ \\ &\to& 分母が0になるのは避けたい \\ \\ &\to& x^2に1を足す形を分母とする \\ \\ \\ 例外要請 &\to& 単純な形は例外の部分で不一致 \\ \\ &\to& 中央付近以外はほぼ0になる \\ \\ &\to& 高次関数や指数関数を試行 \\ \\ &\to& 実際の図形に近くなる \\ \\ &\to& 指数関数の方が扱いやすさで優位 \\ \\ &\to& データの形とほぼ一致した \end{array}

 

要請による絞り込みの流れはこんな感じ。

(現実のデータとの比較から絞り込まれる)

 

 

 

 

 

対応範囲の拡張要請

 

「平均値」を使った『 x 軸での平行移動』要請と

(どのような平均値にも対応できるようにする)

 

\begin{array}{lcc} x&\to& x-μ \\ \\ x^2 &\to& \displaystyle \frac{x^2}{σ^2} \end{array}

 

「分散」を使った『 y 軸の伸縮』要請

(分散は横に広がる感じの指標であると考える)

 

\begin{array}{ccc} \displaystyle e^{-\frac{(x-μ)^2}{2σ^2}}&=& \displaystyle \exp{\left(-\frac{(x-μ)^2}{2σ^2}\right)} \end{array}

 

これらによって結果的に得られたのがこの形で

(この構成のためにはまだ要請が不足している)

 

\begin{array}{lcl} 図形の位置 &\to& 左右対称なので中心は平均値 \\ \\ &\to& 平均値で中心を決める \\ \\ &\to& xがμと一致する時に0になる \\ \\ \\ 図形の形 &\to& 尖ってたり平たくなったり \\ \\ &\to& 分散は平均からの遠さの指標 \\ \\ \\ 分散の活用 &\to& 図形の広がりに対応する \\ \\ &\to& 分散が小さければ尖る \\ \\ &\to& 分散が大きければ広がる \\ \\ \\ どう使う? &\to& 全体 e^{-x^2} への作用だと比率が変わるだけ \\ \\ &\to& 拡大縮小は起きるが形はそのまま \\ \\ &\to& x^2なら引き延ばしと収縮が起きる \\ \\ &\to& x^2への作用なら尖りと膨れを実現可能 \end{array}

 

その要請の詳細はこんな感じになっています。

(この時点ではまだ不明な部分がある)

 

 

 

 

 

実際のデータと二項分布

 

以上と『実際のデータとの比較』から

 

\begin{array}{lcl} 比較したい &\to& 実際のデータはいろいろある \\ \\ &\to& シンプルなのが望ましい \\ \\ \\ 単純なデータ &\to& 規則的であることが望ましい \\ \\ &\to& 結果が少ない方が望ましい \\ \\ \\ 最小の分岐 &\to& 2通りの結果のみが最小 \\ \\ &\to& コインの裏表や出る出ないなど \\ \\ &\to& n回行うベルヌーイ試行 \\ \\ \\ 規則的なもの &\to& 全ての事象が分かるのが理想 \\ \\ &\to& 二項分布が候補の最有力に \end{array}

 

この要請として導かれたのが

「全事象が分かっている二項分布」で

 

\begin{array}{lcl} 期待値 &\to& np \\ \\ 分散 &\to& npq \end{array}

 

これは「母数(パラメータ)」が分かることから

 

\begin{array}{ccc} \displaystyle \frac{1}{e^{x^2}} &\overset{中心の調整}{\to}& \displaystyle \frac{1}{e^{ (x-μ)^2} } &\overset{形の調整}{\to}& ? \end{array}

 

『一致させる指標』として機能してくれます。

(この時点では指標の1つに過ぎない)

 

 

 

 

 

全事象が分かっている二項分布

 

改めて整理しておくと

 

\begin{array}{ccc} コイン &\left\{ \begin{array}{lcl} 1回試行 &\to& 表か裏 \\ \\ 2回試行 &\to& 表表,表裏,裏表,裏裏 \\ \\ &\vdots \end{array} \right. \end{array}

 

これは要はこういう話なので

(試行回数 n 回で事象は必ず 2^n 個になる)

 

\begin{array}{ccc} n=1 &&\to && E[X] &=& \displaystyle 1\cdot \frac{1}{2} +0\cdot \left( 1-\frac{1}{2} \right) \\ \\ && \to && E[X] &=& \displaystyle \frac{1}{2} \\ \\ \\ n=1 &&\to && E[X] &=& 1\cdot p+0\cdot (1-p) \\ \\ && \to && E[X] &=& p \end{array}

 

「期待値 E[X]=μ 」は必ずこのようになります。

(表や出るなどが 1 でそうじゃないなら 0

 

\begin{array}{ccl} V[X] &=& \displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_i-μ)^2p_i \\ \\ &=& \displaystyle \left( \frac{1}{n} \sum_{i=1}^{n} x_i^2p_i \right) - \left( \frac{1}{n} \sum_{i=1}^{n} 2μx_ip_i \right) +\left( \frac{1}{n} \sum_{i=1}^{n} μ^2p_i \right) \\ \\ &=& \displaystyle \left( \frac{1}{n} \sum_{i=1}^{n} x_i^2p_i \right) - μ^2 \end{array}

 

また「期待値」が分かることから

 

\begin{array}{ccc} n=1 &&\to && V[X] &=& \displaystyle \left(1^2\cdot \frac{1}{2} +0^2\cdot \left( 1-\frac{1}{2} \right) \right) - \left( \frac{1}{2} \right)^2 \\ \\ && \to && V[X] &=& \displaystyle \frac{1}{2} \left( 1-\frac{1}{2} \right) \\ \\ \\ n=1 &&\to && V[X] &=& \Bigl( 1^2\cdot p+0^2\cdot (1-p) \Bigr) -p^2 \\ \\ && \to && E[X] &=& p(1-p) \end{array}

 

「分散」もまた確定させることができます。

(全事象が確定しているので全体の母数が分かる)

 

 

 

 

 

n 回試行の全事象が分かる二項分布

 

この「二項分布」では「独立同分布である」という

(全て同じ確率とする「同様に確からしい」も)

 

\begin{array}{ll} 定義後 & \left\{ \begin{array}{lcl} 独立 &\to& 共通部分を持たない \\ \\ &\to& X∩Y≠∅ \\ \\ &\to& 前の結果は後に影響しない \\ \\ &\to& P(A|B)P(B)=P(A)P(B) \\ \\ &\to& 前と後は別々に考えられる \\ \\ &\to& X∩Y≠∅ ⇒E[X∪Y]=E[X]+E[Y] \\ \\ \\ 同分布 &\to& 同じ全体を切り分けてる \\ \\ &\to& 全体=表+裏(例外排除) \\ \\ &\to& 1 = \displaystyle \sum_{i=1}^{n} p_i \end{array} \right. \end{array}

 

「余計な要素が排除された」形の

(厳密には「シンプルな分布の特徴」が独立同分布)

 

\begin{array}{lcl} 実際 & \left\{ \begin{array}{lcl} 整理前 &\to& 独立同分布ではない \\ \\ 整理後 &\to& 独立同分布に近づく \\ \\ 定義後 &\to& 独立同分布とする \end{array} \right. \end{array}

 

『整理された状態』を前提にできるので

(正確には余計な例外を考えないことにした結果がこれ)

 

\begin{array}{lclcl} 全体 && P(X)&=&1 \\ \\ 切り分け && P(X)&=&P(X_1)+P(X_2)+\cdots + P(X_n) \end{array}

 

n 回の試行」はこのように表現できます。

(このシンプルな形を得るために同分布であると定義する)

 

\begin{array}{ccc} X∩Y≠∅ &\to& E[X∪Y]=E[X]+E[Y] \end{array}

 

そして「複数の試行の期待値 E[X∪Y] 」の定義から

(既存定義の定義改変がこちらの定義では不要になる)

 

\begin{array}{lcl} E[X] &=& E[X_1]+E[X_2]+\cdots + E[X_n] \\ \\ &=& p+p+\cdots +p \\ \\ &=& np \end{array}

 

「二項分布では」このようになり

(これはコインの表が出た回数などを意味する)

 

\begin{array}{ccl} V[X] &=& E \Bigl[ (X-E[X])^2 \Bigr] \\ \\ &=& E \Bigl[ (X_1-E[X_1])^2 \Bigr] +\cdots+E \Bigl[ (X_n-E[X_n])^2 \Bigr] \\ \\ &=& p(1-p)+p(1-p)+\cdots +p(1-p) \\ \\ &=& np(1-p) \end{array}

 

「分散」もまた同様に計算できます。

(分散は期待値によって定義されている)

 

 

 

 

 

整理された実データと良い形の関数

 

以上の事実を用いて調整していくと

 

 

まずこの調整は

 

 

このような形で実現できます。

(二項分布の山頂を求めればいい)

 

 

そして「分散の位置」については

 

 

この「縦の伸縮操作」と

 

 

「横の伸縮操作」を比較すれば

 

 

この「両者を近づけたい」という要請から

 

\begin{array}{lcl} \displaystyle \frac{1}{e^{x^2}} & \overset{\displaystyle c\times \frac{1}{e^{x^2}} }{\longrightarrow} & 縦の伸縮 && 不要 \\ \\ \displaystyle \frac{1}{e^{x^2}} & \overset{\displaystyle c\times x^2 }{\longrightarrow} & 横の伸縮 && 必要 \end{array}

 

『横の伸縮操作が要請を満たす』と分かるので

 

\begin{array}{lcl} 分散が大きい &\to& 平均に寄らない &\to& 横に広い \\ \\ 分散が小さい &\to& 平均に寄る &\to& 尖ってる \end{array}

 

この「分散の意味」から

(そのままではなく逆数で考えるのが適切)

 

\begin{array}{ccc} \displaystyle P(np)\frac{1}{e^{ \frac{(x-μ)^2}{σ^2} } } &=& \displaystyle P(np)e^{\displaystyle - \frac{ (x-np)^2 }{np(1-p)}} \end{array}

 

このような形を得ることができます。

(かなり現代の正規分布の形に近づく)

 

 

補足しておくと

 

\begin{array}{lcl} P(0) &=& (1-p)^n \\ \\ P(np) &=& 山頂の確率 \end{array}

 

「二項分布の n 回試行の確率 P 」は

 

\begin{array}{ccc} P(k) &=& \displaystyle {}_n \mathrm{C}_{k} p^k (1-p)^{n-k} \end{array}

 

このような形で求めることができます。

(「表表裏」「表裏表」などの組み合せの数え上げです)

 

 

 

 

 

不一致と調整するための c

 

ただここまでやっても

 

 

まだ『2つの図形は一致しない』ので

 

\begin{array}{lcl} 分散だけ &\to& 横の広がりが足りない \\ \\ &\to& 分散より大きい値が必要 \\ \\ &\to& 分散の他にx^2の分母の値が必要 \end{array}

 

x^2 の分母を大きくする』必要があります。

(この時点では実際のデータしか手掛かりがない)

 

 

ここで以下のような c を考えて

 

\begin{array}{lcl} N(x) &=& \displaystyle P(np) \cdot e^{\displaystyle -\frac{(x-μ)^2}{cσ^2} } \\ \\ &=& \displaystyle P(np) \cdot e^{\displaystyle -\frac{(x-np)^2}{cnp(1-p)} } \end{array}

 

「山頂の点以外」の点を得るために

 

\begin{array}{lcl} 横に広げたい &\to& 広げる基準が必要 \\ \\ &\to& 二項分布とN(x)の一致 \\ \\ &\to& x=a,y=bの二項分布を使う \\ \\ &\to& N(x)=bの時x=aとなるようなcが答え \end{array}

 

「最も単純な n=2,p=1/2 」のパターンで考えてみると

 

\begin{array}{lcl} \displaystyle p=\frac{1}{2} &\to& 表の回数の確率Pで考える \\ \\ &\to& \displaystyle P(0)=\frac{1}{4},P(1)=\frac{1}{2},P(2)=\frac{1}{4} \\ \\ &\to& \displaystyle μ=np=1, σ^2=np(1-p)=\frac{1}{2} \end{array}

 

「山頂 x=1 以外の点 x=0 」を考えた時

 

\begin{array}{lcl} x=0 &\to& \displaystyle y=P(0)=\frac{1}{4} \\ \\ x=0 &\to& \displaystyle y=N(0)=\frac{1}{4} \end{array}

 

このような関係が得られるので

 

\begin{array}{ccl} N(x) &=& \displaystyle P(np) \cdot e^{\displaystyle -\frac{(x-np)^2}{cnp(1-p)} } \\ \\ \displaystyle \frac{1}{4} &=& \displaystyle P(1) \cdot e^{\displaystyle -\frac{(0-1)^2}{c\frac{1}{2}} } &=& \displaystyle \frac{1}{2}\cdot\frac{1}{e^{\frac{2}{c}}} \end{array}

 

これはこのような式になり

 

\begin{array}{c} 2&=& e^{\frac{2}{c}} \\ \\ \log 2 &=& \displaystyle \frac{2}{c} \\ \\ c&=& \displaystyle\frac{2}{\log 2} &=& 2.885... \end{array}

 

求めたい調整値 c はこのようになります。

(この時点ではまだ c=2 にはならない)

 

 

 

 

 

n が増えると滑らかになっていく

 

ここから重要になるのが

 

\begin{array}{lcl} nが少ない &\to& 図形はギザギザ \\ \\ nが多い &\to& 図形が曲線に近づく \end{array}

 

「二項分布の変化」で

 

 

n が増えた時の二項分布」の形を考えた時

 

 

これは N(x) に近づくと考えられることから

 

\begin{array}{lcl} n=2のx=0 &\to& 端でもあり中心のすぐ傍でもある \\ \\ &\to& 端はx=0で計算もしやすい \\ \\ &\to& すぐ横もx=np\pm 1で計算しやすい \\ \\ \\ 形を合わせたい &\to& 端より中心に近い方を優先したい \\ \\ &\to& (x-np)^2を1にして考えてみる \end{array}

 

「中心に来ないシンプルな点」を使って考えてみると

 

\begin{array}{ccl} N(x) &=& \displaystyle P(np) \cdot e^{\displaystyle -\frac{(x-np)^2}{cnp(1-p)} } \\ \\ \displaystyle P(np+1) &=& \displaystyle P(np) \cdot e^{\displaystyle -\frac{(np+1-np)^2}{cnp(1-p)} } \end{array}

 

この時の調整のための値 c

 

\begin{array}{lcl} e^{\displaystyle -\frac{(np+1-np)^2}{cnp(1-p)} } &=& e^{\displaystyle -\frac{1}{cnp(1-p)} } \end{array}

 

ゴリゴリ計算することによって

 

\begin{array}{lcl} \displaystyle \frac{P(np+1)}{P(np)} &=& \displaystyle \frac{ {}_n \mathrm{C}_{np+1} p^{np+1} (1-p)^{n-(np+1) } }{ {}_n \mathrm{C}_{np} p^{np} (1-p)^{n-np} } \\ \\ &=& \displaystyle \frac{ {}_n \mathrm{C}_{np+1} }{ {}_n \mathrm{C}_{np} } \cdot \frac{ p^{np+1} (1-p)^{n-np-1} }{ p^{np} (1-p)^{n-np} } \\ \\ &=& \displaystyle \frac{ {}_n \mathrm{C}_{np+1} }{ {}_n \mathrm{C}_{np} } \cdot \frac{ p }{ 1-p } \\ \\ &=& \displaystyle \frac{ \frac{n!}{(n-(np+1))!(np+1)!} }{ \frac{n!}{(n-np)!(np)!} } \cdot \frac{ p }{ 1-p } \\ \\ &=& \displaystyle \frac{ n-np }{ np+1 } \cdot \frac{ p }{ 1-p } \\ \\ &=& \displaystyle \frac{np}{np+1} \end{array}

 

以下の形になんとか整理できるので

 

\begin{array}{ccccl} \displaystyle P(np+1) &=& \displaystyle P(np) &\cdot & e^{\displaystyle -\frac{(np+1-np)^2}{cnp(1-p)} } \\ \\ \displaystyle \frac{ P(np+1) }{ P(np) } &=& {} && \displaystyle e^{\displaystyle -\frac{(np+1-np)^2}{cnp(1-p)} } \\ \\ \displaystyle \frac{np}{np+1} &=& {} && e^{\displaystyle -\frac{1}{cnp(1-p)} } \end{array}

 

後はこれを使って

 

\begin{array}{ccl} \displaystyle p=\frac{1}{2} &\to& \displaystyle \log \frac{n}{n+2} = - \frac{4}{cn} \\ \\ &\to& \displaystyle c=-\frac{4}{n \Bigl( \log n - \log (n+2) \Bigr) } \end{array}

 

力業で計算すれば

 

\begin{array}{lclcl} p=\displaystyle \frac{1}{2} & \left\{ \begin{array}{lclcl} n=2 &\to& np=1 &\to& c=2.8853... \\ \\ n=10 &\to& np=5 &\to& c=2.1939... \\ \\ n=20 &\to& np=10 &\to& c=2.0984... \\ \\ n=50 &\to& np=25 &\to& c=2.0397... \\ \\ n=100 &\to& np=50 &\to& c=2.0190... \end{array} \right. \end{array}

 

2 という値が最適」という予想が得られます。

(整数だと計算しやすいというのも理由として大きい)

 

 

 

 

 

e^k の定義と 2

 

知識のある方なら分かると思うんですが

 

\begin{array}{lcr} \displaystyle c &= & \displaystyle -\frac{4}{n \Bigl( \log n - \log (n+2) \Bigr) } \\ \\ &=& \displaystyle \frac{4}{n \Bigl( \log (n+2) - \log n \Bigr) } \end{array}

 

この式の分母について観察してみると

 

\begin{array}{ccl} cの分母 &=& n \Bigl( \log (n+2) - \log n \Bigr) \\ \\ &=& \displaystyle n \left( \log \left( \frac{n+2}{n} \right) \right) \\ \\ &=& \displaystyle n \left( \log \left( 1 + \frac{2}{n} \right) \right) \\ \\ &=& \displaystyle \log \left( 1 + \frac{2}{n} \right)^n \end{array}

 

これはこのような形になります。

対数の計算法則はこの記事では省略)

 

 

不思議な話ですが

 

\begin{array}{ccc} e^k &=& \displaystyle \lim_{n\to\infty} \left( 1 + \frac{k}{n} \right)^n \end{array}

 

この定義の形になるので

n\to\infty という形で「極限」をとれば

 

\begin{array}{ccc} \displaystyle \lim_{n\to\infty} \log \left( 1 + \frac{2}{n} \right)^n &=& \displaystyle \log e^2 \end{array}

 

この分母の部分はこのようになります。

(底が e なのでこれは 2 になる)

 

 

結果として

 

\begin{array}{ccc} c &\overset{n\to\infty}{\longrightarrow}& \displaystyle \frac{4}{2} \end{array}

 

c2 という定数に帰結するので

↓ の形は「 n\to\infty の滑らかな二項分布」と

 

\begin{array}{ccc} \displaystyle P(np) \cdot e^{\displaystyle -\frac{(x-np)^2}{2np(1-p)} } \end{array}

 

『3点では』一致する関数になります。

(山頂とその隣の点はこれと必ず一致する)

 

 

 

 

 

端の点と不一致

 

補足しておくと

 

\begin{array}{lcl} x=0 &\to& P(0)=(1-p)^n \\ \\ x=0 &\to& \displaystyle N(0)=P(np) \cdot e^{ \displaystyle -\frac{ (0- np)^2 }{cnp(1-p)} } \end{array}

 

この x=0 での関係と

 

\begin{array}{lcl} e^{ \displaystyle -\frac{ (0- np)^2 }{cnp(1-p)} } &=&e^{ \displaystyle -\frac{ n^2p^2 }{cnp(1-p)} } \\ \\ &=& e^{ \displaystyle -\frac{ np }{c(1-p)} } \end{array}

 

この形から得られる

 

\begin{array}{lcl} P(0) &=& N(0) \\ \\ (1-p)^n &=& \displaystyle P(np) \cdot e^{ \displaystyle -\frac{ np }{c(1-p)} } \\ \\ \displaystyle n\log (1-p) &=& \displaystyle \log P(np) - \frac{ np }{c(1-p)} \end{array}

 

こちらのパターンからは

 

\begin{array}{lclcl} p=\displaystyle \frac{1}{2} & \left\{ \begin{array}{lclcl} n=2 &\to& np=1 &\to& c=2.8853... \\ \\ n=10 &\to& np=5 &\to& c=1.8058... \\ \\ n=20 &\to& np=10 &\to& c=1.6491... \\ \\ n=50 &\to& np=25 &\to& c=1.5398... \\ \\ n=100 &\to& np=50 &\to& c=1.4974... \end{array} \right. \end{array}

 

『一致はしない』という結論が得られます。

(つまり「近似しかできない」という結論が得られる)

 

 

 

 

 

一致は無理だが近似は可能

 

改めて整理すると

 

\begin{array}{ccc} 事実 & \left\{ \begin{array}{lcl} 求めた形は二項分布に近い \\ \\ 山頂とその隣の点は確実に一致する \\ \\ 端の点は一致しない \end{array} \right. \end{array}

 

この事実から分かることとして

 

\begin{array}{ccc} H(x) &=& \displaystyle (調整値) \cdot e^{ \displaystyle -\frac{ (x-μ)^2 }{ 2σ^2 } } \end{array}

 

「要請」により得られたこの形は

(後に正規分布と呼ばれる形の原型)

 

\begin{array}{lcl} H(x)の性質 &\to& 二項分布の中心辺りは一致する \\ \\ &\to& 具体的には山頂とその隣の点と一致 \\ \\ &\to& ただし一致するのは n\to\infty の場合 \\ \\ &\to& 有限範囲では確実に一致しない \\ \\ &\to& 端などの極端な点はn\to\infty でも不一致 \\ \\ &\to& H(x)は一致図形ではなく近似図形 \end{array}

 

あくまで「近似図形」になります。

(中心付近はほぼ一致するが端の点で誤差が出る)

 

 

 

 

 

確率を導出するための加工

 

以上の流れで ↓ の形が得られたわけですが

 

\begin{array}{ccc} H(x) &=& \displaystyle (調整値) \cdot e^{ \displaystyle -\frac{ (x-μ)^2 }{ 2σ^2 } } \end{array}

 

これは『単純な分布が持つ性質』の1つである

H(x) は二項分布と同様の性質を持っていて欲しい)

 

\begin{array}{ccc} 確率要請 & \left\{ \begin{array}{lcl} データと結びつくものは出現確率 \\ \\ 単純な二項分布もそれに含まれる \\ \\ サンプルであれば全ての分布は同様 \end{array} \right. \end{array}

 

こういった性質を持っていません。

(サンプル統計であれば確率は 出現回数/データ数

 

 

 

 

 

離散の点と連続の点で異なる

 

整理すると

 

\begin{array}{ccc} \displaystyle P(np) \cdot e^{\displaystyle -\frac{(x-μ)^2}{2σ^2} } \end{array}

 

「二項分布による調整」からも分かるように

n \to \infty とすると一致するが点は基本的に有限)

 

\begin{array}{lcl} 1 &=& \cdots +P(np)+ P(np+1)+\cdots \\ \\ 1?&=& \cdots +P(np) \cdot e^{\displaystyle -\frac{(0)^2}{2σ^2} } + P(np+1) \cdot e^{\displaystyle -\frac{(1)^2}{2σ^2} } +\cdots \end{array}

 

これらは「近い値になるはず」ですが

(図形がかなり近い形になるため)

 

 

 

\begin{array}{lcl} np &\to& np+1 \\ \\ x &\to& x+dx \end{array}

 

これらは「連続」だとほとんど区別できません。

npnp+1 の間が連続だとほぼ消える)

 

 

 

 

 

定数で調整してみる

 

以上の観察から分かる通り

『連続では隣の点を区別できない』ことから

 

\begin{array}{lcl} P(np) &>& P(np+1) \\ \\ P(x) &≒& P(x+dx) \end{array}

 

これらの y の判別ができない。

(極限をとると同じ値になってしまう)

 

\begin{array}{ccc} P(np) &\to& 似たような定数 \end{array}

 

また P(np) に縛られず

「一般化したい」という要請から

 

\begin{array}{ccc} \displaystyle P(np) \cdot e^{\displaystyle -\frac{(k-μ)^2}{2σ^2} } &\to& \displaystyle (調整定数) \cdot e^{\displaystyle -\frac{(x-μ)^2}{2σ^2} } \end{array}

 

「1つの定数で調整したい」という要請が得られます。

(区別できない以上 P(np) は定数にする必要がある)

 

 

そして以上の要請から

 

\begin{array}{ccr} \displaystyle \lim_{n\to\infty} \sum & P(np) \cdot e^{\displaystyle -\frac{(k-μ)^2}{2σ^2} } && 離散 \\ \\ \displaystyle \int_{\infty}^{\infty} & (調整定数) \cdot e^{\displaystyle -\frac{(x-μ)^2}{2σ^2} } && 連続 \end{array}

 

この部分は『 1 にならなければなりません』

(連続パターンに対して確率化要請がかかる)

 

 

 

 

 

ガウス積分と都合の良い定数

 

以上の要請と

 

\begin{array}{ccc} \displaystyle \int_{-\infty}^{\infty} e^{\displaystyle -\frac{(x-μ)^2}{2σ^2} } &=& \displaystyle \sqrt{ \frac{ π }{ \frac{1}{2σ^2} } } \end{array}

 

この式の積分がこうなることから

(これの詳細はガウス積分の記事で)

 

\begin{array}{rcc} \displaystyle \int_{\infty}^{\infty} e^{\displaystyle -\frac{(x-μ)^2}{2σ^2} } &=& \displaystyle \sqrt{2πσ^2} \end{array}

 

良い感じの形を『 1 にする』ために

 

\begin{array}{ccc} \displaystyle \frac{1}{ \sqrt{2πσ^2} } \int_{\infty}^{\infty} e^{\displaystyle -\frac{(x-μ)^2}{2σ^2} } &=& 1 \end{array}

 

これに対してこのような調整が必要になります。

(これでやっと現代の正規分布に一致する)

 

 

補足しておくと

「ガウス積分発見前」は

 

\begin{array}{ccc} 調整値 &=& σ2.5066... \end{array}

 

「泥臭い計算から」このような形で導かれており

f(x)(x_2-x_1) は求められるので後は分割を細かくすれば)

 

\begin{array}{ccc} \displaystyle\sqrt{2π} &≒& 2.5066... \end{array}

 

この値は丁度この値と近い値になります。

(ガウス積分は特に関数行列なんかがけっこう高度)

 

 

 

 

 

スターリングとウォリスの積

 

補足しておくと

 

\begin{array}{ccc} \displaystyle\sqrt{2π} &≒& 2.5066... \end{array}

 

\sqrt{2π} であると特定された経緯は

 

\begin{array}{ccc} \displaystyle \frac{π}{2} &=& \displaystyle \frac{2}{1} \cdot \frac{2}{3} \cdot\frac{4}{3} \cdot\frac{4}{5} \cdot\frac{6}{5}\cdot\frac{6}{7} \cdots \end{array}

 

この「ウォリスの積 1655年 」と呼ばれるものを

「スターリング」という人物が知っていたからで

(スターリングの公式はこれを元にしたもの)

 

\begin{array}{lcl} ドモアブルの相談 &\to& 謎の定数2.5066の正体 \\ \\ スターリングの考察 &\to& \sqrt{2π}に近い値だと分かる \\ \\ 例の関数は近似 &\to& テイラーの予想1715年に存在 \\ \\ &\to& 2次近似で試してみる \\ \\ &\to& スターリングの公式が得られる \end{array}

 

「根拠は薄い」ながら

(ここまではあくまで実測値の比較でしかない)

 

\begin{array}{ccc} \displaystyle\sqrt{2π} &≒& 2.5066... \end{array}

 

『まず間違いなくこうなる』ことは予想されていました。

ガウス積分関数行列多重積分などの確立後に成立)

 

 

 

 

 

正規分布の完成

 

以上をまとめると

 

\begin{array}{lcl} よく見る形 &\to& 近似の指標が欲しい \\ \\ 形に合わせる &\to& 山のような曲線 \\ \\ 不足を補正 &\to& 実際のデータと比較 \end{array}

 

この『図形的な要請』と

 

\begin{array}{lcl} 実際のデータ &\to& 単純なデータが分かり易い \\ \\ 単純なデータ &\to& 二項分布はかなり単純 \\ \\ 形を合わせる &\to& 縦は確率で良いが横が不足 \\ \\ 横が不足する &\to& 横幅を意味する分散を使う \\ \\ まだ横が不足 &\to& 分散だけでは足りない \\ \\ 不足分の値 &\to& 実際のデータと比較する \end{array}

 

『単純なデータとの整合性』と

 

\begin{array}{lcl} 二項分布と近い &\to& 形はほとんど一致 \\ \\ 二項分布の性質 &\to& 他の性質も持ってて欲しい \\ \\ 確率化要請 &\to& 確率が持つ性質も欲しい \end{array}

 

『確率化要請』から得られた ↓ の形が

 

\begin{array}{rcc} \displaystyle \int_{\infty}^{\infty} \frac{1}{ \sqrt{2πσ^2} } e^{\displaystyle -\frac{(x-μ)^2}{2σ^2} } &=& 1 \\ \\ \displaystyle \frac{1}{ \sqrt{2πσ^2} } e^{\displaystyle -\frac{(x-μ)^2}{2σ^2} } &=& f(x) \end{array}

 

「正規分布」と呼ばれる関数になります。

(良い感じの近似図形として調整された成果物)

 

 

 

 

 


標準正規分布 Simple

 

|| 正規分布の中でも一番簡単に扱えるやつ

これは「単純化された正規分布」のことで

 

\begin{array}{lccl} N(x,μ,σ^2) &=& \displaystyle \frac{1}{ \sqrt{2πσ^2} } & e^{\displaystyle -\frac{(x-μ)^2}{2σ^2} } \\ \\ N(x,0,1) &=& \displaystyle \frac{1}{ \sqrt{2π} } & e^{\displaystyle -\frac{x^2}{2} } \end{array}

 

「関数 N(x,0,1) 」のことを指します。

(正確には x の定義 x\in X も正規分布の定義に含む)

 

 

 

 

 

計算の単純化のために変換される形

 

「単純正規分布」とはつまり『正規分布の雛形』で

 

\begin{array}{ccc} z&=&\displaystyle \frac{x-μ}{σ} \\ \\ σz+μ &=& x \end{array}

 

「任意の正規分布」は ↑ の単純な置換によって

x を中心 μ へ動かして σ^2 で拡大縮小)

 

\begin{array}{cccl} N(x,μ,σ^2) &=& \displaystyle \frac{1}{ \sqrt{2πσ^2} } & e^{\displaystyle -\frac{(x-μ)^2}{2σ^2} } \\ \\ &=& \displaystyle \frac{1}{ \sqrt{2πσ^2} } & e^{\displaystyle -\frac{z^2}{2} } \\ \\ 確率要請 &\to& \displaystyle \frac{1}{ \sqrt{2π} } & e^{\displaystyle -\frac{z^2}{2} } \end{array}

 

この形に変形されます。

(これで一律の単純な計算が可能になる)

 

 

整理すると

 

\begin{array}{lcl} 変数整理 &\to& まず中心μへ動かす \\ \\ &\to& σで拡大縮小する \\ \\ \\ 確率要請 &\to& zでの積分値は\sqrt{2π}になる \\ \\ &\to& \sqrt{σ^2}が邪魔になるので取り除く \\ \\ \\ 単純正規分布 &\to& \sqrt{σ^2}を計算結果に掛ける \\ \\ &\to& 変数を\sqrt{σ^2}で拡大縮小しμで動かす \end{array}

 

このような順番で計算が単純化されます。

(つまり μσ さえ求めれば全て計算できる)