確率論 Probability Theory


|| 人間の叡智の結晶

一言で言えば『正しさの割合』のことです。

「公理的確率論」的に言えば、単なる数字ですけど。

スポンサーリンク




目次


確率の概要「そもそも確率って?」



標本空間「試行の結果全体のこと」

事象「起こり得ること」



確率「起きる割合を表した感じ」

   コルモゴロフの公理「確率の存在を公理化したもの」



確率空間「確率を扱う上での最低条件のこと」

   確率測度「確率を表すためのもの」



確率変数「ある確率で出現するものを表す数値」



確率分布「確率測度を見えるようにしてみたもの」

   累積分布関数「確率分布を関数で表してみたもの」

   確率密度関数「連続型データに対応するためのもの」



条件付き確率「前に起きたことが後に起きたことに関わる」

   ベイズの定理「後のことが前のことにに影響を与える」








この数値が表す意味は、知っておかないと誤解を生みます。

よくある誤解を挙げると「何回の内何回くらい」とかでしょうか。

これは合ってるようで、実は本質的に違います。




『確率』が表すのは「正しさの割合」です。

「全体」の中に『どれくらい含まれているか』示してます。

視覚的には、穴の大きさが分かるフィルターみたいなものです。




これは『真偽』っていう「二値」を

『真・条件真(多数)』『例外』『条件偽(多数)・偽』として

「多値」的に捉えたものとしても解釈できます。




↑でも言ってる通り『正しさの度合い』なわけです。

回数は、定義に関係がありません。






一つ、具体的に見てみましょう。

『確率 1/2 』で当たるとします。



これの視覚的なイメージとしては

『全体の半分、穴が開いてる大きな円』に

隙間なく、上に重ねず、上からたくさんの羽を落とす感じです。



「確率 1/2 」なら、およそ『全体の半分の羽』が下に落ちます。

この感じが、確率が表す数値の意味です。




ですから、 2 回やって当たる確率は

『二度当たる』と『一度だけ当たる』場合になるので



要は『一度も当たらない場合以外』ですから

1-(1/2)^2=3/4 」になります。




これを「回数」で捉えると、なんか感覚的じゃないです。



「回数」だと「 2 回の内 1 回は当たる」はずなのに

結果は「 4 回の内 3 回は当たる」になってます。

最初の捉え方と結果がどう見ても一致してません。




「回数」で捉えると変になるというのは、こういうことです。

たった 2 回でもこれですから

回数が増えれば、そりゃもうかなり変になります。




じゃあなんでこんなことになるのか。

↓で、ざっくりとみていきましょう。







標本空間 Sample Space


|| 可能性全体の集まり

いわゆる『可能性の全てとした、枠組み』のことです。



「起こり得る可能性」を『要素』として、

この標本空間は『集合』として定義されてます。




形式的には「 Ω とか S 」とかで表されます。

これの要素は「試行(試しにやってみた)の結果」です。







事象 Event


|| 確率を作る材料の、最小単位

これは、いわば『起こり得る可能性』のことです。

注意点としては「元」ではなく『集合』と定義されてます。



つまりは『標本空間 S 』とすると、

『事象 \{e_i\},E 』は、

\{e_i\}∈2^S 」もしくは「 E∈2^S 」と表せます。

i=1,2,3,4,...







確率 Probability


|| 正しさの度合いを表す数

してることから見ると『事象』に対応付けられた値のことです。

ただし扱いやすいよう「 0≤p≤1 」の範囲になります。




これには定義する上で制約が色々あります。

といっても全て当たり前のことで、疑問余地はないです。




具体例(必要条件)から見ていきましょう。

よくある例ですが、コインの『表が出る』と『裏が出る』に、

それぞれ『確率を表す数値』を対応付けます。



するとまあ、だいたい「 1/2 」ずつになるでしょう。

立つ場合だとかコインが消える場合があるとはいえ、普通考えません。

とはいえ、これでいろいろ決まりました。



『標本空間 S 』は S=\{(表が出る),(裏が出る)\}

『事象全体 2^S 』の中身は \{(表が出る)\},\{(裏が出る)\}

『確率 p_i 』は p_1=1/2,p_2=1/2 です。

0 と全事象は絶対あるんで省略)




というわけで↑の性質を記述してみましょう。



『可能性全体・標本空間 S 』として、

それから作られた「事象を E 」とします。

んで『 Pr(E) 』を「事象の確率」としましょう。




まず当然ですが『 Pr(S)=1 』です。

いわゆる「全事象」というやつの確率なので、そりゃこうなります。



そしてこの事実から↓が導かれます。

\displaystyle Pr(S)=\sum_{i∈Λ}Pr(e_i)=1




これの一部(部分集合)としての「事象」を考えると、

\displaystyle Pr(E)=\sum_{i∈E}Pr(e_i)=p\,\,\,(0≤p≤1)

と表すこともできます。






コルモゴロフの公理 Kolmogorov Axioms


|| 確率の公理

↑のやつを「集合論」的にまとめたものです。

より一般的で「連続的に存在する事象」にも対応しています。




基本は 3 つに分かれてます。

どれも基本的なことです。割と直観的かと。



記号は↑のを採用しましょう。

『標本空間 S 』『事象 e,ES の要素・部分集合)』

2^SS の冪集合」で「 Pr(E) を事象の確率」とします。






全事象での決まりごと


要は「全体の確率は 1 」ってこと。



Pr(S)=1





事象での決まりごと


要は「確率は↓みたいに 0≤p≤1 」ってこと。



∀E∈2^S\,[\,0≤Pr(E)≤1\,]





足し算に関する決まりごと


簡単には、ある条件の下でなら「足し算できるよ」ってこと。



『事象が全て排反』で『可算個』なら(前提)


\displaystyle Pr\left(\bigcup_{i∈N}E_i\right)=\bigcup_{i∈N}Pr(E_i)



『事象が全て排反』の条件は↓

∀E_i∈2^S\,[\,E_a∩E_b=∅\,]







確率空間 Probability Space


|| 確率を扱う上で必要最低限になる前提

簡単には「確率を測れる枠」のことです。

この枠の中にあるものでしか、確率を扱うことはできません。




具体的には「可測空間(完全加法族)」が基になってます。

これは『測度(長さとか面積とか)が測れる集合』のことです。

単に『普通の数学ができる枠組み・領域』とも言えます。



当然の話、確率もまた「測る」ものです。

なのでこの枠組みが必要になります。




その枠組みは大きく分けて 2 つです。

一つが測れる領域ということで「可測空間 (X,Σ) 」が。

そしてその上で確率を得るのに必要な「確率測度 μ(X)=1 」が。




というわけで、これをもうちょっと詳しく見てみましょう。

といってもまあ、単純な話です。言い換えるだけなので。






可測空間を確率空間へ


「可測空間」という概念は、このままだと意味が広すぎます。

「確率空間」に加工する上では、もう少し意味を狭めたいです。




そこで「集合 X 」と「完全加法族 Σ 」に中身を与えます。

「集合 X 」には試行の結果の集合として『標本空間 S 』を。

「完全加法族 Σ 」には扱える事象として『事象 E 』を。

(Sample Space, Event)




本質的には「単に言い換えただけ」ですが、これでOKです。

ここに『確率測度 P(S)=1 』を加えたものが確率空間になります。



つまり形式にすると確率空間は↓みたいに書かれます。

ただし『事象 E 』は「標本空間の冪集合」で、

更に『測度が測れるものだけ』を集めたものです。



(S,E,P)



一見難しそうですが、単純なことしか言ってません。

というか省略し過ぎて難しく(わけわかんなく)見えるだけで、

単に「この中で確率を扱いますよ」と言ってるだけです。






フィルターを 3 枚重ねしたものみたいに思って良いです。

「標本空間 S 」から「測度を導ける事象 E 」が作られて、

「確率測度 P 」から確率が導かれる、みたいな感じ。






念のために内訳を書いておきましょうか。



『標本空間 S 』は「試行の結果 e_i 」の集合で、

S=\{e_1,e_2,e_3,...e_i,...\} です。




『事象 E 』は「根源事象」もしくは「部分集合」なので、

その「全体」は『測度が求められるものだけ』ですから↓になります。



\{∅,\{e_1\},\{e_2\},...,\{e_i\},...,\{e_1,e_2\},...,\{e_1,...,e_i,...\},...\}⊆2^S



この「要素(集合)」一つ一つが『事象』です。

「事象全体 E 」は、あくまで『全体』ですので。




この「事象全体 E 」が『標本空間の冪集合』であると、

ならないのは、これが「測度を扱えなくちゃいけない」からです。

いわゆる『標本空間が非可算集合』の時にこれが必要になります。

(詳細は測度論で)






『確率空間』における「可測空間」の大雑把な内訳はこんな感じです。

完全加法族については別の記事にまとめていますので、参考にどうぞ。






最後にちょっとした具体例を考えてみましょう。

オーソドックスに「どっちか問題」つまり「 0,1 の問題」とか。

そして、なんでもいいんで、とりあえず確率は半々にして。



この時の「試行の結果」は「 0,1 」ですから、

『標本空間』は「 \{0,1\} 」です。

そして『事象全体』は「 \{∅,\{0\},\{1\},\{0,1\}\} 」になります。



んで、この時『確率測度 P 』を使うと、半々なので、

このとき「確率 P(∅)=0, \,P(\{1\})=1/2 」とできます。




ざっと書くと、こんな感じですね。






確率測度 Probability Measure


|| 確率を求めるための関数みたいなもの

いわゆる「 0\,~\,1 を返す関数」のことです。

この数値の意味は、そのまま『確率』のことになります。




厳密には↓みたいな「写像 P 」のことになります。

加法についてはちょっと見た目があれなので省略すると、



P(∅)=0,\,\,\,P(S)=1 として、

P:E→[0,1]\,\,\,(e↦p)

e∈E⊂2^S,\,0≤p≤1



ここでの E は『確率を決められる事象 Event』のことで、

その移り先(像・終域)は『区間(単位区間) [0,1] 』です。



そんで「なにもない」なら確率は 0 ってことにして、

「全ての内のどれかが起きる」確率は 1 ってことにしてます。




つまるところ「事象全体 E 」が「 0\,~\,1 」になる関数と、

厳密には「写像」ですが、そう捉えても特に問題はありません。






実際、実現したいのは「確率」です。

表し方自体は、なんでも良いんです。



ですから「確率を表すものを導きたい」から始まって、

それっぽいから「確率に 0\,~\,1 を割り当てよう」と来て、

「そのために必要な写像 P:E→[0,1] を考えよう」となりました。

(他にも 0.110\% とか)




そして、ここでまたルールが必要になるわけです。



↑で触れた部分は当然のように必要として、

他にも↑で省略した「加法」についてのルールが必要です。

このルール(定義)は、そのまま完全加法族のルールになります。



事象が「互いに素 ∀e_a,e_b∈E\,[\,e_a∩e_b=∅\,] 」の時、

\displaystyle P\left(\bigcup_{i∈N}e_i\right)=\sum_{i∈N}P\left(e_i\right)



これはいわゆる「確率の足し算のルール」です。

要は「事象が排反(どっちかしか起きない)」してるとき、

確率はそのまま足せるよって言ってます。






具体的には、とりあえず「サイコロ」で考えると、

『無作為』ならっていう前提は必要になりますが、



1 が出る確率と 2 が出る確率は、

「どっちかが出る( 1 または 2 が出る)」とすると、

二つの出る確率を足し合わせたものになりますよ、って感じ。




こういうのを表したものが、確率測度です。

ぶっちゃけ「測度論」を知らないなら「可測空間」はおまけですね。







確率変数 Random Variable


|| ある確率で起き得るものを表したやつ

簡単には「一定の確率でとれるデータ」のことです。

より正確には「データを数値に対応付けするもの」になります。




数値にするんで「離散型」と「連続型」に分けられます。

どっちも直観的ですけど「離散型」の方から見ていきましょうか。




例えばよく出てくる「サイコロを一個降った時の目」とかなら、

『確率変数』とは、例えば「確率 1/6 」を持ってる、

1,2,3,4,5,6 」のどれか一つを表すものです。




言い回しはなんか難しいですけど、要はこれだけの話になります。

要は名前の通り「確率を持った変数」のことなので。




連続型だと「ここからここまで」みたいな範囲でやるやつとか。

例えば「一日の漁でとれる魚の重さ」とかを測るとき、

『確率変数』は「何キロ以上何キロ以下」になります。




いわゆる「離散型」は『自然数』に対応してて、

「連続型」は『実数』に対応している感じです。

ざっと解説するとこんな感じですね。






厳密な定義はちょっと堅苦しいです。



X:S→EX が確率変数

S : Sample Space

E : Event



結論だけで言うなら「関数」として定義されてます。

もっと具体的に言うなら、確率変数は「可測関数」です。



要するに単に「データを数値にしたもの」なんですけど、

その振る舞いから厳密に定義するとこうなります。




どういうことかというと、

単純に「確率変数の振る舞い」から、

「標本空間」から「事象」を得てると分かるからです。



例えば↓みたいな感じに。

この時の「標本空間」を簡単に『 \{\mathrm{Yes},\,\mathrm{No}\} 』とします。



\displaystyle X(s)=\begin{cases}1 & \mathrm{if} & s=\mathrm{Yes} \\ 0 & \mathrm{if} & s=\mathrm{No} \end{cases}




例えば「確率を表す関数」を使うと↓みたいになります。

↑の「 2 択」の例を使うなら、



f_X(x)=\displaystyle \begin{cases}\displaystyle \frac{1}{2} & \mathrm{if} & x=1 \\ \displaystyle \frac{1}{2} & \mathrm{if} & x=0 \end{cases}



この「 X 」のことを『確率変数』と言います。

ごちゃごちゃしましたが、言いたいのはこれだけです。

いろんな情報を踏まえて、簡単に捉えましょう。







確率分布 Probability Distribution


|| 確率測度がどんなことしてるのか見えるようにしたやつ

「データ X 」から「確率 P(X) 」が求めらる時、

この時の『 P 』のことを確率分布と言います。




つまるところ「可測空間」上で定義された「確率測度」のことです。

微妙な違いとしては、この『確率分布』というものは、

「確率測度」を『視覚化』しているという点でしょうか。






累積分布関数 Distribution function


|| 確率分布を関数で書き表してみたやつ

「確率を返すための関数」のことです。




形式的には「確率変数(データ) X 」を考えると、

それに対応する確率を返す「関数 F_X(x)=P(X≤x) 」のこと。






確率変数が離散型


要するに単なる「確率の足し算」です。

表す意味は「 L 以下のデータのどれかが出る確率」になります。



\displaystyle F_X(L)=Pr(X≤L)=\sum_{x≤L}Pr(X=x)=\sum_{x≤L}p(x)



データ X がとり得る範囲を 1≤X にするなら、

L=3 なら、Pr(1)+Pr(2)+Pr(3) という感じ。

123 のどれかが出る確率を表してます。






確率変数が連続型


離散型のデータを連続(線に見える点の集まり)にしただけです。

しただけなんですけど、全てのデータを点では扱えなくなります。



\displaystyle Pr(a<X≤b)=Pr(X≤b)-Pr(X≤a)

\displaystyle =\int_{-\infty}^{b}f_X(x)\,dx-\int_{-\infty}^{a}f_X(x)\,dx =\int_a^bf_X(x)\,dx

\displaystyle =F_X(b)-F_X(a)



この「 F_X(x) 」が「累積分布関数」と呼ばれるものです。

当然ですが「確率変数が離散型」の場合も。






確率密度関数 Probability Density


|| 確率変数が連続型の時に必要になる関数

「連続型のデータが表す分布の形を表す関数」のことです。

その意味から、定義は「累積分布関数の導関数」になります。




\displaystyle Pr(a<X≤b)=F_X(b)-F_X(a)=\int_{a}^{b}f_X(x)dx



これの「 f_X(x) 」が『確率密度関数』です。







条件付き確率 Conditional Probability


|| 前に起きたことが後のことに影響する感じ

いわゆる「事前の影響を考えた確率」のことです。

前後が必要なので「複数回の試行の結果」が前提になります。




「前に起きたことが後に影響を及ぼす」というのは普通の考えです。

例えば「今日やったこと」が「明日の成果につながる」とか。

いわゆる『独立』を考えない場合の確率がこれです。




「影響を考える」ので、基本的に 2 つの変数を考えます。

単純に「前に起きたこと」と「その後に起きたこと」の 2 つを。




結論から行くと、定義は↓になります。

P(E_{\mathrm{af}}∩E_{\mathrm{pre}}) 」は「 E_{\mathrm{pre}}E_{\mathrm{af}} が同時に起きる確率」です。



P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}})P(E_{\mathrm{pre}})=P(E_{\mathrm{af}}∩E_{\mathrm{pre}})


\displaystyle P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}})=\frac{P(E_{\mathrm{af}}∩E_{\mathrm{pre}})}{P(E_{\mathrm{pre}})}



この「 P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}}) 」が、条件付き確率になります。

事象 E_{\mathrm{pre}} が起こったうえで、事象 E_{\mathrm{af}} が起きる確率

とか言われたりします。(記号の意味)



「こうした後にこうした確率」とか、そんな感じ。

「あれ選んだあとに、あれを選ぶ確率」とかも。




というわけで、この内訳を見ていきましょう。

まずは用語の紹介ですね。






事前確率 Prior Probability


|| 前の事象が起きる確率

相対的に見て「後の前に起きる事象の確率」のことです。

基本的に「事前と事後はセット」になります。




↑の定義にはありませんが「 P(E_{\mathrm{pre}}\,|\,E_{\mathrm{af}}) 」のことです。

これは『ベイズの定理』から「条件付確率」として定義されます。






事後確率 Posterior Probability


|| 後の事象が起きる確率のこと

つまり「事前の影響をうけるかもしれない確率」のことで、

要するに『条件付確率』は基本的にこれのことを指します。




↑の定義から見れば「 P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}}) 」がこれです。

影響を受けない時は、単に「 P(E_{\mathrm{af}}) 」と表せます。

まあ当然の話で、「影響が無い」なら「独立」でしょう。






周辺確率 Marginal Probability


|| 他と関わりの無い事象の確率

要は「影響を考えなくても良い確率」のことです。

より直観的で一般的な確率はこれになります。




↑の定義の「 P(E_{\mathrm{pre}}) 」とかがそうです。

これはいわゆる『仮定されるもの』になります。






同時確率 Simultaneous Probability


|| 一緒に起きる確率

つまりは「二つの事象がどちらも起きる確率」のことです。

「事象 E_{\mathrm{pre}} が起きて、かつ事象 E_{\mathrm{af}} が起きる確率」がこれ。

(排反だと 0




↑の定義での「 P(E_{\mathrm{af}}∩E_{\mathrm{pre}}) 」のことですね。

他にも「 P(E_{\mathrm{af}},E_{\mathrm{pre}}) 」と表したりもします。




例えば「 1 が出る確率」と「 2 になる確率」なんかの、

「1回の試行の確率」を考えると、



同時確率は『事象が同時に起きる確率』なので、

1 が出て、かつ 2 が出る確率」になります。






ベイズの定理 Bayes’ theorem


|| 後に起きることが前に起きることに影響を与える

要は「前後関係を入れ替えて考えられる」って言ってます。

「原因」と「結果」が入れ替わる、と考えるのはおすすめしません。




この定理の形式は↓です。



\displaystyle P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}})P(E_{\mathrm{pre}})=P(E_{\mathrm{pre}}\,|\,E_{\mathrm{af}})P(E_{\mathrm{af}})


\displaystyle P(E_{\mathrm{pre}}\,|\,E_{\mathrm{af}})=\frac{P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}})P(E_{\mathrm{pre}})}{P(E_{\mathrm{af}})}



これが「ベイズの定理」になります。

証明は単純に「同時確率」を考えれば導かれます。



P(E_{\mathrm{af}}∩E_{\mathrm{pre}})=P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}})P(E_{\mathrm{pre}})

P(E_{\mathrm{pre}}∩E_{\mathrm{af}})=P(E_{\mathrm{pre}}\,|\,E_{\mathrm{af}})P(E_{\mathrm{af}})



記号 は「交換律」が成立しますから、

P(E_{\mathrm{af}}∩E_{\mathrm{pre}})=P(E_{\mathrm{pre}}∩E_{\mathrm{af}}) ですので、



P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}})P(E_{\mathrm{pre}})=P(E_{\mathrm{pre}}\,|\,E_{\mathrm{af}})P(E_{\mathrm{af}}) となります。



感覚的な話をするなら、

「予定していること」が「その前の行動」に影響を与える感じ。

考えてみれば、まあわりと普通の話です。




『事象』は「集合」として与えられているので、

これは「集合同士の関係」として、必然的に導かれます。




よく「因果関係の逆転」というような記述がみられますが、

自分の感覚としては、前後関係なく「どちらも結果」なので、

「前の結果」と「後の結果」を入れ替えてるだけという感じ。




実際、事象(集合)の関係もそんな感じです。

あくまで「前の結果」と「後の結果」が重なってるみたいな。






条件付き確率の解釈


|| 影響し合ってるということ

「影響し合っている」ことを表す単純な事実として、

『試行の結果が重複している』という解釈があります。



つまるところ「同じ試行の結果を共有している」ことを、

影響を及ぼし合っているとしています。



なにせ「結果が一定の確率で同じ」なんです。

二つの事象が、一定の確率で同じ結果になるんです。

つまり、その二つの事象は『一定の確率で同じ』ということ。



普通に考えて、無関係なわけないですよね?

なぜなら、この二つは『ある結果が発生する確率』同士です。

どちらとも『同じ結果の確率』なんです。




ということは『重複している試行の結果の確率』は、

この『二つの事象の確率から』決定されるわけで、



この『重複している試行の結果の確率』もまた、

この『重複している結果を持つ、事象の確率』に影響を与えます。




具体的には「 1 が出る かつ 2 が出る」と、

1 が出る かつ 3 が出る」は、

1 が出る」という試行の結果を共有しています。