確率空間 Probability Space


|| 確率を扱う上で必要最低限になる前提

簡単には「確率を測れる枠」のことです。

この枠の中にあるものでしか、確率を扱うことはできません。

スポンサーリンク




具体的には「可測空間(完全加法族)」が基になってます。

これは『測度(長さとか面積とか)が測れる集合』のことです。

単に『普通の数学ができる枠組み・領域』とも言えます。



当然の話、確率もまた「測る」ものです。

なのでこの枠組みが必要になります。




その枠組みは大きく分けて 2 つです。

一つが測れる領域ということで「可測空間 (X,Σ) 」が。

そしてその上で確率を得るのに必要な「確率測度 μ(X)=1 」が。




というわけで、これをもうちょっと詳しく見てみましょう。

といってもまあ、単純な話です。言い換えるだけなので。






可測空間を確率空間へ


「可測空間」という概念は、このままだと意味が広すぎます。

「確率空間」に加工する上では、もう少し意味を狭めたいです。




そこで「集合 X 」と「完全加法族 Σ 」に中身を与えます。

「集合 X 」には試行の結果の集合として『標本空間 S 』を。

「完全加法族 Σ 」には扱える事象として『事象 E 』を。

(Sample Space, Event)




本質的には「単に言い換えただけ」ですが、これでOKです。

ここに『確率測度 P(S)=1 』を加えたものが確率空間になります。



つまり形式にすると確率空間は↓みたいに書かれます。

ただし『事象 E 』は「標本空間の冪集合」で、

更に『測度が測れるものだけ』を集めたものです。



(S,E,P)



一見難しそうですが、単純なことしか言ってません。

というか省略し過ぎて難しく(わけわかんなく)見えるだけで、

単に「この中で確率を扱いますよ」と言ってるだけです。






フィルターを 3 枚重ねしたものみたいに思って良いです。

「標本空間 S 」から「測度を導ける事象 E 」が作られて、

「確率測度 P 」から確率が導かれる、みたいな感じ。




プログラミングの感覚としては、

まず「入力データの集合」として「標本空間」があって、

その「入力データ」を加工して「事象の集合」を作るという感じ。



そして「無作為」という仮定を採用するのであれば、

得られた「事象」に等しい確率を割り当てられるわけです。






念のために内訳を書いておきましょうか。



『標本空間 S 』は「試行の結果 e_i 」の集合で、

S=\{e_1,e_2,e_3,...e_i,...\} です。




『事象 E 』は「根源事象」もしくは「部分集合」なので、

その「全体」は『測度が求められるものだけ』ですから↓になります。



\{∅,\{e_1\},\{e_2\},...,\{e_i\},...,\{e_1,e_2\},...,\{e_1,...,e_i,...\},...\}⊆2^S



この「要素(集合)」一つ一つが『事象』です。

「事象全体 E 」は、あくまで『全体』ですので。




この「事象全体 E 」が『標本空間の冪集合』である、

とならないのは、これが「測度を扱えなくちゃいけない」からです。

いわゆる『標本空間が非可算集合』の時にこれが必要になります。

(詳細は測度論で)






『確率空間』における「可測空間」の大雑把な内訳はこんな感じです。

完全加法族については別の記事にまとめていますので、参考にどうぞ。






最後にちょっとした具体例を考えてみましょう。

オーソドックスに「どっちか問題」つまり「 0,1 の問題」とか。

そして、なんでもいいんで、とりあえず確率は半々にして。



この時の「試行の結果」は「 0,1 」ですから、

『標本空間』は「 \{0,1\} 」です。

そして『事象全体』は「 \{∅,\{0\},\{1\},\{0,1\}\} 」になります。



んで、この時『確率測度 P 』を使うと、半々なので、

このとき確率を↓みたいにできます。


\displaystyle P(∅)=0, \,P(\{0\})=P(\{1\})=\frac{1}{2}, \, P(S)=1




ざっと書くと、こんな感じですね。







確率測度 Probability Measure


|| 確率を求めるための関数みたいなもの

いわゆる「 0\,~\,1 を返す関数」のことです。

この数値の意味は、そのまま『確率』のことになります。




厳密には↓みたいな「写像 P 」のことになります。

加法についてはちょっと見た目があれなので省略すると、



P(∅)=0,\,\,\,P(S)=1 として、

P:E→[0,1]\,\,\,(e↦p)

e∈E⊂2^S,\,0≤p≤1



ここでの E は『確率を決められる事象 Event』のことで、

その移り先(像・終域)は『区間(単位区間) [0,1] 』です。



そんで「なにもない」なら確率は 0 ってことにして、

「全ての内のどれかが起きる」確率は 1 ってことにしてます。




つまるところ「事象 E 」が「 0\,~\,1 」になる関数と、

そう捉えても特に問題はありません。厳密には「写像」ですが。






実際、実現したいのは「確率」です。

表し方自体は、なんでも良いんです。



ですから「確率を表すものを導きたい」から始まって、

それっぽいから「確率に 0\,~\,1 を割り当てよう」と来て、

「そのために必要な写像 P:E→[0,1] を考えよう」となりました。

(他にも 0.110\% とか)




そして、ここでまたルールが必要になるわけです。



↑で触れた部分は当然のように必要として、

他にも↑で省略した「加法」についてのルールが必要です。

このルール(定義)は、そのまま完全加法族のルールになります。



事象が「互いに素 ∀e_a,e_b∈E\,[\,e_a∩e_b=∅\,] 」の時、

\displaystyle P\left(\bigcup_{i∈N}e_i\right)=\sum_{i∈N}P\left(e_i\right)



これはいわゆる「確率の足し算のルール」です。

要は「事象が排反(どっちかしか起きない)」してるとき、

確率はそのまま足せるよって言ってます。






具体的には、とりあえず「サイコロ」で考えると、

『無作為』ならっていう前提は必要になりますが、



1 が出る確率と 2 が出る確率は、

「どっちかが出る( 1 または 2 が出る)」とすると、

二つの出る確率を足し合わせたものになりますよ、って感じ。




こういうのを表したものが、確率測度です。

ぶっちゃけ「測度論」を知らないなら「可測空間」はおまけですね。