|| 人間の叡智の結晶
一言で言えば『正しさの割合』のことです。
「公理的確率論」的に言えば、単なる数字ですけど。
スポンサーリンク
目次
確率の概要「そもそも確率って?」
標本空間「試行の結果全体のこと」
事象「起こり得ること」
確率「起きる割合を表した感じ」
コルモゴロフの公理「確率の存在を公理化したもの」
確率空間「確率を扱う上での最低条件のこと」
確率測度「確率を表すためのもの」
確率変数「ある確率で出現するものを表す数値」
確率分布「確率測度を見えるようにしてみたもの」
累積分布関数「確率分布を関数で表してみたもの」
確率密度関数「連続型データに対応するためのもの」
条件付き確率「前に起きたことが後に起きたことに関わる」
ベイズの定理「後のことが前のことにに影響を与える」
この数値が表す意味は、知っておかないと誤解を生みます。
よくある誤解を挙げると「何回の内何回くらい」とかでしょうか。
これは合ってるようで、実は本質的に違います。
『確率』が表すのは「正しさの割合」です。
「全体」の中に『どれくらい含まれているか』示してます。
視覚的には、穴の大きさが分かるフィルターみたいなものです。
これは『真偽』っていう「二値」を
『真・条件真(多数)』『例外』『条件偽(多数)・偽』として
「多値」的に捉えたものとしても解釈できます。
↑でも言ってる通り『正しさの度合い』なわけです。
回数は、定義に関係がありません。
一つ、具体的に見てみましょう。
『確率 1/2 』で当たるとします。
これの視覚的なイメージとしては
『全体の半分、穴が開いてる大きな円』に
隙間なく、上に重ねず、上からたくさんの羽を落とす感じです。
「確率 1/2 」なら、およそ『全体の半分の羽』が下に落ちます。
この感じが、確率が表す数値の意味です。
ですから、 2 回やって当たる確率は
『二度当たる』と『一度だけ当たる』場合になるので
要は『一度も当たらない場合以外』ですから
「 1-(1/2)^2=3/4 」になります。
これを「回数」で捉えると、なんか感覚的じゃないです。
「回数」だと「 2 回の内 1 回は当たる」はずなのに
結果は「 4 回の内 3 回は当たる」になってます。
最初の捉え方と結果がどう見ても一致してません。
「回数」で捉えると変になるというのは、こういうことです。
たった 2 回でもこれですから
回数が増えれば、そりゃもうかなり変になります。
じゃあなんでこんなことになるのか。
↓で、ざっくりとみていきましょう。
標本空間 Sample Space
|| 可能性全体の集まり
いわゆる『可能性の全てとした、枠組み』のことです。
「起こり得る可能性」を『要素』として、
この標本空間は『集合』として定義されてます。
形式的には「 Ω とか S 」とかで表されます。
これの要素は「試行(試しにやってみた)の結果」です。
事象 Event
|| 確率を作る材料の、最小単位
これは、いわば『起こり得る可能性』のことです。
注意点としては「元」ではなく『集合』と定義されてます。
つまりは『標本空間 S 』とすると、
『事象 \{e_i\},E 』は、
「 \{e_i\}∈2^S 」もしくは「 E∈2^S 」と表せます。
( i=1,2,3,4,... )
確率 Probability
|| 正しさの度合いを表す数
してることから見ると『事象』に対応付けられた値のことです。
ただし扱いやすいよう「 0≤p≤1 」の範囲になります。
これには定義する上で制約が色々あります。
といっても全て当たり前のことで、疑問余地はないです。
具体例(必要条件)から見ていきましょう。
よくある例ですが、コインの『表が出る』と『裏が出る』に、
それぞれ『確率を表す数値』を対応付けます。
するとまあ、だいたい「 1/2 」ずつになるでしょう。
立つ場合だとかコインが消える場合があるとはいえ、普通考えません。
とはいえ、これでいろいろ決まりました。
『標本空間 S 』は S=\{(表が出る),(裏が出る)\}
『事象全体 2^S 』の中身は \{(表が出る)\},\{(裏が出る)\}
『確率 p_i 』は p_1=1/2,p_2=1/2 です。
( 0 と全事象は絶対あるんで省略)
というわけで↑の性質を記述してみましょう。
『可能性全体・標本空間 S 』として、
それから作られた「事象を E 」とします。
んで『 Pr(E) 』を「事象の確率」としましょう。
まず当然ですが『 Pr(S)=1 』です。
いわゆる「全事象」というやつの確率なので、そりゃこうなります。
そしてこの事実から↓が導かれます。
\displaystyle Pr(S)=\sum_{i∈Λ}Pr(e_i)=1
これの一部(部分集合)としての「事象」を考えると、
\displaystyle Pr(E)=\sum_{i∈E}Pr(e_i)=p\,\,\,(0≤p≤1)
と表すこともできます。
コルモゴロフの公理 Kolmogorov Axioms
|| 確率の公理
↑のやつを「集合論」的にまとめたものです。
より一般的で「連続的に存在する事象」にも対応しています。
基本は 3 つに分かれてます。
どれも基本的なことです。割と直観的かと。
記号は↑のを採用しましょう。
『標本空間 S 』『事象 e,E ( S の要素・部分集合)』
「 2^S は S の冪集合」で「 Pr(E) を事象の確率」とします。
全事象での決まりごと
要は「全体の確率は 1 」ってこと。
Pr(S)=1
事象での決まりごと
要は「確率は↓みたいに 0≤p≤1 」ってこと。
∀E∈2^S\,[\,0≤Pr(E)≤1\,]
足し算に関する決まりごと
簡単には、ある条件の下でなら「足し算できるよ」ってこと。
『事象が全て排反』で『可算個』なら(前提)
\displaystyle Pr\left(\bigcup_{i∈N}E_i\right)=\bigcup_{i∈N}Pr(E_i)
『事象が全て排反』の条件は↓
∀E_i∈2^S\,[\,E_a∩E_b=∅\,]
確率空間 Probability Space
|| 確率を扱う上で必要最低限になる前提
簡単には「確率を測れる枠」のことです。
この枠の中にあるものでしか、確率を扱うことはできません。
具体的には「可測空間(完全加法族)」が基になってます。
これは『測度(長さとか面積とか)が測れる集合』のことです。
単に『普通の数学ができる枠組み・領域』とも言えます。
当然の話、確率もまた「測る」ものです。
なのでこの枠組みが必要になります。
その枠組みは大きく分けて 2 つです。
一つが測れる領域ということで「可測空間 (X,Σ) 」が。
そしてその上で確率を得るのに必要な「確率測度 μ(X)=1 」が。
というわけで、これをもうちょっと詳しく見てみましょう。
といってもまあ、単純な話です。言い換えるだけなので。
可測空間を確率空間へ
「可測空間」という概念は、このままだと意味が広すぎます。
「確率空間」に加工する上では、もう少し意味を狭めたいです。
そこで「集合 X 」と「完全加法族 Σ 」に中身を与えます。
「集合 X 」には試行の結果の集合として『標本空間 S 』を。
「完全加法族 Σ 」には扱える事象として『事象 E 』を。
(Sample Space, Event)
本質的には「単に言い換えただけ」ですが、これでOKです。
ここに『確率測度 P(S)=1 』を加えたものが確率空間になります。
つまり形式にすると確率空間は↓みたいに書かれます。
ただし『事象 E 』は「標本空間の冪集合」で、
更に『測度が測れるものだけ』を集めたものです。
(S,E,P)
一見難しそうですが、単純なことしか言ってません。
というか省略し過ぎて難しく(わけわかんなく)見えるだけで、
単に「この中で確率を扱いますよ」と言ってるだけです。
フィルターを 3 枚重ねしたものみたいに思って良いです。
「標本空間 S 」から「測度を導ける事象 E 」が作られて、
「確率測度 P 」から確率が導かれる、みたいな感じ。
念のために内訳を書いておきましょうか。
『標本空間 S 』は「試行の結果 e_i 」の集合で、
S=\{e_1,e_2,e_3,...e_i,...\} です。
『事象 E 』は「根源事象」もしくは「部分集合」なので、
その「全体」は『測度が求められるものだけ』ですから↓になります。
\{∅,\{e_1\},\{e_2\},...,\{e_i\},...,\{e_1,e_2\},...,\{e_1,...,e_i,...\},...\}⊆2^S
この「要素(集合)」一つ一つが『事象』です。
「事象全体 E 」は、あくまで『全体』ですので。
この「事象全体 E 」が『標本空間の冪集合』であると、
ならないのは、これが「測度を扱えなくちゃいけない」からです。
いわゆる『標本空間が非可算集合』の時にこれが必要になります。
(詳細は測度論で)
『確率空間』における「可測空間」の大雑把な内訳はこんな感じです。
完全加法族については別の記事にまとめていますので、参考にどうぞ。
最後にちょっとした具体例を考えてみましょう。
オーソドックスに「どっちか問題」つまり「 0,1 の問題」とか。
そして、なんでもいいんで、とりあえず確率は半々にして。
この時の「試行の結果」は「 0,1 」ですから、
『標本空間』は「 \{0,1\} 」です。
そして『事象全体』は「 \{∅,\{0\},\{1\},\{0,1\}\} 」になります。
んで、この時『確率測度 P 』を使うと、半々なので、
このとき「確率 P(∅)=0, \,P(\{1\})=1/2 」とできます。
ざっと書くと、こんな感じですね。
確率測度 Probability Measure
|| 確率を求めるための関数みたいなもの
いわゆる「 0\,~\,1 を返す関数」のことです。
この数値の意味は、そのまま『確率』のことになります。
厳密には↓みたいな「写像 P 」のことになります。
加法についてはちょっと見た目があれなので省略すると、
P(∅)=0,\,\,\,P(S)=1 として、
P:E→[0,1]\,\,\,(e↦p)
e∈E⊂2^S,\,0≤p≤1
ここでの E は『確率を決められる事象 Event』のことで、
その移り先(像・終域)は『区間(単位区間) [0,1] 』です。
そんで「なにもない」なら確率は 0 ってことにして、
「全ての内のどれかが起きる」確率は 1 ってことにしてます。
つまるところ「事象全体 E 」が「 0\,~\,1 」になる関数と、
厳密には「写像」ですが、そう捉えても特に問題はありません。
実際、実現したいのは「確率」です。
表し方自体は、なんでも良いんです。
ですから「確率を表すものを導きたい」から始まって、
それっぽいから「確率に 0\,~\,1 を割り当てよう」と来て、
「そのために必要な写像 P:E→[0,1] を考えよう」となりました。
(他にも 0.1 を 10\% とか)
そして、ここでまたルールが必要になるわけです。
↑で触れた部分は当然のように必要として、
他にも↑で省略した「加法」についてのルールが必要です。
このルール(定義)は、そのまま完全加法族のルールになります。
事象が「互いに素 ∀e_a,e_b∈E\,[\,e_a∩e_b=∅\,] 」の時、
\displaystyle P\left(\bigcup_{i∈N}e_i\right)=\sum_{i∈N}P\left(e_i\right)
これはいわゆる「確率の足し算のルール」です。
要は「事象が排反(どっちかしか起きない)」してるとき、
確率はそのまま足せるよって言ってます。
具体的には、とりあえず「サイコロ」で考えると、
『無作為』ならっていう前提は必要になりますが、
1 が出る確率と 2 が出る確率は、
「どっちかが出る( 1 または 2 が出る)」とすると、
二つの出る確率を足し合わせたものになりますよ、って感じ。
こういうのを表したものが、確率測度です。
ぶっちゃけ「測度論」を知らないなら「可測空間」はおまけですね。
確率変数 Random Variable
|| ある確率で起き得るものを表したやつ
簡単には「一定の確率でとれるデータ」のことです。
より正確には「データを数値に対応付けするもの」になります。
数値にするんで「離散型」と「連続型」に分けられます。
どっちも直観的ですけど「離散型」の方から見ていきましょうか。
例えばよく出てくる「サイコロを一個降った時の目」とかなら、
『確率変数』とは、例えば「確率 1/6 」を持ってる、
「 1,2,3,4,5,6 」のどれか一つを表すものです。
言い回しはなんか難しいですけど、要はこれだけの話になります。
要は名前の通り「確率を持った変数」のことなので。
連続型だと「ここからここまで」みたいな範囲でやるやつとか。
例えば「一日の漁でとれる魚の重さ」とかを測るとき、
『確率変数』は「何キロ以上何キロ以下」になります。
いわゆる「離散型」は『自然数』に対応してて、
「連続型」は『実数』に対応している感じです。
ざっと解説するとこんな感じですね。
厳密な定義はちょっと堅苦しいです。
X:S→E の X が確率変数
S : Sample Space
E : Event
結論だけで言うなら「関数」として定義されてます。
もっと具体的に言うなら、確率変数は「可測関数」です。
要するに単に「データを数値にしたもの」なんですけど、
その振る舞いから厳密に定義するとこうなります。
どういうことかというと、
単純に「確率変数の振る舞い」から、
「標本空間」から「事象」を得てると分かるからです。
例えば↓みたいな感じに。
この時の「標本空間」を簡単に『 \{\mathrm{Yes},\,\mathrm{No}\} 』とします。
\displaystyle X(s)=\begin{cases}1 & \mathrm{if} & s=\mathrm{Yes} \\ 0 & \mathrm{if} & s=\mathrm{No} \end{cases}
例えば「確率を表す関数」を使うと↓みたいになります。
↑の「 2 択」の例を使うなら、
f_X(x)=\displaystyle \begin{cases}\displaystyle \frac{1}{2} & \mathrm{if} & x=1 \\ \displaystyle \frac{1}{2} & \mathrm{if} & x=0 \end{cases}
この「 X 」のことを『確率変数』と言います。
ごちゃごちゃしましたが、言いたいのはこれだけです。
いろんな情報を踏まえて、簡単に捉えましょう。
確率分布 Probability Distribution
|| 確率測度がどんなことしてるのか見えるようにしたやつ
「データ X 」から「確率 P(X) 」が求めらる時、
この時の『 P 』のことを確率分布と言います。
つまるところ「可測空間」上で定義された「確率測度」のことです。
微妙な違いとしては、この『確率分布』というものは、
「確率測度」を『視覚化』しているという点でしょうか。
累積分布関数 Distribution function
|| 確率分布を関数で書き表してみたやつ
「確率を返すための関数」のことです。
形式的には「確率変数(データ) X 」を考えると、
それに対応する確率を返す「関数 F_X(x)=P(X≤x) 」のこと。
確率変数が離散型
要するに単なる「確率の足し算」です。
表す意味は「 L 以下のデータのどれかが出る確率」になります。
\displaystyle F_X(L)=Pr(X≤L)=\sum_{x≤L}Pr(X=x)=\sum_{x≤L}p(x)
データ X がとり得る範囲を 1≤X にするなら、
L=3 なら、Pr(1)+Pr(2)+Pr(3) という感じ。
1 か 2 か 3 のどれかが出る確率を表してます。
確率変数が連続型
離散型のデータを連続(線に見える点の集まり)にしただけです。
しただけなんですけど、全てのデータを点では扱えなくなります。
\displaystyle Pr(a<X≤b)=Pr(X≤b)-Pr(X≤a)
\displaystyle =\int_{-\infty}^{b}f_X(x)\,dx-\int_{-\infty}^{a}f_X(x)\,dx =\int_a^bf_X(x)\,dx
\displaystyle =F_X(b)-F_X(a)
この「 F_X(x) 」が「累積分布関数」と呼ばれるものです。
当然ですが「確率変数が離散型」の場合も。
確率密度関数 Probability Density
|| 確率変数が連続型の時に必要になる関数
「連続型のデータが表す分布の形を表す関数」のことです。
その意味から、定義は「累積分布関数の導関数」になります。
\displaystyle Pr(a<X≤b)=F_X(b)-F_X(a)=\int_{a}^{b}f_X(x)dx
これの「 f_X(x) 」が『確率密度関数』です。
条件付き確率 Conditional Probability
|| 前に起きたことが後のことに影響する感じ
いわゆる「事前の影響を考えた確率」のことです。
前後が必要なので「複数回の試行の結果」が前提になります。
「前に起きたことが後に影響を及ぼす」というのは普通の考えです。
例えば「今日やったこと」が「明日の成果につながる」とか。
いわゆる『独立』を考えない場合の確率がこれです。
「影響を考える」ので、基本的に 2 つの変数を考えます。
単純に「前に起きたこと」と「その後に起きたこと」の 2 つを。
結論から行くと、定義は↓になります。
「 P(E_{\mathrm{af}}∩E_{\mathrm{pre}}) 」は「 E_{\mathrm{pre}} と E_{\mathrm{af}} が同時に起きる確率」です。
P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}})P(E_{\mathrm{pre}})=P(E_{\mathrm{af}}∩E_{\mathrm{pre}})
\displaystyle P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}})=\frac{P(E_{\mathrm{af}}∩E_{\mathrm{pre}})}{P(E_{\mathrm{pre}})}
この「 P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}}) 」が、条件付き確率になります。
事象 E_{\mathrm{pre}} が起こったうえで、事象 E_{\mathrm{af}} が起きる確率
とか言われたりします。(記号の意味)
「こうした後にこうした確率」とか、そんな感じ。
「あれ選んだあとに、あれを選ぶ確率」とかも。
というわけで、この内訳を見ていきましょう。
まずは用語の紹介ですね。
事前確率 Prior Probability
|| 前の事象が起きる確率
相対的に見て「後の前に起きる事象の確率」のことです。
基本的に「事前と事後はセット」になります。
↑の定義にはありませんが「 P(E_{\mathrm{pre}}\,|\,E_{\mathrm{af}}) 」のことです。
これは『ベイズの定理』から「条件付確率」として定義されます。
事後確率 Posterior Probability
|| 後の事象が起きる確率のこと
つまり「事前の影響をうけるかもしれない確率」のことで、
要するに『条件付確率』は基本的にこれのことを指します。
↑の定義から見れば「 P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}}) 」がこれです。
影響を受けない時は、単に「 P(E_{\mathrm{af}}) 」と表せます。
まあ当然の話で、「影響が無い」なら「独立」でしょう。
周辺確率 Marginal Probability
|| 他と関わりの無い事象の確率
要は「影響を考えなくても良い確率」のことです。
より直観的で一般的な確率はこれになります。
↑の定義の「 P(E_{\mathrm{pre}}) 」とかがそうです。
これはいわゆる『仮定されるもの』になります。
同時確率 Simultaneous Probability
|| 一緒に起きる確率
つまりは「二つの事象がどちらも起きる確率」のことです。
「事象 E_{\mathrm{pre}} が起きて、かつ事象 E_{\mathrm{af}} が起きる確率」がこれ。
(排反だと 0 )
↑の定義での「 P(E_{\mathrm{af}}∩E_{\mathrm{pre}}) 」のことですね。
他にも「 P(E_{\mathrm{af}},E_{\mathrm{pre}}) 」と表したりもします。
例えば「 1 が出る確率」と「 2 になる確率」なんかの、
「1回の試行の確率」を考えると、
同時確率は『事象が同時に起きる確率』なので、
「 1 が出て、かつ 2 が出る確率」になります。
ベイズの定理 Bayes’ theorem
|| 後に起きることが前に起きることに影響を与える
要は「前後関係を入れ替えて考えられる」って言ってます。
「原因」と「結果」が入れ替わる、と考えるのはおすすめしません。
この定理の形式は↓です。
\displaystyle P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}})P(E_{\mathrm{pre}})=P(E_{\mathrm{pre}}\,|\,E_{\mathrm{af}})P(E_{\mathrm{af}})
\displaystyle P(E_{\mathrm{pre}}\,|\,E_{\mathrm{af}})=\frac{P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}})P(E_{\mathrm{pre}})}{P(E_{\mathrm{af}})}
これが「ベイズの定理」になります。
証明は単純に「同時確率」を考えれば導かれます。
P(E_{\mathrm{af}}∩E_{\mathrm{pre}})=P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}})P(E_{\mathrm{pre}})
P(E_{\mathrm{pre}}∩E_{\mathrm{af}})=P(E_{\mathrm{pre}}\,|\,E_{\mathrm{af}})P(E_{\mathrm{af}})
記号 ∩ は「交換律」が成立しますから、
P(E_{\mathrm{af}}∩E_{\mathrm{pre}})=P(E_{\mathrm{pre}}∩E_{\mathrm{af}}) ですので、
P(E_{\mathrm{af}}\,|\,E_{\mathrm{pre}})P(E_{\mathrm{pre}})=P(E_{\mathrm{pre}}\,|\,E_{\mathrm{af}})P(E_{\mathrm{af}}) となります。
感覚的な話をするなら、
「予定していること」が「その前の行動」に影響を与える感じ。
考えてみれば、まあわりと普通の話です。
『事象』は「集合」として与えられているので、
これは「集合同士の関係」として、必然的に導かれます。
よく「因果関係の逆転」というような記述がみられますが、
自分の感覚としては、前後関係なく「どちらも結果」なので、
「前の結果」と「後の結果」を入れ替えてるだけという感じ。
実際、事象(集合)の関係もそんな感じです。
あくまで「前の結果」と「後の結果」が重なってるみたいな。
条件付き確率の解釈
|| 影響し合ってるということ
「影響し合っている」ことを表す単純な事実として、
『試行の結果が重複している』という解釈があります。
つまるところ「同じ試行の結果を共有している」ことを、
影響を及ぼし合っているとしています。
なにせ「結果が一定の確率で同じ」なんです。
二つの事象が、一定の確率で同じ結果になるんです。
つまり、その二つの事象は『一定の確率で同じ』ということ。
普通に考えて、無関係なわけないですよね?
なぜなら、この二つは『ある結果が発生する確率』同士です。
どちらとも『同じ結果の確率』なんです。
ということは『重複している試行の結果の確率』は、
この『二つの事象の確率から』決定されるわけで、
この『重複している試行の結果の確率』もまた、
この『重複している結果を持つ、事象の確率』に影響を与えます。
具体的には「 1 が出る かつ 2 が出る」と、
「1 が出る かつ 3 が出る」は、
「 1 が出る」という試行の結果を共有しています。