累積分布関数とかいう厳つい名前のやつについてわかるように解説してみた

|| 確率分布を表す関数の名前

「確率を返すための関数」のこと。

まあ要は「確率変数（データ） $X$ 」を入れた時

$\begin{array}{llllll} \displaystyle F_X(x)&=&P(X≤x) \end{array}$

それに対応する「確率を返す関数 $F_X$ 」のことで、

これは『確率分布』という概念よりも

ちょっとだけ狭い意味を持つ概念になります。

確率変数が離散型

データ $X$ が離散型（点々）の場合

「 $L$ 以下のデータのどれかが出る確率」は

$\begin{array}{llllll} \displaystyle \displaystyle F_X(L)&=&P(X≤L) \\ \\ &=&\displaystyle\sum_{x≤L}P(X=x) \\ \\ &=&\displaystyle \sum_{x≤L}p(x) \end{array}$

このように表現されることがあります。

$\displaystyle\sum_{x≤L}P(X=x)$

これは「確率を足し合わせたもの」で

$\begin{array}{llllll} \displaystyle \displaystyle\sum_{x≤1}P(X=x)&=&P(X=1) \end{array}$

データ $X$ がとり得る範囲を $1\leqx$ にするとこんな感じに

$\begin{array}{llllll} \displaystyle P(X=1)+P(X=2)+P(X=3) \end{array}$

$L=3$ ならこういう具合になるわけで

$\begin{array}{llllll} \displaystyle F_X(1)&=&P(X=1) \\ \\ F_X(3)&=&P(X=1)+P(X=2)+P(X=3) \end{array}$

いずれの場合も

この「関数 $F_X$ 」は『確率』を返しています。

ちなみに $2<x\leq3$ みたいな範囲ですが

$\begin{array}{llllll} \displaystyle F_X(2)&=&P(X=1)+P(X=2) \\ \\ F_X(3)&=&P(X=1)+P(X=2)+P(X=3) \end{array}$

$\begin{array}{llllll} \displaystyle P(2<x≤3)&=&F_X(3)-F_X(2) \\ \\ &=&P(X=3) \end{array}$

これはこのようにすることで表現できます。

確率変数が連続型

連続型（線に見える点の集まり）の場合は ↓

$\begin{array}{llllll} \displaystyle \displaystyle P(a<X≤b)&=&P(X≤b)-P(X≤a) \\ \\ &=&\displaystyle \int_{-\infty}^{b}f_X(x)\,dx-\int_{-\infty}^{a}f_X(x)\,dx \\ \\ \\ &=&\displaystyle\int_a^bf_X(x)\,dx \\ \\ &=&F_X(b)-F_X(a) \end{array}$

この「 $F_X$ 」が「累積分布関数」と呼ばれるものになります。

そしてこの時の $f_X$ が『確率密度関数』です。

以上、累積分布関数についてはこんな感じ。

厳密な決まりに関しては別の記事にまとめます。

「特性関数」とか『確率測度』なんかの知識が必要なので。