母数 Parameter


|| その集まりの特徴

いわゆる『分布の特徴』を表す数値のことです。

『データが有限』でない限り「直接求める」ことはできません。

スポンサーリンク




目次


期待値「データの真ん中あたりのやつ(重心)」

分散「データのばらつき具合」






「平均」とかが最も有名な例になるでしょうか。




この単語は『母集団(データの抽出元)』のものを表します。

ですので『標本(データ)』の特徴を表す「統計量」とは別です。

ここはきっちり押さえておきましょう。






とりあえず「期待値」と「分散」を紹介します。

これらも「母集団から得た」なら、母数の一種です。

ただし、これらを持たない「分布」があることを覚えておきましょう。







期待値 Expected Value


|| 平均の一般化・データの重心

『データの平均的な値』のことです。



似たようなものとしては

『確率を重みとした』加重平均みたいなものがあります。

といっても、これは本質的に同じものです。






定義について見てみましょう。内訳は単純です。

「データの値を確率と対応付けて、その平均をとる」感じになります。



「確率」の合計は 1 なので

例えば「 4,5 の出現確率が 1/2 」なら↓みたいになります。

\displaystyle \frac{1}{2}*4+\frac{1}{2}*5=\frac{9}{2}=4.5




これを一般化すると

『確率変数(データの値) X=\{x_1,x_2,...,x_n\} 』と

それがとる『確率(データが占める比率) p_i 』を考えると



「期待値 E[X]\,\,\,\,\,μ 」は↓みたいに表せます。


\displaystyle E[X]\,\,\,\,\,μ:=\sum_{i=1}^{n}p_ix_i=p_1x_1+p_2x_2+…+p_nx_n




『確率変数(データの値)』が連続的な場合は

『確率密度関数』という考え方を使います。



ただ『確率密度関数』については長くなるので詳細を省くと



要は『確率密度関数の部分的な積分値』が「確率」になるので

その値(確率)とデータの値を掛け合わせたものの合計が期待値です。



基本的にデータの値は正( + )の値なので


\displaystyle E[X]:=\int_{0}^{\infty}xf(x)\,dx \,\,\,\,\, \left( \int_{0}^{\infty}f(x)\,dx=1 \right)







分散 Variance


|| 真ん中からどれくらい離れてるか

字面の通りです。『ばらけ具合』を表します。



これが大きいと、データは平均から大きくずれてる感じ

これが小さいと、データは平均の周辺に集まってる感じです。




定義は↑を実現した感じになればいいので

まず『データと平均の差 x_i-μ_X 』を用意します。




これを全部足せばいけそうですけど、このままだと不安です。

なぜなら『正の値も負の値もとり得る』ので



例えば、かなりばらけてるような二つの値

+10000 」と「 -10000 」は、相殺されてしまいます。



同じくらいばらけてるのに、結果は「 0

つまり「ばらけてない」となってしまいます。

これじゃ的確にばらけ具合を表せません。




ばらけ具合を表すのなら、これらは蓄積されるべきです。

となると、符号が二つあるとダメな感じ

というわけで、符号( +,- )を統一します。




そのために「 x_i-μ_X 」を『 2 乗』します。

こうすれば、データと平均の差を「全て正の値に」できて

そのおかげで的確にばらけ具合を表現できます。






つまり定義は↓ということです。

\displaystyle V[X]\,\,\,Var[X]\,\,\,σ^2:=E[(X-μ_X)^2]=\sum_{i=1}^{n}p_i(x_i-μ_X)^2