頻度論的統計学 Frequency statistics


|| 皆がイメージする統計学

いわゆる「知りたい値は決まってる」って感じの理屈です。

スポンサーリンク




「頻度」というのは、要はそういう感じの話です。

『サンプリングしたデータ』が、どれくらいの確率で再現されるか。

こんな感じの考え方が基になってます。




つまり『母数(知りたいやつ)は決まっている』から、

サンプリングした『データは高い確率で正しい』っていう感じ。




形式的には『母数(パラメーター)を定数』と考えて、

『データ(高い頻度で出るだろう)を確率変数』とする感じ。



これを「仮説検定」という方法で検証したりします。






『ベイズ統計学』はこの逆になります。

「得たデータ」が確定していて、

「パラメーター」を推測する感じ。







記述統計学 Descriptive Statistics


|| データのまとめ

要は「データの要約」です。




平均なんかを使った全体の比較や、

他にもグラフにして見易くしたりだとか。



とにかく「データを分かりやすくする」ことが主目的になります。

「母数」や「標本」などの概念は、まだここでは登場しません。




見て分かる通り、ここでの目的はデータの要約です。

既に在るデータを、分かりやすく纏めるわけです。

なので「データが揃っている」ことが前提になります。




つまるところ、ここではデータ無しではなにもできません。

無いと要約もくそもないので。






しかしまあ、データが揃ってないと使えないっていうのは微妙です。

まず用途が限られますし、データが多いと手間もかかります。




そんなわけで、別の分野が生まれました。

いわゆる「推測」で特徴を表す統計学の分野です。






推計統計学 Inferential Statistics


|| 一部から全体を推測

要は「みんなが思う統計学」のことです。

一部から全体の特徴を推測して得ます。




やり方は主に 2 つに分けられます。




まず『統計的推定』というものが。

「この値だ」と一点を決めるやり方を『点推定』とか。

「この範囲だ」と範囲を決めるやり方を『区間推定』とか。



次に「仮説」を得て、確かめてみるやり方として、

「こうじゃない?検証しよう」みたいなのを『仮説検定』と。



大雑把には、こんな感じに分かれてます。




基本的に『全体の特徴を表す値(母数)』は「定数」扱いです。

「推計統計学」では、これをサンプルから得ます。

ここで初めて「標本(サンプル)」と「母数」が出てくるわけです。




また、標本(サンプル)の抽出法(サンプリングのやり方)は、

基本的には「確率的にやれる」から、ランダムにとります。

(要は偏ったサンプルを得たくない感じ)



それと、サンプル同士が干渉し合うと処理が面倒くさいので、

「独立」で「同じ分布に従う」という仮定もよく採用されます。

(あの人の趣味と彼の趣味は関係ない。みたいな)




そこで使われる「分布」は、だいたいは『正規分布』です。

(平均・中ほど寄りで、端は少ない感じ)



よく「パラメーター(平均とか)」を持ってると仮定されて、

その上で確率がどうなってるのかを決める、みたいにやります。

その仮定にとって「正規分布」はとても都合が良いわけです。




パラメーター持ちだと「パラメトリック」と言われたりしますね。

持ってないなら「ノンパラメトリック」です。

ノンパラだと正規分布は採用されません。




パラメトリック(平均持ち)である場合は、

「大数の法則」に加えて、これを説明する『中心極限定理』から、

最終的にどんな分布も「正規分布みたい」に扱えます。



厳密には「標本平均」が『正規分布』に従うわけですが、詳細は別で。

ともかく↑みたいな理由があるから「正規分布」は便利なわけです。




そんな感じで、基本的に分布は自由です。

何が絶対にこの分布になる、というわけではありません。



パラメトリックなら「標本をたくさん」とって「正規分布」を採用。

ノンパラ(特徴がよく分からん)なら、一番都合が良いのを採用。

こんな感じで、そこは注意しておきましょう。