|| 皆がイメージする統計学
いわゆる「知りたい値は決まってる」って感じの理屈です。
スポンサーリンク
「頻度」というのは、要はそういう感じの話です。
『サンプリングしたデータ』が、どれくらいの確率で再現されるか。
こんな感じの考え方が基になってます。
つまり『母数(知りたいやつ)は決まっている』から、
サンプリングした『データは高い確率で正しい』っていう感じ。
形式的には『母数(パラメーター)を定数』と考えて、
『データ(高い頻度で出るだろう)を確率変数』とする感じ。
これを「仮説検定」という方法で検証したりします。
『ベイズ統計学』はこの逆になります。
「得たデータ」が確定していて、
「パラメーター」を推測する感じ。
記述統計学 Descriptive Statistics
|| データのまとめ
要は「データの要約」です。
平均なんかを使った全体の比較や、
他にもグラフにして見易くしたりだとか。
とにかく「データを分かりやすくする」ことが主目的になります。
「母数」や「標本」などの概念は、まだここでは登場しません。
見て分かる通り、ここでの目的はデータの要約です。
既に在るデータを、分かりやすく纏めるわけです。
なので「データが揃っている」ことが前提になります。
つまるところ、ここではデータ無しではなにもできません。
無いと要約もくそもないので。
しかしまあ、データが揃ってないと使えないっていうのは微妙です。
まず用途が限られますし、データが多いと手間もかかります。
そんなわけで、別の分野が生まれました。
いわゆる「推測」で特徴を表す統計学の分野です。
推計統計学 Inferential Statistics
|| 一部から全体を推測
要は「みんなが思う統計学」のことです。
一部から全体の特徴を推測して得ます。
やり方は主に 2 つに分けられます。
まず『統計的推定』というものが。
「この値だ」と一点を決めるやり方を『点推定』とか。
「この範囲だ」と範囲を決めるやり方を『区間推定』とか。
次に「仮説」を得て、確かめてみるやり方として、
「こうじゃない?検証しよう」みたいなのを『仮説検定』と。
大雑把には、こんな感じに分かれてます。
基本的に『全体の特徴を表す値(母数)』は「定数」扱いです。
「推計統計学」では、これをサンプルから得ます。
ここで初めて「標本(サンプル)」と「母数」が出てくるわけです。
また、標本(サンプル)の抽出法(サンプリングのやり方)は、
基本的には「確率的にやれる」から、ランダムにとります。
(要は偏ったサンプルを得たくない感じ)
それと、サンプル同士が干渉し合うと処理が面倒くさいので、
「独立」で「同じ分布に従う」という仮定もよく採用されます。
(あの人の趣味と彼の趣味は関係ない。みたいな)
そこで使われる「分布」は、だいたいは『正規分布』です。
(平均・中ほど寄りで、端は少ない感じ)
よく「パラメーター(平均とか)」を持ってると仮定されて、
その上で確率がどうなってるのかを決める、みたいにやります。
その仮定にとって「正規分布」はとても都合が良いわけです。
パラメーター持ちだと「パラメトリック」と言われたりしますね。
持ってないなら「ノンパラメトリック」です。
ノンパラだと正規分布は採用されません。
パラメトリック(平均持ち)である場合は、
「大数の法則」に加えて、これを説明する『中心極限定理』から、
最終的にどんな分布も「正規分布みたい」に扱えます。
厳密には「標本平均」が『正規分布』に従うわけですが、詳細は別で。
ともかく↑みたいな理由があるから「正規分布」は便利なわけです。
そんな感じで、基本的に分布は自由です。
何が絶対にこの分布になる、というわけではありません。
パラメトリックなら「標本をたくさん」とって「正規分布」を採用。
ノンパラ(特徴がよく分からん)なら、一番都合が良いのを採用。
こんな感じで、そこは注意しておきましょう。