|| 人類史上最高の発明
いわゆる『中心』『規則性』の「発見」が主目的の分野です。
「科学」の基礎の基礎になります。
スポンサーリンク
基本的な知識
頻度論的統計学「一般的なイメージの統計学」
記述統計学「データを分かりやすく表す感じ」
推計統計学「データから特徴なんかを推測する感じ」
統計的推定「点推定とか区間推定とか」
仮説検定「仮説を実際に検証」
ベイズ統計学「後付けで予測を修正できちゃう感じ」
ベイズの定理「後の結果が前の結果に影響を与える」
標本「いわゆる調査結果(データ)のこと」
サンプル数「サンプリングした回数のこと」
サンプルサイズ「考えられるサンプルの中身の個数」
母集団「サンプルの参照元全体のこと」
分布「点(データ)の集まりのこと」
確率分布「データから確率を導けるもの」
累積分布関数「確率を返すための関数のこと」
確率密度関数「実際の分布の形を表す関数のこと」
正規分布「期待値を持ってる代表的な分布」
独立同分布である「データ同士が干渉しあわない感じ」
相関「片方が変化するともう片方もその影響を受ける感じ」
回帰分析「データ同士の関係をグラフにしてみる感じ」
母数「ある集団の特徴を表すほんとの数値」
期待値「いわゆるその分布の真ん中っぽい感じの数」
分散「真ん中辺りからのデータのばらけ具合を表す数」
統計量「全体の一部の特徴を表す値」
要約統計量「見たまんま、特徴の要約を表すやつ」
標本平均「サンプル(標本)の平均」
標本平均の分散「サンプル(標本)の平均の分散」
検定統計量「検定で使われるやつ」
順序統計量「順序に関するやつ(中央値とか最大値とか)」
十分統計量「母数を上から抑えられるやつ」
統計学の基礎付け「確率変数の収束から、大数の法則が」
マルコフの不等式「期待値と定数で確率の最大値が」
チェビシェフの不等式「標準偏差の定数で確率の最大が」
大数の法則「サンプル数を増やすと精度が上がる」
大数の弱法則「どんどん正しくなっていく感じ」
大数の強法則「いつかはほとんど確実にそれになる感じ」
中心極限定理「期待値を持ってるなら正規分布に近づいてく」
抽出「不偏性や一致性を高めるサンプリングのやり方」
有意抽出法「確率的な根拠が特に無いお好みなやり方」
無作為抽出「全部同じ確率でサンプリングできるっていう仮定」
単純抽出「単に乱数を使ってやるだけ」
系統抽出「適当なとこから等間隔にとってく感じ」
多段抽出「抽象的な枠から段々にとってく感じ」
集落抽出「分割された集団をランダムに選ぶ感じ」
層化抽出「属性を層としてそれから一定数とってく感じ」
点推定「母数の予想を『これ』と一点で予測する」
区間推定「点推定の予想を『このくらいは正しい』とする」
仮説検定「予想を仮説として、実際に検証してみる」
不偏性「偏りが無いってことを示す指標」
一致性「真の値に近づいてくっていうことを示す指標」
有効性「推測の誤差がぜんぜん無い感じ」
頑健性「影響がないような感じのこと」
推定量「正しいんじゃないの?っていう値(統計量)」
不偏推定量「偏りがない推定量のこと」
一致推定量「真の値に一致していく推定量のこと」
有効推定量「推測の誤差のばらつき具合が小さいやつ」
最尤推定「一番それっぽい母数の見積もり」
尤度関数「それっぽさを示す値を出すための関数」
統計は、最初は「全体の把握」から始まりました。
要はたくさんあるものを単純なまとまりで捉えようとしたわけです。
例えば、国家運営のためとかいう理由だったりで。
いわゆる『調整』のために「大雑把な把握」が必要だったわけですね。
人には大量のものを一つ一つ記憶するのは至難ですから。
そんな統計のキーになる概念の一つは「パラメーター(母数)」です。
これは『平均』だったり『分散』だったりのことを言います。
他にも『相関』という概念も非常に重要になります。
これを簡単に言うと「片方が変化すると、もう片方も影響を受ける」
というような感じ。
『統計』では、↑の概念を厳密に定めていきます。
そのために色々細かくやる感じです。
初めは「推論」の『仮説形成』を使って、
「パラメーターの予想」とか「相関の有無の予想」とかをします。
それが『真である(正しい)か』どうか。
統計は、その『根拠』を提供するわけです。
例えばなにかを調査するためにデータが必要なら、
それをきちんと集め、数学的に扱えるように、
なにかが出る「確率は一定」みたいな『仮定』を定めたりして。
数学全体がそうですが、要は「確実に比較」したいんです。
ですから、まずは数学的に扱えるように良い感じの仮定を定めます。
そして、調べたいことを調べるわけです。
それこそ何でも。わりとどんなことでも調べられます。
その辺、当然のように工夫は必要なんですが。
例えば『頭が良い人の特徴』とかなら、
「正しく継続ができる」って部分が条件なんじゃないか?とか。
いつまでも『やる気が出ない』のは、
周りの「環境が原因じゃないか?」とか。
これらを数学的に扱えるようにするっていう工夫は必要ですが、
「これなら正しい」という『基準(モデル)』を用意すれば十分です。
モデルの構成や、モデル内での処理やらは数学の領分になります。
さて、ではそんな「統計」について、
ざっくりとその感じを掴んでいきましょう。
専門用語がとにかく多いので、まずはその雰囲気を掴んで欲しいです。
頻度論的統計学 Frequency statistics
|| みんなの考える統計学
「知りたい値は決まってる」って感じの理屈
『サンプリングしたデータ』がどれくらいの確率で再現されるか。
こんな感じの考え方が基になってます。
つまり形式的には、
「知りたいやつ(母数)を固定(定数にして)」して、
「サンプル(高い確率で出るだろう)を確率変数」にして動かします。
「記述統計学」と「推計統計学」に分けることができます。
記述統計学 Descriptive Statistics
|| データのまとめ
平均なんかを使った全体の比較とか、
グラフにして見易くしたりだとか。
母集団(全体)が分かってないとなにもできないって欠点があります。
それを解決するために発明されたのが↓です。
推計統計学 Inferential Statistics
|| 一部から全体を推測
要は「みんなが思う統計学」のこと。
一部から全体の特徴を推測して得る。
これだ、と一点予測する感じの「点推定」とか、
この辺だ、と範囲を予測する感じの「区間推定」とか。
それとは別に「こうなんじゃ? 検証してみよう」
という感じの『仮説検定』なるものがある。
ベイズ統計学 Bayesian Statistics
|| 後出し修正できちゃうやつ
「全体の特徴は正確には分からんよ」って感じの考え方。
『ベイズの定理』いわく、
「前の結果」は「後の結果」に影響を受けます、と。
だから『サンプルから特徴を得る』なら、定数にはならんと。
↑の理由から、定数として考えるのがそもそも無理があるんじゃ?
となって、全体の特徴も変動的に扱うべきじゃ? となった感じ。
標本 Sample
|| 標本ってよりサンプルのが直感的
『調査して得たデータ』のこと。
これを使って『全体』の予測をします。
なので、標本(サンプル)の取り方とかがかなり重要です。
また、混同されやすい用語があるので紹介。
「いくつのサンプルをとったか」を表す『標本数(サンプル数)』と、
「サンプルの候補」を表す『サンプルサイズ』
1000 人から 100 人分のサンプルを取るなら、
「サンプル数」は 100 で、
「サンプルサイズ」は 1000 になります。
母集団 Population
|| いわゆる全体のこと
『調査対象全体の集合』と「仮定」されるものです。
全体なので、未来のデータも含めることになります。
「標本(サンプル)」は、これの一部のことです。
〇とか自分で書いてみて、視覚的に覚えると良いかもしれません。
分布 Distribution
|| 点の集まり
データの広がりを視覚化したもの。
一番それっぽいのは「平面にたくさん点がある」感じのやつ。
関数での線グラフも「繋がった点の集まり」と見れば。
点は『調査して得たデータ』を意味する「観測値」のことですね。
これを『取り得る値の一つ』として「変量」と表す場合もあります。
確率分布 Probability Distribution
|| 確率を表してる関数のこと
「データ X 」から「確率 P(X) 」が求められて、
その時の『 P 』のこと確率分布を言います。
厳密な定義としては、
『可測空間』上で定義された『確率測度 P 』
この「 P 」のことを確率分布と言います。
累積分布関数 Distribution function
|| 確率を算出する関数のこと
「確率を返すための関数」のこと。
確率分布の漠然とした感じをちょっと具体的にしたものになります。
具体的には、確率を返す「関数 F_X(x)=P(X≤x) 」のこと。
データが離散型(点々)なら、
\displaystyle F_X(L)=Pr(X≤L)=\sum_{x≤L}Pr(X=x)=\sum_{x≤L}p(x)
データが連続型(点が集まって線っぽく見える)なら、
\displaystyle F_X(a)=Pr(X≤a)=\int_{-\infty}^{a}f_X(x)\,dx
この「 F_X(x) 」が「累積分布関数」と呼ばれるものになります。
確率密度関数 Probability Density function
|| データが連続型の時に必要になる関数
これは「連続型のデータが表す分布の形を表す関数」になります。
単純な話、データが範囲内でなんでもとれる(連続)と、
分布を点々じゃなく、線で表す必要があります。(点が無限個)
これはそのための関数です。
形式的には、
\displaystyle Pr(a<X≤b)=Pr(X≤b)-Pr(X≤a)
\displaystyle =F_X(b)-F_X(a)=\int_{a}^{b}f_X(x)dx
これの「 f_X(x) 」が『確率密度関数』です。
正規分布 Normal Distribution
|| 山っぽい形をした、わりと万能なやつ
「だいたいこいつに従う」分布のこと。
「大数の法則」で使われる分布だと覚えておけば、
ある程度ざっくりとした感じがつかめると思います。
形式的には「平均 μ 」「分散 σ^2 」なら、
↑の母数に従う分布ということで、正規分布を、
『 N(μ,σ^2) 』と表したりします。
独立同分布である i.i.d. IID
|| 同じ所属で、互いに干渉し合わない感じ
「確率変数を別々に扱えるよ」という『仮定』
形式的には「条件付確率」を考えなくていいって感じ。
相関 Correlation
|| これが変化するとあれも変化する、みたいな感じ
影響し合っているなら「相関がある」って言います。
影響し合ってないなら「相関はない」って言いますね。
これは勘違いの原因にもなり得る考え方です。
いわゆる「疑似相関」というやつで、
例えば別の影響を強く受けていたのに、
偶々起きたことと相関がある、って考えるみたいな。
回帰分析 Regression Analysis
|| データの関係を単純にするために簡単な関数にしてしまう感じ
いわゆる「分布を簡単に考える」という感じです。
例えば「なんらかの結果 Y_{con} 」があって、
「原因っぽいもの X_{src} 」がある時、その『分布』を、
Y_{con}=f(X_{src}) と簡単に表しちゃう感じ。
母数 Parameter
|| 要は統計学で知りたい、全体の特徴のこと
データが『有限』ならそのまま求めることができるやつ。
ただ大体サンプルは無数に考えられるので、予想で求める。
基本的には「データの中央辺り」として『期待値』とか。
「データのばらつき具合」として『分散』とかが母数になる。
期待値 Expected Value
|| データの重心(真ん中辺り)を表す値
『データの平均的な値』のこと
線で考えると、線の真ん中とか。
これを実現する考え方は↓です。
\displaystyle E[X]\,\,\,\,\,μ:=\sum_{i=1}^{n}p_ix_i=p_1x_1+p_2x_2+…+p_nx_n
この「 E[X],μ 」が期待値になります。
確率を「比率」って考えて、加重平均と考えると直観的かも?
分散 Variance
|| データのばらつき具合を表す値
要は「中心とデータの差を集めたやつ」のこと。
ですから、まず「期待値」が必要で、
「データと期待値の差 X-μ 」がいります。
ただこのままだと「 +,- 」で打ち消されちゃうので、
符号を + に統一するために「 2 乗」します。
これを全部足し合わせたものが、分散です。
形式的には、
\displaystyle V[X]\,\,\,Var[X]\,\,\,σ^2:=E[(X-μ_X)^2]=\sum_{i=1}^{n}p_i(x_i-μ_X)^2
これの「 V[X],Var[X],σ^2 」を分散と言ってます。
統計量 Statistics
|| 一部から予想してみた全体の特徴のこと
簡単には、標本から得られた母数っぽい値のこと。
母数は『母集団』から得た直接得た値で、
統計量は『母集団の一部』から得た値になります。
データの特徴を表す『要約統計量』とか。(平均とか)
仮説検定で使う母数の予想である『検定統計量』とか。
最先端とか真ん中とか順序に関連する『順序統計量』とか。
他にも、母数をカバーしちゃう『十分統計量』とか。
基礎付け Fundamental
|| サンプルを増やすと誤差とかが減っていく感じ
データ数を増やせば、正しい値に近づく(大数の法則)
この事実が保証されているということが「統計学の基礎」になります。
大数の法則 Law of Large Numbers
|| たくさんあれば正確になっていく感じ
いわゆる「サンプル数が多ければ多いほど良い」っていう事実です。
ただし『平均』についての話になります。
形式的に言い表すと↓みたいになります。
『標本数(サンプルの数)が多い』ほど、
『標本平均(一部の平均)』が『真の平均(全体の平均)』に近づく。
そして、これが成立する条件(前提)は↓です。
要は「簡単に扱えるよ」って感じ。
『確率変数(データ)』は独立で、同一の分布に従う。
「標本平均」もまた確率変数である。
「弱法則」と「強法則」があります。
「弱法則」は例外が減っていくという『確率収束』を表していて、
「強法則」は最終的には落ち着くという「概収束」を表してます。
マルコフの不等式 Markov’s inequality
|| 確率の上限が決まることを示す結果
「区間」と「期待値」で、『確率の上限』が得られる。
これが、この不等式の持つ意味になります。
具体的には↓です。
\displaystyle Pr[X≥c]≤\frac{E[X]}{c}
チェビシェフの不等式 Chebyshev’s inequality
|| マルコフが期待値なら俺は分散でやったるって感じ
「区間」と「分散」で『確率の上限』が得られる。
これがこの不等式の意味になります。
具体的には↓です。
\displaystyle Pr[|X-μ_X|≥nσ]≤\frac{1}{n^2}\,\,\,\,\,(n>0,σ≥0)
これから↓が導かれます。
詳しくは『標本平均の分散』から。
\displaystyle Pr[(|\overline{X_n}-μ|≥ε]≤\frac{σ^2}{nε^2}
大数の弱法則 Weak LLN, WLLN
|| どんどん外れなくなっていくって感じの事実
『サンプル数が多く』なっていくと、
「例外が無視されていく」という感じの法則。
形式は、チェビシェフの不等式から、
『標本平均(確率変数)』に関して、サンプル数 n を考えると、
\displaystyle Pr[(|\overline{X_n}-μ|≥ε]≤\frac{σ^2}{nε^2}
\displaystyle \lim_{n \to \infty}Pr(|\overline{X_n}-μ|>ε)=0\,\,\,\,\,(∀ε>0)
感覚的には人間の「慣れ」みたいな。
回数を熟すと失敗しなくなってく感じ。
大数の強法則 Strong LLN, SLLN
|| 最終的にはそれになるって感じの事実
「最終的には一定になる」みたいなことを言ってます。
感覚的には「時間が経つと動かなくなっていく」感じです。
形式的には↓みたいになります。
「真の値」に『ほとんど確実に』なる、という意味で、
\displaystyle Pr(\lim_{n \to \infty}X_n=μ)=1
『モーメント母関数』が証明には必要です。
『中心極限定理』もあった方が良いですね。
中心極限定理 Central Limit Theorem
|| 統計学の基本定理
『標本平均』が、サンプル数を増やしていくと、
母数を持ってるなら『正規分布』に近づいていく、という事実。
証明には『特性関数』を理解しておく必要があります。
『特性関数』っていうのは、いわゆる関数の一般形のことです。
『テイラーの定理』が基礎になってます。
抽出 Sampling
|| 正しい結果のために、全体から一部を抜き取るやり方
そのまま「サンプル(標本)の取り方」のこと。
簡単にまとめると↓みたいな感じ。
大きく分けて「確率的な根拠があるか否か」で、
無い方が「有意抽出」で、ある方が「無作為抽出」
基本的には『無作為抽出』の方が使われます。
「有意抽出」は正しいのかすらよく分かんないので。
有意抽出 Purposive Selection
|| なんか正しいっぽいけど結果は五分くらいのやり方
「正しいっぽいけど実はそうでもない」サンプリングのやり方です。
「お好み法」とも呼ばれます。
特に正しいわけではない「似非」統計を見分けるのに役立ちます。
なので、覚えておいた方が良いです。
当然ですが、医学やら科学やらで採用されることはありません。
典型調査「やりたいようにサンプリングする」
ダメっぽいですけど、これは『仮説』を立てる上では有用です。
アンケート法「専門家の意見(主観)を質問(主観)で」
なんか正しそうですが、実はそうでもありません。
割り当て法「構成比率(主観)でグループ毎に等しくとる感じ」
比率を考えるにしても主観が入るので、それっぽいけど微妙なやり方
無作為抽出 Random Sampling
|| 確率的な根拠があるサンプリング方法
同じ確率だと仮定してサンプリングすること。
『単純抽出法』は「乱数表を使って無作為を実現」
ランダム性が高い分、低いけれど偏る可能性がある
『系統抽出法』は「等間隔にとって無作為を実現」
サンプルの並びに周期性や規則性があると、偏る可能性が高い
『多段抽出法』は「グループ分けして、無作為に選ぶのを繰り返す」
グループに偏りがあると、全体がそれに引っ張られる
『集落抽出法』は「グループ分けして、選んだグループを全て見る」
多段と同じく、グループが偏る可能性を考えられる
『層別抽出法』は「属性でグループ分けして、中身を詳しく見る」
層(属性)を決めるのが難しい場合がある
推定量 Estimate
|| 『母数』と予想できる値全部のこと
「標本(一部のデータ)」から「母数(全体のやつ)」を、
どうにかこうにか『推測』して得た値「全体」のこと。
曖昧になりがちな原因を紹介しておきます。
推測して得た「値」である『推定値』と、これは別物です。
「値は定数」ですが「推定量は変数」になります。
以下に代表的な推定量を紹介します。
統計学の基本になるものなので、押さえておきましょう。
不偏推定量 Unbiased Estimate
|| 偏りから得られる推測
偏りが無いという意味の推定量 θ_{est} のこと。
結果的には、単なる「期待値の計算」です。
『偏り Bias』の定義は↓
Bias(θ_{est})=E[θ_{est}]-θ_{pop}
つまり『偏りが無い』ということは↓
E[θ_{est}]=θ_{pop}
一致推定量 Consistent Estimate
|| 大数の法則的な考え方
「サンプル数を増やすと母数に近づく」感じ。
例えば『標本平均 \overline{x} 』なら、
定義から、『標本平均』が「母平均 μ 」に近づくと分かります。
この時の『標本平均 \overline{x} 』が一致推定量です。
\displaystyle \overline{x}=\frac{x_1+x_2+…+x_n}{n}→μ\,\,\,(n→\infty)
有効推定量 Efficiency Estimate
|| 誤差のばらつきが一番小さい推定量のこと
誤差「 θ_{est}-θ_{pop} 」が無ければ正しかろうという理屈です。
形式としては↓みたいになります。
これが『最小』のときの「 θ_{est} 」が有効推定量です。
E[(θ_{est}-θ_{pop})^2]
最尤推定 Maximum Likelihood, MLE
|| 一部から得られた、一番それっぽい予想
「サンプリングした結果の再現率」で考えます。
この再現率が『一番大きい』ときの推定量が、最尤推定量です。
実際にサンプリングした結果 E があって、
これを再現するのに必要な「推定したいやつ θ_{est} 」から、
この二つの値で決まる『出やすさ』を表している、
『確率を表す関数 f(E,θ_{est}) 』考えると、
この確率が『最大』になる時、
『 θ_{est} 』を「最尤推定量」と言います。
要は、この最尤推定量を求めるやり方が「最尤推定」です。
尤度関数 Likelihood Function
|| 再現率を表してる、確率を導ける関数
「サンプリングした結果の出やすさ」を表す関数になります。
出やすさなんで、確率が導かれる感じです。
サンプリング結果の『再現率を表す関数 f(x,θ_{est}) 』がある時、
「サンプリングで得ることができる変数」を x として、
『予測しないと分かんないやつ(固定して予測)』を θ_{est} とします。
この時の「条件付確率 f(x\,|\,θ_{est}) 」のことを、
L(θ_{est}\,|\,x):=f(x\,|\,θ_{est}) と表して条件を入れ替えて、
この「 L(θ_{est}\,|\,x) 」のことを、尤度関数と言ってます。
尤度方程式 Likelihood Equation
|| 尤度関数の最大を求めるためのやり方
「比較を簡単にする手続きの一つ」のことです。
『微分』が表す「変化量」が無い場所を探って、最大を求めます。
重要なのは『最大が分かること』ですから、
『大小比較』さえできればそれでいいわけです。
なので『指数の大小比較』さえ行えば、最大は求められます。
そこで問題を簡単にするために『指数』を扱う対数関数を使います。
a<b\,\,\,⇔\,\,\,x^a<x^b
まとめると『尤度関数』の「最大」を得るために、
『尤度関数』の『指数の大小比較』を行って、
推定量 θ_{est} の偏微分から、変化量が 0 になる場所を求めます。
「尤度関数」が↓ですから、
L(θ\,|\,x)=e^{\log_{e}L(θ\,|\,x)}
その『偏微分』で表される変化量が、無い場所を求めたいなら、
\displaystyle \frac{∂}{∂θ}\log_{e}L(θ\,|\,x)=0
この↑の式が、尤度方程式になります。
『解』として「推定量 θ_{est} の具体的な量」が出てきて、
その最大のものが「最尤推定量」になります。