|| こんな感じの値が出るんじゃない? っていう値全体
要は「標本(一部のデータ)」から「母数(全体のやつ)」を、
どうにかこうにか『推測』して得た値「全体」のこと。
スポンサーリンク
目次
推定値「いわゆる観測値のことで、推定量の具体例」
誤差「推定量(予想)と母数(知りたいやつ)の違い」
統計学で重要な性質
不偏性「偏りが無いって感じ」
一致性「ほんとの値に近づいていくって感じ」
有効性「誤差のばらつき具合がちっちゃい感じ」
頑健性「データの影響を受けないデータの特徴」
不偏推定量「偏りが無い推定量のこと」
一致推定量「正しくなっていく推定量のこと」
有効推定量「誤差のばらつきが少ない推定量のこと」
単語で言うと「統計量」もしくは「関数」のことです。
いわゆる『母数』と予想できる値全部のことで、いろいろあります。
推定値 Estimated Value
|| 量と値の違い
これは「予想される値」のことです。
要は『定数』のことになります。
『推定「量」』は「確率変数(取り得るやつ)」のことで、
『推定「値」』は「定数(実際に得られたやつ)」という感じ。
混同しやすいんで、これは覚えておくべきです。
恐らくほとんどの人は「値」の方をイメージするかと。
ちなみに『量』だから、推定量から母数を得られます。
『値』はあくまで母数として考えられる候補に過ぎません。
誤差 Error
|| ほんとの値と予想の違い
要は『予想のズレ』のことですね。
形式的には、
母数 θ_{pop} の『点推定量』を「 θ_{est} 」として、
θ_{pop}-θ_{est}
見たまま、これが「誤差」になります。
基本的には、ほぼ確実に「 0 」になりません。
不偏性 Unbiased
|| 偏ってないこと
「推測した『期待値』が真の値になる」感じ。
要は「正しい値(母数)になるよ」って話です。
それを『偏り』という観点から見た感じで。
といっても、そもそも『偏り』ってなんなんでしょ?
これが分からないと話になりません。
てなわけで、『偏り』について見ていきましょうか。
偏り Bias
|| なんかズレてる感じ
「特定の情報だけ多くとる」感じですね。
どこかに偏ると、どうしても全体とは離れてしまいます。
感覚的には「都合の良い事しか見ない」みたいな。
こういうことするとほとんど確実に偏りが出ます。
つまるところ「変数の部分集合」の中で、
適切なものを選ばなかった場合、偏りが出るわけです。
形式的には↓
『母数 θ_{pop} 』の『点推定量を θ_{est} 』とすると、
その偏り「 Bias(θ_{est}) 」は↓になります。
Bias(θ_{est})=E[θ_{est}]-θ_{pop}
これは見たまんまですね。『期待値』の「誤差」です。
この値が 0 になれば、偏りが無いってことになります。
これは直観的にもすっきり分かるかと。
つまり『不偏性』の定義は↓です。
E[θ_{est}]=θ_{pop}
変数「 θ_{est} 」の正確な意味は、
『量』なので「推定量がとり得る全部の内のどれか一つ」です。
『値』つまり「推定値」であれば「一つの値」になります。
『推定量』は、範囲は決まってても具体的な値は決まってません。
『推定値』であれば、範囲も具体的な値も決まってます。
細かいですが別物です。きちんと区別しておきましょう。
そして「期待値」の意味が『変数がとる全体の相加平均』なので、
「偏りが無い」なら、母数と推定値は『定義』からして一致します。
母数は全体から得られるんで。
一致性 Consistency
|| 正しさに近いだろうっていう感じ
「データが増えれば推測がほんとの値に近づいてく」ことです。
ざっと言うなら「増やせば正しくなっていく」みたいな。
なんか食い違ってると、近付かない場合があります。
近付かないというか、誤差が出る感じでしょうか。
こうなると一致しなくなります。(推定量として変)
形式は↓
サンプル数 n での「推定量」を θ_{est_n}
母数を θ_{pop} とすると、
\displaystyle ∀ε>0\,\lim_{n \to \infty}Pr(|θ_{est_n}-θ_{pop}|>ε)=0
「サンプル数を増やすと推測が母数に一致していく」って言ってます。
この感じを形式にすると↑みたいになるわけですね。
これから分かる通り『一致性』は母数に寄っていきます。
『不偏性』は単に期待値なので、寄っていくわけではありません。
この点に明確な違いがあります。
定義から区別するのはなんか直観に合わないんで、
↑とは別に感覚的な話をしてみると、
「一致性」は『サンプルの多さ』に関連のある概念で、
増やしていくことで、徐々に誤差が無くなっていくという感じ。
「不偏性」は『サンプリングのやり方』に関連のある概念で、
適切なサンプリングを行うことで、偏りを無くすという感じ。
この感覚を押さえておけば、混同することはないでしょう。
有効性 Efficiency
|| 推測の精度が高い感じ
要は「推測の誤差がほとんど出ない」ってことです。
形式的には「推定量と母数の分散が小さい」という感じ。
E[(θ_{est}-θ_{pop})^2]
推定量は、基本的に一つではありません。
いろんな方法で推定して、その度に推定量は出てきます。
基本的には「サンプリングのやり方」で区別することになります。
優れたやり方であれば『推測の誤差は小さくなる』はずで、
実際、繰り返して多くの推定値をとれば、そうなるでしょう。
この感じが、有効性の感覚になります。
詳細は長くなるので別でやります。
頑健性 Robustness
|| 周りに左右されない感じ
簡単に言うと『影響を受けにくい性質』のことです。
よくある例としては
分布が『非対称(ぐちゃぐちゃ)』
分布に『外れ値(例外)』がある
なんて場合だと、例えば「平均」を考えるとどうでしょう。
なんだか意味のある値が出てくる気、しなくないですか?
一部でかい値があるだけで、平均なんかは引き上げられちゃいますし。
こんな感じに、分布の特徴は当然のようにデータから影響を受けます。
しかし、中には影響を受けにくいものも存在するわけです。
その具体例を見てみましょう。
例えば大小関係で並べた時の「最大値」「最小値」とか
同じく大小関係で並べた時の「中央値」や「分位数」とか
他にも最多で登場する「最頻値」なんかも
上記のいずれも、分布の形に影響を受けません。
また、見当違いの値を出すこともないわけです。
なにせ、単なる事実を算出するだけですから。
もっと具体的に見てみましょう。
真ん中辺りが↓を這ってて、↑とめっちゃ隔たりがある時とか
よく見る例えは『収入』とかがそんな感じです。
基本的には、年収だと『 200,300 万』くらいでしょう。
でも「平均」はその値にはなりません。もっと大きくなります。
なぜなら、大きいサンプルだと「数百億」なんて例があります。
「数億」ならそれなりにいるわけで、それが平均を引き上げます。
こうなると、欲しいデータを考えると
『平均』よりも『中央値』の方が適しているとは思いませんか?
こういう感じに『値の持つ意味が薄くなる』感じが無い
つまりは影響を受けないものを『頑健性がある』と言います。
以上が、統計で出てくる基本的な性質になります。
ざっとまとめると、
「不偏性」は『期待値と母数の誤差が無い』ってことで、
「一致性」は『推定量が母数に近づいていく』ということ。
「有効性」は『推定量の誤差が小さければ良い感じ』で、
「頑健性」は『値の持つ意味が変わらない』という感じ。
不偏推定量 Unbiased Estimate
|| 偏りから考えられる推測
推定量の一種で「偏り」から考えられます。
要するに、ただの『期待値の計算』です。
形式は「偏りが無い」ことから↓になります。
E[θ_{est}]=θ_{pop}
具体的に「無作為抽出」された「標本」から、
とりあえず「平均の不偏推定量」を考えてみましょう。
なんとなく一致しそうなので『標本平均』を使ってみます。
\displaystyle E[\overline{X}]=E\left[\frac{X_1+X_2+...+X_n}{n}\right]
\displaystyle \frac{1}{n}(E[X_1]+E[X_2]+...+E[X_n])=\frac{1}{n}nμ=μ
予想通り、「標本平均の期待値」と「母平均」は一致しました。
ここでの注意点として「期待値と母数の一致」に着目しましょう。
この結果として、『標本平均』と『不偏推定量』が一致するんです。
逆ではありません。
つまり「標本平均の期待値」が「母平均」に一致したから、
θ_{est}=\overline{X}
となるわけです。
ここまでは、なんか当たり前な感じです。
ただ、次に紹介する「不偏分散」は「標本分散」と一致しません。
なにせ↓の「 θ_{est} 」が不偏分散です。
母分散 σ^2 を考えると、
E[θ_{est}]=σ^2\,\,\,⇒\,\,\,θ_{est}=σ^2_{est}
見た目、なんか「標本分散」と一致しなさそうですよね。
「標本分散」自体がそもそも母分散と一致しませんし。
まあ実際、一致しません。
計算してみましょう。
\displaystyle E[s^2]=E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2\right]
\displaystyle =\frac{1}{n}E\left[\sum_{i=1}^{n}(x_i-\overline{x})^2\right]
ごちゃってるんで、期待値 E の変数だけに着目してみます。
母平均 μ を考えると、
\displaystyle \sum_{i=1}^{n}(x_i-\overline{x})^2=\sum_{i=1}^{n}((x_i-μ)-(\overline{x}-μ))^2
\displaystyle =\sum_{i=1}^{n}((x_i-μ)^2-2(x_i-μ)(\overline{x}-μ)+(\overline{x}-μ)^2)
\displaystyle =\sum_{i=1}^{n}(x_i-μ)^2-2\sum_{i=1}^{n}(x_i-μ)(\overline{x}-μ)+\sum_{i=1}^{n}(\overline{x}-μ)^2
期待値の定義から、
\displaystyle \sum_{i=1}^{n}x_i-nμ=n\cdot\frac{1}{n}\sum_{i=1}^{n}x_i-nμ=n(\overline{x}-μ)
となるので、
\displaystyle =\sum_{i=1}^{n}(x_i-μ)^2-2n(\overline{x}-μ)(\overline{x}-μ)+\sum_{i=1}^{n}(\overline{x}-μ)^2
\displaystyle =\sum_{i=1}^{n}(x_i-μ)^2-2n(\overline{x}-μ)^2+n(\overline{x}-μ)^2
\displaystyle =\sum_{i=1}^{n}(x_i-μ)^2-n(\overline{x}-μ)^2
これで期待値を計算できますね。
というわけで本題に戻って、
\displaystyle =\frac{1}{n}E\left[\sum_{i=1}^{n}(x_i-μ)^2-n(\overline{x}-μ)^2\right]
\displaystyle =\frac{1}{n}\sum_{i=1}^{n}E\left[(x_i-μ)^2\right]-n\cdot\frac{1}{n}E\left[(\overline{x}-μ)^2\right]
ここまでくれば、後は仕上げです。
『分散の定義』と「標本平均の分散」から、
\displaystyle =\frac{1}{n}\sum_{i=1}^{n}V\left[x_i\right]-V\left[\overline{x}\right]
\displaystyle =\frac{1}{n}\cdot nσ^2-\frac{σ^2}{n}=\frac{n-1}{n}σ^2
はい、というわけで「標本分散の期待値」が得られました。
見たまんま「母分散」とはズレています。
具体的には↓みたいに。
\displaystyle E[s^2]=\frac{n-1}{n}σ^2
\displaystyle ⇒\,\,\,\frac{n}{n-1}E[s^2]=σ^2
\displaystyle ∴E[\frac{n}{n-1}s^2]=σ^2
ごちゃごちゃしましたが、なんとか綺麗にまとまりました。
これでやっと「不偏分散」を求められます。
というわけで「不偏分散 θ_{est} 」は↓です。
\displaystyle σ^2_{est}=\frac{n}{n-1}s^2
\displaystyle =\frac{n}{n-1}\cdot\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2
\displaystyle ∴σ^2_{est}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2
一致推定量 Consistent Estimate
|| 一致していく感じからの推測
要は「サンプル数を増やすと母数に近づく」感じ。
まんま『大数の法則』から得られたやつです。
「大数の法則」から確率収束するとすれば、
『標本平均』が「母平均」に近づくと分かります。
また『標本分散』については、
『式変形』すれば、母分散と一致していくことが分かります。
\displaystyle s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2-(\overline{x}-μ)^2
\left[\overline{x}-μ\right]→0\,\,\,(n→\infty)
↑になりますから、一致推定量は↓になります。
これは↓の考え方を使ってます。
V[X]=E[(X-μ)^2]=E[X^2]-E[X]^2
E[x_i-μ]=E[x_i]-μ=\overline{x}-μ
母平均 μ を考えると、
E[(X-μ)^2]=E[X^2-2Xμ+μ^2]
=E[X^2]-2μE[X]+μ^2
「 E[X]=μ 」ですから、
=E[X^2]-2E[X]E[X]+E[X]^2
=E[X^2]-2E[X]^2+E[X]^2
=E[X^2]-E[X]^2
有効推定量 Efficiency Estimate
|| 誤差が小さいこと
要は「誤差が最小になる推定量」のこと。
形式的には↓みたいな。
E[(θ_{est}-θ_{pop})^2]
これは長くなり過ぎるのでちょっと分割。
大雑把な部分だけざっと解説すると、
『バイアス-バリアンス分解』で分かりやすくします。
バイアスの部分は『不偏分散』で計算して、
バリアンス部分は「フィッシャー情報量」から、
『クラメール・ラオの下限』を使って最小を割り出します。