推定量 Estimate


|| こんな感じの値が出るんじゃない? っていう値全体

要は「標本(一部のデータ)」から「母数(全体のやつ)」を、

どうにかこうにか『推測』して得た値「全体」のこと。

スポンサーリンク




目次


推定値「いわゆる観測値のことで、推定量の具体例」

誤差「推定量(予想)と母数(知りたいやつ)の違い」



統計学で重要な性質

   不偏性「偏りが無いって感じ」

   一致性「ほんとの値に近づいていくって感じ」

   有効性「誤差のばらつき具合がちっちゃい感じ」

   頑健性「データの影響を受けないデータの特徴」



不偏推定量「偏りが無い推定量のこと」

一致推定量「正しくなっていく推定量のこと」

有効推定量「誤差のばらつきが少ない推定量のこと」






単語で言うと「統計量」もしくは「関数」のことです。

いわゆる『母数』と予想できる値全部のことで、いろいろあります。






推定値 Estimated Value


|| 量と値の違い

これは「予想される値」のことです。

要は『定数』のことになります。




『推定「量」』は「確率変数(取り得るやつ)」のことで、

『推定「値」』は「定数(実際に得られたやつ)」という感じ。



混同しやすいんで、これは覚えておくべきです。

恐らくほとんどの人は「値」の方をイメージするかと。




ちなみに『量』だから、推定量から母数を得られます。

『値』はあくまで母数として考えられる候補に過ぎません。






誤差 Error


|| ほんとの値と予想の違い

要は『予想のズレ』のことですね。



形式的には、

母数 θ_{pop} の『点推定量』を「 θ_{est} 」として、


θ_{pop}-θ_{est}



見たまま、これが「誤差」になります。

基本的には、ほぼ確実に「 0 」になりません。







不偏性 Unbiased


|| 偏ってないこと

「推測した『期待値』が真の値になる」感じ。




要は「正しい値(母数)になるよ」って話です。

それを『偏り』という観点から見た感じで。




といっても、そもそも『偏り』ってなんなんでしょ?

これが分からないと話になりません。



てなわけで、『偏り』について見ていきましょうか。






偏り Bias


|| なんかズレてる感じ

「特定の情報だけ多くとる」感じですね。

どこかに偏ると、どうしても全体とは離れてしまいます。




感覚的には「都合の良い事しか見ない」みたいな。

こういうことするとほとんど確実に偏りが出ます。



つまるところ「変数の部分集合」の中で、

適切なものを選ばなかった場合、偏りが出るわけです。




形式的には↓

『母数 θ_{pop} 』の『点推定量を θ_{est} 』とすると、

その偏り「 Bias(θ_{est}) 」は↓になります。


Bias(θ_{est})=E[θ_{est}]-θ_{pop}



これは見たまんまですね。『期待値』の「誤差」です。

この値が 0 になれば、偏りが無いってことになります。

これは直観的にもすっきり分かるかと。




つまり『不偏性』の定義は↓です。



E[θ_{est}]=θ_{pop}



変数「 θ_{est} 」の正確な意味は、

『量』なので「推定量がとり得る全部の内のどれか一つ」です。

『値』つまり「推定値」であれば「一つの値」になります。



『推定量』は、範囲は決まってても具体的な値は決まってません。

『推定値』であれば、範囲も具体的な値も決まってます。

細かいですが別物です。きちんと区別しておきましょう。




そして「期待値」の意味が『変数がとる全体の相加平均』なので、

「偏りが無い」なら、母数と推定値は『定義』からして一致します。

母数は全体から得られるんで。






一致性 Consistency


|| 正しさに近いだろうっていう感じ

「データが増えれば推測がほんとの値に近づいてく」ことです。

ざっと言うなら「増やせば正しくなっていく」みたいな。




なんか食い違ってると、近付かない場合があります。

近付かないというか、誤差が出る感じでしょうか。

こうなると一致しなくなります。(推定量として変)




形式は↓

サンプル数 n での「推定量」を θ_{est_n}

母数を θ_{pop} とすると、



\displaystyle ∀ε>0\,\lim_{n \to \infty}Pr(|θ_{est_n}-θ_{pop}|>ε)=0



「サンプル数を増やすと推測が母数に一致していく」って言ってます。

この感じを形式にすると↑みたいになるわけですね。




これから分かる通り『一致性』は母数に寄っていきます。

『不偏性』は単に期待値なので、寄っていくわけではありません。

この点に明確な違いがあります。






定義から区別するのはなんか直観に合わないんで、

↑とは別に感覚的な話をしてみると、



「一致性」は『サンプルの多さ』に関連のある概念で、

増やしていくことで、徐々に誤差が無くなっていくという感じ。



「不偏性」は『サンプリングのやり方』に関連のある概念で、

適切なサンプリングを行うことで、偏りを無くすという感じ。




この感覚を押さえておけば、混同することはないでしょう。






有効性 Efficiency


|| 推測の精度が高い感じ

要は「推測の誤差がほとんど出ない」ってことです。



形式的には「推定量と母数の分散が小さい」という感じ。


E[(θ_{est}-θ_{pop})^2]




推定量は、基本的に一つではありません。

いろんな方法で推定して、その度に推定量は出てきます。




基本的には「サンプリングのやり方」で区別することになります。

優れたやり方であれば『推測の誤差は小さくなる』はずで、

実際、繰り返して多くの推定値をとれば、そうなるでしょう。



この感じが、有効性の感覚になります。

詳細は長くなるので別でやります。






頑健性 Robustness


|| 周りに左右されない感じ

簡単に言うと『影響を受けにくい性質』のことです。




よくある例としては

分布が『非対称(ぐちゃぐちゃ)』

分布に『外れ値(例外)』がある



なんて場合だと、例えば「平均」を考えるとどうでしょう。

なんだか意味のある値が出てくる気、しなくないですか?

一部でかい値があるだけで、平均なんかは引き上げられちゃいますし。




こんな感じに、分布の特徴は当然のようにデータから影響を受けます。



しかし、中には影響を受けにくいものも存在するわけです。

その具体例を見てみましょう。




例えば大小関係で並べた時の「最大値」「最小値」とか

同じく大小関係で並べた時の「中央値」や「分位数」とか

他にも最多で登場する「最頻値」なんかも




上記のいずれも、分布の形に影響を受けません。

また、見当違いの値を出すこともないわけです。

なにせ、単なる事実を算出するだけですから。






もっと具体的に見てみましょう。

真ん中辺りが↓を這ってて、↑とめっちゃ隔たりがある時とか



よく見る例えは『収入』とかがそんな感じです。

基本的には、年収だと『 200,300 万』くらいでしょう。

でも「平均」はその値にはなりません。もっと大きくなります。



なぜなら、大きいサンプルだと「数百億」なんて例があります。

「数億」ならそれなりにいるわけで、それが平均を引き上げます。



こうなると、欲しいデータを考えると

『平均』よりも『中央値』の方が適しているとは思いませんか?






こういう感じに『値の持つ意味が薄くなる』感じが無い

つまりは影響を受けないものを『頑健性がある』と言います。






以上が、統計で出てくる基本的な性質になります。



ざっとまとめると、


「不偏性」は『期待値と母数の誤差が無い』ってことで、

「一致性」は『推定量が母数に近づいていく』ということ。

「有効性」は『推定量の誤差が小さければ良い感じ』で、

「頑健性」は『値の持つ意味が変わらない』という感じ。







不偏推定量 Unbiased Estimate


|| 偏りから考えられる推測

推定量の一種で「偏り」から考えられます。

要するに、ただの『期待値の計算』です。




形式は「偏りが無い」ことから↓になります。


E[θ_{est}]=θ_{pop}




具体的に「無作為抽出」された「標本」から、

とりあえず「平均の不偏推定量」を考えてみましょう。



なんとなく一致しそうなので『標本平均』を使ってみます。



\displaystyle E[\overline{X}]=E\left[\frac{X_1+X_2+...+X_n}{n}\right]

\displaystyle \frac{1}{n}(E[X_1]+E[X_2]+...+E[X_n])=\frac{1}{n}nμ=μ




予想通り、「標本平均の期待値」と「母平均」は一致しました。



ここでの注意点として「期待値と母数の一致」に着目しましょう。

この結果として、『標本平均』と『不偏推定量』が一致するんです。

逆ではありません。



つまり「標本平均の期待値」が「母平均」に一致したから、

θ_{est}=\overline{X}

となるわけです。




ここまでは、なんか当たり前な感じです。

ただ、次に紹介する「不偏分散」は「標本分散」と一致しません。




なにせ↓の「 θ_{est} 」が不偏分散です。

母分散 σ^2 を考えると、


E[θ_{est}]=σ^2\,\,\,⇒\,\,\,θ_{est}=σ^2_{est}


見た目、なんか「標本分散」と一致しなさそうですよね。

「標本分散」自体がそもそも母分散と一致しませんし。

まあ実際、一致しません。



計算してみましょう。

\displaystyle E[s^2]=E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2\right]

\displaystyle =\frac{1}{n}E\left[\sum_{i=1}^{n}(x_i-\overline{x})^2\right]


ごちゃってるんで、期待値 E の変数だけに着目してみます。

母平均 μ を考えると、


\displaystyle \sum_{i=1}^{n}(x_i-\overline{x})^2=\sum_{i=1}^{n}((x_i-μ)-(\overline{x}-μ))^2

\displaystyle =\sum_{i=1}^{n}((x_i-μ)^2-2(x_i-μ)(\overline{x}-μ)+(\overline{x}-μ)^2)

\displaystyle =\sum_{i=1}^{n}(x_i-μ)^2-2\sum_{i=1}^{n}(x_i-μ)(\overline{x}-μ)+\sum_{i=1}^{n}(\overline{x}-μ)^2


期待値の定義から、

\displaystyle \sum_{i=1}^{n}x_i-nμ=n\cdot\frac{1}{n}\sum_{i=1}^{n}x_i-nμ=n(\overline{x}-μ)

となるので、


\displaystyle =\sum_{i=1}^{n}(x_i-μ)^2-2n(\overline{x}-μ)(\overline{x}-μ)+\sum_{i=1}^{n}(\overline{x}-μ)^2

\displaystyle =\sum_{i=1}^{n}(x_i-μ)^2-2n(\overline{x}-μ)^2+n(\overline{x}-μ)^2

\displaystyle =\sum_{i=1}^{n}(x_i-μ)^2-n(\overline{x}-μ)^2


これで期待値を計算できますね。

というわけで本題に戻って、


\displaystyle =\frac{1}{n}E\left[\sum_{i=1}^{n}(x_i-μ)^2-n(\overline{x}-μ)^2\right]

\displaystyle =\frac{1}{n}\sum_{i=1}^{n}E\left[(x_i-μ)^2\right]-n\cdot\frac{1}{n}E\left[(\overline{x}-μ)^2\right]


ここまでくれば、後は仕上げです。

『分散の定義』と「標本平均の分散」から、


\displaystyle =\frac{1}{n}\sum_{i=1}^{n}V\left[x_i\right]-V\left[\overline{x}\right]

\displaystyle =\frac{1}{n}\cdot nσ^2-\frac{σ^2}{n}=\frac{n-1}{n}σ^2


はい、というわけで「標本分散の期待値」が得られました。

見たまんま「母分散」とはズレています。

具体的には↓みたいに。


\displaystyle E[s^2]=\frac{n-1}{n}σ^2

\displaystyle ⇒\,\,\,\frac{n}{n-1}E[s^2]=σ^2

\displaystyle ∴E[\frac{n}{n-1}s^2]=σ^2


ごちゃごちゃしましたが、なんとか綺麗にまとまりました。

これでやっと「不偏分散」を求められます。




というわけで「不偏分散 θ_{est} 」は↓です。


\displaystyle σ^2_{est}=\frac{n}{n-1}s^2

\displaystyle =\frac{n}{n-1}\cdot\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2

\displaystyle ∴σ^2_{est}=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2






一致推定量 Consistent Estimate


|| 一致していく感じからの推測

要は「サンプル数を増やすと母数に近づく」感じ。

まんま『大数の法則』から得られたやつです。




「大数の法則」から確率収束するとすれば、

『標本平均』が「母平均」に近づくと分かります。


\displaystyle \overline{x}=\frac{x_1+x_2+...+x_n}{n}→μ\,\,\,(n→\infty)




また『標本分散』については、

『式変形』すれば、母分散と一致していくことが分かります。



\displaystyle s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2-(\overline{x}-μ)^2



\left[\overline{x}-μ\right]→0\,\,\,(n→\infty)


↑になりますから、一致推定量は↓になります。


\displaystyle \left[s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2-(\overline{x}-μ)^2\right]→σ^2\,\,\,\,\,(n→\infty)




これは↓の考え方を使ってます。


V[X]=E[(X-μ)^2]=E[X^2]-E[X]^2

E[x_i-μ]=E[x_i]-μ=\overline{x}-μ



母平均 μ を考えると、

E[(X-μ)^2]=E[X^2-2Xμ+μ^2]


=E[X^2]-2μE[X]+μ^2


E[X]=μ 」ですから、

=E[X^2]-2E[X]E[X]+E[X]^2

=E[X^2]-2E[X]^2+E[X]^2

=E[X^2]-E[X]^2







有効推定量 Efficiency Estimate


|| 誤差が小さいこと

要は「誤差が最小になる推定量」のこと。



形式的には↓みたいな。

E[(θ_{est}-θ_{pop})^2]




これは長くなり過ぎるのでちょっと分割。

大雑把な部分だけざっと解説すると、

『バイアス-バリアンス分解』で分かりやすくします。



バイアスの部分は『不偏分散』で計算して、

バリアンス部分は「フィッシャー情報量」から、

『クラメール・ラオの下限』を使って最小を割り出します。