統計量 Statistics


|| データの特徴を表す値

『データの特徴を表す値を返す関数』のこと。

標本の平均・分散(関数)とか

スポンサーリンク

 

 


目次

 

要約統計量「特徴を表すやつ」

 

   代表値「サンプルの真ん中にある感じの値」

      平均「総和をサンプルの総数で割った値」

      中央値「並べた時に真ん中にある値」

      最頻値「サンプルの中で一番多い値」

 

   散布度「データのばらつきを表す」

      分散「データと平均の差の二乗和」

      標準偏差「分散の平方根」

 

 

順序統計量「順序に関するやつ(中央値・最大値とか)」

 

十分統計量「母数にかなり近いやつ」

 

検定統計量「検定で使われる予想のこと」

 

 

 

 

 


 

『全体(母集団)』の「特徴(母数)」と

『一部(サンプル)』の「特徴(推定量)」

大まかに分けるとこの2つがあります。

 

 

用途によって名前が細分化されていて

正直、だいぶややこしいです。

 

\begin{array}{llllll} \displaystyle μ&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}x_i \\ \\ σ^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 \end{array}

 

まあ「平均」とか「分散」とか

「統計量」っていうと基本こういうのなので

そういうのをイメージしていればだいたい合ってますが。

 

 

  


 


要約統計量 Descriptive Statistics Value

 

|| データの特徴を表すもの

『基本的な統計量』のことで

そのまま「基本統計量」と呼ばれることもあります。

 

\begin{array}{llllll} \displaystyle 代表値&平均 \\ \\ &中央値 \\ \\ \\ 散布度 &分散 \\ \\ &標準偏差 \end{array}

 

『データの中心辺り』を表す「代表値」

『データのばらけ具合』を表す「散布度」

大きく分けるとこの2つが存在しています。

 

 

 

 

 

代表値 Representative Value

 

代表値と言えばだいたい「平均」ですが

他にも「中央値」「最頻値」などがあります。

 

\begin{array}{llllll} \displaystyle \mathrm{Mean}(X_n)&=&\displaystyle \frac{x_1+x_2+x_3+\cdots+x_{n-1}+x_n}{n} \\ \\ \mathrm{Median}(X_n) &=&\displaystyle \left\{\begin{array}{llllll} \displaystyle \frac{1}{2}\left( x_{\frac{n}{2}}+x_{\frac{n}{2}+1} \right)&&\mathrm{if}&n=2k \\ \\ x_{\frac{n-1}{2}+1}&&\mathrm{if}&n=2k-1 \end{array} \right. \\ \\ \mathrm{Mode}(X_n)&=&\mathrm{Count}(x_i=x_j)>\mathrm{Other} \end{array}

 

『中心』を表す値はだいたいこの辺りを使うので

他のものを使うことはほとんどありません。

 

\begin{array}{llllll} \mathrm{Mid}(X_n)&=& \displaystyle \frac{\mathrm{Min}(X_n)+\mathrm{Max}(X_n)}{2} \end{array}

 

『端』を表す「最大」「最小」

その2つから得られる「中点」

この辺りは使うこともありますが、そのくらいですね。

 

 

 

 

 

平均・期待値 Mean

 

これは「全体の真ん中あたり」を表す値で

『重心』の役割を持つ値になります。

 

\begin{array}{llllll} \displaystyle \displaystyle \mathrm{Mean}(X_n)&=&\displaystyle \frac{x_1+x_2+x_3+\cdots+x_{n-1}+x_n}{n} \end{array}

 

だいたいの場合

こういう感じの定義で紹介されてると思いますが

 

\begin{array}{rlllll} \displaystyle \mathrm{Mean}(X_n)&=&\mathrm{Exp}[X_n]\\ \\ &=&E[X_n] \\ \\ \\ μ&=&E[X_n] \\ \\ &=&\displaystyle \sum_{i=1}^{n}x_ip_i \\ \\ \\ 1&=&\displaystyle\sum_{i=1}^{n}p_i \end{array}

 

一般的にはこんな感じで

「重み p 」あるいは「確率 p 」で定義されています。

 

\begin{array}{llllll} \displaystyle \sum_{i=1}^{n}x_ip_i&=&\displaystyle \sum_{i=1}^{n}x_i\frac{1}{n} \\ \\ &=&\displaystyle \frac{1}{n}\sum_{i=1}^{n}x_i \end{array}

 

これは「無作為抽出」である場合の話とか

『サンプルの出現確率が同じ』パターンの話で

 

\begin{array}{llllll} \displaystyle E[X]&=&\displaystyle \frac{1}{n}\sum_{i=1}^{n}x_i \end{array}

 

統計で使わないことは無いので

基本、これだと思っていてもそんな問題はないです。

 

\begin{array}{llllll} \displaystyle E[X]&=&\displaystyle\int xp(x) \,dx \end{array}

 

ただ「確率変数」が『連続値』の場合とか

 

\begin{array}{llllll} \displaystyle E[a]&=&a \\ \\ E[aX]&=&aE[X] \\ \\ \\ E[X+a]&=&E[X]+a \\ \\ E[X+Y]&=&E[X]+E[Y] \\ \\ \\ E[XY]&=&E[X]E[Y] \\ \\ &&\Bigl( p(x∩y)=p_x(x)p_y(y) \Bigr) \end{array}

 

式変形について厳密に扱う時とか

そういうところでは必要になるので覚えておきましょう。

 

\begin{array}{llllll} \displaystyle E[aX]&=&\displaystyle \sum_{i=1}^{n}ax_ip_i \\ \\ &=&\displaystyle a\sum_{i=1}^{n}x_ip_i \end{array}

 

\begin{array}{llllll} \displaystyle E[X+Y]&=&\displaystyle \sum_{i=1}^{n}\Bigl( x_ip_{x_i}+y_ip_{y_i} \Bigr) \\ \\ &=&\displaystyle \sum_{i=1}^{n}x_ip_{x_i}+\sum_{i=1}^{n}y_ip_{y_i} \end{array}

 

\begin{array}{llllll} \displaystyle p(x∩y)&=&p_x(x)p_y(y) \end{array}

 

\begin{array}{llllll} \displaystyle \displaystyle \sum_{i=1}^{n}\sum_{j=1}^{m}x_iy_j&=&\displaystyle x_1\sum_{j=1}^{m}y_j+x_2\sum_{j=1}^{m}y_j+\cdots \end{array}

 

\begin{array}{llllll} \displaystyle E[XY]&=&\displaystyle \sum_{i=1}^{n}\sum_{j=1}^{m}x_iy_jp(x_i∩y_j) \\ \\ &=&\displaystyle \sum_{i=1}^{n}\sum_{j=1}^{m}x_iy_jp_{x_i}(x)p_{y_j}(y) \\ \\ \\ &=&\displaystyle \sum_{i=1}^{n}\left( x_ip_{x_i}(x)\sum_{j=1}^{m}y_jp_{y_j}(y) \right) \\ \\ &=&\displaystyle \sum_{i=1}^{n}x_ip_{x_i}(x) E[Y] \end{array}

 

それにこの辺り

統計では嫌というほど見るので

是非とも押さえておきたいところです。

 

 

 

 

 

散布度 Scatter

 

これは『データのばらけ具合』を表す値で

「分散 σ^2 」「標準偏差 σ

 

\begin{array}{llllll} \displaystyle σ^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 \\ \\ \displaystyle σ&=&\displaystyle\sqrt{ \frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 } \end{array}

 

「正規分布(山みたいな形の分布)」の

曲がり具合を示す『歪度 \mathrm{skew}

尖り具合を示す『尖度 \mathrm{Kurtosis} 』なんてものもあります。

 

 

 

 

 

分散 Variance

 

『ばらつき具合』を表す値は

 

\begin{array}{llllll} \displaystyle σ^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 \end{array}

 

基本的にこの値が使われます。

 

\begin{array}{llllll} \displaystyle && \displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ) \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( (x_1-μ)+(x_2-μ)+\cdots+(x_n-μ) \Bigr) \\ \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( x_1+x_2+\cdots+x_n -nμ\Bigr) \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( x_1+x_2+\cdots+x_n \Bigr)-\displaystyle\frac{1}{n}\Bigl(nμ\Bigr) \\ \\ &=&μ-μ \end{array}

 

2乗しなければこうなるので

『平均からの差』を集める場合

最低限、この形にしなければならないので。

 

 

 

 

 

モーメント母関数

 

この辺りの統計量の厳密な話を理解するには

「モーメント母関数 μ_m 」の知識が必要になります。

 

\begin{array}{llllll} \displaystyle μ&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}x_i \\ \\ μ_m&=&\displaystyle\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^m \end{array}

 

特に「歪度」「尖度」なんかは

なんでこういう形なの?と思うでしょう。

 

\begin{array}{llllll} \displaystyle \mathrm{Mean}(X)&=&μ \\ \\ \mathrm{Variance}(X)&=&μ_2 \\ \\ \mathrm{Deviation}_{\mathrm{standard}}(X)&=&\displaystyle\sqrt{μ_2} \\ \\ \\ \mathrm{Skew}(X)&=&\displaystyle \frac{μ_3}{σ^3} \\ \\ \mathrm{Kurtosis}(X)&=&\displaystyle\frac{μ_4}{σ^4} \end{array}

 

解説したいところですが

ちょっと長くなるので詳細は別の記事で。

 

 

 


 


順序統計量 Order Statistic

 

|| 順序を基準に特徴を見る統計量

『順番という基準から見える特徴』を表す値のこと

 

\begin{array}{llllll} \displaystyle x_1&≤&x_2&≤&x_3&≤&\cdots&≤&x_n \end{array}

 

『順序関係 』で並べられたもの

 

\begin{array}{llllll} \displaystyle \min(X)&=&x_1 \\ \\ \max(X)&=&x_n \end{array}

 

この「両端」になる『最大値』『最小値』とか

「真ん中」にある『中央値』とか

こういうのを順序統計量と言います。

 

\begin{array}{llllll} \displaystyle \mathrm{Range}(X)&=&x_n-x_1 \end{array}

 

「範囲 \mathrm{Range} 」なんかもこれで

当然「分位数」なんかもこれに当たります。

 

 

 


 


十分統計量 Sufficient Statistics

 

|| 推定の正しさがある程度保証されてる感じ

『だいたい正しいと言っていい統計量 T(X) 』のこと。

 

\begin{array}{llllll}&& \displaystyle P(X=x|T=t,θ_{\mathrm{true}}) \\ \\ &=&P(X=x|T=t) \end{array}

 

条件付確率でそのまま定義されていて

かなり分かりやすい形で定義されています。

 

\begin{array}{llllll} \displaystyle μ&=&E[X] \\ \\ \overline{x}&=&E[X_n] \end{array}

 

具体例としては

「平均(母数)」に対する「標本平均」のことで

 

\begin{array}{llllll} \displaystyle \overline{x}&=&\displaystyle \frac{x_1+x_2+\cdots+x_n}{n} \end{array}

 

これは母数の値とは関係なく得られる上に

『サンプル数が十分』であるなら

「推定値としてほぼ正しい」

 

 

このように言えますから

この時の「標本平均」は『十分統計量』と言えます。

 

 

 


 


検定統計量 Test Statistic

 

|| 仮説検定で得られるもの

『仮説の正しさを検証するための統計量』のこと。

 

\begin{array}{llllll} \displaystyle z&=&\displaystyle\frac{μ-\overline{x}}{\displaystyle\sqrt{σ^2/n}} \\ \\ t&=&\displaystyle\frac{μ-\overline{x}}{\displaystyle\sqrt{s^2/n}} \\ \\ \\ χ^2&=&\displaystyle\frac{(n-1)s^2}{σ^2} \end{array}

 

『仮説検定』を理解していないと

これはちょっとよく分かんないと思います。

 

 

 

 

 

仮説検定 Hypothesis Testing

 

|| こうじゃね?の正しさを数値で検証

「母数はこのくらいじゃね?」という『仮説』が

『どの程度正しいのか標本で検証する』こと。

 

\begin{array}{llclll} &&\mathrm{Test} \\ \\ \displaystyle \mathrm{Hypothesis}&&→&& \mathrm{True} \end{array}

 

「正規分布 N(μ,σ^2) 」について調べるもの

t 分布」について調べるもの

χ^2 分布」について調べるもの

 

\begin{array}{llllll} \displaystyle z&=&\displaystyle\frac{μ-\overline{x}}{\displaystyle\sqrt{σ^2/n}} \\ \\ t&=&\displaystyle\frac{μ-\overline{x}}{\displaystyle\sqrt{s^2/n}} \\ \\ \\ χ^2&=&\displaystyle\frac{(n-1)s^2}{σ^2} \end{array}

 

この辺りが有名で

 

\begin{array}{llllll} \displaystyle p(\overline{x})&≒&1 \end{array}

 

だいたい『サンプルが出る確率』を使って検証し

 

\begin{array}{llllll} \displaystyle 1-β \end{array}

 

「検出力 β 」という

『正しさの強度みたいな値』を定めることによって

「どの程度正しいと言えるのか」を測ります。

 

 

 他にも「検出力」と似た「有意水準」や

『範囲を限定するために否定される』「帰無仮説」

『帰無仮説の否定によって肯定される』「対立仮説」

 

 

こういった用語があって

詳しくやるとかなり長くなるので別記事で扱います。