統計量とかいういかにもな専門用語についてちゃんと詳しくまとめてみた

|| データの特徴を表す値

『データの特徴を表す値を返す関数』のこと。

標本の平均・分散（関数）とか

要約統計量 Descriptive Statistics Value

|| データの特徴を表すもの

『基本的な統計量』のことで

そのまま「基本統計量」と呼ばれることもあります。

$\begin{array}{llllll} \displaystyle 代表値&平均 \\ \\ &中央値 \\ \\ \\ 散布度 &分散 \\ \\ &標準偏差 \end{array}$

『データの中心辺り』を表す「代表値」

『データのばらけ具合』を表す「散布度」

大きく分けるとこの２つが存在しています。

代表値 Representative Value

代表値と言えばだいたい「平均」ですが

他にも「中央値」「最頻値」などがあります。

$\begin{array}{llllll} \displaystyle \mathrm{Mean}(X_n)&=&\displaystyle \frac{x_1+x_2+x_3+\cdots+x_{n-1}+x_n}{n} \\ \\ \mathrm{Median}(X_n) &=&\displaystyle \left\{\begin{array}{llllll} \displaystyle \frac{1}{2}\left( x_{\frac{n}{2}}+x_{\frac{n}{2}+1} \right)&&\mathrm{if}&n=2k \\ \\ x_{\frac{n-1}{2}+1}&&\mathrm{if}&n=2k-1 \end{array} \right. \\ \\ \mathrm{Mode}(X_n)&=&\mathrm{Count}(x_i=x_j)>\mathrm{Other} \end{array}$

『中心』を表す値はだいたいこの辺りを使うので

他のものを使うことはほとんどありません。

$\begin{array}{llllll} \mathrm{Mid}(X_n)&=& \displaystyle \frac{\mathrm{Min}(X_n)+\mathrm{Max}(X_n)}{2} \end{array}$

『端』を表す「最大」「最小」

その２つから得られる「中点」

この辺りは使うこともありますが、そのくらいですね。

平均・期待値 Mean

これは「全体の真ん中あたり」を表す値で

『重心』の役割を持つ値になります。

$\begin{array}{llllll} \displaystyle \displaystyle \mathrm{Mean}(X_n)&=&\displaystyle \frac{x_1+x_2+x_3+\cdots+x_{n-1}+x_n}{n} \end{array}$

だいたいの場合

こういう感じの定義で紹介されてると思いますが

$\begin{array}{rlllll} \displaystyle \mathrm{Mean}(X_n)&=&\mathrm{Exp}[X_n]\\ \\ &=&E[X_n] \\ \\ \\ μ&=&E[X_n] \\ \\ &=&\displaystyle \sum_{i=1}^{n}x_ip_i \\ \\ \\ 1&=&\displaystyle\sum_{i=1}^{n}p_i \end{array}$

一般的にはこんな感じで

「重み $p$ 」あるいは「確率 $p$ 」で定義されています。

$\begin{array}{llllll} \displaystyle \sum_{i=1}^{n}x_ip_i&=&\displaystyle \sum_{i=1}^{n}x_i\frac{1}{n} \\ \\ &=&\displaystyle \frac{1}{n}\sum_{i=1}^{n}x_i \end{array}$

これは「無作為抽出」である場合の話とか

『サンプルの出現確率が同じ』パターンの話で

$\begin{array}{llllll} \displaystyle E[X]&=&\displaystyle \frac{1}{n}\sum_{i=1}^{n}x_i \end{array}$

統計で使わないことは無いので

基本、これだと思っていてもそんな問題はないです。

$\begin{array}{llllll} \displaystyle E[X]&=&\displaystyle\int xp(x) \,dx \end{array}$

ただ「確率変数」が『連続値』の場合とか

$\begin{array}{llllll} \displaystyle E[a]&=&a \\ \\ E[aX]&=&aE[X] \\ \\ \\ E[X+a]&=&E[X]+a \\ \\ E[X+Y]&=&E[X]+E[Y] \\ \\ \\ E[XY]&=&E[X]E[Y] \\ \\ &&\Bigl( p(x∩y)=p_x(x)p_y(y) \Bigr) \end{array}$

式変形について厳密に扱う時とか

そういうところでは必要になるので覚えておきましょう。

$\begin{array}{llllll} \displaystyle E[aX]&=&\displaystyle \sum_{i=1}^{n}ax_ip_i \\ \\ &=&\displaystyle a\sum_{i=1}^{n}x_ip_i \end{array}$

$\begin{array}{llllll} \displaystyle E[X+Y]&=&\displaystyle \sum_{i=1}^{n}\Bigl( x_ip_{x_i}+y_ip_{y_i} \Bigr) \\ \\ &=&\displaystyle \sum_{i=1}^{n}x_ip_{x_i}+\sum_{i=1}^{n}y_ip_{y_i} \end{array}$

$\begin{array}{llllll} \displaystyle p(x∩y)&=&p_x(x)p_y(y) \end{array}$

$\begin{array}{llllll} \displaystyle \displaystyle \sum_{i=1}^{n}\sum_{j=1}^{m}x_iy_j&=&\displaystyle x_1\sum_{j=1}^{m}y_j+x_2\sum_{j=1}^{m}y_j+\cdots \end{array}$

$\begin{array}{llllll} \displaystyle E[XY]&=&\displaystyle \sum_{i=1}^{n}\sum_{j=1}^{m}x_iy_jp(x_i∩y_j) \\ \\ &=&\displaystyle \sum_{i=1}^{n}\sum_{j=1}^{m}x_iy_jp_{x_i}(x)p_{y_j}(y) \\ \\ \\ &=&\displaystyle \sum_{i=1}^{n}\left( x_ip_{x_i}(x)\sum_{j=1}^{m}y_jp_{y_j}(y) \right) \\ \\ &=&\displaystyle \sum_{i=1}^{n}x_ip_{x_i}(x) E[Y] \end{array}$

それにこの辺り

統計では嫌というほど見るので

是非とも押さえておきたいところです。

散布度 Scatter

これは『データのばらけ具合』を表す値で

「分散 $σ^2$ 」「標準偏差 $σ$ 」

$\begin{array}{llllll} \displaystyle σ^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 \\ \\ \displaystyle σ&=&\displaystyle\sqrt{ \frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 } \end{array}$

「正規分布（山みたいな形の分布）」の

曲がり具合を示す『歪度 $\mathrm{skew}$ 』

尖り具合を示す『尖度 $\mathrm{Kurtosis}$ 』なんてものもあります。

分散 Variance

『ばらつき具合』を表す値は

$\begin{array}{llllll} \displaystyle σ^2&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^2 \end{array}$

基本的にこの値が使われます。

$\begin{array}{llllll} \displaystyle && \displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ) \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( (x_1-μ)+(x_2-μ)+\cdots+(x_n-μ) \Bigr) \\ \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( x_1+x_2+\cdots+x_n -nμ\Bigr) \\ \\ &=&\displaystyle\frac{1}{n}\Bigl( x_1+x_2+\cdots+x_n \Bigr)-\displaystyle\frac{1}{n}\Bigl(nμ\Bigr) \\ \\ &=&μ-μ \end{array}$

２乗しなければこうなるので

『平均からの差』を集める場合

最低限、この形にしなければならないので。

モーメント母関数

この辺りの統計量の厳密な話を理解するには

「モーメント母関数 $μ_m$ 」の知識が必要になります。

$\begin{array}{llllll} \displaystyle μ&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}x_i \\ \\ μ_m&=&\displaystyle\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-μ)^m \end{array}$

特に「歪度」「尖度」なんかは

なんでこういう形なの？と思うでしょう。

$\begin{array}{llllll} \displaystyle \mathrm{Mean}(X)&=&μ \\ \\ \mathrm{Variance}(X)&=&μ_2 \\ \\ \mathrm{Deviation}_{\mathrm{standard}}(X)&=&\displaystyle\sqrt{μ_2} \\ \\ \\ \mathrm{Skew}(X)&=&\displaystyle \frac{μ_3}{σ^3} \\ \\ \mathrm{Kurtosis}(X)&=&\displaystyle\frac{μ_4}{σ^4} \end{array}$

解説したいところですが

ちょっと長くなるので詳細は別の記事で。

順序統計量 Order Statistic

|| 順序を基準に特徴を見る統計量

『順番という基準から見える特徴』を表す値のこと

$\begin{array}{llllll} \displaystyle x_1&≤&x_2&≤&x_3&≤&\cdots&≤&x_n \end{array}$

『順序関係 $\leq$ 』で並べられたもの

$\begin{array}{llllll} \displaystyle \min(X)&=&x_1 \\ \\ \max(X)&=&x_n \end{array}$

この「両端」になる『最大値』『最小値』とか

「真ん中」にある『中央値』とか

こういうのを順序統計量と言います。

$\begin{array}{llllll} \displaystyle \mathrm{Range}(X)&=&x_n-x_1 \end{array}$

「範囲 $\mathrm{Range}$ 」なんかもこれで

当然「分位数」なんかもこれに当たります。

十分統計量 Sufficient Statistics

|| 推定の正しさがある程度保証されてる感じ

『だいたい正しいと言っていい統計量 $T(X)$ 』のこと。

$\begin{array}{llllll}&& \displaystyle P(X=x|T=t,θ_{\mathrm{true}}) \\ \\ &=&P(X=x|T=t) \end{array}$

条件付確率でそのまま定義されていて

かなり分かりやすい形で定義されています。

$\begin{array}{llllll} \displaystyle μ&=&E[X] \\ \\ \overline{x}&=&E[X_n] \end{array}$

具体例としては

「平均（母数）」に対する「標本平均」のことで

$\begin{array}{llllll} \displaystyle \overline{x}&=&\displaystyle \frac{x_1+x_2+\cdots+x_n}{n} \end{array}$

これは母数の値とは関係なく得られる上に

『サンプル数が十分』であるなら

「推定値としてほぼ正しい」

このように言えますから

この時の「標本平均」は『十分統計量』と言えます。

検定統計量 Test Statistic

|| 仮説検定で得られるもの

『仮説の正しさを検証するための統計量』のこと。

$\begin{array}{llllll} \displaystyle z&=&\displaystyle\frac{μ-\overline{x}}{\displaystyle\sqrt{σ^2/n}} \\ \\ t&=&\displaystyle\frac{μ-\overline{x}}{\displaystyle\sqrt{s^2/n}} \\ \\ \\ χ^2&=&\displaystyle\frac{(n-1)s^2}{σ^2} \end{array}$

『仮説検定』を理解していないと

これはちょっとよく分かんないと思います。

仮説検定 Hypothesis Testing

|| こうじゃね？の正しさを数値で検証

「母数はこのくらいじゃね？」という『仮説』が

『どの程度正しいのか標本で検証する』こと。

$\begin{array}{llclll} &&\mathrm{Test} \\ \\ \displaystyle \mathrm{Hypothesis}&&→&& \mathrm{True} \end{array}$

「正規分布 $N(μ,σ^2)$ 」について調べるもの

「 $t$ 分布」について調べるもの

「 $χ^2$ 分布」について調べるもの

この辺りが有名で

$\begin{array}{llllll} \displaystyle p(\overline{x})&≒&1 \end{array}$

だいたい『サンプルが出る確率』を使って検証し

$\begin{array}{llllll} \displaystyle 1-β \end{array}$

「検出力 $β$ 」という

『正しさの強度みたいな値』を定めることによって

「どの程度正しいと言えるのか」を測ります。

　他にも「検出力」と似た「有意水準」や

『範囲を限定するために否定される』「帰無仮説」

『帰無仮説の否定によって肯定される』「対立仮説」

こういった用語があって

詳しくやるとかなり長くなるので別記事で扱います。

統計量 Statistics

目次