|| 英訳の方が直感的
『調査して得たデータ』のこと。
このデータを根拠に全体の性質を「推測」していきます。
スポンサーリンク
厳密な意味は
『全体(母集団)』の「部分集合」のことで
つまりは「母集団の一部」を意味する言葉になります。
「総数」は必ず『有限』
さらには『処理可能な数』となります。
データの数が多過ぎる
「全体(母集団)」の『データの数』が
「無限」になってしまう。
こういったことはわりと頻繁に起きていて、
例えば「全体」を考える場合
「人間」とか「ある動物」とか
こういったもののサンプルをとると
\begin{array}{llllll} \displaystyle 過去&今&未来 \\ \\ 正確か不明&分かる&予測しかできん \end{array}
「過去」や「未来」まで含めれば
ほぼ無制限にサンプリングすることが可能。
つまり『母集団の平均・分散』を調べる場合
「無限個のサンプルをとる」必要があって
\begin{array}{llllll} \displaystyle μ&=&\displaystyle\lim_{n→\infty}\frac{1}{n}\sum_{i=1}^{n}x_i \end{array}
でもそれは「人間には」不可能ですから
実質、母数(平均)を求めることは不可能
とまあそういうことになってしまいます。
サンプルの存在意義
「サンプル」は『母数の推測』のために必要な考え方で
「限られた個数のデータ」から答えを得られないか?
みたいな発想から生まれた概念になります。
\begin{array}{llllll} \displaystyle μ&=&\displaystyle\lim_{n→\infty}\frac{1}{n}\sum_{i=1}^{n}x_i \\ \\ \displaystyle μ_{\mathrm{sample}}&=&\displaystyle\frac{1}{n}\sum_{i=1}^{n}x_i \end{array}
『無限』は扱えないから扱いたくない。
『有限』個のものから全体像(母数)を得たい。
もしくは「有限でも多すぎる」から
「より少ない有限」個のサンプルで済ませたい。
こういった要望を叶えるために必要になったのが
この「サンプル」という考え方になります。
以上、サンプルってのはこんな感じ。
以下、紛らわしい用語を解説しておきます。
サンプル数 Number of Samples
|| 何個サンプリングしたかを表す回数のこと
要は「サンプルの数(標本数)」です。
ただ、これはちょっと適切な意味ではありません。
厳密に定めるなら『抽出(サンプリング)した回数』です。
「考えられるデータの全て」ではありません。
形式的には「確率変数 X_i 」で表されます。
サンプル(標本)を三個取り出された場合であれば、
X_1,X_2,X_3
となって、このとき「サンプル数」は『 3 』です。
具体例としては、
「 1000 人」の内「 100 人」から何か聞くなら、
この時のサンプル数は「 100 」になります。
サンプルサイズ Sample Size
|| データの中身の個数
「サンプリングする候補の個数」という感じ。
「確率変数が取り得る値の個数」とも言えます。
形式的には「確率変数の中身の個数」です。
確率変数を「集合」とみなせば、その『要素数』と言えます。
例えば「実際に取り出す」のが『 1 つ』でも、
その「サンプル X 」の『候補』が 100 個なら、
その「サンプルのサンプルサイズ」は 100 になります。
具体的には、例えば人間がたくさんいる場合
10000 人の内、 1 人だけをサンプリングするなら、
その一つのサンプルの「サンプルサイズ」は「 10000 」です。
またこの時、サンプル数は 1 になります。
似たような言葉ですが、明らかに違う意味を持ってます。
混同しないように注意しましょう。