抽出 Sampling


|| 正しい結果のためにやるサンプル集め

そのまま「サンプル(標本)の取り方」のことですね。

統計処理の準備段階なので、めちゃくちゃ重要になります。

スポンサーリンク




目次


有意抽出「確率的な根拠が特に無いサンプリングのやり方」

   典型調査「やりたいようにやる感じ(仮説を得るのには有用)」

   アンケート法「専門家の意見(主観)を質問(主観)で集める」

   割り当て法「比率(主観)を使うそれっぽいやり方」



無作為抽出「全て同じ確率でサンプリングできるという仮定」

   単純抽出法「乱数表を使って無作為を実現」

   系統抽出法「等間隔にとって無作為を実現」


   多段抽出法「グループ分けして、無作為に選ぶのを繰り返す」

   集落抽出法「グループ分けして、選んだグループを全て見る」

   層別抽出法「属性でグループ分けして、中身を詳しく見る」









大別すると『有意抽出』と『無作為抽出』の 2 種類あります。

これらは『確率的な根拠』が在るか無いかで区別されてます。

ですから「確率抽出」と「非確率抽出」と区別されたりもします。




当然ながら「精度」が高いのは『無作為抽出法』になります。

また「根拠」があるものも『無作為抽出法』です。



逆に、有意抽出は精度が高いか低いかさえ分かりません。

そもそも根拠が無いので。

結果もまちまちで、正しそうなのと変なのしかありません。







有意抽出 Purposive Selection


|| 歴史は古いけど根拠に欠けるやり方

いわゆる「お好みで選ぶサンプリングのやり方」です。

当然ながら、確率的な根拠を持っていません。




「根拠」が希薄なので、基本的には実用的ではありません。

特に医学、経済学、科学では確実に採用されないでしょう。

それくらい根拠が乏しい上に成果も微妙なんです。




とりあえず「根拠が無い」ものとして、押さえておきましょう。

いろいろあります。一番面白いのは「偶然法」とか。

なんか名前からしてやばそうですよね?






典型調査 Typical Survey


大雑把に言うと「やりたいようにやる」感じ。




調査のやり方にしてもやりたいように。

サンプルの取り方、その条件なんかもやりたいように。

なので、ほぼ確実にバイアスがあります。




これはまあ「仮説の設定」段階ではそれなりに使えます。

ただし根拠としては非常に心許ないです。






アンケート法 Questionnaire


いわゆる「専門家のご意見」をまとめる方法です。




専門家の判定基準とかは当然のようにお好みです。

アンケートに書かれてる質問の内容も主観が入ります。

つまり本質的にはお好み法です。






割り当て法 Allocation


いわゆる「比率」を使ったサンプリングです。

なんかちょっとそれっぽいけど、内訳が微妙。



その内訳の概要は、

なんか構成要素があったら、それで全体を区別して、

その比率に一致するようにサンプルをとる感じ。




具体的には、例えばなんかのグループで、

「男」と「女」で分けるとして、構成比率が 5:5 なら、

男からそれくらい、女からそれくらいサンプルをとる、という感じ。




なんかそれっぽいやり方です。

でも、構成要素の判定が雑で根拠に欠けてます。

比率の取り方も点推定を行うわけではありません。






以上が、主な有意抽出法になります。

これらは「根拠が曖昧」という点を確実に押さえておきましょう。

信憑性の低い情報を判別できるようになります。







無作為抽出 Random Sampling


|| 狙って無作為(良い感じ)にデータをとる感じ

要は「一つ一つは、同じ確率でサンプリングできる」って感じです。



なんとなく当たり前に思える↑の前提を元に、サンプリングします。

『無作為(ランダム)』っていうのは、要はそういうことです。

「くじ引き」とか「サイコロ」とか、その辺りのやつ。




「有意抽出」とは『確率的な根拠』の有無で判別されてます。

『無作為抽出』の方が「確率的な根拠がある」方です。

仮定ではありますが、定めているので。




当然ですが、これは狙ってやらないとダメです。

あまりに適当では、ほんとに無作為かどうか分かりません。

ですから、無作為になるようにサンプリングするわけです。






単純抽出 Simple Random Sampling


「乱数表」を使うだけの「標本(データ)」の超代表的な選び方。

要は無作為に選ぶための工夫の仕方の一つです。




乱数という規則性の無い数表があって、それを参考にする感じ。

ただし、これも偏りが無いようにする必要があります。

といっても、どうしても極低確率で偏りは出ちゃうんですけど。




そしてこれは、めちゃくちゃ多い場合は手間がすごいです。

一定数は取り出さないと、やはり偏りが出る確率が高まるので。



例えば全体からちょっとしか取れない時。

100 万くらいから 1000 しか取り出せない時とかだと、

乱数を使うだけでは確実に満遍なくとれるとは限りません。




こういうとき、母数の周りの値はとれるでしょうけれど、

「周り」の範囲が大きくなり過ぎて、高い精度は見込めません。



そんな時使われるのが、次に紹介するやつになります。

「系統」や「段階」を使ったやり方です。






系統抽出法 Systematic Sampling


「番号を付けて、等間隔に取ってく」感じ。

これも無作為にやるための工夫の一つです。



ある地点から、一定の間隔を決めて取って行きます。

具体的には「 n 番目から i 個先をとる」みたいな。

すると「 n,n+i,n+2i,n+3i,... 番目」のサンプルをとれます。




ただしこれは「規則性・周期性」がある並びの場合、偏ります。

なので、周期が見られる並びでこのやり方を選ばないよう注意。




ともあれ、これは非常に楽で確実なやり方の一つではあります。

データの並び方によりますが、精度の高さも見込めますし。




『単純』では「乱数」で満遍なくとりますが、

『系統』では「等間隔」に満遍なくとる感じです。

小さな値から大きな値をとっていけば、平均に近い値が計算できます。




それに単純な話、感覚的にも満遍なく取れそうな気がしませんか?

たとえサンプル数が多くても「間隔 i 」を大きくとれば、

少ないサンプル数で全体の値をとれますから。






多段抽出法 Multi-Stage Sampling


「グループ分け、選ぶ、の繰り返し」でやる感じ。

無作為抽出を何回かに分けてする感じです。




これは具体例で見た方が分かりやすいでしょう。



例えば「ある学年のなにかを調査したい」とき。

クラスの人数が均等として「クラスのいくつか」を選んで、

その「クラスの中の学生から何人か」選ぶ。



多段サンプリングは、大雑把にはこんな感じのやり方になります。

グループを跨ぐので、均等に近い感じです。




ただ、偏ったグループを選ぶ可能性は高くなります。

成績が良いとか悪いとか、そういう感じのグループだとやっぱり。

なので、これをする場合はその辺の確認が必要です。






集落抽出法 Cluster Sampling


「分けて、その中のどれかを選んで、その中を全部調べる」感じ。

ただし選ぶのは無作為にやります。




『多段』との違いは、選んだものを全部調べるかどうかです。

それ以外にはあんまり違いはありません。






層化抽出 Stratified Sampling


「層(属性)に分けて、そこから一定数ずつ取り出す」感じ。

細かく属性分けすれば、漏れなくサンプリングできますし。




「多段」サンプリングでは、部分については割と適当です。

しかし「層別」サンプリングでは、かなり精密に扱います。




層(属性)で分けるところまでは、そう違いはありません。

しかし『多段』と違って、「構成比」や「サンプル数」に着目します。

要は多段よりも手間をかける感じですね。




『比率が分かっている』場合だと「比例配分法」と言って、

『サンプル数を最適に配分する』場合は「最適配分法」と言います。






まとめると、

『無作為』は「同じ確率だと仮定してサンプリング」




『単純』は「乱数表を使って無作為を実現」

ランダム性が高い分、低いけれど、偏る可能性もある


『系統』は「等間隔にとって無作為を実現」

サンプルの並びに周期性や規則性があると、偏る可能性が高い



『多段』は「グループ分けして、無作為に選ぶのを繰り返す」

グループに偏りがあると、全体がそれに引っ張られる


『集落』は「グループ分けして、選んだグループを全て見る」

多段と同じく、グループが偏る可能性を考えられる


『層別』は「属性でグループ分けして、中身も詳しく見る」

層(属性)を決めるのが難しい場合がある



こんな感じです。