無作為抽出(ランダムサンプリング)

全体の中からランダムで必要な数だけ選ぶことを無作為抽出(ランダムサンプリング)と言う。

~目次~
・無作為抽出の意味
・無作為抽出は難しい
・無作為抽出を行う具体的な方法

具体例(無作為抽出の意味)

ある高校の生徒数は $600$ 人であるとします。この高校の生徒の平均身長を知りたいという状況を考えます。

一番シンプルで正確な方法は、$600$ 人全員の身長を測って平均を取ることです(この方法を全数調査と言う)。

しかし、$600$ 人測るのは大変です。そこで、例えばランダムに $50$ 人選んで、その平均を全体の平均の近似値とみなすという手法が考えられます。

このように、ランダムに(等しい確率で)選ぶという行為を無作為抽出と言います。そして、選ぶ数(この例だと $50$)を標本数と言います。

無作為抽出は難しい

無作為抽出は全数調査より楽というメリットがある反面、一部分だけを調べるので誤差が生じる、きちんと「ランダムに」抽出するのが難しい、という問題点があります。

ダメな(無作為抽出でない)例:
・(さっきの例について)$600$ 人の身長を測るのはめんどうなので、1クラスの生徒の身長の平均を取る。
→例えば高校3年のクラスを選ぶと、全体の平均より高くなってしまうことが予想される。

・日本人全員についての意見をまとめたいが、めんどくさいので東京の人にのみアンケートを配る
→意見が偏ってしまう。

・日本人全員についての意見をまとめたいので、全都道府県から無作為に100人ずつ選んでアンケートを配る
→人口の多い都道府県の人は、人口の少ない都道府県の人よりも選ばれにくいので、厳密には完全なランダムサンプリングではない。

具体的な方法

無作為抽出の具体的な方法です:

手順1:全員に番号をつける(先ほどの例だと、各生徒に1から600までの番号をつける)
手順2:(コンピュータなりサイコロをふるなりして)乱数を発生させる。乱数の番号のものを抽出

ただし、母集団の大きさが大きすぎる場合(例えば、日本人全員)、通し番号をつけるのは難しいです。その場合は、完全に無作為な抽出は諦めて、「まずは都道府県を決めてからその中で無作為抽出を行う」というような多段抽出法を用いることがあります。

次:母平均、標本平均、および標本平均の平均
前:マハラノビス距離の意味を2次元の場合で理解する

スポンサーリンク

スポンサーリンク

誤植がございましたら @mathwordsnet までご連絡をお願いいたします。
ページ上部へ戻る