中央値とは、複数のデータ(数値)があるときに、大きさが真ん中である値のことです。
このページでは、
・中央値とは何か?
・データ数が偶数の場合には中央値をどう計算するのか?
といった、中央値に関する疑問を解説します。
中央値とは
例えば、$3,5,8$ という3つの数字について、中央値(2番目に大きい値)は $5$ です。
また、$10,20,35,40,50$ という5つの数字について、中央値(3番目に大きい値)は $35$ です。
中央値の意味
例えば「全員の年収の中央値が400万円」というのは「真ん中くらいのレベルの人は年収が400万円」であることを表します。
中央値は、平均値と同じく、データ全体の大きさを大雑把に1つの数字で表したものです。ただし、平均値よりも外れ値に強いという特長があります。例えば、もし1人の年収が5000兆円になると平均値は大きく増えますが、中央値はほぼ変わりません。
データ数が偶数の場合
例えば、$10,20,24,30$ という4つの数字について、中央値を考えてみます。このとき、真ん中の数字は $20$ なのか $24$ なのか選べません!
このように、データ数が偶数の場合には、真ん中の二つの数字の平均を中央値と定めます。上の例では、中央値は真ん中の二つの数字 $20,24$ の平均なので、$\dfrac{20+24}{2}=22$ となります。
また、$11,12,14,15,16,100$ という6つの数字について、中央値は真ん中の二つの数字 $14,15$ の平均なので、$\dfrac{14+15}{2}=14.5$
となります。
より一般に、$2n$ 個の数字について、中央値は $\dfrac{a_n+a_{n+1}}{2}$ となります(ただし、$a_n$ は $n$ 番目に小さい数字、$a_{n+1}$ は $n+1$ 番目に小さい数字)。
実際に中央値を計算してみる
データ数が多い場合でも、中央値は小さい順に並べ替えて、真ん中の数字を選ぶことで計算できます。
というデータの中央値を求めてみましょう。
1. まずはデータを小さい順に並べます。
$-2,0,7,7,13,13,14,20,21,21,21,35$
このとき、負の数や $0$ も無視してはいけません。また、複数同じ値がある場合は、繰り返しの数だけ同じ数字を並べます。
2. 次に、データの数を数えます。
今回は $12$ 個です。
3. 中央値を求めます。
今回はデータの数が偶数なので、中央値は真ん中二つの平均となります。真ん中は $13$ と $14$ なので、中央値は $\dfrac{13+14}{2}=13.5$ となります。
中央値についてもっと詳しく
データを2つに割った真ん中が中央値だが、4つに割ると?
→四分位範囲と四分位偏差の意味
中央値は「上から50パーセントの点」とも言えるが、上から $x$ パーセントの点は?
→上側確率、下側確率、両側確率、パーセント点