学習目標
平均値・中央値・最頻値の定義と計算を習得し、それぞれの特性と使いどころを理解する。度数分布表からの平均値の計算も習得する。1. 平均値(算術平均)
度数分布表からの計算(階級値 \(m_k\)、相対度数 \(f_k\) を使う):
外れ値に敏感。例:{1,2,3,4,100}の平均=22。「典型的な値」を表さない場合がある。
2. 中央値(メジアン)
データを昇順に並べたとき中央に位置する値。
外れ値に影響されにくい(ロバスト)。所得・地価など偏った分布に適切。
3. 最頻値(モード)
最も多く現れる値。質的変数にも適用できる唯一の代表値。
唯一でない場合がある(双峰分布では2つ存在)。
4. 3つの代表値の比較
| 代表値 | 外れ値への感度 | 適用できる尺度 |
|---|
| 平均値 | 高い | 量的変数(間隔・比例尺度) |
| 中央値 | 低い(ロバスト) | 量的変数・順序尺度 |
| 最頻値 | なし | すべて(名義尺度にも) |
5. 例題
【例題 3-1】代表値の計算
データ:3, 7, 4, 7, 2, 9, 7 の平均値・中央値・最頻値を求めよ。
解答
昇順:2, 3, 4, 7, 7, 7, 9
平均値:\((2+3+4+7+7+7+9)/7=39/7\approx5.57\)
中央値:第4番目 \(=\mathbf{7}\)
最頻値:7が3回で最多 \(=\mathbf{7}\)
【例題 3-2】度数分布表からの平均
度数分布表(n=40):階級値55/度数4、65/12、75/16、85/8。平均値を求めよ。
解答
\[\bar{x}=\frac{55\times4+65\times12+75\times16+85\times8}{40}=\frac{220+780+1200+680}{40}=\frac{2880}{40}=\mathbf{72}\]
【例題 3-3】外れ値と代表値の選択
5人の年収(万円):300, 350, 380, 400, 2000。平均値・中央値を求め、「典型的な年収」を表すのに適切な代表値を答えよ。
解答
平均値:3430/5=
686万円、
中央値:第3番目=
380万円2000万円の外れ値が平均を大きく引き上げているため、
中央値(380万円)の方が典型的な年収をよく表す。
6. 練習問題
問題 1
データ:1,3,5,5,7,9,11,13 の平均値・中央値・最頻値を求めよ。
解答
昇順:1,3,5,5,7,9,11,13(n=8, 偶数)
平均値:54/8=
6.75中央値:(5+7)/2=
6最頻値:
5問題 2
次のうち正しい記述はどれか。
①平均値は必ず中央値より大きい
②最頻値は名義尺度にも適用できる
③中央値を求めるにはすべての値が必要
④外れ値があるとき平均値の方が中央値より実態を表しやすい
解答
正解:②①誤:左歪みでは平均<中央値。③誤:順序情報のみで十分。④誤:外れ値があるときは中央値の方が適切。
問題 3
6人の点数:72, 68, 85, 90, 72, 83 の中央値を求めよ。
解答
昇順:68,72,72,83,85,90(n=6,偶数)
中央値 = (72+83)/2 =
77.5点