中心傾向の指標

1変数データ 2-2 | キーワード:平均値・中央値・最頻値・ロバスト推定

学習目標

平均値・中央値・最頻値の定義と計算を習得し、それぞれの特性と使いどころを理解する。度数分布表からの平均値の計算も習得する。

1. 平均値(算術平均)

算術平均
\[\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i\]

度数分布表からの計算(階級値 \(m_k\)、相対度数 \(f_k\) を使う):

度数分布表からの平均
\[\bar{x} = \sum_k m_k f_k\]
外れ値に敏感。例:{1,2,3,4,100}の平均=22。「典型的な値」を表さない場合がある。

2. 中央値(メジアン)

データを昇順に並べたとき中央に位置する値。

中央値
外れ値に影響されにくい(ロバスト)。所得・地価など偏った分布に適切。

3. 最頻値(モード)

最も多く現れる値。質的変数にも適用できる唯一の代表値

唯一でない場合がある(双峰分布では2つ存在)。

4. 3つの代表値の比較

代表値外れ値への感度適用できる尺度
平均値高い量的変数(間隔・比例尺度)
中央値低い(ロバスト)量的変数・順序尺度
最頻値なしすべて(名義尺度にも)

5. 例題

【例題 3-1】代表値の計算

データ:3, 7, 4, 7, 2, 9, 7 の平均値・中央値・最頻値を求めよ。

解答
昇順:2, 3, 4, 7, 7, 7, 9
平均値:\((2+3+4+7+7+7+9)/7=39/7\approx5.57\)
中央値:第4番目 \(=\mathbf{7}\)
最頻値:7が3回で最多 \(=\mathbf{7}\)
【例題 3-2】度数分布表からの平均

度数分布表(n=40):階級値55/度数4、65/12、75/16、85/8。平均値を求めよ。

解答
\[\bar{x}=\frac{55\times4+65\times12+75\times16+85\times8}{40}=\frac{220+780+1200+680}{40}=\frac{2880}{40}=\mathbf{72}\]
【例題 3-3】外れ値と代表値の選択

5人の年収(万円):300, 350, 380, 400, 2000。平均値・中央値を求め、「典型的な年収」を表すのに適切な代表値を答えよ。

解答
平均値:3430/5=686万円中央値:第3番目=380万円
2000万円の外れ値が平均を大きく引き上げているため、中央値(380万円)の方が典型的な年収をよく表す。

6. 練習問題

問題 1

データ:1,3,5,5,7,9,11,13 の平均値・中央値・最頻値を求めよ。

問題 2

次のうち正しい記述はどれか。
①平均値は必ず中央値より大きい
②最頻値は名義尺度にも適用できる
③中央値を求めるにはすべての値が必要
④外れ値があるとき平均値の方が中央値より実態を表しやすい

問題 3

6人の点数:72, 68, 85, 90, 72, 83 の中央値を求めよ。