散らばりなどの指標

1変数データ 2-3 | キーワード:分散・標準偏差・IQR・箱ひげ図・ジニ係数・歪度・尖度

学習目標

分散・標準偏差・四分位範囲(IQR)・箱ひげ図を計算・解釈できるようになる。歪度・尖度の概念とローレンツ曲線・ジニ係数も理解する。

1. 範囲・最小値・最大値

範囲(レンジ)
\[\text{範囲} = \text{最大値} - \text{最小値}\]

最も単純な散らばり指標。外れ値に強く影響される。

2. 分散と標準偏差

不偏分散(n−1で割る)
\[s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2\]
標準偏差
\[s = \sqrt{s^2}\]
試験では n−1 で割る不偏分散を使用。n で割ると母分散を過小評価する(偏りがある)。分散の単位はデータの二乗、標準偏差はデータと同じ単位。

計算の便法:

分散の別表現
\[s^2 = \frac{1}{n-1}\left(\sum x_i^2 - n\bar{x}^2\right)\]

3. 四分位数・四分位範囲・箱ひげ図

昇順に並べて4等分したときの境界値:

四分位範囲(IQR)
\[\text{IQR} = Q_3 - Q_1\]

箱ひげ図:最小値・Q1・Q2・Q3・最大値の5点要約を図示。外れ値は Q1−1.5×IQR 未満または Q3+1.5×IQR 超の点として別途プロット。

4. ローレンツ曲線とジニ係数

ローレンツ曲線:累積人口比率(横軸)と累積所得比率(縦軸)の関係。完全平等なら対角線(完全平等線)と一致。

ジニ係数:ローレンツ曲線と完全平等線の間の面積の2倍。0(完全平等)〜1(完全不平等)。

5. 歪度・尖度

6. 例題

【例題 4-1】分散・標準偏差の計算

データ:2, 4, 4, 6, 9 について、(1)平均 (2)不偏分散 (3)標準偏差を求めよ。

解答
(1) \(\bar{x}=(2+4+4+6+9)/5=5\)
(2) 偏差の二乗:\((2-5)^2=9,\;(4-5)^2=1,\;(4-5)^2=1,\;(6-5)^2=1,\;(9-5)^2=16\)
\[s^2=\frac{9+1+1+1+16}{4}=\frac{28}{4}=\mathbf{7}\]
(3) \(s=\sqrt{7}\approx\mathbf{2.646}\)
【例題 4-2】四分位数とIQR

データ:3,5,7,8,12,13,14,18,21 (n=9) のQ1・Q2・Q3・IQRを求め、外れ値を確認せよ。

解答
昇順:3,5,7,8,12,13,14,18,21
Q2(第5番目)=12
下半分3,5,7,8→Q1=(5+7)/2=6
上半分13,14,18,21→Q3=(14+18)/2=16
IQR=16−6=10
外れ値の境界:下限=6−15=−9、上限=16+15=31。すべて範囲内なので外れ値なし

7. 練習問題

問題 1

データ:10,20,20,30,40 について不偏分散と標準偏差を求めよ。

問題 2

データ:2,5,6,8,9,10,12,15 (n=8) のQ1・Q2・Q3・IQRを求めよ。

問題 3

ジニ係数に関して正しい記述を選べ。
①1に近いほど所得格差が小さい
②ローレンツ曲線から計算される
③−1〜1の範囲をとる
④完全平等のとき1になる