学習目標
分散・標準偏差・四分位範囲(IQR)・箱ひげ図を計算・解釈できるようになる。歪度・尖度の概念とローレンツ曲線・ジニ係数も理解する。1. 範囲・最小値・最大値
最も単純な散らばり指標。外れ値に強く影響される。
2. 分散と標準偏差
試験では n−1 で割る不偏分散を使用。n で割ると母分散を過小評価する(偏りがある)。分散の単位はデータの二乗、標準偏差はデータと同じ単位。
計算の便法:
3. 四分位数・四分位範囲・箱ひげ図
昇順に並べて4等分したときの境界値:
- Q1(第1四分位数):下位25%
- Q2(中央値):50%
- Q3(第3四分位数):上位25%の境界
箱ひげ図:最小値・Q1・Q2・Q3・最大値の5点要約を図示。外れ値は Q1−1.5×IQR 未満または Q3+1.5×IQR 超の点として別途プロット。
4. ローレンツ曲線とジニ係数
ローレンツ曲線:累積人口比率(横軸)と累積所得比率(縦軸)の関係。完全平等なら対角線(完全平等線)と一致。
ジニ係数:ローレンツ曲線と完全平等線の間の面積の2倍。0(完全平等)〜1(完全不平等)。
5. 歪度・尖度
- 歪度(Skewness):正→右に裾が長い、負→左に裾が長い、0→対称
- 尖度(Kurtosis):正規分布より尖っているか平坦かを表す。正規分布の尖度=3(超過尖度=0)
6. 例題
【例題 4-1】分散・標準偏差の計算
データ:2, 4, 4, 6, 9 について、(1)平均 (2)不偏分散 (3)標準偏差を求めよ。
解答
(1) \(\bar{x}=(2+4+4+6+9)/5=5\)
(2) 偏差の二乗:\((2-5)^2=9,\;(4-5)^2=1,\;(4-5)^2=1,\;(6-5)^2=1,\;(9-5)^2=16\)
\[s^2=\frac{9+1+1+1+16}{4}=\frac{28}{4}=\mathbf{7}\]
(3) \(s=\sqrt{7}\approx\mathbf{2.646}\)
【例題 4-2】四分位数とIQR
データ:3,5,7,8,12,13,14,18,21 (n=9) のQ1・Q2・Q3・IQRを求め、外れ値を確認せよ。
解答
昇順:3,5,7,8,12,13,14,18,21
Q2(第5番目)=
12下半分3,5,7,8→Q1=(5+7)/2=
6上半分13,14,18,21→Q3=(14+18)/2=
16IQR=16−6=
10外れ値の境界:下限=6−15=−9、上限=16+15=31。すべて範囲内なので
外れ値なし。
7. 練習問題
問題 1
データ:10,20,20,30,40 について不偏分散と標準偏差を求めよ。
解答
平均=24
偏差の二乗:196,16,16,36,256
\(s^2=520/4=\mathbf{130}\)、\(s=\sqrt{130}\approx\mathbf{11.40}\)
問題 2
データ:2,5,6,8,9,10,12,15 (n=8) のQ1・Q2・Q3・IQRを求めよ。
解答
昇順:2,5,6,8,9,10,12,15
Q2=(8+9)/2=
8.5Q1:下半分2,5,6,8→(5+6)/2=
5.5Q3:上半分9,10,12,15→(10+12)/2=
11IQR=11−5.5=
5.5問題 3
ジニ係数に関して正しい記述を選べ。
①1に近いほど所得格差が小さい
②ローレンツ曲線から計算される
③−1〜1の範囲をとる
④完全平等のとき1になる
解答
正解:②①誤:1に近いほど格差が大きい。③誤:0〜1の範囲。④誤:完全平等のとき0。