データの分布の記述

1変数データ 2-1 | キーワード:質的変数・量的変数・ヒストグラム・幹葉図・分布の形状

学習目標

変数の種類(質的・量的)を正確に分類できるようになる。ヒストグラム・幹葉図・累積度数グラフを作成・読み取れるようになる。分布の形状(歪み・峰の数)を視覚的に判断できるようになる。

1. 変数の種類

大分類小分類説明
質的変数名義尺度順序なし血液型・性別
順序尺度順序あり・等間隔でない満足度(1〜5)
量的変数離散型飛び飛びの値子供の人数
連続型連続した値身長・体重
尺度に応じて使える統計手法が異なる。名義尺度に平均を求めるのは無意味。

2. グラフによる可視化

2.1 棒グラフ・円グラフ

質的変数や離散型変数の度数分布を表示。棒グラフは棒の間に隙間がある。

2.2 幹葉図(Stem-and-Leaf Plot)

データを「幹(上の桁)」と「葉(下の桁)」に分けて表示。元のデータが保持され、分布の形も視覚化できる。

幹 | 葉
5 | 6
6 | 3 8
7 | 1 4 8
8 | 2 5 8
9 | 1

2.3 度数分布表とヒストグラム

連続型変数を階級に分けて度数を集計。ヒストグラムは棒の間に隙間がない(連続性を示す)。

階級度数相対度数累積度数累積相対度数
50〜60未満30.1530.15
60〜70未満50.2580.40
70〜80未満70.35150.75
80〜90未満40.20190.95
90〜100以下10.05201.00

3. 分布の形状

形状特徴代表値の関係
右に裾が長い(右歪み)右側に外れ値最頻値 < 中央値 < 平均値
左に裾が長い(左歪み)左側に外れ値平均値 < 中央値 < 最頻値
対称(ベル型)左右対称平均値 ≒ 中央値 ≒ 最頻値
一様分布全階級が同じ度数
歪みの方向は「裾が長い方向」で判断。右に裾が長い=右歪み(正の歪度)。

4. 例題

【例題 2-1】変数の分類

次の変数を分類せよ。(a)学籍番号 (b)1日の歩数 (c)顧客満足度(5段階) (d)体温(°C)

解答
(a)質的・名義尺度:数字だが計算に意味なし
(b)量的・離散型:整数値
(c)質的・順序尺度:順序あるが等間隔でない
(d)量的・連続型:36.5℃など連続値
【例題 2-2】度数分布表の読み取り

n=20の試験結果(度数分布表あり)。(1)70点未満の累積相対度数 (2)分布の形状を答えよ。
階級と度数:40〜50未満→2人、50〜60未満→4人、60〜70未満→7人、70〜80未満→5人、80〜90未満→2人

解答
(1)70点未満の度数 = 2+4+7 = 13人、累積相対度数 = 13/20 = 0.65
(2)60〜70点が最多で左寄りのため右に裾が長い(右歪み)分布と読み取れる。

5. 練習問題

問題 1

ヒストグラムと棒グラフの違いを2点説明せよ。

問題 2

右に裾が長い分布において、平均値・中央値・最頻値の大小関係を不等号で示せ。また、所得分布がこの形になる理由を説明せよ。

問題 3

累積相対度数グラフ(オジーブ曲線)から中央値を読み取る方法を説明せよ。