カテゴリカルデータ

2変数以上 3-2 | キーワード:度数表・2元クロス表・期待度数・条件付き比率

学習目標

質的変数間の関連を度数表・クロス集計表で分析できるようになる。期待度数の計算と独立性の概念を理解する。

1. 1元度数表

血液型ABOAB合計
度数4025305100
相対度数0.400.250.300.051.00

2. 2元クロス集計表(分割表)

2つの質的変数を行・列に配置し各組み合わせの度数を集計した表。

喫煙あり喫煙なし合計
男性4060100
女性2080100
合計60140200

男性の喫煙率:40/100=40%、女性:20/100=20%。比率が行によって異なるため関連がある可能性がある。

3. 期待度数

2変数が独立と仮定したときに期待される度数。

期待度数
\[E_{ij} = \frac{(\text{第}i\text{行合計})\times(\text{第}j\text{列合計})}{\text{総度数}}\]

上表の(男性・喫煙あり)の期待度数:\((100 imes60)/200=30\)。観測値40 > 期待値30 → 男性に喫煙傾向が強いことが示唆される。

2変数が独立ならば、各行の条件付き比率(行内割合)はどの行でも等しくなる。

4. 例題

【例題 7-1】クロス表の読み取り

合否とコーチングの有無:予備校通い→合格35・不合格15(計50)、独学→合格20・不合格30(計50)、合計→合格55・不合格45(計100)。(1)予備校通いの合格率 (2)(合格・予備校通い)セルの期待度数 (3)独立か判断

解答
(1) 35/50 = 70%(独学は40%)
(2) (50×55)/100 = 27.5
(3) 独立なら両グループの合格率は55%のはず。実際70%≠40%なので独立でない(関連がある)。

5. 練習問題

問題 1

クロス表で観測度数と期待度数が完全に一致するとき、2変数の関係はどうなるか。

問題 2

3×2のクロス表の独立性検定の自由度を求めよ。

問題 3

以下のクロス表で(1)A群の陽性率 (2)全体の陽性率 (3)「A群・陽性」の期待度数を求めよ。

陽性陰性合計
A群4555100
B群3070100
合計75125200