仮説検定④:適合度・独立性の検定

推測 7-7 | キーワード:適合度検定・独立性の検定・カイ二乗統計量・期待度数・自由度

学習目標

カイ二乗統計量を用いた適合度検定・独立性の検定の手順を習得する。期待度数の計算と自由度の求め方も確認する。

1. カイ二乗統計量

カイ二乗統計量
\[\chi^2=\sum_i\frac{(O_i-E_i)^2}{E_i}\]

\(O_i\):観測度数、\(E_i\):期待度数。\(\chi^2\) が大きいほど観測が期待から外れている(\(H_0\) と矛盾する)。

適用条件:すべての期待度数が5以上(目安)。小さいセルは統合するかフィッシャーの正確検定を使う。

2. 適合度検定(Goodness-of-fit test)

観測された度数分布が特定の理論分布に適合するかを検定する。

\(H_0\):データは特定の確率分布に従う

適合度検定の自由度
\[\phi = k - 1 - p\]

(\(k\):カテゴリ数、\(p\):推定したパラメータ数)

一様分布への適合度検定では期待度数はすべて同じ \((N/k)\)。自由度は \(k-1\)。

3. 独立性の検定(Test of Independence)

\(r\) 行 \(c\) 列のクロス表で2変数が独立かどうかを検定する。

\(H_0\):2変数は独立(関連がない)

期待度数
\[E_{ij}=\frac{(\text{第}i\text{行合計})\times(\text{第}j\text{列合計})}{\text{総度数}}\]
独立性検定の自由度
\[\phi = (r-1)(c-1)\]

4. 例題

【例題 24-1】適合度検定(一様分布)

サイコロを60回振って各目の観測度数:8,12,7,11,10,12。正しいサイコロか(各目等確率)を有意水準5%で検定せよ。(\(\chi^2_{0.05}(5)=11.07\))

解答
\(H_0\):各目の確率は1/6。期待度数:各目 \(60/6=10\)
\(\chi^2=\frac{(8-10)^2}{10}+\frac{(12-10)^2}{10}+\frac{(7-10)^2}{10}+\frac{(11-10)^2}{10}+\frac{(10-10)^2}{10}+\frac{(12-10)^2}{10}=0.4+0.4+0.9+0.1+0+0.4=2.2\)
自由度5、棄却域:\(\chi^2>11.07\)
\(2.2<11.07\) なので \(H_0\) を棄却できない
【例題 24-2】独立性の検定

性別と喫煙習慣のクロス表(男性:喫煙40/非喫煙60、女性:喫煙20/非喫煙80、合計:喫煙60/非喫煙140/総計200)。\(\chi^2_{0.05}(1)=3.841\)。

解答
期待度数:(男・喫煙)=\(100\times60/200=30\)、(男・非喫煙)=70、(女・喫煙)=30、(女・非喫煙)=70
\(\chi^2=100/30+100/70+100/30+100/70=3.333+1.429+3.333+1.429=9.524\)
自由度 \((2-1)(2-1)=1\)、棄却域:\(\chi^2>3.841\)
\(9.524>3.841\) なので \(H_0\) を棄却。性別と喫煙習慣に有意な関連あり。

5. 練習問題

問題 1

3行2列のクロス表の独立性検定の自由度と、期待度数の計算式を答えよ。

問題 2

適合度検定でカテゴリが4つ(パラメータ推定なし)の自由度はいくつか。

問題 3

\(\chi^2\) 値が大きいほど何を意味するか。p値との関係も述べよ。