学習目標
カイ二乗統計量を用いた適合度検定・独立性の検定の手順を習得する。期待度数の計算と自由度の求め方も確認する。1. カイ二乗統計量
\(O_i\):観測度数、\(E_i\):期待度数。\(\chi^2\) が大きいほど観測が期待から外れている(\(H_0\) と矛盾する)。
適用条件:すべての期待度数が5以上(目安)。小さいセルは統合するかフィッシャーの正確検定を使う。
2. 適合度検定(Goodness-of-fit test)
観測された度数分布が特定の理論分布に適合するかを検定する。
\(H_0\):データは特定の確率分布に従う
(\(k\):カテゴリ数、\(p\):推定したパラメータ数)
一様分布への適合度検定では期待度数はすべて同じ \((N/k)\)。自由度は \(k-1\)。
3. 独立性の検定(Test of Independence)
\(r\) 行 \(c\) 列のクロス表で2変数が独立かどうかを検定する。
\(H_0\):2変数は独立(関連がない)
4. 例題
【例題 24-1】適合度検定(一様分布)
サイコロを60回振って各目の観測度数:8,12,7,11,10,12。正しいサイコロか(各目等確率)を有意水準5%で検定せよ。(\(\chi^2_{0.05}(5)=11.07\))
解答
\(H_0\):各目の確率は1/6。期待度数:各目 \(60/6=10\)
\(\chi^2=\frac{(8-10)^2}{10}+\frac{(12-10)^2}{10}+\frac{(7-10)^2}{10}+\frac{(11-10)^2}{10}+\frac{(10-10)^2}{10}+\frac{(12-10)^2}{10}=0.4+0.4+0.9+0.1+0+0.4=2.2\)
自由度5、棄却域:\(\chi^2>11.07\)
\(2.2<11.07\) なので
\(H_0\) を棄却できない。
【例題 24-2】独立性の検定
性別と喫煙習慣のクロス表(男性:喫煙40/非喫煙60、女性:喫煙20/非喫煙80、合計:喫煙60/非喫煙140/総計200)。\(\chi^2_{0.05}(1)=3.841\)。
解答
期待度数:(男・喫煙)=\(100\times60/200=30\)、(男・非喫煙)=70、(女・喫煙)=30、(女・非喫煙)=70
\(\chi^2=100/30+100/70+100/30+100/70=3.333+1.429+3.333+1.429=9.524\)
自由度 \((2-1)(2-1)=1\)、棄却域:\(\chi^2>3.841\)
\(9.524>3.841\) なので
\(H_0\) を棄却。性別と喫煙習慣に有意な関連あり。
5. 練習問題
問題 1
3行2列のクロス表の独立性検定の自由度と、期待度数の計算式を答えよ。
解答
自由度 \(=(3-1)(2-1)=\mathbf{2}\)
期待度数:\(E_{ij}=\frac{(\text{第}i\text{行合計})\times(\text{第}j\text{列合計})}{\text{総度数}}\)
問題 2
適合度検定でカテゴリが4つ(パラメータ推定なし)の自由度はいくつか。
解答
自由度 \(=k-1-p=4-1-0=\mathbf{3}\)
問題 3
\(\chi^2\) 値が大きいほど何を意味するか。p値との関係も述べよ。
解答
\(\chi^2\) が大きいほど観測度数と期待度数のずれが大きく、2変数が独立でない(関連がある)証拠が強い。\(\chi^2\) が大きいほど
p値は小さくなる(より稀な観測値)。\(p<\alpha\) なら独立の帰無仮説を棄却し、有意な関連があると結論する。