学習目標
統計ソフトウェア(R・SPSS等)の出力を正確に読み取り、回帰分析・分散分析の結果を解釈できるようになる。1. 回帰分析の出力の読み方
| 出力項目 | 意味 |
|---|
| Estimate(係数) | 各回帰係数の推定値 \(\hat{\beta}\) |
| Std. Error(標準誤差) | 係数の推定の標準誤差 SE(\(\hat{\beta}\)) |
| t value(t値) | \(\hat{\beta}/\text{SE}\)(\(t\) 検定統計量) |
| Pr(>|t|)(p値) | 両側 \(t\) 検定の p値。\(p<0.05\) で有意(*) |
| R-squared(\(R^2\)) | 決定係数(モデルの説明力) |
| Adjusted R-squared | 自由度調整済み決定係数 \(\bar{R}^2\) |
| Residual standard error | 推定の標準誤差 \(s_e=\sqrt{MSE}\) |
| F-statistic(F値) | モデル全体の F 検定(\(H_0:\text{すべての係数}=0\)) |
有意水準の目安:* は \(p<0.05\)、** は \(p<0.01\)、*** は \(p<0.001\)
2. 分散分析表(ANOVA表)の読み方
| Source | SS | df | MS | F | p値 |
|---|
| 処理(回帰/群間) | SSA | \(k-1\) | MSA | MSA/MSE | 検定の p |
| 誤差(残差) | SSE | \(N-k\) | MSE | — | — |
| 全体 | SST | \(N-1\) | — | — | — |
3. 読み取りの注意点
- 係数の符号(正・負)、大きさ、有意性(p値)をあわせて解釈
- モデル比較には \(\bar{R}^2\) を使い、\(R^2\) の絶対値で判断しない
- モデル全体のF検定と個々の係数の \(t\) 検定は別物
- 誤差の自由度から n を逆算できる:\(n-k-1=\text{誤差df}\Rightarrow n=\text{誤差df}+k+1\)
4. 例題
【例題 27-1】回帰分析出力の読み取り
Rの出力(概要):切片=10.5(p=0.00012,***)、\(x_1\)=3.2(p=0.00120,**)、\(x_2\)=−1.5(p=0.230)。\(R^2=0.72\)、Adj \(R^2=0.686\)、誤差の自由度=17(\(k=2\))。(1)有意な変数は? (2)\(x_1=2,x_2=3\) のとき \(\hat{y}\) は? (3)\(n\) は?
解答
(1)
\(x_1\) のみ(\(p=0.00120<0.05\))。\(x_2\) は \(p=0.23\) で有意でない。
(2) \(\hat{y}=10.5+3.2\times2+(-1.5)\times3=10.5+6.4-4.5=\mathbf{12.4}\)
(3) 誤差df \(=n-k-1=17\) なので \(n=17+2+1=\mathbf{20}\)
【例題 27-2】分散分析出力の読み取り
一元配置分散分析の出力:群間SS=84, df=3, MS=28, F=7.0, p=0.002。群内SS=64, df=16, MS=4。(1)\(k\) と \(N\) は? (2)有意水準1%での結論は?
解答
(1) 群間df \(=k-1=3\) なので \(k=\mathbf{4}\)。全体df \(=N-1=19\) なので \(N=\mathbf{20}\)(各群5観測)。
(2) \(p=0.002<0.01\) なので有意水準1%で
帰無仮説を棄却。4群の母平均に有意な差がある。
5. 練習問題
問題 1
重回帰出力で「Adjusted R-squared=0.65, R-squared=0.72」。(1)\(\bar{R}^2\) が \(R^2\) より小さい理由 (2)説明変数を1つ追加したとき \(R^2\) と \(\bar{R}^2\) はどう変わるか
解答
\(R^2\) は変数の数にペナルティを与えるため \(\bar{R}^2\) の方が小さくなる。
(2) \(R^2\) は
必ず上がるか同じ。\(\bar{R}^2\) は変数が有用なら上がるが、不要な変数なら
下がることがある。
問題 2
「p=0.048で有意なので効果が証明された」という主張に対し、統計的に正確なコメントを述べよ。
解答
①
「証明」ではない:統計的有意性は「\(H_0\) のもとでこのデータが得られる確率が低い」ことを示すだけ。第1種の過誤(偽陽性)の可能性がある。
②
統計的有意性と実務的重要性は別:\(p<0.05\) でも効果量が小さく実務的に無意味な場合がある。
③\(p=0.048\) は \(\alpha=0.05\) のボーダーラインに近く、再現性の観点で注意が必要。
問題 3
出力で「F-statistic: 15.3 on 3 and 46 DF, p-value: 0.0000053」。(1)\(k\) と \(n\) は? (2)このF検定は何を検定しているか?
解答
(1) 分子df \(=k=\mathbf{3}\)、分母df \(=n-k-1=46\) なので \(n=46+3+1=\mathbf{50}\)。
(2) \(H_0:\beta_1=\beta_2=\beta_3=0\)(
モデル全体として説明変数が有意か)を検定。\(p\approx0\) で有意。