学習目標
重回帰モデルの構造と偏回帰係数の解釈、自由度調整済み決定係数によるモデル比較、多重共線性・ダミー変数の概念を習得する。1. 重回帰モデル
偏回帰係数 \(\hat{\beta}_j\):他のすべての説明変数を一定に保ったまま、\(x_j\) が1単位増加したときの \(y\) の変化量の推定値(偏微分的な解釈)。
単回帰と重回帰では係数の値・符号が異なる場合がある(交絡変数の影響)。
2. 自由度調整済み決定係数
重回帰では説明変数を増やすと \(R^2\) は必ず上がる。自由度調整済み決定係数 \(\bar{R}^2\) はペナルティを加える:
モデル比較には \(\bar{R}^2\) を使う。有用な変数を加えると増加、不要な変数を加えると減少することがある。
3. 回帰係数の検定
\(H_0:\beta_j=0\) vs \(H_1:\beta_j\ne0\)(両側検定)。\(|T|>t_{\alpha/2}(n-k-1)\) で棄却(有意な変数)。
4. 多重共線性(Multicollinearity)
説明変数どうしが強い相関を持つ状態。問題:偏回帰係数の推定が不安定、標準誤差が増大する。
- 検出方法:変数間の相関行列、VIF(分散拡大因子)を確認
- VIF \(> 10\)(目安):深刻な多重共線性の可能性
- 対処:相関の高い変数の一方を除く、主成分分析を使う
5. ダミー変数を用いた回帰
質的変数(カテゴリ変数)を回帰モデルに組み込む方法。
\(k\) カテゴリの変数には \(k-1\) 個のダミー変数を作る(ダミー変数トラップ回避)。
\(\hat{\beta}_2\) は「女性と比べたときの男性の上乗せ効果」。
6. 例題
【例題 25-1】重回帰出力の読み取り
\(n=30\)、\(k=2\) の重回帰分析結果:切片=10.5(p=0.003)、\(x_1\) の係数=3.2(p=0.004)、\(x_2\) の係数=−1.5(p=0.743)、\(R^2=0.72\)。(1)\(\bar{R}^2\) を求めよ。(2)有意な説明変数はどれか(\(\alpha=0.05\))。(3)\(x_1=3,x_2=2\) のとき \(\hat{y}\) を求めよ。
解答
(1) \(\bar{R}^2=1-(1-0.72)\times29/27=1-0.300=\mathbf{0.700}\)
(2) \(x_1\) のみ(\(p=0.004<0.05\))。\(x_2\) は \(p=0.743>0.05\) で有意でない。
(3) \(\hat{y}=10.5+3.2\times3+(-1.5)\times2=10.5+9.6-3.0=\mathbf{17.1}\)
【例題 25-2】ダミー変数の解釈
年収(万円)を被説明変数、勤続年数 \(x_1\)(年)と性別ダミー \(D\)(男=1, 女=0)の回帰式が \(\hat{y}=300+20x_1+50D\)。(1)勤続年数が1年増えると年収はどう変わるか。(2)同じ勤続年数の男女の年収差の推定値は?
解答
(1) 性別固定で勤続年数1年増加→年収が
20万円増加。
(2) \(\hat{\beta}_2=50\) なので同じ勤続年数で
男性は女性より50万円高いと推定される。
7. 練習問題
問題 1
重回帰でモデル比較に \(\bar{R}^2\) を使う理由を説明せよ。
解答
\(R^2\) は変数を追加するほど必ず増加(または同値)するため、不要な変数を加えてもモデルが良くなったように見えてしまう。\(\bar{R}^2\) は変数の数にペナルティを与え、有用な変数を加えたときだけ増加するため、モデル比較に適切。
問題 2
4カテゴリの質的変数を回帰モデルに組み込む場合、ダミー変数はいくつ必要か。また、基準カテゴリの意味を説明せよ。
解答
ダミー変数は
3個(\(k-1=4-1\))。基準カテゴリ(4つ目)は切片 \(\beta_0\) に含まれ、各ダミー係数は「基準カテゴリとの差(上乗せ効果)」を表す。4つ全部作ると多重共線性(完全な線形従属)が発生するため1つ除く。
問題 3
説明変数 \(x_1\) と \(x_2\) の相関係数が \(r=0.97\) のとき起こりうる問題と対処法を述べよ。
解答
多重共線性の問題。\(x_1\) と \(x_2\) がほぼ同じ情報を持っており、偏回帰係数の推定が不安定(標準誤差増大、係数の符号が反転するなど)になる。
対処法:①相関の高い変数の一方を除く ②変数を合成(主成分分析) ③リッジ回帰などの正則化手法。