回帰分析(重回帰)

線形モデル 8-1 | キーワード:偏回帰係数・回帰係数の検定・多重共線性・ダミー変数・自由度調整済みR²

学習目標

重回帰モデルの構造と偏回帰係数の解釈、自由度調整済み決定係数によるモデル比較、多重共線性・ダミー変数の概念を習得する。

1. 重回帰モデル

重回帰モデル
\[y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \varepsilon\]

偏回帰係数 \(\hat{\beta}_j\):他のすべての説明変数を一定に保ったまま、\(x_j\) が1単位増加したときの \(y\) の変化量の推定値(偏微分的な解釈)。

単回帰と重回帰では係数の値・符号が異なる場合がある(交絡変数の影響)。

2. 自由度調整済み決定係数

決定係数(再掲)
\[R^2 = 1-\frac{SSE}{SST}\]

重回帰では説明変数を増やすと \(R^2\) は必ず上がる。自由度調整済み決定係数 \(\bar{R}^2\) はペナルティを加える:

自由度調整済み決定係数
\[\bar{R}^2 = 1-(1-R^2)\frac{n-1}{n-k-1}\]
モデル比較には \(\bar{R}^2\) を使う。有用な変数を加えると増加、不要な変数を加えると減少することがある。

3. 回帰係数の検定

t統計量(各係数の有意性検定)
\[T=\frac{\hat{\beta}_j}{\text{SE}(\hat{\beta}_j)}\sim t(n-k-1)\]

\(H_0:\beta_j=0\) vs \(H_1:\beta_j\ne0\)(両側検定)。\(|T|>t_{\alpha/2}(n-k-1)\) で棄却(有意な変数)。

4. 多重共線性(Multicollinearity)

説明変数どうしが強い相関を持つ状態。問題:偏回帰係数の推定が不安定、標準誤差が増大する。

5. ダミー変数を用いた回帰

質的変数(カテゴリ変数)を回帰モデルに組み込む方法。

\(k\) カテゴリの変数には \(k-1\) 個のダミー変数を作る(ダミー変数トラップ回避)。

例:性別ダミー(男性=1、女性=0を基準)
\[y = \beta_0 + \beta_1 x + \beta_2 D + \varepsilon\]

\(\hat{\beta}_2\) は「女性と比べたときの男性の上乗せ効果」。

6. 例題

【例題 25-1】重回帰出力の読み取り

\(n=30\)、\(k=2\) の重回帰分析結果:切片=10.5(p=0.003)、\(x_1\) の係数=3.2(p=0.004)、\(x_2\) の係数=−1.5(p=0.743)、\(R^2=0.72\)。(1)\(\bar{R}^2\) を求めよ。(2)有意な説明変数はどれか(\(\alpha=0.05\))。(3)\(x_1=3,x_2=2\) のとき \(\hat{y}\) を求めよ。

解答
(1) \(\bar{R}^2=1-(1-0.72)\times29/27=1-0.300=\mathbf{0.700}\)
(2) \(x_1\) のみ(\(p=0.004<0.05\))。\(x_2\) は \(p=0.743>0.05\) で有意でない。
(3) \(\hat{y}=10.5+3.2\times3+(-1.5)\times2=10.5+9.6-3.0=\mathbf{17.1}\)
【例題 25-2】ダミー変数の解釈

年収(万円)を被説明変数、勤続年数 \(x_1\)(年)と性別ダミー \(D\)(男=1, 女=0)の回帰式が \(\hat{y}=300+20x_1+50D\)。(1)勤続年数が1年増えると年収はどう変わるか。(2)同じ勤続年数の男女の年収差の推定値は?

解答
(1) 性別固定で勤続年数1年増加→年収が20万円増加
(2) \(\hat{\beta}_2=50\) なので同じ勤続年数で男性は女性より50万円高いと推定される。

7. 練習問題

問題 1

重回帰でモデル比較に \(\bar{R}^2\) を使う理由を説明せよ。

問題 2

4カテゴリの質的変数を回帰モデルに組み込む場合、ダミー変数はいくつ必要か。また、基準カテゴリの意味を説明せよ。

問題 3

説明変数 \(x_1\) と \(x_2\) の相関係数が \(r=0.97\) のとき起こりうる問題と対処法を述べよ。