学習目標
最小二乗法による回帰係数の推定、変動の分解・決定係数の計算、残差プロットによるモデル診断、変数変換を習得する。1. 回帰モデルと最小二乗法
推定された回帰直線は必ず点 \((ar{x},ar{y})\) を通る。
2. 変動の分解と決定係数
3. 残差プロットと変数変換
残差プロット:横軸に予測値、縦軸に残差をプロット。問題なければランダムに0付近に散らばる。
- 曲線的パターン → 非線形関係 → 変数変換を検討
- 残差のばらつきが予測値で変わる → 不均一分散(異分散)
| 元の関係 | 変換 | 線形化後 |
|---|
| \(y=ae^{bx}\) | \(\log y\) を目的変数 | \(\log y = \log a + bx\) |
| \(y=ax^b\) | 両辺の対数 | \(\log y = \log a + b\log x\) |
4. 分散分析表(ANOVA表)
| 変動要因 | 平方和 | 自由度 | 平均平方 | F比 |
|---|
| 回帰 | SSR | 1 | MSR=SSR/1 | MSR/MSE |
| 残差 | SSE | n−2 | MSE=SSE/(n-2) | — |
| 全体 | SST | n−1 | — | — |
5. 例題
【例題 8-1】最小二乗法
データ:(1,3),(2,5),(3,4),(4,7),(5,6)。回帰直線 \(\hat{y}=a+bx\) を求めよ。
解答
\(\bar{x}=3,\;\bar{y}=5\)
\(\sum(x_i-\bar{x})(y_i-\bar{y})=4+0+0+2+2=8\)、\(\sum(x_i-\bar{x})^2=10\)
\[\hat{b}=8/10=0.8,\quad\hat{a}=5-0.8\times3=2.6\]
回帰直線:\(\hat{y}=2.6+0.8x\)【例題 8-2】決定係数
SST=10、SSE=3.6のとき \(R^2\) を求め解釈せよ。
解答
SSR=10−3.6=6.4
\[R^2=6.4/10=\mathbf{0.64}\]
x の変動が y の変動の64%を説明している。残り36%は説明できない変動(残差)。
6. 練習問題
問題 1
\(\bar{x}=4,\;\bar{y}=10,\;\sum(x_i-\bar{x})(y_i-\bar{y})=20,\;\sum(x_i-\bar{x})^2=8\) のとき回帰直線を求めよ。
解答
\(\hat{b}=20/8=2.5\)、\(\hat{a}=10-2.5\times4=0\)
回帰直線:
\(\hat{y}=2.5x\)問題 2
SST=100、SSE=20のとき (1)SSR (2)\(R^2\) (3)単回帰での \(|r|\) を求めよ。
解答
(1) SSR=80
(2) \(R^2=80/100=\mathbf{0.8}\)
(3) \(|r|=\sqrt{0.8}\approx\mathbf{0.894}\)
問題 3
残差プロットで予測値が大きいほど残差の絶対値も大きくなるパターンが見られた。この現象を何といい、どう対処するか。
解答
不均一分散(異分散性)。目的変数 \(y\) に対数変換(\(\log y\))を行って分散を安定化させる方法が一般的。