単回帰と予測

データの活用 4-1 | キーワード:最小二乗法・決定係数・残差プロット・変数変換・分散分析表

学習目標

最小二乗法による回帰係数の推定、変動の分解・決定係数の計算、残差プロットによるモデル診断、変数変換を習得する。

1. 回帰モデルと最小二乗法

単回帰モデル
\[y = a + bx + \varepsilon\]
最小二乗推定量
\[\hat{b} = \frac{s_{xy}}{s_x^2} = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}, \quad \hat{a} = \bar{y} - \hat{b}\bar{x}\]
推定された回帰直線は必ず点 \((ar{x},ar{y})\) を通る。

2. 変動の分解と決定係数

変動の分解
\[\underbrace{\sum(y_i-\bar{y})^2}_{\text{全変動 SST}} = \underbrace{\sum(\hat{y}_i-\bar{y})^2}_{\text{回帰変動 SSR}} + \underbrace{\sum(y_i-\hat{y}_i)^2}_{\text{残差変動 SSE}}\]
決定係数
\[R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} = r^2 \quad\text{(単回帰では相関係数の二乗)}\]

3. 残差プロットと変数変換

残差プロット:横軸に予測値、縦軸に残差をプロット。問題なければランダムに0付近に散らばる。

元の関係変換線形化後
\(y=ae^{bx}\)\(\log y\) を目的変数\(\log y = \log a + bx\)
\(y=ax^b\)両辺の対数\(\log y = \log a + b\log x\)

4. 分散分析表(ANOVA表)

変動要因平方和自由度平均平方F比
回帰SSR1MSR=SSR/1MSR/MSE
残差SSEn−2MSE=SSE/(n-2)
全体SSTn−1

5. 例題

【例題 8-1】最小二乗法

データ:(1,3),(2,5),(3,4),(4,7),(5,6)。回帰直線 \(\hat{y}=a+bx\) を求めよ。

解答
\(\bar{x}=3,\;\bar{y}=5\)
\(\sum(x_i-\bar{x})(y_i-\bar{y})=4+0+0+2+2=8\)、\(\sum(x_i-\bar{x})^2=10\)
\[\hat{b}=8/10=0.8,\quad\hat{a}=5-0.8\times3=2.6\]回帰直線:\(\hat{y}=2.6+0.8x\)
【例題 8-2】決定係数

SST=10、SSE=3.6のとき \(R^2\) を求め解釈せよ。

解答
SSR=10−3.6=6.4
\[R^2=6.4/10=\mathbf{0.64}\]
x の変動が y の変動の64%を説明している。残り36%は説明できない変動(残差)。

6. 練習問題

問題 1

\(\bar{x}=4,\;\bar{y}=10,\;\sum(x_i-\bar{x})(y_i-\bar{y})=20,\;\sum(x_i-\bar{x})^2=8\) のとき回帰直線を求めよ。

問題 2

SST=100、SSE=20のとき (1)SSR (2)\(R^2\) (3)単回帰での \(|r|\) を求めよ。

問題 3

残差プロットで予測値が大きいほど残差の絶対値も大きくなるパターンが見られた。この現象を何といい、どう対処するか。