学習目標
散布図による2変数の関係の視覚化、共分散・相関係数の計算と解釈を習得する。擬相関・偏相関係数の概念も理解する。1. 散布図と相関の方向
2変数 \(x\)(横軸)と \(y\)(縦軸)の関係を点でプロットしたグラフ。
- 正の相関:\(x\) が大きいほど \(y\) が大きい(右上がり)
- 負の相関:\(x\) が大きいほど \(y\) が小さい(右下がり)
- 無相関:一定の傾向なし
2. 共分散
\(s_{xy}>0\):正の相関、\(s_{xy}<0\):負の相関、\(s_{xy}=0\):線形無相関(単位に依存する指標)
3. 相関係数(ピアソン)
| r の範囲 | 相関の強さ |
|---|
| \(r=1\) | 完全な正の線形相関 |
| \(0.7\le r<1\) | 強い正の相関 |
| \(0.4\le r<0.7\) | 中程度の正の相関 |
\(0| 弱い正の相関 | |
| r<0 | 負の相関(対称的) |
相関係数は線形関係のみを測る。曲線的な関係(例:\(y=x^2\))は r≈0 でも強い関係がある場合がある。必ず散布図も確認すること。
4. 擬相関(みかけの相関)
実際の因果関係はないが、第3の交絡変数の影響で相関が見かけ上現れる現象。
例:「アイスの売上」と「溺死者数」は正の相関があるが因果関係はない。「気温」が共通原因。
5. 偏相関係数
第3の変数の影響を取り除いた2変数間の純粋な相関。擬相関の検出に有効。
6. 例題
【例題 6-1】相関係数の計算
データ:(x,y)=(1,2),(3,4),(5,6),(2,3),(4,5)。共分散と相関係数を求めよ。
解答
\(\bar{x}=3,\;\bar{y}=4\)
偏差積の和:\((-2)(-2)+0+2\cdot2+(-1)(-1)+1\cdot1=4+0+4+1+1=10\)
共分散:\(s_{xy}=10/4=\mathbf{2.5}\)
\(\sum(x_i-\bar{x})^2=10,\;\sum(y_i-\bar{y})^2=10\)
相関係数:\(r=2.5/(\sqrt{2.5}\times\sqrt{2.5})=2.5/2.5=\mathbf{1.0}\)(完全な正の線形相関)
【例題 6-2】擬相関の識別
「地域の医師数」と「死亡者数」に正の相関が観察された。最も適切な説明はどれか。
①医師が増えると死亡者が増える ②人口が多い地域ほど両方多い ③死亡者が増えると医師が増える ④この相関は偶然
解答
正解:②人口(交絡変数)が多い地域では医師も死亡者数(絶対数)も多い。「人口の多さ」による擬相関。人口当たり数で比較すべき。
7. 練習問題
問題 1
\(P(A)=0.3, P(B)=0.5, P(A\cap B)=0.1\)。\(r=\) ?(相関係数のアナロジーではなく)n=4で \(\bar{x}=2\)、\(\bar{y}=3\)、\(\sum(x_i-\bar{x})(y_i-\bar{y})=-6\)、\(s_x=2\)、\(s_y=1.5\) のとき共分散と相関係数を求めよ。
解答
共分散:\(s_{xy}=-6/(4-1)=-6/3=\mathbf{-2}\)
相関係数:\(r=-2/(2\times1.5)=-2/3\approx\mathbf{-0.667}\)
問題 2
相関係数 r = −0.85 のとき、散布図の形状として最も適切なものはどれか。
①右上がりの強い直線的傾向 ②ランダムに散らばる ③右下がりの強い直線的傾向 ④U字型の曲線
解答
正解:③r = −0.85 は強い負の相関。右下がりの直線的傾向。④のような曲線的関係は相関係数では測れない。
問題 3
「チョコレートの消費量」と「ノーベル賞受賞者数」に強い正の相関がある。この相関の最も適切な説明を述べよ。
解答
擬相関(偽相関)の典型例。豊かな国ほどチョコレート消費も多く、研究・教育への投資も多い。「国の豊かさ(GDP等)」が交絡変数。相関は因果を意味しない。