散布図と相関

2変数以上 3-1 | キーワード:散布図・相関係数・共分散・擬相関・偏相関係数・相関行列

学習目標

散布図による2変数の関係の視覚化、共分散・相関係数の計算と解釈を習得する。擬相関・偏相関係数の概念も理解する。

1. 散布図と相関の方向

2変数 \(x\)(横軸)と \(y\)(縦軸)の関係を点でプロットしたグラフ。

2. 共分散

共分散
\[s_{xy} = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\]

\(s_{xy}>0\):正の相関、\(s_{xy}<0\):負の相関、\(s_{xy}=0\):線形無相関(単位に依存する指標)

3. 相関係数(ピアソン)

相関係数
\[r = \frac{s_{xy}}{s_x \cdot s_y} = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum(x_i-\bar{x})^2 \cdot \sum(y_i-\bar{y})^2}}\]
r の範囲相関の強さ
\(r=1\)完全な正の線形相関
\(0.7\le r<1\)強い正の相関
\(0.4\le r<0.7\)中程度の正の相関
\(0弱い正の相関
r<0負の相関(対称的)
相関係数は線形関係のみを測る。曲線的な関係(例:\(y=x^2\))は r≈0 でも強い関係がある場合がある。必ず散布図も確認すること。

4. 擬相関(みかけの相関)

実際の因果関係はないが、第3の交絡変数の影響で相関が見かけ上現れる現象。

例:「アイスの売上」と「溺死者数」は正の相関があるが因果関係はない。「気温」が共通原因。

5. 偏相関係数

第3の変数の影響を取り除いた2変数間の純粋な相関。擬相関の検出に有効。

偏相関係数(xとyからzの影響を除く)
\[r_{xy\cdot z} = \frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{(1-r_{xz}^2)(1-r_{yz}^2)}}\]

6. 例題

【例題 6-1】相関係数の計算

データ:(x,y)=(1,2),(3,4),(5,6),(2,3),(4,5)。共分散と相関係数を求めよ。

解答
\(\bar{x}=3,\;\bar{y}=4\)
偏差積の和:\((-2)(-2)+0+2\cdot2+(-1)(-1)+1\cdot1=4+0+4+1+1=10\)
共分散:\(s_{xy}=10/4=\mathbf{2.5}\)
\(\sum(x_i-\bar{x})^2=10,\;\sum(y_i-\bar{y})^2=10\)
相関係数:\(r=2.5/(\sqrt{2.5}\times\sqrt{2.5})=2.5/2.5=\mathbf{1.0}\)(完全な正の線形相関)
【例題 6-2】擬相関の識別

「地域の医師数」と「死亡者数」に正の相関が観察された。最も適切な説明はどれか。
①医師が増えると死亡者が増える ②人口が多い地域ほど両方多い ③死亡者が増えると医師が増える ④この相関は偶然

解答
正解:②
人口(交絡変数)が多い地域では医師も死亡者数(絶対数)も多い。「人口の多さ」による擬相関。人口当たり数で比較すべき。

7. 練習問題

問題 1

\(P(A)=0.3, P(B)=0.5, P(A\cap B)=0.1\)。\(r=\) ?(相関係数のアナロジーではなく)n=4で \(\bar{x}=2\)、\(\bar{y}=3\)、\(\sum(x_i-\bar{x})(y_i-\bar{y})=-6\)、\(s_x=2\)、\(s_y=1.5\) のとき共分散と相関係数を求めよ。

問題 2

相関係数 r = −0.85 のとき、散布図の形状として最も適切なものはどれか。
①右上がりの強い直線的傾向 ②ランダムに散らばる ③右下がりの強い直線的傾向 ④U字型の曲線

問題 3

「チョコレートの消費量」と「ノーベル賞受賞者数」に強い正の相関がある。この相関の最も適切な説明を述べよ。