相関分析とは
相関分析とは、2つのデータ群の関係性の強さを評価する分析手法です。母集団からサンプリングされたデータから統計量を計算し、その統計量をもとに母集団の様子を知ることを目的とします。
以下、$n$ 個のデータのセット( $x_i,y_i$ )を考えます。
1 | 2 | ・・・ | $i$ | ・・・ | $n$ |
$x_1$ | $x_2$ | ・・・ | $x_i$ | ・・・ | $x_n$ |
$y_1$ | $y_2$ | ・・・ | $y_i$ | ・・・ | $y_n$ |
相関係数
相関係数とは、2つのデータ群の関係性の強さを表す指標で、以下で計算されます。
$$r=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$$
ここで、平方和 $S_{xx}$ 、$S_{yy}$ と偏差積和 $S_{xy}$ は以下で定義され、
$$S_{xx}=\sum_{i=1}^n(x_i-\bar{x})^2=\sum_{i=1}^nx_i^2-n\bar{x}^2$$$$S_{yy}=\sum_{i=1}^n(y_i-\bar{y})^2=\sum_{i=1}^ny_i^2-n\bar{y}^2$$$$S_{xy}=\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})=\sum_{i=1}^nx_iy_i-n\bar{x}\bar{y}$$
各データの平均値は以下で定義されます。
$$\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i$$$$\bar{y}=\frac{1}{n}\sum_{i=1}^ny_i$$
相関係数 $r$ は、$-1\ge r\ge1$ の範囲の値を持ちます。$r$ が1に近ければ正の相関が強く、-1に近ければ負の相関が強く、0に近ければ相関が弱いと考えることができます。
母相関係数
母相関係数とは、母集団の相関係数です。$x$ と $y$ が以下の正規分布に従うと仮定すると、
$$x\sim N(\mu_x,\sigma_x^2)$$$$y\sim N(\mu_y,\sigma_y^2)$$
母相関係数 $\rho$ は以下で定義されます。この分子は共分散と呼ばれます。
$$\rho=\frac{E[(x-\mu_x)(y-\mu_y)]}{\sqrt{\sigma_x^2\sigma_y^2}}$$
母相関関数 $\rho$ も、相関関数 $r$ と同じく $-1\ge\rho\ge1$ の範囲の値を持ちます。$\rho$ が1に近ければ正の相関が強く、-1に近ければ負の相関が強く、0に近ければ相関が弱いと考えることができます。
r分布
統計量である相関係数 $r$ は、母集団が無相関($\rho=0$)の場合、下記の値は、自由度 $\phi$($=n-2$)の $t$ 分布に従うことが知られています。
$$t(\phi,\alpha)=\frac{r\sqrt{\phi}}{\sqrt{1-r^2}} -①$$
$t$ 分布は、0を中心とした左右対称の面積1の関数で、$\alpha$ は、0からの距離 $t$ 以上離れた両側のバラつき部分の面積(確率)を表します。これを $r$ について解くと、
$$r(\phi,\alpha)=\frac{t(\phi,\alpha)}{\sqrt{\phi+t^2(\phi,\alpha)}} -②$$
また、母集団が相関を持つ($\rho\ne0$)場合、
$$z=\frac{1}{2}\ln{\frac{1+r}{1-r}} -③$$
は、近似的に $N(\zeta,1/n-3)$ に従うことが知られています。ここで $\zeta$ は、母相関係数より以下で定義されます。
$$\zeta=\frac{1}{2}\ln{\frac{1+\rho}{1-\rho}} -④$$
このとき、以下のように標準化した $u$ は、近似的に $N(0,1^2)$ に従います。
$$u=\sqrt{n-3}(z-\zeta) -⑤$$
検定の手順
検定は以下の手順で進めます。
1.帰無仮説と有意水準の設定
帰無仮説と有意水準を次のように設定します。
帰無仮説 | 無相関($\rho=0$) |
有意水準 | $\alpha=0.05$ |
2.棄却域の設定
棄却域の条件、つまり帰無仮説が成り立たない(相関ありの)$r$ の条件は、②から以下で表されます。
$$|r|\ge r(\phi,\alpha)=r(n-2,0.05)$$
3.相関係数の計算と判定
相関係数 $r$ を計算し、棄却域の条件を満たしていれば、「有意である」とし「相関関係がある」と判断することができます。
$|r|\ge r(n-2,0.05)$ | 有意で”ある” | 相関関係が”ある” |
$|r|\lt r(n-2,0.05)$ | 有意で”ない” | 相関関係が”ない” |
推定の手順
推定は以下の手順で進めます。
1.点推定
母集団の母相関係数 $\rho$ の推定を行います。まず、点推定は相関係数 $r$ を用います。
点推定 | $\rho=r$ |
2.区間推定の有意水準の設定
区間推定では、有意水準を次のように設定します。
有意水準 | $\alpha=0.05$ |
3.相関係数の計算
サンプルデータより相関係数 $r$ を計算し、③から $z$ を求めます。
$$z=\frac{1}{2}\ln{\frac{1+r}{1-r}} -③$$
4.信頼区間の計算
$z$ をもとに、$\zeta$ の信頼区間($\zeta_1,\zeta_2$)と $\rho$ の信頼区間($\rho_1,\rho_2$)を計算します。⑤の $u$ は、
$$u=\sqrt{n-3}(z-\zeta) -⑤$$
近似的に $N(0,1^2)$ に従うため、$u$ の存在する範囲(信頼区間)の条件は以下で表されます。
$$1-\alpha=P(-1.960\le\sqrt{n-3}(z-\zeta)\le1.960)$$$$=P\Big(z-\frac{1.960}{\sqrt{n-3}}\le\zeta\le z+\frac{1.960}{\sqrt{n-3}}\Big)$$
従って、$\zeta$ の信頼区間は以下になり、
$$(\zeta_1,\zeta_2)=\Big(z-\frac{1.960}{\sqrt{n-3}},z+\frac{1.960}{\sqrt{n-3}}\Big)$$
④を使って、$\zeta$ から $\rho$ に変換すると、$\rho$ の信頼区間は以下で表されます。
信頼区間 | $$(\rho_1,\rho_2)=\Big(\frac{e^{2\zeta_1}-1}{e^{2\zeta_1}+1},\frac{e^{2\zeta_2}-1}{e^{2\zeta_2}+1}\Big)$$ |