相関分析とは

/統計学

相関分析とは

相関分析とは、2つのデータ群の関係性の強さを評価する分析手法です。母集団からサンプリングされたデータから統計量を計算し、その統計量をもとに母集団の様子を知ることを目的とします。

以下、$n$ 個のデータのセット( $x_i,y_i$ )を考えます。

・・・ $i$ ・・・ $n$
$x_1$ $x_2$ ・・・ $x_i$ ・・・ $x_n$
$y_1$ $y_2$ ・・・ $y_i$ ・・・ $y_n$

相関係数

相関係数とは、2つのデータ群の関係性の強さを表す指標で、以下で計算されます。

$$r=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$$

ここで、平方和 $S_{xx}$ 、$S_{yy}$ と偏差積和 $S_{xy}$ は以下で定義され、

$$S_{xx}=\sum_{i=1}^n(x_i-\bar{x})^2=\sum_{i=1}^nx_i^2-n\bar{x}^2$$$$S_{yy}=\sum_{i=1}^n(y_i-\bar{y})^2=\sum_{i=1}^ny_i^2-n\bar{y}^2$$$$S_{xy}=\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})=\sum_{i=1}^nx_iy_i-n\bar{x}\bar{y}$$

各データの平均値は以下で定義されます。

$$\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i$$$$\bar{y}=\frac{1}{n}\sum_{i=1}^ny_i$$

相関係数 $r$ は、$-1\ge r\ge1$ の範囲の値を持ちます。$r$ が1に近ければ正の相関が強く、-1に近ければ負の相関が強く、0に近ければ相関が弱いと考えることができます。

母相関係数

母相関係数とは、母集団の相関係数です。$x$ と $y$ が以下の正規分布に従うと仮定すると、

$$x\sim N(\mu_x,\sigma_x^2)$$$$y\sim N(\mu_y,\sigma_y^2)$$

母相関係数 $\rho$ は以下で定義されます。この分子は共分散と呼ばれます。

$$\rho=\frac{E[(x-\mu_x)(y-\mu_y)]}{\sqrt{\sigma_x^2\sigma_y^2}}$$

母相関関数 $\rho$ も、相関関数 $r$ と同じく $-1\ge\rho\ge1$ の範囲の値を持ちます。$\rho$ が1に近ければ正の相関が強く、-1に近ければ負の相関が強く、0に近ければ相関が弱いと考えることができます。

r分布

統計量である相関係数 $r$ は、母集団が無相関($\rho=0$)の場合、下記の値は、自由度 $\phi$($=n-2$)の $t$ 分布に従うことが知られています。

$$t(\phi,\alpha)=\frac{r\sqrt{\phi}}{\sqrt{1-r^2}}  -①$$

$t$ 分布は、0を中心とした左右対称の面積1の関数で、$\alpha$ は、0からの距離  $t$ 以上離れた両側のバラつき部分の面積(確率)を表します。これを $r$ について解くと、

$$r(\phi,\alpha)=\frac{t(\phi,\alpha)}{\sqrt{\phi+t^2(\phi,\alpha)}}  -②$$

また、母集団が相関を持つ($\rho\ne0$)場合、

$$z=\frac{1}{2}\ln{\frac{1+r}{1-r}}  -③$$

は、近似的に $N(\zeta,1/n-3)$ に従うことが知られています。ここで $\zeta$ は、母相関係数より以下で定義されます。

$$\zeta=\frac{1}{2}\ln{\frac{1+\rho}{1-\rho}}  -④$$

このとき、以下のように標準化した $u$ は、近似的に $N(0,1^2)$ に従います。

$$u=\sqrt{n-3}(z-\zeta)  -⑤$$

検定の手順

検定は以下の手順で進めます。

1.帰無仮説と有意水準の設定

帰無仮説と有意水準を次のように設定します。

帰無仮説 無相関($\rho=0$)
有意水準 $\alpha=0.05$
2.棄却域の設定

棄却域の条件、つまり帰無仮説が成り立たない(相関ありの)$r$ の条件は、②から以下で表されます。

$$|r|\ge r(\phi,\alpha)=r(n-2,0.05)$$

3.相関係数の計算と判定

相関係数 $r$ を計算し、棄却域の条件を満たしていれば、「有意である」とし「相関関係がある」と判断することができます。

$|r|\ge r(n-2,0.05)$ 有意で”ある” 相関関係が”ある”
$|r|\lt r(n-2,0.05)$ 有意で”ない” 相関関係が”ない”

推定の手順

推定は以下の手順で進めます。

1.点推定

母集団の母相関係数 $\rho$ の推定を行います。まず、点推定は相関係数 $r$ を用います。

点推定 $\rho=r$
2.区間推定の有意水準の設定

区間推定では、有意水準を次のように設定します。

有意水準 $\alpha=0.05$
3.相関係数の計算

サンプルデータより相関係数 $r$ を計算し、③から $z$ を求めます。

$$z=\frac{1}{2}\ln{\frac{1+r}{1-r}}  -③$$

4.信頼区間の計算

$z$ をもとに、$\zeta$ の信頼区間($\zeta_1,\zeta_2$)と $\rho$ の信頼区間($\rho_1,\rho_2$)を計算します。⑤の $u$ は、

$$u=\sqrt{n-3}(z-\zeta)  -⑤$$

近似的に $N(0,1^2)$ に従うため、$u$ の存在する範囲(信頼区間)の条件は以下で表されます。

$$1-\alpha=P(-1.960\le\sqrt{n-3}(z-\zeta)\le1.960)$$$$=P\Big(z-\frac{1.960}{\sqrt{n-3}}\le\zeta\le z+\frac{1.960}{\sqrt{n-3}}\Big)$$

従って、$\zeta$ の信頼区間は以下になり、

$$(\zeta_1,\zeta_2)=\Big(z-\frac{1.960}{\sqrt{n-3}},z+\frac{1.960}{\sqrt{n-3}}\Big)$$

④を使って、$\zeta$ から $\rho$ に変換すると、$\rho$ の信頼区間は以下で表されます。

信頼区間 $$(\rho_1,\rho_2)=\Big(\frac{e^{2\zeta_1}-1}{e^{2\zeta_1}+1},\frac{e^{2\zeta_2}-1}{e^{2\zeta_2}+1}\Big)$$

 

数学
解析学、代数学、幾何学、統計学、論理・基礎論、情報・暗号、機械学習、金融・ゲーム理論、高校数学
散策路TOP
数学、応用数学、古典物理、量子力学、物性論、電子工学、IT、力学、電磁気学、熱・統計力学、連続体力学、解析学、代数学、幾何学、統計学、論理・基礎論、プラズマ物理、量子コンピュータ、情報・暗号、機械学習、金融・ゲーム理論

 

タイトルとURLをコピーしました