分散分析とは
分散分析とは、複数のデータ集合の間の差異が、誤差範囲かどうかを判定する手法です。分散分析が用いられるケースとして、例えば、製造工程を変えて製品を作り、ある性能を測定したとき、その測定データから製造工程による性能の差異が認められるかを判断する場合です。
データ形式
条件を変えた $m$ 個のグループに対し、それぞれ $r$ 個のデータ $x_{ij}$ を測定します。各グループの平均を $\bar{x}_i$ 、全データの平均を $\bar{\bar{x}}$ とします。総データ数を $n$($=mr$)とします。
グループ | データ | グループ平均 | 全平均 |
$G_1$ | $x_{11},x_{12},\cdots,x_{1r}$ | $\bar{x}_1$ | $\bar {\bar{x}}$ |
$G_2$ | $x_{21},x_{22},\cdots,x_{2r}$ | $\bar{x}_2$ | |
・・・ | ・・・ ・・・ | ・・・ | |
$G_m$ | $x_{m1},x_{m2},\cdots,x_{mr}$ | $\bar{x}_m$ |
グループ平均と全平均は以下で求められます。
$$\bar{x}_i=\frac{1}{r}\sum_{j=1}^rx_{ij}$$$$\bar{\bar{x}}=\frac{1}{m}\sum_{i=1}^m\bar{x}_i=\frac{1}{n}\sum_{i=1}^m\sum_{j=1}^rx_{ij}$$
データ構造式
データ構造式とは、各データ $x_{ij}$ のバラつきを分解した式です。母集団の平均 $\mu$ からのバラつきは、グループ間のバラつき $g_i$ と測定誤差 $\epsilon_{ij}$ の和で表されると仮定します。
$$x_{ij}=\mu+g_i+\epsilon_{ij} -①$$
ここで、測定誤差は $N(0,\sigma^2)$ に従います。また、グループ間にバラつきがない場合は、以下の関係が成り立ちます。
$$\sum_{i=1}^mg_i=0$$
分散分析の手順
分散分析は以下の手順で行います。
平方和を求める
総平方和 $S_T$ 、グループ間平方和 $S_G$ 、誤差平方和 $S_E$ を以下で定義します。
$$S_T=\sum_{i=1}^m\sum_{j=1}^r(x_{ij}-\bar{\bar{x}})^2$$$$S_G=\sum_{i=1}^m\sum_{j=1}^r(\bar{x}_i-\bar{\bar{x}})^2$$$$S_E=\sum_{i=1}^m\sum_{j=1}^r(x_{ij}-\bar{x}_i)^2$$
このとき、各平方和は以下の関係にあります。
$$S_T=S_G+S_E -②$$
②を導く
$S_T$ の定義より、
$$S_T=\sum_{i=1}^m\sum_{j=1}^r(x_{ij}-\bar{x}_i+\bar{x}_i-\bar{\bar{x}})^2$$$$=\sum_{i=1}^m\sum_{j=1}^r\Big((x_{ij}-\bar{x}_i)^2+(\bar{x}_i-\bar{\bar{x}})^2+2(x_{ij}-\bar{x}_i)(\bar{x}_i-\bar{\bar{x}})\Big)$$$$=S_E+S_G+2\sum_{i=1}^m\sum_{j=1}^r(x_{ij}\bar{x}_i-x_{ij}\bar{\bar{x}}-\bar{x}_i^2+\bar{x}_i\bar{\bar{x}})$$
グループ平均と全平均の定義より第3項は0になるため、②が得られることが分かります。
自由度と分散を求める
各平方和に対応する分散(平均平方)は、以下のように計算されます。ここで $\phi_T$、$\phi_G$、$\phi_E$ は自由度で、平方和と同様に分解できることが知られています。
平方和 | 自由度 | 分散 |
総平方和 $S_T$ | $\phi_T=n-1$ | $V_T=S_T/\phi_T$ |
グループ間平方和 $S_G$ | $\phi_G=m-1$ | $V_G=S_G/\phi_G$ |
誤差平方和 $S_E$ | $\phi_E=\phi_T-\phi_G$ $=m(r-1)$ |
$V_E=S_E/\phi_E$ |
検定手順
統計検定量を以下で定義します。
$$F_0=\frac{V_G}{V_E}$$
$F_0$ は、帰無仮説「グループの違いによる差は無い」の下で、自由度($\phi_G$、$\phi_E$)のF分布に従います。この場合は、有意水準を $\alpha$(例えば5%)とすると、棄却域は以下になるので、
$$F_0\ge F(\phi_G,\phi_E;\alpha)=F(\phi_G,\phi_E;0.05)$$
この式が成立すれば、帰無仮説は棄却された、つまり「グループの違いによる差は有る」ことになります。まとめると、
$F_0\lt F$ | 帰無仮説が採択 | グループの違いによる差は無い |
$F_0\ge F$ | 帰無仮説が棄却 | グループの違いによる差が有る |
推定手順
点推定
母平均の点推定 $\mu_i$ は以下で求められます。
$$\hat{\mu}_i=\overline{\mu+g_i}=\bar{x}_i$$
区間推定
有意水準 $\alpha$ の区間は、$t$ 分布により表されます。
$$P\Big(-t(\phi_E,\alpha)\le\frac{\mu_i-\bar{x}_i}{\sqrt{V_E/r}}\le t(\phi_E,\alpha)\Big)=1-\alpha$$
$x_{i1}\sim x_{ir}$ が $N(\mu_i,\sigma^2)$ に従い、$\bar{x}_i$ が $N(\mu_i,\sigma^2/r)$ に従うため、信頼率 $100(1-\alpha)$ %の信頼区間は以下で求められます。
$$\bar{x}_i-t(\phi_E,\alpha)\sqrt{\frac{V_E}{r}}\le\mu_i\le\bar{x}_i+t(\phi_E,\alpha)\sqrt{\frac{V_E}{r}}$$