1つの量的変数での統計量
統計量とは、未知である母集団の特徴を推測するため、母集団から抽出されたデータから計算された量です。母集団から抽出された $n$ 個のデータを{$x_1,x_2,・・・,x_i,・・・,x_n$}として、基本的な統計量を説明します。
平均と残差
平均は、データのバラつきの中心位置を表します。
$$\bar{x}\equiv\frac{1}{n}\sum_{i=1}^nx_i$$
残差とは各データの平均からの差で定義されます。
$$e_i\equiv x_i-\bar{x}$$
残差は以下の特徴があります。
$$\sum_{i=1}^ne_i=0$$
平方和
平方和は、残差の2乗の和により得られ、データ全体のバラつきの大きさを表します。
$$S_{xx}\equiv\sum_{i=1}^ne_i^2=\sum_{i=1}^n(x_i-\bar{x})^2=\sum_{i=1}^nx_i^2-n\bar{x}^2$$
標本分散と不偏分散
標本分散は、平方和を $n$ で割ることにより得られ、各データのバラつきの大きさを表します。
$$V_x\equiv\frac{S_{xx}}{n}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$$
不偏分散は、平方和を $n-1$ で割ることにより得られます。一般に、分散としては不偏分散が使われます(導出)。
$$V_x\equiv\frac{S_{xx}}{n-1}=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$$
不偏分散の期待値は、母集団の分散 $\sigma^2$ と等しくなります。
$$\sigma^2=E(V)$$
なぜ標準偏差は平方和を $n-1$ で割るのかについては、この記事の最後で説明します。
標準偏差
標準偏差は、分散の平方根で求められます。
$$s_x\equiv\sqrt{V_x}$$
例えば、母集団が正規分布に従う場合、$\pm s_x$ の範囲に約68%の確率で含まれます。
2つの量的変数での統計量
$n$ 個の2変数{$x_i$}と{$y_i$}の場合の統計量は以下になります。
偏差積和
偏差積和は2変数の偏差の積で表されます。
$$S_{xy}\equiv\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})=\sum_{i=1}^nx_iy_i-n\bar{x}\bar{y}$$
共分散
共分散は、偏差積和を $n-1$ で割ることにより得られます。
$$C_{xy}\equiv\frac{S_{xy}}{n-1}$$
相関係数
相関係数は、散布図において $x$ と $y$ の直線的な相関の程度を表します。
$$r_{xy}\equiv\frac{C_{xy}}{\sqrt{V_xV_y}}=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$$
相関係数は $-1\le r_{xy}\le1$ の範囲をとり、1に近いほど正の相関が強く、-1に近いほど負の相関が強いと言います。また、0の場合は無相関と考えます。
量的変数と質的変数が混在した統計量
量的変数とは、長さや重さのように連続的な値で、質的変数とは、性別や合格/不合格のような離散的な値です。
例えば、測定条件 $i=1\sim m$ を変えてあるデータ $x_i$ を測定します。このとき、測定条件は質的変数、データ(測定値)は量的変数になります。
級内平方和と級間平方和
平方和の特徴として、データ全体の平方和 $S_T$ は、測定条件が同じグループ内の平方和 $S_E$(級内平方和)とグループ間の平方和 $S_A$(級間平方和)の合計で表されます。ここで、各グループのデータの数を $n_i$、各グループのデータの平均を $\bar{x}_i$、データ全体の平均を $\bar{\bar{x}}$ とします。
$$S_T\equiv\sum_{i=1}^m\sum_{j=1}^{ni}(x_{ij}-\bar{\bar{x}})^2=S_E+S_A$$$$S_E\equiv\sum_{i=1}^m\sum_{j=1}^{ni}(x_{ij}-\bar{x}_i)^2$$$$S_A\equiv\sum_{i=1}^mn_i(\bar{x}_i-\bar{\bar{x}})^2$$
相関比
相関比(寄与率)は、平方和全体に対する級間平方和の割合で表され、これが1に近いほどグループ間の差が大きく、それ以外の要因によるデータのバラつき(測定誤差など)は小さいと考えられます。
$$\mathrm{相関比}=\frac{S_A}{S_T}$$
式の導出
不偏分散が $n-1$ で割る理由
不偏分散が、以下の分散の関係式を満たすことを示します。
$$E(V)=E(x^2)-\Big(E(x)\Big)^2 -①$$
まず、不偏分散を書き直します。
$$V=\frac{1}{n-1}\sum_{i=1}^n\Big(x_i-\frac{1}{n}\sum_{j=1}^nx_j\Big)^2$$$$=\frac{1}{n^2(n-1)}\sum_i\left(n^2x_i^2-2nx_i\sum_jx_j+\Big(\sum_jx_j\Big)^2\right) -②$$
②の第2項は、
$$-2nx_i\sum_jx_j=-2nx_i^2-4nx_i\sum_{i\lt j}x_j -③$$
②の第3項は、
$$\Big(\sum_jx_j\Big)^2=\sum_jx_j^2+2\sum_{j\lt k}x_jx_k -④$$
これらより、②の1項、③の1項、④の1項の和は、
$$\sum_i\Big(n^2x_i^2-2nx_i^2+\sum_jx_j^2\Big)=\sum_i(n^2-2n+n)x_i^2$$
同じく、③の2項、④の2項の和は、
$$\sum_i\Big(-4nx_i\sum_{i\lt j}x_j+2\sum_{j\lt k}x_jx_k\Big)=\sum_{i\lt j}(-4n+2n)x_ix_j$$
従って、不偏分散②は以下になります。
$$V=\frac{1}{n^2(n-1)}\Big(n(n-1)\sum_{i=1}^nx_i^2-2n\sum_{i<j}^nx_ix_j\Big)$$
次に期待値を計算しますが、各データの期待値は同じであるため、
$$E\Big(\sum_{i=1}^nx_i^2\Big)=nE(x_1^2)$$$$E\Big(\sum_{i<j}^nx_ix_j\Big)=\frac{n(n-1)}{2}E(x_1x_2)$$
のように置き換え、$x_1$ と $x_2$ は独立であるため、
$$E(V)=E(x_1^2)-E(x_1x_2)=E(x_1^2)-\Big(E(x_1)\Big)^2$$
となり、不偏分散が分散の関係式①を満たすことが分かります。

