統計量とは、未知である母集団の特徴を推測するため、母集団から抽出されたデータから計算された量です。以下に基本的な統計量を説明します。
1つの量的変数の場合
母集団から抽出された $n$ 個のデータを{$x_1,x_2,・・・,x_i,・・・,x_n$}とします。
平均
平均は、データのバラつきの中心位置を表します。
$$\bar{x}\equiv\frac{1}{n}\sum_{i=1}^nx_i$$
残差
残差とは各データの平均からの差で定義されます。
$$e_i\equiv x_i-\bar{x}$$
残差は以下の特徴があります。
$$\sum_{i=1}^ne_i=0$$
平方和
平方和は、残差の2乗の和により得られ、データ全体のバラつきの大きさを表します。
$$S_{xx}\equiv\sum_{i=1}^ne_i^2=\sum_{i=1}^n(x_i-\bar{x})^2=\sum_{i=1}^nx_i^2-n\bar{x}^2$$
標本分散
標本分散は、平方和を $n$ で割ることにより得られ、各データのバラつきの大きさを表します。
$$V_x\equiv\frac{S_{xx}}{n}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$$
不偏分散
不偏分散は、平方和を $n-1$ で割ることにより得られます。一般に、分散としては不偏分散が使われます。
$$V_x\equiv\frac{S_{xx}}{n-1}=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$$
不偏分散の期待値は、母集団の分散($\sigma^2$)と等しくなります。
$$\sigma^2=E(V)$$
なぜ標準偏差は平方和を $n-1$ で割るのかについては、この記事の最後で説明します。
標準偏差
標準偏差は、分散の平方根で求められます。
$$s_x\equiv\sqrt{V_x}$$
例えば、母集団が正規分布に従う場合、$\pm s_x$ の範囲に約68%の確率で含まれます。
2つの量的変数の場合
$n$ 個の2変数{$x_i$}と{$y_i$}の場合の統計量は以下になります。
偏差積和
偏差積和は2変数の偏差の積で表されます。
$$S_{xy}\equiv\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})=\sum_{i=1}^nx_iy_i-n\bar{x}\bar{y}$$
共分散
共分散は、偏差積和を $n-1$ で割ることにより得られます。
$$C_{xy}\equiv\frac{S_{xy}}{n-1}$$
相関係数
相関係数は、散布図において $x$ と $y$ の直線的な相関の程度を表します。
$$r_{xy}\equiv\frac{C_{xy}}{\sqrt{V_xV_y}}=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$$
相関係数は $-1\le r_{xy}\le1$ の範囲をとり、1に近いほど正の相関が強く、-1に近いほど負の相関が強いと言います。また、0の場合は無相関と考えます。
量的変数と質的変数が混在した場合
量的変数とは、長さや重さのように連続的な値で、質的変数とは、性別や合格/不合格のような離散的な値です。
例えば、測定条件($i=1\sim m$)を変えてあるデータ($x$)を測定します。このとき、測定条件は質的変数、データ(測定値)は量的変数になります。
級内平方和と級間平方和
平方和の特徴として、データ全体の平方和($S_T$)は、測定条件が同じグループ内の平方和(級内平方和:$S_E$)とグループ間の平方和(級間平方和:$S_A$)の合計で表されます。ここで、各グループのデータの数を $n_i$、各グループのデータの平均を $\bar{x}_i$、データ全体の平均を $\bar{\bar{x}}$ とします。
$$S_T\equiv\sum_{i=1}^m\sum_{j=1}^{ni}(x_{ij}-\bar{\bar{x}})^2=S_E+S_A$$
$$S_E\equiv\sum_{i=1}^m\sum_{j=1}^{ni}(x_{ij}-\bar{x}_i)^2$$
$$S_A\equiv\sum_{i=1}^mn_i(\bar{x}_i-\bar{\bar{x}})^2$$
相関比
相関比(寄与率)は、平方和全体に対する級間平方和の割合で表され、これが1に近いほどグループ間の差が大きく、それ以外の要因によるデータのバラつき(測定誤差など)は小さいと考えられます。
$$\mathrm{相関比}=\frac{S_A}{S_T}$$
$n-1$ で割る理由
不偏分散が、以下の分散の関係式を満たすことを示します。
$$E(V)=E(x^2)-(E(x))^2$$
まず、不偏分散を書き直します。
$$V=\frac{1}{n-1}\sum_{i=1}^n\left(x_i-\frac{1}{n}\sum_{j=1}^nx_j\right)^2$$$$=\frac{1}{n^2(n-1)}\sum_i\Big[n^2x_i^2-2nx_i\sum_jx_j+\Big(\sum_jx_j\Big)^2\Big] -①$$
①の第2項は、
$$-2nx_i\sum_jx_j=-2nx_i^2-4nx_i\sum_{i\lt j}x_j -②$$
①の第3項は、
$$\Big(\sum_jx_j\Big)^2=\sum_j(x_j)^2+2\sum_{j\lt k}x_jx_k -③$$
これらより、①の1項、②の1項、③の1項の和は、
$$\sum_i\Big(n^2x_i^2-2nx_i^2+\sum_j(x_j)^2\Big)=\sum_i(n^2-2n+n)x_i^2$$
同じく、②の2項、③の2項の和は、
$$\sum_i\Big(-4nx_i\sum_{i\lt j}x_j+2\sum_{j\lt k}x_jx_k\Big)=\sum_{i\lt j}(-4n+2n)x_ix_j$$
従って、不偏分散は以下になります。
$$V=\frac{1}{n^2(n-1)}\Big(n(n-1)\sum_{i=1}^nx_i^2-2n\sum_{i<j}^nx_ix_j\Big)$$
次に期待値を計算しますが、各データの期待値は同じであるため、
$$E\left(\sum_{i=1}^nx_i^2\right)=nE(x_1^2)$$$$E\left(\sum_{i<j}^nx_ix_j\right)=\frac{n(n-1)}{2}E(x_1x_2)$$
のように置き換え、$x_1$ と $x_2$ は独立であるため、
$$E(V)=E(x_1^2)-E(x_1x_2)$$$$=E(x_1^2)-(E(x_1))^2$$
となり、不偏分散は分散の関係式を満たすことが分かります。