統計量とは - 理数の散策路

１つの量的変数での統計量
２つの量的変数での統計量
量的変数と質的変数が混在した統計量
式の導出

１つの量的変数での統計量

統計量とは、未知である母集団の特徴を推測するため、母集団から抽出されたデータから計算された量です。母集団から抽出された $n$ 個のデータを｛$x_1,x_2,･･･,x_i,･･･,x_n$｝として、基本的な統計量を説明します。

平均と残差

平均は、データのバラつきの中心位置を表します。

$$\bar{x}\equiv\frac{1}{n}\sum_{i=1}^nx_i$$

残差とは各データの平均からの差で定義されます。

$$e_i\equiv x_i-\bar{x}$$

残差は以下の特徴があります。

$$\sum_{i=1}^ne_i=0$$

平方和

平方和は、残差の２乗の和により得られ、データ全体のバラつきの大きさを表します。

$$S_{xx}\equiv\sum_{i=1}^ne_i^2=\sum_{i=1}^n(x_i-\bar{x})^2=\sum_{i=1}^nx_i^2-n\bar{x}^2$$

標本分散と不偏分散

標本分散は、平方和を $n$ で割ることにより得られ、各データのバラつきの大きさを表します。

$$V_x\equiv\frac{S_{xx}}{n}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$$

不偏分散は、平方和を $n-1$ で割ることにより得られます。一般に、分散としては不偏分散が使われます（導出）。

$$V_x\equiv\frac{S_{xx}}{n-1}=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$$

不偏分散の期待値は、母集団の分散 $\sigma^2$ と等しくなります。

$$\sigma^2=E(V)$$

なぜ標準偏差は平方和を $n-1$ で割るのかについては、この記事の最後で説明します。

標準偏差

標準偏差は、分散の平方根で求められます。

$$s_x\equiv\sqrt{V_x}$$

例えば、母集団が正規分布に従う場合、$\pm s_x$ の範囲に約68％の確率で含まれます。

２つの量的変数での統計量

$n$ 個の２変数｛$x_i$｝と｛$y_i$｝の場合の統計量は以下になります。

偏差積和

偏差積和は２変数の偏差の積で表されます。

$$S_{xy}\equiv\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})=\sum_{i=1}^nx_iy_i-n\bar{x}\bar{y}$$

共分散

共分散は、偏差積和を $n-1$ で割ることにより得られます。

$$C_{xy}\equiv\frac{S_{xy}}{n-1}$$

相関係数

相関係数は、散布図において $x$ と $y$ の直線的な相関の程度を表します。

$$r_{xy}\equiv\frac{C_{xy}}{\sqrt{V_xV_y}}=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$$

相関係数は $-1\le r_{xy}\le1$ の範囲をとり、１に近いほど正の相関が強く、－１に近いほど負の相関が強いと言います。また、０の場合は無相関と考えます。

量的変数と質的変数が混在した統計量

量的変数とは、長さや重さのように連続的な値で、質的変数とは、性別や合格／不合格のような離散的な値です。

例えば、測定条件 $i=1\sim m$ を変えてあるデータ $x_i$ を測定します。このとき、測定条件は質的変数、データ（測定値）は量的変数になります。

級内平方和と級間平方和

平方和の特徴として、データ全体の平方和 $S_T$ は、測定条件が同じグループ内の平方和 $S_E$（級内平方和）とグループ間の平方和 $S_A$（級間平方和）の合計で表されます。ここで、各グループのデータの数を $n_i$、各グループのデータの平均を $\bar{x}_i$、データ全体の平均を $\bar{\bar{x}}$ とします。

$$S_T\equiv\sum_{i=1}^m\sum_{j=1}^{ni}(x_{ij}-\bar{\bar{x}})^2=S_E+S_A$$$$S_E\equiv\sum_{i=1}^m\sum_{j=1}^{ni}(x_{ij}-\bar{x}_i)^2$$$$S_A\equiv\sum_{i=1}^mn_i(\bar{x}_i-\bar{\bar{x}})^2$$

相関比

相関比（寄与率）は、平方和全体に対する級間平方和の割合で表され、これが１に近いほどグループ間の差が大きく、それ以外の要因によるデータのバラつき（測定誤差など）は小さいと考えられます。

$$\mathrm{相関比}＝\frac{S_A}{S_T}$$

式の導出

不偏分散が $n-1$ で割る理由

不偏分散が、以下の分散の関係式を満たすことを示します。

$$E(V)=E(x^2)-\Big(E(x)\Big)^2　　-①$$

まず、不偏分散を書き直します。

$$V=\frac{1}{n-1}\sum_{i=1}^n\Big(x_i-\frac{1}{n}\sum_{j=1}^nx_j\Big)^2$$$$=\frac{1}{n^2(n-1)}\sum_i\left(n^2x_i^2-2nx_i\sum_jx_j+\Big(\sum_jx_j\Big)^2\right)　　－②$$

②の第２項は、

$$-2nx_i\sum_jx_j=-2nx_i^2-4nx_i\sum_{i\lt j}x_j　　－③$$

②の第３項は、

$$\Big(\sum_jx_j\Big)^2=\sum_jx_j^2+2\sum_{j\lt k}x_jx_k　　－④$$

これらより、②の１項、③の１項、④の１項の和は、

$$\sum_i\Big(n^2x_i^2-2nx_i^2+\sum_jx_j^2\Big)=\sum_i(n^2-2n+n)x_i^2$$

同じく、③の２項、④の２項の和は、

$$\sum_i\Big(-4nx_i\sum_{i\lt j}x_j+2\sum_{j\lt k}x_jx_k\Big)=\sum_{i\lt j}(-4n+2n)x_ix_j$$

従って、不偏分散②は以下になります。

$$V=\frac{1}{n^2(n-1)}\Big(n(n-1)\sum_{i=1}^nx_i^2-2n\sum_{i<j}^nx_ix_j\Big)$$

次に期待値を計算しますが、各データの期待値は同じであるため、

$$E\Big(\sum_{i=1}^nx_i^2\Big)=nE(x_1^2)$$$$E\Big(\sum_{i<j}^nx_ix_j\Big)=\frac{n(n-1)}{2}E(x_1x_2)$$