統計量とは

/統計学

統計量とは、未知である母集団の特徴を推測するため、母集団から抽出されたデータから計算された量です。以下に基本的な統計量を説明します。

1つの量的変数の場合

母集団から抽出された $n$ 個のデータを{$x_1,x_2,・・・,x_i,・・・,x_n$}とします。

平均

平均は、データのバラつきの中心位置を表します。

$$\bar{x}\equiv\frac{1}{n}\sum_{i=1}^nx_i$$

残差

残差とは各データの平均からの差で定義されます。

$$e_i\equiv x_i-\bar{x}$$

残差は以下の特徴があります。

$$\sum_{i=1}^ne_i=0$$

平方和

平方和は、残差の2乗の和により得られ、データ全体のバラつきの大きさを表します。

$$S_{xx}\equiv\sum_{i=1}^ne_i^2=\sum_{i=1}^n(x_i-\bar{x})^2=\sum_{i=1}^nx_i^2-n\bar{x}^2$$

標本分散

標本分散は、平方和を $n$ で割ることにより得られ、各データのバラつきの大きさを表します。

$$V_x\equiv\frac{S_{xx}}{n}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$$

不偏分散

不偏分散は、平方和を $n-1$ で割ることにより得られます。一般に、分散としては不偏分散が使われます。

$$V_x\equiv\frac{S_{xx}}{n-1}=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$$

不偏分散の期待値は、母集団の分散($\sigma^2$)と等しくなります。

$$\sigma^2=E(V)$$

なぜ標準偏差は平方和を $n-1$ で割るのかについては、この記事の最後で説明します。

標準偏差

標準偏差は、分散の平方根で求められます。

$$s_x\equiv\sqrt{V_x}$$

例えば、母集団が正規分布に従う場合、$\pm s_x$ の範囲に約68%の確率で含まれます。

2つの量的変数の場合

$n$ 個の2変数{$x_i$}と{$y_i$}の場合の統計量は以下になります。

偏差積和

偏差積和は2変数の偏差の積で表されます。

$$S_{xy}\equiv\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})=\sum_{i=1}^nx_iy_i-n\bar{x}\bar{y}$$

共分散

共分散は、偏差積和を $n-1$ で割ることにより得られます。

$$C_{xy}\equiv\frac{S_{xy}}{n-1}$$

相関係数

相関係数は、散布図において $x$ と $y$ の直線的な相関の程度を表します。

$$r_{xy}\equiv\frac{C_{xy}}{\sqrt{V_xV_y}}=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$$

相関係数は $-1\le r_{xy}\le1$ の範囲をとり、1に近いほど正の相関が強く、-1に近いほど負の相関が強いと言います。また、0の場合は無相関と考えます。

量的変数と質的変数が混在した場合

量的変数とは、長さや重さのように連続的な値で、質的変数とは、性別や合格/不合格のような離散的な値です。

例えば、測定条件($i=1\sim m$)を変えてあるデータ($x$)を測定します。このとき、測定条件は質的変数、データ(測定値)は量的変数になります。

級内平方和と級間平方和

平方和の特徴として、データ全体の平方和($S_T$)は、測定条件が同じグループ内の平方和(級内平方和:$S_E$)とグループ間の平方和(級間平方和:$S_A$)の合計で表されます。ここで、各グループのデータの数を $n_i$、各グループのデータの平均を $\bar{x}_i$、データ全体の平均を $\bar{\bar{x}}$ とします。

$$S_T\equiv\sum_{i=1}^m\sum_{j=1}^{ni}(x_{ij}-\bar{\bar{x}})^2=S_E+S_A$$

$$S_E\equiv\sum_{i=1}^m\sum_{j=1}^{ni}(x_{ij}-\bar{x}_i)^2$$

$$S_A\equiv\sum_{i=1}^mn_i(\bar{x}_i-\bar{\bar{x}})^2$$

相関比

相関比(寄与率)は、平方和全体に対する級間平方和の割合で表され、これが1に近いほどグループ間の差が大きく、それ以外の要因によるデータのバラつき(測定誤差など)は小さいと考えられます。

$$\mathrm{相関比}=\frac{S_A}{S_T}$$

$n-1$ で割る理由

不偏分散が、以下の分散の関係式を満たすことを示します。

$$E(V)=E(x^2)-(E(x))^2$$

まず、不偏分散を書き直します。

$$V=\frac{1}{n-1}\sum_{i=1}^n\left(x_i-\frac{1}{n}\sum_{j=1}^nx_j\right)^2$$$$=\frac{1}{n^2(n-1)}\sum_i\Big[n^2x_i^2-2nx_i\sum_jx_j+\Big(\sum_jx_j\Big)^2\Big]  -①$$

①の第2項は、

$$-2nx_i\sum_jx_j=-2nx_i^2-4nx_i\sum_{i\lt j}x_j  -②$$

①の第3項は、

$$\Big(\sum_jx_j\Big)^2=\sum_j(x_j)^2+2\sum_{j\lt k}x_jx_k  -③$$

これらより、①の1項、②の1項、③の1項の和は、

$$\sum_i\Big(n^2x_i^2-2nx_i^2+\sum_j(x_j)^2\Big)=\sum_i(n^2-2n+n)x_i^2$$

同じく、②の2項、③の2項の和は、

$$\sum_i\Big(-4nx_i\sum_{i\lt j}x_j+2\sum_{j\lt k}x_jx_k\Big)=\sum_{i\lt j}(-4n+2n)x_ix_j$$

従って、不偏分散は以下になります。

$$V=\frac{1}{n^2(n-1)}\Big(n(n-1)\sum_{i=1}^nx_i^2-2n\sum_{i<j}^nx_ix_j\Big)$$

次に期待値を計算しますが、各データの期待値は同じであるため、

$$E\left(\sum_{i=1}^nx_i^2\right)=nE(x_1^2)$$$$E\left(\sum_{i<j}^nx_ix_j\right)=\frac{n(n-1)}{2}E(x_1x_2)$$

のように置き換え、$x_1$ と $x_2$ は独立であるため、

$$E(V)=E(x_1^2)-E(x_1x_2)$$$$=E(x_1^2)-(E(x_1))^2$$

となり、不偏分散は分散の関係式を満たすことが分かります。

 

数学
解析学、代数学、幾何学、統計学、論理・基礎論、情報・暗号、機械学習、金融・ゲーム理論、高校数学
散策路TOP
数学、応用数学、古典物理、量子力学、物性論、電子工学、IT、力学、電磁気学、熱・統計力学、連続体力学、解析学、代数学、幾何学、統計学、論理・基礎論、プラズマ物理、量子コンピュータ、情報・暗号、機械学習、金融・ゲーム理論

Wikipedia

 

タイトルとURLをコピーしました