単回帰モデル
回帰分析とは、目的変数(従属変数)$y$ と説明変数(独立変数)$x$ の間に定量的な関係 $y=f(x)$ を見出すことです。特に、説明変数が1つの場合を単回帰と呼びます。
単回帰モデルを以下のような直線で仮定します。この係数 $a$ 、$b$ を求め、その妥当性を評価することが回帰分析の目的です。
$$y=a+bx$$
回帰式
回帰式とは、実測値($x_i,y_i$)から最小二乗法により求められた係数 $\hat{a}$ 、$\hat{b}$ により表される直線です。
$$\hat{y}_i=\hat{a}+\hat{b}x_i -①$$
尚、回帰式で得られる予測値 $\hat{y}_i$ は実測値 $y_i$ とは異なります。
平方和と偏差積和の定義
$n$ 個の実測値の平均 $\overline{x}$ 、$\overline{y}$ を以下で定義すると、
$$\overline{x}=\frac{1}{n}\sum x_i$$$$\overline{y}=\frac{1}{n}\sum y_i$$
説明変数 $x$ と目的変数 $y$ の平方和は以下で定義されます。
$$S_{xx}\equiv\sum(x_i-\overline{x})^2=\sum x_i^2-n\overline{x}^2 -②$$$$S_{yy}\equiv\sum(y_i-\overline{y})^2=\sum y_i^2-n\overline{y}^2 -③$$
回帰による平方和 $S_R$ は以下で定義されます。
$$S_R\equiv\sum(\hat{y}_i-\overline{y})^2$$
偏差積和 $S_{xy}$ は以下で定義されます。
$$S_{xy}\equiv\sum(x_i-\overline{x})(y_i-\overline{y})=\sum x_iy_i-n\overline{x}\overline{y} -④$$
残差と残差平方和の定義
残差 $e_i$ は実測値と予測値の差で定義され、
$$e_i\equiv y_i-\hat{y}_i$$
残差はランダムに表れるため以下になります。
$$\sum e_i=0$$
残差平方和 $S_e$ は残差の2乗和として定義されます。
$$S_e\equiv\sum_{i=1}^ne_i^2=\sum_{i=1}^n(y_i-\hat{a}-\hat{b}x_i)^2$$
回帰式の導出と評価
残差平方和を最小にする係数 $\hat{a}$ 、$\hat{b}$ を最小二乗法で求めます。残差平方和が停留点をもつ条件は以下になり、
$$\frac{\partial S_e}{\partial\hat{a}}=\frac{\partial S_e}{\partial\hat{b}}=0 -⑤$$
これより回帰式の係数を求めると(⑥⑦の導出)、
$$\hat{a}=\bar{y}-\hat{b}\bar{x} -⑥$$$$\hat{b}=\frac{S_{xy}}{S_{xx}} -⑦$$
従って、回帰式①は次で表されます。この直線は平均値($\overline{x},\overline{y}$)を通ることが分かります。
$$\hat{y}=\overline{y}+\frac{S_{xy}}{S_{xx}}(x-\overline{x}) -⑧$$
これらの関係より、残差については以下が成り立ち、(⑨の導出)
$$\sum x_ie_i=0 -⑨$$
残差平方和は以下のように表すことができます。ここで $S_R$ は回帰によって説明できる変動です。(⑩の導出)
$$S_e\equiv S_{yy}-S_R$$$$S_R=\frac{S_{xy}^2}{S_{xx}} -⑩$$
寄与率
寄与率 $R^2$ とは、目的変数の全変動 $S_{yy}$ のうち、回帰によって説明できる変動 $S_R$ の割合で以下で定義されます。寄与率は1に近いほど性能のよい回帰式であることが言えます。
$$R^2\equiv\frac{S_R}{S_{yy}}$$
寄与率は以下のように表すことができます。(⑪の導出)
$$R^2=1-\frac{S_e}{S_{yy}}=\frac{S_{xy}^2}{S_{xx}S_{yy}} -⑪$$
尚、右辺は以下の相関係数 $r_{xy}$ の2乗と等しくなります。
$$r_{xy}\equiv\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$$
標準化残差
標準化残差とは、実測値が予測値(回帰式)からどれくらい離れているかを表す量です。$k$ 番目のサンプルの標準化残差 $e_k’$ は以下で定義されます。
$$e_k’\equiv\frac{e_k}{\sqrt{V_e}}$$
ここで $V_e$ は分散で、残差平方和を自由度で割って求められます。
$$V_e=\frac{S_e}{\phi_e}=\frac{S_e}{n-2}$$
標準化残差は標準正規分布 $N(0,1^2)$ に従うため、標準化残差が大きいサンプルは異常でないか検討し、異常である理由が見つかった場合は、そのサンプルを外して分析をやり直す必要があります。
テコ比
回帰式 $\hat{y}_i$ をサンプル(実測値)$y_j$ で展開した場合、
$$\hat{y}_i\equiv\sum_{j=1}^nh_{ij}y_j -⑫$$
テコ比とは、実測値 $y_i$ の変化に対する予測値 $\hat{y}_i$ の変化の比 $h_{ii}$ で表されます。(⑬の導出)
$$h_{ii}\equiv\frac{1}{n}+\frac{(x_i-\overline{x})^2}{S_{xx}} -⑬$$
テコ比が大きすぎると、予測値(回帰式)が実測値の変動により強く影響されることを表しており、好ましくありません。テコ比は $i$ 番目の実測値の平均値から乖離度を表します。
導出
⑥⑦の導出
条件式⑤を計算し、②と④を使って書き換えると、
$$0=\frac{\partial S_e}{\partial\hat{a}}=-2\sum(y_i-\hat{a}-\hat{b}x_i)$$$$=-2(n\overline{y}-n\hat{a}-n\hat{b}\bar{x})$$
従って、
$$\hat{a}=\bar{y}-\hat{b}\bar{x} \to ⑥$$
一方、
$$0=\frac{\partial S_e}{\partial\hat{b}}=-2\sum x_i(y_i-\hat{a}-\hat{b}x_i)$$$$=-2\Big(S_{xy}+n\bar{x}\bar{y}-n\hat{a}\bar{x}-\hat{b}(S_{xx}+n\bar{x}^2)\Big)$$$$=-2(S_{xy}-\hat{b}S_{xx})$$
最後は⑥を代入しています。これより⑦が得られます。
⑨を導く
⑨の左辺に①を代入して、②と④を使うと、
$$\sum x_ie_i=\sum x_i(y_i-\hat{y}_i)$$$$=\sum x_iy_i-\sum x_i(\hat{a}+\hat{b}x_i)$$$$=S_{xy}+n\bar{x}\bar{y}-n\hat{a}\bar{x}-\hat{b}(S_{xx}+n\bar{x}^2)$$$$=0$$
最後は⑥と⑦を代入すると⑨が導かれます。
⑩を導く
残差平方和は定義式に⑥と⑦を代入すると、
$$S_e=\sum(y_i-\hat{a}-\hat{b}x_i)^2$$$$=\sum\Big((y_i-\bar{y})-\frac{S_{xy}}{S_{xx}}(x_i-\bar{x})\Big)^2$$$$=\sum\Big((y_i-\bar{y})^2-2\frac{S_{xy}}{S_{xx}}(x_i-\bar{x})(y_i-\bar{y})+\frac{S_{xy}^2}{S_{xx}^2}(x_i-\bar{x})^2\Big)$$$$=S_{yy}-\frac{S_{xy}^2}{S_{xx}}$$
最後は②③④を代入することで⑩が得られます。
⑪を導く
回帰による平方和に⑧を代入すると、
$$S_R=\sum\Big(\frac{S_{xy}}{S_{xx}}(x_i-\bar{x})\Big)^2=\frac{S_{xy}^2}{S_{xx}}$$
これを寄与率に代入すると⑪が得られます。
$$R^2=\frac{S_R}{S_{yy}}=\frac{S_{xy}^2}{S_{xx}S_{yy}}$$
⑬を導く
⑧に④を代入すると、
$$\hat{y}_i=\frac{1}{n}\sum_jy_j+\frac{x_i-\bar{x}}{S_{xx}}\sum_j(x_j-\bar{x})(y_j-\bar{y})$$$$=\sum_{j=1}^n\Big(\frac{1}{n}+\frac{(x_i-\overline{x})(x_j-\overline{x})}{S_{xx}}\Big)y_j$$
ここで $j=i$ の係数より⑬が得られます。