データの分析(数学Ⅰ)
代表値
平均値、中央値、最頻値の定義は以下になります。
- 平均値:
$$\bar{x}=\frac{1}{n}(x_1+x_2+\cdots+x_n)$$ - 中央値(メジアン):データを大きさの順に並べたときに中央の位置にくる値。
- 最頻値(モード):データにおける最も個数の多い値。
分散と標準偏差
分散と標準偏差の定義は以下になります。
- 分散:偏差(各値と平均値の差)の2乗の平均値。
$$V=\frac{1}{n}\Big((x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2\Big)$$ - 標準偏差:分散の平方根。
$$S=\sqrt{V}$$ - 分散と平均値の関係式
$$V=\overline{x^2}-(\bar{x})^2$$
相関関係
データ $x,y$ の標準偏差をそれぞれ $S_x,S_y$ 、共分散を $S_{xy}$ とすると、相関係数は以下で定義されます。
$$r=\frac{S_{xy}}{S_xS_y} (-1\le r\le1)$$$$S_{xy}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})$$
場合の数と確率(数学A)
個数定理
集合 $A$ の要素の個数を $n(A)$ 、全体集合を $U$ とすると、以下の関係が成り立ちます。
- $n(A\cup B)=n(A)+n(B)-n(A\cap B)$
- $n(\bar{A})=n(U)-n(A)$
- $n(A\cup B\cup C)=n(A)+n(B)+n(C)+n(A\cap B\cap C)$
$-n(A\cap B)-n(B\cap C)-n(C\cap A)$ - $n(U)\ge n(A\cup B)$
- $n(A\cap B)\le n(A)$
- $n(A\cup B)\le n(A)+n(B)$
和の法則と積の法則
事象 $A,B$ の起こり方がそれぞれ $m,n$ 通りとするとき、
- 和の法則:$A$ または $B$ の起こる場合の数は $m+n$
- 積の法則:$A$ と $B$ がともに起る場合の数は $m\times n$
順列
順列、円順列、数珠順列、重複順列の数は以下で表されます。
- 順列:異なる $n$ 個から $r$ 個を取る順列の総数は、
$${}_nP_r=n(n-1)(n-2)\cdots(n-r+1)=\frac{n!}{(n-r)!}$$ - 円順列:異なる $n$ 個の順列の総数は、
$$(n-1)!=\frac{{}_nP_n}{n}$$ - 数珠順列:円順列を裏返せる場合の順列の巣数は、円順列の半分となります。
$$\frac{(n-1)!}{2}=\frac{{}_nP_n}{2n}$$ - 重複順列:異なる $n$ 個から $r$ 個を取る重複順列の総数は $n^r$
組合せ
組合せとは、同じものを含む順列の総数です。
- 組合せの数:異なる $n$ 個から $r$ 個を取る組合せの総数は、
$${}_nC_r=\frac{{}_nP_r}{r!}=\frac{n!}{r!(n-r)!}$$ - 同じものを含む順列:$a$ が $p$ 個、$b$ が $q$ 個、$c$ が $r$ 個 $\cdots$ 合計 $n$ 個を全ての並べ方の総数は以下になります。
$$\frac{n!}{p!q!r!\cdots}={}_nC_p\times{}_{n-p}C_q\times{}_{n-p-q}C_r\times\cdots$$$$n=p+q+r+\cdots$$ - 組分け:$n$ 人をA組 $p$ 人、B組 $q$ 人、C組 $r$ 人に分ける組分けの総数は、
$${}_nC_p\times{}_{n-p}C_q$$
3組同数であれば、各組は区別ができないため、
$$\frac{{}_nC_p\times{}_{n-p}C_q}{3!}$$ - 重複組合せ数:異なる $n$ 個から $r$ 個を取る重複組合せ($n\lt r$ も可)の総数は、
$${}_nH_r={}_{n+r-1}C_r$$ - ${}_nC_r$ の関係式:
$${}_nC_r={}_nC_{n-r} , {}_nC_r={}_{n-1}C_{r-1}+{}_{n-1}C_r$$
確率
事象 $A$ の起る確率を $P(A)$ とすると、以下の関係が成り立ちます。
- 基本定理:
$$0\le P(A)\le 1 , $P(\phi)=0$$ - 加法定理:事象 $A,B$ が互いに排反する場合、
$$P(A\cup B)=P(A)+P(B)$$ - 余事象の確率:
$$P(\bar{A})+P(A)=1$$ - 反復事象の確率:
事象 $A$ の起る確率 $p$ を、その余事象を $q=1-p$ とすると、この試行を $n$ 回くり返す反復試行において、事象 $A$ が $r$ 回起る確率は、
$$P={}_nC_rp^rq^{n-r}$$ - 条件付き確率:
事象 $A$ が起ったときに事象が起る確率 $P_A(B)$ は以下で表されます。
$$P_A(B)=\frac{P(A\cap B)}{P(A)}$$ - 乗法定理:
$$P(A\cap B)=P_A(B)P(A)$$
確率分布と統計的な推測(数学B)
期待値と分散
$X$ を確率変数とすると、期待値(平均)$E(X)$ と分散 $V(X)$ は以下で定義されます。
$$E(X)=\sum_{k=1}^np_kx_k$$$$V(X)=E((X-E(X))^2)=E(X^2)-(E(X))^2$$
確率変数の和と積
$X,Y$ は確率変数、$a,b$ は定数の場合、
- $E(aX+b)=aE(X)+b$
- $V(aX+b)=a^2V(X)$
- $E(aX+bY)=aE(X)+bE(X)$
- $E(XY)=E(X)E(Y)$
- $V(aX+bY)=a^2V(X)+b^2V(X)$
二項分布
確率変数 $X$ が二項分布 $B(n,p)={}_nC_rp^rq^{n-r}$ 、($p+q=1$)に従うとき、
- $E(X)=np$
- $V(X)=npq$
正規分布
確率変数 $X$ が正規分布 $N(m,\sigma^2)$ に従うとき、
- $E(X)=m$
- $V(X)=\sigma^2$
以下の場合、確率変数 $Z$ は標準正規分布 $N(0,1)$ に従います。
- 確率変数 $X$ が正規分布 $N(m,\sigma^2)$ に従うときの $Z=(X-m)/\sigma$
- 確率変数 $X$ が二項分布 $B(n,p)$ に従うときの $Z=(X-np)/\sqrt{npq}$
標本平均
母集団から $n$ 個抽出する場合、標本の平均 $\bar{X}$ の平均と標準偏差は、
$$E(\bar{X})=m$$$$\sigma(\bar{X})=\frac{\sigma}{\sqrt{n}}$$
$n$ が十分大きければ、標本平均は正規分布 $N(m,\sigma^2/n)$ と見なすことができます。