情報量
情報量とは、その情報を得たことにより、知識の不確実さがどのくらい減るかで測ることができます。
同じ確率で起こる事象の場合
同じ確率で起こる $n$ 個の事象 $A_1,A_2,\cdots,A_n$ を考えます。情報量は、この事象の中から、どの事象が起ったかを知るための「問合せの回数」として定義されます。
例えば、$n=2$ の場合の問合せの回数は1回で、$n=8$ の場合は同様に3回です。これから、$n$ 個の場合の情報量 $I$ は、以下で表されることが類推できます。
$$I=\log_2{n} -①$$
これは、ビット数 $I$ で表現できるパターンの数 $n$ と考えることもでき、実際に情報量には「ビット」が使われます。また、1つの事象が確率 $1/n$ で起こると考えると、情報量は以下で表すことができます。
$$I=-\log_2{\frac{1}{n}}$$
異なる確率で起こる事象の場合
異なる確率 $p_1,p_2,\cdots,p_m$ で起こる $m$ 個の事象 $G_1,G_2,\cdots,G_m$ を考えます。このとき、ある事象 $p_i$ が起こった事を知らせる情報量は以下で表されます。
$$I_i=-\log_2{p_i} -②$$
尚、確率の総和は1になります。
$$\sum_{i}p_i=1 -③$$
②の導出
同じ確率で起こる $n$ 個の事象 $A_i$ を、$k$ 個づつの $m$ 個のグループに分けます。
グループ | $G_1$ | $G_2$ | ・・・ | $G_m$ |
事象 | $A_1,\cdots,A_k$ | $A_{k+1},\cdots,A_{2k}$ | ・・・ | $A_{mk-m+1},\cdots,A_{mk}$ |
このとき、①は以下のようになります。
$$\log_2{n}=\log_2{mk}=\log_2{m}+\log_2{k} -④$$
これにより、ある事象を知るための情報量は、グループを特定する情報量と、グループの中の事象を特定するための情報量の和で表されることが分かります(情報量の加法性)。
あるグループを特定するための情報量は、④より、
$$\log_2{m}=\log_2{n}-\log_2{k}=-\log_2{\frac{k}{n}}$$
従って、あるグループが起る確率を $p_i$($=k/n$)とすると、そのグループを特定するための情報量 $I_i$ は②で求めらることができます。
情報のエントロピー
情報のエントロピー(以下、エントロピー)とは、得られる情報量の期待値です。
ある事象 $A_i$ が発生したがどうかを知るための情報量は $-\log{p_i}$ で表されますが、これは確率 $p_i$ で得られる情報量です。得られる情報量の期待値(エントロピー:$H$)は以下で定義されます。
$$H=\sum_{i=1}^np_iI_i=-\sum_{i=1}^np_i\log_2{p_i}$$
エントロピーの特徴
情報のエントロピーは以下の特徴を持ちます。
- エントロピーは正の値を持つ。
- どれか1つの事象に確定した場合($p_i=1$、$p_{j\ne i}=0$)、エントロピーは0になる。
- 全ての事象の確率が等しい場合($p_i=1/n$)、エントロピーは最大値を持つ。
- 情報 $I$ を得ることでエントロピーが $H_1$ から $H_2$ に変化した場合、その情報量はエントロピーの変化量に等しい。
$$I=H_1-H_2$$
特徴1と2は、エントロピーの定義より明らかです。
特徴3の導出
条件③の下で、エントロピーが停留点を持つ条件を、ラグランジュの乗数法を用いて求めます。ラグランジュ関数を以下で定義し、
$$L=-\sum_{i=1}^np_i\log_2{p_i}-\lambda\Big(\sum_{i}p_i-1\Big)$$
微分すると、
$$\frac{\partial L}{\partial p_i}=-\log_2{p_i}-\frac{1}{\ln{2}}-\lambda=0$$$$\log_2{p_i}+\log_2{e}=-\lambda$$$$p_i=\frac{2^{-\lambda}}{e}$$
各確率は定数となることが分かります。条件③より、
$$\sum_{i}p_i=\frac{n2^{-\lambda}}{e}=1$$
これらにより、各確率は以下になることが分かります。
$$p_i=\frac{1}{n}$$
サイコロの例
6つの目をもつサイコロを例にとります。ケース1は全ての目が等確率の場合、ケース2は奇数が出ることが分かった場合、ケース4は特定の目(例えば”1”)が出ることが確定した場合とします。
ケース | 目の出る確率 | エントロピー |
1 | $(1/6,1/6,1/6,1/6,1/6,1/6)$ | $$H_1=6\times\Big(-\frac{1}{6}\log_2{\frac{1}{6}}\Big)\cong2.58$$ |
2 | $(1/3,0,1/3,0,1/3,0)$ | $$H_2=3\times\Big(-\frac{1}{3}\log_2{\frac{1}{3}}\Big)\cong1.58$$ |
3 | $(1/2,0,1/2,0,0,0)$ | $$H_3=2\times\Big(-\frac{1}{2}\log_2{\frac{1}{2}}\Big)=1.00$$ |
4 | $(1,0,0,0,0,0)$ | $$H_4=1\times\Big(-\frac{1}{1}\log_2{\frac{1}{1}}\Big)=0$$ |
得られる情報量は、エントロピーの減少分に等しくなります。
$I_{1\to2}=H_1-H_2=1.00$ | - | - |
$I_{1\to3}=H_1-H_3\cong1.58$ | $I_{2\to3}=H_2-H_3\cong0.58$ | - |
$I_{1\to4}=H_1-H_4\cong2.58$ | $I_{2\to4}=H_2-H_4\cong1.58$ | $I_{3\to4}=H_3-H_4=1.00$ |
以上のことからも、情報量とエントロピーの関係について、以下のことが分かります。
- どの事象も同確率で起こる(どの事象が起るか全く予測できない)状態(ケース1)は、エントロピーと確定するために必要な情報量が最大となる。
- どの事象が起るか確定した状態(ケース3)は、エントロピーと確定するために必要な情報量は0になる。
- エントロピーは、どの事象が起ったかを知るための情報量に等しい。