あることがらを試みることを「試行」といい、その結果として起こり得ることを「事象」といいます。起こり得るすべての事象を「全事象」といい、それ以上細かく分割できない事象を「根源事象」といいます。
全事象が \(N\) 個の事象からなり、\(N\) 個の事象がすべて同じ確からしさで起こるとき、\(N\) 個の事象のうち特定の \(R\) 個の事象が起こる確率 \(P\) を次の式で定義します。
確率 \(P\) の値は \(0 \leqq P \leqq 1\) の範囲になります。全事象のいずれかが起こる確率は 1 になります。全事象を全体集合と同様に \(U\) で表すことにすると、\(P(U) = 1\) となります。全事象の補集合 (空集合) が起こる確率は \(P(\varnothing) = 0\) になります。
簡単な例を示しましょう。トランプの全カード (52 枚) を \(U\) とし、スペード、クラブ、ハート、ダイヤのカードの集まりを \(S, C, H, D\) とします。カードを 1 枚引いて、それがスペードである確率は、事象の個数を \(n()\) で表すと次のようになります。
エースの集まりを \(A\) とすると、エースを引く確率は次のようになります。
サイコロの場合、6 つの事象があり、どれも同じ割合で起こると考えられます。したがって、各事象の確率は 1/6 になります。ここで、サイコロの出る目を変数 X で表すと、X のとる値は 1, 2, 3, 4, 5, 6 で、その確率が 1/6 ということになります。
このように、変数 X に対応する確率が全て示されているとき、その変数を「確率変数」といいます。そして、確率変数に対応する確率のことを「確率分布」といいます。
ある試行において、\(A\) という事象が起こったときには、\(B\) という事象は決して起こらず、\(B\) が起きたときには、決して \(A\) が起こらないとき、\(A\) と \(B\) は互いに「排反事象」であるといいます。\(A\) と \(B\) が排反事象であるとき、\(A\) または \(B\) が起こる確率は次式のようになります。
事象が互いに排反でなければ、以下の式になります。
事象を集合と考えれば、集合の要素数を求める公式と同様の考え方です。
事象 \(A\) と \(B\) の起こり方が無関係であるとき、\(A\) と \(B\) は互いに「独立」であるといいます。\(A\) と \(B\) が互いに独立であるとき、\(A\) が起こり、かつ \(B\) が起こる確率は次式のようになります。
これを「独立事象の乗法定理」といいます。
事象 \(A\) が起こったという条件のもとで事象 \(B\) が起こる確率を「条件付確率」といい、ふつうは \(P_A(B), P(B|A)\) などと書きます。すると、確率は次式で表すことができます。。
これを「条件付確率の乗法定理」といいます。この場合、\(P(A)\) を「事前確率」、\(P(B|A)\) を「事後確率」と呼ぶこともあります。条件付確率は集合で考えるとわかりやすいと思います。
このように、\(P(A \cap B)\) は \(P(C)\) と同じになります。ただし、事前確率や事後確率の中には、確率を計算するのが困難な場合もありえます。そのときは \(P(A), P(B|A)\) または \(P(B), P(A|B)\) のどちらかがわかれば、確率を計算することができます。これは「ベイズの定理」でもう少し詳しく説明します。
事象 \(A\) が起こらない確率は、1 から \(P(A)\) を引いた値になります。
簡単な例を示しましょう。
事象 \(A, B\) の確率を \(P(A), P(B)\) とし、事後確率を \(P(A|B), P(B|A)\) とすると、以下の式が成り立ちます。
これを「ベイズの定理」といいます。ベイズの定理は次のように変形することができます。
簡単な例を示しましょう。
大きな袋と小さな袋がある。大きな袋には白玉が 8 個と赤玉が 2 個、小さな袋には白玉が 3 個と赤玉が 7 個入っている。いずれかの袋から玉を一つ取り出したところ、それは赤玉だった。袋を選ぶ確率は、大きな袋が 0.6 で、小さな袋が 0.4 であることがわかっている。赤玉が大きな袋から取り出された確率を求めよ。
ある試行の結果によって値 \(x_1, \ x_2, \ \ldots, \ x_n\) が決まり、その確率が \(p_1, \ p_2, \ \ldots, \ p_n \) であるとき、次式をその試行の期待値 (expectation) といいます。
期待値は確率的な現象についての平均値と考えることができます。
簡単な例を示しましょう。
統計とは、社会や自然におけるいろいろな現象を数量的にはかって得られた数値のことです。たとえば、ある学年の生徒 100 人の身長を計測したとしましょう。ここでは、現実のデータではなく、乱数で作成した仮想的なデータを用います。
リスト : 身長のデータ height = [ 148.7, 149.5, 133.7, 157.9, 154.2, 147.8, 154.6, 159.1, 148.2, 153.1, 138.2, 138.7, 143.5, 153.2, 150.2, 157.3, 145.1, 157.2, 152.3, 148.3, 152.0, 146.0, 151.5, 139.4, 158.8, 147.6, 144.0, 145.8, 155.4, 155.5, 153.6, 138.5, 147.1, 149.6, 160.9, 148.9, 157.5, 155.1, 138.9, 153.0, 153.9, 150.9, 144.4, 160.3, 153.4, 163.0, 150.9, 153.3, 146.6, 153.3, 152.3, 153.3, 142.8, 149.0, 149.4, 156.5, 141.7, 146.2, 151.0, 156.5, 150.8, 141.0, 149.0, 163.2, 144.1, 147.1, 167.9, 155.3, 142.9, 148.7, 164.8, 154.1, 150.4, 154.2, 161.4, 155.0, 146.8, 154.2, 152.7, 149.7, 151.5, 154.5, 156.8, 150.3, 143.2, 149.5, 145.6, 140.4, 136.5, 146.9, 158.9, 144.4, 148.1, 155.5, 152.4, 153.3, 142.3, 155.3, 153.1, 152.3 ]
数値を並べただけではデータの特徴を把握することは難しいので、これを表にまとめます。たとえば、130 cm から 5 cm 間隔でデータの個数を求めると、次のようになります。
階級 | 階級値 | 度数 | 累積度数 |
---|---|---|---|
130 - 135 | 132.5 | 1 | 1 |
135 - 140 | 137.5 | 6 | 7 |
140 - 145 | 142.5 | 12 | 19 |
145 - 150 | 147.5 | 25 | 44 |
150 - 155 | 152.5 | 32 | 76 |
155 - 160 | 157.5 | 17 | 93 |
160 - 165 | 162.5 | 6 | 99 |
165 - 170 | 167.5 | 1 | 100 |
階級はデータの範囲を表します。この表では x cm 以上 y cm 未満を x - y で表しています。階級値は階級 x - y の中央値 (x + y) / 2 のことです。度数はその階級に出現したデータの個数です。度数を示してある表のことを「度数分布表」といいます。累積度数はその階級までの度数を全部加えたものです。累積度数を示してある表を「累積度数分布表」といいます。
そして、度数分布表を柱上のグラフで表したものを「ヒストグラム」といいます。次の図を見てください。
縦軸が度数で、横軸が階級です。150 cm 以上 155 cm 未満のデータが一番多く、そこから離れるほど度数は少なくなることが一目でわかります。
次に、このデータを要約することを考えます。つまり、そのデータの特徴を表す代表的な値を求めるのです。このような値を「要約値」といい、統計学では「統計量」といいます。すぐに思いつくのが「平均値 (mean)」ですね。このほかに、総計量 (total)、最大値 (maximum)、最小値 (minimum)、中央値 (median)、最頻値 (mode) などがあります。
データを \(x_1, x_2, \ldots , x_N\) とすると、総計量 \(T\) と平均値 \(M\) は次式で求めることができます。
平均値が同じ場合でも、データの特徴が異なる場合があります。たとえば、A = {4, 4, 5, 5, 5, 6, 6, 6, 7, 7} と B = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} の平均値は 5.5 になります。A のデータは平均値の近くに集まっていてますが、B のデータはバラバラになっていますね。統計学では、ばらつきの大きさを表すために「分散 (variance)」という値を使います。分散 \(S^2\)の定義を次に示します。
分散の定義からわかるように、平均値から離れたデータが多いほど、分散の値は大きくなります。逆に、平均値に近いデータが多くなると分散は小さな値になります。そして、分散の平方根が「標準偏差 (SD : standard deviation)」になります。標準偏差は、ばらつきの大きさを表すのによく使われています。
実際に値を求めると、結果は次のようになりました。
MEAN = 150.627, SD = 6.43347
平均値は 150.63 cm で、標準偏差は 6.43 cm になりました。データの分布が「正規分布 (normal distribution)」というもので近似できる場合、平均値±標準偏差の範囲内に 68.26 % のデータが分布し、平均値±(2 * 標準偏差) の範囲に 95.44 % のデータが分布します。
人の身長は正規分布に非常に近いことが知られているので、この学年の生徒の身長はだいたい 138 cm から 162 cm くらいであることがわかります。つまり、平均値と標準偏差から分布の様子がわかるわけです。正規分布についてはあとで詳しく説明します。
なお、度数分布表から平均値を求めることもできます。次の式を見てください。
実際に計算すると平均値は 150.55 cm になります。実際の平均値とは一致しませんが、とても近い値になりますね。この値を用いてデータ処理を行うこともできます。
何回も繰り返すことができる試行があり、その事象が互いに独立であるとき、その試行を「独立反復試行」または「ベルヌーイ試行」といいます。ここで、ある事象 \(E\) が起こる確率が \(p\) であるとします。この試行を \(n\) 回繰り返したとき、事象 \(E\) が \(k\) 回起こる確率 \(P(k)\) は次式で求めることができます。
\(P(k)\) の値がどのように分布するか示したものを「二項分布 (binomial distribution)」といい、\(B(n, p)\) と表記します。\(n\) 回の試行で \(E\) が \(k\) 回起こる場合、最初に \(k\) 回連続して起こる場合もあるでしょうし、とびとびに起こる場合もあるでしょう。その個数は \(n\) 個の中から \(k\) 個を選ぶ組み合わせの数 \({}_n \mathrm{C}_k\) と同じになります。あとは、\(E\) が \(k\) 回起こる確率 \(p^k\) と、\(E\) が \(n - k\) 回起こらない確率 \((1 - p)^{n-k}\) を掛け算すればいいわけです。
また、\(k = 0\) から \(n\) までの確率をすべて加算すると 1 になります。
\(q = 1 - p\) とすると、上記の式は「二項定理」により \((p + q)^n\) になり、その値は 1 になります。
二項分布を求めるプログラムは簡単です。Python でプログラムを作ると次のようになります。
リスト : 二項分布 # 組み合わせの数 def comb(n, r): if n == 0 or r == 0: return 1 return comb(n, r - 1) * (n - r + 1) / r # 二項分布 def binomial(n, p): t = 0.0 for k in range(n + 1): b = comb(n, k) * p ** k * (1 - p) ** (n - k) t += b print('{:d},\t{:g},\t{:g}'.format(k, b, t))
関数 binomial() は二項分布を求めます。引数 n が試行回数で、引数 p が事象 E の起こる確率です。二項分布の定義をそのままプログラムしただけなので、説明は不要でしょう。簡単な実行例として、サイコロを 5 回振ったときに 1 の目が k 回出る確率を求めます。結果は次のようになりました。
回数 確率 累積確率 -------------------------------- 0, 0.401878, 0.401878 1, 0.401878, 0.803755 2, 0.160751, 0.964506 3, 0.0321502, 0.996656 4, 0.00321502, 0.999871 5, 0.000128601, 1
また、コインを 10 回投げて表が k 回出る確率は binominal(10, 0.5) で求めることができます。
回数 確率 累積確率 ----------------------------------- 0, 0.000976563, 0.000976563 1, 0.00976563, 0.0107422 2, 0.0439453, 0.0546875 3, 0.117188, 0.171875 4, 0.205078, 0.376953 5, 0.246094, 0.623047 6, 0.205078, 0.828125 7, 0.117188, 0.945313 8, 0.0439453, 0.989258 9, 0.00976563, 0.999023 10, 0.000976563, 1
確率 p が 1/2 のとき、二項分布を図で表すと左右対称のグラフになります。