この記事では条件付き確率やベイズの定理について解説します.
また病気の検査結果についての例題を紹介します. この例題では, 検査結果が陽性だったときに, 一定の条件のもとで, その結果が正しい確率の求め方を解説します.
条件付き確率の定義とベイズの定理
まず条件付き確率は次のように定義されていました.
事象 \(B\) が起こったときの事象 \(A\) が起こる条件付き確率 \(P(A\mid B)\) を\[
P(A\mid B)=\frac{P(A \cap B)}{P(B)}
\] で定める. \(P(A\mid B)\) は \(P_B(A)\) と書くこともある.
次のベイズの定理は, \(P(B\mid A)\) が分かっている状態で \(P(A\mid B)\) を求めたいときに有効です.
2つの事象 \(A, B\) に対して, \[
P(A \mid B) =\frac{P(A) P(B\mid A)}{P(B)}\]これをベイズの定理またはベイズ則という.
証明.
条件付き確率の定義から \[P(A\cap B ) =P(B) P(A \mid B), P(A\cap B ) =P(A) P(B \mid A). \] この2本の等式から \(P(A\cap B )\) を消去すると得られる.
注意. ベイズの定理の分母は次の形で求められることが多い:
事象 \(A_i\) (\(i=1,\ldots n\))が互いに排反で, \(\left(\bigcup_{i=1}^n A_i \right) \supset B\) のとき\[
P(B)= \sum_{i=1}^n P(A_i) P(B\mid A_i )
\]
例題1:検査結果の陽性が正しい確率
次の例題はベイズ則の応用例として有名です.
ある病気の検査において, 次のことが分かっているとする:
- 病気に罹っている人が検査を受けたとき、検査結果が陽性になる確率は98%である
- 病気に罹っていない人が検査を受けたとき、検査結果が陽性になる確率は4%である
- 母集団全体で病気に罹っている人の割合は0.3%である
ある人がこの検査を受けたところ検査結果が陽性であった。実際に病気に罹っている確率を求めよ。
考え方. 以下の表のようにまとめると,1つ目〜3つ目の条件は, それぞれ\[
\frac{a}{a+b} = \frac{98}{100}, \quad \frac{c}{c+d}=\frac{4}{100}, \quad \frac{a+b}{a+b+c+d}=\frac{3}{1000}
\]
を意味しています. 1つ目, 2つ目はそれぞれ, 真陽性率, 偽陽性率と呼ばれます.

表のように事象A, Bを定めると, 求めたい確率は \(P(A\mid B)\) ということになります. 1つ目の条件から \(P(B \mid A)\) は分かっているので, ベイズの定理を用いて計算しましょう. このとき, 分母に現れる \(P(B)\) は上の注意で説明した方法で計算できます.
解答.
病気に罹っているという事象を \(A\), 検査結果が陽性になるという事象を \(B\)とすると, 求める確率は \(B\) が起こったときの \(A\) が起こる条件付き確率 \(P(A \mid B)\) である. ベイズの定理から \begin{align}
P(A \mid B) &=\frac{P(A) P(B\mid A)}{P(B)} \\
&= \frac{P(A) P(B\mid A)}{ P(A) P(B\mid A) + P(A^c) P(B\mid A^c) }
\end{align}となる. ここで, \(A^c\) は事象 \(A\) の余事象, つまり病気に罹っていない事象を表す. \begin{align}
P(B\mid A) = \frac{98}{100}, \quad P(A)=\frac{3}{1000}, \\
P(A^c)=\frac{997}{1000}, \quad P(B\mid A^c) = \frac{96}{100}
\end{align}であるから\begin{align}
P(A \mid B) &= \frac{\frac{3}{1000} \cdot \frac{98}{100} }{\frac{3}{1000} \cdot \frac{98}{100} + \frac{997}{1000} \cdot \frac{4}{100}}\\
&= 0.0686\cdots
\end{align}
となる. したがって検査結果が陽性である人が実際に病気に罹っている確率は約6.9%である.
補足.
検査結果の性能が一見高いようにみえますが, 母集団全体における疾患の割合が低い場合には, 偽陽性である可能性が高くなります. 必ずしも検査結果を信用できるわけではないということに注意が必要です.
また機械学習などの用語では, 真陽性率のことを再現率(recall)と呼びます. 他にも「考え方」で載せた表のことを混同行列と呼んだり, この表から得られる指標で適合率や正解率などの概念があります.
例題2:グループが3つ以上の場合
上の例題は病気に罹っているかどうかの2グループに分けましたが, 3グループ以上に分けても同じように計算することができます.
ある小テストでの点数をもとに学生を3グループ A, B, Cに分けた. それぞれの人数の割合は次のようになっている.
A:0.3, B:0.5, C:0.2
同じ学生に期末試験を実施したとき, 合格率はグループ A, B, C においてそれぞれ次のようになった.
A:0.9, B:0.7, C:0.5
このとき, 試験に合格したある学生がグループCにいた確率を求めよ.
解答.
グループ A,B,C にいたという事象をA, B, Cで表し, 試験に合格するという事象をSで表す. 求める確率は \(P(C \mid S)\)であり, \begin{align}
&P(C\mid S)=\frac{P(C) P(S\mid C)}{P(S)}\\
&=\frac{P(C) P(S\mid C)}{P(A) P(S\mid A)+P(B) P(S\mid B)+P(C) P(S\mid C)}\\
&=\frac{0.2 \cdot 0.5 }{0.3 \cdot 0.9+0.5\cdot 0.7+0.2 \cdot 0.5}\\
&=0.138\cdots
\end{align}
となる. よって求める確率は約14%である.
コメント