빈도주의(Frequentism)와 베이즈주의(Baysianism)
통계학에서 확률을 해석하는 두 관점이 있다. 그 관점은 빈도주의와 베이즈주의다. 빈도주의는 연역적 추론에 해당하며 베이즈주의는 귀납적 추론에 해당한다. 이러한 빈도주의와 베이주주의는 상호보완 관계에 있다. 빈도주의는 확률을 사건의 빈도로 보며, 반대로 베이즈주의는 확률을 사건 발생에 대한 믿음/척도로 바라본다. 또 빈도주의는 모수를 정적으로 전제되어 있는 상수로 보며, 반대로 베이즈주의는 모수를 동적이며 불확실한 변수로로 본다.
빈도주의는 사건을 여러 번 관측하여 발생한 확률을 검정하므로 사건이 독립성을 띤다는 장점이 있다. 예를 들어 동전 앞/뒷면을 여러 번 던져 관찰하게 되면 앞면도 0.5 뒷면도 0.5에 수렴하게 되며 앞면이 나올 확률이 0.5, 뒷면이 나올 확률이 0.5로 고정시킨다. 반면 베이지안주의는 동전이 앞면이 나왔다는 주장의 신뢰도가 50%다, 뒷면이 나왔다는 주장의 신뢰도가 50%라고 말한다. 빈도주의의 단점은 사건이 충분히 발생하지 못해 즉, 표본(데이터)이 부족할 경우 이러한 확률의 신뢰도가 떨어진다는 점이다.
베이즈주의는 이러한 빈도주의의 단점인 만약 여러 번의 사건을 관측할 수 없는 경우에 사용할 수 있다. 예를 들어 쓰나미의 예측 문제와 같다. 쓰나미가 발생하기 위해서는 여러 변수가 있다. 우선 지진이 발생해야하고 이로 인해 단층에 어긋남이 생기고 지형이 변화함에 따라 중력장이 발생할 때 주위로 퍼져나가면서 쓰나미가 된다. 이처럼 발생횟수가 적은 사건들에는 빈도주의를 적용할 수 없다. 다만 베이즈주의를 사용해 귀납적인 추론으로 쓰나미가 발생할 확률을 구할 수 있을 뿐이다. 본 글에서는 이러한 베이즈주의의 근간이 되는 베이즈 정리에 대해 정리하고자 한다.
베이즈 정리란?
베이즈 정리는 사전 확률(prior probability)과 사후 확률(posterior probability)의 관계를 나타내는 정리다. 이 베이즈 정리는 조건부 확률을 기반으로 한다. 조건부 확률이란 사건

위 두 수식은 동일하게 베이즈 정리를 나타낸 것으로 변수명만 달리했다. 그 이유는 이해를 조금 더 쉽게 돕기 위함으로 왼쪽은 조건부 확률로부터 유도될 때 흔히 사용하고, 오른쪽은 베이즈 정리가 결국 모수(
베이즈 정리 유도
베이즈 정리를 유도하는 방법은 간단하다. 베이즈 정리 유도는 아래 식이 성립됨을 증명하는 것이다.
증명을 위해 조건부 확률 두 개를 구해준 다음 분모를 이항하고 양변을 나눠주면 된다. 앞서 조건부 확률은
이 때,
베이즈 정리 예시: 스팸 메일 확률 예측
스팸 메일 필터는 특정 단어 포함 여부를 기준으로 스팸 여부를 판단한다. 어떤 한 회사에 수신되는 메일 중 30%가 스팸메일이고 70%가 정상메일이다. 또 스팸메일 내용엔 A란 특정 단어가 포함될 확률이 40%고 정상 메일은 10%다. 이 때 A라는 단어가 보일 때 이 메일이 스팸메일일 확률은 얼마인가?
이렇게 사전 정보를 전부 구했으니 A라는 단어가 보일 때 스팸메일일 확률인
즉 사전 확률인, A라는 단어가 보일 때 해당 메일이 스팸메일일 확률이 0.6315가 된다.
Reference
[1] https://ko.wikipedia.org/wiki/베이즈_추론
[2] https://brunch.co.kr/@aischool/3
'Artificial Intelligence > 확률-통계학' 카테고리의 다른 글
[확률/통계] 적률추정법 이해하기 (Method of Moments Estimator) (0) | 2022.10.23 |
---|---|
[확률/통계] 가설 검정 이해하기 (귀무가설, 대립가설) (0) | 2022.10.21 |
[확률/통계] 누적분포함수 (CDF, Cumulative Distribution Function) (0) | 2022.10.10 |
[확률/통계] 확률분포 총 정리 (이산확률분포, 연속확률분포) (0) | 2022.09.29 |
[확률/통계] 모수 추정과 추정량, 추정치 (1) | 2022.09.28 |