토론실
프로필 이미지
[레벨:15]오세
read 14029 vote 0 2014.09.17 (11:45:14)

빈도주의자(frequentist)와 베이즈주의자(Bayesian)


출처: http://wlan.egloos.com/viewer/10222563


1. 무작위 검사에서 당신은 질병이 있다는 판정을 받았다.
2. 이 검사법은 오진율이 5%이다.
3. 전체 인구 중 이 병에 걸릴 확률은 0.1%이다.

당신이 병에 걸렸을 확률이 얼마인가? (NoSmok에서)

상 식 밖에도 병에 걸렸을 확률은 2%도 안된다. 쉽게 설명해보면 이렇다. 이 병에 걸린 사람은 2만명 중에 0.1%, 20명이다. 오진율이 5%기 때문에 20명 중에 19명은 병에 걸렸다는 판정을 받게 된다. 반대로 2만명 중 99.9%인 19980명 중에도 오진율은 역시 5%기 때문에 999명이 병에 걸렸다는 판정을 받는다. 그러면 실제로 병에 걸렸다는 판정을 받은 사람은 999+19=1018명이고 이 중에 실제로 병에 걸린 사람은 19명 뿐이므로 병에 걸렸다는 판정을 받은 사람 중에 진짜 병에 걸린 사람은 19/1018=약1.87%에 불과하다. 일반적인 경우라면 여러 가지 증상이 나타난 후에야 검사를 받기 때문에 이렇게 되지 않겠지만 이 문제에서는 '무작위 검사'를 했다.

세상은 불확실성으로 가득 차있다. 이런 세상에서 살아남기 위해서는 확률을 다루는 능력이 필수적이다. 실제로도 인간을 포함한 거의 모든 동물들은 확률적인 상황에 능숙하게 대처한다. 하지만 사람들은 확률로 제시되는 정보를 판단하는 데 어려움을 겪는다. 확률을 숫자로 제시하기 시작한 것은 길게 잡아도 17세기부터고 널리 퍼진 것은 19세기부터다. 몸으로 겪은 확률을 다루는 방법은 오랜 진화의 과정을 통해 태어날 때부터 알고 있지만 숫자로 제시된 확률을 다루는 방법은 진화의 혜택을 받을 겨를이 없었다.

예전에 오일러의 공식을 4번에 걸쳐 설명한 적이 있는 데 이번에는 통계학의 "베이즈 정리"를 중심으로 확률과 통계에 대한 이야기를 몇 번으로 나누어 이야기해보려고 한다. 맨 처음 할 얘기는 역시 확률.

확률이라는 말은 의외로 일상에서도 널리 쓰고 초등학교 때부터 수학책에도 나오니까 상당히 익숙하지만 정확한 의미를 아는 사람은 별로 없다. 확률에는 적어도 세 가지 뜻이 있다. 첫째는 '객관적 확률'로서 전체 중에 특정한 부분의 빈도나 비율을 뜻한다. 초중고 교과과정에 소개되는 확률도 객관적 확률이다. 둘째는 '주관적 확률'로서 어떤 사건에 대한 확신이나 자신감을 뜻한다. 일상에서 보통 '확률'이라고 하면 이 뜻으로 많이 쓴다. 셋째는 객관적 확률과 똑같은 수학적 성질을 지닌 함수들을 말한다. 세번째 뜻은 일단 무시해도 좋다.

통계학은 크게 빈도주의자(frequentist)와 베이즈주의자(Bayesian), 두 진영으로 나뉜다. 어느 쪽이든 확률을 계산하는 방법은 똑같지만 확률을 해석하는 방법이 다르다. "동전 하나를 던졌을 때 앞면이 나올 확률이 50%이다"라는 진술을 빈도주의자는 "동전 하나 던지기를 수 천, 수 만 번 하면 그중에 50%는 앞면이 나오고, 50%는 뒷면이 나온다"라고 해석한다. 반면 베이즈주의자는 "동전 하나 던지기의 결과가 앞면이 나올 것이라는 확신은 50%이다"라고 해석한다. 빈도주의자는 확률을 객관적 확률로 해석하고, 베이즈주의자는 주관적 확률로 해석하는 것이다.

동전 던지기 같은 경우에는 해석의 차이가 두드러져 보이지 않지만 "신이 존재할 확률" 같은 경우에 이르면 전혀 달라진다. 베이즈주의자에게 확률은 주관적 확률이기 때문에 이 경우에도 심지어 '계산'을 할 수 있지만 빈도주의자에게는 확률 개념을 적용한다는 것도 무리일 뿐만 아니라 계산한다는 건 어불성설이다. 아주 억지로 빈도주의적인 확률 개념을 적용한다면 "수 많은 우주 중에서 신이 존재하는 우주의 비율"이라고 해석할 수 있지만 쓸모없기는 마찬가지다.

아이러니하게도 보통 사람들은 '확률'이라는 말을 베이즈주의자처럼 쓰지만, 빈도주의자처럼 설명하지 않으면 정확하게 이해하질 못한다. 이 글 맨 앞에서 들었던 예에서 "2만명 중에 20명 어쩌구"하고 설명한 것이 빈도주의적 해석이다. 이 예를 수학적으로 풀려면 '베이즈 정리'라는 것을 활용해야 하는 데 빈도주의자와 베이즈주의자의 입장 차이는 이 정리에 대한 해석에서 결정적으로 갈라진다.

베이즈 정리를 설명하려면 먼저 조건부 확률이라는 개념을 알아야 한다. 1년 중에는 맑은 날도 있는가하면 구름 낀 날도 있다. 맑은 날 중에는 비가 오는 날도 있고(여우비) 안 오는 날도 있을 것이며 구름 낀 날에도 마찬가지다. (1년 중에 비오는 날)은 (구름낀 날 중에 비오는 날)+(맑은 날 중에 비오는 날)이다. 이렇게 (구름낀 날 중에 비오는 날)이나 (맑은 날 중에 비오는 날)의 확률을 조건부 확률이라고 하고, (1년 중에 비오는 날)의 확률을 주변 확률이라고 한다.

맑은 날을 S, 구름낀 날을 C, 비오는 날을 R이라고 하면 맑은 날 중에 비오는 날의 확률은 P(R|S)라고 쓰고 1년 중에 비오는 날의 확률은 P(R)이라고 쓴다. 우리는 한국어 어순에 맞게 P(R|S)를 P(S→R)이라고 쓰자. 그러니까 P(맑은 날→비오는 날)이다. 앞의 예를 기호로 다시 정리하면 오진율이 5%라는 말은 P(병→양성)=95%, 병에 걸릴 확률이 0.1%라는 말은 P(병)=0.1%라고 고쳐 쓸 수 있다. 질문은 P(양성→병)을 묻는 것이다. P(병→양성)과 P(양성→병)은 조건과 결과가 서로 반대기 때문에 역확률이라고 한다. 베이즈 정리는 이 역확률을 구하는 공식으로 다음과 같다.

P(양성→병) = P(병)*P(병→양성)/P(양성)

앞에서 제시한 설명에 맞춰보면 P(병)이 20명이고 P(병→양성)은 그대로 95%라서 분자는 19명이다. P(양성)은 1018명이고.

이렇게 객관적인 확률의 경우에는 빈도주의자나 베이즈주의자나 해석만 다를 뿐이지 별로 큰 차이가 없다. 문제는 다른 경우다. 똑같은 근거를 가지고 여러 가지 이론이 경합을 하는 경우가 있다. 그러면 근거로부터 어느 이론이 맞는 이론일지 확률을 계산할 수 있을까? 베이즈 정리로 풀어보면 아래와 같다.

P(근거→이론) = P(이론)*P(이론→근거)/P(증거)

P(이론→근거)은 가능도 또는 우도라고 하는 데 몇 가지 조건을 충족하면 계산도 할 수 있고, 계산은 할 수 없더라도 수치로 주장하는 것도 가능하다. 토론에서 "당신의 이론은 이런 이런 현상을 설명하지 못한다"라는 식의 말이 자주 나오는 데 이 말은 "P(당신의 이론→이런 현상)이라는 가능도가 낮다"라고 바꿔말할 수 있다.

앞의 예에서 분모인 P(양성)은 P(병)*P(병→양성)인 19명과 P(병 아님)*P(병 아님→양성)인 999명을 더한 1018명이었다. 이런 식으로 P(증거)도 모든 종류의 가능한 이론에 대해서 P(이론)*P(이론→근거)을 모두 더하면 구할 수 있다.

문제는 P(이론)이다. P(이론)을 사전확률, P(근거→이론)을 사후확률이라고 부르는 데 P(이론)은 근거를 알기 전에, P(근거→이론)은 근거를 알게된 이후에 이론이 맞을 확률이기 때문이다. 베이즈주의자의 경우 뭐든지 확률을 계산할 수 있으니까 아무 문제가 없다. 그런데 빈도주의자들에게 P(이론)이란 P(신의 존재)만큼이나 확률 개념을 적용하는 게 터무니 없는 경우다.

예를 들어 요즘 말밥에 오르는 모 영화의 경우 "영화는 훌륭한 데 충무로와 평론가들이 감독이 코미디언이라고 까는 거다"라는 이론과 "영화가 형편없어서 까는 거다"라는 이론이 있다. 이런 이론이 맞을 확률이라는 건 빈도주의적으로 말해서 수 많은 평행우주들이 있고 그 각각의 우주에서 그 영화가 까이는 이유가 다 다른 데 음모를 품고 까는 우주가 그 중에 몇 %고 영화가 후져서 까는 우주가 몇 %라는 식이다. 역시나 말도 안된다.

하지만 베이즈주의자에게는 이 공식의 의미가 다르다. 어떤 사람이 처음에는 충무로의 음모 때문이라는 이론에 강한 믿음을 가지고 있었는 데 여러 가지 글을 읽어보니까 그 이론에 대한 믿음이 떨어졌을 수 있다. 베이즈주의자에게 베이즈 정리는 단순히 역확률을 계산하는 공식이 아니고 믿음의 합리적인 변화 과정을 보여주는 공식이다. 다시 말해 P(이론)에서 출발하여 근거를 바탕으로 새로운 믿음 P(근거→이론)에 도달하는 과정인 것이다. 만약 새로운 근거가 나타난다면 똑같은 공식으로 믿음을 재조정하면 된다.

빈도주의자들은 그런 과정이 말도 안된다고 생각하기 때문에 오로지 가능도 즉 P(이론→근거)만을 이론에 대한 평가 잣대로 삼는다. 그래서 근거를 더 잘 설명하는 이론을 선택한다. 재밌는 점은 근거가 많을 수록 베이즈주의자와 빈도주의자가 지지하는 이론은 점점 수렴하여 근거가 무한히 많으면 둘 다 똑같은 이론을 지지하게 된다.

예를 들어 동전을 세 번 던져서 모두 앞면만 나왔다고 하자. 빈도주의자는 동전의 앞면이 나올 확률이 50%일 경우 이런 사건이 나올 가능도는 12.5%인 반면 무조건 앞면만 나오는 동전일 경우 이런 사건이 나올 가능도가 100%이므로 이 동전은 앞면만 나오는 동전이라는 이론을 지지한다. 베이즈주의자는 원래 어떤 믿음을 가지고 있느냐에 따라 다르지만 앞면이 나올 확률이 50%라고 믿었는 데 동전 세 개가 모두 앞면인 걸보니 60%라고 믿는 식이다. 하지만 동전을 세 개가 아니라 아주 많이 던지면 결국에는 빈도주의든 베이즈주의든 똑같은 이론을 지지하게 될 것이다.

토론을 할 때 가능도를 기준으로 삼는 걸보면 인간은 빈도주의자인 것 같기도 하고 동전 던지기의 경우를 보면 베이즈주의자에 가까운 것 같기도 하다. 실제로 인간의 확률에 대한 본성이 빈도주의자인지 베이즈주의자인지는 심리학에서도 상당한 논쟁거리다.


-------------------------


구조론적으로 보자면 빈도주의는 사건의 결과에 대한 량적 접근이고 베이주주의는 사건의 전제에 대한 보다 질적인 접근이라고 볼 수 있는 것 같소. 구조론에서는 질)량이므로 고로 베이즈주의 ) 빈도주의. 베이즈주의가 보다 상위차원의 접근.


그런데 하나가 더 있지 않을까 싶소. 


구조주의(주체주의) ) 베이즈주의(주관주의) ) 빈도주의(객관주의)


비유하자면, 

빈도주의는 카지노의 호구들이 대략 80%의 확률로 돈을 잃는 것으로 관측된 것과 같고,

베이즈주의는 카지노 딜러들이 자신이 80% 확률로 돈을 딸 것을 확신하고 게임에 임하는 것과 같으며

구조주의는 카지노 주인장이 자신이 100% 이득을 보게끔 세팅하고 도박판을 차리는 것과 같소. 


빈도주의는 호구고, 베이즈주의쯤 되면 돈은 안 잃고, 구조주의쯤 되면 돈을 쓸어담게 되오. 

 


[레벨:15]오세

2014.09.17 (11:49:22)

웬지, 동렬님이 이 글을 보고 확률에 대한 좋은 글을 써주실듯 ㅎㅎㅎ

프로필 이미지 [레벨:30]id: 김동렬김동렬

2014.09.17 (12:57:26)

나는 수학을 안 좋아하기 때문에 숫자 나오면 읽지 않소. 

근데 무작위 검사 이야기는 함정이 있소. 의도적으로 속여먹기 위한 트릭이오. 

오진율이라는 단어가 함정이네요. 


1970년대 실험에 의하면 미국의 일류 병원 의사 중 80%가 95%라는 틀린 답을 했다. 정답은 "2%가 안된다"이다.(NoSmok에서)


이건 확률의 문제가 아니고 의사들의 수준 문제죠. 

의사들 입장에서는 오진율이라는 단어가 익숙할텐데 첨 들으면 착각하겠지만. 

[레벨:15]오세

2014.09.17 (13:14:35)

전송됨 : 트위터

ㅎㅎ 그럼 숫자말고 빈도주의와 베이즈주의의 차이는 구조론적으로 어떻게 볼 수 있을까요? 요즘 통계학자들 사이에서 빈도주의 대신 베이즈주의를 채택해야 한다는 이야기가 많이 나온다고 해서요. 

프로필 이미지 [레벨:30]id: 김동렬김동렬

2014.09.17 (13:24:36)

조금 읽고 말하긴 그렇지만 베이즈주의는 확률이 아니라 전략인거 같소.

확률이 아닌 것을 확률이라고 우기면 곤란하고 다른 단어를 창안해야 하오.


베이즈 주의는 확률이 아니라 의사결정방식인데

의사결정은 무조건 대칭/비대칭 밖에 없고.


즉 세상은 언제나 1/2이라는 거죠.

이게 50퍼센트 확률을 의미하는건 아니오. 


몇 퍼센트든 상관없소. 

왜냐하면 어차피 분산베팅을 하니까 


확률이 낮으면 대신 배당이 많으므로 같다는 거죠.

하여간 이건 확률이 아니고 베팅기법이오. 


베이즈 정리에 대해선 모르것고 하여간 내가 말하는건 

인간은 베팅기법을 확률로 착각하여 말실수를 한다는 것이오. 


신이 있을 확률 같은건 없소.

신이 있을 확률이 1/2이면 그건 신이 아니오.


베이즈 정리는 신이 있을 확률이 아니고 인생을 이런 방법으로 살면

그 방법이 적중하여 들어맞을 확률이오.


즉 신이 없다면 잃는 거고 있다면 따는 건데

있든 없든 정보가 미리 새나간다고 보고 내 답이 틀렸을 확률이 높을수록 


만약에 맞으면 배당이 넉넉할 것이므로 더하고 빼면 본전이라는 거요.

그런데 이런 얄팍한 계산은 구조론적으로 볼때 중간 의사결정단위만 맞소.


극한의 법칙이 적용되므로 어떤 일의 시작과 끝은 이 방법은 백전백패입니다. 

중간방법은 어차피 주머니돈이 쌈지돈이므로 대략 맞소.


즉 어떤 상황에서 무조건 개판치는 전략으로 나갔을 때 성공확률 50퍼센트라는 거죠.

예컨대 안철수든 박영선이든 누가 대표가 되든 졸라리 까는 건데


이 방법이 먹힐 확률은 50퍼센트입니다.

그런데 선거날자가 다가올수록 이 방법은 안 먹힙니다. 

[레벨:17]눈내리는 마을

2014.09.17 (14:10:10)

확율이론의 뿌리를 찾아보니 전자기장에서 scattering 에서 찾아지더군요. 사회과학으로 넘어오면서 오용되네요. Scattering 은 정확히 분배 내지 분산을 의미하구요.
[레벨:17]눈내리는 마을

2014.09.17 (14:13:29)

전 오히려 전자기장에서 시간텀을 공간텀으로 바꾸는 허수에 매력이 느껴져요. 그게 진보이론과 맞죠.
[레벨:17]눈내리는 마을

2014.09.17 (14:15:34)

수정 공간텀에서 시간텀
List of Articles
No. 제목 글쓴이 날짜 조회
공지 구조론 매월 1만원 정기 후원 회원 모집 image 29 오리 2020-06-05 134792
905 몸캠피싱의 문제 image 4 김동렬 2014-11-06 7107
904 라퐁텐의 우화 김동렬 2014-11-06 3361
903 생각의 정석 53회 오세 2014-11-02 2992
902 잘못된건 고쳐야 한다. image 1 김동렬 2014-10-30 3514
901 진화는 매우 빠르게 일어난다. 김동렬 2014-10-29 3378
900 의도를 가지고 명명해야 한다. 2 김동렬 2014-10-28 3471
899 생각의 정석 52회 1 오세 2014-10-24 3134
898 빌 게이츠의 착각 1 김동렬 2014-10-21 4464
897 닥터 슬럼프 6 김동렬 2014-10-21 3920
896 올해 북극 빙하는 줄었나 늘었나? image 김동렬 2014-10-20 9804
895 협동조합의 문제 김동렬 2014-10-19 3533
894 생각의 정석 51회 2 오세 2014-10-12 3065
893 개기월식을 찍어보세. image 4 김동렬 2014-10-09 3475
892 볼보 디자인 image 5 김동렬 2014-10-07 3995
891 박정희 세대를 나타내는 한마디. 1 눈내리는 마을 2014-10-04 3542
890 [제민포럼] 답은 하나다 image 5 ahmoo 2014-10-03 3571
889 삼국지의 비애 image 3 김동렬 2014-10-02 10660
888 진화의 원리 냥모 2014-09-30 3275
887 작가와 독자의 대결 김동렬 2014-09-23 3394
» 빈도주의 vs 베이즈주의 7 오세 2014-09-17 14029