토론실 - 확률과 통계의 본질

확률과 통계의 본질

이금재.

read 3004 vote 0 2019.09.25 (20:29:43)

https://gujoron.com/xe/1127130

확률과 통계란 무엇인가?

확률과 통계의 구분은 시행횟수의 차이 정도에 있으므로 큰 의미는 없다. 과학의 발전은 작은 데서 시작하여 큰 곳으로 흐른다. 확률로 시작했지만 결국은 통계로 수렴되는 것이다.

통계의 본질은 모집단의 지정이다. 어떤 모집단을 가정하고 과연 그게 객관적으로 타당하냐를 따지는게 정규분포와 유의성검정이다. 문제는 이러한 검정 방법이 결과론적이라는데 있다. 우리가 바라보는 어떤 집단은 원인이 아니다. 그것은 결과이다.

가령 한국 남성의 평균 키가 증가했을 것이라고 주장을 해보자. 이를 통계학적으로 검정하려면 표본을 추출하여 과거와 현재의 변화를 측정하면 된다. 그런데 과연 이렇게 검정하면 그것은 타당한가? 생각해보자. 한국 남성의 키가 커졌다면 이유가 있을 것이다. 식단의 변화라던지, 질병감소라던지 뭐라도 있을 것이다.

우리가 관심을 가져야 할 것은 단순히 키의 변화만이 아니라 그 변화를 추동시킨 원인이다. 그래야 하나의 이론이 완성될 수 있다. 하지만 통계학은 원인을 측정하는 장치가 없고, 다만 결과측에서 집단이 정규분포를 그린다는 것을 이용하여 그것을 측정하려고 한다. 그래서 말이 많다. 이렇게 측정하면 사기 치기 딱 좋기 때문이다.

http://www.snunews.com/news/articleView.html?idxno=16864

(물론 이러한 표준통계학의 한계는 일정하게 베이즈통계학이 보완하고 있다. 원인과 결과의 연결에 대한 기술을 하고 있다. 그리고 원인과 결과, 각 부분의 총합은 1이 되도록 하여 확률의 기본 원칙을 유지한다. 문제는 여전히 표준통계학이 학계의 주류라는데 있다.)

우리는 진술이 있기 이전에 전제가 있다는 것을 안다. 논리학적으로 보자면, 통계의 모집단은 진술의 모집단이다. 확률에는 대표값이라는 게 있다. 평균값, 중간값이니 하는 게 이런 거다. 근데 번잡하다. 어떤 경우엔 통하고 다른 경우엔 통하지 않는다. 그러므로 기레기가 통계로 사기를 친다. 모집단이나 전제를 슬쩍 바꿔버린다.

이제 정규분포를 보자. 정규분포의 핵심은 그것이 하나의 집단이 가진 내재적 특성을 말해준다는 데 있다. 원래 정규분포는 라플라스가 별을 관측함에 있어 발생하는 오차율에 관해 연구하다가 나온 것이었다. 즉 “정규분포 = 오차분포“라고 해도 말이 된다. 물론 이때 외부 영향에 의한 오차는 배제한다. 이상적인 환경이라고 가정하더라도 구조의 내적속성에 의해 오차는 일정하게 발생한다는게 정규분포의 고유 속성이다.

한 반에 있는 학생의 키를 조사하면 정규분포를 근사한다. 물론 모집단을 더 크게 하면 할수록 더욱 정교하게 정규분포를 그리게 된다. 키뿐만이 아니다. 우리가 논리적으로 의미있는 어떤 집단을 특정하면 반드시 정규분포를 그리게 되어있다. 오죽하면 세상은 정규분포라고 하겠는가? 모든 데이터는 정규분포를 그린다.

참고로 18대 대선에서 나왔던 정규분포는 조작에 대한 근거였다. 이는 데이터를 정규분포 모양으로 인위적으로 배열했다는 게 아니라, 미분류 표가 조작됐기 때문에 정규분포를 그린다는 말이었다. 근데 사실 정규분포라는 말은 굳이 할 필요가 없다. 왜냐하면 모든 데이터는 그 근거가 뭐건 상관없이 규정만 되어있다면, 모수를 키울때 정규분포를 그리기 때문이다. 이것 때문에 당시에 상당히 혼란이 있었다. 사람들의 관심은 이해하기 어려운 정규분포의 속성에 쏠렸고, 그 결과 엉뚱한 데서 논쟁이 벌어졌기 때문이다.

오히려 우리가 포커스를 집중해야 할 곳은 그러한 결과를 만든 원인이다. 이는 투표용지의 박근혜, 문재인, 이정희..라는 배치다. 도장 찍는 곳이 저 순서대로 붙어있기 때문에 미분류표는 당연히 박근혜 쪽이 대강 50% 정도 많아진다고 할 수 있다(이는 몬테카를로 알고리즘과 비슷한 개념이다). 미분류표는 후보를 가르는 경계선에 도장이 걸치면 발생한다.

그리고 각 이름 사이의 경계에 도장이 걸치면 50%의 확률로 위와 아래의 후보가 미분류표를 나눠가진다. 어느 쪽으로 걸치건 미분류로 나오기 때문이다. 그런데 박근혜 위에는 아무도 없으므로 100의 비율로 미분류표를 가져간다. 그러므로 박근혜 쪽은 총 합이 150(100+50)이 되고, 문재인과 이정희는 각각 100(50+50)이 되어 k값은 1.5 : 1에 근접한 결과가 나오는 것이다.(가장 밑에 있는 김순자도 150을 가져간다.)

투표용지.jpg

참고 블로그1 : 왜 k값이 1.5 : 1인지에 대한 내용은 없음.

https://newstapa.org/article/waaaZ

참고블로그2 : k값에 대한 설명이 있음

http://www.nobodylab.net/blog/wp/?p=382

이때의 혼란은 우리에게 시사점을 준다. 정규분포는 결과항의 문제이지 원인항의 문제가 아니라는 것이다. 우리가 의심해야 할 것은 원인항이다. 당시에 통계학과 교수까지 나서서 김어준의 음모론을 도왔었는데, 이런 사태가 발생한 것은 우리가 결과만을 바라보기 때문이다.

한편 확률은 과연 우연에 관한 수학인가? 전혀 아니다. 확률은 변환에 관한 학문이다. 즉 확률은 그 자체가 하나의 원인과 결과를 잇는 함수라고 할 수 있다. 확률을 정립시킨 라플라스는 결정론자였다. 그는 확률을 random이라고 했지, chance우연이라고 하지 않았다. 그러나 일반인이 이해하는 확률은 우연이다. 여기서 확률에 대한 숱한 오해가 발생한다.

어떤 경우의 수(부분)는 우연이 아니다. 그것은 필연이다. 왜냐하면 그 부분은 집단에 속하며, 해당 집단의 외부에 다른 원인과 밸런스를 이루어 그 집단의 경계를 분명하게 규정하기 때문이다. 당신이 한국인이라면 한국인의 통계를 벗어날 수 없다. 자연인은 벗어나는 거 아니냐고 할 수 있지만, 거시적으로 보면 그 자연인도 일정한 비율로 나타난다.

우리가 바라보는 곳이 집단이 대응하고 있는 바깥원인이 아니라, 내부의 확률이기 때문에 인간들이 확률을 오해하는 것이다. 운영자의 관점이 아니라 선수의 관점이기 때문에 우연에 의미를 둔다. 왜냐하면 당신은 운영자의 의도를 모르기 때문이다. 하지만 자세히 보면 보인다. 도박판의 운영자는 확률을 조정하여 호구를 적당하게 붙잡아 두는 것이다.

원래 확률과 통계학이 급격하게 발전했던 것은 국가의 개념이 발생하던 프랑스와 관련이 있다. 이는 우연이 아니다. 나폴레옹이 유럽을 침공하자 사람들의 시야가 갑자기 넓어진 것이다. 사람들이 여러나라를 여행하므로 개별적인 인간보다는 집단을 대표하는 숫자, 즉 통계에 관심을 가지는 게 당연하다.

물론 나폴레옹 시기 전후로 프랑스의 수학이 거의 모든 면에서 급격히 발전하기는 했다. 이는 통계학을 떠나서, 수학 자체의 속성이 대규모 수와 관련이 있음을 암시한다. 작은 동네에서 사는 사람들이 수학이 필요할 리 없잖은가. 라플라스도 그 시기의 사람이었다.

현대 수학의 정점은 집합론이라고 할 수 있다. 그런데 집합론의 핵심 문제는 그 집합을 지정하는 과정을 기술하지 않는다는데 있다. 통계학이 집합론의 시각에서 발전한 이유는 현대 수학의 원론이 집합론이기 때문이다. 어떤 집합이 있다는 것은 결론일 뿐이다.

그 집합이 왜 그렇게 지정되었는지를 기술하는 것은 구조론이다. 집단으로 집단을 규정한다는 게 어째 좀 이상하지 않은가? 그래서 속성을 들고 있지만 그것은 해당 집단과 다른 집단을 구분하는 원론적인 방법론이 될 수 없다. 속성은 언제나 상대적이기 때문이다. 외부 환경의 변화에 대응할 수 없는 비절대적인 규정이다.

이러한 모순을 해결하고자 러셀, 괴델이 불완전성 정리를 들고 나왔지만, 여전히 부족하다. 그들은 1회의 사건을 분명하게 규정하지 못하고 있기 때문이다. 물론 그래서 비트겐슈타인이 러셀을 비웃긴 했다. 하지만 그도 게임이라는 내부를 규정했을뿐

여전히 바깥을 쳐다보진 못하였다.

구조론은 내부가 아닌 그것이 대응하는 외부를 보고 다시 내부를 보라고 한다. 관점의 상승이다. 이것이 미래에 확률과 통계학이 발전할 방향이다. 결과가 아닌 원인을 보라.

Drop here!

투표용지.jpg [File Size:68.7KB/Download:0]

프린트

2019.09.26 (02:36:14)

앞으로 투표용지는 파이 차트 모양으로 해야겠습니다.

답글

2019.09.28 (06:35:41)

좋네요.

답글

List of Articles

No.	제목	글쓴이	날짜	조회
공지	구조론 매월 1만원 정기 후원 회원 모집 29	오리	2020-06-05	80219
1633	생명로드51 - 후원을 희망합니다	수원나그네	2019-12-20	1259
1632	생명로드50- 지구촌 '마더'를 만드는 길	수원나그네	2019-12-10	1007
1631	소실점의 장악	systema	2019-12-05	1476
1630	생명로드49 - 동해안 순례 사진과 성명서	수원나그네	2019-12-03	1121
1629	시나리오 쪼개보기. 1	systema	2019-11-16	1494
1628	생명로드48- 홍콩을 회상하며 1	수원나그네	2019-11-16	1176
1627	구조론으로 생각하려면 2	챠우	2019-11-14	1394
1626	사건을 반영하는 언어	systema	2019-11-11	1266
1625	결맞음을 끌어내기	systema	2019-11-03	1236
1624	구조적인 교육 2	김동렬	2019-11-02	2038
1623	생명로드47- 동해안 걷기 11월말 1	수원나그네	2019-11-02	1230
1622	대수 기하 구조 1	systema	2019-10-29	1396
1621	사건의 눈	systema	2019-10-28	1307
1620	타밀어와 한국어 1	김동렬	2019-10-16	3657
1619	생명로드46- "현장에 해답 있다" 원전안전기술문제 아카데미 개설 1	수원나그네	2019-10-03	1145
»	확률과 통계의 본질 2	이금재.	2019-09-25	3004
1617	양자컴퓨터의 본질과 확률의 오해 (수정 보완)	챠우	2019-09-24	1769
1616	구조에 대한 자본시장의 비유 하나 3	현강	2019-09-16	1604
1615	생명로드45- 원전안전기술문제 아카데미	수원나그네	2019-09-11	1611
1614	꿈꾸는 인류 2	챠우	2019-09-11	1357

쓰기

처음 22 23 24 25 26 27 28 29 30 31 끝