https://ko.m.wikipedia.org/wiki/%ED%81%B0_%EC%88%98%EC%9D%98_%EB%B2%95%EC%B9%99#:~:text=%ED%81%B0%20%EC%88%98%EC%9D%98%20%EB%B2%95%EC%B9%99(%ED%81%B0,%EB%B6%84%EC%95%BC%EC%9D%98%20%EA%B8%B0%EB%B3%B8%20%EA%B0%9C%EB%85%90%EC%9D%B4%EB%8B%A4.
위키피디아에서 큰 수의 법칙 정의를 보면 꽤나 복잡하고 직관적으로 와닿지 않는다. 벌써 수식이 잔뜩 들어간 걸 보면 여러 가지 전제들을 깔고 들어가는 듯 하다. 이에 큰 수의 법칙이 갖는 의의를 최대한 직관적으로 짚어보려고 한다.
일단 모집단이 무슨 말일까? 모집단은 내부 비율을 갖는다. 다시말하면 모집단은 내부비율 혹은 모수(parameter)를 기준으로 내외부가 구분되는 상태를 말한다고 할 수 있겠다. 그럼 이제 다시 내부비율에 대해 따져봐야겠다.
모집단의 실제 데이터 분포값이 곧 내부비율이라면 내부비율은 고정된 값일까? 구조론적으로는 정은 두 동 사이에 성립한다고 한다. 내부비율이라는 결과값보다 내부비율이 구해지는 과정에 주목할 필요가 있다.
어떠한 모집단의 내부비율을 노가다로 구하려고 해보자. 동일한 모집단에서 데이터를 랜덤으로 추출해서 yes인 비율을 구하는 식이다. 시행을 거듭할수록 비율이 30% 65% 40%를 거쳐 좀 더 하다가 시행을 중지했을 때 표본의 누적 통계치가 55%였다.
해당 사건의 모수에 대한 최선의 추정치는 55%인가? 그렇다고 말하면 좀 딱딱하다. 비율은 변화와 변화 사이를 매개하는 정적인 것이지만 이건 너무 딱딱하다. 만약 위 시행이 동전던지기였다면? 충분히 가능한 이야기다.
안 그래도 대략 50%를 기준으로 누적 비율이 점점 가까워지고 있으니 말이다. 이런 힌트만 가지고서 이미 얻은 55%라는 통계치보다 더 낮은 값을 추론하는 것이 과연 얼토당치 않을까? 애초에 저 55%가 모수에 가장 가깝다는 게 수학에서 큰 수의 법칙인 것도 아니다.
이쯤에서 이름을 살짝 바꾸어 새롭게 큰 수의 원리라는 걸 말해보고자 한다. 어차피 모든 원리는 하나의 방식이다. 두 변화와 그 사이를 매개하는 변하지 않음으로 구성된다. 일단 하나의 변화는 표본의 데이터 누적이다.
데이터의 수는 오로지 증대될수만 있으니 일방향적 변화이다. 그리고 그에따른 통계치와 모수와의 차이는 일방적으로 좁혀져야 한다. 고정되는 건 표본을 추출하는 모집단이다. 그런데 만약 모수와의 차이가 오히려 벌어진다면?
큰 수의 원리에 따라 둘이 변화할 때 그 사이 매개비율은 점차 어느 값에 수렴해야 한다. 일단 표본의 덩치가 커지는 건 부인할 수 없다. 그렇다면 남은 건 하나다. 새롭게 추가된 표본은 다른 모집단에서 추출된 것이다.
예컨대 위 시행에 이어 총 100회 시행했을 시 yes가 50번 나왔는데 이어서 50회를 추가해서 얻은 yes가 58회라면? 잘 수렴하는 듯 하던 내부비율이 갑자기 58/150≒37%로 변한다. 이러면 모수를 몇으로 추정하던지 간에 이상하다.
표본이 커짐에 따라 얻어지는 통계치들과의 차이가 줄어들지 않기 때문이다. 모수를 40%으로 추정하더라도 30 65 40 55 50 38과의 차이는 10 25 0 15 10 2 로서 대충 잡아도 선 모양이 나오질 않는다. 그렇다면 추가된 50회의 시행은 모집단이 틀렸다고 해야 말이된다.
사실 추가된 8의 yes는 주사위를 50번 던졌을 때 1눈이 나오는 yes였던 것이다. 이를 두고 애초에 동전 앞면yes와 주사위 1눈yes를 구분하지 않은 잘못이므로 일반적으로 벌어지지 않을 일이라고 치부하기 넘어가도 될까?
이게 중요한 이유를 예를 들어보겠다. 만약 고양이 사진을 학습시키는 데에 작정하고 개같이 분장시켜 놓은 사진에 고대로 고양이 라벨을 붙여서 학습 데이터로서 제공한다면? 제대로 학습한 인공지능이라면 개로 분장한 고양이 사진을 보고서 개라고 판단하는 게 맞다.
외관 뿐만 아니라 움직임이나 울음소리도 조작한다면 더더욱 그렇다. 새로운 측정 데이터는 기존 표본에 더해졌을 시 큰 수의 원리를 만족시켜야 한다. 큰 수의 원리가 만족하는 방향으로 통계치가 수렴해야 한다.
학습의 유의미함이 복원되려면 잘못된 정보는 추가되지 말고 배제되어야 한다. 새로운 정보는 큰 수의 원리를 만족 시킬것이냐 여부에 따라 동일한 모집단에 속할수도 아닐수도 있는 중첩상태이다. 새로운 정보가 기존 계와 만나는 게 우선이다.
만나면 중첩이 해제되며 큰 수의 원리를 만족시키는 쪽으로 판정난다. 만약 모집단이 다르다고 판정되면 기존 표본이라는 계는 신규 정보를 튕겨낸다. 모집단이 같다고 판정되면 신규 정보를 받아들인다.
신규 정보를 포함하는 만큼 표본의 크기가 더 커진다. 표본의 통계치 추이로부터 추론되는 모집단의 모수는 좀 더 정확해진다. 동전이나 주사위는 우리가 설계했으니 모수를 정확히 알지만 인생은 실전이다.
미시세계는 마치 찰흙 주사위를 던지는 것과 같아서 던질 때 마다 주사위가 변한다. 애초에 표본을 추출할 때 동일한 모집단을 설정하는 것 자체가 힘들다. 큰 수의 원리를 만족하는 쪽으로 표본을 확장시켜야하며 그에따라 표본의 통계치가 변화한다.
외력에 맞서 계의 축이 이동하는 것이다. 지켜야 할 룰은 원리이다. 모든 원리는 하나의 이치이다. 보편성을 만족시키는 쪽으로 과학이나 수학은 서로 다른 모집단을 분류해왔다. 세상을 이루는 것들이 동전이나 주사위 따위라는 식이다.
학자들은 어찌됐든 보편성을 만족시켜야 하며 그러려면 세상을 이루는 통계치들이 서로 다른 모집단을 가져야 하며 그 결과가 겁나 많은 종류의 힘들과 입자들이다. 연역을 한답시고 설계도를 상상하고 거듭 수정해서 제출한다.
그들이 만물의 근거로서 내미는 설계도에 주목할 것이 아니라 설계도를 그런 식으로 추론할 수 밖에 없었던 전후사정을 살펴줘야 한다. 어차피 또다시 금방 바뀔 설계도라면 바꾸어야 하는 근거가 설계도 자체보다 훨씬 중요하다. 최종 근거는 보편성이며 엔트로피이다.
이를 만족하도록 분류하다보면 분류체계는 보다 커지고 보다 정확해진다. 신규 관측치라는 외력을 튕겨내기도 흡수하기도 하며 학문이라는 계가 유지 및 성장하는 것이다. 또다시 거대한 정보에 맞서 학문이 복원력을 발휘하려고 축을 크게 움직이니 그 위치의 이름은 구조론이다.
제가 갖다 붙인 큰 수의 원리를 짧게 말하자면 정보가 집적될수록 그 정확성이 높아진다는 것입니다. 만약 새로운 샘플 데이터가 표본에 추가될수록 표본의 측정치가 이전 흐름때보다 더 크게 변화한다면 정확성이 떨어지는 것이죠. 그러므로 해당 샘플 데이터를 표본에 추가하면 안됩니다. 모집단이 기존의 표본과 다르다고 해석해야 하죠.
정확하다는 건 정보의 집적도가 높다는 것이고 이는 계의 밀도와 닿겠습니다. 계의 밀도가 높아질수록 같은 정도의 외력의 흐름에 대한 축의 이동폭이 작아진다는 것이죠. 만약 모집단이 전혀 다른 두 표본을 퉁 쳐서 같은 계로 치고 통계치(축의 위치) 계산을 진행하면? 축의 진동폭이 커지는 결과가 나올 것입니다.
하나의 정보는 하나의 통계치입니다. 모든 정보는 각자의 내부 균일성을 가지며 이는 각자의 표본으로 연결되어 있다는 뜻입니다. 두 정보가 만난다는 건 두 표본이 만난다는 것입니다. 모든 표본들은 끊임없이 다른 표본들과 만납니다. 만나지 않는 표본은 존재하지 않는 것과 마찬가지입니다.
혹은 다른 표본과 상호작용하지 않는 동안은 시간이 흐르지 않다거나 시간성이 작동하지 않는다고 표현할 수 있겠습니다. 서로 다른 표본이 상호작용할 때 마다 표본은 서로 모집단이 같은지 아닌지 판정합니다. 서로 합쳐질 수 있는지가 판정되는 것입니다. 만약 표본의 통계치가 변화하지 않는다면 축이 이동하지 않았다면 두 표본은 만나지 못하고 서로 통과한 셈입니다.
축이 움직였다면 두 표본은 합쳐진 것이며 서로의 입장에서 이전 상호작용 시 움직인 축의 폭보다 덜 움직여야 합니다. 합쳐지는 건 계가 성장하는 건 정보의 집적도가 더 높아지는 것이며 더 정확해지는 것이기 때문입니다. 정확해진다는 기준은 어떠한 통계치가 어떠한 기준에 점점 더 가까워진다는 것입니다.
표본이 다른 표본과 만나는데 통계치(축)의 변화가 없으면 만나지 못한 거.
표본이 다른 표본과 만나는데 통계치(축)의 변화가 있으면 두 표본이 합쳐진 것이며 그 진폭은 이전에 다른 표본과 만났을 시 보였던 진폭보다 무조건 작아야 함.
정보의 집적도가 높아질수록 또다른 정보와 만나 상호작용 할 시, 그 정보를 대표하는 통계치의 진폭이 줄어드므로 무거워진다거나 밀도가 높아진다거나 질량이 커진다거나 정보가 정확해진다거나 에너지가 커진다거나로 표현할 수 있겠음.