토론실 - 데이터 무용론과 3중구조

데이터 무용론과 3중구조

이금재.

read 10697 vote 0 2021.08.25 (09:47:52)

https://gujoron.com/xe/1331748

1. 구조론에서 기술 바깥의 문제를 말씀하셨으니 나는 기술의 관점에서 한마디 해보고자 한다.

내가 테슬라자동차의 방법도 먹힐 수 있다는 말을 한 것은 테슬라자동차가 하는 방법이 과거 에디슨의 방법과 유사하기 때문. 얘네들은 그냥 노가다로 때우려고 하는 거고. 반대로 구글의 웨이모는 테슬라와는 다른 방법으로 접근하고 있다. 나름 원칙주의로 접근하는 게 구글의 웨이모. 기술의 구글이 나름 가오가 있다는 거지.

https://youtu.be/20wE2yRRTuw?t=627

구글은 산하 조직으로 웨이모(자율주행)와 딥마인드(알파고의)를 가지고 있는데, 얘네들이 테슬라자동차가 하는 정도의 기술은 이미 2015년 전후로 다 만들었지만, 워낙에 원칙주의자라 중간기술은 없다는 마인드로 완벽해질 때까지 자율주행차를 출시하지 않고 기술 개발만 열심히 하고 있었다고.

즉 테슬라자동차는 덜 만들어진 기술을 가지고 일단 시장에 내놓고 소비자와 상호작용하면서 발전하는 전략을, 반대로 구글은 완벽해질 때까지는 상용화 하지 않겠다는 전략을 사용하는 것으로 이해할 수 있는데, 이게 테슬라자동차가 에디슨의 방법을 쓰는 게 아이러니. 사람 테슬라는 노가다를 하는 사람 에디슨을 싫어했다잖아.

나는 현재의 테슬라와 구글이 양립하는 것이 딱 좋은 구도라고 보는데, 이게 과거의 테슬라와 에디슨의 관계를 떠올리기 때문. 둘이 경쟁하다보니 이것저것 좋은 게 많이 만들어진 게 사실. 물론 이왕이면 에디슨의 포지션이 맞대응을 강조하는 구조론적인 전략에 부합하기는 하지. 테슬라는 너무 샌님이라 결국 아무것도 하지 못한다고.

2. 코로나가 드러낸 인공지능 한계..'쓸만한 데이터'가 없다

https://news.v.daum.net/v/20210823060046153

자, 그럼 현재 테슬라가 하는 데이터 노가다는 과연 훌륭한가? 이게 원리적으로 문제가 많다. 이전에 쓴 여러 글에서 밝혔듯이 현재의 머신러닝은 문제가 완전하게 규정된 상태에서만 정상적인 학습이 가능한 구조인데, 무슨 말이냐면 현재 머신러닝의 기술은 하나의 단계(함수)만 정의 및 구현된 것으로, 입력되는 것이라면 가리지 않고 무조건 학습해버리는 치명적인 문제를 가지고 있다는 말이다. 링크의 기사는 이런 현재의 기술적 한계를 지적하는 것으로, 이는 머신러닝을 연구하는 사람들 사이에서는 이미 잘 알려진 한계이다.

예전에 마이크로소프트에서 테이라는 챗봇을 만든 적이 있었는데, 출시된지 하루만에 접었던 이유가 바로 이것 때문. 서양일베충들이 대거 몰려와서 인종차별이나 나치 용어를 마구 가르쳐서, 나중에는 챗봇이 일베충 봇이 되어버린 것. 마소는 깜짝 놀라서 하루만에 베타 서비스 종료.

그렇다고 온실에서만 키울 수가 있나? 세상이 아마존인데? 테슬라자동차의 기술기반도 마찬가지로 이 문제를 공유하므로 그들이 데이터를 경쟁사에 비해서 많이 가졌다지만, 실제로 그 데이터 들을 모두 신뢰할 수 없는 문제가 유효하므로, 결과적으로 그들이 가진 데이터가 많아도 많은 게 아냐. 그래서 구글 웨이모는 택시 서비스를 통해서 인간 테스트 드라이버가 엄선하여 생산한 데이터만 가지고 학습하려는 전략을 사용하는 것으로 보인다.

https://youtu.be/osFij8iI2PI?t=732

오도가도 못하는 웨이모 택시에 인간 투입 장면

3. 그럼 머신러닝이 스스로 데이터를 골라 먹게 하려면 어떻게 해야 하나? 자세히 설명하려면 대강만 말하자면, 이전에 말했던 것과 같이 문제를 규정하는 단계가 추가되어야 한다. 즉 현재의 머신러닝은 하나의 함수만 존재(1중적)하므로 이를 2중적, 나아가서는 3중적으로 만들어야 한다는 것이다. 이게 어떤 분에게는 낯설겠지만 사실은 구조론에서 늘 말하던 바로 그것이다. 역설의 역설의 역설.. 이라는 말씀.

쉽게 말해 구조 위에 구조가 얹혀있는 걸 구현해야 한다는 말이다. 현재의 머신러닝은 마치 부모의 말을 맹목적으로 따르는 무맥락의 파편적인 지식을 습득하는 범생이와 같다. 게임의 구조가 구현되지 않았기 때문이다. 운전애 무슨 게임이냐고 반문하겠지만 개념적으로 보면 운전자는 늘 어떤 경쟁을 하고 있다. 다만 그 경쟁이 우리가 흔히 말하는 표면적인 경쟁은 아니다. 경쟁이라는 말이 이해가 되지 않는다면 대신에 대칭이라는 말을 써도 좋다.

물론 알파고와 같이 바둑과 같은 특수한 상황에서는 원치 않아도 자연스럽게 게임이 구현되지만, 알파고의 기반 기술인 강화학습이 사실은 게임의 구조를 학습하는 것이 아니라 지도학습의 한 장르일 뿐이라, 누군가가 인위적으로 게임을 정의하지 않으면 알파고도 그저 평범한 머신러닝과 다를게 없다는 게 치명적. 현재의 강화학습은 잘 쳐줘봐야 2단계 기술이라고.

그럼 게임을 정의하려면? 3단계 구조가 되어야 한다. 정리하자면 현재의 머신러닝은 1단계만 있는데, 여기에 게임의 구조를 만들어 경쟁구도를 가지는 2단계로 확장하고, 다시 스스로 게임을 규정하는 3단계까지 구현이 되어야, 비로소 지능이라고 할 만한 것이 나온다는 것. 일반적인 강화학습에서 데이터를 스스로 생산한다고 하는 게 강화학습이 구조론에서 말하는 2단계 학습이기 때문인데, 사실 여전히 심판이 존재하는 상황에서의 데이터 생산이라 여전히 완전하지 않으며

제대로 만드려면 계를 직접 정의할 수 있는 3단계 까지 구현되어야 한다. 이 타이밍에서 시스템이라는 표현도 쓸 수 있게 되고. 즉 머신러닝이 인간 운전자와 동등한 위치에서 직접 상호작용하며 피드백 받고 개선 진화하는 단계가 되는 거. 이쯤 되면 인공지능이라는 타이틀이 어울려. 여기까지 가지 않으면 머신러닝은 부모에 딸린 아이와 같은, 불완전한 존재로 언제나 부모가 따라붙어야 하는 한계를 가지는 거고. 근데 사실 이게 일정 범위에서는 발전 속도가 빠른 것도 사실.

태어나자마자 정글에 던져져 바닥부터 저혼자 배우는 것보다야 캥거루 마냥 일정기간 양육을 통해 경쟁력을 갖추는 포유류의 전략이라고 볼 수도 있다는 거지. 근데 포유류는 독립할 수 있는 가능성을 구조적으로 가지지만 현재의 머신러닝은 그런 가능성이 전혀 없단 게 차이. 유전알고리즘같은 걸로 접근할 수도 있지 않냐고 하지만 현재 구현된 유전 알고리즘 또한 2단계 기술이라 문제 정의 부분이 빠져있어. 이렇게 보면 이걸 유전알고리즘라고 부르는 게 이상한 거.

문제는 여기서부터인데, 현재 원자론적 관점에 파뭍힌 게 서양학문이라 연구자들이 3단계 기술은 꿈도 못 꾼다는 것. 아예 생각도 못하지. 뭐 어찌저찌해서 2단계까지 비슷하게 간 것도 있기는 한데, 이 글에서 설명할 수는 없지만(너무 길어) GAN이나 강화학습이 있지만 이게 구조론에서 말하는 그 2단계와는 묘하게 결이 달라서, 순전히 원자론적 관점, 즉 귀납적인 관점으로 구축된 것이라 특수한 분야에서만 사용되고 범용적으로는 사용이 잘 안 돼.

컴공의 관점에서 보면 타입이 있고 함수와 데이터가 있는데, 함수가 전제되고 데이터를 다루는 게 1단계, 타입이 전제되고 함수를 만지는 게 2단계, 계가 전제되고 타입을 만지는 게 3단계 정도 되겠다. 정확한 비유는 아니니 참고만 하시고.

근데 사실은 이게 어려운 게 아니라, 열심히 하면 의외로 쉽게 만들어질 수도 있다는 게 구조론적인 희망고문. 대강 어떻게 하면 좋을지 보이잖아. 그래서 더 속이 타지. 근데 이렇게 생물의 구조와 동일하게 만드는 것이 과연 원가 절감으로 이어질 지는 미지수. 더 강력해질 수 있다는 것은 분명하지만 원가절감은 글쎄. 부모가 자식에게 지름길을 선별하여 알려주는 테슬라가 원가절감에서는 단기전에서는 우위를 가지겠지만 장기적으로 보면 구조론적으로 만드는 게 이긴다는 것은 분명해.

근데 구조론 창시자 머리를 보라고 백발이 무성하잖아. 인간도 쉽지 않은 영역이 3단계라고. 대부분의 인간은 잘해봐야 2단계까지만 머리를 쓴다고. 그래서 내가 이 방법이 장기적이라고 말하는 거. 어떤 사람이 3단계로 머리를 쓴다는 것은 1단계와 2단계로 머리를 쓰는 사람의 거대한 수가 받쳐주기 때문이라고. 그만큼 어마무시한 양의 시뮬레이션을 컴퓨터로 거쳐야 3단계가 가능한 거. 어쩌면 70억 머신러닝을 만들어야 하는 수가 있다고. 그래야 한 명의 3단계를 쓰는 인간이 나올 수도 있다고.

물론 머신러닝이 완전히 바닥부터 시작하는 것은 아니지. 인류가 이미 언어화를 한 것 위에서 학습을 하면 인류보다는 훨 빠르겠지. 1만년씩 걸리지는 않는다는 거. 그럼 구조론적으로 완벽하게 만들고 나서야 출시하는 게 맞느냐? 꼭 그런 건 아니지. 하지만 누군가는 그 꿈을 꾸어야해. 꿈은 크게 꾸고 시작은 작게 하는 거지. 일론이 삽질을 해도 인정받는 부분이 이것.

Drop here!

프린트

List of Articles

No.	제목	글쓴이	날짜	조회
공지	구조론 매월 1만원 정기 후원 회원 모집 29	오리	2020-06-05	228259
1861	부동산은 대끼리일까	레인3	2021-09-24	6220
1860	아인슈타인의 시계	이금재.	2021-09-24	7030
1859	왜 공격이 불리한가?	이금재.	2021-09-23	6199
1858	개인에게만 책임 물어서는 아동학대 문제해결 안된다. 1	이상우	2021-09-22	6621
1857	질문이 틀렸어 - 광속 4	이금재.	2021-09-22	6187
1856	안드로이드용 구조론 앱을 플레이스토어에서 다운 받을 수 있습니다. 5	오리	2021-09-18	6088
1855	아이폰용 구조론앱을 앱스토어에서 다운 받을 수 있습니다. 7	오리	2021-09-18	6747
1854	나는 추종자가 아니다 3	이금재.	2021-09-14	6589
1853	출사표 12	바람21	2021-09-14	6557
1852	불평이 심한 아이는 어떻게 할까요? 9	이상우	2021-09-01	6112
»	데이터 무용론과 3중구조	이금재.	2021-08-25	10697
1850	교사가 가져야할 태도	이상우	2021-08-23	7932
1849	이재명, 이낙연	레인3	2021-08-21	6454
1848	자율주행 시대가 온다 1	이금재.	2021-08-04	11794
1847	언어화의 강력함 2	이금재.	2021-07-28	11398
1846	자율주행은 매우 쉽다 1	이금재.	2021-07-28	9154
1845	머신러닝과 구조론 - 3. 강화학습과 자율주행 1	이금재.	2021-07-25	9407
1844	머신러닝과 구조론 - 2. 강화학습 2	이금재.	2021-07-23	11496
1843	머신러닝과 구조론 - 1. 지도학습 1	이금재.	2021-07-22	11433
1842	구조론과 인공지능 39	오리	2021-07-19	13230

쓰기

처음 21 22 23 24 25 26 27 28 29 30 끝