인간이 정말 판단을 못 할까? 나는 그렇게 생각하지 않는다. 어떤 인간은 대상을 보지 못 하면 판단을 못 한다. 판단은 쉽다. 세상 모든 일이 같은 원리를 공유하기 때문이다. 그럼에도 많은 인간이 판단을 못 하는 것은 판단을 못 하기 때문이 아니라 판단을 타인에게 위임하기 때문이다. 괜히 사회적 동물이 아니니깐. 나는 인간의 대뇌피질이 대부분 대용량저장소라고 생각한다. 인간은 다른 동물 보다 훨씬 더 많은 대상을 인식하는 것이 분명하다. 침팬지가 알아듣는 것보다 인간이 더 많이 알아듣는다. 인간은 머리에 사전dictionary을 큰 것을 가지고 다니는 것이다.
인간의 집단지성은 판단을 위한 것이 아니다. 판단은 쉽기 때문이다. 집단지성은 대부분 언어화를 위한 것이다. 문화활동은 끊임없이 신조어를 만든다. 은어를 만들어 기성세대가 알아듣지 못 하게 한다. 졸땡, 보빠를 모른다면 당신은 아재인 게 분명하다. 모르겠으면 아이들에게 물어봐라. 구조론에서 알게된 큰 깨달음은 언어의 중요성이었다. 그 어떤 어려운 논리도 언어만 분명하면 쉽게 이해가 되는 것이다.
이같은 맥락으로 보면 설명을 잘하는 사람은 언어화능력이 뛰어난 사람이라고 볼 수 있다. 판단능력은 거기서거기다. 벼룩이나 인간이나 판단 능력은 정확히 같다. 그럼 언어능력은 무엇인가? 그것은 대상을 구분하는 것이다. 대상 구분이 뭐 그렇게 어렵냐고 하겠지만, 인디언이 유럽의 범선을 자연현상으로 보는 것과 같이, 배우지 못하면 인간은 눈뜬장님이 된다. 대부분 문제는 하나인지 둘인지를 구분 못하는 것이다.
똥인지 된장인지 먹어봐야 아는 게 인간이다. 다른 인간과 맥락을 공유하고 그것을 경험해봐야 그것을 안다. 그런데 인간은 확실히 다르다. 누군가가 저게 이거다 라고 말만 해줘도 쉽게 이해한다. 돌도끼를 쓰던 사람이 쇠도끼를 쓰기 어려워 하는 것은 그것이 눈에 보이질 않기 때문이다. 저게 과연 내가 나무를 팰 때 쓰던 도끼가 맞는가? 갑자기 부러지면 어떻하지? 갑자기 내 팔을 잡아먹으면 어떻하지? 쉽지 않은 문제다.
머신러닝 분야에도 이런 논리는 매우 자주 관찰된다. 자연어처리라는 분야가 있다. 텍스트를 다루는 분야로서, 번역이나 챗봇을 만드는 분야다. 자연어처리 회사를 창업한 경험을 하고 현장에서 다양한 엔지니어들과 소통했을 때, 자연어처리 알고리즘의 성능을 가장 끌어올리는 빠르고 강력한 방법은 사전을 잘 만드는 것이었다. 그런데 사람들은 사전 만들기의 중요성을 전혀 인지하지 못 하는 것이 필자에게는 놀라운 광경이었다.
대부분의 엔지니어들은 사전을 잘 만들기 보다 계산을 잘 하는 것이 중요하다고 생각하였다. 보통 계산을 잘하게 하는 것을 두고 머신러닝에서는 파인튜닝(정밀조정)을 한다고 한다. 생각해보라 사전을 좃같이 만들고서는 파인튜닝을 아무리 열심히 한들 잘 될 리가 있겠는가? 도끼를 막대기라고 잘 못 인식을 했다고 치자. 막대기로 나무를 쓰러뜨리려면? 아마 당신은 그것이 불가능하다고 여길 것이다. 막대기로 백날 서있는 나무를 때려봐야 헛수고다.
그래서 누군가는 이게 도끼라고 알려줘야 한다. 그것이 바로 사전 만들기다. 구조론에서는 언어화 또는 추상화라고 한다. 언어화라는 말 속에 맥락이 들어있는 것은 사실이다. 맥락을 인지하고 나중에 언어가 확립된다. 그런데 맥락은 사실 쉬운 것이다. 모든 게 같은 논리로 일어나기 때문이다. 죄다 게임이다. 어떤 사람이 구조론적으로 사고를 잘 하는 것은 그 사람이 판단력이 좋기 때문이 아니다. 그 사람은 언어능력이 좋은 것이다.
보통은 이런 걸 두고 메타인지라고 하더라. 어떤 사람은 '다른 관점으로 바라보기'라고도 한다. 간단하다. 그냥 대상의 범위를 새로 지정하고 이름을 새로 붙이면 된다. '야구를 하는 사람 => 야구선수' 라는 식이다. 심볼화라고 불러도 좋다. 그냥 추상화 하는 것이다. 이 논리는 그대로 머신러닝에, 그리고 자율주행에도 적용된다. 몇년전 구글의 번역 기술이 좋아졌다는 것을 알 수 있는데, 바탕 기술을 아는 사람 입장에서 그건 조금 좋아진 것이 아니다.
본질적으로 달라졌다. 딥러닝을 쓰고 안 쓰고 차이는 큰 것이다. 실제로 성능도 압도적으로 개선되었다. 몇 번 써보고 그런 말 하면 안 된다. 이전의 단순 통계적 방식과는 작지만 큰 차이를 보인다. 딥러닝을 사용하는 언어 모델에서도 중요한 것은 사전이다. 그냥 '대상을 무엇으로 인식할 것인가' + 딥러닝이 알고리즘의 전부이다. 세상의 모든 것은 맥락에 따라 하나일 수도 둘 일 수도 있다.
외부의 적이 없다면 민주당과 국힘당이 둘로 보이지만 전쟁이 나면 하나로 똘똘 뭉친다. 구조론에서는 그러므로 외부의 적을 발견하여 정치를 하라고 한다. 여기서 우리가 주목해야 할 것은 하나인가 둘인가 이다. 팀인가 개인인가? 바로 이 것을 미리 따로따로 언어화 하여 사전을 만들어주면 딥러닝의 성능이 월등하게 올라간다. 말이 생기면 그것을 인식한다고 했던가? 공황장애와 홧병이라는 말이 없을 땐 그것을 인식하지 못했다.
근데 누군가가 이름을 지어주자 곳곳에서 증상을 앓는 사람이 나타난다. 인간이란 그런 것이다. 인간의 지식은 언어를 통해 타인에게 그리고 컴퓨터에 전해진다.
인간의 학습이란 것이 아직까지 비언어화된 영역을 언어화하는 과정이라고 볼 수도 있겠네요.