인공지능의 목적함수 2

[레벨:21]chow
2024.08.04 21:01:13

인간의 눈이 6k(6144 * 3156 개의 픽셀) 해상도와 초당 120 프레임의 입력으로 받고 있다고 하는데, 이 정도면 이미 알파고는 애들 장난이 된다. 알파고가 다음 수를 예측하는 것이라면 동영상 인식은 다음 프레임의 6k를 예측하는 것이 된다. 게다가 그걸 매초당 120회를 하란다. 그렇다, 견적이 안 나온다. 근데 이걸 하는 놈들이 있다. OpenAI에서 나온 동영상 만드는 알고리즘인 소라가 그것이다. 걔네들이 사실 동영상을 만드는 알고리즘을 만들고 싶었던 건 아니다. 정말로 원한 건 동영상 인식이었다. 그런데 해도 안 되니깐 일단 다음 프레임을 예측하는 걸 만들어본 거다. 그럼 된 거 아니냐고?


전혀. 소라를 돌려보면 뭔가 잘못됐다는 걸 알게된다. 소라는 이전 결과를 가지고 다음 결과를 예측하는 알고리즘인데, 당연히 잘 되는 경우가 극히 드물다. 잘 되는 경우는 학습할 때와 별 차이가 없는 매우 한정적인 것이다. 그거 매우 세팅된 거다. 그럼 우리가 본 건 뭔데? 그거야 체리피킹, 즉 잘 된 것만 쏙쏙 골라서 보여준 것이다. 투자자들과 인간한테 꿈을 심어줘야 하니깐. 


과학자들은 정보의 홍수에서 어떻게 정보를 골라내야 하는 지를 골몰했다. 딱 봐도 쓸모없는 정보가 대부분인데, 어떻게 해야 골라내지? 그래 일단 기준을 정하자. 그 기준은 새로움novelty이다. 그걸 찾는 과정은 호기심curiosity이고. 오, 드디어 판도라의 상자가 열리는 건가? 스탠포드, 하버드, 버클리, MIT, 메타, 구글, 마이크로소프트가 모두 달라붙었다. 근데 안 되네. 뭐가 문제지?


"나는 생각한다, 고로 존재한다."는 원래 데카르트가 처음 말한 것이 아니었다. 그것은 플라톤과 아리스토텔레스까지 기원한다. 구조론에서는 과거 철학자들은 까대지만, 나는 한번더 생각해보기로 했다. 걔네들이 완전히 돌대가리는 아닌데, 헛소리를 2,000년 이상 생각하지는 않았을 것 아닌가. 그래서 알게 된 것이 바로 레이어 개념이다. 저 말은 2중 구조로 되어 있다. 근데 잘 생각해보면 좀더 좋은 걸 뽑아먹을 수 있다는 걸 알게된다. 


좀 바꿔보자. "나는 그것을 생각한다, 고로 존재한다."

좀 더해보자. "내가 건드린다. 그것은 반응한다, 그리고 또 다른 게 반응한다."


이미지를 분류하는 인공지능을 학습하는 방법(지도학습)은 다음과 같다. 입력과 출력을 가진 어떤 알고리즘을 만들고 분류를 정한다. 개와 고양이라고 치자. 이제부터 2지선다 문제가 된다. 그리고 이미지 데이터를 잔뜩 준비한다. 입력에 개와 고양이의 50:50인 데이터를 마구 때려넣고 출력에는 개와 고양이 2지선다로 맞추어 이걸 졸라게 돌린다. 이게 좀 황당하겠지만, 이 방법 때문에 2012년에 인공지능이 다시 불붙었다. 근데 이거 사실 쉬운 문제다. 왜냐하면 2지선다의 '객관식' 문제니깐.


이 방법의 문제는 이게 수동적 인식에 의한 것이라는 것이다. 수동적일 수 있는 이유는 시스템에 의한 부품이기 때문이다. 시스템의 역할은 그것을 만든 사람의 몫이다. 이래서는 인공지능이라고 말할 수 없다. 인간의 예시를 보자. 인간은 유아 때부터 찔러보기의 달인이었다. 더 올라가면 지렁이도 비슷하다. 사방팔방 찔러본다. 자기가 왜 그러는 지는 모른다. 


할 수 있으니깐 찔러본다. 자기소개도 마찬가지다. 자기소개와 아닌 것을 구분할 수도 있겠지만, 오히려 인간은 죽을 때까지 자기소개를 한다고 생각해보자. 그러면 다른 게 보인다. 어떤 사람은 안 하던데? 그 사람은 수준이 높은 자기 소개를 한다. 자신의 범위가 넓다. 자기와 타자가 무조건 분리되어 있다는 생각은 전근대적이다. 나의 범위가 어느정도냐고 물어야 바르다. 


생물과 무생물의 차이는 환경에 대해 능동이냐 수동이냐의 차이다. 생물은 무조건 자기소개를 한다. 능동적이다. 자기가 왜 그러는지는 모른다. 그런데 찌르다보면 알게 되고 알면 그 너머를 본다. 진화가 뭘까? 진화는 더 넓은 영역을 지배하는 것이다. 생물은 진화할 수록 언제나 더 넓은 환경을 지배해왔다. 


자세히 보면 무생물도 찔러본다. 돌도 풍화를 한다. 자기 영역이 분자 단위라 너무 작아서 인간의 눈에 잘 띄지 않을 뿐이다. 능동과 수동의 차이는 해와 달의 차이가 아니다. 능동이 능동인 이유는 수동을 품고 있기 때문이다. 전체면 능동이고 부분이면 수동이다. 인간은 언제나 변수를 하나만 맞추는 게임을 하려고 한다. 그래야 쉽기 때문이다. 


y = ax라는 함수가 있다고 하자. 


3개를 다 맞추라고 하면 우주 전체다. 변수를 줄여야 한다. 내가 능동적으로 팔을 휘저으면 변수 하나는 통제 가능한 상태가 된다. 나머지 둘 중 하나는 맞대응을 보면 알 수 있다. 그리고 마지막 하나는 둘의 관계 그 자체다. 이걸 수동으로 하려고 하면 통제 불가능한 상태가 되어 학습이 원천적으로 성립이 안 된다. 


그래서 꼼수를 쓴다. 그게 소위 지도학습이다. 반면 강화학습은 학습의 학습이다. 변수 두개를 맞추는 학습이다. 이거 나쁘지 않다. 2d 게임을 푸는 에이전트를 만들면 쉽게 해결될 것 같다. 여기서 간극이 벌어진다. 아타리 게임은 게임처럼 보이는데 이미지 인식은 게임처럼 안 보이거든. 그래서 철학이 기술에 앞서는 것이다. 동영상 인식을 이미지 인식처럼 풀려고 하면 안 풀린다. 


쉽게 해먹으려고 하니 오히려 안 된다. 그 쉬웠던게 어떤 원리로 됐는지를 이해하지 못 했기 때문에. 이미지 인식은 오히려 어렵게 풀어야 한다. 어려워 보이지만 오히려 쉽다. 지도학습이 아니라 강화학습으로 풀어야 한다. 동영상의 특별한 사례가 이미지다. 이미지를 쌓은 게 아니라. 거기에 등잔 밑이 있다. 


어려운 문제지만 우리는 답을 이미 알고 있다. 그게 그거였는 지 모를 뿐이다. 갓 태어난 아기들의 눈에 보이는 것은? 없다. 정확히 말하면 모든 것이 보이지만 보이지 않는다. 아기가 보려면 골라내야 한다. 팔을 휘두르는 순간 걸리는 게 있다. 이제야 보인다. 내 팔에 걸렸다는 걸로 근거를 찾는 것이다. 


능동적 감시체계라는 게 있다. 레이더가 대표적이다. 먼저 전파를 쏜 뒤에 돌아오는 반향파를 보고 사물의 위치를 찾는다. 그런데 말이다. 사실은 수동적 감시체계도 능동적이다. 적외선으로 감지하면 수동적이라고 하는데, 내가 미리 그것을 예상하지 않으면 볼 수 없다는데에서 능동과 수동은 구분이 되지 않는다. 


인간이 분명 지도학습처럼 학습하는 구석이 있다. 모든 사람이 호랑이를 직접 경험한 것은 아니다. 그런데, 적어도 개는 경험한 적이 있다. 만져보고 놀아보고 하면서 호랑이도 뭔가 비슷하다고 느낀다. 그렇다. 인간의 인식엔 씨드가 있다. 세상의 모든 것을 경험할 수는 없어도 일부를 확실하게 경험할 수는 있다. 그리고 그 확실한 것에 불확실을 붙여가면서 인식을 확장한다.


인간은 정보의 홍수에서 필요한 것을 건지는 백만가지 꼼수를 쓴다. 근데 그게 사실은 우리가 살면서 다 경험한 것이다. 그러니깐 당신이 이 글을 읽고 있지. 다만, 정보를 줄여나간다는 관점을 갖지 못 하면 그것이 눈에 보이질 않는다. 어려운 길은 어렵게 가야 한다. 적어도 그 길은 증명이 된 길이다. 당신에 의해. 구체적인 방법론은 많이 있지만, 나도 논문을 써야 하므로 다 밝히진 않는다. 이 바닥 놈들이 워낙에 눈이 빨개진 상황이라.