인공지능 에이전트 별 거 아닙니다. 베이스가 되는 언어모델 API를 쓰거나 올라마에서 다운 받아 쓰면 됩니다.
거기에 re-thinking이라는 도구 사용 도구를 결합하면 그냥 마누스가 됩니다. 사실 마누스는 별거 아닌 거죠.
많은 한국인 엔지니어들이 놀라는데, 사실 전 그런 한국인이 더 놀랍습니다. 그게 뭐 대수라고 이 호들갑을 떠는 거지?
다시 말하지만, 학습하는 언어모델과 학습된 언어모델을 쓰는 것은 완전히 다른 것이며
딥식은 학습하는 언어모델이고 마누스는 클로드를 가져다 도구를 붙인 것뿐입니다.
무슨 말이냐. 야 너두 만들 수 있다는 겁니다. 물론 이런 걸 놀라워하는 사람들에게는 어려운 일이겠죠.
하여간 조금만 알면 개나 소나 만들 수 있습니다.
그런데 문제는 그래봤자 쓸모가 없다는 겁니다. 물론 꽤나 쓸모가 있지만, 아직 핵심적인 게 빠졌습니다.
바로 눈입니다. 눈이 있어야 진정한 혁명이 시작됩니다. 지피티가 이미지 인식 처리 잘하던데,
지피티가 동영상 생성 잘하던데 무슨 소리냐 하겠지만 동영상 인식은 아직도 멀었습니다.
동영상 인식이 된다는 건 생각보다 어려운 일입니다.
단순히 생각해도 정지 이미지 보다는 정보량이 훠어어얼씬 큽니다.
제가 몇년 전부터 구조론 게시판에서 떠들었지만, 사람들이 별로 관심이 없더군요.
기억하실지 모르겠는데, 이 바닥의 터닝포인트는 동영상인식에서 나옵니다.
여태까지의 인공지능 쓸모가 100이라면 동영상인식이 되는 순간 쓸모가 10,000이 됩니다.
문제는 과학자들이 아직 감조차 못 잡고 있다는 거.
기껏 한다는 게 언어모델이 수많은 텍스트를 읽게 했던 것처럼 하루종일 동영상을 시청하게 하고 외우게 하는 겁니다.
문제는 데이터의 양이 상상초월이라는 거.
텍스트와 동영상의 정보량 차이는 뭐 굳이 말 안 해도 아실 거.
잘 생각해 보세요. 왜 하필이면 언어모델인지.
언어는 정보를 압축적으로 담고 있으며
추상화가 되어 있어 학습이 쉽다는 특징이 있기 때문입니다.
바보도 언어를 배우면 꽤 행세를 하는 게 다 이유가 있는 거.
까마귀도 쉽게 하는 걸 전세계의 천재들이 감도 못 잡는 이유는 분명히 있습니다.
그래서 ARC 문제 같은 게 나오는 거죠.(오리님이 공유했던 거)
그게 다 과학자들이 어떻게든 동영상을 인식시키려고 하는 겁니다.
물론 프레임으로 영상을 쪼개어 정지영상으로 만든 뒤에
인식시킬 수도 있다고 생각하겠죠. 네, 그런 꼼수도 이미 다 시도되었습니다.
근데 다 실패. 될 리가 없잖아요.
유의미한 프레임을 골라내어야 하는데
그게 되면 이미 가능하겠죠.
무슨 소리냐 테슬라가 자율주행을 하는데 그건 동영상인식이 아니냐?
테슬라가 프레임으로 쪼개서 하고 있습니다.
근데 잘 될까요? 그게 잘 되면 테슬라가 무인 택시를 하고 있겠죠.
무인 택시 나왔는데? 그건 좀더 지켜보시고.
테슬라 자율 주행이 꽤 되던데?
자동차는 인간의 행동을 인식하는 것보다는 훨씬 쉽습니다.
왜냐면 누끼 따기가 쉽기 때문입니다.
자동차와 아닌 게 구분이 잘 되잖아요.
테슬라는 사람 행동도 인식하던데? 매우 제한적입니다.
일론 머스크 개소리 하는 거 하루 이틀 들은 것도 아니면서
아직도 눈치를 못 까다니.