토론실
프로필 이미지
[레벨:23]chow
read 515 vote 0 2025.01.31 (16:38:22)

비전문가를 대상으로 한 기술 설명이므로 비유가 많이 사용되었습니다.

한 X 사용자가 아래와 같은 글을 퍼날랐나본데, 재밌는 부분이 있으니 다시 읽어보자. 퍼나른 사람이 투자(투기)를 하는 사람이라 비전문가이므로 가치판단을 하긴 어렵다. 다만 원글의 작성자의 이력이 대단하다. 결론부터 말하자면, 그들은 아직도 왜 딥시크가 잘되는 지를 전혀 모른다는 것이다. 게다가 무려 드롭박스 AI의 부사장이 AI, 아니 언어모델을 조또 모른다는 사실을 들켜버렸다. 이거 시사점이 있다. 드롭박스가 쥐옷만한 회사가 아닐텐데, AI 서버와 관련된 회사일 텐데, 무려 AI 부서 부사장이 언어모델을 전혀 모른다? 한국회사도 아니고 미국회사인데? 이거 신기한 거다. 


미국에서는 딥시크를 정말 충격으로 보는거 같다. 아래 글은 Dropbox AI 부사장 글인데 이번 사태를 쉽게 이해할 수 있게 해준다. 정말 많은 생각이 드니까 꼭 정독 권장바란다. 


받은글)


Dropbox의 AI 부사장 Morgan Brown


1/ 먼저 배경부터 설명하겠습니다. 현재 최첨단 AI 모델을 훈련시키는 비용은 엄청나게 비쌉니다. OpenAI, Anthropic 같은 회사들은 계산에만 1억 달러 이상을 쓰며, $4만짜리 GPU 수천 대가 필요한 대규모 데이터 센터를 운영합니다. 마치 공장을 운영하기 위해 발전소 전체가 필요한 상황과 같습니다.

: 실제로 미국의 일부 회사를 제외하곤 엔비디아의 최첨단 GPU의 냄새도 맡아보기가 힘든 상황이다. 페이스북이나 마이크로소프트와 같은 기업이 사재기를 해대기 때문이다. 오죽하면 삼성이 엔비디아 GPU를 포기하고 AMD GPU를 구매할까. 이재용 탓이 있겠지만, 지금은 사고 싶다고 살 수 있는 시대가 아니라는 거. 삼성이 이정도인데, 네이버, 엘지는 꿈도 못 꿀 일.



2/ 그런데 DeepSeek이 나타나서 이렇게 말했습니다. “LOL, 우리라면 이걸 500만 달러로 할 수 있을걸?”

그리고 말로만 한 것이 아니라 실제로 해냈습니다. 그들의 모델은 GPT-4와 Claude를 많은 작업에서 능가하거나 대등합니다. AI 업계는 (요즘 10대들이 말하듯) ‘충격’을 받았습니다.

: 이게 어느정도는 언플이 끼었다는 걸 이해해야 합니다. 언어모델은 벤치마크라고 해서 성능 테스트를 하는데, 이게 아이큐 테스트와 비슷한 문제들(물론 이미지 인식은 제외)을 어느 정도로 풀 수 있는지를 체크하는 겁니다. 근데 이런 테스트에서 더 높은 성적이 나왔다고 해서 실제 사용자가 체감하는 성능이 더 좋다는 건 아닙니다. 물론 호들갑을 떠는 것이니 널리 이해할 수 있는 부분이긴 합니다.


3/ 어떻게 가능했을까요? 그들은 모든 것을 처음부터 다시 생각했습니다. 전통적인 AI는 마치 모든 숫자를 소수점 32자리까지 기록하는 것과 같습니다. DeepSeek은 “8자리로만 기록하면 어떨까? 충분히 정확하잖아!”라고 접근했고, 결과적으로 메모리 사용량이 75% 감소했습니다. 

: 모든 것을 처음부터 다시 생각하긴 개뿔. 이걸 양자화(퀀타이즈)라고 하는데, 이건 2017년에도 있었던 기술이다. 0.5mm까지 눈금이 있는 센치자를 써본 사람이라면, 더 정교한 눈금이 더 정교한 작도를 가능하게 한다는 것을 알 것이다. 근데 이렇게 까지 정확할 필요가 있나? 싶은 사람은 그냥 1mm 단위를 쓰고 만다. 양자화는 0.5mm 눈금을 1.0mm 눈금으로 교체했다는 것을 말한다. 그럼 뭐가 달리질까? 결과적으로 언어의 미묘한 뉘앙스가 달라진다. 이를테면 아와 어를 같다고 치는 것이다. 이게 메모리와 연산량을 줄이는데는 탁월하지만, 아와 어의 다름을 놓침으로 해서, 실제로 성능하락이 심각해진다. 한계효용의 법칙이 적용되는 게 이 바닥이다. 저가 자전거는 가격이 고만고만 하지만 초고가로 올라가면 100g을 줄이는데 천만원씩 들어가는 것과 같다. 그래서 OpenAI 급이 되면 굳이 안 쓰거나, mini 모델에만 사용하는 기술이다. 딥시크가 비용을 줄인 핵심 방법론이다. 당연히 문제가 생긴다. 그럼에도 불구하고 딥시크가 이 문제를 해결한 게 탁월한 것이다. 그건 후술.


4/ 그리고 그들의 “멀티 토큰” 시스템도 주목할 만합니다. 일반적인 AI는 초등학생이 읽듯이 “The… cat… sat…”처럼 읽습니다. 반면, DeepSeek은 문장 전체를 한 번에 읽습니다. 결과적으로 2배 더 빠르고 90% 수준의 정확도를 자랑합니다. 수십억 개의 단어를 처리할 때, 이런 효율성은 매우 중요합니다. 

: 개가 웃을 소리다. 드롭박스AI 부사장은 언어모델을 처음 접한 사람인듯. 그 어떤 언어모델도 이렇게 읽을 수는 없다. 딥시크건 뭐건 여전히 트랜스포머를 쓰는 것은 같다. 언어모델은 "단어(토큰) 여러개 -단어(토큰) 하나"로 매핑(연결)하는 것이다. 간단히 말하자면, 대상의 주변에 뭐가 있었는 지를 통계적으로 기억하는 것이라고 생각하면 된다. 

실제로 딥시크가 사용한 기술은 multi-token-prediction(예측)인데 프리딕션은 '출력'이라고 생각하면 된다. 이게 더 잘 읽게 하거나 그런 기술이 아니라 연산효율을 약간 높이는 기능을 한다. 어떤 경로인지는 모르겠지만 잘못된 지식이 전파되어 오해를 만든듯싶다. 

니가 모르는 게 있을 수 있지 않느냐고 말하겠지만, 언어모델의 기본 원리를 중심으로 생각하면 이 방법론에 기발한 꼼수의 공간은 별로 없다는 걸 말할 수 있다. 그리고 그 어떤 언어모델도 한 토큰씩 읽지 않는다. 왜냐면 "단어(토큰) 여러개 -단어(토큰) 하나"가 언어모델의 기본 방법론이기 때문이다. 


5/ 하지만 진짜 기발한 점은 “전문가 시스템”을 구축했다는 것입니다. 한 거대한 AI가 모든 것을 다 알도록 만드는 대신(예: 한 사람이 의사, 변호사, 엔지니어 역할을 모두 하는 것처럼), DeepSeek은 필요한 경우에만 전문가들을 호출하도록 설계했습니다.

: MoE라고 해서 전문가를 조합한 시스템을 의미한다. 챗지피티를 포함해서 거의 모든 언어모델 서비스에 사용되는 기술이다. 논문을 보면 뭔가를 좀더 했다고 하는데, 크게 유의미한 개선점은 아니다. 호들갑은.


6/ 기존 모델은 1.8조 개의 파라미터가 항상 활성화되어야 합니다. DeepSeek은 6710억 개의 파라미터 중 단지 370억 개만 활성화됩니다. 마치 큰 팀을 운영하되 필요한 전문가만 호출하는 것과 같습니다.

: 5번과 같은 내용


7/ 결과는 놀랍습니다:

• 훈련 비용: 1억 달러 → 500만 달러

• 필요한 GPU 수: 100,000대 → 2,000대

• API 비용: 95% 절감

• 데이터 센터 하드웨어 대신 게이밍 GPU에서도 실행 가능


8/ “그런데,” 누군가 말할 수 있습니다. “분명 단점이 있겠지!” 놀라운 점은, 모든 것이 오픈 소스라는 것입니다. 누구나 그들의 작업을 검증할 수 있습니다. 코드는 공개되어 있고, 기술 논문은 모든 과정을 설명합니다. 마법이 아니라, 단순히 매우 영리한 엔지니어링입니다.

: 오픈소스로 공개되어 있으며 논문도 마찬가지. 근데 공개를 하는 게 추세다. 딥시크가 별로 새롭게 만든 게 없기 때문에.


9/ 왜 중요한가요? 이로 인해 “대형 기술 기업만이 AI를 다룰 수 있다”는 기존의 모델이 깨졌습니다. 이제 수십억 달러 규모의 데이터 센터가 필요하지 않습니다. 좋은 GPU 몇 대만 있으면 됩니다.


10/ Nvidia에게는 두려운 이야기입니다. 그들의 비즈니스 모델은 초고가 GPU를 90% 마진으로 판매하는 데 기반을 두고 있습니다. 하지만 모두가 일반 게이밍 GPU로 AI를 돌릴 수 있게 된다면… 문제는 명확합니다. 

: 엔비디아가 과도하게 주목 받은 것은 맞다. 가격으로 허들을 만든 것도 사실이고. 


11/ 그리고 중요한 점은 DeepSeek이 이를 200명 이하의 팀으로 해냈다는 것입니다. 한편 Meta의 팀은 DeepSeek 전체 훈련 예산보다 더 많은 연봉을 받으며 작업을 하고 있지만, 그들의 모델은 DeepSeek만큼 좋지 않습니다. 

: 산학협력체 방식으로 만들었다고 생각하면 된다. 이는 논문의 저자명에 나타난다. 거의 네이버 급으로 논문 작성자가 30명은 되는듯. 기업이 대학원생에 돈주고 만들어보라고 하는 방식이다. 미국에서는 흔한 일이다. 보통은 이렇게 하면 성과가 잘 나오지 않는데, 이번에는 좀 특이한 케이스이긴 하다. 


12/ 이는 전형적인 파괴적 혁신의 이야기입니다. 기존 기업들은 기존 프로세스를 최적화하는 데 초점을 맞추는 반면, 파괴적인 혁신 기업들은 근본적인 접근 방식을 다시 생각합니다. DeepSeek은 “더 많은 하드웨어를 투입하기보다 더 똑똑하게 접근하면 어떨까?”라고 물었습니다.


13/ 그 영향은 큽니다:

• AI 개발이 더 접근 가능해짐

• 경쟁이 급격히 증가

• 대형 기술 기업들의 “진입 장벽”이 작은 웅덩이처럼 보임

• 하드웨어 요구 사항(및 비용)이 급감


14/ 물론, OpenAI와 Anthropic 같은 대기업들이 가만히 있지는 않을 것입니다. 그들은 아마도 이미 이러한 혁신을 구현하고 있을 것입니다. 그러나 효율성의 램프는 이제 병 밖으로 나왔으며, “더 많은 GPU를 투입하자”라는 접근 방식으로 돌아갈 수는 없습니다. 


15/ 마지막 생각 순간은 우리가 나중에 변곡점으로 기억할 가능성이 높습니다마치 PC 메인프레임을  중요하게 만들거나클라우드 컴퓨팅이 모든 것을 바꿨던 것처럼요. AI  접근 가능하고훨씬 저렴해질 것입니다.


#


드롭박스 AI 부사장이 알아봤자 얼마나 알겠는가. 무지를 감안할밖에. 위에서 말한 대부분의 딥시크가 도입한 기술들은 성능을 떨어뜨리는 방법들이다. 그래서 앞서 말했듯이 OpenAI나 구글은 안 쓰거나 미니 모델에만 사용하거나 제한적으로 도입한다. 웃긴건 정작 중요한 포인트를 말하지 않는다는 것이다. 


1. 가장 중요한 건 절대평가를 상대평가로 바꾸었다는 것이다. 왜 이건 말하지 않느냐고. 보통 언어모델은 답변을 출력할 때 여러 개의 출력을 놓고 점수를 평가한 다음에 최종 결과물을 내놓는다. 이때 이런 판단을 하는 것을 비평가(critic)모델이라고 하는데, 과거엔 절대평가를 했었는데, 이걸 상대평가를 하도록 다시 만든 게 딥시크의 R1이다. (R1은 기본모델과 다르게 CoT(생각의 사슬)라고 해서 '생각의 생각'을 쓰는 건데 알 필요는 없다.)


상대평가를 한 게 뭐에 도움이 됐냐면, 앞서 말한 용량을 줄이는 기술들이 떨어뜨린 성능을 다시 끌어올린 것이다. 이게 생각보다 효과적이었던듯 한데, Group Relative Policy Optimization (GRPO)라고 하는 기술이다. 어려운 말이지만 중간에 relative만 읽으면 된다. 이건 저자들이 새로 만들었다고 하는데(믿어주자), 이게 작동하는 이유는 저자들도 감으로만 아는 것 같다. 왜냐면 무려 비평가를 없앴다고 자찬하고 있기 때문이다. 원리적으로 비평가를 없애고 비평을 할 수는 없다. 그런데 비평가를 없앴다는 표현만 쓰는 게 문제다. 이런 오해가 발생하는 것은 비교의 원리를 모르기 때문이다.


어쨌든 간단히 말하자면 GRPO는 인간이 일종의 변증법을 사용한 것과 같다. 변증법의 중핵은 비교에 있다. 좋은 놈이 좋은 게 아니라 이기는 놈이 좋다는 논리다. 자세한 건 저자의 다른 글을 참조하고.


2. 또한 cold start라고 해서 정제된 데이터를 학습한 초기 모델을 사용했다는 점이 좋은 학습에 반영되었다. 언어모델을 학습시킬 때 데이터는 보통 온라인에서 크롤링 한 데이터를 사용하는데, 여기엔 별의별 쓰레기 데이터가 상당히 들어간다. 그럼에도 불구하고 언어모델이 학습이 되는 이유는 쓰레기 보다 양질의 데이터가 더 많기 때문. 문제는 이 쓰레기 데이터가 상당한 오류를 일으킨다는 것이다. 그래서 딥시크 연구진은 전체적인 학습 전략을 "양질의 적은 데이터를 사용한 콜드스타트"로 바꾸었고, 그게 꽤 괜찮은 결과를 만들어냈다.


암튼 딥시크의 언어모델이 시장에 던진 충격이 큰데, 사실 이론적으로는 지금(딥시크)의 1/10,000 정도로 사이즈를 더 줄일 수 있긴 하다. 현재의 기술은 서울대학생을 만든 것과 정확히 같은 논리다. 졸라리 암기하다보면 깨달음이 온다는 건데, 이래 가지곤 윤석열을 보면 알 수 있듯이 전혀 깨닫지 못 한다. 인공지능 바닥에는 규모의 법칙이라는 말이 있는데, 이른바 데이터 량 신봉론이다. 이게 아예 틀린 건 아니지만, 법전을 그렇게 많이 읽어도 9수하는 새리가 있는 걸 보면..


오히려 다양한 경험과 실전, 그리고 원리적, 모형적 사고를 하는 게 중요한데, 핵심은 결과를 보는 게 아니라 원인을 추론하는 것이다. 원래 변증법이 원인을 추론하는 방법론이기도 하고.


그래서 앞으로 어떻게 되냐고? 핸드폰에서 돌릴 수 있는 날이 곧 온다. 어디다 쓰냐고? 천재 비서를 옆에 두고 쓸 수 있다고 생각해보라. 쓸모를 굳이 찾을 필요가 있겠는가.


List of Articles
No. 제목 글쓴이 날짜 조회
공지 구조론 매월 1만원 정기 후원 회원 모집 image 29 오리 2020-06-05 143019
2269 딥시크-R1(추론모델)과 천재의 원리 updateimage 5 chow 2025-02-05 310
2268 챗지피티 월 5,770원에 쓰고 사람되세요 2 chow 2025-02-03 584
2267 언어모델에 대한 오해 chow 2025-02-03 205
» 딥시크의 허와 실 chow 2025-01-31 515
2265 질량과 무게의 보편적 원인 3 chow 2025-01-30 285
2264 장안생활 격주 목요 모임(6시30분) image 오리 2025-01-29 190
2263 형식논리학과 변증법 image chow 2025-01-27 199
2262 subject의 의미 8 chow 2025-01-26 371
2261 한국의 제사(祭祀)와 차례(茶禮), 이젠 없어져야 한다. image 2 SimplyRed 2025-01-25 433
2260 선과 악의 과학 번역 systema 2025-01-21 323
2259 그나저나 2 최일수 2025-01-17 603
2258 진화의 안과 밖 14 chow 2025-01-17 613
2257 보수들에게 기대할 것이 없는 이유 이상우 2025-01-17 660
2256 일대사건 systema 2025-01-17 390
2255 장안생활 목요모임(장안 돼지갈비) image 5 오리 2025-01-15 478
2254 2025 한남동집회는 한국인 '의식과 무의식'의 충돌 1 stefanet 2025-01-13 585
2253 촘스키와 힌튼을 초월하라 image 10 chow 2025-01-08 1273
2252 금쪽이와의 1년 생활을 되돌아보니 image 1 이상우 2025-01-07 547
2251 인간 행위와 압력에 대한 질문 6 추론이 철학이다 2025-01-06 581
2250 고장난 에스컬레이터 현상 추론이 철학이다 2025-01-02 576