토론실

단순히 딥시크뿐만 아니라 인간에도 적용되는 원리인 것 같아서 간단한 설명을 해보겠습니다. 아래에는 딥시크의 모든 설명을 포함하고 있지 않습니다. 중요한 부분만 추려낸 것입니다.


추론모델은 "생각의 생각(Chain of Thought)"을 하는 모델을 의미합니다. 반면 추론모델이 아닌 일반모델은 생각을 하지 않고 그냥 즉답을 합니다. 딥시크가 여기서 좋은 걸 발견했습니다. 매우 단순한 훈련을 시켰더니 일반모델(범재)이 추론모델(천재)로 변신하더라는 겁니다. 이때의 추론모델은 오픈AI에서도 비용이 많이 드는 터라 사용 가격이 비싼 고급 모델입니다. 


비유적으로만 설명하자면.. 책만 열심히 읽고 암기한 학생(일반모델)이 있다면 그는 어떤 질문에 대해 생각을 안 하고 즉답만을 단순히 합니다. 근데 어느 날부터 선생님이 이 학생에게 "생각을 하고 대답을 해라!"라고 단순히 명령을 합니다. 그리고 다양한 질문을 하면서 학생이 생각을 하고 답을 하면 보상을 줍니다. 이때 어떤, 무슨 생각을 했는지는 중요하지 않습니다. 단지 생각을 하고 답하는 게 핵심입니다. 이건 과장이 아닙니다. 실제로도 똑같이 시킵니다.


예를 들자면, "밥 먹었니?"라는 질문이 있을 때(실제로는 훨씬 복잡한 질문을 합니다. 이해를 돕고자 간단한 예시를 만들었습니다.)

1) 일반모델: "응, 먹었어"

2) 추론모델:<생각 시작> 왜 물어보는 걸까? 내가 배고파보였나? 혹시 인사하는 걸까? 내가 방금 들어왔으니깐 인사치레인가? <생각 종료> "응, 먹었어, 너도 먹었니?"

라는 식입니다.


언급한 바와 같이 <생각시작>..<생각종료> 사이에 어떤, 무슨 생각을 했는지는 평가하지 않습니다. 단순히 생각을 하라고만 시키고 "<생각시작>.. 내용.. <생각종료>"라는 "형식"을 지키기만 하면 보상(양의 피드백)을 줍니다.(개라면 먹이를 주어 이 행동을 강화) 그리고 물론 좋은 대답(정답)을 했다면 또 보상을 줍니다. 딥시크는 이 단순한 두 가지 보상훈련만 시켜서 놀라운 결과를 만들어낸 겁니다.


이 훈련을 수천번 정도를 하면 초반에는 무의미한 생각(심지어 외계어)을 하다가 어느 순간 부터 "아하 순간(aha moment)"이 발생하고, 이후에는 굉장히 높은 수준의 생각을 하더라는 게 딥시크의 연구 성과입니다. 보통 언어모델 바닥에서 "수천번"의 훈련양은 굉장히 적은 양입니다. 보통은 몇백만, 몇억번이기 때문입니다. 이게 오픈AI가 내부적으로만 숨기던 방법인데, 이걸 딥시크가 스스로 찾아내어 공개했다는 게 이번의 성과입니다.


이 방법이 알려지기 전에는 과학자들이 언어모델에 구체적인 생각법을 책으로 알려주는 방법을 쓰거나 일일히 사람이 직접 평가를 해야한다고(이게 돈이 많이 듭니다. 처음엔 케냐인을 동원, 나중엔 각 분야의 전문가를 동원) 생각했는데, 그걸 초월한 겁니다. 알고보니 별거 없었습니다. 정말 단순히 그냥 생각을 하라고 시키기만 하면 되는 거였습니다. 다시 말하지만, 좋은 생각을 하는 방법을 가르쳐준게 아니라 그냥 생각을 하라고만 시켰을 뿐입니다. 


물론 이 방법은 딥시크가 훈련 비용을 줄이면서도 성능 향상을 동시에 하는 것에도 큰 영향을 주었습니다. 보통 모델의 크기를 줄이면 성능도 줄어드는데, 이 방법을 쓰면 모델의 크기를 줄이고도 성능 하락을 최소화(혹은 향상)할 수 있기 때문입니다. 


근데 이게 왜 될까요? 그 이유는 모델이 훈련하는 "생각의 생각"이 "보통 지식(드러난)"이 아니라 "연결 지식(숨은)"이기 때문입니다. 그리고 그걸 추정하도록 훈련을 시켰을 때 적은 연산량으로도 좋은 성과를 냅니다. 저도 사람으로서 비슷한 경험을 한 바, 이 방법이 먹힌다는 것을 알고 있습니다. 특별한 생각을 하는 사람이 있는 게 아니라 생각할 시간을 내는 사람이 좋은 생각을 합니다.



과거에 샘 알트먼이 내부의 수석 엔지니어(일리야 수츠케버)와 싸운 이후에 해당 엔지니어가 퇴사하였던 적이 있었습니다. 그 이후에 수석 엔지니어가 된 사람이 중국인인듯 한데, 딥시크가 R1을 발표한 직후에 X에 다음과 같이 트윗합니다. "DeepSeek이 O1 수준의 추론 모델을 만들어낸 것을 축하합니다! 그들의 연구 논문은 우리가 O1로 가는 과정에서 발견했던 핵심 아이디어 중 일부를 그들이 독립적으로 찾아냈음을 보여줍니다."라고 합니다. 인정한 거죠.(이 놈이 범인일 수도)


물론 아직까지는 딥시크가 제로베이스로 지식을 쌓아올리는 방법을 찾아내진 못 했습니다. 반드시 책을 졸라리 많이 읽은 일반모델이 선행되어야 합니다. 그리고 이게 돈이 많이 듭니다. 수천억(과장 아님)이상이죠. 앞으로는 제로베이스와 적은 양의 지식으로 시작하여 천재가 되는 방법을 찾아내게 될 것이며, 제 예상과는 다르게 1년 안에 성과가 나올 것으로 봅니다. 그리고 이미지나 동영상도 비슷한 방법으로 훈련을 시킬 수 있을 겁니다.


마지막으로 저는 이 방법론이 보통 사람에도 적용될 거라고 봅니다. 그냥 생각을 많이 하면 무조건 좋은 답을 할 수 있게된다는 거죠. 대부분 사람들은 생각을 아에 안 하기 때문입니다. 보통 사람과 천재는 생각을 얼마나 많이 하느냐에 따라 갈린다고 볼 수 있겠습니다. 예전에 어떤 드라마에서 선배작가가 후배작가한테 그러더군요. "글을 쓰고 읽고 고치고를 무조건 반복해, 그러면 무조건 좋아져"


그런데 이것은 흔히 말하는 천재가 되는 것은 또다른 영역입니다. 이 방법으로는 정답을 잘 맞출 수만 있고 일반인을 뛰어넘을 수는 없기 때문입니다. 그럼 어떻게 해야 할까요? 전 그게 사회를 구성하는 것이라고 봅니다. 천재는 결코 혼자 나오지 않기 때문입니다. 스스로 답을 찾는 것과 남을 초월하는 것은 다릅니다. 물론 이 원리가 생각의 생각과 크게 다르진 않습니다. 




첨부 이미지가 있는데, 해당 트윗 이미지입니다.


프로필 이미지 [레벨:30]id: 김동렬김동렬

2025.02.05 (09:37:38)

인간은 생각을 전혀 하지 않는 동물입니다.

어떤 사람이 졸라리 연구해서 태양이 돈다고 발표하면 


심심한 사람이 약올리려고 '바보야! 지구가 도는거야' 이렇게 말할 법도 한데

인류 중에 단 한 사람도 그렇게 한 사람이 없다면?


강이 유를 이기는 것은 상식입니다.

그러나 노자선생은 '바보야 유가 강을 이기는거야.' 하고 쫑코를 주는데 이거 먹히잖아요.


책장사를 해도 졸라 팔려. 서점에 가보라고.

공자 책보다 노자 책이 열배로 많이 팔린다고.


길바닥에 납작한 돌이 하나 떨어져 있는데 모양이 얄궂다면

지나가던 사람이 심심해서라도 돌을 뒤집어 반대편 모양은 어떤지 볼 것입니다.


원자라는 이름의 돌이 떨어져 있는데 

그 반대편을 뒤집어보니 구조라는 모양이 발견되었습니다. 


즉 구조론이 등장하기 전에는 아무도 원자를 뒤집어보지 않았다는 말씀.

원자 - 쪼개지지 않는다. 구조 - 쪼개지거나 결합한다.


어떤 사람이 길을 가다가 과녁을 하나 발견했는데

과녁에 원자라는 이름의 화살이 꽂히고 있는 거에요.


반대편을 보니 구조라는 이름의 활을 누가 쏘고 있었던 겁니다.

왜 아무도 반대편을 보지 않았지? 그냥 고개를 돌려 반대편을 보면 되잖아.


늑대한테 쫓기는 사슴처럼 직진만 계속할 뿐

80억 인류 중에 아무도 반대편을 보지 않은 겁니다.


길을 가다가 보니 결과라는 놈이 굴러오더라구요.

반대편을 보니 원인이라는 놈이 결과를 굴리고 있더라구요.


결과가 원자면 원인이 구조입니다.

이건 초등학교 1학년도 생각할만한 아이디어인데 아무도 생각을 안함.


빌 게이츠가 보니 세상에 쓸모라는게 있더라고요.

반대편을 보니 무쓸모라는게 또 있어요.


쓸모가 칼이면 무쓸모는 도마입니다.

칼을 사용할 뿐 도마는 그냥 있는 겁니다. 쓰지 않습니다.


방아공이가 움직일 뿐 방아확은 그냥 있는 겁니다.

화살이 움직일 뿐 과녁은 그냥 서 있는 겁니다.


망치가 움직일 뿐 모루는 움직이지 않습니다.

그러나 움직이지 않는 것이 움직이는 것을 붙잡아주므로 비로소 움직이는 겁니다.


도마가 없으면 칼이 죽고 모루가 없으면 망치가 죽고

확이 없으면 방아가 죽고 과녁이 없으면 화살이 죽고


무쓸모가 없으면 쓸모가 죽습니다.

과녁이 없으면 궁수가 겨냥을 못합니다.


사실은 과녁을 먼저 보고 화살을 쏘는 거지요.

생각한다는 것은 어떤 그것을 붙잡아주는 것을 찾는 겁니다.


어떤 존재가 있다면 그것을 매개하는 것은 반드시 있습니다.

간단히 말하면 그것은 경로입니다. 결따라 가는 겁니다. 


어떤 답을 제시하기 전에 

답에 이르는 경로를 제시하면 그것이 생각입니다.


수학으로 말하면 객관식 답만 찍지 말고

주관식으로 풀이과정을 제시하라고 했겠지요.

프로필 이미지 [레벨:23]chow

2025.02.05 (11:43:40)

실제로 생각의 생각(chain of thought)의 초창기 적용 분야가 수학이었습니다. 정답을 바로 말하지 말고, 풀이과정을 먼저 말하고(생각하고) 최종적으로 답하라는 겁니다.

프로필 이미지 [레벨:3]추론이 철학이다

2025.02.05 (12:17:48)

https://www.kmib.co.kr/article/view.asp?arcid=0010169230

(서울대 재학생 성적 상위1%, 가히 충격적)


한국 사회는 보니깐 암기한 사람이 높은 점수를 받고 추론한 사람은 오히려 낮은 점수를 받도록 되어 있다는 다큐멘터리를 본 적이 있는데

추론한 사람이 오히려 높은 성적이 나오려면 시험 방식을 객관식에서 주관식(발표도 포함), 그리고 글 짓기든 토론이든 대회가 있어서 

참여 경력 수상 경력 같은 것이 성적에 반영되어야 사람들이 추론을 좀 하지 않을까 생각하긴 합니다 

한국 사회는 앵무새, 암기 로봇이 양성되기 좋은 학업 구조를 가지고 있더군요


프로필 이미지 [레벨:30]id: 김동렬김동렬

2025.02.05 (12:59:24)

전한길 같은 암기 기술자들은 평생 생각을 안해본 거지요.


프로필 이미지 [레벨:9]SimplyRed

2025.02.05 (14:45:40)

서울대 시험기간 공부하는 유튜브를 봤는데 시험을 잘 보려면 의문이 들어도 그걸 무시할 수 있는 능력이 필요해보였습니다. 의문을 무시하고 가르쳐준 대로 셤기간동안 달달달..

셤끝나면 설대생도 기억이 안난다고 함.. 전공차이도 있겠지만 학문이 위키백과같은 폴더(계통) 정리없이 시험에만 초점이 맞다보니 파편화되어 연결이 안되고 구조 추출이 안 됨.. 파편화된 상태에서 보편적이지 않은 결론이 논리라는 탈을 쓰고 오류의 근원이 되는 듯..
List of Articles
No. 제목 글쓴이 날짜 조회
공지 구조론 매월 1만원 정기 후원 회원 모집 image 29 오리 2020-06-05 143020
» 딥시크-R1(추론모델)과 천재의 원리 updateimage 5 chow 2025-02-05 313
2268 챗지피티 월 5,770원에 쓰고 사람되세요 2 chow 2025-02-03 586
2267 언어모델에 대한 오해 chow 2025-02-03 206
2266 딥시크의 허와 실 chow 2025-01-31 516
2265 질량과 무게의 보편적 원인 3 chow 2025-01-30 285
2264 장안생활 격주 목요 모임(6시30분) image 오리 2025-01-29 190
2263 형식논리학과 변증법 image chow 2025-01-27 199
2262 subject의 의미 8 chow 2025-01-26 371
2261 한국의 제사(祭祀)와 차례(茶禮), 이젠 없어져야 한다. image 2 SimplyRed 2025-01-25 433
2260 선과 악의 과학 번역 systema 2025-01-21 323
2259 그나저나 2 최일수 2025-01-17 603
2258 진화의 안과 밖 14 chow 2025-01-17 613
2257 보수들에게 기대할 것이 없는 이유 이상우 2025-01-17 661
2256 일대사건 systema 2025-01-17 390
2255 장안생활 목요모임(장안 돼지갈비) image 5 오리 2025-01-15 478
2254 2025 한남동집회는 한국인 '의식과 무의식'의 충돌 1 stefanet 2025-01-13 585
2253 촘스키와 힌튼을 초월하라 image 10 chow 2025-01-08 1273
2252 금쪽이와의 1년 생활을 되돌아보니 image 1 이상우 2025-01-07 547
2251 인간 행위와 압력에 대한 질문 6 추론이 철학이다 2025-01-06 581
2250 고장난 에스컬레이터 현상 추론이 철학이다 2025-01-02 576