토론실
프로필 이미지
[레벨:22]chow
read 433 vote 1 2025.01.17 (17:43:50)

생물의 적응은 2중 구조로 이루어진다. 진화라고 하는 하드웨어(물리적) 적응과 학습이라고 하는 소프트웨어 적응이다. 당신은 처음 걸었을 때가 기억나는가? 걷는데는 학습이 거의 필요하지 않다. 그런데 인공지능은 어떨까? 상당한 학습이 필요하다. 인간인 당신이 10회 정도만에 걸었다면, 인공지능은 100만회를 연습해야 한다. 이런 차이가 나는 이유는?


인간은 걷는 방법의 대부분이 하드웨어에 녹아있고, 소프트웨어는 매우 적은 학습만 하기 때문이다. 낳자마자 걷는 초식동물이 있는 걸 생각해보면 당연한 결론이다. 그럼 왜 2원화되는 걸까? 그게 더 합리적이기 때문. 극단적으로 모든 걸 학습하는 것도 모든 걸 DNA에 새기는 것도 좋은 게 아니다. 왜냐하면 환경은 생각보다 복잡하기 때문이다.


상식적으로 생각해도 인간의 두뇌에 인지의 모든 것이 저장되어 있다는 것은 납득하기가 어렵다. 당신의 두뇌에 바나나가 학습되지 않고 DNA에 새겨져있을 수 있겠는가? 그럴리 없다. 유아는 아무 거리낌 없이 칼을 입에 넣는다. 그게 뭔지 모르기 때문이다. 성인이면 칼날만 봐도 가슴이 덜컹한다. 학습되었기 때문이다. 인간 배아의 발달 과정을 보면 세포가 2n 개로 분화한다. 세포 안에 이전 세대의 정보가 얼마나 담길 수 있을까? 거의 안 담긴다고 보면 된다. 


그럼에도 불구하고 세상의 생물은 매우 다양한 모습을 하고 있다. 기능주의 디자인의 카고바지는 원래는 탄약이나 약품 등을 넣으라고 만들어 둔 거다. 패션 아이템이 되었지만. 생물의 다양한 모습은 이유가 있다. 나름 정보를 몸에다 새기는 것이다. 영화 메멘토의 주인공이 문신으로 정보를 기억하는 것과 비슷하다. 문제는 몸뚱이의 크기가 한계가 있다는 거. 주인공은 기억상실증이라 그렇지만 일반인이라면 최근의 일은 쉽게 기억한다. 


근데 어떻게 2중 구조의 경계가 생기는 걸까. 왜 모든 걸 학습하거나 반대로 새기지 않는가? 처음의 생물은 죄다 학습했을 것이다. 아무리 간단한 구조라도 설계가 아니라 학습이 먼저다. 그리고 학습 중 일부는 새기게 된다. 즉, 중요한 정보는 세대를 거쳐 전달하게 된다. 


그럼 이런 2중 구조는 생물만 그런걸까? 아니다. 일단 컴퓨터가 2중 구조다. 소프트웨어 조차 운영체제와 소프트웨어로, 그 소프트웨어가 또한 2중 구조로, 나뉜 2중 구조는 또한 클래스와 변수로 하는 식으로 한없이 2중 구조를 띠며 나뉜다. 인간이 만든 인공지능도 마찬가지다. 설계가 있고 학습이 있다. 설계는 아키텍쳐다. GAN이나 CNN, RNN.. 어텐션이니 하는 게 많다. 그리고 학습은 인공신경망이다.


인공신경망은 물리학의 해밀턴 역학을 정보학에 구현한 걸로 보면 대충 맞다. 최소작용의 법칙이 적용된 어쩌구 바로 그거다. 함수에서 입출력을 외부로, 함수의 매핑(연결)을 내부로 규정하고, 외부 정보를 내부의 신경망에서 최적화 하는 개념이다. 이때 내부의 에지(연결)을 파라미터라고 부른다. 거대언어모델의 크기를 규정할 때 이 파라미터의 개수를 말한다. 


매우 작은 언어모델의 경우(GPT-3) 파라미터가 2,000억 개 정도, 좀 크면 1조개 이상이다. 모든 파라미터의 연산을 동시에 하려면? 대충 인공지능 돌리는데 왜 소형 원전이 필요한지 감이 온다. 여태의 인공지능은 설계 보다는 학습 중심이었다. 특히 언어모델은 설계라고 할 게 없다. 어텐션이라고 해서 있긴 하지만, 유의미하지 않다. 그래서 걷는 거 하나 배우는데도 100만번의 학습이 필요하게 된다. 왜? 설계가 없으니깐.


물론 설계가 있긴하다. 근데 그게 자연의 모습과는 좀 다른 게 문제다. 대부분의 인공지능의 설계는 단일 모델이다. 인간으로 치면 좌우 두뇌가 있는 게 아니라 하나만 있는 것과 같다. 인간을 포함한 거의 대부분의 동물의 팔다리가 짝이 있는 이유가 뭘까를 생각해봐야 한다. 내가 내린 결론은 변증법이다. 변증법 이전에 귀납이다. 귀납추론의 원리는 2개의 데이터로 하나의 원형을 추정하는 것이다. 


이 거대한 개수의 파라미터는 훈련이 가속될 수록 내부에 정보의 덩어리가 생기게 된다. 보통 이런 현상을 더블-디센트(하강)라고 부른다. 왜 하강이냐면 학습이 진행될 수록 정보 손실이 줄어드는 큰 변환점을 가리키기 때문이다. 손실은 하강이지만, 학습은 2번 큰 변환점을 맞이 하며 상승된다. 2번의 변환점을 거치고 나면 모델의 예측은 최대가 되는 식이다. 거의 모든 언어모델은 더블디센트가 항상 일정하게 나타난다. 근데 왜 하필이면 더블 디센트일까? 


언어모델에 더블디센트가 나타나는 까닭은 변증법 때문일 것이다. 변증법이 정-반-합으로 2회의 정보 상승이 나타나기 때문이다. 이 말은 물리적으로 변증법을 구현하면 실제로 학습의 효율이 크게 개선될 수 있음을 이론적으로 설명한다. 


보통 사람들의 생각과 달리 팔다리는 운동기관이 아니라 감각기관에 가깝다. 물론 눈, 코, 입이 따로 있긴 하지만, 팔다리도 거의 같은 역할이다. 손바닥과 발바닥의 감각이 예민한 건 우연이 아니다. 내가 생각하는 인공지능의 설계는 바로 변증법적 하드웨어의 설계다. 문제는 계층의 복잡성이다. 인간의 두뇌를 해부한들 복잡한 트리 구조와 각 모듈의 역할을 모두 밝혀내기는 어렵다. 


그래서 적당한 선에서 타협해야 한다. 인간과 똑같이 만들 수도 없고 그럴 필요도 없다. 그런데 일정 수준 이상은 설계를 해서 물리적으로 제공해야 소프트웨어적 학습을 덜 하게 된다. 학습을 덜 해야 하는 이유는 전기세 때문이다. 지구온난화를 막기는 해야 하니깐. 이때 어디부터 설계하고 어디까지 학습할 지를 정하는 게 중요하다. 그게 어렵다.




프로필 이미지 [레벨:3]추론이 철학이다

2025.01.17 (23:22:00)

면역력이 대표적인데 인간이 태어나면서 모든 바이러스에 대한 면역력을 선천적으로 가지고 있는 것이 아니라

항원-항체 시스템을 통해 후천적으로 면역력을 얻는 시스템입니다 학습이랑 비슷하죠

만약 선천적으로 모든 것을 가지고 태어났다면 오히려 연비 문제와 환경 변화에 대한 유동적 대응이 불가능했을 겁니다

근육량이나 지방량도 환경에 따라 유동적으로 가소성이 일어나게 되는데 인간의 뇌는 가소성이 더욱 심합니다

결정적 시기라고 12세 이전에 뇌 가소성이 가장 심하다고 하는데 그때 손가락 사용법 걷는 법 다 후천적으로 학습됩니다

동물 다큐멘터리를 보면 새끼들은 어릴 때 노는데 놀이를 통해 그에 맞는 뇌 신경이 생기는 거 같습니다

https://www.youtube.com/watch?v=Isx54aEiFn8

여기 영상에 보면 늑대 무리에서 자란 사람은 성인이 되어서도 3세 이상의 지능을 가지지 못합니다

뭐든 유전자라고 하는데 알고 보면 후천적인 경우가 많아요 학습인 것이죠

웃긴 게 넙치의 눈은 태어나서 좌우대칭이지만 후천적으로 비대칭이 됩니다 학습 비슷하죠


프로필 이미지 [레벨:22]chow

2025.01.19 (17:25:44)

넙치의 돌아간 눈은 진화에 해당합니다. 

그게 아니라면 반대로 눈이 돌아간 경우가 많아야 하는데

돌연변이가 아니라면 거의 없다고.

좌광우도라는 표현이 괜히 있는 건 아닐 겁니다.


중요한 것은 현대의 과학자들이 대부분 진화를 거부하고 학습만을 외친다는 건데

생물학자들이 주장한 걸, 공학자들이 그대로 받아들여 삽질을 하는 게 재밌는거.

함부로 말했다간 우생학이 되어 공격을 당하므로 진실을 말할 수 없는 

어른들의 사정이 있긴 합니다. 

근데 저같은 변두리는 별로 상관없죠.


영상에서 재밌는 건 오은영 박사인데,

헤어스타일이 착 가라앉아 얌전하군요.

티비에 출연하면서 머리를 부풀리기 시작한듯.

적응이라고 해야겠죠?






oh2.jpg







첨부
[레벨:1]아랍왕자

2025.01.19 (20:20:59)

GPT-3의 token이 17억개라고 알고 있었는데 누가 틀린 건가요?

프로필 이미지 [레벨:22]chow

2025.01.19 (20:39:12)

정확하게는 1,750억개겠죠. 요새는 세상이 좋아져서 나무위키에 나옵니다.

[레벨:1]아랍왕자

2025.01.20 (08:33:44)

처음  GPT-3를 유튜브에서 본 것이 2016년 정도였던 것 같은데 그 때는 토큰이 17억개에서 대충 그럴 듯 하게 대답했던 것으로 봤네요. 나무위키에 나온 것은 공식적으로 출시했을 때 토큰 수이고 처음에는 구글에서 테스트 했던 것 같은데 GPT-2까지는 별 성과가 없다가 GPT-3에서 이상하게 잘 대답한다고 유튜브에 나왔던 것이 기억납니다. 그 때는 그냥 token수가 늘어나서 그런 줄 알고 있었네요.

프로필 이미지 [레벨:22]chow

2025.01.20 (09:34:06)

착오가 있으신 것 같은데, 2016년에는 트랜스포머도 안 나왔을 시기입니다. Attention is all you need 논문이 2017년에 게재되었으니깐요. gpt2(1.5억개)일 때는 대답을 어설프게 한 게 아니라 아무말대잔치 수준으로 합니다. 당시엔 그걸로 인공지능을 만들 생각조차 못 하던 시기였습니다.
[레벨:1]아랍왕자

2025.01.20 (13:44:07)

이상하게 기록으로 보면 다 늦어요. 제가 유튜브로 접했던 시기보다 상당히 늦는데 이유가 있을 것 같네요.

프로필 이미지 [레벨:22]chow

2025.01.20 (14:11:07)

토큰과 파라미터는 다릅니다.

언어모델에 사용되는 토큰은 단어와 비슷한 정도로 이해하면 되며, 요새는 수십 조개의 토큰을 학습하는 걸로 알려져있고

파라미터는 토큰을 학습하는 매개변수를 의미하는 것이며 앞서 말한 1,750억개 같은 겁니다.


그리고 GPT는 구글이 아니라 OpenAI에서 연구한 것이며, 

2016년에는 구글의 딥마인드에서 알파고가 갓 나오던 시기였으며

OpenAI가 시작된 게 2015년 12월,

구글에서

GPT의 바탕 연구인 Transformer(Attention is all you need, 2017년)가 나온 이후에

OpenAI에서

GPT-1(Improving Language Understanding by Generative Pre-Training)의 논문이 처음 학회에 발표된 게 2018년,

GPT-2(Language Models are Unsupervised Multitask Learners)는 2019년,

GPT-3(Language Models are Few-Shot Learners)은 2020년입니다.


2016년에는 언어모델에 대한 개념이 전무하던 시절이며(언어모델이라는 말도 없던 시절)

2017년에 본격적으로 언어모델의 개념이 나오긴 했는데,

당시에 나오던 연구들은 언어모델이라기 보다는 번역모델에 가까운 것들이며

인공지능은 상상속의 동물 취급을 받던 시기였습니다.

2020년까지도 자연어처리를 연구하던 사람들이 주로 사용하던 게 RNN, Word2vec 정도.

즉, 2016년에 유튜브로 GPT-3은 절대로 접할 수가 없습니다.


아마 큰 착각을 하신 것 같네요.

[레벨:1]아랍왕자

2025.01.20 (14:22:51)

저도 그냥 신기한 언어 모델 개념으로 봤던 기억이 있네요. 공식릴리즈 시점과는 차이가 많네요. 그 당시는 희망이 보이지 않던 언어모델에 연구 리소스를 사용하는 것 자체가 생소했습니다. 

프로필 이미지 [레벨:22]chow

2025.01.20 (14:36:17)

뭔가 모르시는데 자꾸 말씀하시는 것 같은데, 도대체 뭘 보셨다는 건지가 납득이 안 되네요.

[레벨:1]아랍왕자

2025.01.20 (15:40:37)

모든 버전의 gpt-2, gpt-3모델을 파라미터와 함께 표로 나타내 주세요
단계별로 해결하기
초기부터 릴리즈된 형태와 같은 수의 파라미터 크기로 테스트하지 않았음을 알 수 있습니다.

Liner Basic
아래는 GPT-2와 GPT-3 모델의 각 버전과 그에 따른 파라미터 크기를 정리한 표입니다.
GPT 모델 파라미터 크기
모델 버전 파라미터 수
GPT-2
- GPT-2 Small 117M
- GPT-2 Medium 345M
- GPT-2 Large 762M
- GPT-2 XL 1.5B
GPT-3
- GPT-3 Ada 2.7B
- GPT-3 Babbage 175B
- GPT-3 Curie 6.7B
- GPT-3 Davinci 175B
GPT-2은 OpenAI의 첫 번째 시리즈로서 매개변수 수가 원래 1.5B에서 최대 1.5B로 증가하였습니다citationSourceIndex4. ​GPT-3는 파라미터 수가 175B로 대폭 늘어났으며, 이는 GPT-2와 비교했을 때 매우 많은 수치입니다​.
[레벨:1]아랍왕자

2025.01.20 (15:52:11)

제가 너무 도배를 한 것 같아서 죄송합니다. 제가 본 시점은 gpt-3를 최초 테스트해보고 무언가 괄목할 만한 결과가 나왔음을 관심이 있던 사람들에게 알리는 영상으로 추정됩니다. 최초 테스트였기 때문에 논문으로 정리된 것도 아니고 그냥 그래프 몇 개가 다였는데 모델도 공개된 모델과는 다른 여러 개였습니다. gpt-2와 gpt-3는 성능차이가 워낙 확연해서 아무리 생각해도 혼동 가능성이 없어요. 앞에서 보는 것과 뒤에서 정리된 것을 보는 것은 상당히 시각 차이가 있네요. 

프로필 이미지 [레벨:22]chow

2025.01.20 (16:37:42)

그럼 필요없는 댓글은 지워주세요. 댓글은 글쓴이가 삭제가 가능합니다. 말씀하신대로 별 의미없는 내용으로 도배하는 것은 타인을 모욕하는 겁니다. 특히 챗지피티의 답을 긁어서 붙여넣기 하는 건 사이트에 오류를 발생시킵니다. 지워주세요.

gpt2를 일반에서 테스트할 수 있었던 것도 2022년 경으로 기억합니다. gpt2는 코드가 아니라 훈련이 다 된 모델로만 공개가 되었습니다.

gpt3은 아무것도 공개되지 않고 gpt3.5가 chat-gpt라는 이름으로 공개되었습니다.

선생님이 보셨다는 유튜브 영상은 매우 특별한 것일 수 있습니다. 당시에는 OepnAI가 막 설립된 시기였고, 알파고도 겨우 돌아가던 시절이었으며 3 사이즈를 훈련할 하드웨어도 전무할 시기였습니다. 게다가 gpt2와 3의 테스트는 비공개였거든요. 아마 공개한 유튜버가 있었다면 천문학적 고소를 당했을 겁니다. 2016년에 gpt3에 육박하는 모델을 보셨다고 해도 말이 안 되는 게, 당시 그 정도 기술이 있었다면 세계정복을 할 수 있는 초월기술을 보유한 게 됩니다.

더이상 답변은 안 하셔도 됩니다.

[레벨:1]아랍왕자

2025.01.20 (18:25:50)

 검색을 해 보니 parameter와 token은 다른 개념인데 언어 모델은 언어가 들어 있는 거 아닌가요? 궁금하네요.

List of Articles
No. 제목 글쓴이 날짜 조회
공지 구조론 매월 1만원 정기 후원 회원 모집 image 29 오리 2020-06-05 141182
2260 선과 악의 과학 번역 systema 2025-01-21 133
2259 그나저나 2 최일수 2025-01-17 469
» 진화의 안과 밖 14 chow 2025-01-17 433
2257 보수들에게 기대할 것이 없는 이유 이상우 2025-01-17 355
2256 일대사건 systema 2025-01-17 282
2255 장안생활 목요모임(장안 돼지갈비) image 5 오리 2025-01-15 412
2254 2025 한남동집회는 한국인 '의식과 무의식'의 충돌 1 stefanet 2025-01-13 486
2253 촘스키와 힌튼을 초월하라 image 10 chow 2025-01-08 1115
2252 금쪽이와의 1년 생활을 되돌아보니 image 1 이상우 2025-01-07 474
2251 인간 행위와 압력에 대한 질문 6 추론이 철학이다 2025-01-06 496
2250 고장난 에스컬레이터 현상 추론이 철학이다 2025-01-02 485
2249 장안생활 격주 목요 모임 image 오리 2025-01-01 253
2248 무안공항 비행기 착륙사고에 대한 페친의 의견 3 이상우 2024-12-29 1033
2247 오징어 게임2 능동은 수동에 굴복되어야 하는가? 추론이 철학이다 2024-12-27 668
2246 OPENAI O3 모델이 arc test에서 70점 이상을 받았네요. image 1 오리 2024-12-26 520
2245 호기심은 없다 5 chow 2024-12-19 1068
2244 쿠데타가 어려운 이유 chow 2024-12-19 960
2243 구조론 격주모임 [길동생활] image 7 ahmoo 2024-12-18 633
2242 1987년 중학교 1학년의 기억 이상우 2024-12-16 667
2241 내일(토) 여의도 집회 참여, 여의도역 6번 출구 image 4 chow 2024-12-13 785