토론실 - OPENAI O3 모델이 arc test에서 70점 이상을 받았네요.

OPENAI O3 모델이 arc test에서 70점 이상을 받았네요.

오리

read 7712 vote 1 2024.12.26 (21:19:38)

https://gujoron.com/xe/1665649

예전에 아래 링크에 언급한 LLM 인공지능이 잘 못푸는 형태의 문제를 제시한 사이트가 있었는데

https://gujoron.com/xe/?mid=gujoron_board&search_keyword=%EC%98%A4%EB%A6%AC&search_target=nick_name&document_srl=1619829

이번에 OPENAI o3 모델이 70점을 넘겼네요

처음에 GPT-3는 0점을 받았고 2024년 나온 GPT-4도 0점에 가까왔는데

이번에 O3 모델이 70점을 넘겼다고 하네요.

https://arcprize.org/blog/oai-o3-pub-breakthrough

https://www.youtube.com/watch?v=KU0vLqIiLQ8&t=1150s

아래 문제는 o3 모델도 못푼 문제라고 합니다.

아래 내용은 위 웹사이트 내용의 마지막 부분을 번역한 내용 입니다.

===============================================================

작업당 비용이 상당히 높은 점에도 불구하고, 이러한 결과는 단순히 벤치마크에 막대한 컴퓨팅 자원을 투입한 것만으로 나온 것이 아닙니다. OpenAI의 새로운 o3 모델은 AI의 새로운 작업 적응 능력에서 중요한 도약을 나타냅니다. 이는 단순한 점진적 개선이 아니라, LLM(대규모 언어 모델)의 기존 한계를 넘어서는 질적 변화를 보여주는 진정한 돌파구입니다. o3는 이전에 접하지 못한 작업에 적응할 수 있는 시스템으로, ARC-AGI 분야에서 인간 수준의 성능에 근접했다고 평가할 수 있습니다.

경제성 문제

물론, 이러한 일반화는 높은 비용을 수반하며, 아직 경제적으로 실현 가능하지는 않습니다. ARC-AGI 작업 하나를 인간이 해결하는 데는 약 $5가 소요되며, 에너지 비용은 몇 센트에 불과합니다(실제로 우리가 실험해 보았습니다). 반면, o3는 저효율 모드에서 작업당 $17~20이 소요됩니다. 그러나 비용 대비 성능은 앞으로 몇 달, 몇 년 안에 극적으로 개선될 가능성이 높으므로, 이러한 능력이 인간 작업과 경쟁 가능한 수준에 도달할 것을 예상해야 합니다.

결론

o3의 GPT 시리즈 대비 향상은 아키텍처의 중요성을 증명합니다. 단순히 GPT-4에 더 많은 컴퓨팅 자원을 투입한다고 해서 이러한 결과를 얻을 수는 없습니다. 2019년부터 2023년까지 사용된 동일한 아키텍처를 확장하여 더 큰 버전을 더 많은 데이터로 학습시키는 방식은 충분하지 않습니다. 앞으로의 진전은 새로운 아이디어에 달려 있습니다.

그래서 이것이 AGI인가요?

ARC-AGI는 AI의 돌파구를 감지하기 위한 중요한 벤치마크로, 일반화 능력을 기존의 과포화되거나 덜 까다로운 벤치마크보다 더 명확히 보여줍니다. 그러나 ARC-AGI는 AGI(인공지능 일반)에 대한 절대적인 판단 기준이 아닙니다. 이는 올해 수십 번이나 강조한 바와 같이 연구 도구일 뿐입니다. ARC-AGI는 AI의 가장 어려운 미해결 문제에 주목하게 하기 위해 설계되었으며, 지난 5년간 그 역할을 훌륭히 수행해 왔습니다.

ARC-AGI를 통과했다고 해서 AGI를 달성했다고 볼 수는 없으며, 사실 o3가 AGI라고 보기는 어렵습니다. o3는 여전히 매우 쉬운 작업에서도 실패하며, 이는 인간 지능과의 근본적인 차이를 보여줍니다.

또한, 초기 데이터에 따르면 새로 출시될 ARC-AGI-2 벤치마크는 o3에게 여전히 큰 도전 과제가 될 것이며, 고효율 컴퓨팅에서도 점수가 30% 이하로 떨어질 가능성이 있습니다(반면, 훈련 없이도 영리한 인간은 95% 이상의 점수를 받을 수 있음). 이는 전문가의 도메인 지식 없이도 AI에게는 어렵고 인간에게는 쉬운 새로운 벤치마크를 계속 만들어낼 수 있음을 보여줍니다. AGI가 도래했다는 것을 알게 되는 시점은 인간에게는 쉽지만 AI에게는 어려운 작업을 만드는 것이 불가능해지는 순간일 것입니다.

O3는 이전 모델과 무엇이 다른가요?

왜 o3가 o1보다 훨씬 높은 점수를 기록했을까요? 그리고 왜 o1이 GPT-4o보다 훨씬 높은 점수를 기록했을까요? 이 일련의 결과는 AGI를 향한 연구에 귀중한 데이터 포인트를 제공합니다.

LLM(대규모 언어 모델)에 대한 제 사고 모델은 이들이 벡터 프로그램의 저장소로 작동한다는 것입니다. 입력 프롬프트에 따라 적절한 프로그램을 검색해 실행하며, 이는 인간이 생성한 콘텐츠에 지속적으로 노출되면서 수백만 개의 유용한 미니 프로그램을 저장하고 작동시키는 방법입니다.

이 “기억, 검색, 적용” 패러다임은 적절한 학습 데이터를 제공받으면 임의의 작업에서 임의의 수준의 기술을 달성할 수 있지만, 새로운 작업에 적응하거나 즉석에서 새로운 기술을 습득하지는 못합니다(즉, 유동적 지능이 부재함). 이러한 한계는 새로운 작업 적응성을 측정하도록 설계된 유일한 벤치마크인 ARC-AGI에서 LLM의 낮은 성능으로 입증되었습니다. 예를 들어, GPT-3는 0%, GPT-4는 0에 가까운 점수, GPT-4o는 5%를 기록했으며, 이러한 모델들을 확장하더라도 점수는 여전히 brute-force 방식으로 몇 년 전에 도달했던 50%를 넘지 못했습니다.

새로운 작업에 적응하려면 두 가지가 필요합니다. 첫째, 사용할 수 있는 재사용 가능한 함수나 프로그램의 집합인 지식이 필요합니다. LLM은 이에 충분히 대응할 수 있습니다. 둘째, 새로운 작업에 직면했을 때 이러한 함수를 조합해 작업을 모델링하는 새로운 프로그램을 생성할 수 있는 능력이 필요합니다. 이것이 바로 프로그램 생성입니다. LLM은 오랫동안 이 기능이 부족했습니다. 그러나 o 시리즈 모델은 이를 해결했습니다.

o3의 정확한 작동 방식은 현재로서는 추측에 불과하지만, o3의 핵심 메커니즘은 토큰 공간 내에서 자연어 프로그램 검색 및 실행으로 보입니다. 테스트 단계에서 모델은 주어진 작업을 해결하는 데 필요한 단계를 설명하는 생각의 연쇄(Chain of Thought, CoT) 공간을 검색하며, 이는 알파제로(AlphaZero) 스타일의 몬테카를로 트리 탐색과 유사할 가능성이 있습니다. o3의 경우, 이러한 검색은 평가 모델에 의해 가이드되는 것으로 보입니다. 2023년 6월 인터뷰에서 데미스 하사비스(Demis Hassabis)가 이 아이디어에 대해 언급했듯, 이 연구는 오랫동안 준비된 작업입니다.

다음 단계는 무엇인가요?

우선, 2025년 ARC Prize 대회를 통해 o3를 오픈소스로 복제하는 것이 연구 커뮤니티의 발전에 필수적입니다. 이를 통해 o3의 강점과 한계를 철저히 분석하고, 스케일링 동작과 잠재적 병목을 이해하며, 추가 개발이 어떤 능력을 열어줄 수 있을지 예측할 수 있습니다.

또한 ARC-AGI-1은 이제 포화 상태에 가까워지고 있습니다. o3의 새로운 점수 외에도, 낮은 컴퓨팅을 사용하는 대규모 앙상블 Kaggle 솔루션이 이제 비공개 평가에서 81%를 기록할 수 있게 되었습니다.

이를 해결하기 위해 ARC-AGI-2라는 새로운 버전을 준비 중입니다. 2022년부터 작업해 온 ARC-AGI-2는 AGI 연구의 한계를 확장하기 위해 설계된 더 어렵고 신호 강도가 높은 평가로, 현존하는 AI의 한계를 강조할 것입니다. 초기 테스트 결과에 따르면 ARC-AGI-2는 o3에게도 매우 까다로운 도전 과제가 될 것입니다.

ARC Prize Foundation은 앞으로도 연구자들의 주목을 AGI로 가는 길에서 가장 어려운 문제에 집중시키기 위해 새로운 벤치마크를 계속해서 개발할 것입니다. 3세대 벤치마크 작업이 이미 시작되었으며, 이는 2019년 ARC-AGI 형식에서 완전히 벗어나 흥미로운 새로운 아이디어를 포함할 것입니다.

프린트

2024.12.27 (11:13:42)

오픈AI가 ARC 문제를 풀려고 투입한 자원이 최신 모델에 비해 비용이 어마무시한 건데,

(고효율 모드에서 75.7%, 고비용 모드(172배 높은 연산량)에서 87.5%)

즉, 소형 원자력 발전소 하나를 저 문제에 투입한 겁니다.

인간 아이는 5살만 되어도 쉽게 풀 수 있는 문제를 말이죠.

그래서 ARC 관계자 뿐만 아니라 이 문제를 좀 아는 사람들은

이렇게 해서 풀 문제가 아니라는 잠정적 결론을 내고 있습니다.

그럼에도 불구하고 CoT(생각의 사슬)라는 방법론을 쓰고 있다는 게 특이사항인데,

이게 이전에 언급했던 시스템2를 쓰는 방법입니다.

이는 또한 오픈AI의 최신 o3에서 쓰고 있는 방법인데,

문제는 연산 비용이 너무 높다는 거.

그래서 최근에 기존 보다 10배 비싼 요금제(200달러)를 내놓기도 했죠.

그런데 말입니다. CoT(생각의 사슬)는 사실 변증법입니다.

즉 "생각의 생각"이라는 개념 자체가 인간이 사고하는 방식인 변증법을 의미한다는 거죠.

문제는 변증법이 두뇌 안에서 정확하게 어떻게 작동하는지 아무도 모른다는 겁니다.

예를 들어 4족 보행을 하는 동물들은 태어남과 동시에 걷는 법의 학습이 끝나는데,

현재 최신 과학자들이 비슷하게 구현하려면 상당한 자원과 시간을 요구합니다.

이게 왜 잘 안 되는지는 탑클래스 과학자 그 누구도 모릅니다.

사실 당초에 ARC 문제가 AGI로 주목 받았던 것도 이런 이유였습니다.

ARC문제가 언어모델에게는 어렵고

사람에게는 매우 쉽기 때문입니다.

결론적으로 저는 그 해법이 변증법적 사고 및 운동 체계라고 봅니다.

모든 동물은 좌우로 두개의 뇌를 갖고 있습니다.

그걸로 변증법을 구사하는데,

이 이상은 오프 모임에서 ㅎㅎㅎ

답글

List of Articles

No.	제목	글쓴이	날짜	조회
공지	구조론 매월 1만원 정기 후원 회원 모집 29	오리	2020-06-05	227748
2259	그나저나 2	최일수	2025-01-17	4470
2258	진화의 안과 밖 14	chow	2025-01-17	6674
2257	보수들에게 기대할 것이 없는 이유	이상우	2025-01-17	3864
2256	일대사건	systema	2025-01-17	5960
2255	장안생활 목요모임(장안 돼지갈비) 5	오리	2025-01-15	4225
2254	2025 한남동집회는 한국인 '의식과 무의식'의 충돌 1	stefanet	2025-01-13	6064
2253	촘스키와 힌튼을 초월하라 10	chow	2025-01-08	5555
2252	금쪽이와의 1년 생활을 되돌아보니 1	이상우	2025-01-07	3803
2251	인간 행위와 압력에 대한 질문 6	추론이 철학이다	2025-01-06	6775
2250	고장난 에스컬레이터 현상	추론이 철학이다	2025-01-02	4624
2249	장안생활 격주 목요 모임	오리	2025-01-01	3824
2248	무안공항 비행기 착륙사고에 대한 페친의 의견 3	이상우	2024-12-29	6919
2247	오징어 게임2 능동은 수동에 굴복되어야 하는가?	추론이 철학이다	2024-12-27	3998
»	OPENAI O3 모델이 arc test에서 70점 이상을 받았네요. 1	오리	2024-12-26	7712
2245	호기심은 없다 5	chow	2024-12-19	4596
2244	쿠데타가 어려운 이유	chow	2024-12-19	4860
2243	구조론 격주모임 [길동생활] 7	ahmoo	2024-12-18	5408
2242	1987년 중학교 1학년의 기억	이상우	2024-12-16	4544
2241	내일(토) 여의도 집회 참여, 여의도역 6번 출구 4	chow	2024-12-13	4903
2240	이재명이 왜 탄핵에서 나와? 1	이상우	2024-12-11	4634

쓰기

처음 1 2 3 4 5 6 7 8 9 10 끝