- Turing Post Korea
- Posts
- FOD#76: '스케일링 법칙' - 한계인가, 아니면 새로운 분기점인가
FOD#76: '스케일링 법칙' - 한계인가, 아니면 새로운 분기점인가
금주의 주요 소식, 업계 동향과 연구
이번 주 AI 업계의 가장 뜨거운 뉴스라고 한다면, 아마도 ‘거대 언어모델의 성능 향상 한계’ 문제가 아닐까 합니다.
오픈AI의 차세대 모델 ‘Orion’이 GPT-4와 비교했을 때 소폭의 성능 향상에 그쳤다든가, 구글의 제미니도 기대에 미치지 못했다는 등 여러가지 소문들을 중심으로 해서, AI의 발전이 정체기에 도달한 거 아니냐는 이야기들이 빗발쳤습니다. 이런 소식들에 이어서 더 구체적으로 구글이 성능을 추가적으로 향상시키기 위해서 ‘하이퍼파라미터를 조정하는 방안’을 찾아보고 있다는 이야기도 나왔구요.
Image Credit: Amir Efrati의 X 어카운트
a16z의 마크 앤드리슨은 여러 가지 모델들이 ‘동일한 성능 한계에 부딪히고 있다’고 언급했고, SSI의 일리야 수츠케버 (Ilya Sutskever)도 “2010년대가 스케일링의 시대였다면, 이제 다시 우리는 경이로움과 발견의 시대로 돌아왔다”는 코멘트를 하기도 했습니다.
물론 모든 사람들이 같은 생각을 하는 건 아닙니다.
앤쓰로픽의 CEO인 다리오 아모데이, 그리고 오픈AI의 CEO 샘 알트먼 등은, 모델의 성능 향상이 아직 한계를 맞은 것이 아니라고 강조했고, 마이크로소프트의 CTO인 케빈 스콧도 ‘아직 확장의 한계에 도달하지는 않았다’고 이야기한 바 있습니다.
Image Credit: Amir Efrati의 X 어카운트
‘정체기 (Plateau)’라는 단어의 의미를 좀 더 정확하게 살펴볼까요? 과학적인 관점에서, 정체기라고 하면 ‘어떤 과정 중의 안정된 상태’를 뜻합니다. 심리학에서는 ‘성장이나 학습이 정체된 것처럼 보이는 단계’를 의미하는데, 이 정체기를 돌파하려면 새로운 전략과 접근법이 필요하죠.
생성형 AI의 맥락에서는, 저는 개인적으로 우리가 ‘정체기에 있으면서도 동시에 정체기에 있지 않은’ 상태라고 생각합니다 - ‘안정된’ 상태가 아니기 때문이죠. 따라서, 지금 우리에게 필요한 건, 현재 상태에서 돌파구를 찾기 위한 새로운 전략, 그리고 새로운 접근법입니다.
이미 다양한 이해관계자들이 많은 전략과 접근법을 고민하고 실행하고 있는데요. 이들 중 두어가지 토픽에 대해서 간단히 이야기해 볼까 합니다.
복합 AI 시스템 (Compound AI Systems)으로의 전환
복합 AI 시스템(Compound AI Systems)은 ‘스케일링 법칙의 한계’를 해결할 수 있는 실용적인 방법을 제공하는데요. 단순히 더 큰 모델에만 의존하는게 아니라, 자원의 사용을 최적화하면서 특정한 작업에 맞게 필요한 구성 요소들을 조정해 가면서 효율성과 성능을 향상시키는 시스템 구성 방법이라고 하겠습니다.
복합 AI 시스템은 다수의 모듈화된 구성 요소를 활용해서 특정 작업을 처리합니다. Image Credit: Baseten
‘복합 AI 시스템’을 구성하는 원칙이 구현된 초기의 사례들은, ‘복합 AI’라는 용어가 대중화되기 훨씬 전인, 다중 에이전트 시스템과 앙상블 학습에 대한 초기 연구를 하던 시절로 거슬러 올라가는데요. 이 아이디어들은 아래와 같이 발전해 왔습니다:
1990년대: 앙상블 학습 (예: 랜덤 포레스트)과 다중 에이전트 시스템이 협력적으로 모델을 결합하는 기술을 도입했습니다.
2010년대: IBM Watson과 같은 파이프라인 시스템이, 복잡한 작업을 처리하기 위해서 자연어 처리와 검색 모델을 결합하는 모습을 보여줍니다.
2020년대: Codex나 AlphaCode 같은 도구와 통합된 모델들이 외부 도구와 협업하는 구조를 확대해 나가면서 이런 아이디어들을 정교하게 발전시켰습니다.
최근인 2024년 2월, BAIR(버클리 AI 연구소)는 유명한 논문 "The Shift from Models to Compound AI Systems”에서 ‘복합 AI’를 공식적으로 조명하면서, 이 구조를 효율성과 확장성을 위한 시스템 레벨의 패러다임이라고 표현했습니다. 마침 며칠 전 Fireworks AI에서 발표한 복합 AI 모델, F1과 F1-mini에 대한 뉴스를 보면서 이 논문이 생각났는데요. 초기 테스트이긴 하지만, F1은 코딩, 수학, 논리 퍼즐 등의 영역에서 GPT-4o나 Claude Sonnet 3.5 같은 최신의 비공개 SOTA 모델과 대등하거나 더 나은 성능을 보여주고 있다고 하네요.
‘스케일링 대상’의 전환
스케일링 법칙의 목표 중 하나는, 자원을 추가로 투입했을 때 가장 큰 개선을 이끌어낼 수 있는 최적의 지점을 찾는 거겠죠.
오픈AI의 o1이 처음 출시되었을 때, 모든 사람들이 테스트 타임 컴퓨트(Test-Time Compute)에 대해 이야기했던 것을 기억하시나요? 오픈AI는 모델이 추론하는 과정에서 "더 오래 생각하도록" 만들면 복잡하고 어려운 문제를 풀 때 추론 성능이 크게 향상될 수 있다는 걸 보여줬습니다.
Image Credit: 오픈AI
예를 들어 박사급의 과학 문제라든가 Competitive Programming 과제에서 o1은 해당 분야의 전문가 급의 정확도를 보여줬는데, 이는 Test-Time Compute가 모델 크기나 데이터의 양을 크게 늘리지 않고도 성능을 향상시킬 수 있는 효율적인 방법이 되기 때문이죠 - 즉, 비용과 성능 간의 트레이드오프를 전략적으로 조절해 가면서 기존 모델이 달성해 왔던 한계를 넓힌 겁니다. 이에 대한 내용은 오픈AI의 “Learning to Reason with LLMs” 논문에서 자세히 다루고 있으니, 관심있으신 분은 한 번 보시면 좋겠습니다.
Test-Time Compute에 대해서 좀 더 깊이 알고 싶으시다면, 아래의 두 가지 중요한 논문을 살펴볼 만합니다:
“Scaling LLM Test-Time Compute Optimally Can Be More Effective than Scaling Model Parameters” - 구글 딥마인드와 버클리 대학이 공동으로 쓴 논문입니다.
“Training Verifiers to Solve Math Word Problems” - 2021년 오픈AI에서 나온 논문으로, Verifier를 도입해서 다단계의 수학적 추론 과제를 다루는데, 무작정 파라미터를 확장하는 방식을 지양하고, 효율적인 Test-Time Compute 전략의 중요성을 강조합니다.
이렇게, 지금까지처럼 모든 자원을 ‘트레이닝 단계'에 집중하는 대신, ‘추론 단계’를 최적화하고 스케일링하는 접근이 앞으로 더욱 많이 등장할 것으로 생각합니다.
‘갈림길’에 서 있는 우리
어떤 기술이든 선형적으로만 발전하지는 않죠. AI의 발전 과정에서, 지금은 Test-Time Compute와 같은 새로운 스케일링 접근법이 각광받기 시작하면서, 추가적인 컴퓨팅 자원이 최대의 의미있는 성능 개선을 이끌어낼 수 있는 지점을 보여주고 있습니다. 동시에, 다른 한 편으로는 ‘스케일링의 시대’에서 ‘통합의 시대’로 넘어가는 모습들도 등장하고 있습니다 - 바로 AI 모델이 만들어낸 ‘추론’ 결과가 외부의 도구나 워크플로우를 활용하는 시스템과 연결되어, 실제 액션으로 이어지는 모습 말입니다.
그런 의미에서, 지금은 ‘정체기’가 아닌 ‘전환기’라고 생각합니다. 우리는 이전에 경험해 보지 못했던 미지의 영역으로 들어가고 있는데, 여기서의 돌파구는 ‘무작정, 무한정으로 모델을 키우는 것’이 아니라, 더 스마트하고 더 효율적이며, 더 긴밀하게 통합된 시스템을 구축하는 방향에 있을 겁니다.
일리야 수츠케버의 말처럼, “우리는 순수한 스케일링의 그림자에서 벗어나, 다시 한 번 경이로움과 발견의 시대로 돌아가고 있습니다.”
(마지막으로, ‘통합된 시스템’과 관련해서 최근에 싱가폴 국립대 연구진이 발표한 “The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer USe”라는 논문을 참고해 보시기를 권합니다. 이 논문에서는 Claude 3.5를 GUI 자동화 에이전트로 활용해서 웹 탐색부터 게임에 이르기까지 20여 가지의 실제 데스크탑에서 하는 작업을 수행해 봤는데요. 100달러 미만의 ANC 헤드폰을 아마존 장바구니에 추가하는 등의 작업을 처리하는 과정에서 계획 수립, GUI 작업, 다이나믹한 적응 능력을 잘 보여주고 있습니다.)
트위터 라이브러리 (Twitter Library) 🐦
‘AI 에이전트’는 현재 AI 커뮤니티에서 가장 뜨거운 주제 중 하나라고 할 수 있습니다. 연구자들은 더 자율적으로 작동하고, 더 적응을 잘 하는, 그러면서도 고급의 추론이나 의사 결정까지도 가능한, 진정한 AI 에이전트를 만들기 위한 프레임웍, 도구를 계속해서 연구하고 만들어가고 있습니다.
혹시 직접 AI 에이전트를 만들어보거나 기술적인 구현에 관심이 있으신 분들을 위해서, 오늘은 다양한 유형의 에이전트를 만들 때 활용해 볼 수 있는, 8개의 무료 공개 자료를 소개합니다. - 초보자더라도 시작해 볼 수 있는 자료들이니 한 번 참고해 보시기 바랍니다:
*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!
튜링 포스트 팀이 읽고 있는 것들 📝
[꼭 한 번 읽어보세요] 오픈AI 이메일 아카이브: 일론 머스크와 샘 알트만 소송에서 공개된 2015~2019년 오픈AI 내부 이메일들을 Less Wrong에서 정리했습니다. 현재 AI 업계의 상황을 이해하는데 중요한 단서들을 담고 있습니다.
Ben Thompson의 ‘A Chance to Build’: Ben Thompson이 분석한, 제조업 재건 기회를 둘러싼 미국의 선택 - 자동화와 모듈화를 통한 제조업 기반 재건을 선택할 것인가, 기존의 미국-아시아 기술 협력 체제를 유지할 것이냐에 대한 고찰인데, 트럼프가 재선된 마당에 선택지는 명확해 보이기는 합니다.
Jeffrey Ding의 ChinAI 뉴스레터: IT Juzi의 데이터에 따르면, 마이크로소프트, 구글 등 글로벌 테크 기업들이 Baidu 등 중국 거대 기업들과 함께 중국의 AI 창업가 양성에 중요한 역할을 하고 있다고 하네요. 미국-중국 간 갈등이 계속되는 가운데, 베일에 쌓여 있는 중국 AI 업계에 대한 이해를 높일 수 있는 글이 아닌가 합니다.
ML 시스템 구축에 대한 39가지 교훈: Eugene Yan이 정리한, 머신러닝 시스템을 구축하고, 확장하고, 실행할 때 생각해 봐야 할 실용적인 교훈을 담고 있습니다.
금주의 주목할 만한 업계 동향 📰
일론 머스크의 회사들, 하늘 높은 줄 모르고 치솟는 가치
일론 머스크의 스페이스X가 2,500억 달러 규모의 주식 매각을 준비하는 가운데, xAI는 50억 달러의 자금을 조달하면서 기업 가치는 450억 달러로 이전 대비 두 배가 되었습니다. 일론 머스크와 AI라는 두 개의 키워드를 바라보고 투자자들이 몰려들고 있는데, 일론 머스크는 대통령에 당선된 트럼프의 ‘효율성 팀 (Efficiency Team)’에 합류하면서 워싱턴 정가에서도 관심과 호평을 받고 있는 듯 합니다. 위성, 슈퍼컴퓨터, 거기에 정치적 내막까지 얽혀있는 스토리들 안에서, 일론 머스크의 제국은 실리콘 밸리, 지구를 넘어서는 궤도를 그리는 걸까요?
자사 GPU 서비스보다도 빠르게 쌓여가는 CoreWeave의 야망
AI 칩 인프라의 강자인 CoreWeave가 2차 공모를 통해서 6억 5천만 달러를 추가로 확보했습니다. 시스코 (Cisco), 퓨어 스토리지 (Pure Storage) 같은 대형 기업들이 공모에 참여해서, 앞으로 급속하게 성장할 AI 인프라의 핵심 기반으로서 CoreWeave의 역할에 대한 신뢰를 보여주고 있습니다.
CoreWeave는 또 Dell과 Switch와의 협력을 통해서 Quantum InfiniBand를 탑재한 NVIDIA GB200 NVL72를 출시, 계속해서 AI 인프라의 발전을 주도하고 있습니다. 발전시켰습니다.
새로 나온, 주목할 만한 연구 논문
금주의 Top Pick
Autoregressive Models in Vision: A Survey
‘시각’ 영역에서의 자기회귀형 (Autoregressive) 모델 발전사, 향후의 전개 방향 등을 조사한 논문입니다. 내년은 본격적으로 ‘멀티모달’의 해가 되리라 예상하는 전문가들이 많은데요, 한 번 사전 학습 차원에서 보셔도 좋을 것 같은 논문이네요. —> [논문 보기]
Image Credit: 오리지널 논문
[상당히 재미있는 논문입니다] Game-theoretic LLM: Agent Workflow for Negotiation Games
이 논문의 연구진들은 AI/언어 모델이 사람처럼 협상도 하고 전략 게임을 할 수 있는지를 검토해 봤는데요. 결과적으로 AI가 아주 정교한 협상을 하는 것처럼 보이기는 하지만, 때로 이해할 수 없을 정도의 비합리적 행동도 한다는 걸 발견했습니다. 이건 AI의 결함 때문이라기보다는 AI가 협상의 과정에서 서로를 지나치게 신뢰하는 경향이 있기 때문이라고 합니다. 두 개의 AI가 서로 협상할 때는, 일반적으로 더 전략적으로, 그리고 이기적으로 행동하는 사람들과는 달리, 자기의 이익보다 협력을 우선시하는 경향을 보인다고 하네요. —> [논문 보기]
Stronger Models Are Not Stronger Teachers for Instruction Tuning
워싱턴 대학교와 Allen AI 연구소의 연구자들이, 더 큰 모델이 Instruction Tuning 과정에서 작은 모델들의 성능을 개선할 수 있는지 조사했습니다. 이 연구를 통해서 "대형 모델의 역설"이라는 현상을 발견했는데, 더 큰 모델이 중간 크기의 모델보다 반드시 더 나은 '교사'가 되는 것은 아니라는 흥미로운 결과라고 합니다. —> [논문 보기]
Generative Agent Simulations of 1,000 People
이 연구를 통해서 1,052명에 대한 인터뷰와 설문을 기반으로 그들의 행동을 모방하는 AI 에이전트를 만들었는데, 이 사람들의 응답을 재현하는데 85%의 정확도를 달성했다고 합니다. 이 AI 에이전트들은 사람들의 성격 특성과 사회 실험 결과를 예측하는데 사용할 수 있고, 더 단순한 모델들에 비해 편향성이 줄어든 것으로 나타났습니다. 정책 수립과 연구 분야에 활용될 수 있는 이 프로젝트는 참가자들의 데이터를 안전하게 보호하면서도 과학자들이 사람과 유사한 시뮬레이션을 탐구할 수 있는 안전한 방법을 제공한다고 볼 수 있습니다. —> [논문 보기]
Toward Modular Models: Collaborative AI Development Enables Model Accountability and Continuous Learning
마이크로소프트 연구진들이 단일 구조 (Monolithic) AI 모델의 한계를 해결하기 위한 방편의 하나로 모듈형 (Modular) AI 모델을 제안합니다. 이들은 "MoErging"이라는 분류 체계를 강조했는데, 이것은 설계 방식(e.g., Classifier 기반, 임베딩 기반, 작업별 특화 모델, Non-router)에 따라 분류된 전문가 모델들을 사용해 작업을 라우팅하는 방식입니다. 이 방법을 통해서 프라이버시 규정을 준수하면서도 더 높은 확장성을 보이고, 더 책임성이 향상된, 그리고 컴퓨팅 비용을 절감할 수 있는 모델을 만들 수 있습니다. —> [논문 보기]
언어모델의 혁신과 개선
New AI Model Gemini Experimental 1114 Debuts On Google AI Studio는 문제 해결 속도는 상대적으로 느리지만, 32K 컨텍스트 윈도우로 강력한 추론 능력을 보여주며 벤치마크 테스트에서 경쟁 모델들을 능가하는 성능을 보여주는 모델을 소개합니다. —>
[논문 보기]CamemBERT 2.0: A Smarter French Language Model은 프랑스어 자연어 처리에서 발생하는 ‘Concept Drift’ 문제를 토큰화 방식을 개선해서 해결했고, 질의 응답과 생물 의학 관련 NER (Named Entity Recognition)과 같은 특정 도메인 대상의 작업에서 우수한 성능을 보여주었습니다. —> [논문 보기]
Qwen2.5-Coder Series: Powerful, Diverse, Practical은 코딩, 그리고 다중 언어 코드 수정 작업 등에서 뛰어난 성능을 보여주는 모델로 개발자들을 위한 개방형 혁신을 이끄는 모델이며, 40개 이상의 프로그래밍 언어에서 GPT-4와 견줄만한 성능을 보여줍니다. —>
[논문 보기]Llava-o1: Let Vision Language Models Reason Step-By-Step은 구조화된 다단계 프로세스를 통해 멀티모달 추론 능력을 향상시켰으며, 벤치마크 테스트에서 우수한 성능을 달성한 모델입니다. —> [논문 보기]
Large Language Models Can Self-Improve In Long-Context Reasoning은 외부 데이터셋이 없이도 모델 출력값의 순위를 매기는 방식을 통한 자체 개선(Self-Improvement) 메커니즘을 활용해서, 긴 컨텍스트를 다루는 추론 작업에서 성능을 향상시켰습니다. —> [논문 보기]
모델 최적화 및 Alignment
Direct Preference Optimization Using Sparse Feature-Level Constraints는 계산 부하를 줄이면서도 효율성과 안정성을 모두 달성하면서, 거대 언어 모델(LLM)이 사용자의 선호도와 더 잘 정렬 (Alignment)할 수 있다는 걸 확인했습니다. —> [논문 보기]
Cut Your Losses In Large-Vocabulary Language Models는 대규모 학습에서 메모리 사용량을 줄여, 성능 저하 없이 배치 크기를 최대 10배까지 늘릴 수 있게 해 줍니다. —> [논문 보기]
SPARSING LAW: Towards Large Language Models With Greater Activation Sparsity는 거대 언어 모델(LLM)에서 해석 가능성을 유지하면서도 효율성을 높이기 위한 방안으로 뉴런 희소성(Neuron Sparsity)을 연구하고 있습니다. —> [논문 보기]
멀티모달 프로세싱 및 시각-언어 모델
Edify Image: High-Quality Image Generation With Pixel Space Laplacian Diffusion Models는 고도의 확산(Diffusion) 기술과 제어 가능한 출력 메커니즘을 통해서 고해상도의 실사와 같은 사진을 생성합니다. —> [논문 보기]
Language Models Are Hidden Reasoners는 자체 보상(Self-Rewarding) 프레임웍을 사용해서 사전 학습된 거대 언어 모델(LLM)의 잠재된 추론 능력을 끌어내고 있습니다. —> [논문 보기]
Counterfactuals 및 추론
Counterfactual Generation From Language Models는 재구성된 거대 언어 모델(LLM)을 사용해서 의미 있는 반사실적(Counterfactual) 시나리오를 생성함으로써, 미묘한 추론과 개입 분석을 가능하게 하고 있습니다. —> [논문 보기]
Can Sparse Autoencoders Be Used To Decompose And Interpret Steering Vectors?는 희소 오토인코더(Sparse Autoencoder)를 통한 조향 벡터(Steering Vector) 해석의 어려움을 연구하고, 재보정된 분해(Decomposition) 방법을 제안하고 있습니다. —> [논문 보기]
내러티브 및 미디어 처리
Extracting Narrative Arcs From Media Collections (유르겐 슈미트후버 공저)는 대조 학습(Contrastive Learning)과 진화 알고리즘을 결합해서 미디어를 일관된 스토리 구조로 재배열함으로써 스토리텔링을 더 잘 자동화해 줍니다. —> [논문 보기]
네트워크 자동화 및 특수 모델들
Hermes: A Large Language Model Framework On The Journey To Autonomous Networks는 모듈식 LLM 체인을 사용해서 셀룰러 네트워크 운영을 자동화하고 있으며, 에너지 절약 정책 평가와 같은 다양한 작업에서 높은 정확도를 달성합니다.
—> [논문 보기]Watermark Anything With Localized Messages는 다양한 변환 조건에서도 작동하는 ‘Localized’ 이미지 인코딩과 메시지 추출을 위한 강력한 워터마킹 프레임웍을 보여줍니다.
—> [논문 보기]
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!
Reply