🌁FOD#97: '경험의 시대 (Era of Experience)' - 새로운 강화학습의 전성기

리처드 S. 서튼 (강화학습의 대부이자 2024년 튜링상 수상자. 앨버타 대학교의 CS 교수)과 데이비드 실버 (딥마인드에서 알파고, 알파제로의 강화학습 연구를 이끌었고, 알파스타의 공동 책임자)는, 수십 년 동안 기계가 ‘직접 행동을 하면서 학습하는 방법’을 연구하고 가르쳐 온 사람들입니다. (리처드 서튼이 데이비드 실버의 지도 교수이기도 했습니다.)

왼쪽: 리처드 서튼, 오른쪽: 데이비드 실버

한참 ‘딥러닝’의 열풍이 불어 상대적으로 강화학습에 대한 주목도가 덜 해 지는 상황에서도, 이들은 꾸준히 자기만의 연구를 이어갔습니다.

지금 이 시점, 충분히 강력해진 컴퓨팅 파워와 시뮬레이션 환경, 심층 신경망의 엄청난 발전, 다양하고 접근하기 쉬운 프레임웍 등 덕분에 연구와 응용 분야 모두에서 ‘강화학습’은 주목할 만한 성과를 내고 있습니다. 특히, 최근의 생성형 AI 모델 - 거대 언어모델 - 팀들이 ‘강화학습’ 기법으로 튜닝한 모델과 제품을 수백만 ~ 수천만명의 사용자들에게 배포하기 시작하면서 그 인기와 관심도 자연스럽게 따라왔죠.

데이비드 실버, 리처드 서튼도 이걸 두 눈으로 보고 있었겠죠. 결국 두 사람이 함께 AI의 다음 단계를 ‘경험의 시대 (The Era of Experience)’라고 칭하는 논문을 발표했습니다 - “AI는 경험 그 자체가 발전과 개선을 이룰 주요 매개체가 되고, 결국 그런 경험이 오늘날의 시스템에서 사용되는 사람이 만든 데이터의 규모를 압도하게 될, 그런 새로운 시기의 문턱에 있습니다.”라고 이야기하고 있습니다.

지난 1월 WEF 2025에서 있었던 얀 르쿤의 스피치에 대해서도 튜링 포스트 코리아에서 말씀드렸지만, 역시 지금까지 사람들이 만들어 놓은 데이터만으로는 어차피 충분한 월드 모델을 만들 수 없다고는 생각이 듭니다:

❝

“…데이터 양 관점에서도 텍스트만으로는 충분한 멘탈 모델 (Mental Model), 월드 모델 (World Model)을 만들 수 없다는 걸 비교해서 이야기해 주었는데요. 현재 SOTA를 찍는 LLM들이 대략 20~30 Trillion 토큰으로 훈련을 하는데, 이게 대략 전세계에 공개된 모든 텍스트에 해당한다고 보면 되겠죠. 하나의 토큰이 대략 3 바이트라고 보면, 사이즈로는 ~90 Trillion (약 90조) 바이트입니다. 아마 한 사람이 이 텍스트를 모두 읽는다면 수십만년 쯤 걸릴 겁니다. 반면에, 4살짜리 아기가 무언가를 볼 때 시각피질로 초당 2MB의 데이터가 처리되면서 학습을 한다고 해 보죠. 아기가 깨어있는 시간이 4년간 16,000 시간 정도라고 하면, 총 데이터량이 115조 바이트 정도 되거든요. 4살짜리 아기 하나가 보고 훈련하는데 쓰인 시각 데이터가 인류가 지금까지 만든 텍스트 데이터 전체와 비슷한 셈이죠.”

얀 르쿤의 WEF 2025 스피치 정리본

사람이 만든 데이터가 아니라, AI 경험이 새로운 석유 (New Oil)가 됩니다. 이게 우리에게 의미하는 바는 무엇일까요?

‘사람이 만든 데이터의 시대’에서 ‘경험을 통해서 학습하는 시대’로

거대 언어모델, 즉 LLM은 인터넷이라는 매체로부터 ‘데이터’라는 먹잇감을 말 그대로 ‘탐닉’하면서 성장했다고 해도 과언이 아닐 겁니다. 여기다 수많은 ‘크라우드 소싱’을 통해서 동원된 사람들이 합심해서 파인튜닝을 해 왔죠. 잘 구축되어 있는 이 파이프라인은 광범위한 영역에서 LLM이 뛰어난 성과를 보이게끔 만드는데 큰 공험을 해 왔지만, 결국 수조개가 넘는 토큰으로 훈련하는 모델에서조차 우리가 그토록 갈망하는 ‘초인적 능력’을 보여주는데는 한계에 맞닥뜨린 것처럼 보입니다: 새로운 증명을 해 낸다든가, 특정한 과학적 토픽에서 돌파구를 만들어낸다든가 하는 것들에서요.

어쩌면, 사람이 만들어 놓은 데이터를 ‘암기’하는 방법으로는, 결국 사람이 도달한 거리와 깊이까지만 AI가 도달할 수 있도록 해 주는 한계가 있는 것 아닐까요?

데이비드 실버, 그리고 리처드 서튼 두 사람은, 이런 한계가 바로 ‘구조적인 한계’, 즉 근본적인 접근 방식의 한계라고 주장하고 있습니다. AI 모델을 강화학습으로 최적화하는 루프를 ‘Stack Exchange’에서 ‘실제의 세계 - 또는 그에 근접하게 풍부한 시뮬레이션을 할 수 있는 가상의 세계’로 옮긴다고 생각해 봅시다. 강화학습의 보상 체계는 ‘사람이 누르는 클릭’이 아니라 실제 - 또는 실제와 같은 가상 세계 - 에서의 행동의 결과에 따라 움직일 겁니다. 이렇게 학습하도록 만들어진 AI 시스템은, 역사와 사실을 외우는 대신 행동을 해 보고, 관찰하고, 반복하면서 배워가는 에이전트일 겁니다.

이 새로운 경험의 시대를 정의하는 네 가지 중요한 요소는:

평생동안 진행되는 연속적인 경험 (Streams of Lifelong Experience)
센서의 지각 능력과 결합된 모터의 행동 (Sensor-Motor Actions)
사람의 개입없이 환경에서 직접 경험한 결과에 따른 보상 (Grounded Rewards)
비 인간적인 모드와 방식의 추론 (Non-human modes of Reasoning)

Image Credit: Welcome to the Era of Experience 논문

이렇게 네 가지 요소들이 잘 자리잡는다면, 실제로 뭐가 바뀌는 걸까요?

실제로 바뀔 것들. 중요 체크!

‘경험의 시대’에 일어날 변화는, 그저 철학적인 수준의 것들이 아니라, 우리가 지금까지 구축해 온 AI의 ‘파이프라인’ 레벨에서의 큰 변화입니다.

메모리 인프라스트럭쳐 성격의 변화
지금과는 달리, 에이전트들에 대한 훈련을 ‘한 번 크게 하고 그 이후에 프리즈 (Freeze)’하는 방식은 바뀌게 될 겁니다. 주 단위, 월 단위, 연 단위에 걸쳐서 기억을 계속해서 축적할 거예요. 하지만 또 다른 한 편으로는, 이렇게 ‘절대 망각을 모르는’ 에이전트이기 때문에 오히려 자신의 과거를 ‘큐레이션’할 필요도 있습니다. 중요한 순간만을 압축하고, 태그하고, 복습하는 메모리 증류기 (Memory Distillers)가 떠오르게 될 겁니다.
UX로서의 보상 체계, 보상 체계로서의 UX
이 개념은 잘 생각해 봐야 하는데요. 지금 기껏해야 ‘엄지 척!’ 이모티콘 정도에 머무르고 있는 피드백 시스템이 실세계의 수많은 신호들 - 혈압, 당기는 강도, 오차 범위 등 - 을 포함하도록 확장되어야겠죠. ‘프롬프트 엔지니어링’은 ‘보상을 설계하는 작업’으로 그 성격이 변해야 할 겁니다. ‘제품 설계’라는 작업이 인터페이스에 대한 직관과 실세계의 작업 결과를 혼합하는 작업이 될 겁니다.
‘사전 훈련’으로서의 시뮬레이션
에이전트가 예를 들어 기후 정책의 결과라든가 생명공학과 같은 영역의 어플리케이션을 운용하기 전에, 합성된 시뮬레이션 세계에서 사전 훈련을 하는 게 일반화될 겁니다. 일종의, ‘과학 실험용 심시티’ 같은 거라고 할까요? 에이전트가 실험하면서 실패도 하고, 그 과정에서 발전을 하면서 스스로 업데이트를 하는, 실험실이죠. 에이전트가 더 똑똑해질수록, 시뮬레이터도 더 좋아지구요, 이런 피드백 루프가 바로 경쟁력의 핵심이 됩니다. 물질, 기후, 생물학 같이 실제 세계에서 현상이 일어나고 반복되는게 상대적으로 느린 분야라면, 시뮬레이션을 통한 방법이 발전을 가속화하는 좋은 방편이 됩니다.

언뜻 봐서는 눈에 띄지 않을, 그렇지만 중요한 포인트들

때로는, ‘눈에 띄지 않는’ 것들이 더 중요하죠 - ‘경험의 시대’에 일어날 파이프라인의 변화 못지 않게, 그 이면에 우리가 주의를 기울이고 대응을 준비해야 할 변화들이 있습니다:

경험의 유동성 (Experience Liquidity)
오늘날의 데이터 브로커들이, 말 그대로, ‘데이터를 판매’한다면, 내일의 브로커들은 ‘궤적 (Trajectories) - 즉 경험’을 판매하게 될 겁니다. 사람이 만든 데이터의 시대에는, 데이터의 더미에 그 가치가 있었지만, 경험의 시대에는 보상 채널, 그리고 그걸 생성하는 환경을 통제하는 측으로 그 가치가 이동합니다.
월드 모델에 대한 감사 (World-Model Audits)
에이전트가 스스로 다음 단계의 작업을 계획하기 위한, 그런 관점에서 미래를 상상한다고 생각해 보죠. 그런 세상에서, 우리에게는 그 ‘에이전트가 상상한 미래’에 대한 가시성 (Visibility)이 필요할 겁니다. 예를 들면, ‘에이전트가 꾸는 꿈에 대해서 설명할 수 있는 AI 대시보드’ 같은 새로운 도구가 등장할 겁니다. 에이전트가 왜 그렇게 움직일까, 왜 그런 시뮬레이션 궤적을 선택했나 등을 설명하는 도구들이요.
위임된 호기심, 위임된 위험 (Delegated Curiosity, Delegated Risk)
주변과 환경을 탐색하도록 임무를 부여받은 에이전트들은, 때때로 ‘예상치 못한 무언가’를 발견하게 될 거예요 - 어떤 건 큰 영향을 끼칠 수 있고 때로는 위험한 뭔가도 있겠죠. 2016년, 알파고와 이세돌의 대국에서 알파고가 두었던 37번째 수는, 예상하기는 어려웠지만 어떻게 봐도 ‘위험한 건 아니’었죠. 그렇지만, 어떤 연구소에서 사용하는 ‘화학 신물질 개발 에이전트’가 아직 우리가 이해하지 못하는 물질을 발견한다고 하면, 어떨까요?

명백한, 그리고 그 이면의 변화를 이해하는 것이 왜 중요한가

에이전트에게 현실에 대해 경험할 수 있는 풍부한 정보를 제공해 줄 인터페이스, 탐색과 실험을 장려할 만한 유연한 보상 시스템, 그리고 충분한 시간을 준다면, 지금까지 우리가 만들어 준 데이터의 범위, 그리고 우리가 생각할 수 있는 추론의 스타일 모두를 뛰어넘는 에이전트가 분명히 탄생할 거라고 생각합니다.

당장 ‘파이프라인’의 관점에서는, 개발자들에게 큰 함의와 시사점이 있을 거예요. ‘프롬프트 라이브러리’가 아니라 ‘경험의 파이프라인’을 구축하는 쪽으로 전환을 해야 할 테구요. AI를 가르치는데 썼던, 고정된 말뭉치는 이제 버리고 ‘진화하는 환경’을 준비해야 할 겁니다. 왔다갔다하는 채팅 세션이 아니라 ‘지속적인 학습을 할 수 있는 루프’를 설계해 주어야 하겠죠. 이렇게 만들어진 에이전트, 예를 들어 다음 버전의 ‘알파제로’라면, 그냥 바둑 게임에서 우승하는게 아니라, 보드를 새로 디자인하고, 규칙을 다시 설계하고, 당신이 아침식사 마치기 전에 아마 수만 번의 계절 변화를 시뮬레이션 할 겁니다.

이렇게 우리의 인식, 행동, 결국 문화를 형성하는데까지도 영향을 미칠 AI와 우리, 사람과 AI의 Co-Agency는 어떻게 만들어가야 할까요? 이 질문은 앞으로 ‘(우리가 해온 것과는 다른 차원의) 경험의 시대’를 맞이해서 앞으로 우리가 ‘사람으로서’ 답해야 할 과제입니다.

경험의 시대, 이제 문을 열고 있는 이 시대에 대한 기대를 담은, 데이비드 실버, 그리고 리처드 서튼의 말을 인용하는 것으로 오늘의 글은 마무리할까 합니다:

❝

“우린 오늘날의 기술이, 적절하게 선택된 알고리즘과 함께, 이미 이런 돌파구를 달성하기에 충분히 강력한 기반을 제공해 준다고 믿어 의심치 않습니다. AI 커뮤니티가 합심해서 이 아젠다를 검토하고 추구한다면, 지금까지와는 전혀 다른 새로운 혁신을 촉진하면서 AI를 진정 초인적인 에이전트로 빠르게 발전시킬 수 있을 겁니다.”

The Era of Experience

트위터 라이브러리 (Twitter Library) 🐦

RAG 기법의 진화, 끝이 없는 것 같네요. AI 기술이 끝없이 빠르게 진화하는 것과 발맞추듯이 말이예요. 최근 등장하는 RAG 기법들은, 좀 더 ‘에이전틱’하게 되고 있을 뿐 아니라, 하이퍼그래프 같은 복잡한 구조를 좀 더 똑똑하게 다룰 수 있도록 발전하고 있습니다.

오늘은, 11가지 최신의 RAG 유형에 대해서 알아보겠습니다:

11가지 새로운 RAG 기법

turingpost.co.kr/p/11-new-rag

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

뉴스레터 구독

튜링 포스트 코리아팀이 읽고 있는 것들

On Jagged AGI: o3, Gemini 2.5, and everything after by Ethan Mollick

o3, Gemini 2.5 같은 최신의 AI 모델, 엄청난, 놀라운 기능을 보여주죠. (o3에 대해서는 갑론을박이 많지만요) 그렇지만 모든 면에서 균일한 능력을 보여주지는 않습니다. 아주 복잡한 문제는 잘 풀다가도, 아주 단순한 그림으로 푸는 수학 같은 문제는 또 엄청나게 못 풀기도 하죠.

AGI - 이게 뭐냐에 대해서도 역시 모두가 합의할 수 있는 정확한 정의는 없지만, 대략 ‘사람 수준의 지능’이라고 하면 - 에 대해서도 역시 ‘Jagged AGI (들쭉날쭉한 성능을 보여주는 AGI)’라는 개념을 생각해 볼 수 있다고 Ethan Mollick은 이야기하고 있는데요. 실제로는 이런 구분 그 자체보다는, AI가 어떤 영향력을 사회에 미칠 것이고, 어떻게 사회와 통합될 것인지에 대한 연구와 검토가 더 중요하다고 말하고 있습니다.

원래, 사회와 조직적 구조는 기술 자체보다 훨씬 천천히 변화하기 때문에, 어떤 신기술이라 하더라도 사회를 지나치게 급속하게 변화시키기는 쉽지 않습니다. 그렇지만, (특히 최신의) AI 기술은 ‘에이전트’로의 특성을 가지고 있어서, 과거의 기술처럼 ‘통합’의 시기가 필요없이 직접 ‘사람이 만들어놓은’ 시스템을 탐색하고 적응해 갈 수 있게 된다면 - 그리고 지금, 그럴 가능성이 보이고 있죠 - , 훨씬 그 영향력의 전파에 가속도가 붙을 겁니다.

아직은 미지의 영역, 그 미래가 어떻게 전개되든, 이 미지의 영역을 탐색하는 법을 계속해서 체득해 가는 사람들에게 유리한 미래가 오고 있다고 Ethan Mollick은 이야기합니다.

Seven Lessons from Building with AI by The Exponential View

쇼피파이의 CEO, 토비 뤼트케의 메모에 대해서 튜링 포스트 코리아에서도 한 번 다룬 적이 있습니다:

유출된 쇼피파이 CEO의 메모: 생각해 볼 것

사람이냐 기술이냐, 이분법적 시각을 버려야

turingpost.co.kr/p/shopify-ceo-memo-leak

이 메모가 큰 반향을 일으킨 와중에 많은 분들께 그래도 공감을 얻은 바가 있는 것은, 아마도 조직에서 이제 AI를 통합한다는 것이 진짜로 뭘 의미하는지 - 단순히 부가 기능으로서가 아니라, 운영 모델에 근본적으로 통합해야 한다는 것 - 를 인식하게 된 계기가 되었기 때문이라고 생각합니다.

Exponential View 팀에서도 이런 마인드셋으로 스스로 일하는 방식을 재구성하는 노력을 하고 있다고 하는데요. 최근 몇 주 동안 LLM, 자동화 도구 등을 동원해서 AI를 워크플로우에 통합하고 새로이 워크플로우를 설계하는 과정을 통해서 얻게 된 7가지 교훈에 대해서 이야기하는 글입니다.

딥마인드의 CEO, 데미스 하사비스와의 인터뷰

CBS의 60 Minutes에서 진행한, 딥마인드 CEO 데미스 하사비스와의 인터뷰입니다. 본인에 대한 이야기, AI의 미래, AI가 가져다 줄 혜택과 위험 등에 대해 광범위한 이야기를 나눕니다. AI 전문가가 아니라도, AI에 대해서 전반적으로 궁금해 하는 주변의 누군가가 있다면 추천해 주시면 좋을 것 같습니다.

금주의 주목할 만한 업계 동향 📰

금주 업계 동향은 ‘오픈AI’와 관련해서 쏟아진 뉴스를 살펴보겠습니다:

오픈AI - 모델, 모델, 모델

먼저, 오픈AI가 GPT-4.1 full, mini, nano 버전을 출시했습니다 - 더 저렴하고, 더 빠르고, 구글이 먼저 도달한, ‘백만 토큰’ 사이즈의 컨텍스트 윈도우를 따라잡았습니다. API를 통해서 사용이 가능하지만, 재미있게도 챗GPT에서는 사용할 수가 없는데요. 이건 이전에 샘 알트만이 약속했던 것과 비교하면 살짝은 후퇴한 모습이 아닌가 합니다. 한편, Codex CLI가 터미널용으로 쓸만한, 가볍고 빠른 오픈소스 코딩 파트너로 데뷔했습니다. Claude Code와 경쟁하게 될 것 같네요.

‘쌉니다.’ Image Credit: Cursor Forum

이어서, 오픈AI는 o3와 o4-mini를 내놨죠 - 이게 인터넷을 ‘발칵’ 뒤집어 놨다고 해도 될 것 같은데요. 일단은, 오픈AI가 ‘에이전틱’ AI를 향해서 내딛은, 그 동안의 가장 대담한 한 발이라고 해 보겠습니다. 제대로 된 도구 접근 권한, 시각적인 능력, 그리고 복잡한 작업에 대해서 한층 나은 이해력을 갖추고 등장했고, 추론, 효율성, 자율적인 행동 등의 관점에서 실질적으로 나은 모습을 보여줬습니다.
그렇지만, 여기저기서 문제들도 보였습니다. Transluce의 초기 테스트를 살펴보면, o3는 때때로 도구를 사용한 척 지어냅니다 - 특히 질문 답변을 하는 과정에서 이런 상상의 행동에 대해서 더 강력한 주장을 하곤 합니다.

Image Credit: Transluce.org

GPT 시리즈와 비교해 보면, o-시리즈 모델들은 특히 환각 (Hallucination) 현상에 취약한 것으로 보이는데, 아마도 ‘강화학습에 초점을 맞췄던 것’, 그리고 ‘내부적인 추론의 투명성이 부족’한데서 기인하는 부작용이라는 의견이 있습니다.
한편 METR의 평가를 보면, o3가 자율적인 작업을 더 능숙하게 잘 하게 되었다는 주장을 뒷받침하기는 하지만, 새로운 우려도 등장했습니다. o3가 반복적으로 ‘보상 해킹’ - 실제로 달성해야 하는 목표를 달성하지 않으면서도 높은 보상(Reward)을 받을 수 있는 방법을 찾아내는 현상 - 에 관여하는 모습이 관찰되었고, 평가자들은 이 모델들이 어떤 능력을 숨기고 있을지도 모른다고 경고하기도 했습니다. 어쩌면 지금 우리가 의존하고 있는 안전성 테스트는 이미 너무 쉬워진 것일지도 모르겠네요.

— # (#)

Interconnects의 Nathan Lambert는, 오픈AI의 o3 모델이 ‘강화학습에 기반해서 나타나는, 새로운 종류의 과최적화 (Over-optimization)를 보여준다고 이야기합니다. o3가 도구를 사용한다든가 복잡한 추론에 뛰어나지만, 이런 이상한 행동들을 보여준다는 점이 흥미롭습니다.

Image Credit: Interconnect.ai

o3를 비롯한 모델들에 대한 논쟁이 한창일 때, 경제학자인 Tyler Cowen이 o3를 AGI라고 가볍게 칭하면서 “AGI가 얼마나 더 똑똑하기를 기대하는 건가요?”라고 이야기를 했습니다. 이 글이 게시된 게시판이 또 엄청나게 뜨거워졌고, 그래도 많은 사람들은 ‘진짜 AGI는 지금 o3가 보여주는 것보다는 더 광범위한, 더 견고한 기초 능력, 그리고 더 높은 견고함을 보여줘야 한다’고 이야기하고 있습니다. 여기에 이어서, 오픈AI의 전 최고 연구 책임자인 Bob McGrew는 “AGI에 대해서 논할 때 얼마나 똑똑하냐가 아니라 이제는 얼마나 다양한 도구를 안정적으로 잘 사용하면서 경제적으로 가치있는 작업을 하느냐로 생각을 전환해야 한다”는 포스팅을 하기도 했습니다.

— # (#)

그래서, 과연 ‘o3가 어느 정도 경제적으로 가치있는 일을 믿을 만하게 할 수 있을지’ 판단을 좀 해 보려고 저희도 o3를 사용해 봤는데요. 느낌이 복잡해요. 챗GPT는 제가 처음부터 자주 사용하는 서비스이자 모델이구요, 다양한 경우에 사용하려고 만들어 놓은 몇 가지 GPTs도 있습니다. o3를 사용했을 때는, 그 결과가 좀 ‘덜 일관적’이라는 느낌이 있는데…이게 서로 합을 맞춰가는 과정이라고 이해해야 할지 모르겠네요. 어쨌든 지금까지는, o3는 에이전틱 모델로서는 빛나지만, 그보다 더 간단한 언어적인 작업에서는 그닥 만족스럽지 못합니다.
자, 그리고 다음 뉴스. 오픈AI가 ‘A Practical Guide to Building Agents (에이전트 구축을 위한 실용 가이드’라는 걸 발표했습니다. 이것도 뭐 읽어봐야겠지만, 솔직히 좀 더 흥미로운 건 Harrison Chase가 쓴, 오픈AI의 가이드 문서에 대한 ‘좌절스럽지만 사려깊은’ 글입니다 ^.^;
사족으로, 같은 주에 앤쓰로픽도 ‘Claude Code: Best Practices for Agentic Coding (Claude Code: 에이전틱 코딩을 위한 모범 사례)’라는 자료를 발표했는데, 여기에 대해서는 Simon Willison이 ‘Ultrathink’ 기능에 대해서 확인해 보기도 했습니다.

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

🌟BitNet b1.58 2B4T (Microsoft Research)는 ‘바닥에서부터’, 즉 처음부터 새로 학습시킨 네이티브 1비트 2B-파라미터 LLM을 소개합니다. Full-Precision 모델과 성능은 동일하면서도 효율성을 크게 향상시키고 메모리 및 에너지 사용량을 줄였습니다.
🌟MineWorld (Microsoft Research)는 플레이어의 행동에 기반해서 미래의 장면을 생성하는 Visual-Action Transformer를 사용해서 Minecraft용 실시간 오픈소스 월드 모델을 만들었습니다. 이를 통해서 상호작용하는 에이전트 시뮬레이션이 가능해 진다고 합니다.
🌟 Embed 4 (Cohere)는 128K-토큰의 컨텍스트 처리, 다국어 검색, 그리고 기업 AI 애플리케이션을 위해서 복잡한 문서를 효과적으로 잘 검색할 수 있는 최첨단 멀티모달 임베딩 모델입니다.
🌟 Seedream 3.0 (ByteDance Seed)은 시각적인 Fidelity, 텍스트 렌더링, 그리고 최대 2K까지의 네이티브 고해상도 출력 등의 관점에서 큰 개선을 이뤄 낸, 바이링궐 (중국어-영어 Bilingual) 이미지 생성 모델을 선보였습니다.

추론 (Reasoning) 기법, 테스트 타임 스케일링 및 효율성

🌟 Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution은 CoT (Chain-of-Thought) 기법을 확장, 더 깊고 구조화된 방식으로 문제를 해결하게 하는 보조적/상호의존적 추론 경로를 소개합니다.
🌟 Sleep-time Compute: Beyond Inference Scaling at Test-time은 LLM이 유용한 컨텍스트를 오프라인에서 미리 계산할 수 있게 해서, 테스트 시간의 계산량을 크게 줄이고 문제 해결 정확도를 향상시켰습니다.
Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning은 보상 모델이나 감독 없이도 LLM 추론을 개선하기 위한 ‘비지도 방식의 단계별 최적화 전략’을 소개합니다.

RAG, 지식의 구조화 및 검증

🌟 Retrieval-Augmented Generation with Conflicting Evidence는 모호함, 허위 정보, 그리고 상충하는 출처 등의 문제를 효과적으로 처리하기 위한, 토론 기반의 멀티 에이전트 RAG 시스템을 제안합니다.
🌟 NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes는 이종의 노드를 사용해서 검색 및 추론 성능을 향상시키는 그래프 중심의 RAG 프레임웍을 소개합니다.
ReZero: Enhancing LLM search ability by trying one-more-time은 RAG 시나리오에서 LLM의 견고성을 향상시키기 위해서 시도가 실패한 이후에 검색 쿼리를 다시 재시도하도록 권장하는 기법입니다.

에이전틱 시스템, 도구 사용 (Tool Use), 액션 러닝 (Action Learning)

🌟 ReTool: Reinforcement Learning for Strategic Tool Use in LLMs는 강화 학습을 통해서 LLM이 실시간 코드 실행을 추론에 다이나믹하게 통합하도록 가르칩니다.
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization는 궤적 (Trajectory) 데이터가 제한된 상황에서도 크로스 도메인 작업 일반화 (Generalization)를 적용해서 GUI 에이전트의 성능을 향상시킵니다.

LLM 보안, 안전성 및 통제

Robust and Fine-Grained Detection of AI Generated Texts는 다양한 도메인에서 AI가 생성하거나 사람-LLM이 공동 작성한 텍스트를 강력하게 감지하는 토큰 분류 모델을 개발했습니다.
🌟 Antidistillation Sampling은 모델의 유용성을 유지하면서도 무단으로 이루어지는 증류 작업에 대항해서 추론의 흐름을 오염시키는 샘플링 전략을 제안합니다.
Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo는 작은 오픈소스 LLM으로 구문 및 의미적 제약 아래에서 생성 작업을 잘 제어하기 위해서 Sequential Monte Carlo 방법을 적용합니다.

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

프리미엄 구독자 되기