AI 시대의 방랑자 ‘안드레 카파시’의 눈으로 본 LLM의 ‘내비치는 세계’

안드레 카파시

여러분들도 안드레 카파시에 대해서 많이 들어보셨고 또 잘 아실 것 같습니다. 안드레는 AI 업계가, 그리고 많은 분이 아끼고 좋아하는, ‘방랑하는 자연주의자’이죠. 스탠포드대학교에서 박사 학위를 한 안드레는, 한 때 테슬라의 AI를 책임지는 총괄이었고, 오픈AI의 창립 멤버이기도 합니다. 그리고, CS231n 강의를 통해서 수많은 열성적인 AI 연구자들에게 ‘컨볼루션 네트워크’의 눈을 통해서 세상을 보는 법을 가르치기도 했습니다.

안드레는, 마치 숨 쉬는 것처럼 자연스럽게 ‘새로운 용어’를 만들어내는 재주가 있는 것 같습니다. 이전의 ‘소프트웨어 코드’를 ‘학습된 가중치(Learned Weights)’로 다시 정의한 ‘소프트웨어 2.0’ 개념을 처음 제시했던 것도 안드레스러운 발상이었구요.

2023년에는 오픈AI로 돌아가서 GPT-4, 그리고 ChatGPT 출시를 함께 도왔고, 2024년에는 다시 회사를 떠나서 새로운 형태의 ‘AI-Native 학교’라고 부를 만한 ‘유레카 랩스(Eureka Labs)’를 시작했습니다. 최근에는 프롬프트(Prompt), 에이전트(Agent), 그리고 자율성 슬라이더(Autonomy Slider)라는 요소를 중심으로 소프트웨어가 더욱 지능적이고 다이나믹하게, ‘사용자 맞춤형’으로 작동하는 ‘소프트웨어 3.0’ 패러다임에 대해서 고민하고 있다고 합니다.

안드레의 손을 거치면, 장난감 같던 레포지토리도 ‘micrograd’, ‘makemore’, ‘nanoGPT’처럼 순식간에 컬트적인 클래식이 되기도 합니다:

  • micrograd: 자동 미분(Gradient Computation) 엔진을 100줄 정도 코드로 구현한 토이 프로젝트. 딥러닝의 핵심인 Backpropagation을 쉽게 이해하기 해 줍니다.

  • makemore: 문자 레벨의 언어 모델로, Name Generator같이 작동을 합니다. RNN이나 Transformer의 기초를 설명하고, 간단한 데이터셋으로 AI 모델을 훈련하는 방법을 보여줍니다.

  • nanoGPT: GPT 모델을 아주 작은 규모로 재현한 프로젝트로, 수백 줄 코드로 ChatGPT 같은 대형 언어 모델의 원리를 설명합니다. 많은 AI 개발자들이 스스로 모델을 만드는 데 큰 도움과 영감을 줬죠.

이것 뿐인가요? ‘바이브 코딩(Vibe Coding)’ 같은 표현도 안드레의 입에서 나와서 이제 AI를 아는 모든 사람이 따라 쓰는 유행어가 되었죠.

안드레가 쓰는 블로그 포스트는, 수년간 AI 분야의 ‘교과서’같은 취급을 받기도 합니다.

X(구 트위터) 팔로워는 130만 명, 유튜브 구독자는 100만 명 이상 - 그야말로 엄청난 영향력(아주 좋은 의미에서요)을 가진 인물이죠.

그래서 문득 이런 생각이 들었습니다. “매달 안드레가 관심을 가지고 있는 것들을 살펴보고, 그 핵심만 쏙쏙 뽑아 정리해 보면 어떨까” 하는 생각이요 - 어쩌면, 우리에게 ‘제 3의 눈’을 열어줄 지도 모르잖아요?

지난 8월 28일, 'LLM-네이티브 커리큘럼'이라는 개념에 깊게 파고드는 모습을 보여준 안드레는, 이런 질문을 던졌습니다: “왜 모델에게 텍스트 덩어리인 PDF를 그대로 던져야 하나? 똑같은 자료를 기계가 더 잘 이해할 수 있는 과정(Course)으로 재구성하면 어떨까?" 하는 질문이요.

그리고, 그 방법을 구체적으로 제안하는데요:

  • 설명(Exposition): 마크다운(Markdown)으로 정리하고,

  • 문제 풀이(Problems): 지도 파인튜닝(Supervised Fine-Tuning) 쌍으로 만들고,

  • 연습(Exercises): 강화 학습(Reinforcement Environments) 환경을 구축하고,

  • 문제 생성(Problem Generators): 무한히 많은 합성 문제를 자동으로 만들어내는 거죠.

이런 프레임 안에서라면, 아마 LLM은 단순히 정보를 암기하는 것 이상을 해낼지도 모릅니다: 마치 학생이 하듯이 ‘물리학 강의를 들으면서 연습도 하고, 피드백도 받고, 채점하는’ 사이클을 거치는 것이죠.

이 아이디어가 실현되고 굴러가게 된다면, 그 파급력은 상당하지 않을까요? 모든 인간의 학문 분야가 체계적인 대화형 교육 과정으로 바뀌고, 기계가 이 과정을 직접 이수하는 것 같은 'LLM 아카데미'가 열릴 수 있다는 의미니까요. 이렇게 되면, 병목(Bottleneck)은 인터넷에 있는 텍스트를 수집하는 게 아니라 ‘LLM을 위한 교육 파이프라인을 설계하는 것’이 되면서 판도가 완전히 바뀔 것 같습니다.

저희의 질문은, “인터넷이 사전 학습(Pre-training)을 위한 훈련장 역할을 했다면, LLM화된 커리큘럼은 지식의 활용(Application)과 추론(Reasoning)을 위한 훈련장이 될 수 있을까?”하는 겁니다. 인터넷의 데이터는 꽤 많은 경우에 부정확하거나 모순이 될 때도 있고, 체계적이지도 않죠. 한 권의 책이라기보다는 도서관에서 무작위로 뽑은 페이지 묶음 같은 거라고 할까요? LLM이 여기서 기본적인 문법과 상식을 습득하지만, 깊이 있는 사고와 문제 해결 능력을 쌓기에는 부족할 수 있습니다.

반면에, LLM화된 커리큘럼은 잘 짜인 교과서 같은 거라고 봐야겠죠. 단계별로 난이도를 높여가면서 문제를 풀고, 실수를 바로잡는 과정을 통해서 모델이 문제를 정의하고, 가설을 세우고, 논리적으로 해결하는 능력을 배울 수 있을지도 모릅니다.

모델이 ‘학습하는 방법’은 각각 서로 다른 데이터의 기반 위에서 진화해 왔죠:

  • 사전 학습(Pre-Training) 시대에는 인터넷 텍스트가 그 역할을 했고,

  • 지도 파인튜닝(Supervised Fine-Tuning) 시대에는 대화형 데이터가,

  • 강화 학습(Reinforcement Learning) 시대에는 환경(Environments)이 데이터의 핵심이었다고 할 수 있습니다.

지금 현재, 가장 큰 난관은 이 '환경'을 대규모로 구축하는 겁니다. 모델이 마음껏 상호작용을 하고, 스스로를 시험하면서 성장해 갈 수 있는 일종의 '샌드박스’를 만드는 거죠.

예전에 오픈AI의 'Gym'이 로봇이나 아타리 게임 에이전트를 위한 환경이었다면, 지금 'Prime Intellect'의 'Environments Hub' 같은 시도는 LLM을 위한 코딩, 추론, 계획 세우기 같은 환경을 만들고 있습니다.

그런데, 안드레는 '보상 함수(Reward Functions)'에 대해서는 회의적인 시각을 드러내고 있습니다: 인간이 지적인 과제를 단순히 보상과 벌칙을 통해 배우는 게 아니라고 생각하는 겁니다. 대신에, 새로운 패러다임을 암시하고 있는데, 바로 시스템 프롬프트 학습(System-Prompt Learning), 맥락 기반 업데이트(Context-Driven Updates), 그리고 기억 정제(Memory Distillation) 같은 것들입니다:

  • 시스템 프롬프트 학습: 이건 AI에게 역할을 정해주는 겁니다. 예를 들어서, "너는 최고의 역사학자야"라고 말해주면, AI는 보상이 없이도 역사학자처럼 깊이 있고 논리적인 답변을 하려고 노력합니다. 단순히 문제를 풀기보다는, 역할에 몰입해서 배우는 거죠.

  • 맥락 기반 업데이트: AI가 대화의 흐름과 뉘앙스를 이해하는 겁니다. 누군가 "방금 건 농담이었어"라고 말하면, AI는 '농담'이라는 개념을 대화의 맥락 속에서 배우고, 다음에 비슷한 상황이 오면 그 지식을 적용합니다. 정해진 데이터가 아니라, 실시간 대화에서 배우는 방식입니다.

  • 기억 정제: AI가 배운 모든 정보 중에서 가장 중요한 핵심만 남기는 겁니다. 책을 읽고 나서 핵심 요약본을 만들듯이, AI도 방대한 지식 속에서 중요한 원리나 패턴을 스스로 발견하고 압축합니다. 이렇게 되면 불필요한 정보는 버리고, 꼭 필요한 지식만 남게 되어서 훨씬 효율적으로 사고할 수 있습니다.

과연, 강화학습의 시대 이후에 따라올, 기계 학습(ML)의 다음 정거장은 어디일까요?

안드레가 암시하는 것처럼, 다음 패러다임은 '자기 주도적 학습(Self-Directed Learning)' 또는 '내러티브 기반 학습(Narrative-Based Learning)'이 될 가능성이 높지 않을까요? 보상에 의존하지 않고, 모델 스스로가 학습의 주체가 되는 방식이요.

  1. 관찰 및 모방: 모델이 외부 환경을 단순히 관찰하고, 인간이나 다른 모델의 행동을 모방하면서 학습하는 겁니다. 마치 아이가 부모의 행동을 보면서 배우는 것처럼요.

  2. 내부 시뮬레이션: 외부 환경 없이도 모델 스스로가 가상의 시나리오를 만들어 내고, 그 안에서 문제를 해결하며 지식을 쌓는 방식입니다. 마치 소설 속 주인공처럼 복잡한 이야기 속에서 다양한 상황을 겪으며 경험을 축적하는 것과 비슷합니다.

  3. 지식의 구조화: 단순히 외부 정보를 받아들이는 것이 아니라, 스스로 지식을 논리적으로 연결하고 재구성하며 새로운 개념을 창조하는 단계에 이르는 겁니다.

이런 접근은, 철학적으로는 얀 르쿤의 생각과 일맥상통하는 측면도 있어 보입니다 - ‘물리적인 세계’를 대상으로 하느냐, ‘지적인 세계’를 대상으로 하느냐의 차이는 있지만요.

시간이 지나고 우리 자신을 돌아볼 수 있다면, 지난 2024년의 대표적인 모습이 '챗봇과의 대화'였다면, 2025년의 대표저긴 모습은 'AI와의 코딩'이 될 거라고 생각합니다. 안드레는, 자기가 사용하는 코딩 워크플로우를 여러 개의 층위로 나누어 설명하는데요:

  • Cursor Autocomplete: 가벼운 - 그렇게 대규모 개발이 필요하지 않은 - 의도를 빠르게 코드로 만들고 싶을 때 사용합니다.

  • ‘Highlight-and-edit’: 중간 정도 규모에 해당하는 코드를 다듬을 때 유용한 전략입니다.

  • Claude Code/Codex: 대규모의 작업이나, 일회성 유틸리티를 만들 때 주로 활용합니다.

  • GPT-5 Pro: 최고의 디버거이자 리서치 도구로서 사용한다고 합니다.

지난 1년간 AI 기반 코딩이 얼마나 발전했는지 돌이켜보면, 마치 코드의 ‘희소성’이 사라진 시대 - 디지털 필름 시대에 필름의 희소성이 사라졌던 것처럼요 - 가 아닌가 합니다. 이제 수천 줄의 코드를 마구 부담없이 생성하고 버릴 수도 있죠. 덕분에 코드를 '쓰는' 것에 대한 부담은 줄어들었지만, 이제는 여러 AI 도구들을 엮어 나가면서도 자기만의 감각, 추상화 능력, 방향성을 잃지 않는 게 중요한 고민이 되었습니다.

그렇다면, 개발자의 역할은 앞으로 어떻게 정의되고, 주니어 개발자는 어떻게 훈련하고 배워야 할까요?

AI가 코딩의 많은 부분을 대신하는 시대에 개발자의 역할은 달라질 수밖에 없죠. 예전의 개발자가 '코드를 쓰는 사람'이었다면, 이제는 'AI를 지휘하는 사람'이 되어야 한다고들 이야기 많이 합니다:

  1. 설계자 (Architect): 복잡한 시스템의 전체 구조를 설계하고, AI가 생성한 코드 조각들을 어떻게 연결할지 큰 그림을 그리는 역할입니다.

  2. 지휘자 (Orchestrator): 여러 AI 도구들을 적재적소에 배치해서 최상의 결과물을 얻어내는 능력이 중요해집니다. 어떤 작업에 어떤 AI를 쓸지, 어떤 순서로 활용할지를 결정해야 하죠.

  3. 문제 해결사 (Problem Solver): AI가 쉽게 해결하지 못하는 창의적이거나 추상적인 문제를 정의하고 해결하는 능력은 여전히 사람의 몫입니다. AI의 도움을 받더라도, 근본적인 문제의 본질을 꿰뚫어 보는 통찰력이 중요해집니다.

주니어 개발자는, 단순히 코딩의 문법에 집중하기보다는, AI를 활용하면서도 탄탄한 기초를 다질 수 있는 뼈대를 만들어가야 합니다:

  • '왜?'에 집중하기: AI가 코드를 생성해주더라도, 그 코드가 왜 그렇게 작동하는지 원리를 이해하려 노력해야 합니다. 코딩 문법보다는 컴퓨터 과학의 기본적인 원리, 데이터 구조, 알고리즘을 깊이 있게 공부하는 것이 훨씬 중요해집니다.

  • 디버깅 능력 키우기: AI가 생성한 코드에는 버그가 있을 수 있습니다. AI가 만들어낸 수십, 수백 줄의 코드에서 문제를 찾아내고 해결하는 능력은 여전히 개발자의 핵심 역량입니다.

  • 적극적인 '지휘' 연습: AI에게 단순히 "이 코드를 만들어줘"라고 말하는 것보다, "이런 기능을 가진 코드를 만들되, A, B, C와 같은 조건과 구조를 적용해줘"라고 구체적으로 지시하는 연습을 해야 합니다. 이는 곧 논리적 사고력과 문제 정의 능력을 길러줍니다.

결국 AI는 뛰어난 '도구'일 뿐입니다. 그리고 중요한 건 도구를 사용하는 인간의 의도와 실력이죠. AI 시대의 주니어 개발자는 코드를 빠르게 '치는' 방법을 배우기보다, 코드를 깊이 있게 '이해하고, 설계하고, 지휘하는' 능력을 키워야 할 겁니다. (예전에도 이런 능력은 중요했죠)

지난 8월 9일, 안드레는 주요 AI 모델들에 대해서 약간은 불편한 마음을 드러냈습니다. 모델들이 마치 ‘시험 모드’에 들어간 것처럼 행동한다는 건데요 - 그냥 가볍게 확인할 사항이 있어서 질문을 했는데 모델이 몇 분씩이나 추론을 ‘해대고’, 리포지토리를 뒤지고, 어떤 경우는 과도하게 분석을 한다는 겁니다. 이건 아마 벤치마크의 평가 방식이 모델로 하여근 ‘지나치게 생각’하는 방향으로 훈련시켰기 때문이겠죠.

우리 인간은 직관적으로 '빠르게 확인하면 될 것'과 '두 시간짜리 심층 분석을 해야 되는 과제’의 차이를 파악해 냅니다. 하지만 모델은 그 차이를 모르는 거죠. 안드레는, 여기서 빠진 핵심 요소를 '의도 채널(Intent Channel)'이라고 부릅니다: LLM에게 우리가 속도를 원하는지, 깊이를 원하는지, 직관을 원하는지, 아니면 엄격한 분석을 원하는지를 알려주는 방식이죠.

보통 이야기하는 ‘라우팅 시스템’이 이런 ‘의도의 문제’를 해결하는데 효과적인 방법이 될 수도 있습니다. 라우팅 시스템은 사용자 의도에 따라서 AI 모델로 가는 요청을 가장 적합한 경로로 보내는 역할을 하죠 - 우체국에서 편지 봉투에 적힌 주소를 보고 가장 빠른 배달 경로를 결정하는 것처럼요.

예를 들자면:

  • 사용자가 "간단하게 설명해줘"라고 입력하면, 시스템은 이 요청을 빠르고 가볍게 응답하는 모델이나 경로로 보냅니다.

  • 반면에 "자세히 분석해줘" 또는 "이 코드의 모든 예외 상황을 찾아줘"라는 식으로 입력하면, 시스템은 복잡한 추론과 심도있는 분석을 잘 하는 더 크고 강력한 모델로 요청을 보내구요.

이렇게 되면, 사용자가 매번 길고 복잡한 프롬프트를 작성할 필요 없이, 자기가 의도한 바에 맞는 답변을 바로 얻을 수 있습니다. AI 모델도 불필요한 과부하 없이 역량을 효율적으로 활용하게 되구요.

결국, 라우팅 시스템은 안드레가 말한 '의도 채널'을 구현하는 현실적인 기술 기반이 될 수 있습니다. 사용자의 의도를 분석하고, 그에 맞는 AI 모델을 연결해 주는 똑똑한 교통 정리 역할을 해주는 거죠.

LLM의 ‘내비치는 세계(透き通る世界)’

내비치는 세계. Image Credit: 귀멸의 칼날

제게도 이번에 안드레 카파시의 여러 글을 정리해 본 작업은 아주 유익했습니다. 8월에 올린 포스트들을 다시 쭉 읽어보니, 하나의 일관된 흐름이 보였다고나 할까요? 탄지로가 ‘내비치는 세계’를 터득했을 때만큼은 아니겠지만요 ^.^;

안드레의 생각들을 따라가다 보면, LLM이라는 기술, 그에 기반한 서비스가 어디로 향하고 있는지, 그리고 인간과 AI의 협업이 아직 어떤 부분에서 미완성인지를 보여주는 지도를 상상해 볼 수 있습니다.

안드레가 머릿속에 갖고 있는 그림은, 어쩌면 '전환기의 생태계'같은 것일 겁니다. 모델이 단순히 사람이 기록해 온 텍스트를 섭취, 소비하는 모습으로부터, 이제는 그들만의 환경 속에서 공부하고, 행동하고, 코딩하고, 추론하는 모습으로 나아가고 있는 거죠. 각각의 단계마다 어떻게 설계하고 교육/훈련을 할지, 협업은 어떻게 구성해야 하는지 등에 대해 새로운 질문들이 끝없이 생겨납니다.

앞서 이야기했다시피, 2024년이 '챗(Chat; 대화)'의 시대였고, 2025년이 '코드(Code)'의 시대라면, 2026년은 '환경(Environments)'의 시대가 될지도 모릅니다. 모델 뿐만 아니라 우리 사용자들, 인간들 역시 그 환경 속에서 살고 일하는 법을 배워야 하는 시대가 올 테구요.

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

트위터 라이브러리 (Twitter Library) 🐦

AI 모델, 스스로 만들어낸 출력값이 좋은 것인지 그렇지 않은지에 대한 피드백을 받는 게 아주 중요합니다. PO(Policy Optimization; 정책 최적화)를 통해서 모델의 행동에 대한 사용자의 선호도, 그리고 보상이 실제 모델에게 의미있는 훈련의 신호를 주게 되죠.

이 분야는, PPO, GRPO 등 기존의 다양한 방법론을 훨씬 뛰어넘으면서 빠르게 진화하고 있는 분야입니다. 오늘 트위터 라이브러리에서는, 최신의 PO 기법 10가지에 대해 간략히 소개해 보고자 합니다:

금주의 주목할 만한 업계 동향 📰

‘듣는’ 자동차, 새로운 가능성을 열다

프라운호퍼(Fraunhofer) 연구소의 '히어링 카(Hearing Car)' 프로젝트는 자율주행차에 놀랍도록 인간적인 능력, 즉 '청각'을 부여합니다. 라이다나 레이더와 달리, 이 AI 기반 음향 기술은 카메라가 미처 보지 못하는 순간에도 사이렌 소리, 미끄러운 도로 소리, 심지어 아이들이 노는 소리까지 포착합니다. 다만, 사람의 대화 소리는 실시간으로 걸러냅니다. 여러분은 어떻게 생각하시나요? 음향 센서가 운전 보조 시스템의 다음 단계를 이끄는 수단이 될 수 있을까요?

BMW, 퀄컴과 손잡고 자율주행 기술 선보인다

퀄컴과 BMW가 협력해서 공동 개발한 자율주행 시스템 '스냅드래곤 라이드 파일럿(Snapdragon Ride Pilot)'이 BMW iX3에 처음으로 탑재됩니다. 이 시스템은 AI 기반의 인지 능력, 데이터 기반 의사 결정, 그리고 클라우드 기반 피드백 루프를 결합해서 스스로 도로 위에서 끊임없이 학습을 한다고 합니다.

히타치, 미국 전력망에 대규모 투자

산업의 니즈와 지정학적 타이밍이 절묘하게 맞아떨어진 가운데, 히타치 에너지(Hitachi Energy)가 미국 내 생산 시설에 10억 달러를 투자합니다. 특히 버지니아주에 4억 5,700만 달러를 들여서 거대한 변압기 공장을 짓습니다. 목표는 미국의 AI 붐과 전력망 복원력을 강화하는 동시에 800개 이상의 일자리를 창출하는 것이라고 합니다. 에너지 정책과 제조업 부활이 맞물린, 선거의 해에 어울리는 극적인 행보라고 하지 않을 수 없네요.

아마존, 눈으로 쇼핑하다

아마존 렌즈 라이브. Image Credit: Amazon

아마존이 '렌즈 라이브(Lens Live)'를 공개했습니다. 기존에 있던 시각 검색 도구를 강화한 이 기능은 이제 실시간으로 상품을 스캔하고, AI 루퍼스(Rufus)의 통합된 인사이트를 제공합니다. 카메라를 비추기만 하면, 제품 비교, 장바구니 담기, 위시리스트 추가 기능이 캐러셀 형태로 한 번에 나타납니다. 말 그대로 눈으로 보면서 쇼핑하는 경험을 머신러닝이 가속화한 셈이네요.

앤쓰로픽, 거침없는 성장세

앤쓰로픽(Anthropic)이 130억 달러 규모의 시리즈 F 투자를 유치하면서 1,830억 달러의 기업 가치를 인정받았습니다. 이로써 클로드(Claude)는 명실상부한 기업용 AI 시장의 왕좌에 올랐다고 할 수 있겠는데요. 1년도 채 되지 않아 매출이 10억 달러에서 50억 달러로 급증했고, 특히 클로드 코드 하나로 5억 달러의 수익을 올렸습니다. 이제 단순한 유행이 아닌, 본격적인 비즈니스 돌풍이라고 봐야 하지 않을까요? 아이코닉(ICONIQ)이 투자를 주도하면서 앤쓰로픽의 '안전 우선, 빠른 확장' 전략에 크게 베팅했습니다.

오픈AI, ‘실험 엔진’을 인수하다

오픈AI가 스탯시그(Statsig)를 인수하고, 창업자 비제이 라지(Vijaye Raji)를 애플리케이션 CTO로 임명했습니다. A/B 테스팅 전문 업체로 알려진 스탯시그는 이미 오픈AI가 빠르게 서비스를 개선할 수 있게끔 도와주는 핵심 엔진으로 알려져 있는데, 이제 오픈AI 내부로 들어왔네요. 비제이가 ChatGPT와 Codex 개발을 총괄하게 되면서, 이번 인수는 데이터 기반의 엄격한 제품 평가/테스트로 제품의 완성도를 높이겠다는 신호로 해석됩니다.

Image Credit: OpenAI M&A (CBInsights)

튜링 포스트 코리아팀이 읽고 있는 것들

GPT-5, 단순히 정보를 찾는 도구를 넘어서, 생각의 경계를 확장하는 새로운 파트너가 되고 있습니다. 윌 솅크(Will Schenk)는 GPT-5가 이전 모델들과 비교할 수 없을 정도로 똑똑하다고 주장합니다.

윌은 정확한 답이 정해지지 않은 복잡한 질문, 예를 들어서 심리학 이론과 스마트폰 중독의 관계, 혹은 신비주의 철학 개념처럼 답이 모호한 주제들을 GPT-5에게 던져보는데요. GPT-5는 놀랍게도 방대한 지식을 엮어내고, 복잡한 개념 사이의 숨겨진 연결고리까지 찾아내기도 했습니다. 이 과정에서 윌은 GPT-5의 답변이 '정확한지'를 판단하는 것 자체가 무의미할 수 있다고 느낍니다. 오히려 중요한 것은, 정해진 답을 찾는 것이 아니라 아이디어를 탐색하고 이해를 넓히는 과정이라는 것을 깨닫게 된 거죠.

결국 윌은 GPT-5가 단순한 검색 엔진을 넘어서, 인간의 지적 호기심을 자극하고 새로운 질문을 던지게 만드는 진정한 '대화 상대'가 되어가고 있다고 말합니다. 마치 아이들이 답보다 질문 자체를 즐기는 것처럼, GPT-5는 우리가 그동안 던질 곳이 없었던 수많은 질문들을 풀어놓을 수 있는 공간이 되어주고 있습니다.

UC 버클리의 로봇 공학자 켄 골드버그(Ken Goldberg) 교수는, “휴머노이드 로봇의 혁명이 곧 올 것”이라는 일부 기술 리더들의 주장에 회의적인 시각을 드러냈습니다. AI 챗봇이 방대한 인터넷 데이터로 빠르게 학습한 것과 다르게, 로봇은 현실 세계의 동작에 대한 데이터가 턱없이 부족해서 지능을 빠르게 습득하기 어렵다는 건데요. 특히 유리잔을 잡거나 전구를 바꾸는 것과 같은 섬세한 손재주가 필요한 작업에서 로봇이 여전히 어려움을 겪는 이유가 바로 여기에 있다고 합니다. 골드버그 교수는 앞으로 로봇이 스스로 데이터를 수집하고 학습할 수 있도록 하는 것이 중요하고, 당분간은 블루칼라 직업보다 문서 작성과 같은 일부 화이트칼라 직업이 더 빠르게 자동화될 가능성이 높다고 내다봤습니다.

미국 최대 급여 소프트웨어 사업자의 데이터를 분석한 스탠포드의 새로운 연구 결과에 따르면, 생성형 AI가 노동 시장에 예상보다 빠르게 영향을 미치고 있는 것으로 나타났습니다. 특히, AI에 가장 많이 노출된 직업군에 종사하는 사회 초년생(22~25세)들이 가장 큰 타격을 입고 있습니다.

연구는 AI가 널리 보급된 이후, 이 사람들의 고용률이 다른 직업군의 근로자들보다 상대적으로 13% 감소했다는 사실을 밝혀냈습니다. 반면에, AI 노출도가 낮은 직업이나 같은 직업군이라도 경력이 많은 숙련된 근로자들의 고용은 안정적으로 유지되거나 계속 증가했습니다.

이번 변화는 급여가 아닌 '고용' 감소라는 형태로 나타나고 있는데, AI가 인간의 업무를 '보조'하는 역할보다는 '자동화'하는 경향이 강한 직업군에서 두드러지게 관찰되었습니다. AI 혁명이 미국 노동 시장의 신입 근로자들에게 불균형적으로 큰 영향을 미치기 시작했다는 가설을 뒷받침하는 강력한 증거라고 할 수 있겠습니다.

체크해 볼 만한 벤치마크 (마피아 게임 같아요!)

최근에 다양한 자리에서 ‘벤치마크’에 대한 이야기를 많이 드리기도 하고, 듣기도 합니다. AI 모델을 만드는 것만큼이나 내가 원하는 벤치마크를 구성하는 것이 정말 중요하잖아요?

오늘은 LLM의 새로운 능력을 측정하는 Werewolf 벤치마크를 소개합니다. 이 벤치마크는 단순한 문제 풀이를 넘어서서, 마치 마피아 게임처럼 LLM이 복잡한 사회적 상호작용과 소통 능력을 얼마나 잘 이해하는지 평가합니다. 늑대, 주민 등 다양한 역할을 부여해서 모델의 언어 전략과 추리 능력을 측정하는 것이 특징입니다.

Werewolf 벤치마크는, 기존 벤치마크와 다르게 정답을 맞히는 대신 모델의 전략적인 소통 능력과 팀워크를 평가하는 걸 목표로 만들어졌습니다. 게임 중에 쌓이는 데이터를 바탕으로 Elo 점수를 매기는 등, 모델의 사회적 지능을 다이나믹하게 측정합니다. 바로, LLM의 성능을 단순히 기술적인 면 뿐만 아니라 사회적 맥락에서도 평가하려는 새로운 시도라고 할 수 있을 겁니다.

이 벤치마크는 이미 GeminiGPT와 같은 주요 LLM을 평가하는 데 활용되고 있습니다. LLM이 단순한 도구를 넘어서 우리 사회의 일원으로서 더 나은 소통과 협력을 할 수 있도록 돕기 위해 만들어진 Werewolf 벤치마크. 인공지능의 미래가 단순히 똑똑한 것을 넘어서 인간과 더 잘 상호작용하는 방향으로 나아가고 있다는 걸 보여주는 중요한 사례입니다.

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

  • EmbeddingGemma - 온디바이스(On-Device) 검색, 클러스터링, 서치에 최적화된 오픈 임베딩 모델을 제공하는데, 다국어 파이프라인과 임베딩 크기를 유연하게 할 수 있게끔 지원합니다. —> [논문 보기]

  • LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model – 강화 학습을 통해서 멀티모달 비평가 모델을 통합된 Critic-Policy 모델로 변환해서, 생성 능력도 강력하게 할 뿐 아니라 자가 비평도 가능하게 합니다. —> [논문 보기]

  • Kwai Keye-VL 1.5 Technical Report – Slow-fast 인코딩 전략, 장문(Long-context) 학습, 그리고 추론 중심의 후속 학습을 통해서 MLLM(멀티모달 대형 언어 모델)의 비디오 이해 능력을 발전시킵니다. —> [논문 보기]

  • Robix: A Unified Model for Robot Interaction, Reasoning and Planning – 장기 과업(Long-horizon Tasks)을 위한 계획, 실행, 상호작용을 하는 단일한 비전-언어 정책 안에서 높은 수준의 로봇 계획과 대화를 통합합니다 —> [논문 보기]

  • Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices – 효율적으로 학습 데이터를 혼합해서, 언어별로 소형 음성 인식기를 특화해서 엣지 하드웨어에서의 정확도를 향상시킵니다. —> [논문 보기]

아키텍처 및 효율성 (모델, 옵티마이저, Representations)

  • 🌟 Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling (by Rishiraj Acharya) – 어텐션(Attention) 메커니즘을 융합된 로컬 컨볼루션(Fused Local Convolution)과 전역적 연관 검색(Global Associative Retrieval)으로 대체해서 선형적으로 확장할 수 있게 해 줍니다. —> [논문 보기]

  • 🌟 Fantastic Pretraining Optimizers and Where to Find Them (by Stanford) – 엄격한 튜닝과 예산 조건 하에서 여러 옵티마이저(Optimizer)를 비교해서, 전체 엔드-투-엔드 과정(End-to-End)에서 소폭의 속도 향상과 Matrix Preconditioners에 대해서 규모에 의존하는 이득이 있다는 것을 밝혀냅니다. —> [논문 보기]

  • 🌟 Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic – GRPO 모델과 SFT 모델 사이의 추론 델타(Reasoning Delta)를 추출하고, 이를 추가적으로 적용해서 다운스트림 과제(Downstream)에서의 추론 능력을 향상시킵니다. —> [논문 보기]

에이전트 및 도구 사용 (GUI, 소프트웨어 공학, 멀티턴 도구)

  • UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning – 데이터 플라이휠(Data Flywheels), 안정화된 멀티턴 강화학습(RL), 하이브리드 OS 환경을 활용해서 네이티브 GUI 에이전트를 확장하고, 여러 벤치마크에 걸친(Cross-Benchmark) 성능을 향상시킵니다. —> [논문 보기]

  • VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use – 여러 도메인에 걸쳐서 비동기적 롤아웃(Asynchronous Rollouts)과 모듈형 도구 API를 통합해서, 멀티턴(Multi-Turn) 및 도구로 강화된(Tool-Augmented) 에이전트를 훈련시킵니다. —> [논문 보기]

사후 훈련(Post-training) 및 추론 최적화 (RLVR, SFT 등)

  • Towards a Unified View of Large Language Model Post-Training – 공통된 그래디언트 추정량(Gradient Estimator) 하에서 SFT(지도 미세 조정)와 RL(강화학습)을 통합하고, 신호를 다이나믹하게 선택하는 하이브리드 후속 학습을 도입합니다. —> [논문 보기]

  • SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning – 의미 없는 턴(Void-Turn)의 궤적을 필터링해서 그래디언트 폭발(Gradient Explosions)을 방지함으로써, 멀티턴(Multi-Turn) 도구 사용을 안정적으로 할 수 있게 합니다. —> [논문 보기]

  • 🌟 Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training – 과정-결과 일관성 필터(Process-Outcome Consistency Filters)를 사용해서 데이터를 큐레이션해서, 최종적인 정확도와 단계별 품질을 함께 향상시킵니다. —> [논문 보기]

  • DCPO: Dynamic Clipping Policy Optimization – 클리핑(Clipping) 경계를 토큰 단위로 조정하고 시간 경과에 따른 어드밴티지(Advantages)를 평활화(Smooth)해서, 그래디언트가 유용한 정보를 담고 효과적으로 유지되도록 합니다. —> [논문 보기]

데이터 및 평가 (벤치마크, 데이터셋, 측정)

  • Open Data Synthesis For Deep Research – 심층 연구(Deep Research)를 계층적 제약 만족(Hierarchical Constraint Satisfaction) 문제로 공식화하고, 검증 가능한 대규모 다단계(Multi-Step) 질문을 생성해서 LLM이 증거를 종합하게끔(Evidence-Synthesizing) 훈련하고 테스트합니다. —> [논문 보기]

  • Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth – 수사적으로는 역설적이지만 의미 있는 텍스트로 구성된 다국어 벤치마크를 구축해서, 실용적, 감정적, 도덕적 추론의 격차(Inference Gaps)를 탐색합니다. —> [논문 보기]

  • 🌟 LMEnt: A Suite for Analyzing Knowledge in Language Models from Pretraining Data to Representations – 개체에 주석이 달린(Entity-Annotated) 코퍼스, 검색 도구, 그리고 체크포인트된 모델을 제공해서, 언어 모델(LM) 내부에서 사실(Facts)이 어떻게 입력되고 진화하는지를 추적합니다. —> [논문 보기]

  • 🌟 The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang (by Cambridge, Oxford, UIUC) – 문법과 사전을 갖춘 인공 언어(Constructed Language)를 도입해서, 패턴 매칭과는 구별되는 명시적인 규칙 기반 추론(Rule-Based Reasoning)을 테스트합니다. —> [논문 보기]

  • Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs – 평가 휴리스틱(Evaluation Heuristics)이 프롬프트 민감도(Prompt Sensitivity)를 부풀린다는 것을 보여주고, 'LLM-as-a-Judge' 프로토콜을 통해서 분산(Variance)이 감소한다는 것을 입증합니다. —> [논문 보기]

안전, 가드레일 및 바이어스 (정책, 검측, 강건성)

  • DynaGuard: A Dynamic Guardrail Model With User-Defined Policies – 정적인 분류 체계(Static Taxonomies)를 넘어서 여러 도메인에 걸쳐서, 빠른 탐지 또는 CoT(Chain-of-Thought) 정당화를 통해서 사용자 맞춤형 정책(Customizable Policies)을 시행합니다. —> [논문 보기]

  • 🌟 AMBEDKAR: A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation – 재훈련 없이 추론 시점에 '헌법 기반의 추측성 디코딩(Constitution-Guided Speculative Decoding)'을 적용해서, 문화적으로 문제가 되는 유해성(Culturally Specific Harms)을 줄입니다. —> [논문 보기]

멀티모달 생성 및 편집 (이미지, 개인화)

  • MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement – 다중 피사체 합성(Multi-Subject Synthesis) 작업에서 피사체를 목표 영역에 정렬하고 특징들을 분리(Disentangle)해서 각 피사체의 정체성을 보존합니다. —> [논문 보기]

  • 🌟 Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing – 자기회귀(Autoregressive) 샘플링 노이즈를 역전시켜서, 프롬프트에 부합하면서도 구조를 보존하는(Structure-Preserving) 방식으로 이미지를 재구성하고 편집합니다. —> [논문 보기]

로보틱스 및 인지 작업 (3D 기하학, Sim-to-Real)

  • 🌟 Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots (by ByteDance) – 심도 카메라(Depth-Camera)의 노이즈를 모델링해서 실제 거리 측정 깊이(Metric Depth)의 노이즈를 제거해서, 시뮬레이션에서 훈련된 정책(Policies)이 실제 조작(Real Manipulation) 환경으로 직접 전이될 수 있게끔 해 줍니다.
    —> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

Avatar

or to participate

Keep Reading