Turing Post Korea
Posts
🌁FOD#110: 모두의 더 나은 내일을 위한, 모두를 위한 AI

🌁FOD#110: 모두의 더 나은 내일을 위한, 모두를 위한 AI

+ 금주의 주요 뉴스 및 연구

Ksenia Se & Ben Eum
July 24, 2025

자, 7월의 막바지를 향해 시간이 흐르고 있습니다. 올해 상반기를 정리하면서, 튜링 포스트 코리아는 상반기에 여러분과 공유했던 내용을 정리하는 걸 중심으로 주간 다이제스트를 꾸렸는데요 - 그러느라고 꽤 굵직굵직한 이벤트들을 제대로 Follow-up 하지 못한 것들도 있는 것 같습니다. 정말 이 AI 분야, 흥미로운 일들이 끊이지를 않는 것 같아요.

단순한 연구라든가 신제품, 새로운 서비스 발표 뿐이 아니라, 전반적인 논의의 수준도 많이 뜨거워지고, 다양한 층위의 이야기들이 들리는 것 같습니다.

그럼 올 하반기도 다시 마음 단단히 먹고 저희 튜링 포스트 코리아와의 여정, 함께 계속해 보시죠!

모두를 위한 AI, 모두의 더 나은 내일을 위해

저와 튜링 포스트 코리아의 멤버들은 ‘AI는 우리 모두를 위한 것’이라는 믿음을 가지고 있습니다 - AI는 선(善)을 위한 도구와 힘이 될 수 있고, 그렇게 되어야 하고, 인간의 존엄성과 더 나은 삶을 위한 도구가 되어야 합니다. 하지만 ‘그렇게 되게 하려면, 바로 우리들 자신이 그렇게 되도록 만들어야 합니다.’

그렇게 되려면, 무엇보다 올바른, 그리고 강한 마음가짐이 필요합니다.

지금 우리의 현실

어쩌면, 이제는 초등학생도, 편의점에서 일하시는 분도, 트럭 운전하시는 분도 AI, 생성형 AI에 대해서 들어보셨을지 모른다는 생각이 듭니다. AI, 그 시대는 이미 우리 곁에 와 있습니다. 우리가 운전하는 자동차에도, 노트북에 설치해 놓은 브라우저에도, 우리가 일하는 중간 중간에도, 학교에도, 주방에도, 지하실에도 AI가 들어와 있습니다.

오픈AI는 이미 수억 명의 사용자가 아주 밀접하게, 매일 사용하고 있는 서비스를 제공하고 있습니다 - 만약 오픈AI 측의 발표를 믿는다면, 그 숫자는 약 8억 명 수준까지 올라가구요.

시장조사기관 IDC는 AI 기술이 2030년까지 전 세계 GDP를 기준으로 거의 20조 달러를 더하는 효과를 나타낼 것이라고 예측하고 있고, 컨설팅기관 PwC는 그보다는 약간 보수적인 15.7조 달러 정도를 예상하고 있습니다. 둘 중 어느 쪽이 맞든, 우리 인류는 ‘증기기관’의 발명 이후 ‘가장 큰 생산성의 확장’을 눈앞에 두고 있는 셈입니다.

그리고, 우리 인류는 이제 막 ‘AI Abundance(풍요)’라는 말의 뜻을 직접 몸으로 느끼기 시작했죠 - AI가 널리 보급되면서 누구나 손쉽게 내가 가진 능력을 한 차원 높게 확장하고, 새로운 기회를 만들어가고, 결국 사회 전반적인 생산성과 삶의 질이 함께 높아질 수 있는 가능성을 확인하고 있습니다. 물론 아직 정확히 ‘그 지점’에 도달하기에는 갈 길이 멀지만요.

사실, 진짜 이야기는 ‘AI가 벌어다 줄 수조 달러’ 이야기가 아닐 겁니다. 수천, 수만, 수십만 명의 사람들이, 비단 1년 전만 해도 생각도 하지 못했던 일들을 지금 하고 있다는게 핵심입니다.

그런데, 진짜 이야기는 ‘수조 달러’에 있지 않습니다.
수천 명의 사람들이 지금은 1년 전만 해도 할 수 없었던 일들을 하고 있다는 데 있습니다.

그럼에도 불구하고, AI에 대한 공적 담론 지형의 일부에서는, 여전히 ‘붕괴적인 시나리오’를 지배적인 분위기로 이야기하고 있는 것도 현실입니다.

지난 주에, Ksenia와 저는 Scalepost가 주최한 비공개 줌 콜에 참여할 기회가 있었습니다. 이 세션에 등장한 주요 인물들은, 인터넷의 선구자 빈트 서프 (Vint Cerf), 철학자 닉 보스트롬 (Nick Bostrom), 작가 월터 아이작슨 (Walter Isaacson), 테크 비저너리 에스더 다이슨 (Esther Dyson), 인지과학자이자 AI 회의론자를 대표하는 게리 마커스 (Gary Marcus), 저널리스트 닉 톰슨 (Nick Thompson), 그리고 이 외에도 공공이나 정책 수립이라는 영역에서 AI에 대한 인식을 형성하는 몇몇 인물들이 함께 참여했습니다.

그런데, 이 분들의 대화 전반에서 흐른 ‘기류(氣流)’는, 둠스데이, 디스토피아적인 이야기로 흘렀습니다. ‘공포’가 ‘현실주의’로 포장되고, ‘위험(Risk)’이 마치 ‘피할 수 없는 운명’인 것처럼 표현되었다고 느꼈습니다.

AI를 통해서 우리가 얻을 수 있는, 이전 시대와는 달라질 ‘새로운 풍요와 축복’에 대한 이야기는, ‘균형’이라는 차원에서조차 언급이 없었다는 점이 제게는 약간의 충격이었습니다.

제가 지나치게 순진한 건 아니라고 생각합니다. 저도 많은 시간을 AI 기술과 애플리케이션을 만들고 다루는 사람들과 이야기하면서 보냅니다. 이 친구들도, 이 시스템, 이 기술이 얼마나 결함이 많고 동시에 얼마나 강력한지도 잘 알고 있어요.

문제는, 우리가 생각의 틀을 ‘재난적 상황’에만 맞춰서 설계한다면, 상상력이 힘을 발휘할 영역은 작아질 수 밖에 없다는 겁니다. 지금은, 그 ‘상상력의 영역’을 어느 때보다도 넓게 열어둘 필요가 있는 때라고 생각합니다.

‘지금’이 특별한 순간인 이유

인터넷은 정보에 대한 접근을 ‘민주화’했다고 표현하곤 하죠. 그렇다면, AI는, 능력(Capability)에 대한 접근을 민주화하는 기술, 그런 도구가 아닌가 생각합니다.

그리고, 이게 바로 우리 눈 앞에서 뚜렷하게 나타나고 있는 진짜 변화예요. 누군가에게는 별 것 아닌 것처럼, 그렇게 작게 느껴지는 변화일 수 있지만, 또 다른 누군가에게는 삶 자체 – 그리고 살아가는 것 – 를 가능하게 만들고 있습니다.

제가 로봇의 하드웨어적인 구조에 대해서 공부하고 하드웨어 디자인을 하는 것
케냐의 농부가 대학 연구소에 있는 연구소자가 하는 수준으로 작물 작황에 대한 진단을 받는 것
방글라데시 다카의 가난한 10대 청소년이 GPT-4와 무료 Colab을 활용해서 물리 시뮬레이션을 만들고, 개인 보조 선생님으로 사용하는 것
우크라이나의 한 여성이 전쟁 지역에 살면서 거대 언어 모델로 6개 언어로 보조금 신청서를 작성하는 것

이런 것들은, 단순히 ‘생산성을 높이는 것’이 아닙니다. 이건, 인간의 존엄성까지 포함해서, 우리 모두의 삶, 그리고 일의 수준을 계속해서 새롭게 변화시켜주는 겁니다.

모두를 위한 AI를 만들어가기 위해 기억할 몇 가지 키워드

🌱 희망의 가속화 (The Acceleration of Hope)

AlphaFold, 단순히 ‘단백질 구조를 예측’한 것을 넘어선다고 이해해야 합니다 - 바로, 생물학이 작동하는 방식을 근본적으로 다시 설계한 것이죠. 이제 핵융합 실험실에서는, AI를 활용해서 인간의 두뇌로는 안전하게 계산할 수 없는 플라즈마와 극한의 조건을 시뮬레이션하고 있습니다.

🌍 환경을 위한 선견지명 (Environmental Foresight)

산불의 패턴을 추적하는 것부터, 핵융합 실험을 최적화하는 데까지 — AI는, 말하자면 ‘지구의 신경망’ 역할을 하고 있습니다. 미약한 신호를 감지하고, 보이지 않던 것을 드러내고, 우리가 먼저, 미리 준비할 수 있도록 경고해 줍니다 — 우리가 귀를 쫑긋 기울인다면 말이죠.

⏳ 시간을 되찾는 힘 (Time Compression)

AI는, 우리에게 시간을 돌려줍니다. 그저 개념적인 말이 아닙니다. 수개월 걸리던 연구가 이제는 며칠 만에 가능해졌고, 다섯 번의 진료를 거쳐야 하던 진단이 이제는 단 하나의 프롬프트로 가능합니다. 이건 단지 빠른 게 아니라 — 인간에게 주도권(Agency)이 돌아온 것이라고 해석할 수 있습니다.

🧠 생각의 경계를 허무는 다리 (Cognitive Inclusion)

AI는 우리들 사이에 다리를 놓아줍니다. 난독증이 있는 사람에게, 시력을 잃은 사람에게, 정보를 남들과는 조금 다르게 처리하는 사람들에게요. 보이지 않던 것을 설명하고, 말로 하지 못하던 것을 해석해 줍니다.

🎇 진짜 개인화된 교육/엔터테인먼트

당신을 이야기 속으로 초대하는 TV 시리즈, 감정 상태에 따라 톤, 속도, 이야기의 흐름까지 조절하는 AI 호스트, 당신의 수면 질과 에너지 레벨을 감지해서 전 세계 뉴스를 당신이 좋아하는 밴드 스타일로 리믹스해 들려주는 아침 뉴스, 당신이 실제로 읽을 만한 콘텐츠로 실시간으로 변형되는 신문, 당신의 관심사와 취향, 스타일 등에 따라서 맞춤화되는 광고판.

이런 세상이 마치 공상에 불과한 것처럼 들릴 수도 있지만 — 보수적으로 봐도, 우리는 지금 일방향 미디어가 쌍방향 인프라로 바뀌기까지 딱 5분 전쯤에 있습니다. 정적인 콘텐츠가 ‘맥락을 인식하는 상호작용’으로 바뀌고, 모든 표면이 ‘의미를 가진 API’가 되는 시대. 아직 그 지점에 도달하진 않았지만 —
이미 땅이 움직이고 있다는 느낌이 들지 않나요?

이런 미래를 앞에 두고, 우울할 이유도, 어둠 속으로 깊이 빠져들 이유도 없습니다. 그건 아무런 도움이 되지 않습니다.

그렇다면, 지금 우리가 해야 할 건 뭘까요?

우선, 가장 시급한 일은 단 하나의 무적인 알고리즘을 완성하는 것도 아니고, 그렇다고 발생할 수 있는 모든 위험을 미리 예측하는 것도 아닙니다.

우리가 해야 할 일은, 추상적인 표현이긴 하지만, 올바른 마음가짐을 ‘의식적으로’, 그리고 ‘집단적으로’ 갖는 것입니다.

P(doom) – 파국에 대한 서사는, 우리가 그걸 받아들이고 추종하기 시작하면 자기실현적인 예언(Self-fulfilling Prophecy)이 됩니다. 가능성을 탐색하기도 전에, 제한의 프레임부터 만들어버리는 거죠.

물론, 그렇다고 눈 감고 낙관하자는 얘기는 아닙니다. 튜링 포스트 코리아에 제가 써 온 글을 보신 분들은 아실 겁니다 - 저도 AI와 잘 공존하는 미래를 만들기 위해서 조심해야 할 점이 많다는 이야기를 많이 해 왔습니다. 대안은 ‘주도권(Agency)’입니다.

AI는 도구입니다. 인터넷이 그랬던 것처럼, AI의 진정한 가치는 그 코드가 아니라, 우리 모두가 가지게 될 용기, 창의성, 그리고 다른 사람에 대한 연민의 크기와 그 깊이에 따라서 결정될 겁니다.

빈트 서프(Vint Cerf)의 비전, 바로 “인터넷은 모두를 위한 것”이라는 거였죠. 이건 ‘기술적’인 정의가 아니었어요. 창립의 원칙같은 거였습니다.

우리도 같은 원칙을 가져야 합니다. AI는 모두를 위한 것입니다.

그 공통의 기반 위에서, 이제 우리 모두 함께 만들어 나가야 합니다. 우리가 AI라는 기술을 통해서 만들어야 할 가장 중요한 것, 그것은 새로운 ‘제품(Product)’이 아니라 더욱 다재다능하면서도 한 차원 깊이 모두와 연결된, 새로운 ‘인간성(Humanity)’이기 때문입니다.

트위터 라이브러리 (Twitter Library) 🐦

AI, 머신러닝 분야, 엄청나게 많은 강의자료, 공부할 것들이 있는 분야죠.

오늘은, 관련된 핵심 주제에 대한 지식을 업그레이드할 수 있는 유용한 ‘무료’ 자료들 6가지 - 서베이 논문 - 를 한 번 소개드릴까 합니다:

AI,머신러닝의 핵심 주제 필독 자료 6選

turingpost.co.kr/p/6-ai-key-concepts

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

튜링 포스트 코리아팀이 읽고 있는 것들

Superposition Meets Production – A Guide for AI Engineers by Ben Lorica on Gradient Flow

이 글은, AI 모델을 연구 단계로부터 실제의 제품으로 만들어갈 때 때 어떤 점들을 고려해야 하는지를 쉽게 정리한 안내서입니다. 다양한 실험 결과를 동시에 갖게 되는 복잡한 상황 속에서, 어떤 모델을 선택하고 어떻게 안정적으로 운영 환경에 적용할지를 설명합니다. 실험 관리, 성능 확인, 재현성, 인프라 구성 같은 실무적인 요소들을 중심으로, 실제 서비스를 만들려고 하는 팀에게 도움이 되는 실용적인 조언들을 담고 있습니다.

Reflections on OpenAI by Calvin French-Owen

이 글은 OpenAI가 지나온 길과 현재, 그리고 향후 방향에 대해서 성찰한 내용을 담고 있습니다. 필자는 오프AI가 연구 중심 조직에서 강력한 제품 중심 기업으로 전환한 점에 주목하면서, ChatGPT 같은 제품을 통해서 대중과의 접점을 만들고 실제 수익을 창출해 온 방식이 인상적이라고 평가합니다. 동시에, 안전성과 거버넌스에 대한 질문도 던지면서, 앞으로의 AI 개발에서 속도와 책임의 균형이 중요하다는 점을 강조합니다.

Asymmetry of Verification and Verifier’s Law by Jason Wei

이 글은, Jason Wei가 제안하는 ‘검증 비대칭성과 검증자 법칙(Verifier’s Law)’에 대해서 설명합니다. 핵심은, ‘어떤 과제가 해결되기보다 검증되기 쉬운 경우, AI가 그 과제를 더 빨리 해결할 수 있다’는 겁니다. 예를 들면, 수수께끼나 퍼즐의 답은 찾기 어렵지만 맞는지 확인하는 건 쉽죠. Wei는, “AI가 과제를 학습하는 속도는 그 과제를 검증할 수 있는 정도에 비례한다”는 법칙을 제시하는 겁니다.

Could AI Slow Science? by Arvind Narayanan & Sayash Kapoor on AI Snake Oil

이 글은, AI가 과학 연구의 생산성을 높이는 동시에, 오히려 과학의 진보를 느리게 만들 수 있다는 역설을 지적합니다. 논문의 수는 급증하지만, 재현성의 부족, 약화된 검증, 정보의 과잉 등을 이유로 해서 질 높은 연구가 묻히고 체계적인 진전이 쉽지 않게 될 수 있다는 우려를 담고 있습니다.

금주의 주목할 만한 업계 동향 📰

메타의 ‘슈퍼인텔리전스 팀’ 44명 명단 유출

Image Credit: Deedy의 X 포스트

최근 유출된 정보에 따르면, 메타의 슈퍼인텔리전스 팀(Meta Superintelligence Labs)은 오픈AI, 딥마인드 등에서 영입한 세계 최고 수준의 연구자 44명으로 구성되어 있는데, 이 중 절반이 중국계이고, 대부분이 박사 출신입니다. 이들 중 일부는 수천만 달러 이상의 보상을 받은 것으로 알려졌는데요, AI 인재 확보 경쟁이 극에 달했다는 걸 보여주는 하나의 사례로 언급되고 있습니다. 메타는 이 팀을 통해서 본격적으로 AGI 경쟁에 뛰어들 것으로 보이는데, 실리콘밸리의 AI 인재 지형, 그리고 연구 문화를 빠르게 재편하고 있습니다.

AI2의 AutoDS, 과학자가 놓친 질문을 묻는다

AI2 연구소가 공개한 AutoDS 시스템은, 사용자가 목표를 따로 정해주지 않아도 스스로 과학적 가설을 만들어내고 실험까지 수행하는 ‘열려있는 탐색형 연구 에이전트’입니다.

AutoDS는 베이지안 서프라이즈(Bayesian Surprise; ‘기대와 실제의 차이에서 오는 놀라움’을 수치화한 개념)를 나침반으로 삼고, 몬테카를로 트리 탐색(Monte Carlo Tree Search) 기법을 사용해서 미지의 영역을 탐험합니다 - 마치 과학자들이 우연히 돌파구를 발견하는 방식과 유사하게 작동하도록 설계된 거라고 합니다.

생물학과 경제학 분야에서의 초기 결과는 꽤 유망한 것처럼 보이지만, 역시 진짜 과학적인 과정은 동료 평가(Peer Review)를 통해서 검증돼야 한다는 점은 여전히 중요하다고 생각합니다.

오픈AI의 ‘수학천재 LLM’, 놀라운 성과…그러나 아직은 ‘절반의 충격’

OpenAI는 자사의 새로운 범용 LLM이 2025 국제 수학 올림피아드(IMO)에서 출제된 문제 6개 중 5개를 실제 대회와 유사한 조건에서 풀었다고 발표했습니다. 기하학에 특화된 별도의 기법이 없이도 추론력과 강화학습 능력만으로 이뤄낸 성과라는 점을 강조했죠.

하지만 수학자 테렌스 타오(Terence Tao)를 비롯한 전문가들은 신중한 접근을 해야 한다고 이야기합니다. 선택적 샘플링이나 막대한 컴퓨팅 자원을 사용하는게 실제 ‘이해력’과 쇼에 가까운 AI 연출 사이의 경계를 흐릴 수 있다는 겁니다.

인상적인 결과인가? 그렇습니다. 하지만 결정적인 증거인가? 아직은 아닙니다.

Windsurf, 세 갈래로 찢기다

오픈AI가 3억 달러 규모의 인수를 꿈꿨던 Windsurf 거래는, 마이크로소프트의 지식재산권(IP) 이슈로 인해서 결국 무산되었습니다.

이후 구글 딥마인드가 Windsurf의 CEO와 핵심 기술만 정밀하게 빼내가는 방식으로, 24억 달러 규모의 라이선스+인재 영입 딜을 성사시켰죠.

마지막으로, Cognition이 남은 모든 것을 인수했습니다 — 제품, 연간 8,200만 달러 규모의 매출(ARR), 그리고 250명의 인력이 이제 Devin이라는 이름 아래 다시 그 여정을 시작합니다.

세 회사, 하나의 IDE, 그리고 전략적 해체, 마치 교과서 같은 사건이었습니다.

Claude, 더 많은 주요 툴들과 연결되다

앤쓰로픽이 Claude와 직접 연결되는 툴 디렉토리를 공개했습니다.

Image Credit: 앤쓰로픽

Notion, Stripe, Figma, Prisma 등 다양한 서비스가 포함되어 있네요. 이제 사용자가 같은 말을 반복하지 않더라도 Claude가 실제 워크플로우와 데이터, 맥락 등의 정보에 바로 접근해서 더 정확하고 실행 가능한 답변을 제공할 수 있게 되었습니다.

AI와의 협업, 이제 더 이상 이론이 아닌, 실제 업무에 바로 쓸 수 있는 수준으로 진화하고 있네요.

Reflection의 Asimov, 분위기를 읽고… 당신이 쓰는 Slack도 읽습니다

Reflection AI가 새롭게 선보인 에이전트 Asimov는 코딩 자율성을 향한 다른 접근 방식을 택했습니다 — 모든 것을 읽는 것이죠.

단순한 코드 뿐 아니라 이메일, 문서, 슬랙 메시지, 채팅, GitHub 스레드까지 전방위적으로 읽어내면서, 조직의 곳곳에 흩어진 정보를 하나의 소프트웨어 작동 관련한 맵으로 정리해냅니다.

초기 테스트에선 Asimov가 Claude Sonnet 4를 블라인드 개발 테스트에서 능가하는 등의 유망한 결과를 보여주고 있지만, 개인정보 보호에 대한 우려, 그리고 오픈AI나 Devin과의 비교를 아직 못해 본 문제 때문에 아직은 ‘면밀히 지켜봐야 할 기술’로 분류해 보는 게 맞을 것 같습니다.

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

Kimi K2: Smarter than DeepSeek, cheaper than Claude
Moonshot AI의 연구진이 Kimi K2를 공개했습니다. 이 모델은 1조 파라미터 규모의 MoE 모델로, 한 번의 추론에 32B 파라미터만 활성화됩니다. MuonClip 옵티마이저를 사용해서 15.5조 토큰으로 훈련했고, 불안정성을 줄이면서 에이전트 기반 작업에서 뛰어난 성과를 보입니다. Kimi K2-Instruct는 LiveCodeBench v6에서 53.7%, SWE-bench에서 65.8%를 기록했는데, 이건 GPT-4.1과 DeepSeek-V3를 능가하는 수치입니다. 토큰 비용은 입력 $0.60, 출력 $2.50로, Claude Sonnet보다 80% 이상 저렴해서 현실적인 자동화 시나리오에 적합한 고성능, 오픈형, 비용 효율 모델로 평가됩니다. —> [논문 보기]
Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities (over 3200 authors!)
구글 연구진이 Gemini 2.5 Pro와 Flash를 발표했습니다. 두 모델 모두 희소 MoE 트랜스포머 구조를 갖고 있고, 100만 토큰 이상의 컨텍스트, 멀티모달 입력(텍스트, 오디오, 이미지, 영상)을 처리할 수 있습니다. Gemini 2.5 Pro는 AIME 2025에서 88%, LiveCodeBench에서 74.2%, GPQA-Diamond에서 86.4%를 기록했습니다. 이 모델은 3시간 분량의 영상도 처리할 수 있을 뿐 아니라, 도구 사용과 포켓몬 블루 게임을 406시간 내 자율적으로 클리어하는 등 에이전트로서의 능력도 보여줍니다. —> [논문 보기]
Grok 4 goes heavy
xAI에서 출시한 Grok 4와 Grok 4 Heavy는, xAI 측의 주장에 따르면 세계에서 가장 똑똑한 폐쇄형 모델인데요 ^.^ 당연히 태스크에 따라서 보여주는 성능은 조금씩 차이가 나고, 구독료 측면에서는 Grok 4가 $30/월, Grok 4 Heavy는 $300/월로, 오픈AI의 $200 플랜 또는 Gemini AI Studio를 잘 활용하는 분에게라면 큰 가치가 없을 수도 있습니다.
—> [논문 보기]
Voxtral: Frontier open source speech understanding models
Mistral AI의 연구진이 오픈소스 음성 모델인 Voxtral을 공개했습니다. 24B 및 3B 모델로 구성되고, Apache 2.0 라이선스로 배포됩니다. Voxtral은 32k 토큰 컨텍스트, 실시간 질의응답, 요약, 다국어 전사를 지원합니다. 성능 면에서 Whisper v3를 능가하고, ElevenLabs Scribe와 동등한 정확도에 절반 정도의 가격입니다. LibriSpeech, FLEURS, Mozilla Common Voice 벤치마크에서도 최고 성능을 보인 모델이기도 합니다. Voxtral Mini Transcribe는 $0.001/분의 가격으로 정확도가 아주 높아, 실제 서비스나 엣지 디바이스용 음성 AI에 적합합니다. —> [논문 보기]
MirageLSD: Zero-latency, real-time, infinite video generation
Decart AI에서 MirageLSD를 공개했습니다. 이 모델은 실시간 무한 영상 생성을 가능하게 하는 최초의 Diffusion 기반 모델인데, 지연 시간이 40ms 미만이고, 24FPS 출력이 가능합니다. Live Stream Diffusion 기법을 사용해서 프레임 단위로 생성하고, 기억 보강(History Augmentation)을 통해서 누적 오류를 해결합니다. CUDA 메가 커널, 숏컷 디스틸, GPU 최적 프루닝 등 기술적 혁신을 포함하고 있고, 16배 빠른 반응성으로 영상 편집, 변환, 스트리밍에서 높은 시각적 안정성을 유지합니다. —> [논문 보기]
LTX-Video: Realtime video latent diffusion
Lightricks의 연구진이 발표한 LTX-Video는 DiT 기반 모델로, 1216×704 해상도에서 30FPS 실시간 영상 생성이 가능합니다. 버전 0.9.8은 최대 60초 길이의 롱샷 생성, 이미지-투-비디오, 키프레임 애니메이션, 영상 연장 등을 지원합니다. 13B 및 2B로 증류한 모델은 H100 GPU에서 10초 만에 HD 영상 출력, 3초 내 프리뷰 생성이 가능하고, 포즈·깊이·캐니 엣지 등 제어 모델, FP8 양자화 모델도 제공되어서 저 VRAM 환경에도 적합합니다. TeaCache 기능으로 재학습 없이 최대 2배 빠른 추론이 가능합니다. —> [논문 보기]
MetaStone-S1: Test-time scaling with reflective generative model
MetaStone-AI와 중국과학기술대학(USTC) 연구진이 MetaStone-S1을 발표했습니다.
이 모델은 32B 파라미터 규모의 Reflective Generative 모델인데, 오픈AI의 o3-mini와 유사한 성능을 보여줍니다. 새로운 Reflective Generative Form 구조를 도입해서, 정책 및 프로세스 보상 모델(PRM)을 단일 백본에 통합하면서도 단 5,300만 개의 추가 파라미터만 사용합니다. 또 자기지도형 PRM(SPRM)을 통해서 단계별 레이블 없이도 고품질 추론을 선택할 수 있습니다. —> [논문 보기]

추론(Reasoning) 기법 및 아키텍처 Adaptation

🌟 Critiques of World Models
현재 기준의 월드 모델을 만드는 패러다임에 도전하면서, 중첩되고 생성적인 물리적 추론에 기반한 계층적 자기지도 AGI 프레임워크를 제안합니다. —> [논문 보기]
🌟 Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs
CoLa라는 테스트 시점 적응형 아키텍처를 도입하는데, 이건 사전 학습된 LLM의 레이어들을 입력에 따라 재배열하거나, 생략하거나, 반복하여 사용해서 추론의 효율성과 정확도를 높이는 방식입니다. —> [논문 보기]
🌟 The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner
튜링 머신 방식의 사고 흐름(CoT) 생성 기법을 활용해서, LLM의 문장 길이 일반화 능력을 향상시키고, 알고리즘 과제 수행을 모사하는 읽기-쓰기 동작을 재현합니다. —> [논문 보기]

에이전트 아키텍처와 멀티 에이전트 환경의 협업

MIRIX: Multi-Agent Memory System for LLM-Based Agents
여섯 가지 유형의 메모리와 다이나믹한 에이전트 조정 기능을 갖춘 모듈형 메모리 아키텍처를 구축해서, 대규모 AI 에이전트가 지속적이고도 멀티모달한 메모리를 가질 수 있게 해 줍니다. —> [논문 보기]
🌟 Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs
에이전틱 시스템 내에서 검색과 추론을 통합하고, 검색과 추론을 반복적으로 교차하는 방식을 활용해서 사실성과 추론의 깊이를 향상시키는 상호 보완적 방법론을 제시합니다.
—> [논문 보기]

컨텍스트, 검색, 그리고 메모리 시스템

A Survey of Context Engineering for Large Language Models
이 서베이는 컨텍스트 엔지니어링(Context Engineering)을 하나의 학문적인 분야로 바라보고 정리하는데, LLM의 정보 관리 및 추론 능력을 높이기 위한 검색, 메모리, 에이전트 통합 전략을 구체적으로 설명해 줍니다. —> [논문 보기]
🌟 FlexOlmo: Open Language Models for Flexible Data Use
독립적으로 학습된 혼합 전문가(MoE)를 사용한 모듈형 추론을 통해서, 재학습이 없이도 추론 시점에서 데이터 소스를 포함할지 여부를 선택할 수 있게끔 해 줍니다. —> [논문 보기]

강화학습 및 추론(Exploration)을 위한 탐색

First Return, Entropy-Eliciting Explore
LLM에 대한 강화학습(RL) 훈련의 안정성을 확보하기 위해서 불확실성이 높은 단계를 식별하고, 구조화된 의미 기반 롤아웃을 통해서 탐색을 유도합니다. —> [논문 보기]
Perception-Aware Policy Optimization for Multimodal Reasoning
내부 지각 손실(Internal Perception Loss)을 보상 학습에 추가해서, 멀티모달 벤치마크에서 시각 기반의 추론 오류를 크게 줄입니다. —> [논문 보기]
One Token to Fool LLM-as-a-Judge
강화학습에 사용되는 생성형 보상 모델의 취약성을 입증하고, 데이터 증강 전략을 통해서 그 견고성(Robustness)을 개선하는 방법을 제안합니다. —> [논문 보기]

잠재적 추론, 내부 추론, 효율적 추론

A Survey on Latent Reasoning
LLM 내부의 비언어적이면서도 내재적인 추론 메커니즘을 탐구하는데, 은닉 상태 전파(Hidden State Propagation)와 무한 깊이의 확산 기반 추론(Diffusion Reasoning)을 포함해서 다룹니다. —> [논문 보기]
🌟 Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation
같은 트랜스포머 레이어 묶음을 여러 번 돌려 쓰는 구조를 통해서, 토큰마다 필요한 만큼만 깊이 있게 생각하게 만들고, 전체적인 계산은 줄이면서도 더 정확한 추론이 가능하도록 합니다. —> [논문 보기]

모델 효율성, 파인튜닝, 개인화

T-LoRA: Single Image Diffusion Model Customization Without Overfitting
Timestep을 인식하는 LoRA를 사용해서, 단 하나의 컨셉 이미지로부터도 강건한(Robust) 개인화가 가능하게끔 해 줍니다. —> [논문 보기]
🌟 Lizard: An Efficient Linearization Framework for Large Language Models
Gated Attention과 메타 메모리(Meta-Memory)를 활용해서 트랜스포머를 선형화해서, 메모리의 사용량은 고정하면서도 무한의 컨텍스트 생성을 지원합니다. —> [논문 보기]

멀티모달 추론(Reasoning) 및 시각적 인터페이스

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning
언어 과제에서 학습된 인지 행동(Cognitive Behavior)을 2단계 콜드 스타트 및 강화학습(RL) 절차를 통해서 시각 추론으로 전이하고, SOTA 성능을 달성합니다. —> [논문 보기]
NeuralOS: Towards Simulating Operating Systems via Neural Generative Models
RNN 기반으로 상태를 추적하면서 디퓨젼 기반의 스크린 렌더링을 결합해서 GUI 기반 운영체제 상의 상호작용을 시뮬레이션하고, AI 기반 인터페이스 모델링을 할 수 있게끔 해 줍니다.
—> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.