8월의 시작과 함께, 튜링 포스트 코리아는 2025년 하반기를 새롭게 출발합니다.
우선, 기존에 많은 분이 사랑해 주신 ‘AI 101’ 시리즈를 통해서 계속해서 새롭게 등장하는 AI 모델과 기법들을 꾸준히 소개할 예정인데요. 금주에는 ‘GLM5, Kimi K2, DeepSeek, Qwen 등 중국의 AI 모델들’에 대해서 알아보는 에피소드를 준비합니다.
그리고, 정말 많이 언급되고 있지만 과연 그게 무엇인지부터 아직 명확히 이야기되지 않고 있는, ‘AI Literacy’에 대한 새로운 시리즈를 시작할 예정이니 많은 기대, 공유 부탁드립니다.
치열해지는 ‘AI 레이스(Race)’, 이 경쟁에서 ‘이긴다’는 건 무슨 뜻일까?
‘AI 레이스’, ‘AI 경쟁’.
본격적으로 시작된 것 같습니다.
백악관에서 최근에 발표한 ‘AI Action Plan’을 보면, 미국은 ‘의심의 여지없는, 누구에게도 도전받지 않는 글로벌 기술 우위’를 확보하기 위한 전면전에 돌입하고 있는 것으로 보입니다. 이 문서는 ‘경쟁’이라는 수사로 가득 차 있는데, ‘산업 혁명, 정보 혁명, 그리고 르네상스까지 한꺼번에 일어나는 시대’를 예고하고 있습니다.
워싱턴의 전략은 명확합니다: 민간 부문에 활력을 불어넣고, 인프라를 빠르게 구축하고, 공급망을 안정화하겠다는 게 그 핵심입니다.

AI Action Plan의 ‘오픈소스(Open-Source) 및 오픈 가중치(Open-Weight)’ AI에 대한 제안
하지만, 이렇게 ‘경쟁’에만 초점을 맞춘다면, AI가 현실에서 펼쳐지면서 나타나는, 훨씬 더 복잡하고 다면적인 흐름을 놓치게 될 위험도 있습니다. 각국의 정부가 거대한 AI 전략을 세우는 동안, AI 기술 그 자체는 실제로 아주 다양한 방향에서 확산되면서 변화를 만들어내고 있으니까요.
예를 들면, AI는 이미 국가의 경계를 넘어서 조용하게 우리의 일상 속 ‘도구’로 자리를 잡아가고 있습니다. 지난 주 공개된 구글의 ‘Opal’ 프로젝트는 ‘복잡하게 코딩을 하지 않고 자연어 명령, 시각적인 편집만 해도 미니 앱을 쉽게 만들 수 있게 해 주는 구글 랩스의 실험적인 플랫폼’인데, 이런 건 AI를 일반 사용자의 일상에 더 쓸모있는 기술로 만들고자 하는 시도겠죠.
그렇지만, 현재 시점에서 무엇보다 AI를 둘러싼 ‘지정학적 판도’가 단순한 정책을 넘어서 ‘경제력’이라는 현실적인 힘을 기반으로 재편되고 있다는 건 부인하기 어렵습니다. 그런 와중에, 저렴하면서도 성능이 뛰어난 중국산 AI 모델들이 전세계 시장을 빠르게 침투하면서, 미국 정부의 전략도 더 이상 ‘가격’과 ‘접근성’을 무시할 수는 없는 상황이 되고 있구요.
이렇게, ‘AI를 둘러싼 현실’은 복잡한 흐름으로 나타납니다. 개인, 국가, 세계 각각의 레벨에서 동시에 다층적으로 전개되고 있죠.
그렇기 때문에, 단순히 ‘이긴다는 것’에만 초점을 맞추는 정부의 전략은, ‘전략적인 착오’가 될 수도 있습니다. 미국의 ‘AI Action Plan’ 뿐 아니라 우리나라의 AI 투자 계획도, 나름대로 여러가지 면에서 잘 짜여 있기도 할 테고 노력을 한 계획이겠습니다만, 결국 본질적으로는 ‘뒤쫓아가는 전략(Catch-up Play)’에 가깝습니다. 더 큰 문제는, 이 경쟁의 끝이 마치 스포츠 게임처럼 단순한 시상대가 아니라, 우리가 아직 준비하지 못한, 전혀 새로운 경제적, 사회적 풍경일 수가 있다는 거예요.
《이코노미스트》의 최근 분석 기사를 보면, 인간 수준의 AI에 도달하게 되면, 세계 경제는 연간 20% 이상의 성장률을 보일 수 있을 거라고 합니다. 이 정도의 변화라면, 이건 단순한 기술 혁신이 아니라, 일종의 ‘단계의 전환(Phase Change)’ 정도라고 봐야겠죠. AI가 스스로 새로운 지식을 발견하고 창출할 수 있게 된다면, 부의 축적 속도는 아마 산업혁명 시기를 넘어서게 될 겁니다.
하지만 이런 급격한 성장은 대부분 극심한 혼란을 함께 일으키기도 하죠. 한 예측 자료를 보면, 사람의 인지 노동, 다시 말해서 ‘지적 노동’의 가치가, 결국은 컴퓨터의 연산 비용 수준으로 떨어질 거라고 이야기하는데요. 다시 말해서, AI가 만든 제품은 거의 무료가 되는 반면에, 사람이 제공하는 서비스는 엄청나게 비싸지는 ‘이상한 물가 구조’가 발생할 수도 있다는 겁니다.
미국의 ‘AI Action Plan’에서도 ‘미국 노동자의 역량 강화’ 필요성을 언급하기는 했는데, 다만 이 거대한 변화의 규모에 비해서 그 해법으로 제시한 재교육, 그리고 일자리 창출은, 글쎄요, 좀 부족해 보이기는 합니다. 말하자면, 22세기의 문제를 20세기의 방법으로 해결하려는 느낌이라고나 할까요?
미국을 포함한 모든 정부에서, ‘AI 시대의 고도화된 경제 환경에서 새 일자리를 찾도록 돕겠다’고 말들을 하지만, 정작 더 중요한 질문은 묻지 않는다고 생각합니다 - 바로, ‘그런 경제 환경에서라면, 좋은 삶이라는게 어떤 모습일까?’하는 질문이요.
이것과 관련해서, 언뜻 보면 상관없어 보일 수도 있지만, 《Nature Human Behaviour》의 한 연구를 살펴보시기를 권하고 싶습니다. 이 연구에서는, 주 4일 근무제를 시행한 결과, 직원들의 번아웃이 줄고, 전반적인 건강과 삶의 질이 개선된 것으로 나타났습니다. 물론, 주 4일제가 답이라고 이야기하는 건 아니고, 일하는 시간보다 중요한 요소가 있을 거라고 믿지만, 어쨌든 중요한 전환점과 우리의 일의 패턴 간에 상관관계가 있을지 모른다는 점, 힌트를 보여주는 건 아닐까 생각합니다. ‘성과’만이 아닌, 조금 다른 목표를 포함하는 관점의 변화 아래서, 일 자체를 재설계할 수 있는 가능성을 살펴보자는 움직임이죠.
지금, 미국의 ‘AI Action Plan’에 빠져 있는 부분이 이 부분이라고 생각합니다. AI는, 우리에게 더 많은 제품과 서비스를 안겨주는 기술이 되면 될까요? 아니면 더 많은 시간, 또는 지금과는 다른 패턴의 삶을 안겨줄 수 있는 무언가가 되어야 하는 걸까요? AI가, 단순히 노동을 대신해 주는 도구가 이날, 예를 들자면 번아웃 없는 삶을 가능하게 해 주는 동반자가 될 수 있을까요?
다가올 ‘초지능’의 시대, 정부가 해야 할 일은 두 가지입니다: 하나는 기술 혁신을 적극적으로 촉진하는 일이고, 다른 하나, 어쩌면 더 중요한 역할은, 새로운 사회 계약과 시스템의 설계자가 되는 겁니다.
AI가 가져오게 될 ‘미래의 현실’은 단순하지 않을 겁니다. 그 모습을 구체적으로 그려보고, 직시하고, 사람의 노동이 의미하는 가치가 근본적으로 재정의될 미래에 걸맞은 새로운 기준과 시스템을 만들어야 합니다. 불평등, 삶의 의미, 인간의 존엄성 같은 문제를 새로운 시대의 맥락에서 깊이 있게 다뤄야 할 때입니다.
‘경쟁에서 이긴다’는 말, 아주 단순하고 우리의 마음을 흔드는 말입니다. 하지만, 그 경쟁 자체가 오히려 우리에게 착시 효과를 주는 것일 수도 있습니다.
진정한 승리는, 가장 강력한 AI를 먼저 만드는 데 있는 것이 아니라, 그 AI와 함께 가장 번영하고, 공정하고, 인간다운 사회를 만드는 데 있는 것 아닐까요? 우리가 오직 속도전에만 집중한다면, 막상 도달한 결승선 너머에는, 우리가 더 이상 알아볼 수 없는 세상이 펼쳐져 있을지도 모르니까요.
트위터 라이브러리 (Twitter Library) 🐦
강화학습(RL), 이제 더 이상 예전처럼 PPO에만 머물러 있지 않죠. 불과 지난 두 달 사이에 연구자들이 LLM, VLM, 에이전트가 학습하는 방식, 파인튜닝하는 방식을 완전히 바꿔버리는 새로운 강화학습 기법들을 선보였습니다.
오늘은 한 번 알아둘 만한 최신의 ‘정책 최적화(Policy Optimization)’ 기법 9가지를 소개합니다:
*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!
튜링 포스트 코리아팀이 읽고 있는 것들
If writing is thinking by Steven Sinofsky
마이크로소프트에서 윈도우즈 사업부를 이끌었고 지금은 a16z의 Board Partner로 일하면서 활발하게 저술 활동을 하고 있는 Sinofsky의 글인데요. ‘글쓰기는 사고 그 자체’라는 이야기를 하고 있습니다. 기업에서 자주 보게 되는 긴 문서, 보고서 등이 사실 읽히지 않고 생산과 저장의 사이클을 반복하는 경우가 많은데요, 글쓰기를 통해서 스스로의 생각을 ‘외부화’하고 정리하는 과정 자체가 중요한 사고 훈련이 된다고 주장합니다. AI가 글을 대신 너무나 잘 써 주는 시대이지만, 진정한 가치는 글을 쓴 사람이 주제에 깊이 몰입해서 스스로 생각한 결과를 정돈하는 것에 있다고 이야기하면서, 단순한 요약이나 자동적인 문서 생성 과정은 그 본질을 담아내기 어렵다고 경고합니다. 즉, 글을 쓰는 행위 자체가 생각을 생성하고 발전시키는 핵심 메커니즘이라는 메시지네요.
A mini Moravec's paradox within robotics observed by Jim Fan
엔비디아의 로보틱스 책임자인 Jim Fan, 제가 아주 좋아하는 연구자이기도 한데요. Jim이 최근 트윗에서 로봇공학 분야에서의 미니 모라벡의 역설(Mini Moravec’s Paradox)을 언급했습니다. 바로, 사람에게는 아주 어려운 체조 동작들(예: 엎드려 팔꿈치로 몸을 들어 올리기 등)이 로봇에게는 비교적 쉽지만, 일상적이고 실용적인 작업(요리, 청소, 조립 등)은 훨씬 더 어렵다는 점을 지적한 겁니다. 이런 역설은 단순히 기술이 부족해서가 아니라, 환경에 대한 이해와 적응력 부족 — 즉, 감각과 상호작용을 통한 실생활 동작을 모방하는 것의 어려움 — 에서 비롯된 거라는 겁니다. Jim은 많은 경우에 이루어지는 로봇 데모가 지나친 과적합(overfitting) 모델에 기반해서 ‘모션 데모용 동작’에 치중되어 있고, 주변 환경을 제대로 인식하거나 대응하는 일반화된 능력은 부족하다고 비판하고, 이런 현상이 업계 전반의 문제라고 진단했습니다. 크게 공감합니다.
AI Market Clarity by Elad Gil (really great overview!)
돌이켜보면, 지난 12개월간 생성 AI 시장의 구조는 이전보다 훨씬 명확해졌다고 봅니다. 시장 구조가 명확해지면, 중요한 영역에서 유력한 기업들이 모습을 드러내죠. 파운데이션 모델(특히 LLM) 분야에서는 오픈AI, 구글(Gemini), 앤쓰로픽, 메타(Llama), 마이크로소프트, Mistral, X.AI 등이 꽤 명확하게 시장의 리더로 자리 잡았고, 코딩(Code), 법률(Legal), 의료 기록(Medical Scribing), 고객 경험(Customer Service), 검색(Search/IR) 등에서도 핵심적인 플레이어들이 점차 리더의 자리를 차지하고 있습니다. 동시에 회계, 컴플라이언스, 금융 툴, 영업 자동화, 보안 등 다음 혁신의 기회가 열릴 새 시장들도 눈에 띕니다. Elad는 이제 AI 시장에서 PMF(Product-Market Fit)와 Go‑to‑Market 전략이 승부를 가를 것이고, 앞으로의 도약은 기술적인 발전(Model Fidelity)과 실행력, 그리고 팀의 역량으로부터 비롯될 것이라고 강조하고 있습니다. 특히 단순한 인터페이스 기반 AI(Chat)에서 벗어나 사용자를 대신해서 행동하고 결정까지 수행하는 AI 에이전트(Agent) 중심의 생태계로 전환 중이라는 걸 중요한 흐름의 하나로 짚고 있습니다.
금주의 주목할 만한 업계 동향 📰
앤쓰로픽, ‘감사(Auditor)를 감시하는 감사(Auditor)’를 훈련
앤쓰로픽이 AI 시스템의 정렬 실패(Alignment Failure)를 감시하기 위한 세 종류의 AI 에이전트를 공개했습니다. 이 에이전트들은 ‘숨겨진 목표’를 찾아내거나, 보상 모델에 과도하게 순응(Sycophancy)하는 현상, ‘스위스에서 생수 추천하기’ 같은 모델의 이상한 행동들을 감지합니다. 실제로 한 에이전트는 단 하나의 뉴럴 피처(Neural Feature) 속에 숨어 있던 52가지의 편향(Bias)을 밝혀내기도 했다고 합니다. 또, 여러 개의 AI 감사 에이전트를 조합한 ‘슈퍼 에이전트 앙상블’로 문제의 감지율을 크게 향상시켰다고 합니다.
앤쓰로픽의 이런 시도는 분명히 확장 가능하고 반복 가능한 Alignment Oversight(정렬 감시) 체계를 만들어가기 위한 발전이라고 볼 수 있고, 동시에 AI가 스스로를 되돌아보는 자기 성찰적 기능에 한 걸음 더 다가간 사례이기도 합니다.
메타, 계속해서 오픈AI의 주요 AI 인력 영입
오픈AI에서 기술팀(Technical Staff)으로 일했던 Shengjia Zhao가 이제 메타의 Superintelligence Lab의 수석 과학자(Chief Scientist)로 합류했습니다. 아직 온보딩 상태인 것으로 보이네요. 그리고 곧 LLaMA 스타일의 새로운 모델도 공개될 듯합니다.

Image Credit: Alexander Wang Twitter
중국, AI 동맹 결집하면서 자립을 가속화
상하이 AI 컨퍼런스에서, 중국의 주요 테크 기업들이 국산(중국산) AI 기술 스택의 강화를 위해서 거대 언어 모델(LLM) 개발사들과 반도체 업체들을 연결하는 두 가지의 주요 동맹을 발표했습니다. 아마도 미국의 제재가 강화되는 가운데, 기술 자립을 위한 전략적 행보로 풀이될 수 있겠죠.
화웨이는 384개 칩으로 구성한 신규 클라우드 시스템 'CloudMatrix'를 공개해서 주목받았고, 텐센트는 자체 개발한 3D 월드 엔진으로 시선을 끌었습니다. 한편, 바이두는 디지털 휴먼, 알리바바는 스마트 글라스를 선보이면서, 관람객들에게 상기시켰습니다: ‘실리콘 밸리만이 전부는 아니다’라는 것을요.
테슬라, 삼성에 ‘텍사스 사이즈’의 생명줄을 던지다
테슬라가 삼성과 체결한 165억 달러 규모의 반도체 계약은, 오랫동안 지연되어온 삼성의 텍사스 반도체 공장에 새로운 활력을 불어넣는 동시에 고전 중인 파운드리 사업에도 숨통을 틔워줄 것으로 보입니다. 이 공장에서는 테슬라의 AI6 칩이 생산될 예정인데, 이 칩은 자율주행차와 휴머노이드 로봇에 탑재될 핵심 부품이죠.
이번 협력이 테슬라의 부진한 전기차 판매 상황을 해결해주진 못하겠지만, 삼성이 TSMC의 그늘을 벗어나는 데 한 걸음 다가서는 계기는 될 수도 있으리라는 희망을 가져 봅니다.
새로 나온, 주목할 만한 연구 논문
‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!
주목할 만한 최신 AI 모델
최초의 거대 시각 메모리 모델
Memories.ai의 연구진이 최초의 거대 시각 메모리 모델(LVMM)을 공개했습니다. 이 모델은 멀티모달 LLM이 무제한의 시각 정보를 기억하고 추론할 수 있도록 해 준다고 하는데요! 영상 분류(K400, UCF101), 영상 검색(MSRVTT, ActivityNet), 질의응답(NextQA, Temp Compass) 등에서 최첨단 성능(SOTA)을 기록하고 있습니다.
이 모델은 인간의 기억 방식을 모방해서 질의, 검색, 전모달(Full-Modal) 색인, 선택, 반추, 재구성의 6단계로 시각 정보를 정밀하게 검색·필터링하고 복잡한 질문에 대해 추론할 수 있도록 설계되었다고 합니다. —> [블로그 보기]Z.ai (전 Zhipu)의 GLM-4.5 모델
Z.ai(전 Zhipu예요^.^)에서 파라미터 수 3550억 개의 오픈소스 MoE 모델인 GLM-4.5와 경량 버전 GLM-4.5-Air (1060억 개)를 공개했습니다. 이 모델은 12개 벤치마크에서 글로벌 3위, 오픈소스 중에서는 1위를 기록했고, 추론, 코딩, 에이전트 수행 능력을 모두 갖췄다고 합니다. 초당 100토큰 이상의 생성 속도, 합리적인 가격($0.11/$0.28 per Input/Output Million Tokens), 온프레미스 배포 지원, 그리고 자율적인 멀티스텝 태스크 계획 및 시각화가 가능한 에이전트 네이티브 아키텍처를 갖추고 있습니다. —> [보도자료 보기]
Qwen 팀 – Qwen3-Coder-480B 모델
Qwen 팀은 4800억 파라미터의 MoE 모델 Qwen3-Coder-480B-A35B-Instruct를 공개했습니다. 35B의 활성 파라미터와 기본 25만 토큰 컨텍스트(최대 100만까지 확장)를 지원하고, SWE-Bench Verified 및 에이전트 작업에서 SOTA 성능을 달성했습니다. 총 7.5조 토큰(70% 코드)으로 훈련했고, 대규모 코드 RL 및 에이전트 RL을 활용한 후처리를 거쳤다고 합니다. Qwen Code, Claude Code 등 CLI 기반 코딩과 오픈AI 호환 API(Dashscope)를 지원합니다. —> [블로그 보기]
Sapient의 계층적 추론 모델
Sapient Intelligence는 뇌에서 영감을 받은 구조로 만든 Hierarchical Reasoning Model (HRM; 계층적 추론 모델)을 개발했습니다. 단 1,000개의 샘플로 사전 학습 없이 훈련한 이 모델은 ARC-AGI-2, Sudoku-Extreme, 30x30 미로 문제 등에서 기존 LLM보다 뛰어난 성능을 보였다고 합니다. 다중 시간 척도(Multi-Timescale)의 이중 순환(Dual Recurrent) 네트워크를 활용해서 빠르고 추상적인 추론을 할 수 있는데, 기후 예측(S2S)에서 97% 정확도를 달성했고, 의료·로보틱스 분야에도 적용하기 위해서 테스트 중입니다.
—> [블로그 보기]Yume: 무한한 인터랙티브 영상 세계를 생성한다
상하이 AI 랩과 푸단대에서, 키보드 조작으로 무한한 인터랙티브 영상 세계를 생성하는 시스템 'Yume'를 발표했습니다. MVDT, AAM, TTS-SDE 샘플러 등 첨단 기술을 통합했고, Sekai-Real-HQ 데이터셋 기반으로 학습되었습니다. Wan-2.1, MatrixGame보다 높은 지시 이행 점수(0.657→0.743), 피사체 일관성(0.932), 영상 부드러움(0.986)을 기록했습니다. 적대적 증류 및 캐싱을 통해서 연산 속도도 개선했다고 합니다. —> [논문 보기]
Franca: 확장 가능한 시각 표현 학습을 위한 중첩 마트료시카 클러스터링 기법
Franca에서, DINOv2나 CLIP 같은 상용 모델을 능가하거나 맞먹는, 최초의 완전 오픈소스 비전 모델입니다. ImageNet-21K, LAION-600M 등 공개 데이터로만 훈련했고, Matryoshka 클러스터링과 RASA 기법을 통해서 표현의 정밀도와 공간 편향 제거를 강화했습니다. 지식 증류나 비공개 데이터 없이도 86% ImageNet 정확도, 탁월한 OOD 감지, 3D 이해, 세분화·오버클러스터링 성능을 보였다고 합니다. 코드, 체크포인트, 데이터 모두 공개되어 있습니다. —> [논문 보기]
Gr-3: 범용의 로봇 컨트롤을 위한 VLA 모델
ByteDance에서는 양손 로봇을 제어하는 4B 파라미터의 VLA 모델 GR-3을 공개했습니다. 웹 기반 비전-언어 데이터, VR 기반으로 한 사람의 시연, 로봇 궤적 252시간 분량을 통합 학습했습니다. Pick-and-Place, 테이블 정리, 옷 접기 등 실제 작업에서 기존 모델 대비 현저히 높은 성과를 보였고, Flow Matching 기반의 행동 예측, RMSNorm 안정화, 작업 상태 예측 등을 통해서 지시를 이행하는 능력이 크게 높아졌다고 합니다. GR-3는 ByteMini 로봇에 탑재되어서 현실에서 정밀한 동작 수행을 할 수 있습니다. —> [논문 보기]
추론(Reasoning) 최적화를 위한 강화학습
🌟 Group Sequence Policy Optimization (by Qwen)은 토큰 단위가 아닌 시퀀스 단위의 중요도 비율을 활용해서, 강화학습의 안정성과 샘플 효율성을 향상시킵니다. —> [논문 보기]
🌟 RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback (by Chinese Academy of Science and Alibaba)은 이중 정제 및 정답 신호를 활용한 강화학습 기반 비평자(Critic) 훈련을 통해서, 긴 형식의 Chain-of-Thought(CoT) 추론 평가 및 필터링 성능을 개선합니다. —> [논문 보기]
Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning은 RLVR(강화학습 기반 시각 추론) 훈련에서 도메인 간의 상호작용을 분석해서, 멀티도메인 추론 성능이 어떻게 일반화되거나 충돌하는지를 밝힙니다. —> [논문 보기]
🌟 The Invisible Leash: Why RLVR May Not Escape Its Origin (by Stanford University, University of Tokyo, RIKEN AIP, University of Washington)은 RLVR이 기본(Base) 모델의 한계를 넘어서 새로운 추론 능력을 확장할 수 있는지에 대한 의문을 제기하고, 탐색 능력의 한계를 드러내 보여줍니다. —> [논문 보기]
긴 시계열 추론과 테스트 시점에서의 적응형 추론
🌟 Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning (by MIT CSAIL, Subconscious Systems Technologies, Princeton University, Tel Aviv University)은 메모리를 고려한 추론 방식과 함께 재귀적인 트리 구조 작업을 수행하도록 모델을 훈련시켜서, 장기적 추론(Long-horizon Reasoning)을 할 수 있게끔 합니다. —> [논문 보기]
🌟 MUR: Momentum Uncertainty guided Reasoning for Large Language Models에서는 추론 시 각 단계의 불확실성 수준에 따라서 연산량을 다이나믹하게 조절함으로써, 불필요한 과도한 연산(Overthinking)을 줄이고 정확도를 높입니다. —> [논문 보기]
🌟 Inverse Scaling in Test-Time Compute (by Chinese Academy of Science and Alibaba)는 테스트 시점에 추론의 깊이를 늘려서 오히려 성능을 악화시키는 실패 사례들을 보여주고, 특히 어떤 방해 요소나 제약 조건이 있는 경우에 그런 현상이 두드러지는지도 보여줍니다. —> [논문 보기]
🌟Does More Inference-Time Compute Really Help Robustness? (by Princeton University, NVIDIA, Carnegie Mellon University, Google DeepMind)는 추론 스케일링(Inference Scaling)은 특정한 조건(제한된 적대적 환경 같은)에서는 견고성을 높여주지만, 그 외의 상황에서는 오히려 성능을 저하시킬 수 있다는 것을 보여줍니다. —> [논문 보기]
멀티모달, Embodied, GUI-중심 추론
GUI-G2: Gaussian Reward Modeling for GUI Grounding은 GUI 환경에서의 Grounding을 단순한 정답/오답(Binary) 판단이 아닌 Gaussian Reward Landscape으로 재구성해서, 훨씬 더 정밀한 공간적 추론을 할 수 있게 해 줍니다. → [논문 보기]
🌟 ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning (by NVIDIA)은 시각 기반 잠재 추론 계획(Visual Latent Reasoning Plan)에 행동 피드백을 강화 학습으로 결합해서, 계획과 행동 사이의 간극을 줄이고 실체화된 에이전트의 실행 능력을 향상시킵니다. → [논문 보기]
Experience is the Best Teacher: Grounding VLMs for Robotics through Self-Generated Memory는 로봇의 자가 수집 경험 메모리(Self-Curated Experience Memory)를 활용해서, VLM(Vision-Language Model)을 실제 로봇 작업에 접목시키고 성능을 개선합니다. → [논문 보기]
특수한 Adaptation 및 Mitigation
Mitigating Object Hallucinations via Sentence-Level Early Intervention은 문장 단위의 선호도 모델(Sentence-level Preference Model)을 훈련시켜서, MLLM(멀티모달 LLM)에서 환각(Hallucination)이 발생하기 전에 조기에 감지하고 개입함으로써 잘못된 생성 결과를 줄입니다. → [논문 보기]
🌟 DriftMoE: A Mixture of Experts Approach to Handle Concept Drifts (by CeADAR, University College Dublin)는 MoE 라우터와 점진적 트리 전문가(Incremental Tree Experts)를 온라인 피드백 루프에서 공동 학습시켜서, 스트리밍 데이터 환경에서 적응력 있게 대응할 수 있게 해 줍니다. → [논문 보기]
🌟A New Pair of GloVes (by Stanford University)는 새로운 코퍼스를 기반으로 현대화된 GloVe 벡터를 재훈련하고, 명확한 문서화와 함께 개체명 인식(NER) 및 단어 유사도에서 성능을 향상시켜 줍니다. → [논문 보기]
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!



