오픈AI와 앤쓰로픽: ‘에이전틱 AI’를 향한 두 개의 방향
오픈AI의 챗GPT가 단독으로 약 60%, 챗GPT를 백엔드에서 쓰고 있는 마이크로소프트 Copilot까지 합한다면 약 75% 안팎에서 공고하게 ‘생성형 AI 챗봇’ 시장의 리더 자리를 점유하고 있는 가운데, 구글 Gemini, 그리고 Perplexity에 이어 앤쓰로픽의 Claude 정도까지가 ‘유의미한’ 플레이를 펼치고 있는 사업자들이 아닐까 하는데요. 범용 AI 챗봇으로 자리잡은 챗GPT와 더불어, 지난 분기 14%라는 가장 빠른 성장세를 보이면서 ‘비즈니스에 초점을 맞춘’ AI로 자리잡고 있는 Claude가 다양한 측면에서 경쟁을 하고 있습니다.

생성형 AI 챗봇 시장 점유율. Image Credit: FirstPageSage
특히, 각자 자신을 둘러싼 AI 연구자와 개발자 커뮤니티를 빠르게 구축하는 것이 중요한 시점인 지금, 오픈AI와 앤쓰로픽의 ‘눈에 띄게 다른 선택’이 주목을 끌고 있죠.
지금까지 Claude 3.7은 다른 많은 기능들 중에 특히 ‘코딩’을 위해서는 최고의 도구라고 인정을 받고 있죠. 여기에 LLM의 능력을 한 단계 끌어올리기 위한 구조이자 프로토콜로서 Claude가 제안한 MCP (Model Context Protocol)이 인기를 얻고 많은 사람들의 입에 오르내리고 있습니다.
MCP가 뭐고 어떤 의미가 있는지, 튜링 포스트 코리아에서도 곧 AI 에이전트 시리즈를 통해서 말씀드리겠지만, Greg Isenberg의 유튜브 채널에 Ras Micky가 나와서 설명한 내용이 간명하고 쉽게 이해할 수 있으니, 한 번 살펴보시기를 추천합니다:
아주 간단하게 이야기하자면, 아래 그림으로 이해하는 게 좋을 것 같네요:

MCP가 무엇인가. Image Credit: Ras Micky
LLM 그 자체는 ‘다음 단어 - 정확히는 토큰 - 를 예측하는 Machine’일 뿐이죠. 이걸 잘 훈련시켜서 질문 답변을 잘 하게 만들어서 엄청난 각광을 받은 게 챗GPT라고 할 수 있겠구요. 그 이후에, 웹 검색, 이메일 연동 등 외부의 도구를 LLM이 사용할 수 있도록 다양한 API 기반의 접근 방법이 등장하고 있죠.
그런데 이 개별적인 API 기반의 접근은 아무래도 P2P 기반의 통신처럼 점점 복잡해지고 관리 포인트도 증가하면서 문제가 발생하기 쉬우니, 이걸 일종의 표준적인 방법/프로토콜로 통신하고 제어할 수 있게 하자는 개념으로 Claude가 제안한 게 MCP (Model Context Protocol)라고 보시면 될 듯 합니다 - Ras Micky가 이야기한 것처럼, REST API 표준 (정확히는 de facto standard겠지만요) 같은 거라고 하겠습니다.
MCP에 대한 관심이 한창 올라가고 있어서, 마치 이 LLM 기반 통합 (Integration) 어플리케이션 아키텍처의 싸움에서 앤쓰로픽이 초기적이긴 하지만 우위를 점한 것처럼 보이기도 하는데요.
그런데 지난 3월 12일, 오픈AI가 OpenAI Agents Platform을 발표하면서 앤쓰로픽과는 또 다른 새로운 접근방식을 제시했습니다 - 앤쓰로픽이 MCP로 ‘개방형 표준화’에 기치를 거는 반면에, 오픈AI는 접근성, 그리고 속도와 효율이라는 관점에 중심을 두고 설계한 (것으로 보이는) ‘End-to-End 생태계’를 구축하는 방향을 택했습니다.
이 두 가지 접근 방식의 차이는 명확합니다. 앤쓰로픽의 MCP는 ‘구조화된 개방형 접근 방식’을 취하면서 AI 모델을 외부와 연결하는, ‘보편적 표준’을 구성합니다. 근본적인 목표가 ‘유연성’, 그리고 ‘상호 운용성’입니다.
반면에, 오픈AI는 ‘원활한 통합과 작동’ 그 자체에 초점을 맞추고, Agents SDK, Responses API, 내장된 검색 및 상태 관리를 갖춘, ‘완전한 툴킷’을 개발자 커뮤니티에 제공하는, 더 즉각적이면서 실용적인 접근 방식입니다.
잠깐 생각해 보면, 애플의 iOS, 그리고 안드로이드 간의 차이처럼 보이기도 해요 - 오픈AI의 OpenAI Agents Platform이 애플 iOS에 해당하고, 앤쓰로픽의 MCP는 안드로이드에 비교되겠죠. 범용 AI 서비스로 시장을 리드하고 있는 오픈AI의 관점에서 나름대로 폐쇄형의, 그러나 최고의 서비스를 제공하기 위한 구조를 제안하고, 후발주자로서 빠르게 아군을 모아 함께 생태계를 만들어가려고 하는 앤쓰로픽의 입장을 반영한 선택으로 이해할 수 있을 것 같습니다.
AI 연구자, 개발자 커뮤니티는 기본적으로 ‘개방형 표준’을 높이 평가하는 성향이 있다고 생각합니다. 그렇지만, ‘편리함’과 자체적인 ‘완결성’도 절대 무시할 수 없는, 어찌보면 개방성 만큼이나 중요한 요소입니다. 오픈AI가 구성해 놓은, 긴밀하게 통합된 도구들은, 에이전트를 구축하는 작업의 복잡성을 줄이고, 상태 관리, 도구의 통합, 관찰 가능성 같은 핵심 구성 요소를 단일한 플랫폼에서 해결할 수 있게 해 줍니다.
개발자들은 개방형 표준을 높이 평가하지만, 편리함도 중요하게 생각합니다. OpenAI의 긴밀하게 통합된 도구들은 에이전트 구축의 복잡성을 줄이고, 상태 관리, 도구 통합 및 관찰 가능성과 같은 핵심 구성 요소를 단일 플랫폼으로 묶습니다. 처음에는 실험적인 기능들로 시작했지만, 이제 지금 시점에는 안전 장치도 내장되어 있고 추적 및 분석 기능을 갖춘, 더 구조화된 Agents SDK로 발전하고 있는 상황입니다.
두 가지 접근 방식, 개발자 커뮤니티의 관점에서 각각 장단점이 있을 겁니다:
오픈AI 전략의 핵심은, 에이전틱 워크플로우를 API에 직접 내장하는 겁니다. 상태 관리 기능을 무료로 제공하고 관찰 가능성을 기본 기능으로 통합해서, 오픈AI는 개발자들이 AI 에이전트를 만들 때 항상 맞닥뜨리게 되는 흔한, 일반적인 문제점을 원초적으로 제거해 줍니다.
여전히, 앤쓰로픽의 MCP는 오픈AI의 Agents Platform과 경쟁할 강력한 대안입니다. 장기적인 상호 운용성을 위한 기반으로, 개방성, 그리고 플랫폼 간 호환을 강조하는데, ‘즉각적이고 즉시 사용 가능한 경험’을 강조하는 오픈AI와는 거의 정반대 관점이라고 할 수도 있겠죠.
많은 분들이, “2025년이 에이전트의 해가 될 것이다” 예상하고 계시지만, 저는 아직 에이전트의 해라고 부를 정도에 도달하기는 힘들 것 같습니다. 다만, 그 이전의 단계로서 "오케스트레이션 (Orchestration)의 해"라는 표현은 적절하다고 생각합니다.(제 생각에는, 진짜 제대로 작동하는 에이전트는 2026년에 등장할 거라고 봅니다).
개발자들은 더 이상 개별 모델에 큰 관심을 둘 필요가 없습니다. 지금 개발자와 스타트업들에게 필요한 건, 복잡도를 낮추면서 여러 가지 API와 서비스를 연결해 주는, 효율적인 ‘워크플로우’입니다. 에이전트 시스템과 오케스트레이션 플랫폼의 특성을 모두 갖춘, Manus를 둘러싼 최근의 반향 - Manus의 실체가 뭐냐, 진짜 새로운게 있느냐 없느냐 하는 논쟁은 차치하구요 - 이 바로 이런 변화를 엿볼 수 있는 하나의 단초라고 생각합니다.
이미 말씀드린 것처럼, 앤쓰로픽은 MCP를 다양한 AI 시스템 간의 상호 운용성을 가능하게 하는 열쇠로 보는 반면에, 오픈AI는 통합적인 End-to-End 접근 방식으로 전체적인 개발 경험을 소유하는 데 집중하고 있습니다.
이런 경쟁은 산업의 변화와 성장에 이익이 되고, 혁신을 촉진하고 독점을 방지하는 역할을 할 겁니다. 애플 iOS와 안드로이드 진영이 대결하면서 성장하는 것처럼요. 그리고 결국은, 개발자 커뮤니티, 그리고 시장의 반응이 미래를 결정하겠죠. 궁극적으로는 신뢰성, 명확한 가격 구조, 직관적인 오케스트레이션을 제공하는 회사가 메이저 표준의 자리를 차지할 겁니다.
이제 ‘에이전틱 AI’는 실험적인 개념에서 AI 제품과 서비스 개발의 핵심으로 이동하고 있습니다.
트위터 라이브러리 (Twitter Library) 🐦
‘어텐션 메커니즘 (Attention Mechanism)’은 모델이 데이터를 처리할 때 입력값의 특정한 부분에 다이나믹하게 집중할 수 있게 해 주는, 현재 트랜스포머 아키텍처의 근간을 이루는 핵심 요소죠. 최근에 튜링 포스트 코리아에서도 MLA (Multi-Head Latent Attention)에 대해 알아보기도 했습니다.
금주에는 다양한 AI 모델에서 사용하는 15가지 종류의 어텐션 메커니즘을 간략히 소개합니다:
*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!
금주의 주목할 만한 업계 동향 📰
CoreWeave, 오픈AI와 대박을 터뜨리다
CoreWeave가 오픈AI에 AI 인프라를 공급하는 대규모 계약을 체결했다고 합니다. 그 계약만 최대 119억 달러 정도 가치라고 하는데요. 게다가 오픈AI는 CoreWeave에 3억 5천만 달러의 지분 투자도 단행했습니다. 마이크로소프트, 오라클, 이제 CoreWeave까지 자사의 컴퓨팅 인프라 자원에 포함시키면서, 오픈AI는 AI 군비 경쟁을 위한 동맹들을 착실히 늘려가고 있습니다.
그런데, CoreWeave가 IPO 로드쇼를 기존보다는 좀 더 보수적인 관점에서 시작하는 것으로 알려지고 있습니다 - Cash Burn이 기존의 예상보다 훨씬 높을 것으로 판단된다고 합니다.
Cerebras, AI 추론 (Inference) 영역에서 빠르게 성장 중
Cerebras Systems가 사업 규모를 빠르게 확장하고 있습니다. 북미, 유럽 전역에 여섯 개의 새로운 AI 추론 (Inference) 데이터센터를 구축하는 것으로, 자국 내 최대 규모의 고속 추론 클라우드로 자리매김하고 있습니다. Cerebras의 데이터센터는 초당 4천만 개의 Llama 70B 토큰을 처리하는 빠른 서비스를 제공하는데요. 오픈AI의 o3나 DeepSeek-R1 모델 등, 더 빠른 응답속도가 필요한 최신 모델들이 늘어나면서, Cerebras는 ‘실시간 (Real-time)’ AI 경쟁에서 우위를 차지하기 위해 큰 베팅을 하고 있는 것 같네요.
그리고 허깅페이스와도 파트너십을 맺고, 5백만에 달하는 개발자들이 허깅페이스를 통해서 Cerebras의 고속 추론 서비스를 활용해 볼 수 있도록 한다고 합니다.
허깅페이스, BLOOM에 이어 BOOM으로 새로운 패러다임을 개척
우선 BLOOM은 허깅페이스가 이전에 개발한 거대 오픈소스 AI 언어 모델의 이름이죠. ‘BigScience Large Open-science Open-access Multilingual’의 약자구요.
BOOM은 허깅페이스가 PrimeIntellect와 함께 진행하는 또 하나의 프로젝트로, 여러 개의 데이터센터에서 AI 모델을 ‘분산’해서 트레이닝하도록 하는 프로젝트입니다. 이런 방법이 잘 된다면, AI 모델 트레이닝의 확장성이 새로운 전기를 마련할 수도 있을 것 같네요.
구글의 AI, 신나는 한 주!
다들, “드디어 구글이 저력을 발휘하는구나” 하는 느낌을 받지 않으셨나요? 구글이 최근에 발표한 Gemini 2.0 Flash Experimental 모델, Gemma 3, Gemini Robotics 등의 성능을 시장과 업계에서 놀라운 눈으로 바라보고 검토하고 있습니다.
Gemini Robotics는 최근 ARK Invest와 구글, 재팬포스트, 한국투자파트너스, 신한벤처투자 등에서 투자한 Apptronik과도 파트너십을 맺었네요.

튜링 포스트 코리아팀이 읽고 있는 것들
Stuart Russell, Oren Etzioni, Peter Norvig, Yoshua Bengio 등이 함께 참여한 ‘Future of AI Research’ 보고서
AI 추론, AI 에이전트, AI 윤리와 안전, Embodied AI, Hardward와 AI, AI와 Sustainability, 과학적 발견을 위한 AI, AI 연구의 다양성, AGI, AI를 둘러싼 지정학적 긴장관계와 그 의미 등 수많은 AI 관련 토픽을 총망라한 리포트입니다. 시간은 걸리겠지만, 향후 연구의 방향에 대한 거장과 리더들의 생각을 엿볼 수 있는 리포트인 것 같습니다.
Azeem Azhar의 ‘When AI met venture capital’
AI, 특히 생성형 AI가 개발자 생산성을 필두로 개인의 역량을 극적으로 늘리는데 엄청난 도움을 주게 되면서, AI라는 기술이 이런 스타트업에 투자해야 하는 벤처 캐피탈 시장에 어떤 영향을 주는지 생각해 본 글입니다. 실제로 스타트업들에 투자를 하는 입장에서, 공감되는 바가 있네요.
아직 공식적으로 공개되지는 않았지만, 얼마 전 샘 알트만이 ‘최신 모델이 글쓰기를 아주 잘 한다’며 X에 이 모델이 생성한 ‘AI와 슬픔’에 대한 글을 포스팅한 적이 있죠:
저도 꽤 인상적으로 봤는데, 또 글쓰기에 전문적인 분들은 ‘AI와 슬픔’에 대한 일종의 메타픽션 단편 소설이 문학적으로는 완성도가 떨어진다는 비판도 하시는 모양입니다 - 자아도취적이고, 감상적인 이미지와 진부한 비유 뿐이라고 보인다는 평도 있고, 구조적으로도 불완전하고, 인간적인 창의성도 없다는 말도 있구요.
그 ‘이야기를 잘 만들어내는’ 오픈AI의 AI 모델, 그리고 다가올 AGI에 대한 비판적 시각을 담은 글입니다.
새로 나온, 주목할 만한 연구 논문
‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!
주목할 만한 최신 AI 모델
Little Gemma 3 that you can run on a single GPU or TPU is better than big Gemini – 구글 딥마인드 연구진이 하나의 GPU/TPU에서 실행할 수 있게 최적화한 경량의 최첨단 오픈 AI 모델 ‘Gemma 3’를 발표했습니다. 이 모델은 140개 언어를 지원하고, 128K 토큰 컨텍스트 윈도우, 그리고 고도화된 텍스트-시각 추론 기능을 갖추고 있습니다. 4B 이미지 안전 검사기인 ShieldGemma 2로 자체적으로 ‘안전한 AI’를 구현합니다.
Command A from Cohere unveiled a highly efficient generative AI model optimized for enterprise use. - 이 모델은 비즈니스, STEM, 코딩 등의 작업에서 GPT-4o라든가 DeepSeek-V3와 비슷하거나 더 뛰어난 성능을 보이면서도, 단 2개의 GPU만으로 원활하게 작동합니다. Command A는 초당 156 토큰을 처리하는데, 이건 GPT-4o보다 1.75배 빠른 수치이고, 256K 컨텍스트 길이를 지원합니다.
OLMo 2 and Building Effective Teams for Training Language Models
– AI2의 연구진이 7B, 그리고 13B 파라미터의 오픈소스 LLM을 출시했습니다. 각각 4T와 5T 토큰으로 학습시켰고, OLMo 2 Instruct는 Llama 3.1 8B Instruct, Qwen 2.5 Instruct보다 더 좋은 성능을 보여줍니다. 연구진은 RLVR을 포함한 Tulu 3의 사후 학습 방식을 사용해서 점수를 4점 이상 향상시켰다고 합니다. FLOP 효율성, 학습의 우선순위 지정, RL 파인튜닝의 안정성을 중심으로 오픈소스 AI를 더욱 발전시켰습니다.Baidu Unveils ERNIE 4.5 and Reasoning Model ERNIE X1, Makes ERNIE Bot Free Ahead of Schedule. - ERNIE 4.5는 멀티모달 파운데이션 모델, ERNIE X1은 심층적인 사고 추론 모델입니다. ERNIE 4.5는 GPT-4.5 비용의 1%에 해당하는 비용으로 더 뛰어난 성능을 보여주는데, 입력/출력 비용은 1,000 토큰당 0.004/0.016 위안입니다. 추론과 Tool 사용을 잘 하는 ERNIE X1은, 1,000 토큰당 0.002/0.008 위안이 드네요. 두 모델 모두 개인 사용자에게는 무료, 기업은 Baidu AI Cloud의 Qianfan 플랫폼을 통해 활용할 수 있습니다.
Open-sourced MM-Eureka – 상하이 AI 연구소에서 이미지-텍스트 작업을 타겟으로 해서 대규모의 규칙 기반 강화학습(RL)을 적용한 멀티모달 추론 모델을 개발했습니다. 이 모델은 안정적인 정확도 향상을 이뤘고, 응답 길이가 길어졌을 뿐 아니라, 시각적인 ‘Aha Moment’라고 할 만한 ‘회고’ 능력도 보여줍니다. 54K 샘플로 훈련한 이 모델은 100만 개 이상의 데이터를 사용했을 때보다 뛰어난 성능을 달성, 데이터의 효율성이 상당히 높습니다.
Sesame AI Labs open-sources its conversational speech model CSM 1B.
- 이 모델은 Llama 기반의 백본과 Mimi 오디오 코드를 생성하는 오디오 디코더를 사용해서, 텍스트로부터 고품질의 음성을 생성합니다. 컨텍스트를 이해하는 음성 생성을 지원하고 화자 전환을 자연스럽게 처리할 수 있습니다. 그러나 사전 정의된 목소리가 없고 특정 목소리에 대한 파인튜닝은 조금 부족합니다. 모델 사이즈는 1.55B 파라미터이고, 영어를 메인으로 지원하고, 연구 및 교육 목적으로 오픈소스로 제공됩니다.이스라엘 예루살렘 히브리 대학교 컴퓨터 과학 및 공학 학부에서 만든, Charting and Navigating Hugging Face’s Model Atlas

거대 언어모델의 스케일링, 효율화 및 최적화
🌟 Transformers without Normalization - 정규화 (Normalization) 레이어를 쓰지 않고 경량 트랜스포메이션을 대체로 사용해서, 모델의 정확도를 유지하면서도 학습 및 추론 속도를 향상시킵니다.
SEAP: Training-free Sparse Expert Activation Pruning - 관련이 있는 모델 파라미터만을 선택적으로 활성화해서 계산 비용을 줄이고, 성능은 유지하면서 효율성을 향상시킵니다.
DistillM-2: A Contrastive Approach Boosts the Distillation of LLMs - 대조 손실 함수 (Contrastive Loss Functions)를 통해서 지식 증류 (Knowledge Distillation)작업을 최적화, LLM의 선호도에 대한 Alignment, 그리고 디코딩의 효율성을 향상시킵니다.
OmniMamba: Efficient and Unified Multimodal Understanding - 상태 공간 모델 (State-Space Models)을 활용해서 멀티모달 모델의 효율성을 개선, 메모리 비용을 줄이면서 높은 성능을 유지합니다.
🌟 Communication-Efficient Language Model Training Scales Reliably - 분산 학습에서의 통신 오버헤드를 줄여서 거대한 LLM을 효율적으로 학습시킬 수 있게 합니다.
AI 추론 (Reasoning), 계획 (Planning), 자가 개선
🌟 Monitoring Reasoning Models for Misbehavior - LLM의 추론 단계를 감사해서 숨겨져 있는 Misalignment를 감지해 내서, 결국 투명성을 보장하는게 얼마나 어려운지 보여줍니다.
🌟 LMM-R1: Empowering 3B LMMs with Strong Reasoning - 두 단계로 이루어진 강화학습 프레임웍을 활용해서 멀티모달 추론 성능을 개선, 텍스트와 시각 기반 작업 모두를 잘 하게끔 해 줍니다.
Plan-and-Act: Improving Planning of Agents - LLM 에이전트에서 계획과 실행을 분리해서, 구조화된 합성 데이터로 장기 (Long-Horizon) 과제의 수행 성능을 향상시켜 줍니다.
Gtr: Guided Thought Reinforcement Prevents Thought Collapse - 추론 다양성 (Reasoning Diversity)의 손실을 방지해서 강화하습 기반의 비전-언어 모델을 강화하고, 구조화된 문제 해결 능력을 개선합니다.
Implicit Reasoning in Transformers is Reasoning through Shortcuts -
트랜스포머가 진짜 제대로 된 다단계 추론을 하기보다는 ‘통계적 지름길 (Statistical Shortcuts)’에 의존하는 경우가 많다는 사실을 밝힙니다.
멀티모달 AI 및 비전-언어 이해
Unified Reward Model for Multimodal Understanding - 이미지와 비디오 작업 모두를 평가하는 보상 모델을 도입해서, 멀티모달 모델의 선호도 Alignment를 개선합니다.
VisualPRM: An Effective Process Reward Model - 보상 기반 접근 방식을 사용해서 멀티모달 모델의 추론 능력을 강화하고, 결과적으로 작업을 잘 구조화해서 완료할 수 있도록 해 줍니다.
Taking Notes Brings Focus? Multi-Turn Multimodal Dialogue 시각적 메모리와 단계별 추론 모듈을 통합해서, 멀티턴 대화를 잘 추적하도록 해 줍니다.
강화학습 및 AI 에이전트
MM-Eureka: Exploring Visual Aha Moment - 멀티모달 모델이 추론 과정에서 ‘Aha-moment’를 만들어내도록 훈련해서, 수학 및 시각 기반 작업의 성능을 향상시킵니다.
World Modeling Makes a Better Planner - ‘상태 예측’, 그리고 ‘행동 선택’을 쌍으로 최적화해서, Embodied AI 시스템의 계획 능력을 개선합니다.
MRT: Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning - 정확도를 희생하지 않으면서도 LLM의 응답 길이를 줄여서 Test-Time 효율성을 높여줍니다.
프라이버시, 보안 및 모델 강건성 (Robustness)
FedRand: Enhancing Privacy in Federated Learning - 모델의 파라미터를 선택적으로 업데이트해서 연합 학습(Federated Learning)의 보안 문제를 개선하고, 데이터 유출 위험을 줄입니다.
Exploiting Instruction-Following Retrievers for Malicious Information Retrieval - LLM 검색기(Retrievers)를 어떻게 유해한 쿼리를 수행하게끔 조작할 수 있는지 분석해서, 안전에 대한 경각심을 가지도록 합니다.
Exploring the Vulnerabilities of Federated Learning - 연합 학습에서의 그래디언트 역변환 공격(Gradient Inversion Attacks)을 검토하고 보안 위험을 완화하기 위한 방어책을 제안합니다.
검색 및 언어모델
Search-R1: Training LLMs to Reason with Search - LLM이 자율적으로 검색 엔진에 질의하도록 훈련을 시켜, 검색 증강 추론(Retrieval-Augmented Reasoning) 성능을 개선합니다.
New Trends for Modern Machine Translation - ‘기계 번역’을 ‘추론’ 작업으로 재정의해서 실행하게 함으로써, 문맥 및 대화 수준의 정확도를 향상시킵니다.
Gemini Embedding: Generalizable Embeddings - 다국어 텍스트 임베딩 모델을 강화해서 검색, 클러스터링, 분류 작업 전반에 걸쳐 성능을 개선합니다.
확산모델 및 생성형 AI
Block Diffusion: Interpolating Between Autoregressive and Diffusion Models - 자기회귀(Autoregressive), 그리고 확산(Diffusion) 기법을 합쳐서 샘플의 품질을 유지하면서 생성 단계를 줄여 줍니다.
Sana-Sprint: One-Step Diffusion for Text-to-Image - 텍스트-이미지 확산 모델을 빠르게 작동하게 만들어서, 이미지의 충실도는 유지한 채 추론 시간을 단축할 수 있게 해 줍니다.
CoRe2: Collect, Reflect and Refine for Text-to-Image - 다단계 추론을 통해서 텍스트-이미지 모델의 효율성을 개선하고 계산 비용을 줄여 줍니다.
Human-AI 상호작용 및 설명 가능성
Auditing Language Models for Hidden Objectives - LLM이 어떻게 은밀하게 사용자의 의도와 합치하지 않는 목표를 만들어낼 수 있는지 조사하고, 더 정교한 Alignment 체크가 필요하다고 강조합니다.
Can Large Reasoning Models do Analogical Reasoning? - ‘인식적 불확실성’ 하에서 LLM의 추론 능력을 평가하고 유추 추론의 약점을 보여줍니다.
API Agents vs. GUI Agents: Divergence and Convergence - API 기반, 그리고 GUI 기반 AI 에이전트를 비교하고 그들의 강점과 향후 두 가지 방향이 합쳐질 전망에 대해 논의합니다.
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!



