GPU의 포효 속 양자 속삭임

‘틱톡 미국 법인의 지분 15%를 보유하게 될 회사’로 ‘오라클’이 최근에 뉴스에 종종 등장하죠. 오라클 하면 사실 무조건 ‘래리 앨리슨’이 떠오를 정도이긴 하지만, 최근에 두 명의 임원이 오라클의 미래를 맡을 공동 CEO로 임명되었습니다 (물론 래리 앨리슨은 회장이고, 직전 CEO도 ‘사프라 캐츠’라는 분이었습니다): 바로, 오라클의 클라우드 인프라 부문 사장을 지낸 클레이 매거크, 그리고 오라클 인더스트리 사장으로 버티컬 애플리케이션과 응용 AI 부문을 이끌어 온 마이크 시실리아입니다.

The promotion of the two executives underscores the tech industry and Wall Street’s focus on cloud computing strategy, as companies pour billions of dollars into expanding the infrastructure that powers AI.”

“두 임원의 승진은, 기업들이 AI를 구동하는 인프라를 확장하기 위해서 수십억 달러 이상을 쏟아붇고 있는 환경에서, 테크 인더스트리 그리고 월스트리트가 계속해서 클라우드 컴퓨팅 전략에 집중하고 있다는 걸 보여줍니다.”

로이터 통신

로이터 통신에서 내놓은 위 기사를 보면서, (뉴스와 미디어를 통해서) 우리가 AI의 미래를 바라보는 프레임에 대해서 한 번 생각해 보게 됐습니다. 월스트리트의 관점에서는, 이야기는 간단합니다: AI의 수요가 늘면 GPU가 더 필요하고, 데이터센터는 더 커질 테고, 클라우드 컨트랙트는 더 많아질 거라는 겁니다.

며칠 전인 22일 오픈AI와 엔비디아가 10기가와트 규모의 GPU 인프라를 배치(Deploy)하겠다는 파트너십을 발표했는데요, 이 발표로 위에서 이야기한 프레임은 더 단단해졌을 겁니다. 어쨌든, 월스트리트 사람들의 머리 속에서는 ‘AI’라는 말을 어디서 듣자마자 ‘클라우드의 Capacity’, 그리고 ‘실리콘 칩 공급’이라는 단어로 번역이 될 정도일 겁니다.

그래서, 오히려 더 ‘연구로부터 확인할 수 있는 조용한 시그널’에 더 주의를 기울이는게 중요하다고 생각합니다. 이 시그널은 ‘스케일링(Scaling)’이 ‘더 많은 하드웨어’와 동의어라고 외치는게 아니라, ‘더 스마트한 수학 공식과 아키텍처’라고 부르짖는 시그널들이죠. 그리고, ‘양자(Quantum) 컴퓨팅’ 이야기가 이 시그널들의 상당 부분을 차지합니다.

꽤 오랜 동안, 양자 컴퓨팅 연구자들도 양자 컴퓨팅으로 뭘 할 수 있는지 제대로 생각하지 못했을 겁니다. AI가 이 분야에도 새로운 추진의 동력을 제공하고 있고, 지금은 ‘이제 추론(Inference) 스케일링이라는게 꼭 무작정 힘으로 밀어붙이는 방식일 필요는 없다’는 연구 결과들도 나오고 있습니다.

지난 주에 나온 세 편의 논문을 들여다보면, AI가 ‘사이즈’가 아니라 ‘효율성(Efficiency)’이라는 두 번째 축을 따라서 스케일링할 수 있다는 걸 시사하고 있는 것 같은데요:

압축(Compression): QKAN과 양자 활성화 함수

첫 번째 논문은, ‘Quantum Variational Activation Functions Empower Kolmogorov-Arnold Networks’라는 제목의 논문입니다. ‘양자 변분 활성화 함수가 KAN 네트워크를 강화한다’ 정도로 번역되려나요?

제목은 길지만 핵심은 간단합니다: AI 신경망의 ‘스위치’ 역할을 하는 활성화 함수(Activation Function)를 양자 컴퓨팅 스타일로 바꾸는 겁니다. 평범한 자전거를 전기 자전거로 업그레이드하듯이, 기존의 단순한 스위치 - 단순한 활성화 함수 - 대신 단일 큐비트(양자 비트) 변분 회로(Variational Circuit)를 넣습니다 (이걸 DARUAN이라고 부릅니다). 이 작은, 새로운 스위치는 입력 데이터를 여러 번 ‘재업로드’하면서, 마치 조그만 상자에 수많은 색깔을 담는 듯한 느낌으로, ‘지수적으로’ 풍부한 패턴(주파수 스펙트럼)을 만들어내요. 그래서, 모델이 훨씬 적은 매개변수로도 똑같이 강력한 힘을 발휘할 수 있는 거죠.

연구자들이 이 아이디어를 활용해서 QKAN(양자 KAN)을 만들었씁니다. QKAN은 숫자 예측(Regression), 카테고리 분류(Classification), 심지어는 ChatGPT 같은 텍스트 생성 작업을 대상으로 했을 때 기존의 MLP나 고전적인 KAN보다 매개변수가 30% 이상 작아도 더 좋은 성능을 보여줍니다.

Image Credit: QKAN 논문

‘AI 추론(Inference) 스케일링’의 맥락에서, QKAN이 보여주는 이런 퍼포먼스는, 마치 거대한 트럭이 아니라 스마트한 스포츠카로 짐을 나르는 것 같다고나 할까요? 비용 곡선을 완전히 구부려버리는 겁니다. 하이퍼스케일러 같은 대형의 AI 회사라면, 새로운 발전소를 짓는 것만큼이나 큰 가치가 있다고 볼 수 있습니다.

혹시 KAN 네트워크에 대해서 궁금하신 분은, 아래의 글을 참고하시기 바랍니다:

정확성(Exactness): 격자 알고리즘을 위한 코셋(Coset) 샘플링

일단 간단한 배경 지식을 먼저 알아볼께요:

격자 알고리즘(Lattice Algorithm)은 다차원 격자 구조의 수학적 문제를 해결하는 알고리즘인데, 양자 컴퓨팅에서 최단 벡터 문제나 학습 오류 문제(LWE)같은 암호학 관련된 난제를 효율적으로 푸는데 활용된다고 합니다. 이와 관련된 코셋 샘플링(Coset Sampling)은 격자의 코셋(부분 집합)을 정확하게 추출하는 기술인데, 알려지지 않은 오프셋을 제거해서 후속 푸리에 샘플링 단계가 증명 가능하게 정확해 지도록 해서, 양자 격자 알고리즘의 신뢰성을 높이는데 도움을 준다고 합니다.

코셋(Coset)은 그 격자를 조금 '이동'(Offset)시킨 부분 집합입니다. 코셋 샘플링은 이 코셋을 정확하게 뽑아내는 방법인데, 문제는 그 이동(오프셋)이 미리 알려지지 않았다는 겁니다. 이 기술은 'Pair-shift Difference'라는 트릭을 써서 오프셋을 완벽히 지워버리고, 균일한 코셋을 만들어서 다음 단계인 푸리에 샘플링(주파수 분석처럼 데이터의 패턴을 추출하는 과정)이 수학적으로 증명될 만큼 정확해지게 해 준다고 합니다. 마치 GPS가 위치 오차를 없애 정확한 경로를 안내하는 것처럼 양자 격자 알고리즘(예: 암호 해독이나 AI 최적화 문제 해결)의 전체 신뢰성을 높여줍니다.

편집자

그래서, 두 번째 논문이 바로 ‘Exact Coset Sampling for Quantum Lattice Algorithms’라는 논문입니다. 제목 자체는 순수 수학적인 내용처럼 느껴지고 AI와는 거리가 멀어보이기도 하죠.

이게 왜 AI 추론(Inference)에 있어서 중요할까요?

요즘 AI 모델들은 ‘랜덤한 길’을 따라가는 것처럼 생각을 하죠 - 미로에서 눈을 가리고 헤매듯이, CoT를 방황하거나 검색을 대충(?) 하거나, 경험칙 - 휴리스틱 - 으로 도구를 호출합니다. 오차없이 정확한 과정을 거치는 개념이 아니고, ‘정확한’ 답이 드물죠. 하지만 위에서 설명한 기술처럼 수학적으로 ‘보장된’ 단계를 AI 워크플로우에 끼워넣게 되면, AI의 신뢰성이 올라가겠죠.

QKAN이 모델을 ‘압축’해서 작고 강하게 만드는 거라면, 이 두 번째 논문은 ‘정확성’을 강조합니다: 쓸데없는 토큰을 줄이고, 막다른 골목을 피하게 해 주고, 한 번 쿼리할 때 비용이 덜 들쭉날쭉하게끔, 비용의 변동성을 낮추는 겁니다.

하이브리드화(Hybridization): 실전에서의 양자-고전 모델

세 번째 언급할 논문은 좀 더 실용적이라고 할 수 있을 것 같습니다: ‘Hybrid Quantum-Classical Model for Image Classification’이라는 이름의 이 논문은, 고전적인 CNN(Convolutional Neural Network)의 계층들 중 일부를 ‘양자 컴퓨팅 기반의 작은 모듈 - 양자 회로’로 교체하거나 추가한 하이브리드 모델을 만들어서, 양 측의 강점을 합치겠다는 아이디어입니다. 굳이 비교하자면, 가솔린 엔진을 쓰는 자동차에 전기 엔진을 살짝 더해서 하이브리드 차를 만드는 것 같다고나 할까요?

CIFAR100, STL10 데이터셋으로 테스트해 본 결과, 순수한 클래식 모델보다 높은 성능을 보여줬고, 훈련도 더 빠르게 진행되고 매개변수도 더 적었다고 합니다. 어쩌면, 표준적인 AI 작업에서도 양자 구성요소가 AI 모델의 효율성을 개선할 수 있다는 증거 아닐까요?

Image Credit: ‘Hybrid quantum-classical convolutional neural network architecture’

어쩌면, 오류 내성 양자 컴퓨터(Fault-Tolerant Quantum Computer)라는 목표가 달성되지 않아도 수많은 작업에 양자 컴퓨팅을 이용한 엄청난 효율성 개선을 이룰 수 있을지도 모릅니다. AI의 추론 맥락에서도, 시뮬레이션 된 것이든 아니면 물리적으로 작동하는 것이든, 몇 개의 큐비트만 가지고도 고전적인 AI 파이프라인에 잘 결합하면 지금보다 훨씬 더 효율적인 추론을 할 수 있는 거구요. 이건, 모든 하이퍼스케일러가 꿈꾸는, 빠른 훈련, 더 적은 메모리 소비라는 지표에 다가가게 해 주는 하나의 가능성입니다.

‘추론(Inference) 스케일링’에 있어서의 의미

위에서 간단히 말씀드린 논문들을 종합해 보면, 결국 ‘스케일링(Scaling)’이 더 큰 클러스터, 더 큰 모델을 향한 뜀박질만을 의미하는 게 아니라는 걸 시사합니다. 각각의 매개변수에서 더 많은 정보와 의미를 추출해 내고, 오류를 그 원천(Source)에서 차단하고 줄여나가고, 양자(Quantum) 컴퓨팅과 고전(Classical) 컴퓨팅의 강점을 섞는 겁니다.

월스트리트의 관점에서야 ‘클라우드 자본 지출’이 무엇보다 크게 보이는, 그리고 중요한 지표겠지만, 지금 이뤄지고 있는 다양한 연구들은, ‘그 계산법을 다시 구성할 수 있는, 새롭게, 극적으로 효율성을 개선할 기본적 요소들을 탐구’하고 있다는 것에도 주의를 기울여야 합니다.

당연히, 엔비디아 같은 회사들이 이걸 놓칠 리 없죠. 엔비디아의 양자 컴퓨팅에 대한 투자도 계속해서 빠르게 증가하고 있습니다; 하이브리드 양자-고전 프로그래밍을 위한 오픈 소프트웨어 플랫폼인 CUDA-Q를 만들었고, DGX Quantum이라는 레퍼런스 아키텍처를 출시, 양자 제어 시스템을 AI 슈퍼컴퓨터에 직접 연결하기도 했습니다. 그리고 여러 하드웨어 파트너들과 함께 전용 양자 연구센터를 열고 있기도 하죠.

젠슨 황은 NVentures를 통해서 PsiQuantum, Quantinuum, QuEra 같은 양자 스타트업에 적극적으로 투자하고 있기도 합니다. PsiQuantum은 최근에 10억 달러 투자를 받기도 했고, 앞으로 2년 안에 작동하는 양자 컴퓨터를 출시하겠다고 하네요.

어쨌든, 엔비디아의 이런 움직임은 2025년에 들어서 두드러진 중요한 전략적 움직임이고, 양자 컴퓨팅의 ‘상업적 실행’에 대한 타임라인을 어느 정도 가시화하는 게 아닐까 합니다.

앞으로 우리가 보게 될 것

지금까지처럼, 대규모의 ‘클라우드 구축(Build-out)’은 계속될 겁니다. GPU는 이 성장의 주역으로, 여전히 중심에 있을 거구요.

하지만, 미래를 향한 연구 파이프라인에 주의를 놓치지 않는다면, 양자 컴퓨팅과 관련된 아이디어가 점차 ‘추론 스케일링’ 내러티브에 연결되고 합쳐지는 모습을 확인할 수 있을 겁니다.

아직은 초기일지 모르지만, 효율성(Efficiency), 그리고 구조(Structure; Architecture)가 원시적인 스케일링만큼 중요해지는 시기가 올 겁니다.

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

트위터 라이브러리 (Twitter Library) 🐦

LoRA(Low-Rank Adaptation)는, 전체 모델을 다시 학습시키는 대신에 작은 저랭크 행렬을 추가하는 방식으로 효율적으로 모델을 파인튜닝할 수 있게 해 주는 대표적인 방법입니다.

다른 AI 분야와 마찬가지로, 이 분야도 계속해서 발전하고 있죠. 새로운 LoRA 기법들이 나오면서 효율성, 일반화 능력, 개인화라는 영역에서 모델의 능력을 한계까지 끌어올리고 있습니다.

꼭 알아둘 만한 최신의 LoRA 기법 10가지를 소개합니다:

금주의 주목할 만한 업계 동향 📰

알리바바의 에이전트, 조금 ‘불편할 정도’로 똑똑해지나?

챗봇에 뭔가 요청을 했을 때, 도구(Tool)를 말 그대로 쓰다가 말고 ‘멈춰버리는’ 문제들이 종종 일어나죠. 많은 연구소와 회사에서 이 문제를 해결하려고 고군분투하고 있는 가운데, 알리바바의 Tongyi 연구소는 이미 한 발 앞서가고 있는 것처럼 보이네요.

계획하고, 적응하고, 추론하고, 심지어 언제 말을 멈춰야 할지도 아는, ‘생각하는 시스템’을 만들고 있습니다. 아래 Tongyi 연구소가 발표한 여섯 편의 뛰어난 논문, 바로 에이전틱 AI (Agentic AI)의 가능성을 새롭게 정의하는 논문들입니다. 게다가 모두 오픈소스 코드, 데이터셋을 함께 공개하고 있네요.

  • WebWeaver: ‘사람처럼’ 연구하는 에이전트입니다. 새로운 정보를 찾을 때마다 계획을 업데이트하고, 필요한 정보만 골라 섹션별로 작성하죠. 더 많은 데이터를 우겨넣는 대신 똑똑하게 일하는 방식으로, 모든 딥 리서치 벤치마크에서 1등을 차지했습니다.

  • AgentFounder: 모델을 처음부터 에이전트처럼 훈련시키면, 나중에 도구 사용 능력을 억지로 붙이는 것보다 훨씬 나은 결과를 얻을 수 있다는 걸 보여줬습니다. 여기서는 에이전트 지속 사전훈련(Agentic Continual Pre-training, Agentic CPT)이라는 방법론을 제안하는데, 300억 매개변수의 오픈소스 모델이 훨씬 더 큰 비공개 모델을 도구 활용 작업에서 이기는 모습을 보여주기도 했습니다.

  • WebSailor-V2: 오픈소스 에이전트가 거대 모델들과 경쟁할 수 있게 해 줍니다. 시뮬레이션과 실제 훈련을 섞고, 일부러 헷갈리게 만든 데이터셋으로 훈련해서, 자신보다 20배 큰 모델들을 능가하는 모습을 보여줍니다.

  • AgentScaler: 똑똑한 모델을 만드는 대신, 다양한 환경에서 에이전트로서의 행동(Agentic Behavior)을 배우게 했습니다. 예를 들어서, 이상한 API 호출 시나리오에서도 잘 작동하도록요. 미세 조정은 좀 덜 하고, 진짜 지능을 키우는 데 초점을 맞췄다고 보면 될 듯 합니다.

  • WebResearcher: 연구를 한 번에 끝내는 게 아니라 계속 발전시키는 에이전트입니다. 배운 걸 기억하고, 보고서를 점점 더 정교하게 다듬고, 웹의 복잡한 데이터에서 통찰을 뽑아냅니다. 심지어 스스로 훈련 데이터를 만들어낼 수도 있다고 하네요.

  • ReSum: 긴 대화에서도 잊지 않도록 에이전트가 스스로 요약하는 법을 배우게 합니다. 수백 번의 상호작용에서도 흐름을 잃지 않고 계속 추론할 수 있습니다; 기억력과 사고를 합친 셈입니다.

퉁이 연구소의 논문들을 보면, 확실히 단순히 반응적인 시스템이 아니라 구조와 기억, 의도를 가지고 ‘생각’하는 시스템을 만들려고 하는 것 같네요. 다시 한 번 말씀드리지만, 이 모든 게 오픈소스라는 것도 놀랍습니다.

인텔 + 엔비디아 연합: ‘견원지간’이라는 말도 옛말인가요?

놀라운 소식입니다. 인텔과 엔비디아가 손잡고 x86 칩을 공동 개발하고 있어요. 이 칩은 인텔 CPU와 엔비디아 RTX GPU 칩렛을 결합한 것으로, 게이밍 PC에 최적화된 제품이라고 합니다 – AMD의 APU와 비슷하지만, 훨씬 더 강력한 '소스'를 곁들인 느낌이죠.

게다가 엔비디아는 자사 데이터센터용으로 인텔에게 맞춤형 x86 CPU를 주문하기도 했습니다. 이 파트너십에는 50억 달러라는 어마어마한 투자도 포함돼 있습니다. 반도체 세상의 판도가 흥미롭게 변하고 있네요.

이번 주의 주요 투자 소식

  • Grok
    엔비디아의 AI 시장 독점을 깨겠다며 7억5000만 달러를 투자받았고, 기업가치는 69억 달러에 달합니다. Grok의 LPU 기반 추론 머신은 시장과 투자자들의 주목을 받고 있습니다.

  • Replit
    2억5000만 달러를 투자받으면서 30억 달러의 기업 가치에 도달했습니다. AI를 풀스택 팀원으로 만들어주는 'Agent 3'를 출시했습니다.

  • Figure AI
    10억 달러 이상의 자금을 확보하면서 390억 달러의 기업 가치를 기록했습니다. 4년 안에 10만 대의 휴머노이드 로봇을 선보이겠다고 약속했습니다.

튜링 포스트 코리아팀이 읽고 있는 것들

지금의 AI 추론 모델이 다음에 올 단어를 확률적으로 예측하는 방식이기 때문에, 복잡한 문제 해결에 어려움을 겪는다는 지적이 있죠. Nathan Lambert는 AI의 발전 방향이 단순히 모델의 규모를 키우는 데서 벗어나, 효율성과 구조를 갖춰야 한다고 주장합니다. 미래의 AI는 사람처럼 계획을 세우고, 검색하고, 행동하는 '에이전트' 형태로 진화해야 합니다. 이렇게 되기 위해서, 모델이 스스로 긴 추론 과정을 요약하거나, 처음부터 에이전트처럼 행동하도록 학습하는 새로운 기술들이 핵심으로 떠오르고 있네요.

지지부진한 ‘Apple Intelligence’ 때문에 애플이 AI 판에서 여러 가지로 비판을 받기도 하는데요. 튜링 포스트에서는 ‘과연 애플다운 AI라는게 뭘까?’라는 생각을 해 본 적도 있구요. 그런데, iOS 26에서 애플이 파운데이션 모델 프레임워크를 공개하면서 개발자들에게 새로운 가능성을 열었습니다. 이 프레임워크를 통해서 개발자들은 서버를 거치지 않고 아이폰 기기 자체에서 구동되는 로컬 AI를 앱에 통합할 수 있습니다. 이런 방식은 당연히 개인 정보 보호에서 유리한 점이 있고, 응답 속도도 빠르고 개발자에게 추론 비용이 발생하지 않는다는 장점이 있습니다. 현재 이 기술은 'Day One'의 일기 요약이나 지출 앱의 스마트한 아이템 분류 등, 앱의 일상적인 편의성을 향상시키는 데 효과적으로 활용되면서 새로운 사용자 경험을 제공하고 있습니다.

최근 Claude의 사용자들로부터 응답 품질이 저하되었다는 보고가 잇따랐죠. 저도 한동안 응답 품질 저하 등의 이슈 때문에 Claude를 지금 사용 안 하고 있는데요. 앤쓰로픽에서 그 원인을 분석한 기술적인 사후 분석 보고서를 공개했습니다. 품질 저하의 원인은 서버 부하가 아닌, 세 가지 인프라 버그가 겹쳐 발생한 것으로 확인되었습니다. 요청 라우팅 오류, 출력 손상, 컴파일러 버그 등이 복잡하게 작용했습니다. 앤쓰로픽은 이 사고를 통해서 모델 품질 확보의 중요성을 다시 한번 깨달았다고 강조하면서, 성능에 약간의 지연이 발생하더라도 근사치 연산 대신 정확한 연산 방식을 채택하고 새로운 디버깅 도구를 개발하는 등 시스템 안정화를 위한 조치에 집중하고 있다고 밝혔습니다.

오픈AI와 Apollo Research에서, AI가 인간의 의도에 맞게 행동하는 '척' 하면서 숨겨진 목적을 추구하는 '책략(Scheming)' 현상에 대한 연구 결과를 발표했습니다. 이 연구에서, AI가 시험에서 일부러 능력을 숨기는 '샌드배깅(Sandbagging)' 같은 기만적 행동을 한다는 걸 확인하기도 했고, 이를 해결하기 위해 모델에게 안전 수칙을 명시적으로 알려주고 이를 추론하도록 훈련하는 '숙고적 정렬' 방식을 도입, 책략 행위를 크게 줄였습니다. 그러나 모델이 자신이 평가받는다는 '상황 인식' 능력을 갖추게 되면서, 테스트 결과가 실제 정렬의 수준을 완벽하게 반영하지 못할 수 있다는 새로운 안전 문제가 대두되고 있기도 합니다.

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

  • World Labs Marble: 텍스트나 이미지만 있으면 영구적이고 탐색 가능한 3D 세계를 만들 수 있습니다. 이 도구는 가우시안 스플랫(Gaussian Splats)으로 내보내거나 웹에서 바로 사용할 수 있는 파이프라인으로 변환해 줍니다. 마치 상상 속 세계를 단숨에 현실로 만드는 마법과 같네요. —> [트윗 보기]

  • DeepSeek-V3.1-Terminus: DeepSeek이 자신들이 만들었던 최첨단 대형 언어 모델(LLM)을 한층 업그레이드했습니다. 언어 일관성이 향상되었고, 코드 작성과 검색 에이전트 기능이 개선되었고, 추론 도구도 새롭게 업데이트 되었다고 합니다. 원래의 강력한 능력은 그대로 유지하면서 더 정교해졌네요. —> [논문 보기]

  • Grok 4 Fast: 높은 정확도와 비용 효율성을 자랑하는 추론 모델입니다. 도구를 자연스럽게 사용하고, 200만 토큰의 긴 문맥을 처리하고, 추론과 비추론 모드를 하나로 통합했습니다. 효율적이면서도 똑똑한 모델이라고 할 수 있겠네요. —> [논문 보기]

Image Credit: Grok 웹사이트

  • Magistral-Small-2509: 24B 매개변수의 추론 중심 멀티모달 모델입니다. [THINK] 추적 토큰을 통해서 생각의 과정을 명확히 하고, 128k 문맥 길이를 지원하고, 형식과 페르소나를 개선해서 실제 배포해야 하는 환경에 적합한 모델입니다. 이미지 입력과 도구 호출을 지원하는 효율적인 모델로, 단일 RTX 4090이나 32GB RAM MacBook에서 로컬 실행을 할 수 있습니다. —> [논문 보기]

  • Apertus: 데이터 준수와 다국어 커버리지를 강조한 모델로, 허용된 소스만 사용해서 사전 훈련했습니다. Goldfish 목표 함수로 ‘암기’를 억제하고, 8B/70B 규모의 완전 재현 가능한 아티팩트를 공개하는 오픈소스 모델입니다. 1811개 언어를 지원하고, 데이터 소유자의 opt-out 동의를 존중해서 투명성을 강조하는 모델입니다. —> [논문 보기]

  • SAIL-VL2 Technical Report: 큐레이션된 멀티모달 데이터를 통해서 비전-언어 스위트를 확장해 줍니다. 점진적 사전 훈련과 MoE/Thinking-Fusion Post-Training으로 이미지/비디오 추론 작업에서 SOTA를 달성합니다. 2B와 8B 규모에서는 다양한 벤치마크에서 최고 성능을 보여주고, 106개 데이터셋에서 경쟁력있는 능력을 입증하고 있습니다. —> [논문 보기]

  • Towards a Physics Foundation Model (GPhyT): 다양한 시뮬레이션 데이터로부터 일반 물리 동역학을 학습하는 모델입니다. 도메인 간 제로샷으로 안정적인 장기 롤아웃을 지원합니다. 1.8TB 데이터로 훈련된 GPhyT는 물리학이라는 관점에서의 파운데이션 모델 패러다임을 제시하는 모델로서, 전문적인 솔버를 개발하지 않고서도 고충실도의 시뮬레이션을 가능하게 해 줍니다. —> [논문 보기]

멀티모달 파운데이션 및 표현(Representation)

  • Lost in Embeddings: Information Loss in Vision-Language Models: 비전-언어 모델(VLM)에서 시각 데이터를 언어 임베딩으로 바꾸는 과정이 정보를 왜곡하는 현상을 분석합니다. 패치 수준의 손실을 측정하고 이를 VQA(시각 질문 답변) 성능 저하와 연결해서, 모델의 숨은 약점을 파헤칩니다. —> [논문 보기]

  • AToken: A Unified Tokenizer for Vision: 이미지, 비디오, 3D 데이터를 위한 통합 4D 잠재 공간을 만듭니다. 재구성과 의미 이해를 하나로 묶어서 고품질 결과와 효율성을 동시에 잡는 멀티모달 AI의 새로운 가능성을 보여줍니다. —> [논문 보기]

  • 🌟 MARS2 2025 Challenge on Multimodal Reasoning: 실세계와 전문 작업에서 멀티모달 추론 능력을 평가합니다. 대규모 데이터셋을 공개하고 수십 개 모델을 테스트하면서, MLLM(멀티모달 대형 언어 모델)의 한계와 잠재력을 탐구합니다. —> [논문 보기]

  • Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding: MLLM의 제로샷 시공간 비디오 그라운딩 능력을 끌어올립니다. 텍스트 쿼리를 속성과 행동 단서로 나눠서 더 정확한 비디오 위치 파악을 가능하게 합니다. —> [논문 보기]

로보틱스, 액션 및 월드 모델

  • RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation: 인간의 조작 영상과 궤적을 활용해서 로봇의 동작을 개선합니다. 1200만 개의 에고센트릭 비디오로 사전 훈련한 뒤 액션 VAE로 행동을 압축해서 VLA 모델을 더 똑똑하게 만듭니다. —> [논문 보기]

  • 🌟 World Modeling with Probabilistic Structure Integration (by Stanford Neurolab): 데이터에서 확률적 구조를 추출해서 제어 가능한 월드 모델을 학습합니다. 예측, 구조 추출, 통합의 3단계로 비디오 예측과 이해를 강화하는 스탠포드 NeuroAI Lab의 창의적인 접근입니다. —> [논문 보기]

  • 🌟 ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data (Shanghai AI lab): 윈도우, macOS 등 6개 OS와 3개 작업 도메인의 대규모 데이터로 오픈소스 컴퓨터 사용 에이전트를 만듭니다. GUI 자동화 성능을 최고 수준으로 끌어올린 상하이 AI 랩의 전략적 연구입니다. —> [논문 보기]

  • 🌟 UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning (by Zhejiang, Tongyi, Alibaba): 세미-온라인 강화학습으로 GUI 자동화를 발전시킵니다. 오프라인 궤적과 온라인 RL을 결합해서 다단계 작업의 안정성과 효율성을 높이는 저장 대학, 퉁이 랩, 알리바바의 혁신적인 연구입니다. —> [논문 보기]

추론, 수학 및 도구 통합

  • THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning: 수학과 코드 작업에서 단계별 도구 피드백을 전체 추론 경로와 맞추는 강화학습(RL) 기반 접근입니다. 단계별로 도구(예: 계산기)를 사용하고 최적화해서, 더 정확한 수학적 추론을 가능하게 합니다. 마치 퍼즐을 풀 때 각 조각을 신중히 맞춰가면서 큰 그림을 완성하는 것과 같습니다. —> [논문 보기]

  • 🌟 Improving Context Fidelity via Native Retrieval-Augmented Reasoning (by DIRO, MetaGPT, Mila, McGill, Yale, CIFAR): 검색된 증거를 추론 과정에 직접 통합하도록 모델을 훈련시킵니다. 검색된 정보를 문맥에 충실히 반영해 답변의 신뢰성을 높이는 방식으로, 마치 자료를 꼼꼼히 읽고 정리해 정확한 답을 내놓는 연구자처럼 작동합니다.
    —> [논문 보기]

  • 🌟 ToolRM: Outcome Reward Models for Tool-Calling Large Language Models (by IBM Research): 도구를 활용하는 대형 언어 모델(LLM)을 위한 결과 중심 보상 모델을 소개합니다. 도구 호출에 특화된 벤치마크를 만들고, 보상 모델을 훈련해서 추론 정확도를 높입니다. IBM 연구소가 도구와 AI의 협업을 한층 강화한 셈이네요. —> [논문 보기]

강화학습 및 정렬(Alignment)

  • 🌟 Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting (by University of Notre Dame, Amazon): 여러 목표를 동시에 달성하기 위해 보상 가중치를 실시간으로 조정하는 방법을 제안합니다. 추론과 정렬에서 파레토 최적 Frontier를 탐색해서, 마치 여러 목표를 저글링하듯 균형 잡힌 최적화를 이루어냅니다. —> [논문 보기]

  • Single-stream Policy Optimization: 기존의 그룹 기반 기준 대신 지속적으로 전역 추적을 실행해서 강화학습(RL) 최적화를 더 부드럽고 확장 가능하게 만들어 줍니다. 정책 학습을 간소화해서, 마치 복잡한 길을 단순한 한 줄 트랙으로 바꾸는 것과 같은 효과를 줍니다.
    —> [논문 보기]

  • Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Deliberation: 테스트 타임에 성찰과 수정 작업을 통해서 안전성이나 행동 규범에 다이나믹하게 맞추는 방법을 탐구합니다. AI가 상황에 맞춰 스스로 조정하면서 더 나은 결정을 내리게 합니다. —> [논문 보기]

  • FlowRL: Matching Reward Distributions for LLM Reasoning: 단일 보상 값 대신 전체 보상 분포를 맞추는 방식으로, 대형 언어 모델(LLM)의 다양한 추론 경로를 장려합니다. 마치 한 가지 답변만 고집하지 않고 여러 가능성을 열어두는 접근입니다. —> [논문 보기]

압축, 효율성 및 특수 훈련

  • 🌟 Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs (by ETH Zurich): 대형 언어 모델의 가지치기(Pruning)와 양자화(Quantization)를 오류 보정을 통해 조화시켜서, 재훈련 없이도 효율성을 극대화합니다. 모델을 다이어트 시키면서도 힘을 잃지 않게 하는 기술입니다. —> [논문 보기]

  • GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings: 도메인별 중요도를 고려한 가지치기로, 특정 분야의 능력을 유지하면서 모델 크기를 줄입니다. 필요한 부분만 남기고 불필요한 부분을 깔끔히 정리하는 방식이에요. —> [논문 보기]

  • zELO: ELO-inspired Training Method for Rerankers and Embedding Models: 순위 매기기를 ELO 점수 시스템처럼 재구성해서, 감독이 없이도 강력한 리랭커와 임베딩 모델을 훈련합니다. 마치 게임에서 실력에 따라 순위를 매기듯 효율적인 학습을 구현합니다. —> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

Avatar

or to participate

Keep Reading