월드 모델의 역사와 현재 - 그리고 'AI의 미래'를 그릴 때 월드 모델이 필수 요소인 이유
AI의 '추론 (Inference)' 이해를 위해 중요한 개념, 추론의 과정, 그리고 중요 과제
모델이 긴 시퀀스를 적은 메모리로도 잘 다루게 해 주는, '학습하는' 어텐션 메커니즘
DeepSeek의 MLA, 그리고 앤트그룹의 LightThinker
DeepSeek 때문에 더 주목받게 된 '지식 증류', 그 핵심 아이디어와 종류, 스케일링 법칙, 실제 사례 등
SLM에서 '데이터셋 품질'과 '적절한 훈련 전략'의 중요성
Mamba가 멀티모달 데이터를 잘 처리하도록 해 주는 새로운 기법
Long Context 및 멀티홉 (Multi-hop) 추론을 위해서 구글, 마이크로소프트가 고안한 또 다른 'Chain' 기법
AI 모델의 '추론' 능력을 혁신하는 'Test-Time Compute'. 그 '스케일링'을 위한 기법들
거대 언어모델을 다룰 때 기억해야 할 원칙, 그리고 실용적인 인사이트
Physical AI의 근간이 되는 월드 모델 - 엔비디아는 이걸 어떻게 구현하고 있을까요?