- Turing Post Korea
- Posts
- Kimi K2 Thinking - 뭐가 그렇게 대단한 걸까?
Kimi K2 Thinking - 뭐가 그렇게 대단한 걸까?
부상(浮上)하는 중국의 에이전틱 인텔리전스 전략 - Kimi의 초기 버전부터 현재의 오픈소스 혁신까지
들어가며
지난 2025년 7월, Moonshot AI의 Kimi K2는 Agentic Intelligence(에이전틱 인텔리전스)에 특별히 초점을 둔 거대 Mixture-of-Experts(MoE) 모델로 엄청나게 많이 회자됐습니다.
저희 튜링 포스트에서도 당시에 다른 중국계 오픈 모델들과 Kimi K2를 비교하면서 이렇게 정리했었죠: 에이전틱 능력과 초장문맥(Long-Context) 처리능력까지 두루 갖춘, 균형잡힌 강력한 오픈 베이스 모델을 원한다면 Kimi K2를 선택하시라구요. 당시 큰 관심을 받았던 DeepSeek-R1, Qwen3, GLM-4.5들 사이에서도 가장 훌륭한 범용성을 갖춘 모델이었다고 기억합니다.
그리고 난 후, 2025년 11월, Moonshot의 최신 모델이자 가장 강력한 오픈소스 사고(Thinking) 모델인 Kimi K2 Thinking이 등장했습니다. 이 모델은 문제를 단계별로 해결하고, Python 인터프리터(Python Interpreter)나 웹 검색(Web Search) 등 다양한 외부 도구를 폭넓게 활용하는 추론 에이전트입니다. 놀랍게도, 200~300개의 툴 호출을 연속적으로 수행할 수 있고, 다양한 벤치마크에서 GPT-5, Claude Sonnet 4.5(Thinking) 같은 최상위 모델들을 능가합니다.
Kimi K2 Thinking은 Moonshot이 추구해온 손실없는 초장문맥(Long Context) 기반의 최강 에이전틱 모델 구축이라는 글로벌한 비전을 이어가고 있는데요.
그럼 이제 Moonshot이 이 전략을 어떻게 정의하고 있는지, 그리고 K2 Thinking이 진정한 에이전틱 인텔리전스로 가는 여정에서 어떻게 경쟁 모델들을 한 걸음 앞서 나가고 있는지 살펴보겠습니다.
오늘 에피소드에서는 아래의 내용을 다룰 예정입니다:
Moonshot AI의 글로벌 전략
Kimi K2 Thinking의 새로운 점을 살펴보기 전에, Moonshot AI가 추구하는 전체적인 글로벌 전략을 먼저 되짚어보고, 이전 모델인 Kimi K2와 이번 신작 Kimi K2 Thinking이 그 전략 안에서 어떻게 자리잡고 있는지 살펴보겠습니다.
Moonshot AI 전략의 핵심은 손실없는 초장문맥(Long Context) 처리입니다. Moonshot은 방대한 양의 텍스트를 정보 손실이나 성능 저하 없이 처리하고 기억할 수 있는 모델을 만드는 것을 목표로 하고 있습니다. 이건, 파인튜닝을 하지 않아도 모델이 대화 전체 맥락을 기억해서 충분한 개인화, 그리고 고도화된 문맥 이해를 가능하게 하겠다는 방향이겠죠.
Moonshot AI의 또 다른 핵심 포커스는, 당연하게도 AGI(Artificial General Intelligence)입니다. Moonshot의 창업자 양즈린(Yang Zhilin)은 AGI로 향하는 로드맵을 다음과 같은 세 개의 레이어(Layer)로 설명했습니다:
Layer 1: 스케일링 법칙과 다음 토큰 예측(Next-Token Prediction)
현재 산업의 기본 표준입니다.Layer 2: 데이터 및 표현(Representation) 한계 극복
지속적으로 학습하면서 스스로 진화하는 시스템이 되게끔 해 줍니다.
Layer 3: 고도화된 능력
초장문맥 추론(Long-Context Reasoning), 다단계 계획(Multi-Step Planning), 멀티모달 이해(Multimodal Understanding), 에이전틱 행동(Agentic Behavior) 등이 포함됩니다. 그리고 이 세 번째 레이어가 Moonshot이 ‘선도할 기회가 있다’고 보는 레이어입니다.
Moonshot은 변하지 않는 정적인 모델을 넘어서, 계획하고(Reason), 도구를 사용하고(Tool Use), 스스로 비판(Self-Critique)까지도 할 수 있는 ‘AI 에이전트’의 방향으로 나아가고 있습니다. 이것이 그들이 ‘Agentic Intelligence(에이전틱 인텔리전스)’라고 부르는 개념이구요.
2025년 7월 출시된 Kimi K2는 Moonshot의 초장문맥·에이전틱 AI 비전을 구현한 핵심적인 모델로, “Agentic Intelligence” 개념을 가장 잘 반영한 첫 모델이었습니다. Kimi K2는 1.04조 파라미터 규모의 Mixture-of-Experts(MoE) 모델로, 15.5조 토큰으로 학습되었고 여러 가지 혁신적인 기법을 결합했습니다:
대규모 학습의 안정성을 높이는 MuonClip 옵티마이저(MuonClip Optimizer)
개방형 작업(Open-Ended Tasks) 평가를 위한 Self-Critique Rubric Reward 시스템
지식을 다시 표현하고 다양화하는 Synthetic Data 파이프라인
또, 에이전틱 기능을 위해서 Kimi K2는 대규모의 에이전틱 데이터 파이프라인으로 학습을 했습니다.
Kimi 팀은 2만 개의 가상 도구, 수천 개의 에이전트, 그리고 그들이 각 도구를 활용해서 문제를 해결하는 과정에서 생성된 정교한 에이전트 행동 로그(Agent Trajectories)를 모으는 시스템을 구축해 냈습니다.

Image Credit: Kimi K2 오리지널 논문
이렇게 해서, Kimi K2는 Moonshot의 “손실 없는 초장문맥(Lossless Long-Context)” 전략을 탄탄히 구축했고, 동시에 AGI 로드맵의 Layer 3를 떠받치는 기반이 됐습니다.
2025년 7월 당시, Kimi K2는 당시까지 나온 오픈 웨이트(Open-Weight) LLM 중 가장 강력한 모델로, 상용 프런티어 모델들에 견줄 만큼의 성능을 보여줬고, 실제 환경 기반의 에이전틱(Agentic) 활용 분야에서 새로운 기준을 세웠습니다.

Image Credit: Kimi K2 오리지널 논문
이제는 Moonshot의 새로운 모델 ‘Kimi K2 Thinking’이 주목받을 차례죠. 이 모델은 Kimi K2가 다져놓은 에이전틱 기반 위에 만들어졌고, 대규모 혼합 학습, 도구 활용 능력 향상, 자기 평가 기능 강화라는 특징들까지 더해졌습니다.
Kimi K2 Thinking은 Moonshot이 진짜 에이전틱 인텔리전스로 나아가기 위한 다음 단계입니다. Kimi K2를 한층 확장해서, 수백 단계에 걸쳐서 스스로 추론하고, 계획하고, 행동하는 ‘생각하는 에이전트’로 만든 겁니다.
그럼 이제 하나씩 알아보시죠.
Kimi K2 Thinking이 뭔지 알아보자
Kimi K2 Thinking은 오픈소스로 공개된 ‘생각하는(Thinking)’ 모델로, 한마디로 말해서 단계별로 추론하고 계산기·코드 인터프리터·웹 브라우저 같은 도구를 직접 사용할 수 있는 AI 에이전트입니다.
최대 200~300번의 연속된 툴 호출을 일관성 있게 수행할 수 있고, 인간의 개입 없이 복잡한 문제나 긴 추론 과정을 처리해냅니다.
에이전틱 모델답게 Kimi K2 Thinking은 스스로 계획하고, 자기 작업을 검토하고, 수백 단계에 걸쳐서 답변을 다듬는 능력을 갖췄습니다.
예를 들어서, “생각 → 검색 → 읽기 → 코딩 → 다시 생각” 같은 다양한 단계를 자연스럽게 오가면서 긴 호흡의 작업을 수행할 수 있고, 덕분에 장기 계획을 세우고, 새로운 정보를 반영하고, 더 일관된 결과물을 만들어낼 수 있죠.
특히 주목할 점은, Moonshot AI가 Kimi K2 Thinking을 통해서 자기만의 고유한 테스트타임 스케일링(Test-Time Scaling) 접근을 보여준다는 겁니다. 즉, 추론 과정에서 ‘생각하는 양(토큰)’과 ‘행동하는 양(툴 호출 수)’을 함께 늘려서 지능을 끌어올리는 방식을 택했다는 점이 흥미롭다는 건데요.
예를 들어서, Heavy Mode에서는 8개의 추론 경로를 병렬로 실행한 뒤에 그 결과를 합쳐서 더 신뢰도 높은 답을 만들어내는데, 이건 GPT-5 Pro의 구성 방식과도 유사합니다.
Kimi K2 Thinking은 kimi.com에서 가벼운 챗 모드로 체험할 수 있는데요. 이 모드는 속도에 맞춰서 도구 사용과 추론 단계를 최소화한 버전이고, 완전한 에이전트 모드(자율 툴 사용 + 멀티스텝 추론)는 곧 제공될 예정이라고 합니다.
또 API로도 접근할 수 있으며, 코드와 모델 가중치가 Modified MIT 라이선스로 공개돼 있어서 자유로운 활용과 연구를 할 수 있습니다 - 이것도 Kimi K2 Thinking의 매력적인 부분이죠.
그럼 이제 K2 Thinking의 내부를 들여다볼까요?
기술 사양(Tech Specification)
아키텍처와 주요 기능
K2 Thinking은 1조 파라미터 규모의 Mixture-of-Experts(MoE) 아키텍처를 기반으로 만들어졌습니다. 실제 추론을 할 때는 약 320억 개의 활성 파라미터만 사용하기 때문에 훨씬 효율적으로 동작합니다.
모델은 총 61개 레이어로 구성되어 있고, 그중 하나는 완전 연결(Dense) 레이어 — 즉 이전 레이어의 모든 노드와 연결되어 특징을 종합하는 구조입니다. 어텐션 히든 차원은 7168, 각 전문가(Expert)의 히든 차원은 2048, 그리고 64개의 어텐션 헤드로 구성됩니다.
전체 전문가 수는 384명, 이 중 토큰마다 8명이 선택되어 활성화됩니다. 또 MLA(Multi-Head Latent Attention) 메커니즘을 사용하고, SwiGLU 활성 함수로 안정적이고 효율적인 학습을 수행합니다.
K2 Thinking은 200~300회에 달하는 연속적인 도구 호출이 필요한 긴 추론 과정, 256K의 초대형 컨텍스트 윈도우를 활용한 장문의 복잡한 문서 처리, 효율적인 멀티-전문가(MoE) 활성화를 수행하게끔 설계되었습니다. 모델이 요청 상황을 스스로 판단해서 어떤 도구를 언제 사용해야 하는지 자동으로 결정하는데, 예를 들어서 날씨를 묻는 질문에는 Weather API를 바로 호출할 수 있습니다. 이건 모델 내부에 내장된 툴 파싱 로직 덕분인데, “생각 → 도구 호출 → 결과 반영”이라는 과정을 완전히 자동화해서 자연스럽고 지속적인 ‘에이전틱’ 작업을 가능하게 해 줍니다.
1조 파라미터 규모의 모델에서는 파라미터당 1비트만 절감해도 GPU 메모리와 대역폭 사용량이 크게 줄어들기 때문에, K2 Thinking이 해결해야 할 기술적 핵심 과제는 아주 긴 추론 체인을 생성하면서도 메모리 사용을 최소화하고 속도를 크게 떨어뜨리지 않는 걸 겁니다. 이걸 해내기 위해서, Kimi 팀은 이 모델에 최적화된 특수한 기법들을 적용했고, 바로 이러한 기법들이 K2 Thinking의 효율성을 극대화하는 핵심 포인트가 됩니다. 이 기법에 대해서 알아보죠.
네이티브 INT4 양자화(Native INT4 Quantization)
‘추론’ 단계에서는, 대형 모델이 더 빠르게 작동하면서도 메모리를 덜 쓰게 하기 위해서 ‘낮은 정밀도’의 포맷이 자주 사용됩니다. 그런데 왜 하필 INT4일까요? INT4는 FP16보다 약 4배 더 작은 크기로 압축할 수 있으면서도 출력 품질은 거의 FP16에 가깝게 유지할 수 있기 때문입니다. 이 포맷에서는 모델의 파라미터가 4비트 정수로 저장되고, 정수 연산에 최적화된 하드웨어에서 처리됩니다.
하지만 이렇게 강한 양자화는 정확도 손실을 일으키기 쉽습니다. K2 Thinking은 이런 문제를 막기 위해서 Mixture-of-Experts 레이어에 Quantization-Aware Training(QAT)을 적용합니다. 이 레이어들에 대해서 가중치만 양자화하는 방식인데, INT4 반올림 오류에도 모델이 견딜 수 있게 만들어 줍니다:
QAT는 훈련 과정에서 4비트 반올림 노이즈를 미리 시뮬레이션해서, 양자화된 이후에도 모델이 정확도를 유지할 수 있도록 학습시킵니다.
K2 Thinking에서는 이 방식이 MoE 가중치에만 적용되고, 안정성을 위해 Activation은 더 높은 정밀도로 유지됩니다.
결과적으로 정확도의 손실이 없이 훨씬 적은 GPU 메모리로, 두 배 가까이 빠른 INT4 정밀도 추론이 가능해집니다.
다음 섹션에서 보게 될 모든 벤치마크 점수 역시 INT4 환경에서 얻은 성능입니다. 그리고 모델 체크포인트는 Compressed-Tensors 형식으로 저장되어 있어서, 필요하다면 FP8이나 BF16 같은 더 높은 정밀도 포맷으로 변환할 수도 있습니다.
에이전틱(Agentic) 성능은 어떨까
Kimi K2 Thinking은 여러 종류의 벤치마크와 까다로운 작업을 잘 하는지 확인하는 테스트에서 최첨단의 성능을 달성했습니다. 모든 테스트는 Temperature 1.0, 256k 컨텍스트 윈도우(SciCode 제외)로 진행됐습니다. 추론 작업의 토큰 제한은 96k–128k 범위였고, 안정성을 위해서 여러 번의 실행 결과를 평균했습니다.
성능 수치를 확인해 보면, Kimi K2 Thinking은 추론, 코딩, 일반적인 문제 해결 전반에서 GPT-5나 Claude Sonnet 4.5(Thinking) 같은 최상위 “Thinking Agent” 모델들과 비슷하거나 더 뛰어난 성능을 보여줍니다. (그리고 다시 한 번 강조하지만, 이 모델은 오픈소스입니다.)
Humanity’s Last Exam(HLE)에서는 도구 사용 모드에서 44.9%, Heavy Mode에서는 51%를 기록했는데, 이건 GPT-5의 41.7%를 뛰어넘는 성능입니다. 이 벤치마크는 100개 이상의 분야에 걸친 전문가 수준의 추론 능력을 평가하는 테스트입니다.

Image Credit: Introducing Kimi K2 Thinking 블로그
BrowseComp에서는 60.2%를 기록해서, 인간 기준의 두 배에 가까운 성능을 보였고 GPT-5의 54.9%도 앞질렀습니다.
SWE-Bench Verified에서 71.3%, SWE-Multilingual에서 61.1%, Terminal-Bench에서 47.1%를 기록하면서, 소프트웨어 엔지니어링과 코딩 분야에서도 강한 성능을 보여줍니다. 특히 K2 Thinking은 프런트엔드 작업(HTML, React, UI 컴포넌트)에서 좋은 성능을 보여주는데, 텍스트로 작성된 프롬프트를 실제 작동하는 코드와 제품으로 바로 만들어냅니다. “에이전틱” 환경에서는 공동 개발자처럼 전체 프로젝트를 처음부터 끝까지 구축할 수 있습니다.
또, Kimi K2 Thinking은 박사 수준의 수학 문제를 추론과 계산을 번갈아 수행하는 23단계를 거쳐서 해결해 내는 모습을 보여줬습니다. 즉, 복잡한 문제를 풀기 위해서 계획, 추론, 동적 적응 같은 다양한 능력을 결합하고, 검색이나 Python 같은 외부 도구도 활용해서 종합적인 해답을 만들어내는 능력이 있다는 이야깁니다.

Image Credit: Introducing Kimi K2 Thinking 블로그
또, 유명한 Simon Willison의 “Pelican on a Bicycle” 테스트에서도 상당히 좋은 성능을 보여줬습니다 🙂 아래 그림, 꽤 그럴 듯한가요?

Image Credit: Simon Willison 블로그
일반적인 능력 측면에서도, Kimi 팀은 이 최상위 모델에 창의적 글쓰기 능력을 더해서, 표현력 있는 이야기·시·스크립트를 인간처럼 자연스럽게 만들어내고, 톤과 스타일을 더 깊이 있게 유지할 수 있도록 했습니다.
실용적인 글쓰기도 K2 Thinking의 또 다른 강점입니다. 복잡한 프롬프트의 모든 부분을 구조화된 추론으로 다루기 때문에, 학술적·분석적 글쓰기나 연구, 전문 업무에 특히 잘 맞습니다. 또한 이 팀은 Kimi K2 Thinking이 보다 공감력있고 섬세한 방식으로, 사람 같은 조언과 응답을 제공하도록 설계했습니다.
Kimi K2 Thinking의 출시가 큰 주목을 받은 만큼, 사용자와 개발자들이 어떻게 평가하고 있는지도 흥미로운 부분입니다. 이제 그들의 솔직한 반응을 살펴보겠습니다.
Kimi K2 Thinking에 대한 의견들
Kimi K2 Thinking이 HLE에서 GPT-5를 넘어섰다는 얘기나 독특한 글쓰기 스타일 때문에 많은 사람들이 흥미롭다는 반응을 보였지만, 그중에서도 AI 업계의 영향력 있는 인물들이 남긴 몇 가지 흥미로운 의견이 특히 눈길을 끌었습니다.
Sebastian Raschka는, Kimi K2 Thinking과 DeepSeek R1의 아키텍처 비교를 빠르게 공유하면서, ‘K2 Thinking이 DeepSeek V3/R1을 기반으로 한 업그레이드 버전이라고 할 수 있고 구조적 변화는 비교적 작다’고 짚었습니다. 그는 Kimi K2 Thinking의 중요한 성능 관점의 향상은 모델 크기보다 데이터와 학습 방식 개선에서 나온 것으로 보인다고 설명했습니다. “더 많은 전문가(Experts), 더 적은 헤드, 그리고 더 많은 ‘생각(Thinking)’!”이라는 멘트도 함께 남겼죠.

Image Credit: Sebastian Raschka’s X
Nathan Lambert가 또 다른 유용한 인사이트를 제공했는데요 - 자신의 Interconnects 블로그 글에서 오픈 모델들이 오픈AI나 앤쓰로픽 같은 폐쇄형 시스템과의 격차를 성능과 품질 면에서 빠르게 좁혀가고 있다고 지적했습니다. 또 중국 연구실들은 모델 출시 속도가 매우 빨라서, 몇 달 만에 새로운 모델이 나오기도 하는데, 이는 주목도와 반복 속도 면에서 확실한 이점을 준다고도 언급했습니다.
Lambert는 Kimi가 DeepSeek, Qwen과 함께 국제적으로 잘 알려진 중국계 모델 브랜드로 자리 잡아가고 있다고 하기도 했습니다.
그 중 가장 흥미로운 지점은 툴 호출 능력에 관한 내용이었습니다. 과거에는 o3나 Grok 4 같은 모델에서만 보이던 다중 툴 호출 능력이 이제 오픈소스 모델에서도 구현되기 시작했다는 점을 강조했는데요. 이런 형태의 “Interleaved Thinking” — 즉, 추론 단계와 툴 사용을 번갈아 수행하는 방식 — 은 Claude가 보여주는 깊은 추론 행동과 아주 유사합니다.
다만 Nathan Lambert는 여기에 대해 한 가지 주의도 덧붙였습니다:
“이런 행동은, 정보 탐색을 해야 하는 작업에서 모델이 정답을 찾기 위해 검색을 해야 할 때 강화학습 과정에서 자연스럽게 나타나는 것이기 때문에, 기술적으로는 아주 놀라운 일은 아닙니다.”
자, 그럼 이제 Kimi K2 Thinking의 전반적인 강점과 약점을 정리해보겠습니다.
장점과 한계점
간략하게 정리해 보면, K2 Thinking이 보여주고 있는 주요 장점은 다음과 같습니다:
깊은 사고와 도구 오케스트레이션: 연구, 코딩, 글쓰기에서 자율적인 워크플로우를 수행할 수 있도록 추론과 도구 사용을 결합해서 엔드투엔드로 학습되었습니다.
안정적인 장기 추론: 기존의 많은 모델들이 30–50회 정도의 도구 호출 이후에 성능이 약해지는 반면에, K2 Thinking은 200–300회의 도구 호출을 한 후에도 수백 단계에 걸쳐서 목표를 일관되게 유지합니다.
효율적인 아키텍처 솔루션: INT4 정밀도와 Quantization-Aware Training(QAT)을 결합해서 품질을 저하시키지 않으면서도 추론 속도는 2배 빠르고 메모리는 적게 사용합니다.
오픈소스 접근성(Hugging Face 공개): 가중치와 문서를 함께 공개해서, 연구자와 개발자들이 블랙박스 API가 아닌 대규모 추론 시스템을 직접 분석할 수 있는 드문 기회를 제공합니다.
반면에, 고려해야 할 한계 역시 몇 가지 있습니다:
높은 연산 자원 요구사항: INT4 양자화를 적용했지만, 1조 파라미터 MoE 아키텍처는 여전히 상당한 GPU 자원을 필요로 합니다.
다수의 도구를 사용하는 오픈웨이트 모델을 호스팅할 때 안정성과 지연(Latency)을 관리하기 위한 엔지니어링 부담이 커집니다.
QAT가 정확도 손실을 크게 줄여주지만, INT4 양자화를 하면 정밀도에 민감한 작업에서 미세한 성능 저하를 일으킬 수 있습니다.
모든 작업이 200–300회에 달하는 깊은 재귀적 도구 호출의 이점을 누리는 것은 아닙니다.
맺으며
중국의 오픈소스 모델이 계속해서, 점점 많은 주목을 받는 가운데, 이번에는 에이전틱 능력과 전례 없이 많은 툴 호출 능력을 앞세운 Kimi K2 Thinking이 그 중심에 있습니다.
Moonshot AI는 미래 에이전트 모델에 대한 비전을 꾸준히 밀어붙이면서, Kimi K2 Thinking을 모든 사람에게 열려 있는 차세대의 AI Companion으로 자리매김하고 있습니다. 그래서 자연스럽게 이런 질문이 떠오릅니다. 이들은 여전히 AGI를 추구하는 걸까요, 아니면 인간을 보조하는 방향으로 AI의 목표를 바꾸고 있는 걸까요?
Kimi K2 Thinking 같은 모델을 보면, 오픈소스는 이제 확실하게 투명성과 집단적 발전의 힘을 상징하게 되었습니다. Moonshot의 다음 행보가 — 아마도 반년 안에 가시화될 텐데요 — 새로운 학습·최적화 기법일지, 아니면 완전히 다른 모델 아키텍처일지 관심을 가져볼 만 합니다.
그리고 마지막으로, 이런 발전은 LLM 영역에서 일어난 것이지만, 이제 곧 이런 관점의 발전이 공간 지능(Spatial Intelligence)에도 적용될까요? 그 부분이 해결되지 않는다면, AGI로 가는 길은 — 설령 가능하다고 해도 — 여전히 아주 멀리에 있는 꿈 같은 것일 겁니다.
보너스: 참고자료
Introducing Kimi K2 Thinking (Kimi blog post)
Kimi-K2-Thinking (open model on Hugging Face)
5 Thoughts on Kimi K2 Thinking by Interconnects
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!
Reply