• Turing Post Korea
  • Posts
  • 중국산 AI 모델 파헤치기: Kimi K2, DeepSeek-R1, Qwen3 (+Coder), GLM-4.5

중국산 AI 모델 파헤치기: Kimi K2, DeepSeek-R1, Qwen3 (+Coder), GLM-4.5

Moonshot AI, DeepSeek, Qwen, Z.ai에서 만든, 화제의 추론 및 에이전트 모델

들어가며

2025년 7월, 이번 달만 그런 건 아니겠지만, 왠지 특히 7월은 훌륭한 새로운 모델들이 많이 나온 것 같습니다. 중국의 Moonshot AI, Qwen, Z.ai 등 특히 중국 스타트업들이 아주 강력한 에이전트형 모델들을 내놓으면서 분위기를 후끈 달아오르게 만들었는데, 단순한 - 사실 이것도 단순한 건 아닌데 ^.^; - 추론(Reasoning) 모델을 넘어서는 새로운 시작을 알릴 뿐 아니라, 이 분야 자체에 대한 접근성을 넓히는 역할을 하고 있습니다. 다시 한 번, ‘오픈 모델’이 ‘폐쇄형 모델’에 필적하거나 심지어 능가하는 것을 목격하는 순간이었던 것 같구요.

여담이지만, ‘오픈소스’에서 발을 빼는 자세를 보이고 있는 메타는, 좀 부끄러운 줄 알아야 하나 싶기도 합니다. 2024년에는 ‘AI의 리눅스’라고 불릴 정도의 이미지를 만들어 가다가, 2025년에 와서 갑자기 - 뭐 사실 갑자기는 아니죠. 누구나 그 이유는 압니다 - “모델을 공개하는 것은 조심해야 한다”?

어쨌든, 지금은 ‘에이전트 중심의 혁신(Agentic Innovation)’의 시대라는 건 부정하기 어려운데, 정말 ‘중국산’ 모델들이 우리 모두에게 여유를 주지 않고 계속 정신없이 출시되고 있는 모양샙니다.

그 중, 가장 많은 주목을 받았다고 할 수 있는 Kimi K2부터 시작해서, 추론 모델의 기준이 되었다고 해도 과언이 아닌 DeepSeek-R1을 다시 한 번 살펴보고, 마지막으로 가장 최신 모델인 Qwen3, Qwen3-Coder, 그리고 GLM-4.5를 알아보겠습니다.

오늘 에피소드의 목차는 아래와 같습니다:

Kimi K2: ‘에이전틱 인텔리전스’의 선두주자

Kimi K2, 누가 뭐래도 현재 기준으로 가장 많은 주목을 받고 있는 대규모의 MoE(Mixture of Experts) 모델입니다.

지난 7월 12일에 출시된 이 모델은, 에이전틱 인텔리전스(Agentic Intelligence)로의 전환을 상징하는 모델이죠. DeepSeek-R1이 말하자면 ‘추론의 순간(Reasoning Moment)’을 만들어낸 것처럼, ‘에이전트의 순간(Agentic Moment)’을 상징하는 모델이라고 생각합니다.

손실 없이 ‘Long Context’를 잘 처리하는 모델, 그리고 개인화(Personalization)를 잘 할 수 있는 첨단 AI 기술을 개발하려고 해 온 Moonshot AI 연구진의 고집과 노력을 반영하는 모델입니다. Moonshot AI에 대해서 이전에 튜링 포스트 코리아에서 커버한 글도 있으니, 관심있는 분들은 한 번 참고하시기 바라구요:

당연하겠지만, 대화 전체를 아주 충실하게 (High-Fidelity), 온전하게 기억하게끔 하는데 초점을 둔 이 모델 위에 ‘AI 네이티브’로 제품을 구축하면, 굳이 모델을 파인튜닝하지 않고서도 아주 개인화된 사용자 경험을 제공할 수 있습니다.

그렇다면, Kimi K2가 보여준 ‘혁신’은 어떤 것들일까요?

이 모델은, 출시되자마자 빠르게 ‘에이전트형 행동(Agentic Behavior)’의 새로운 기준점이 되었는데, 아래와 같은 기술적인 핵심을 바탕으로 하고 있습니다:

  • 학습 과정을 안정적으로 진행하고, 방대한 데이터(15.5조의 토큰)를 학습할 수 있게끔 설계된, 전용의 뮤온클립 옵티마이저(MuonClip Optimizer)

  • Kimi K2가 에이전트로서의 능력을 가질 수 있도록 초점을 맞춘, 대규모의 합성 데이터 파이프라인(Synthetic Data Pipeline)

  • 개방형 질문(Open-Ended Question)에 대해서 만들어낸 스스로의 출력값(응답)을 가지고 다시 스스로 학습하는, ‘Self-Critique Rubric Reward’ 능력

자, 그럼 여기까지만 기억을 해 두시고, 각각의 내용을 짚어보겠습니다.

독점적인 혁신 기술

우선, Kimi K2의 아키텍처에 대해서 간단히 알아보죠.

이 모델은 MoE(Mixture of Experts) 구조를 기반으로 하는데, 총 파라미터 수는 1.04조 개지만 한 번에 활성화되는 파라미터는 320억 개 수준입니다. Kimi K2는 총 384개의 전문가(Experts) 중에 매번 포워드 패스(Forward Pass)마다 8개만 활성화시켜서, Sparsity Level이 48로 꽤 높고, 결과적으로 연산 비용을 증가시키지 않으면서도 효율을 높였습니다.

Moonshot AI의 Kimi K2 모델은 MLA(Multi-head Latent Attention)라는 효율적인 어텐션 구조를 사용하고, 내부 계산에 사용하는 벡터 크기(= 히든 사이즈)는 7168 차원입니다. MoE 구조에서 각 전문가 레이어(Expert Layer)2048 차원의 벡터를 사용해서 계산을 수행하구요. 또, Long Context를 효과적으로 이해하게끔 하면서도 연산 속도와 효율성을 유지하기 위해서, 어텐션 헤드 수를 64개로 설정해서 성능과 속도 사이에서 균형을 잘 잡는 구조를 선택했습니다. (DeepSeek-V3의 어텐션 헤드 수는 128개입니다. 어텐션 수를 줄이면 워크플로우가 더 빨라지는 이점이 있습니다.)

자, 그럼 앞에서 언급한 ‘스마트한 혁신’의 내용들에 대해 좀 더 깊이 살펴보죠.

뮤온클립 옵티마이저(MuonClip optimizer)

Kimi K2의 학습에 사용하는 맞춤형 옵티마이저, ‘뮤온클립(MuonClip)’에 대해서 알아보겠습니다. 옵티마이저(Optimizer)는 AI 모델이 학습 중 오차를 줄이기 위해서 가중치를 어떻게 조정할지 결정하는 알고리즘이구요.

뮤온클립은 뮤온(Muon) 옵티마이저를 기반으로 하는데, 토큰 하나당 더 많은 학습 효과를 얻고자 하는 목표로 설계된 고효율 옵티마이저입니다. 뮤온은 RMS 스케일링(Root Mean Square Normalization, 제곱평균 정규화)을 사용해서 각 레이어에서 파라미터의 RMS 값에 따라서 업데이트의 크기를 조정해서, 모델 전반에 걸쳐서 업데이트 규모가 일관되게 유지되게끔 합니다. 또, 가중치 감소(Weight Decay) 기법을 통합해서 과도한 가중치 값을 억제하는 정규화가 적용되는데, 이 과정 또한 RMS 스케일링을 고려해서 설계해서, 학습 신호를 과도하게 약화시키지 않게 됩니다.

Kimi K2에서는 뮤온에 또 하나의 스마트한 기법인 QK-클립(QK-Clip)을 결합해서 뮤온클립(MuonClip)을 구성하게 됩니다. 이 기법은, 어텐션 레이어(Attention Layer)가 지나치게 불안정해지는 것을 방지하는데 도움을 줍니다. QK-클립은 어텐션 레이어 내부에서 발생하는 극단적으로 큰 값들을 감지해서, 이런 스파이크를 유발하는 내부 가중치, 특히 Q(Query)와 K(Key) 프로젝션의 가중치를 부드럽게 리스케일링(Rescaling)하게끔 작동합니다.

전반적으로, 뮤온클립은 어텐션 로짓(Attention Logits)을 잘 제어된 수준으로 유지합니다. 예를 들어서, 학습 초반에는 로짓 값이 약 100 수준에서 시작해서 시간이 지나면서 점진적으로 낮아지고, 이렇게 해서 성능의 저하 없이 학습이 안정적으로 되게끔 합니다. 이런 기법으로 Kimi K2는 웹 텍스트, 코드, 수학, 지식 등을 포함한 총 15.5조 토큰의 데이터를 더 빠르고 안정적으로 학습할 수 있습니다.

Image Credit: Kimi K2 오리지널 논문

자, 그럼 이때쯤 또 하나 궁금한 게 생기겠죠 - 이렇게 방대한 학습 데이터를 도대체 어떻게 확보했을까요?

합성 데이터, 그리고 재표현(Rephrasing)

특히 이전 모델과 비교했을 때 Kimi K2에서 새로 도입한 중요한 혁신 중 하나가 바로 ‘데이터의 재표현(Data Rephrasing)’ 전략이라고 할 수 있습니다. Kimi K2는 ‘동일한 학습 예시를 반복’해서 사용하는 대신, 합성 재표현(Synthetic Rephrasing) 기법을 활용해서 다양한 버전의 콘텐츠를 생성합니다.

이렇게 통제된 환경에서 구성된 ‘재표현 파이프라인’(Controlled Rephrasing Pipeline)은, 아래와 같은 방식으로 ‘지식의 밀도가 높은’, 즉 사실, 개념, 관계, 맥락, 논리적 구조 등이 풍부하게 담긴 데이터를 만들어 냅니다:

  • 사실(Fact)을 다양한 문체와 관점으로 다시 작성해서, 언어적인 차원의 다양성(Linguistic Variety)을 더함
    같은 사실이라도 문장을 다르게 표현해서, 모델이 보다 유연하게 지식을 이해하고 표현할 수 있도록 합니다.

  • 청크 기반 생성(Chunk-Based Generation): 긴 문서를 여러 조각으로 나누고 각각을 재표현한 후 다시 조립함
    이 방식은 문맥을 잃지 않고도 재구성된 다양한 표현을 학습할 수 있도록 하고, 결과적으로 모델의 일반화 능력을 향상시키는 데 기여합니다.

Image Credit: Kimi K2 오리지널 논문

  • 정확도 검증(Fidelity Checks): 각각의 재표현된 문장을 원본 문장과 비교해서 핵심적인 의미(Core Meaning)가 유지되었는지를 확인합니다.

  • 수학 추론(Math Reasoning) 능력을 향상시키기 위해서, 모델이 수학 관련 텍스트를 학생이 익숙한 ‘학습 노트(Learning Note)’ 스타일로 구조화해서 다시 작성합니다. 또, 다른 언어로 된 문제들을 고품질의 영어 번역으로 변환해서 데이터의 다양성을 높입니다.

이러한 파이프라인을 활용해서, 모델이 이미 보유하고 있는 데이터를 더 효과적으로 재활용할 수 있게 됩니다.

더불어, Kimi K2는 유연한 병렬적 학습 구조(Flexible Parallel Training Setup)를 구현하고 있는데요, 이 구조는 아래와 같은 요소들이 결합되어 있습니다:

  • 파이프라인 병렬처리(Pipeline Parallelism)가상 스테이지(Virtual Stages)

  • 16개의 전문가(Experts)에 걸쳐서 전문가 병렬처리(Expert Parallelism)

  • 메모리 효율을 위한 ZeRO-1 데이터 병렬처리(ZeRO-1 Data Parallelism)

이 덕분에 Kimi K2는 다양한 크기의 GPU 클러스터 환경에 적응해 가면서 학습을 수행할 수 있습니다.

에이전트로서의 능력(Agentic Capabilities) 측면에서도, Kimi K2는 전용의 에이전트형 데이터 파이프라인(Agentic Data Pipeline)을 갖추고 있습니다. Moonshot AI는 ‘도구 사용’ 능력을 학습시키기 위해서 합성 데이터 파이프라인을 구축했다고 하는데, 이 과정에서 2만 개 이상의 가상 도구(Virtual Tools)수천 개의 에이전트(Agents)를 만들어 각각의 도구를 활용해서 문제를 해결하게끔 학습시켰습니다. 또, 각각 에이전트와 작업에 대해서 행동 경로(Agent Trajectories)를 생성했습니다.

Kimi K2는 이 합성 데이터를 학습한 뒤에, 코딩 환경 같은 실제 샌드박스(Real Sandbox)에서도 훈련을 거칩니다.

이렇게 ‘전방위적 접근’이, 바로 Kimi K2가 단순한 언어 모델을 넘어서 도구를 이해하고 활용하는 실질적인 에이전트로 진화하는 기반이 됩니다.

Image Credit: Kimi K2 오리지널 논문

셀프 크리틱(Self-Critic): ‘개방형 작업’을 위한 새로운 보상 모델링 기법

Kimi K2는 강화학습 과정에서 개방형(Open-Ended) 작업의 결과를 손쉽게 평가할 수 있는 모델입니다.

이 모델은 자체 내장된 ‘크리틱(Critic)’, 즉 자기 자신을 복제한 또 다른 버전을 활용해서 응답(Response)을 평가합니다. 이때 사용되는 기준은 유용성(Helpfulness), 사실성(Factuality), 추론력(Reasoning), 안전성(Safety) 등의 체크리스트인데, 이 체크리스트들이 하드코딩되어 있는 것이 아니라 모델이 학습을 진행하면서 다이나믹하게 중요도를 조정하고 적용할 수 있도록 설계되어 있습니다. 이 전체 구조를 ‘자기 평가 루브릭 보상(Self-Critique Rubric Reward)’이라고 부릅니다. 이는 창의적인 글쓰기나 복잡한 추론처럼 정답이 명확하지 않은 개방형 작업을 평가할 때 활용할 수 있는 체계입니다.

이게 왜 그렇게 중요한 걸까요? 왜냐하면, Kimi K2가 사람이나 정답 레이블(Ground-Truth Label)이 없는 상황에서도 스스로의 응답들을 비교해서 더 나은 것을 선택할 수 있게끔 해 주기 때문입니다.

그렇지만, 크리틱이 현실과 너무 동떨어지지 않게 하기 위해서, Kimi K2는 폐쇄 루프 정제 시스템(Closed-Loop Refinement System)을 함께 사용합니다. 이 구조는 정답이 명확한 객관적인 작업(Objective Tasks)으로 먼저 크리틱을 훈련시킨 다음에, 그 훈련된 평가 기준을 요약(Summarization)이나 개방형 질문답변(Open-Ended Q&A) 같은 더 주관적인 프롬프트에 적용합니다.

과거에는 다루기 어려웠던 주관적이고 개방형인 작업들에 대해서도, 이 새로운 접근 방식을 기반으로 Kimi K2가 강화학습을 확장해서 적용할 수 있게 되는 겁니다. 그리고, 이건 Kimi K2가 스스로의 행동을 추론하고 판단할 수 있는 실질적인 에이전트에 한 걸음 더 가까워졌다는 의미이기도 하구요.

이렇게, 지금까지 살펴본 모든 기술적인 혁신을 종합해 보면, Kimi K2가 에이전트로서의 능력을 제대로 갖추고, 추론 경쟁(Reasoning Race)에서 주목할 만한 주자가 된 이유를 명확히 알 수 있습니다.

Kimi K2가 보여준 성과

Kimi K2-Instruct는 2025년 7월 기준으로 LMSYS Arena 리더보드에서 오픈소스(Open-Source) 모델 중 1위, 전체 순위에서는 5위를 기록하고 있습니다. 이 모델은 경쟁적 코딩, 도구 사용, 추론, 안전성 등의 분야에서 이전까지 가장 주목받던 DeepSeek-R1 모델을 전반적으로 능가하는 성능을 보여줍니다: DeepSeek을 이긴 모델이라는 점만으로도, Kimi K2가 또 하나의 특별한 AI의 역사적 ‘모멘트’를 만들어낸 것은 분명하다고 할 수 있습니다.

  • Kimi K2는 실제 소프트웨어 엔지니어링 및 코딩 작업에서 DeepSeek-R1보다 훨씬 앞서 있고, Claude 4 Opus와의 격차를 상당히 좁혔고, 일부 과제에서는 Sonnet 4를 능가하는 성과를 보여줍니다.

  • 또, 도구 사용(Tool-Use) 과제에서는 업계 최고 수준으로 평가받고 있고, GPT-4.1과 Claude Sonnet보다도 우수한 성능을 기록하고 있습니다. 특히 DeepSeek-R1에 비해 20~30포인트의 점수 차이를 보이면서 큰 격차를 나타냅니다.

Image Credit: Kimi K2 오리지널 논문

  • Kimi K2는 대부분의 논리 중심(Logical)적인 벤치마크에서 뚜렷한 성능 향상을 보여줍니다.

  • 전반적인 능력(General Capabilities) 측면에서도, 오픈 모델(Open Model) 중에서 최고의 성능을 기록하고 있고, MMLU-Redux 벤치마크에서 92.7%의 정확도를 달성했습니다.

  • 그리고 무엇보다도, Long Context를 잘 다루는데요. Kimi K2는 최대 128K 토큰까지 안정적으로 처리하고, 뛰어난 기억 유지력(Retention)을 보여줍니다.

Image Credit: Kimi K2 오리지널 논문

이런 놀라운 결과들이 바로 Kimi K2가 지금까지 출시된 오픈 가중치(Open-Weight) LLM 중 가장 뛰어난 성능을 지닌 모델이라는 걸 입증하고 있다고 할 수 있겠습니다. Kimi K2는 프라이빗 프론티어 모델(Proprietary Frontier Model)들과 견줄 수 있을 뿐만 아니라, 현실 세계에서의 에이전트형(Agentic) 활용을 하게 해 주는 모델로서도 새로운 기준을 제시하고 있습니다.

문제는, 과연 이 모델이 그 우위를 계속 유지할 수 있을까요?

왜냐하면, 중국의 다른 유력한 플레이어들도 자신들만의 독창적인 전략으로 빠르게 발전하고 있기 때문인데요. 그렇다면 이 다른 플레이어들은 또 어떤 나름의 방식으로 기술을 발전시켜 나가고 있는지 지켜보고 분석할 필요가 있습니다.

그 첫 번째 순서로, 이 모든 것이 시작된 ’베이스라인’이라고도 할 수 있을, DeepSeek-R1 모델부터 한 번 살펴보죠.

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!

튜링 포스트 코리아의 ‘AI 101’ 전체 에피소드는 프리미엄 구독자들께는 발행 즉시, 무료 구독자들께는 발행 2주 후 공개됩니다. 프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있고, 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!

  • 주간 AI 뉴스레터

  • AI 유니콘 기업들에 대한 심층 분석 기사

  • AI 기술, 산업, 정책 전문가 인터뷰

  • AI 기술 및 산업에 대한 심층 분석 시리즈

  • 분석 기사 요청 및 튜링 포스트 코리아 기고

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.