• Turing Post Korea
  • Posts
  • 중국산 AI 모델 파헤치기: Kimi K2, DeepSeek-R1, Qwen3 (+Coder), GLM-4.5

중국산 AI 모델 파헤치기: Kimi K2, DeepSeek-R1, Qwen3 (+Coder), GLM-4.5

Moonshot AI, DeepSeek, Qwen, Z.ai에서 만든, 화제의 추론 및 에이전트 모델

들어가며

이 글은 2025년 8월 16일 전체 공개되었습니다.

편집자 주

2025년 7월, 이번 달만 그런 건 아니겠지만, 왠지 특히 7월은 훌륭한 새로운 모델들이 많이 나온 것 같습니다. 중국의 Moonshot AI, Qwen, Z.ai 등 특히 중국 스타트업들이 아주 강력한 에이전트형 모델들을 내놓으면서 분위기를 후끈 달아오르게 만들었는데, 단순한 - 사실 이것도 단순한 건 아닌데 ^.^; - 추론(Reasoning) 모델을 넘어서는 새로운 시작을 알릴 뿐 아니라, 이 분야 자체에 대한 접근성을 넓히는 역할을 하고 있습니다. 다시 한 번, ‘오픈 모델’이 ‘폐쇄형 모델’에 필적하거나 심지어 능가하는 것을 목격하는 순간이었던 것 같구요.

여담이지만, ‘오픈소스’에서 발을 빼는 자세를 보이고 있는 메타는, 좀 부끄러운 줄 알아야 하나 싶기도 합니다. 2024년에는 ‘AI의 리눅스’라고 불릴 정도의 이미지를 만들어 가다가, 2025년에 와서 갑자기 - 뭐 사실 갑자기는 아니죠. 누구나 그 이유는 압니다 - “모델을 공개하는 것은 조심해야 한다”?

어쨌든, 지금은 ‘에이전트 중심의 혁신(Agentic Innovation)’의 시대라는 건 부정하기 어려운데, 정말 ‘중국산’ 모델들이 우리 모두에게 여유를 주지 않고 계속 정신없이 출시되고 있는 모양샙니다.

그 중, 가장 많은 주목을 받았다고 할 수 있는 Kimi K2부터 시작해서, 추론 모델의 기준이 되었다고 해도 과언이 아닌 DeepSeek-R1을 다시 한 번 살펴보고, 마지막으로 가장 최신 모델인 Qwen3, Qwen3-Coder, 그리고 GLM-4.5를 알아보겠습니다.

오늘 에피소드의 목차는 아래와 같습니다:

Kimi K2: ‘에이전틱 인텔리전스’의 선두주자

Kimi K2, 누가 뭐래도 현재 기준으로 가장 많은 주목을 받고 있는 대규모의 MoE(Mixture of Experts) 모델입니다.

지난 7월 12일에 출시된 이 모델은, 에이전틱 인텔리전스(Agentic Intelligence)로의 전환을 상징하는 모델이죠. DeepSeek-R1이 말하자면 ‘추론의 순간(Reasoning Moment)’을 만들어낸 것처럼, ‘에이전트의 순간(Agentic Moment)’을 상징하는 모델이라고 생각합니다.

손실 없이 ‘Long Context’를 잘 처리하는 모델, 그리고 개인화(Personalization)를 잘 할 수 있는 첨단 AI 기술을 개발하려고 해 온 Moonshot AI 연구진의 고집과 노력을 반영하는 모델입니다. Moonshot AI에 대해서 이전에 튜링 포스트 코리아에서 커버한 글도 있으니, 관심있는 분들은 한 번 참고하시기 바라구요:

당연하겠지만, 대화 전체를 아주 충실하게 (High-Fidelity), 온전하게 기억하게끔 하는데 초점을 둔 이 모델 위에 ‘AI 네이티브’로 제품을 구축하면, 굳이 모델을 파인튜닝하지 않고서도 아주 개인화된 사용자 경험을 제공할 수 있습니다.

그렇다면, Kimi K2가 보여준 ‘혁신’은 어떤 것들일까요?

이 모델은, 출시되자마자 빠르게 ‘에이전트형 행동(Agentic Behavior)’의 새로운 기준점이 되었는데, 아래와 같은 기술적인 핵심을 바탕으로 하고 있습니다:

  • 학습 과정을 안정적으로 진행하고, 방대한 데이터(15.5조의 토큰)를 학습할 수 있게끔 설계된, 전용의 뮤온클립 옵티마이저(MuonClip Optimizer)

  • Kimi K2가 에이전트로서의 능력을 가질 수 있도록 초점을 맞춘, 대규모의 합성 데이터 파이프라인(Synthetic Data Pipeline)

  • 개방형 질문(Open-Ended Question)에 대해서 만들어낸 스스로의 출력값(응답)을 가지고 다시 스스로 학습하는, ‘Self-Critique Rubric Reward’ 능력

자, 그럼 여기까지만 기억을 해 두시고, 각각의 내용을 짚어보겠습니다.

독점적인 혁신 기술

우선, Kimi K2의 아키텍처에 대해서 간단히 알아보죠.

이 모델은 MoE(Mixture of Experts) 구조를 기반으로 하는데, 총 파라미터 수는 1.04조 개지만 한 번에 활성화되는 파라미터는 320억 개 수준입니다. Kimi K2는 총 384개의 전문가(Experts) 중에 매번 포워드 패스(Forward Pass)마다 8개만 활성화시켜서, Sparsity Level이 48로 꽤 높고, 결과적으로 연산 비용을 증가시키지 않으면서도 효율을 높였습니다.

Moonshot AI의 Kimi K2 모델은 MLA(Multi-head Latent Attention)라는 효율적인 어텐션 구조를 사용하고, 내부 계산에 사용하는 벡터 크기(= 히든 사이즈)는 7168 차원입니다. MoE 구조에서 각 전문가 레이어(Expert Layer)2048 차원의 벡터를 사용해서 계산을 수행하구요. 또, Long Context를 효과적으로 이해하게끔 하면서도 연산 속도와 효율성을 유지하기 위해서, 어텐션 헤드 수를 64개로 설정해서 성능과 속도 사이에서 균형을 잘 잡는 구조를 선택했습니다. (DeepSeek-V3의 어텐션 헤드 수는 128개입니다. 어텐션 수를 줄이면 워크플로우가 더 빨라지는 이점이 있습니다.)

자, 그럼 앞에서 언급한 ‘스마트한 혁신’의 내용들에 대해 좀 더 깊이 살펴보죠.

뮤온클립 옵티마이저(MuonClip optimizer)

Kimi K2의 학습에 사용하는 맞춤형 옵티마이저, ‘뮤온클립(MuonClip)’에 대해서 알아보겠습니다. 옵티마이저(Optimizer)는 AI 모델이 학습 중 오차를 줄이기 위해서 가중치를 어떻게 조정할지 결정하는 알고리즘이구요.

뮤온클립은 뮤온(Muon) 옵티마이저를 기반으로 하는데, 토큰 하나당 더 많은 학습 효과를 얻고자 하는 목표로 설계된 고효율 옵티마이저입니다. 뮤온은 RMS 스케일링(Root Mean Square Normalization, 제곱평균 정규화)을 사용해서 각 레이어에서 파라미터의 RMS 값에 따라서 업데이트의 크기를 조정해서, 모델 전반에 걸쳐서 업데이트 규모가 일관되게 유지되게끔 합니다. 또, 가중치 감소(Weight Decay) 기법을 통합해서 과도한 가중치 값을 억제하는 정규화가 적용되는데, 이 과정 또한 RMS 스케일링을 고려해서 설계해서, 학습 신호를 과도하게 약화시키지 않게 됩니다.

Kimi K2에서는 뮤온에 또 하나의 스마트한 기법인 QK-클립(QK-Clip)을 결합해서 뮤온클립(MuonClip)을 구성하게 됩니다. 이 기법은, 어텐션 레이어(Attention Layer)가 지나치게 불안정해지는 것을 방지하는데 도움을 줍니다. QK-클립은 어텐션 레이어 내부에서 발생하는 극단적으로 큰 값들을 감지해서, 이런 스파이크를 유발하는 내부 가중치, 특히 Q(Query)와 K(Key) 프로젝션의 가중치를 부드럽게 리스케일링(Rescaling)하게끔 작동합니다.

전반적으로, 뮤온클립은 어텐션 로짓(Attention Logits)을 잘 제어된 수준으로 유지합니다. 예를 들어서, 학습 초반에는 로짓 값이 약 100 수준에서 시작해서 시간이 지나면서 점진적으로 낮아지고, 이렇게 해서 성능의 저하 없이 학습이 안정적으로 되게끔 합니다. 이런 기법으로 Kimi K2는 웹 텍스트, 코드, 수학, 지식 등을 포함한 총 15.5조 토큰의 데이터를 더 빠르고 안정적으로 학습할 수 있습니다.

Image Credit: Kimi K2 오리지널 논문

자, 그럼 이때쯤 또 하나 궁금한 게 생기겠죠 - 이렇게 방대한 학습 데이터를 도대체 어떻게 확보했을까요?

합성 데이터, 그리고 재표현(Rephrasing)

특히 이전 모델과 비교했을 때 Kimi K2에서 새로 도입한 중요한 혁신 중 하나가 바로 ‘데이터의 재표현(Data Rephrasing)’ 전략이라고 할 수 있습니다. Kimi K2는 ‘동일한 학습 예시를 반복’해서 사용하는 대신, 합성 재표현(Synthetic Rephrasing) 기법을 활용해서 다양한 버전의 콘텐츠를 생성합니다.

이렇게 통제된 환경에서 구성된 ‘재표현 파이프라인’(Controlled Rephrasing Pipeline)은, 아래와 같은 방식으로 ‘지식의 밀도가 높은’, 즉 사실, 개념, 관계, 맥락, 논리적 구조 등이 풍부하게 담긴 데이터를 만들어 냅니다:

  • 사실(Fact)을 다양한 문체와 관점으로 다시 작성해서, 언어적인 차원의 다양성(Linguistic Variety)을 더함
    같은 사실이라도 문장을 다르게 표현해서, 모델이 보다 유연하게 지식을 이해하고 표현할 수 있도록 합니다.

  • 청크 기반 생성(Chunk-Based Generation): 긴 문서를 여러 조각으로 나누고 각각을 재표현한 후 다시 조립함
    이 방식은 문맥을 잃지 않고도 재구성된 다양한 표현을 학습할 수 있도록 하고, 결과적으로 모델의 일반화 능력을 향상시키는 데 기여합니다.

Image Credit: Kimi K2 오리지널 논문

  • 정확도 검증(Fidelity Checks): 각각의 재표현된 문장을 원본 문장과 비교해서 핵심적인 의미(Core Meaning)가 유지되었는지를 확인합니다.

  • 수학 추론(Math Reasoning) 능력을 향상시키기 위해서, 모델이 수학 관련 텍스트를 학생이 익숙한 ‘학습 노트(Learning Note)’ 스타일로 구조화해서 다시 작성합니다. 또, 다른 언어로 된 문제들을 고품질의 영어 번역으로 변환해서 데이터의 다양성을 높입니다.

이러한 파이프라인을 활용해서, 모델이 이미 보유하고 있는 데이터를 더 효과적으로 재활용할 수 있게 됩니다.

더불어, Kimi K2는 유연한 병렬적 학습 구조(Flexible Parallel Training Setup)를 구현하고 있는데요, 이 구조는 아래와 같은 요소들이 결합되어 있습니다:

  • 파이프라인 병렬처리(Pipeline Parallelism)가상 스테이지(Virtual Stages)

  • 16개의 전문가(Experts)에 걸쳐서 전문가 병렬처리(Expert Parallelism)

  • 메모리 효율을 위한 ZeRO-1 데이터 병렬처리(ZeRO-1 Data Parallelism)

이 덕분에 Kimi K2는 다양한 크기의 GPU 클러스터 환경에 적응해 가면서 학습을 수행할 수 있습니다.

에이전트로서의 능력(Agentic Capabilities) 측면에서도, Kimi K2는 전용의 에이전트형 데이터 파이프라인(Agentic Data Pipeline)을 갖추고 있습니다. Moonshot AI는 ‘도구 사용’ 능력을 학습시키기 위해서 합성 데이터 파이프라인을 구축했다고 하는데, 이 과정에서 2만 개 이상의 가상 도구(Virtual Tools)수천 개의 에이전트(Agents)를 만들어 각각의 도구를 활용해서 문제를 해결하게끔 학습시켰습니다. 또, 각각 에이전트와 작업에 대해서 행동 경로(Agent Trajectories)를 생성했습니다.

Kimi K2는 이 합성 데이터를 학습한 뒤에, 코딩 환경 같은 실제 샌드박스(Real Sandbox)에서도 훈련을 거칩니다.

이렇게 ‘전방위적 접근’이, 바로 Kimi K2가 단순한 언어 모델을 넘어서 도구를 이해하고 활용하는 실질적인 에이전트로 진화하는 기반이 됩니다.

Image Credit: Kimi K2 오리지널 논문

셀프 크리틱(Self-Critic): ‘개방형 작업’을 위한 새로운 보상 모델링 기법

Kimi K2는 강화학습 과정에서 개방형(Open-Ended) 작업의 결과를 손쉽게 평가할 수 있는 모델입니다.

이 모델은 자체 내장된 ‘크리틱(Critic)’, 즉 자기 자신을 복제한 또 다른 버전을 활용해서 응답(Response)을 평가합니다. 이때 사용되는 기준은 유용성(Helpfulness), 사실성(Factuality), 추론력(Reasoning), 안전성(Safety) 등의 체크리스트인데, 이 체크리스트들이 하드코딩되어 있는 것이 아니라 모델이 학습을 진행하면서 다이나믹하게 중요도를 조정하고 적용할 수 있도록 설계되어 있습니다. 이 전체 구조를 ‘자기 평가 루브릭 보상(Self-Critique Rubric Reward)’이라고 부릅니다. 이는 창의적인 글쓰기나 복잡한 추론처럼 정답이 명확하지 않은 개방형 작업을 평가할 때 활용할 수 있는 체계입니다.

이게 왜 그렇게 중요한 걸까요? 왜냐하면, Kimi K2가 사람이나 정답 레이블(Ground-Truth Label)이 없는 상황에서도 스스로의 응답들을 비교해서 더 나은 것을 선택할 수 있게끔 해 주기 때문입니다.

그렇지만, 크리틱이 현실과 너무 동떨어지지 않게 하기 위해서, Kimi K2는 폐쇄 루프 정제 시스템(Closed-Loop Refinement System)을 함께 사용합니다. 이 구조는 정답이 명확한 객관적인 작업(Objective Tasks)으로 먼저 크리틱을 훈련시킨 다음에, 그 훈련된 평가 기준을 요약(Summarization)이나 개방형 질문답변(Open-Ended Q&A) 같은 더 주관적인 프롬프트에 적용합니다.

과거에는 다루기 어려웠던 주관적이고 개방형인 작업들에 대해서도, 이 새로운 접근 방식을 기반으로 Kimi K2가 강화학습을 확장해서 적용할 수 있게 되는 겁니다. 그리고, 이건 Kimi K2가 스스로의 행동을 추론하고 판단할 수 있는 실질적인 에이전트에 한 걸음 더 가까워졌다는 의미이기도 하구요.

이렇게, 지금까지 살펴본 모든 기술적인 혁신을 종합해 보면, Kimi K2가 에이전트로서의 능력을 제대로 갖추고, 추론 경쟁(Reasoning Race)에서 주목할 만한 주자가 된 이유를 명확히 알 수 있습니다.

Kimi K2가 보여준 성과

Kimi K2-Instruct는 2025년 7월 기준으로 LMSYS Arena 리더보드에서 오픈소스(Open-Source) 모델 중 1위, 전체 순위에서는 5위를 기록하고 있습니다. 이 모델은 경쟁적 코딩, 도구 사용, 추론, 안전성 등의 분야에서 이전까지 가장 주목받던 DeepSeek-R1 모델을 전반적으로 능가하는 성능을 보여줍니다: DeepSeek을 이긴 모델이라는 점만으로도, Kimi K2가 또 하나의 특별한 AI의 역사적 ‘모멘트’를 만들어낸 것은 분명하다고 할 수 있습니다.

  • Kimi K2는 실제 소프트웨어 엔지니어링 및 코딩 작업에서 DeepSeek-R1보다 훨씬 앞서 있고, Claude 4 Opus와의 격차를 상당히 좁혔고, 일부 과제에서는 Sonnet 4를 능가하는 성과를 보여줍니다.

  • 또, 도구 사용(Tool-Use) 과제에서는 업계 최고 수준으로 평가받고 있고, GPT-4.1과 Claude Sonnet보다도 우수한 성능을 기록하고 있습니다. 특히 DeepSeek-R1에 비해 20~30포인트의 점수 차이를 보이면서 큰 격차를 나타냅니다.

Image Credit: Kimi K2 오리지널 논문

  • Kimi K2는 대부분의 논리 중심(Logical)적인 벤치마크에서 뚜렷한 성능 향상을 보여줍니다.

  • 전반적인 능력(General Capabilities) 측면에서도, 오픈 모델(Open Model) 중에서 최고의 성능을 기록하고 있고, MMLU-Redux 벤치마크에서 92.7%의 정확도를 달성했습니다.

  • 그리고 무엇보다도, Long Context를 잘 다루는데요. Kimi K2는 최대 128K 토큰까지 안정적으로 처리하고, 뛰어난 기억 유지력(Retention)을 보여줍니다.

Image Credit: Kimi K2 오리지널 논문

이런 놀라운 결과들이 바로 Kimi K2가 지금까지 출시된 오픈 가중치(Open-Weight) LLM 중 가장 뛰어난 성능을 지닌 모델이라는 걸 입증하고 있다고 할 수 있겠습니다. Kimi K2는 프라이빗 프론티어 모델(Proprietary Frontier Model)들과 견줄 수 있을 뿐만 아니라, 현실 세계에서의 에이전트형(Agentic) 활용을 하게 해 주는 모델로서도 새로운 기준을 제시하고 있습니다.

문제는, 과연 이 모델이 그 우위를 계속 유지할 수 있을까요?

왜냐하면, 중국의 다른 유력한 플레이어들도 자신들만의 독창적인 전략으로 빠르게 발전하고 있기 때문인데요. 그렇다면 이 다른 플레이어들은 또 어떤 나름의 방식으로 기술을 발전시켜 나가고 있는지 지켜보고 분석할 필요가 있습니다.

그 첫 번째 순서로, 이 모든 것이 시작된 ’베이스라인’이라고도 할 수 있을, DeepSeek-R1 모델부터 한 번 살펴보죠.

DeepSeek-R1: 추론(Reasoning) 모델의 기준점(Baseline)

모두들 기억하시리라 생각합니다.

2025년 1월, DeepSeek-R1추론 능력에 중점을 두고 ‘오픈소스 AI의 새로운 기준(Benchmark)’을 제시하면서 화려하게 등장했습니다. DeekSeek은 깊이 있는 단계별 사고(Step-by-Step Thinking)를 적극적으로 수용했고, 강화학습과 테스트 시점의 컴퓨트 확장(Test-Time Compute Scaling) 기법을 실험적으로 적용해서, 더 잘 구조화된 모델로서 DeepSeek-R1을 만들었을 뿐 아니라 자기 인식적인 추론(Self-Aware Reasoning)을 할 수 있게끔 유도했습니다.

사실 DeepSeek의 이 여정은 DeepSeek-R1-Zero에서 시작되었는데, 이 모델은 레이블이 없는 데이터로만 강화학습을 진행한 사례였습니다. DeepSeek 초기 모델에 대한 내용을 커버했던 튜링 포스트 코리아의 글도 한 번 참고하시구요:

여기서 사용된 GRPO(Group Relative Policy Optimization)는 현재 가장 효과적인 정책 최적화(Policy Optimization) 기법 중의 하나로 평가받고 있고, 당시 다수결(Majority Voting) 기준으로 AIME에서 86.7%의 정확도를 기록, 오픈AI의 o1 모델과 맞먹는 성능을 보여주기도 했습니다. GRPO 및 Flow GRPO 기법에 대해서 궁금하시면 아래 글을 참고하세요:

자, 어쨌든, 이 DeepSeek-R1 모델은 문제를 해결하는 중간에 자신의 풀이 과정을 다시 생각(Re-Thinking)하는 등, ‘추론’이 실제 추론 과정에서 발현되는 특징을 보여주기도 했습니다.

하지만 초기에는 출력이 다소 비정형적이기도 하고 정돈되지 않았었기 때문에, DeepSeek-R1은 구조화된 추론 예시를 활용한 콜드 스타트 파인튜닝(Cold-Start Fine-Tuning)을 강화학습을 적용하는 단계의 이전 단계에서 추가했습니다. 이런 조치로 Alignment와 가독성(Readability)이 개선되었고, 결과적으로 추론 작업에서 오픈AI의 o1-1217과 경쟁할 만한 수준까지 모델의 성능을 끌어올렸습니다.

그리고, 그게 바로 DeepSeek이 당시에 만들어낸 'DeepSeek의 순간(DeepSeek Moment)'이었습니다.

Image Credit: DeepSeek-R1 오리지널 논문

마지막으로, DeepSeek은 이런 강력한 능력들을 Qwen, LLaMA 같은 소형 모델증류(Distillation) 방식으로 압축해서 전이시켰고, 그 결과 증류된 7B 모델이 기존의 최고 성능을 보여주었던 Qwen 모델들을 능가하기도 했고, 오픈소스 추론 분야에서 새로운 기록을 세우기도 했습니다.

이게 바로, 오픈소스 기반의 추론 능력이 폐쇄형 모델(Closed Model)을 앞서기 시작한 역사의 시작점이라고 볼 수 있고, 이 여정은 지금도 계속되고 있습니다. 중국 최고의 AI 기업들이 선보이는 새로운 모델들은, 추론(Reasoning) 능력에 에이전트로서의 능력(Agentic Capabilities)을 더해 가면서 그 진화를 이어가고 있습니다.

Qwen3 - 모델의 사고 방식(Thinking Modes)을 제어한다

Qwen3알리바바의 Qwen 팀이 5월 14일에 공개한 Qwen 언어모델 시리즈의 최신 세대입니다. 연구진은 이전 버전인 Qwen2.5의 성공에 만족하지 않고, 이를 넘어서는 차세대의 모델 계열 전체를 새롭게 구축했다고 합니다.

이 모델은 2025년의 핵심 패러다임인, “모델이 더 많은 추론 토큰(Reasoning Token)을 사용할수록 성능이 향상된다”는 개념을 구현하면서도, 그 사용량을 사용자가 조절 가능하도록 만든 점이 특징입니다.

Qwen3의 주요 기능 중 하나는, 질문의 유형에 따라서 빠른 응답 모드(대화용)와 깊이 있는 추론 모드(Reasoning용)를 자동으로 전환한다는 겁니다 - 같은 모델이 상황에 따라서 채팅(Chat)과 추론(Reasoning) 버전 간을 오가면서 해당하는 작업에 맞는 사고 방식을 선택하는 것이죠. 사용자는 모델이 해당 작업에 얼마만큼의 ‘사고 예산(Thinking Budget)’을 쓸 것인지 직접 조정해 가면서, 속도와 품질 사이의 균형을 취향에 맞춰 선택할 수 있습니다.

Qwen3의 또 다른 강점은 ‘민주화(Democratization)’ - 한글 표현은 좀 어색합니다만 - 라고 할 수 있는데요. 이 모델은 지원 언어와 방언 수를 기존의 29개에서 119개로 대폭 확대해서, AI를 더 많은 사람들이, 더 다양한 언어 환경에서 접근할 수 있게끔 했습니다: 글로벌 접근성(Global Accessibility) 측면에서 큰 진전을 이룬 것이라고 봐야겠죠.

아키텍처와 훈련 전략

Qwen3 모델 패밀리는 다양한 요구에 맞춰 사용할 수 있게끔 경량 모델부터 대형 모델까지 다양한 크기로 구성되어 있습니다. 예를 들어서, Qwen3-0.6B 같은 소형 모델부터, 대규모 모델인 Qwen3-32B, 그리고 더 고도화된 MoE(Mixture-of-Experts) 모델 두 종류까지 포함되는데요.

이 중에, 오늘 주목해 보려고 하는 모델은 Qwen3-235B입니다.
이 모델은 총 2350억 개의 파라미터를 가지고 있지만, 실제로는 하나의 토큰을 처리할 때 220억 개만 활성화되도록 설계되어 있습니다. 기본 아키텍처는 이전 Qwen 시리즈에서 검증된 요소들을 기반으로 구축되어 있구요. 핵심적인 아키텍처의 구성 요소는 다음과 같습니다:

  • 그룹 쿼리 어텐션(Group Query Attention)
    → 여러 개의 쿼리를 그룹 단위로 처리해서, Key-Value 조회 연산의 중복을 줄이는 방식

  • 로터리 위치 임베딩(Rotary Position Embedding)
    → 토큰 간의 상대적인 위치 정보를 더 효과적으로 반영하는 위치 인코딩 방식

  • SwiGLU 활성화 함수(SwiGLU Activation)
    → 기존의 ReLU나 GELU보다 학습 효율이 높은 활성화 함수

  • RMSNorm + Pre-Normalization
    → 각각의 트랜스포머 서브 레이어에 들어가기 전에 RMS 기반 정규화를 먼저 적용해서 학습의 안정성을 높이는 방식

  • QK-Norm 기법
    → 어텐션에서 사용되는 쿼리(Query)와 키(Key) 벡터의 크기를 스케일링해서, 어텐션 스코어의 크기를 안정적으로 조절하고 훈련을 더 안정화

Qwen3-235B 같은 MoE 모델은 128개의 Experts로 구성되어 있는데, 한 번의 포워드 패스마다 8개 전문가만 활성화됩니다. 전문가 간의 공유를 하지 않고 각각의 부분이 특화된 기능을 학습할 수 있게 설계되어 있습니다.

Qwen3는 자체 개발한 Qwen 토크나이저를 사용합니다:

  • 바이트 수준의 BPE(Byte-Level Byte-Pair Encoding) 기반이고,

  • 151,000개 이상의 토큰을 포함해서 다양한 언어와 데이터 유형(텍스트, 코드 등)을 세밀하게 처리할 수 있게끔 설계되어 있습니다.

  • 자주 등장하는 패턴을 기준으로 텍스트를 잘게 나눠서 처리 효율을 극대화합니다.

학습 데이터를 살펴보면, 총 36조 개의 토큰을 사용해서 학습했고, 119개 언어를 다룰 수 있는데, 이건 Qwen2.5보다 데이터는 2배, 언어 범위는 3배 확장된 수치입니다. 학습의 전략 관점에서는, 일반 상식 데이터를 가장 먼저 학습하고, 그 다음으로 수학, 코드 같은 기술적으로 고난도인 콘텐츠, 마지막으로 Long-Context 처리 능력을 강화하기 위한 특수 데이터를 사용하는 3단계의 접근 방법을 취했습니다.

사후 훈련을 위해서는, 특히 ‘추론 능력’을 강화하기 위한 4단계의 파이프라인을 구축, 실행하구요:

  1. Long-CoT 콜드 스타트(Long-CoT Cold Start)
    → 검증된 정답과 리젝션 샘플링을 사용해서, STEM/수학/코드 기반 문제들로 체계적 추론(CoT: Chain of Thought) 능력을 처음부터 학습

  2. 추론 강화학습(Reasoning RL)
    → GRPO(Group Relative Policy Optimization)와 엔트로피 제어 롤아웃(Entropy-Controlled Rollouts) 기법으로 복잡한 추론 체인 학습

  3. 사고 모드 통합(Thinking Mode Fusion)
    → 빠른 응답과 깊은 추론 두 가지 모드를 하나의 모델로 통합
    /think, /no think 플래그나 ‘사고 예산(Thinking Budget)’ 임계값을 사용해서 사용자가 추론 강도를 조절할 수 있음

  4. 일반 강화학습(General RL)
    → 20가지 이상의 시나리오(명령어 따르기, 도구 사용, 출력 형식 조절, RAG 정확도 등)에 걸쳐서 사용자의 선호도에 맞게 모델 정렬(Alignment)

Image Credit: Qwen3 테크니컬 리포트

Qwen 팀은 널리 사용되는 기법이라고 할 수 있는, 강한 모델에서 약한 모델로의 지식 증류(Strong-to-Weak Distillation)를 활용합니다. 예를 들어서, Qwen3-235B와 같은 대형 모델에서 얻은 학습 결과를 더 작은 모델에 전이시켜 성능을 향상시키는 방식이죠. 이 방식은 전통적인 강화학습 방식보다 더 효율적이고 안정적인 결과를 가져올 수 있다는 장점이 있습니다.

그렇다면, Qwen3 시리즈 중 최고의 모델인 Qwen3-235B의 실제 성능은 어떨까요?

Qwen3-235B가 보여주는 성과

이 거대 모델은 23개의 벤치마크에서 전반적으로 리더로서의 성과를 보여주고 있는데, 성과를 좀 더 의미있게 살펴보려면 ‘사고 모드(Thinking Mode)’와 ‘비사고 모드(Non-Thinking Mode)’의 관점으로 구분해서 볼 필요가 있습니다.

  • 사고 모드(Thinking Mode) 관점에서 먼저 살펴보죠. 아까 말씀드린 대로, 현재 추론 모델의 기준점이라면 아마 DeepSeek-R1이라고 할 수 있을 텐데, Qwen3-235B는 DeepSeek-R1을 23개 과제 중 17개에서 능가하는 모습을 보여주고, 특히 수학(Math), 에이전트 기반 과제(Agent-Based Tasks), 코딩(Coding) 분야에서는 두드러진 성능을 보여주고 있습니다. 또, 다단계 추론(Multi-Step Reasoning)에서는 Qwen3-235B가 OpenAI-o1, Grok-3-Beta (Think), Gemini2.5-Pro 같은 폐쇄형(Closed) 모델들과도 격차를 빠르게 좁히고 있다는 걸 알 수 있습니다.

Image Credit: Qwen3 테크니컬 리포트

  • 비사고 모드(Non-Thinking Mode)에서는, Qwen3-235B가 명시적인 추론(Explicit Reasoning)을 하지 않고도 여전히 경쟁력을 유지합니다. 이 모델은 DeepSeek-V3, LLaMA-4-Maverick 같은 최상위의 공개(Open) 모델들을 능가하고, 심지어 폐쇄형(Closed)인 GPT-4o보다도 우수한 성능을 보여주면서 23개의 벤치마크 중에 18개에서 앞서는 모습을 보여줍니다.

Image Credit: Qwen3 테크니컬 리포트

Qwen3는, 앞서 말씀드린 ‘사후 훈련(Post-Training)’ 4단계 파이프라인 중 네 번째 단계 덕분에, ThinkFollow에서 98.9%라는 최고 수준의 성과를 보여주고 있습니다.

그리고, Qwen-3 시리즈의 모든 모델은 Apache 2.0 라이선스 하에 오픈소스로 공개되어 있습니다.

Qwen3-Coder는 무엇인가?

Qwen3-235B 모델 외에, 최근에 Qwen 팀이 에이전트 기반 코딩(Agentic Coding) 영역에서 또 하나의 강력한 거대 모델을 선보였는데요, 그게 바로 Qwen3-Coder입니다.

여러분도 아시다시피, AI 업계의 초점이 바이브 코딩을 위시로 한 ‘에이전트 기반 코딩(Agentic Coding)’에 맞춰져 있잖아요? Qwen3-Coder는 사고(Thinking), 계획(Planning), 실행(Acting) 등 복잡한 현실 세계의 소프트웨어 작업을 수행할 수 있는 에이전트로서의 능력을 바탕으로, 이런 업계의 흐름에 제대로 부응하는 모델입니다.

그 중 대표 모델인 Qwen3-Coder-480B-A35B-Instruct는 그 이름 그대로 ‘복잡하고 거대한’ 모델입니다. 이 모델은 480B MoE(Mixture of Experts) 구조를 기반으로 하는데, 토큰 당 350억 개의 활성 파라미터를 사용합니다. 또 256K 컨텍스트 윈도(Context Window)를 기본으로 지원하고, 외삽(Extrapolation)을 통해서 최대 100만 토큰(1M Tokens)까지도 처리할 수 있습니다. 덕분에 모델은 ‘리포지토리’ 단위에서 동작할 수 있고, 수천 줄에 달하는 코드 전반에 걸친 추론도 한 번에 수행할 수 있습니다. 코드베이스(Codebase), 풀 요청(Pull Requests), 문서화(Documents) 등이 Qwen3-Coder가 실제로 잘 다룰 수 있는 범위라고 할 수 있습니다.

Qwen3-Coder가 인상적인 이유는 바로 ‘행동(Action)’을 위한 완벽한 구조를 갖추고 있기 때문입니다. 이 모델은 학습할 때 실행 기반 학습(Execution-Based Learning)에 중점을 둔 ‘코드 강화학습(Code RL)’ 설정을 따릅니다: 이 방식은, 모델이 문제를 풀고 나면 그 정답이 맞는지 자동으로 확인할 수 있기 때문에, ‘풀기는 어렵지만 정답이 맞는지만 확인하는 건 쉬운 문제들’을 효과적으로 다룰 수 있습니다.

또, Qwen 팀은 모델이 멀티턴 계획(Multi-Turn Planning)과 도구 사용(Tool Use)을 배울 수 있도록 장기 강화학습(Long-Horizon RL), 또는 에이전트 강화학습(Agent RL)을 활용하고 있습니다. 20,000개 이상의 환경을 병렬로 실행할 수 있는 시스템 덕분에, Qwen3-Coder는 기능 설계부터 버그 수정, 테스트 작성에 이르기까지 모든 작업을 처리할 수 있습니다.

이런 기법을 잘 활용한 덕분에, Qwen3-Coder는 특히 SWE-Bench Verified 같은 복잡한 과제에서, 가장 인기가 높은 코딩 모델 중 하나인 Claude Sonnet 4와도 어깨를 나란히 할 정도의 성능을 보여주고 있습니다.

에이전트 기반 코딩(Agentic Coding), 브라우저 기반 과제(Browser-Based Tasks), 도구 활용(Tool Use) 등에서 선도적인 성과를 보이는 것 — 이게 바로 오늘날의 ‘성공적인 코딩 에이전트’를 정의한다고 해도 과연이 아니지 않을까요? 게다가 오픈소스(Open-Source)라는 점도 포함하면, Qwen3-Coder는 최고의 코딩 모델이라고 해도 과언이 아닐 것 같습니다.

그렇지만, 정말로 Qwen3-Coder가 다른 모델들을 ‘압도’하는 존재일까요?

GLM-4.5 - 가장 ‘핫’한 Z.ai의 새 모델

바로 며칠 전인 지난 7월 28일, (전)Zhipu였던 Z.ai에서 GLM-4.5 모델을 출시했습니다. 이 모델은 개발자들에게 ‘세 가지의 관점’에서 주목할 만한 성과로 평가받고 있는데요:

  • 이 모델은 Z.ai가 처음으로 공개(Open)한 MoE 아키텍처 기반 모델입니다.

  • 이 모델은 ‘아키텍처 수준’에서 에이전트로서의 능력(Agentic Capabilities)을 처음으로 탑재한 모델입니다.

  • 이 모델은 에이전트로서의 능력을 추론(Reasoning) 및 코딩(Coding) 능력과 통합해서, 다양한 목적으로 활용할 수 있는 범용적인 모델로 설계되었습니다.

심지어, 오픈AI의 일부 연구자들조차도 Z.ai가 최상위 모델들과 충분히 경쟁할 수 있는 모델을 만들 수 있을 거라고 보고 있다고 합니다.

GLM-4.5를 만들면서, Z.ai의 연구진은 ‘기존 기능을 잃어버리지 않으면서 더 일반화된 지능과 능력을 통합’하는 데 성공했다고 하는데요. Z.ai의 CEO인 Zhang Peng은 보도자료에서 이렇게 말했습니다:

“AGI를 측정하는 ‘First-Principles’ 기반의 접근 방식은, 기존 기능을 잃어버리지 않으면서 더 일반적인 지능과 능력을 통합하는 것입니다. GLM-4.5는 이 개념을 처음으로 완전히 실현한 모델입니다.”

Zhang Peng, Z.ai CEO

사실, Zhang Peng이 지난 수년간 AGI(범용 인공지능)에 집착해 왔다는 건 잘 알려진 사실입니다. 그럼, 한 번 GLM-4.5를 통해서 Zhang Peng의 AGI에 대한 집착이 어떻게 드러나는지 살펴보죠.

GLM-4.5는 어떻게 작동하는가?

앞서 언급했듯이, GLM-4.5는 MoE(Mixture of Experts) 아키텍처를 사용합니다. 하지만 ‘수평적인 스케일링’을 중심으로 해서 설계된 Kimi K2와는 다르게, GLM-4.5는 더 많은 레이어를 사용해서 ‘수직적으로 깊이를 더하는’ 방식을 채택해서, 추론 능력(Reasoning), 속도(Speed), 효율성(Efficiency)을 향상시킵니다.

또 이 모델은 Grouped-Query Attention(GQA) 방식에 부분적으로 RoPE(Rotary Position Embedding) 기법을 결합해서 사용하고, 내부의 벡터 크기(Hidden Size)가 5120일 때, 어텐션 헤드(Attention Head) 수를 96개까지 늘렸습니다. 그래서, 일반적인 모델보다 훨씬 많은 어텐션 헤드를 사용하는 셈(일반적 구성보다 약 2.5배 많음)이라서, 더 정밀하고 빠르게 Attention을 처리할 수 있고, MMLU, BBH 같은 과제에서 학습 손실(Training Loss)을 높이지 않고도 성능을 끌어올릴 수 있습니다.

워크플로우를 최적화하기 위해서, GLM-4.5는 아래와 같은 구성 요소들을 사용합니다:

  • Muon 옵티마이저(Muon Optimizer): 더 큰 배치(Batch)로 더 빠르게 학습하게끔 설계

  • QK-Norm: 어텐션 계산의 안정성을 유지

  • MTP(Multi-Token Prediction) 레이어: 추론 중에 사전 예측(Speculative Decoding)을 더 빠르게 수행할 수 있게끔 지원

GLM-4.5는 일반 데이터 15조 토큰(15T Tokens), 코드 및 추론 데이터 7조 토큰(7T Tokens)으로 사전 학습을 진행한 뒤에, 중간 규모의 도메인 특화 데이터셋으로 파인튜닝을 합니다. 이후에는 슬라임(Slime)이라는 특별히 구축된 강화학습 전략으로 ‘에이전트 능력(Agentic Capabilities)’을 강화합니다.

슬라임(Slime)의 하이브리드 아키텍처는 동기식 학습(Synchronous Training, 일반 추론 과제에 적합)과 비동기식 학습(Asynchronous Training)을 모두 지원합니다. 특히 비동기식 방식은 외부 도구나 API 사용으로 인해서 데이터의 생성이 느려지기 쉬운 에이전트형 과제(Agentic Tasks)에서 유용합니다. 롤아웃 엔진(Rollout Engine)과 학습 엔진(Training Engine)이 서로 다른 GPU 하드웨어에서 작동하도록 설계되어서, GPU 활용률(GPU Utilization)과 학습 처리량(Training Throughput)을 높게 유지할 수 있습니다. 또 혼합 정밀도(Mixed Precision)를 활용해서 롤아웃 속도를 가속화하는데, 데이터 수집에는 빠르고 메모리 효율이 좋은 FP8을, 모델 학습에는 안정적인 BF16을 사용합니다.

Image Credit: “GLM-4.5: Reasoning, Coding, and Agentic Abilities” 블로그

다음으로는, 추론(Reasoning), 에이전트 기반 시나리오(Agentic Scenarios), 일반 상황(General Scenarios)에 대한 지도형 파인튜닝(SFT; Supervised Fine-Tuning)강화학습을 결합한 사후 훈련(Post-Training) 단계를 거칩니다. 이 중에서 에이전트 훈련은 정보 탐색(Information-Seeking)과 소프트웨어 엔지니어링(Software Engineering)에 중점을 두고 진행한다고 하네요.

비록 특정한 소수의 도메인에 맞춰 학습을 시키기는 했지만, 이 과정에서 획득한 기술들은 다양한 상황에 꽤 넓게 일반화될 수 있고, 최종적으로는 단일 전문가 모델(Single Expert Model)인 GLM-4.5 하나에 응축, 통합되는 겁니다.

Image Credit: “GLM-4.5: Reasoning, Coding, and Agentic Abilities” 블로그

Z.ai는 자기들의 플래그십 모델인 GLM-4.5에 대해서 총 두 가지의 변형 모델(Variant)을 제공합니다:

  • 총 3,550억 개의 파라미터와 320억 개의 활성 파라미터(Active Parameter)를 가지고 있는 GLM-4.5

  • 총 1,060억 개의 파라미터와 120억 개의 활성 파라미터를 가지고 있는 GLM-4.5-Air

이 두 모델 모두 오늘날의 최상위 추론 모델들이 사용하는 기능을 탑재하고 있고, 복잡한 추론 및 도구 사용이 필요한 사고 모드(Thinking Mode)와, 긴급 응답을 위한 비사고 모드(Non-Thinking Mode) 사이를 전환할 수 있습니다.

GLM-4.5는 128K 컨텍스트를 지원하고, 네이티브 함수 호출(Native Function Calling) 기능도 내장되어 있습니다.

GLM-4.5의 능력

에이전트, 추론, 코딩과 관련된 12개의 벤치마크를 기준으로 테스트한 결과, GLM-4.5는 전체 3위, GLM-4.5-Air는 6위를 기록했는데요. 좀 더 구체적으로 살펴보면, 다음과 같은 특징이 있습니다:

  • 현실 세계를 염두에 둔 에이전트의 활용 측면에서는, GLM-4.5는 Claude Sonnet과 동등하거나 그 이상의 성능을 보여준다고 생각할 수 있습니다.

  • 도구 사용(Tool Usage)웹 기반 추론(Web Reasoning)에서는 Kimi K2, Qwen3, DeepSeek-R1, GPT-4.1, Claude Opus를 확실하게 앞서는 성능을 보여주고 있습니다. 예를 들자면:

    • BFCL v3 (Function Calling): 77.8%
      → Kimi K2: 71.1%, DeepSeek-R1: 63.8%, Qwen3: 71.9%보다 높은 수치

    • BrowseComp (웹 사용): 26.4%
      → Claude Opus: 18.8%를 앞서고, o4-mini-high: 28.3%와 비슷한 수치

    • 특히 도구 사용 성공률GLM-4.5이 90.6%로, Claude Sonnet의 89.5%, 중국의 경쟁 모델들인 Kimi K2의 86.2%, Qwen3-Coder의 77.1%보다 높은 수치

종합적으로, GLM-4.5는 도구의 활용이라는 측면에서 효율성과 효과성을 동시에 잡은 훌륭한 모델이라는 점을 입증했다고 볼 수 있습니다.

Image Credit: “GLM-4.5: Reasoning, Coding, and Agentic Abilities” 블로그

  • 고급 추론(Advanced Reasoning)과 수학 중심 과제(Math-Heavy Tasks)에 있어서는, GLM-4.5는 강력한 성능을 보이지만 Qwen3와 DeepSeek-R1보다는 약간 뒤처지는 성능이라고 할 수 있습니다.

Image Credit: “GLM-4.5: Reasoning, Coding, and Agentic Abilities” 블로그

  • 에이전트 기반의 코딩 과제(Agentic Coding Tasks)에서는 GLM-4.5가 Kimi K2 대비 53.9%의 성공률로 앞서는 모습을 보여주고, Qwen3-Coder과 대비해서는 80.8%의 성공률로 압도적인 성과를 나타냅니다.

또 하나 중요한 점은, GLM-4.5는 풀스택 개발(Full-Stack Development) — 프론트엔드(Frontend)와 백엔드(Backend)를 모두 포함 — 작업에 뛰어난 모습을 보여주고, 복잡한 결과물(Complex Artifact)을 생성하는 작업에도 강점을 보입니다. 예를 들어서, 게임(Games), 시뮬레이션(Simulations), HTML/SVG/Python 코드 생성, 그리고 웹 + 이미지 도구(Web + Image Tools)를 활용한 슬라이드/포스터 제작(Slides/Posters Creation) 등이 이에 해당하죠.

GLM-4.5는 아래와 다양한 방식으로 사용할 수 있습니다:

  • Z.ai 플랫폼을 통해서 직접 사용하는 방법이 가장 직관적입니다.

  • API를 활용한 Integration(통합)을 할 수 있습니다.

  • HuggingFace, ModelScope, SGLang을 통한 로컬 배포(Local Deployment)가 가능합니다.

  • 그리고 (이 부분이 특히 편리한데) Claude Code와 같은 코딩 에이전트 프레임워크(Coding Agent Framework)에 통합해서 사용하는 방법도 있습니다.

오늘 에피소드의 내용을 전체적으로 다시 Recap하는 관점에서, 아래처럼 다양한 영역에서 오늘 살펴본 네 개의 모델이 어떻게 비슷하고 다른지 살펴보는 것도 의미가 있을 것 같습니다:

Image Credit: “GLM-4.5: Reasoning, Coding, and Agentic Abilities” 블로그

맺으며

오늘 에피소드에서는, 중국으로부터 등장한 혁신적이고 강력한 네 가지 종류의 모델들, Kimi K2, DeepSeek-R1, Qwen3 및 Qwen3-Coder, 그리고 GLM-4.5를 간략히 살펴봤습니다. 아래 표에 각 모델의 장점과 서로 간의 경쟁 구도를 요약해 봤습니다:

 

각각의 모델이 가장 뛰어난 부분은 어떤 영역일까요? 이것도 역시, 모델을 사용하면서 사용자가 갖게 되는 ‘기대치’에 따라 달라질 겁니다:

  • 에이전트 기능, 롱 컨텍스트(Long-Context) 처리 능력을 모두 갖춘 균형 잡힌 강력한 오픈 기반(Open Base) 모델을 원하신다면, Kimi K2가 적합합니다.

  • 추론 정확도(Reasoning Accuracy)가 무엇보다도 가장 중요하고, 에이전트로서의 능력은 우선순위가 아니라면 DeepSeek-R1이 적합하다고 생각합니다.

  • 제어 가능성(Control), 다국어 지원(Multilingualism), 사고/비사고 모드 간 전환이 필요하다면 Qwen3가 최고의 선택지로 보입니다.

  • 에이전트형 행동을 갖춘 저장소 규모(Repo-Scale)의 코딩 작업이 중요하다면, Qwen3-Coder를 활용하십시오. 그 부분에서 이 모델은 정말 강력합니다.

  • 마지막으로, 가장 도구 친화적이고(Tool-Savvy), 에이전트에 최적화된(Agent-Native) 최신 모델을 원하신다면, GLM-4.5를 반드시 고려해 보세요.

모두에 말씀드린 대로, 올해 7월, 정말 멋진 모델들이 속속 등장한 흥미진진한 시간이었습니다. 곧 GPT-5도 나온다고 하니, 앞으로도 계속해서 재미있는, 그리고 멋진 AI 모델들을 여러분과 공유할 수 있도록 하겠습니다!

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.