Turing Post Korea
Posts
LLM의 추론을 강화하는 10가지 기법

LLM의 추론을 강화하는 10가지 기법

Ben Eum & Ksenia Se
June 23, 2025

많은 회사들이 뛰어난 추론 능력을 가진 모델을 개발, 릴리즈하고 있는데요. 때로는, 실제 작업에서는 그게 병목이 되는 경우도 여전히 많습니다.

이번 주에는 LLM이 좀 더 일관된 논리, 계획 수립, 깊이있는 사고를 하게끔 도와주는 강력한 기술들 몇 가지를 살펴보겠습니다:

Retrieval-Augmented CoT Chaining (RAG+CoT) ->
Chain-of-Thought 프롬프트를 중간 단계에서의 RAG와 결합합니다. 각각 추론의 하위 목표 단계 다음에 관련 문서를 불러오고, 컨텍스트를 다이나믹하게 업데이트합니다. 오픈 도메인 질문 응답, 수학, 논리, 멀티홉 사실 확인 등의 작업에 아주 효과적입니다.
Tool-use by example injection ->
훈련 중에 Few-shot 도구의 상호작용 예시를 삽입해서 도구 호출 패턴을 암묵적으로 가르칩니다. 새로운 아키텍처를 훈련하지 않고도 도구를 바로 사용할 수 있게 도와줍니다.
Visual Scratchpads, or multimodal reasoning support ->
계획 수립, 기하학, 멀티 에이전트 시뮬레이션 같은 작업에서 구조화된 시각적 입력이나 스케치 가능한 중간 단계(도식, 격자, 트리 등)를 사용하는 게 성능을 높여준다는 걸 보여줍니다. 실제로 GPT-4o, Claude, Gemini는 이 기법 덕분에 눈에 띄게 향상된 성능을 보여주고 있다고 합니다.
System 1 vs System 2 Prompt switching ->
빠르고 직관적인 응답 프롬프트를 느리고 신중한 추론 모드로 바꾸는 게 최근에 인기 있는 AI 트렌드 중 하나인데요. 예를 들어서, 모델에게 “연구자처럼 생각하라”고 명시적으로 지시할 경우에 더 신뢰성 있게 응답하는 경향이 있습니다. 오픈형 생성이나 토론 과제에서 환각을 줄이는 데도 도움이 됩니다.
Adversarial Self-Chat Fine-Tuning ->
모델 버전들 간 혹은 모델과 사람 간의 토론을 생성한 후에, 승자의 응답을 가지고 파인튜닝을 하면, 모델이 스스로의 추론을 더 잘 방어할 수 있게 됩니다. Claude의 Constitutional AI나 SPPO 스타일 튜닝에서 사용된 방식입니다.

Constraint-Based Decoding ->
문맥 자유 문법(CFG) 규칙과 같은 강한 제약 조건을 생성 과정에 적용해서 출력이 과제 목표에 부합되도록 유지합니다. 구조화된 예측이나 계획 작업에서 특히 유용하고, 심볼릭 솔버나 논리 검사 에이전트와 함께 사용할 수 있습니다.
Exploration Prompts (Explore-then-Pick) ->
샘플링을 통해서 다양한 응답을 생성하고, 강화학습으로 훈련된 Sample Set Aggregator(SSA)를 사용해서 가장 좋은 답변을 선택합니다. 초안을 작성한 뒤에 검토하는 방식과 비슷하지만, 최종 선택은 휴리스틱이 아닌 학습된 모델이 수행합니다.
Prompt Perturbation Sampling for Inference ->
프롬프트를 다양한 방식으로 변형해서 모델의 응답을 여러 개 만든 다음, 그 중에서 가장 논리적이고 우아한 응답만을 추출해서 성능 지표(Pass@10 등)를 향상시킵니다. 생성 단계 이후에 적용되는 추론 최적화 기법입니다.
Prompt Ordering via Embedding Clustering ->
Few-shot 프롬프트 조합들이 모델의 임베딩 공간에서 군집을 형성한다는 사실이 밝혀졌는데, 특히 첫 번째 예시가 가장 큰 영향을 미칩니다. 이걸 활용해서 군집 기반의 정렬 방식을 설계하고, 강력한 In-context 예시 시퀀스를 생성할 수 있습니다.
Controlled Prompting Variations ->
의도적으로 ‘나쁜’ 프롬프트(관련 없는 정보, 오해를 유도하는 방식)를 사용하면 모델이 실행하는 추론의 취약점을 드러낼 수 있습니다. 따라서 평가 시에 약한 적대적 프롬프트를 사용해서 취약점을 찾고, 관련 없는 정보를 제거해 혼란을 줄이며, 포맷을 표준화해서 일관성과 환각 문제를 줄이고, 명시적으로 추론을 지시함으로써 정확성과 투명성을 높일 수 있습니다.

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.