- Turing Post Korea
- Posts
- 2025년 상반기 'AI 101' 되짚기: 6가지 AI 개념
2025년 상반기 'AI 101' 되짚기: 6가지 AI 개념
튜링포스트 코리아 'AI 101 섹션'에서 다룬, 기억해 두면 좋을 AI 개념, 다시 한 번 상기해 봅시다

2025년의 상반기를 마무리하는 지금 이 시점에서, 말씀드린 바와 같이 튜링 포스트 코리아는 상반기에 있었던 여러 가지 새로운 기술, 모델 등을 여러분들과 함께 돌아보면서 Recap하는 시간을 가지고 있습니다.
구독자분들이 많이 봐 주시는 ‘AI 101’ 섹션에서 올해 상반기에 포스팅했던 글들을 세 가지 주제로 나눠서 정리하고 있는데요:
핵심적인 기법들 (Methodology & Technique)
주목할 모델들 (AI Models)
AI 영역의 핵심 개념들
오늘은, 그 중 세 번째로, AI의 핵심 흐름을 이해하고 앞으로의 빠른 발전, 변화 속에서 중심을 잡을 수 있게 도와줄, 6가지 주요 개념을 되짚어 보려고 합니다:
이미 알고 계신 분은 한 번 정리하는 기회로, 처음 접하시는 분들께는 새로운 출발점의 역할을 할 수 있기를 바랍니다.
1. 'Test-Time Compute'는 무엇이고, 어떻게 스케일링할까?
‘느린 사고(Slow Thinking)’ 방식으로의 전환, 즉 여러 단계를 거쳐서 추론하는 CoT(Chain-of-Thought; 연쇄적 사고) 방식은 AI 분야의 아주 흥미로운 주제가 된 테스트 시점 연산(Test-Time Compute) 과 깊이 연결되어 있죠 - 이건 추론 단계에서 더 많은 계산 자원을 투입하는 개념입니다.
이 에피소드에서는,Test-Time Compute를 더 넓은 관점에서 바라보고, 이걸 확장하게 도와주는 다섯 가지 기법, 그리고 AI 모델의 추론 능력을 어떻게 강화할 수 있는지 살펴봅니다. 특히 깊이있는 단계별 추론(Step-by-Step Reasoning) 을 수행하는 모델들을 위한, Test-Time Compute의 확장을 위한 5가지 이상의 오픈소스 기법들을 자세히 소개합니다.
많은 분들이 관심 있게 읽어주신 인기 컨텐츠 중 하나로, 시간을 들여 천천히 살펴보고 주변 동료들과도 꼭 공유해 보시길 추천합니다.
2. LLM의 '추론' - 난제와 그 해결책
Test-Time Compute는 2025년 AI 분야에서 또 하나 중요한 주제, 바로 추론(Inference)과 맞닿아 있죠. 과거에는 대부분의 관심이 모델을 학습(Training) 시키는 데 집중되었지만, 이제는 모델이 실제로 가치를 발휘하는 시점인 ‘추론(Inference)’ 단계에 주목이 쏠리고 있습니다: 바로 이 단계가 거대 언어 모델(LLM)을 산업 전반에 실질적이고 영향력 있는 도구로 만들어주는 핵심이기 때문이죠.
이 에피소드에서는 추론(Interence)의 핵심 개념과 과제, 그리고 추론을 최적화하는 다양한 기법들에 대해 간략히 살펴봤구요, 또 LLM 추론 비용을 최대 75%까지 절감한 것으로 주목받은 SwiftKV의 저자들과의 인터뷰도 함께 제공되니 꼭 확인해 보세요.
3. AI 추론(Inference)에 대해 알아두어야 할 것들
이 에피소드에서는, AI 추론(Inference) 을 조금 더 넓은 시각에서 조망하면서, 이 단계에 대해서 자신감을 가질 수 있도록 핵심 개념부터 최신 동향까지 폭넓게 다룹니다.
모델이 실제로 작동하는 이 단계에서 꼭 알아야 할, 핵심 개념과 기본 구조, 추론의 다양한 유형과 워크플로우, 속도와 효율성을 높이기 위한 최적화 기법, 그리고 최근 업계에서 일어나는 주목할 만한 일들을 정리했습니다.
AI에서 추론이 왜 그렇게 중요한지, 그리고 어떻게 해야 추론을 더 빠르고 효율적으로 만드는지 함께 살펴보세요. 지금 이 주제를 잘 이해한다면, AI 시대를 이끄는 사람들과 함께 하는 데 큰 힘이 될 겁니다.
4. DPO, RRHF, RLAIF – RLHF보다 더 똑똑하게 AI를 인간에 맞춘다
우리가 원하는 대로 작동하는 모델, 모델이 사람의 기대와 잘 맞아떨어지도록 만드는 것, 그게 바로 Alignment의 핵심이죠. 그리고 이걸 하기 위한, 가장 널리 알려진 훈련 방식 중 하나가 바로 RLHF(Reinforcement Learning from Human Feedback) 입니다.
특히 고급 추론 모델들에서는 RLHF가 명시적으로 사용되고, 사람과의 정렬(Alignment)을 위한 핵심 도구로 쓰이고 있습니다.
하지만, RLHF가 모든 상황에 만능 해결책은 물론 아니겠죠. 그래서 최근에는 이 방식을 보완하거나 대체할 수 있는 다양한 접근이 활발히 연구되고 있습니다:
DPO (Direct Preference Optimization)
강화학습이나 보상 모델이 없이 사람의 선호도(Preference)를 바로, 직접적으로 학습에 반영
훨씬 간단하고 안정적인 훈련 루틴
RRHF (Reward-Rank Hindsight Fine-Tuning)
Alignment 문제를 랭킹(Ranking) 문제로 재정의하고, 역시 강화학습 없이 정렬
실제 모델 출력들을 순서로 비교해서 파인튜닝
RLAIF (Reinforcement Learning from AI Feedback)
RLHF와 비슷하지만, 사람의 피드백 대신 AI가 생성한 피드백을 사용
휴먼 레이블링 비용을 줄이고, 반복 가능성과 확장성을 확보
이 에피소드에서는, 위의 ‘RLHF의 대안’ 세 가지를 중심으로 LLM을 사람의 가치 중심으로 정렬시키는 다양한 방법들을 비교하고, 각각의 방식이 어떤 상황에서 더 효과적인지 살펴봅니다.
5. '메타 러닝 (Meta Learning)'은 어떻게 이해하면 좋을까?
‘뛰어난 지성’을 갖고 있는 사람은 뭐가 다를까요? 답이 하나로 정해진 건 아니겠지만, 저는 ‘배우는 법을 배우는 능력’이라고 생각합니다.
‘메타러닝’은 AI 모델이 새로운, 이전에 본 적 없는 작업에 대해서 적은 데이터만으로도 빠르게, 유연하게, 효율적으로 적응할 수 있게 해주는 핵심 개념입니다 - 모델이 소수의 예제만 가지고도 학습하고, 경험을 쌓고, 스스로의 기억을 효과적으로 활용할 수 있도록 해줍니다.
특히 메타러닝은 지도학습, 비지도학습, 강화학습 등 기존 학습 방식 위에 적용할 수 있는 상위 수준의 프레임웍으로, AI가 ‘어떻게 하면 더 잘 배울 수 있을까’를 스스로 배우는 개념, 그게 바로 메타러닝입니다.
6. '인과 (Causal) AI'란 무엇인가?
무슨 일이 왜 일어나는지를 AI를 사용해서 제대로 탐구하려면, ‘원인과 결과의 관계’에 집중하는 시스템이 필요하고, 이게 바로 인과적 AI(Causal AI) 의 전문 분야입니다.
Causal AI는 의사결정, 계획 수립, 가상의 시나리오(‘만약 이런 일이 일어난다면’) 같은 영역에서 도움을 줄 수 있는데요, 이런 부분은 기존의 일반적인 AI가 잘 처리하지 못하는 영역이죠.
안타깝게도, 대부분의 경우에 사실 인과적 AI에 대해서 많은 이야기를 나누고 있는 것 같지는 않습니다.
그렇지만, 계속 피할 수는 없을 거예요. Causal AI는 아직까지는 대부분 학계나 특정 산업 분야에 국한되어 있지만, 사람과 유사한 수준의 추론 능력과 AGI(범용 인공지능) 를 달성하기 위해서는 아주 중요한 역할을 할 수 있는 분야입니다.
Causal AI란 무엇인지, 그 핵심 아이디어와 기본 개념, 작동 방식, 현실 세계에서의 적용 사례, 그리고 왜 우리가 여기에 더 많은 관심을 가져야 하는지 등의 내용을 이 에피소드에서 보실 수 있습니다.
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!
Reply