- Turing Post Korea
- Posts
- Topic #23: LLM의 '추론' - 난제와 그 해결책
Topic #23: LLM의 '추론' - 난제와 그 해결책
+ 스노우플레이크의 SwiftKV 개발팀 인터뷰

글을 시작하며

2025년 CES에서 엔비디아의 젠슨 황이 3가지의 스케일링 법칙에 대해 이야기했습니다.
‘Inference’도, ‘Reasoning’도 한글로 ‘추론’으로 보통 번역을 하게 되는데요. 이 글의 맥락 안에서 ‘추론’은 ‘Inference’를 의미하는 걸로 하겠습니다. ‘Reasoning’의 의미로 쓰이는 경우 별도로 표시하겠습니다.
지난 2년여 간, 우리 모두가 ‘잘 훈련된 LLM (거대 언어모델)’이 보여준 엄청난 잠재력을 봐 왔습니다. 이 ‘잠재력’, 그게 드러나는 순간이 바로 ‘추론 (Inference)’의 순간이죠 - 바로, 이론이 실제와 만나서, LLM이 생동감있게 작동하는 순간으로, 문장을 만들고, 통찰력을 만들고, 언어 간 장벽을 허물고, 우리와 대화를 합니다. 이전에는 이런 모델을 ‘훈련’시키는 과정에 많은 관심이 집중되었지만, 이제는 ‘실제의 가치를 창출’하는 단계인 ‘추론’으로 관심이 옮겨간 상황입니다. 바로 ‘추론’ 단계야말로 LLM이 다양한 산업 분야에서 실용적인 의미와 영향력을 가지게 되는 핵심 단계이기 때문이죠.
오늘 AI 101 에피소드에서는, 우리의 주목을 한층 더 받기 시작한 이 ‘추론 (Inference')’ 단계, 그 정의, 난제, 그리고 해결 방향에 대해서 알아볼까 합니다:
스노우플레이크 SwiftKV 개발팀과의 15분 인터뷰
얼마 전, 튜링포스트의 Ksenia가 스노우플레이크 (Snowflake)에서 SwiftKV를 개발한 연구팀의 리더 유슝 허 (Yuxiong He), 삼얌 라즈반다리 (Samyam Rajbhandari)와 대화를 나눴습니다. 이 팀은, 다른 공동 연구진들과 함께 기업을 위한 LLM 서비스 개발 작업을 하던 중에, (LLM 서비스에 들어가는) 입력값이 출력값보다 훨씬 큰 경우가 많다는 걸 발견했습니다. 어찌보면 자연스럽게 이해가 되기도 하는데요, 왜냐면 기업 환경에서 의미있는 통찰력과 의사결정을 지원하는 내용을 추출하기 위해서 엄청난 양의 정보를 분석하는 건 일상적인 일이니까요.
이런 문제를 해결하기 위해서 개발한 것이 바로 SwiftKV인데요. 아주 아주 간단히 말씀드리자면, 보통 기업용 LLM 서비스에서는 입력 토큰 (프롬프트) 대 출력 토큰 (생성)의 비율이 약 10:1이라고 해요. 그래서 프리필 (Prefill) 비용이 늘어나고 응답 대기 시간이 길어지죠. SwiftKV는 프롬프트 토큰의 처리 시간과 비용을 줄이면서도 생성된 토큰이 높은 품질을 유지하도록 설계된, 새로운 모델 변환 및 증류 (Distillation) 기법입니다.

Image Credit: 스노우플레이크
이걸 사용하면, 메타의 Llama LLM 모델들의 추론 비용을 최대 75%까지 줄일 수 있는 최적화 기술입니다. 추론 비용이 75% 준다면 기업의 AI 서비스 개발이 얼마나 효율적이 될지 상상이 되세요?
아래 공유드리는 15분짜리 인터뷰에서, 스노우플레이크에서 오픈소스로 공개한 이 SwiftKV 기술이 어떻게 작동하는지, 다른 아키텍처에는 어떻게 적용할 수 있는지, 이 기술의 한계점은 뭔지, 그리고 추가적으로 추론 비용을 더 줄일 수 있는 방법들이 뭔지 이야기하고 있으니, 한 번 꼭 보시기 바랍니다.
관련된 소스들을 아래에 정리했으니 참고하시구요:
우선, とりあえず, ‘LLM 추론’이란 무엇인가?
자, ‘LLM 추론’이 뭐냐 이야기를 우선 해야겠죠.
LLM 추론 (LLM Inference)란 건, 학습된 머신러닝 모델을 실제 환경에서 새롭고 처음 보는 데이터에 적용하게 되는 과정입니다. LLM의 맥락에서 좀 더 설명을 해 보자면, ‘사용자의 입력값 (프롬프트)을 받아서 모델의 파라미터를 통해서 처리한 다음, 텍스트나 코드, 번역 내용 등 관련된 출력값으로 생성하는 과정을 의미한다고 하겠습니다.

LLM 추론 과정 일러스트레이션 (EOS: End-Of-Sequence). Image Credit: ResearchGate
예를 들어서, 챗GPT에게 질문을 할 때, 모델은 여러분의 질문을 토큰 단위로 처리하면서 학습 과정에서 배운 패턴을 바탕으로 다음에 나올 가능성이 높은 단어나 구절을 예측합니다. 한 번에 많은 자원이 필요한 과정인 학습과는 다르게, ‘LLM 추론’은 사용자가 모델과 상호작용할 때마다 실시간으로 반복적으로 일어납니다.
LLM 추론과 관련된 난제들
LLM 추론 과정이 바로 LLM의 잠재력이 현실화되는 핵심이지만, 그 과정에 여러 가지 장애물이 있습니다 - 컴퓨팅 연산의 관점에서, 운영이라는 관점에서, 그리고 윤리적인 관점에서요:
*무료 구독자들께서 보실 수 있는 내용은 여기까지입니다. AI 101의 에피소드는 프리미엄 구독자들께서는 발행 즉시, 무료 구독자들께서는 발행 후 일주일 지난 후부터 전체 글을 보실 수 있습니다. 프리미엄 플랜으로 업그레이드하시면 이 에피소드 전체를 포함해서 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있습니다.

튜링 포스트 코리아의 인사이트가 담긴 컨텐츠를 마음껏 읽어보세요!
프리미엄 플랜으로 업그레이드하시면 튜링 포스트 코리아의 모든 컨텐츠를 제한없이 보실 수 있습니다. 프리미엄 구독자가 되어 주시면 튜링 포스트 코리아의 컨텐츠 제작에 큰 도움이 됩니다. 감사합니다!
주간 AI 뉴스레터
AI 유니콘 기업들에 대한 심층 분석 기사
AI 기술, 산업, 정책 전문가 인터뷰
AI 기술 및 산업에 대한 심층 분석 시리즈
분석 기사 요청 및 튜링 포스트 코리아 기고
읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!
Reply