- Turing Post Korea
- Posts
- AI 추론 (Inference)의 9가지 유형
AI 추론 (Inference)의 9가지 유형

AI 용어를 한글로 번역할 때, ‘Inference’도, ‘Reasoning’도 ‘추론’이라는 단어로 쓰고 있는 상황이라서 좀 헷갈리는데요. 어떤 다른 용어로 합의가 되기 전에는 별도로 표기를 해서 헷갈리지 않게 하는 수 밖에는 없는 것 같습니다.
AI 추론 (AI Inference)은, AI 모델이 입력 데이터와 사전 훈련된 모델을 활용해서 예측, 분류 또는 결정 내용을 생성하는 과정을 말합니다. 이 ‘추론’도 자세히 들여다보면 다양한 계산 방법, 배포 방식을 포함하는, 광범위한 내용인데요.
먼저, 모델이 ‘추론하는 방식’으로 구분했을 때 5가지 유형이 있는데요:
확률적 추론 (Probabilistic Inference)
확률적 추론은, 불확실성 하에서 추론하기 위해 확률 이론을 사용하는 방식입니다. 이 시스템은 여러 가설에 대한 신뢰 정도(확률값)를 유지하고, 새로운 증거나 정보가 들어올 때마다 이를 체계적으로 업데이트합니다. 예를 들어, 의료 진단 AI는 처음에 여러 질병의 가능성에 확률을 할당하고, 추가 검사 결과에 따라 이 확률을 조정하죠. 이 방식의 큰 장점은 단순한 "예/아니오" 대신 확신의 정도를 표현할 수 있어서, 불확실한 실제 세계의 문제에 더 적합합니다. 베이즈 정리와 같은 수학적 규칙을 사용해 새 데이터가 들어올 때마다 업데이트하는 것이 이 접근법의 핵심입니다.규칙 기반 추론 (Rule-based Inference) —> Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference (2407.00075)
지식 베이스 (Knowledge Base)에 인코딩된 명시적인 if-then 규칙을 적용해서 결론을 도출하는 기법입니다. 주로 뉴로심볼릭 AI(Neurosymbolic AI)에서 사용됩니다.논리적 추론 (Logical Inference)
형식 논리를 사용해서 전제가 참이라면 보장된 참인 결론을 도출하는 기법입니다. 정리 증명 (Theorem Proving), 논리 프로그래밍, 그리고 소프트웨어 검증 등 정확성이 요구되는 작업에 잘 맞습니다.귀추적 추론(Abductive inference) —> Can ChatGPT Make Explanatory Inferences? Benchmarks for Abductive Reasoning (2404.18982)
주어진 ‘관찰의 집합’을 가장 잘 설명할 수 있는 가설을 형성하는 것으로, 여러 가지 가능한 설명들 중에서 가장 그럴듯한 것을 선택하는 것이 목표입니다. 귀추는 본질적으로 창의적이고 불확실한 측면이 있습니다.퍼지 추론 (Fuzzy inference) --> DCNFIS: Deep Convolutional Neuro-Fuzzy Inference System (2308.06378)
퍼지 논리를 적용합니다 - 이진 (Binary)의 참/거짓이 아니라 그 ‘정도’로 추론을 합니다. 입력은 0과 1 사이의 소속도 (Membership Grade)를 가진 퍼지 집합에 매핑되는데, 이 방식은 "뜨겁다", "빠르다"와 같은 모호한 인간의 언어적 개념을 수학적으로 처리하는데 좋고, 자동차 ABS, 에어컨, 로봇 제어와 같이 복잡하고 비선형적인 시스템에서 특히 유용합니다.
두 번째로, 추론이 실행되는 맥락에 따라서 4가지의 유형이 있습니다:
배치 추론 (Batch Inference) —> BatchLLM: Optimizing Large Batched LLM Inference with Global Prefix Sharing and Throughput-oriented Token Batching (2412.03594)
대량의 데이터셋에 대해서 일괄적으로 모델의 예측값을 생성하는 경우인데요. 대부분 예정된 일정에 따라서, 또는 분석 같은 헤비한 작업이 필요할 때 (실시간 사용보다는) 이루어집니다.실시간 추론 (Real-time Inference) —> Real-time Inference and Extrapolation via a Diffusion-inspired Temporal Transformer Operator (DiTTO) (2307.09072)
실시간 추론은 사용자나 시스템의 요청에 즉각적으로 응답, 최소한의 지연 시간으로 결과를 제공하는 AI 처리 방식입니다. 자율주행차, 음성 비서, 실시간 번역, 금융 거래 모니터링 등 즉각적인 의사결정이 필요한 애플리케이션에서 핵심적인 역할을 합니다. 효율적으로 구현하려면, 모델 경량화, 하드웨어 가속, 최적화된 서빙 인프라가 필요하고, 대개 정확도와 속도 사이의 균형을 적절히 조정해야 합니다.엣지 추론 (Edge Inference)
엣지 추론은 데이터가 생성되는 위치 또는 그 근처 (스마트폰, IoT 기기, 로컬 서버 등)에서 AI 모델을 실행, 클라우드 의존성을 줄이는 방식입니다. 낮은 지연 시간, 개인정보 보호 강화, 오프라인 작동 능력, 네트워크 대역폭 절약, 운영 비용 감소 등의 이점이 있고, 제한된 컴퓨팅 자원에서 효과적으로 작동하기 위해 모델 양자화, 지식 증류, 특수한 하드웨어 가속기 등 다양한 최적화 기술이 적용됩니다.클라우드 추론 (Cloud Inference)
클라우드 추론은, 사용자 기기에서 데이터를 수집, 원격 데이터 센터의 고성능 컴퓨팅 인프라(CPU, GPU, TPU 등)로 전송하고, 그곳에서 AI 모델을 실행한 후 결과를 다시 사용자에게 반환하는 방식입니다. 이 방식은 기기의 하드웨어 제약에서 벗어나서 대규모 모델을 실행하고, 중앙화된 관리로 일관된 서비스를 제공하고, 컴퓨팅 리소스를 유연하게 확장할 수 있는 장점이 있습니다. 그러나 인터넷 연결 의존성, 네트워크 지연, 데이터 프라이버시 우려, 지속적인 운영 비용 등의 단점도 수반하는 만큼, 사용하는 맥락에 따라 엣지 추론과 적절한 균형을 맞출 필요가 있습니다.
*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.
Reply