• Turing Post Korea
  • Posts
  • FOD#78: 2025년, AI의 미래를 예측한다는 것 + 가속도가 붙은 '추론' 기술 발전

FOD#78: 2025년, AI의 미래를 예측한다는 것 + 가속도가 붙은 '추론' 기술 발전

금주의 주요 소식, 업계 동향과 연구

미래를 함께 생각해 보는 ‘전통’을 만들어간다는 것

연말, 사회의 다양한 영역에서 올 한해를 되짚고 다음 한 해를 예상해 보는 건 어디서나 아주 보편적인 전통이자 관습이라고 하겠습니다.

‘야간 비행’, ‘어린 왕자’ 등의 작품을 남긴 앙투안 드 생텍쥐페리가 말했듯이, “당신 (우리)의 과제는 미래를 예견하는 것이 아니라 그걸 가능하게 만드는” 거겠죠. 그런 관점에서, 어쩌면 올바른 예측이라는게 절대적으로 존재한다기보다는, 우리가 선택하는 예측이 원하는 방향이 되도록 미래를 만들어간다는 개념이 더 맞는 게 아닌가 싶기도 합니다.

 

AI 영역에서도 연말 연시 한 해를 마무리하고 새해를 시작하면서 새로운 한 해의 AI는 어떻게 발전할까에 대한 예측을 하는 기관과 개인들이 많죠: 2018년부터 매년 Air Street Capital에서 발간하는 ‘State of AI Report’가 그 대표적인 예시가 될 것 같습니다.

지난 해인 2023년 12월 첫째 주, 튜링 포스트의 구독자이자 허깅페이스의 CEO인 끌레망 들랑그 (Clement Delangue)도 2024년의 AI에 대해서 예측하는 내용을 발표했고, 튜링 포스트에서도 이 내용을 공유하고 나서 코히어 (Cohere)의 사라 후커 (Sara Hooker), MILA의 요슈아 벤지오 (Yoshua Bengio), CoreWeave의 맥스 헬름 (Max Hjelm) 등 많은 분에게서 피드백을 받기도 했는데요. 이 때의 2024년 예측들 중 어떤 것들이 실현되었고 그렇지 않은지에 대한 내용을 곧 들려드릴 예정입니다.

물론, 금년에도 같은 일을 해 볼 겁니다: 허깅페이스의 CEO 끌레망이 또 다시 2025년에 대한 여섯 가지 예측을 내놓았거든요 ^.^

끌레망의 2025년 예측을 간단히 살펴볼까요?

  • “AI와 관련해서 최초의 대규모 공공 시위가 발생할 것임”

    • 잡 시큐리티라든가 공공 안전 관련해서 AI 관련한 시위가 있을 수도 있을 것 같네요.

  • “AI 때문에 시가 총액이 반토막 또는 그 아래로 떨어지는 대형 기업이 생길 것임”

    • 아주 흥미로운 예측인데요. ‘AI 때문에’라는 논거가 성립하려면 상당히 극적인 사례가 등장해야 할 것 같기는 합니다만, 주요 관전 포인트인 것 같습니다.

  • “개인용 AI 로봇이 최소 10만대 이상 사전주문 될 것임”

    • ‘개인용 AI 로봇’을 어떻게 정의하느냐에 따라 가능할 것도 같습니다.

  • “오픈소스 AI에서 주도권을 잡으면서, 중국이 AI 레이스를 이끌어나가기 시작할 것임”

    • 다소 Bold한 예측 같아 보이기는 합니다만, 허깅페이스에 올라오는 중국 AI 모델들의 스피드나 성능을 봐서는, 불가능한 이야기는 아닌 것 같습니다.

  • “생물학, 화학 분야에서 AI로 인해 큰 돌파구가 마련될 것임”

    • 올해 노벨상 수상자들을 확인하신 분이라면, 그럴 듯하다고 생각하시리라 봅니다.

  • “허깅페이스와 함께하는 1천 5백만명의 AI 개발자들과 함께, 드디어 AI가 경제적 성장, 그리고 고용 증대 효과를 보여주기 시작할 것임”

여러분에게도 한 번 세 가지 정도의 질문을 드리고, 생각해 보시길 권하고 싶습니다:

  1. 2024년에 보신 AI 논문 또는 발표들 중에, 2025년을 변화시킬 만큼 중요한 것은 어떤 것들이 있었나요? 또는 어떤 논문이나 사건이 가장 놀라우셨나요?

  2. 2025년, 계속될 AI의 발전과 확산 때문에 가장 큰 변화를 겪게 될 산업이나 영역은 어디라고 생각하시나요?

  3. 지금 AI 영역에서 다소 간과되고 있는 과제 중 어떤 것들이 2025년에 주요 관심사로 떠오를까요? 또는 간과되고 있는 분야나 영역은 어디라고 생각하세요?

개인적으로 그냥 생각해 보시거나 주위 분들과 말씀 나눠보셔도 좋고, 혹시 튜링 포스트 코리아 ([email protected])로 의견을 보내주시면 미국의 튜링 포스트에서 조사하는 내용에 포함시켜서 다뤄보도록 하겠습니다.

급속도로 발전하고 있는 ‘추론 (Reasoning)’ 기술

금주는 한 가지 더 말씀 나눠보고 싶은 토픽이 있는데요 - 바로 ‘AI 추론’에 대한 겁니다. (여기서 ‘추론’이라는 용어는 Inference가 아니라 Reasoning의 의미로 말씀드립니다. 모델이 정보를 논리적으로 처리하고, 관계를 분석해서, 일관성있는 해결책 또는 결론을 도출하는 능력으로, 인간과 비슷한 이해력, 의사결정을 할 수 있도록 하는데 핵심이 됩니다.)

시장에서 ‘추론’에 대한 논의, 그리고 행보가 뜨거워지고 있습니다. 지난 2주 동안, 중국에서 아주 유력한 두 가지 모델의 프리뷰가 공개되었고, 바로 어제 오픈AI도 o1 프로, 그리고 기존 프리뷰의 정식 버전인 o1을 출시했죠. 중국계의 두 가지 모델은 DeepSeek-R1, 그리고 알리바바의 QwQ-32B 입니다. 한편, 구글의 딥마인드는 CoT (Chain-of-Thought) 프롬프팅 기법을 기반으로 고급 추론을 할 수 있는 AI 모델을 개발 중이라는 소식도 들려옵니다.

o1 모델 성능. Image Credit: 오픈AI

‘추론’에 대한 논의나 생각을 얼른 풀고 싶기도 하지만, 일단은 QwQ의 기술 보고서를 좀 기다려 보려고 합니다. QwQ 모델은 큰 반향을 일으키기는 했지만 아직은 프리뷰 단계로, 보고서는 약 한 달 정도 후에 공개될 예정이라고 합니다.

추론과 관련해서 한 번 읽어볼 논문들을 계속 수집 중인데, 지난 주 모은 것들은 전부 중국의 AI 연구소에서 나온 것들입니다 - 그리 놀라운 일은 아니지만요. 제로 베이스에서의 혁신은 어려울지라도, 복제하고 따라잡고 그 위에서 발전시키는 건 현재 AI 판에 있어서 중국의 잘 하는 전매 특허라고 해도 과언이 아닙니다. QwQ 보고서가 잘 정리되어 있다면, 이걸 검토할 때 한 번 추론과 관련된 논문들도 함께 들여다보고 공유드리도록 하겠습니다. 우선은, 먼저 살펴보고 싶으신 분들을 위해서 링크를 공유합니다:

  • 상하이 교통대학교와 GAIR 연구진은, 간단한 Distillation 기법과 제한된 샘플을 가지고도 AIME 2024에서 오픈AI의 o1-preview를 뛰어넘었습니다. 모델들이 안전성이라든가 일반화 능력에서 뛰어난 모습을 보여주기는 했지만 Teacher 모델에 높은 의존성이 있었는데, 이건 계속해서 AI의 혁신을 만들어가려면 근본적인 원리를 연구하는 게 중요하다는 걸 보여주기도 합니다. —> [논문 보기]

  • 칭화대학교 연구진은 암묵적 추론 (Implicit Reasoning)을 활용하는 LLM이 단계별 논리를 건너뛰고 기억이나 직관에 의존한다는 것을 발견했다고 합니다. 조사 결과, 암묵적 추론은 명시적인 CoT (Chain-of-Thought)에 비해서 안정성과 신뢰성이 떨어지는 것으로 나타났는데요, 복잡하고 높은 정확도를 요하는 추론 작업에 시사점이 있습니다. —> [논문 보기]

  • 그리고 칭화대학교에서 또 몬테카를로 트리 탐색과 "사고 카드 (Thought Cards)"를 활용한 ICL (In-Context Learning)의 추론 자동화 시스템, HiAR-ICL을 소개했습니다. HiAR-ICL은 구조화된 자동화 (Structured Automation)를 통해서 추론 과제를 체계적으로 해결하는 방법을 보여줍니다. —> [논문 보기]

트위터 라이브러리 (Twitter Library) 🐦

‘깃헙’ - 여러분도 많이 참고하시죠?

한 곳에서 AI와 관련된 개념, 알고리즘, 프로그래밍, 수학적 배경까지도 이해하고 마스터할 때 도움을 줄 가이드, 강의, 책, 프로젝트, 논문 등이 정리되어 있는, 깃헙 저장소 Top 10을 소개합니다:

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

튜링 포스트 팀이 읽고 있는 것들 📝

  • Stratechery의 ‘The Gen AI Bridge to the Future’ (Ben Thompson)
    10년 전인 2014년, Ben Thompson이 ‘The State of Consumer Technology in 2014’라는 글에서 소비자 IT 기술의 패러다임 시프트를 이해하는 맥락에서 최종 장을 비워 놓은 - 아래의 물음표 - 그림을 그렸던 적이 있는데요. 2024년 지금, 웨어러블과 내츄럴UI로의 이동과 통합을 모두가 꿈꾸고 있는 시점에 그 방향으로의 이행을 도와줄 ‘교각 (Bridge)’으로서 생성 AI가 큰 역할을 할 것이고 그렇게 기대한다는 글을 썼네요.

  • MIT 테크놀로지 리뷰, ‘AI Minecraft Experiment Breakthrough’
    이 글에서는 Altera의 ‘Project Sid’를 소개하는데요. 이 프로젝트는 LLM으로 구동되는 1천여개의 에이전트들이 마인크래프트 게임 안에서 커뮤니티를 형성하고, 직업을 가지고, 심지어는 패러디 종교까지 만들어내면서 사람들 간의 역학을 모델링하는데까지 이르는 AI의 잠재력을 보여주고 있습니다.

  • The New Yorker, ‘A Revolution in How Robots Learn’

    인간에게 쉬운 일은 로봇에게는 어렵다는 ‘모라벡의 역설’ 아시죠? ‘뉴요커’에서 ‘AI를 기반으로 한 학습 기법이 로봇으로 하여금 정교한 움직임과 기능의 범용화 (Generalization)를 가능하게 하면서, 결국 로보틱스 영역의 ‘ChatGPT Moment’가 오게 될 것이라고 전망합니다.

금주의 주목할 만한 업계 동향 📰

구글 딥마인드, ‘4D 컨텐츠 제작’의 혁신 + 새로운 ‘시각적 시계열 분석’ 접근법

  • 구글 딥마인드가 발표한 CAT4D (Create Anything in 4D with Multi-View Video Diffusion Models)가 장면을 역동적으로 재구성하는 방식을 새로운 차원으로 끌어올렸습니다. 다중 시점 비디오 디퓨젼, 그리고 최첨단의 ‘변형 가능한 가우시안’ 모델을 결합해서, 4D (Dynamic 3D) 영상 제작, AR, 합성 컨텐츠 제작 등을 혁신적으로 쉽게 할 수 있게 해 줍니다. 이 프레임웍은 다양한 카메라 위치와 시간을 기준으로 장면을 생성하게 학습되었고, 입력된 이미지나 비디오 프레임을 기반으로 특정 카메라 위치와 시간을 기준으로 장면을 합성하는 방식으로 동작합니다.

Image Credit: 오리지널 CAT4D 논문

  • 구글의 멀티모달 모델이, 시계열 데이터 (Time-Series Data)를 ‘플롯 기반의 프롬프트’로 변환해서 예측 정확도를 120% 향상시키고 비용을 10% 수준으로 절감해 주는 결과를 달성했습니다. 낙상 (Fall)을 감지하는 것에서부터 신체적 활동의 추적까지, 시계열 데이터 분석을 접근하는 새로운 세계가 열리고 있네요.

구글이 진행한 실험의 개념도. 시계열 데이터를 숫자로/플롯으로 전환한 후 예측치를 비교.
Image Credit: 오리지널 논문

마이크로소프트의 LazyGraphRAG, 새로운 RAG 벤치마크를 제시

  • 모델이 ‘더 비싸게’가 아니라, ‘더 똑똑하게’ 생각하게 할 수 있습니다. LazyGraphRAG는 사전 인덱싱을 건너 뛰고 비용을 경쟁사 대비 0.1% 수준으로 줄여준다고 합니다. 데이터 분석을 이전보다 700배 이상 저렴하면서도 2배 이상 정확하게 할 수 있도록 도와주는 이 플랫폼은, AI로 다양한 실험을 하고는 싶지만 과도하게 비용을 지출하고 싶지는 않은 기업에게는 꼭 필요한 솔루션 같아 보이네요.

깃헙, 오픈소스 보안을 위해 투자

앤쓰로픽의 MCP, AI와 데이터의 연결과 통합을 지원

  • 지난 FOD#77에서 커버한 적이 있는데요. 앤쓰로픽이 ‘다양한 데이터 소스와 AI 도구들을 쉽게 연결하게 해 주는 개방형 표준’, MCP (Model Context Protocol)을 공개했습니다. MCP는 산발적으로, 그리고 개별적으로 구현해야 하는 데이터 소스와 AI 도구의 연계를 일관성있게 그리고 쉽게 할 수 있게 해 주어서, 구글 드라이브, 깃헙, 슬랙 등의 시스템이 서로 원활하게 상호작용할 수 있게 됩니다.

메타 AI, SPDL로 AI의 학습 속도를 향상하는 프레임웍 제시

  • AI의 학습 속도를 저하시키는 요인은 물론 여러 가지가 있지만, 그 중 ‘데이터 로딩’도 주요한 하나의 요소라고 하겠습니다. SPDL (Scalable and Performant Data Loading)은 메타의 새로운 멀티쓰레딩 프레임웍으로, AI 학습을 위한 데이터 처리를 간소화하도록 해 줍니다. 더 빠른 로딩, 더 높은 확장성 - 바로 비용 절감으로 이어지겠죠?

Image Credit: 메타 AI

앤드류 응, 오픈소스 파이썬 패키지 ‘aisuite’로 쉬운 LLM 통합을 지원

  • 수없이 쏟아지는 모델을 이리저리 확인하면서 API를 관리해야 하는 작업, 꽤나 번거롭고 귀찮은 작업일 수 있죠. 앤드류 응이 발표한 오픈소스 파이썬 패키지 ‘aisuite’를 사용하면, 개발자들이 문자열만 업데이트해서 거대 언어모델 간의 전환을 쉽게 할 수 있습니다.

새로 나온, 주목할 만한 연구 논문

금주의 Top Pick!

  • Natural Language Reinforcement Learning (NLRL)
    UCL, NUS, 상하이 교통대학교 등의 연구원이 공저한 이 논문은, 강화학습의 핵심 요소를 재정의합니다 - ‘목표’, ‘전략’, ‘평가 방법’ 등, 이전에 명확한 수학적 공식으로 표현되던 요소를 자연어로 처리할 수 있도록 함으로써, 해석 및 이해가 더 용이하게 피드백을 주고 모델을 학습시킬 수 있습니다. —> [논문 보기]

  • Star Attention: Efficient LLM Inference over Long Sequences
    엔비디아의 연구로, 트랜스포머 기반 LLM을 위한 ‘Block-Sparse’ 어텐션 메카니즘입니다. 로컬/글로벌 어텐션 단계를 활용해서 최대 100만 토큰 시퀀스에서 95~100%의 정확도를 유지하면서 추론 속도를 최대 11배 향상시킬 수 있다고 합니다. —> [논문 보기]

Image Credit: 오리지널 논문

  • From Generation to Judgment: Opportunities and Challenges of LLM-as-a-Judge
    애리조나 주립대학교 연구진들이, ‘판단’이라는 작업에 LLM을 사용하는 방법을 검토했는데요. 다양한 방법론, 그리고 응용 분야에 대한 분류법을 제시했고, 편향성, 취약점, 자가 판단 (Self-Judgment) 영역에 특히 중점을 두었으며, ‘사람과 LLM 간의 협력’, 그리고 ‘편향성 완화’를 향한 향후의 방향을 제시하고 있습니다. —> [논문 보기]

Image Credit: 오리지널 논문

  • MH-MoE: Multi-Head Mixture-of-Experts
    마이크로소프트의 MH-MoE (Multi-Head Mixture-of-Experts) 모델은 말 그대로 ‘Multi-Head Attention (다중 헤드 어텐션)’을 추가해서 Sparse MoE (희소 MoE)를 개선한 모델입니다. FLOP을 증가시키지 않고도 복잡도를 줄여주고, 양자화 (Quantization) 과정에서도 안정적인 성능을 보여줍니다. —> [논문 보기]

  • Boundless Socratic Learning with Language Games

    이 구글 딥마인드의 프레임웍은, 재귀적 언어 기반의 ‘게임’을 활용해서 자가 개선 (Self-Improvement)를 하는데, 피드백, 커버리지, 확장성의 조건을 충족합니다. 자율적인 데이터 생성, 피드백 루프를 통한 확장 가능한 AI의 로드맵을 제시한다고 생각합니다. —> [논문 보기]

Image Credit: 오리지널 논문

지난 주 발표된 멋진 모델들

  • OLMo 2 (by Allen AI)는 앨런 AI 연구소 (AI2)가 발표한 모델로, 5조 개 토큰으로 학습한 7B, 13B 파라미터 모델로 구성되어 있습니다. —> [블로그 보기]

  • QwQ-32B (by 알리바바)는 수학, 코딩, 추론 벤치마크에서 최고 수준이 성능을 보여 관심받은 모델로, 성능 관점에서는 Claude 3.5 Sonnet과 오픈AI의 o1-mini 사이 쯤이라고 보면 될 것 같습니다. 양자화를 통해서 소비자용 GPU에도 최적화되었고, 아파치 라이선스로 오픈소스화되어서 추론 토큰 및 가중치를 공개했습니다. 물론 중국의 규제 제약의 영향 하에는 있습니다. 이 모델의 기술 보고서는 한 달쯤 후에 공개될 것 같습니다. —> [더 보기]

  • ShowUI: GUI Autonation은 Show Lab, NUS, 그리고 마이크로소프트가 함께 개발한, GUI 작업에 특화된 2B Vision-Language-Action 모델입니다. UI 기반의 토큰 선택 기능(33% 정도 적은 토큰을 사용하게 되는 것 같습니다), 멀티턴 작업을 위한 Interleaved Streaming, 그리고 선별된 256K의 데이터셋 등의 핵심적 특징이 있고, 75.1%의 Zero-shot 그라운딩 정확도를 달성했다고 합니다. —> [논문 보기]

  • MultiFoley (by 어도비)는 텍스트, 오디오, 비디오 입력을 받아서 고품질의 음향 효과를 생성하는 AI 모델입니다. 멋진 데모를 한 번 보시면, 이 모델이 가져다 줄 창의성의 잠재력을 볼 수 있습니다! —> [논문 보기]

  • INTELLECT-1 (by Prime Intellect)은 14개의 글로벌 노드에서 1조 개의 토큰으로 42일 간 학습한 10B LLM입니다. 이 모델은 PRIME 프레임웍을 활용해서 뛰어난 효율성 (대역폭 400배 감소)을 달성했습니다. 오픈소스로 공개된 INTELLECT-1과 PRIME은 분산 학습 확장성 관점에서 유의미한 도약이라고 할 수 있겠습니다. —> [더 보기]

스토리텔링, 창의성 관련 연구

  • Dreamrunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation은 계층적인 계획과 검색 기반 적응 (Adaptation) 기법을 사용해서 세밀한 움직임을 가능하게 할 뿐 아니라 다중 객체에 대해 일관성을 갖춘 부드러운 스토리텔링 비디오 생성을 가능하게 해 줍니다. —> [논문 보기]

  • DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting은 편집도 할 수 있는 ‘이미지 인페인팅’ 기능을 만들기 위해서 객체 속성을 분리하여, 사실성과 정체성을 유지하면서 속성을 더 잘 수정할 수 있도록 해 줍니다. —> [논문 보기]

  • DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching은 계산 비용을 줄이면서 ‘Feature Caching’ 접근 방법을 채택해서, 미세조정이 없이도 경량화된 개인화 이미지 생성을 가능하게끔 해 줍니다. —> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.