• Turing Post Korea
  • Posts
  • FOD#77: 거대 모델의 혼란 속에서 빛나는 작은 별들: '소형 모델'과 '임베딩'의 약진

FOD#77: 거대 모델의 혼란 속에서 빛나는 작은 별들: '소형 모델'과 '임베딩'의 약진

금주의 주요 소식, 업계 동향과 연구

주요 LLM들. Image Credit: Information is Beautiful

아마, 여러분도 비슷한 느낌을 가지고 계실 겁니다 - LLM들이, 거대 언어모델이, 진짜 너무나 많다는 느낌이요. 그냥 뉴스로 접하는 분들도 마찬가지고, 실무에서 LLM을 활용해야 하는 입장에서도 - 물론 결국은 몇 개의 선택지로 좁혀진 상태에서 결정은 하게 되겠지만 - 리스트로 만들어볼 수 있는 후보들이 너무나 많고도, 어찌보면 비슷비슷하기도 하죠. Information is Beautiful 사이트에 게재되어 있는 위 그림에서도, 2024년 들어와서는 그림의 복잡도가 엄청 높아진 걸 보실 수 있어요. 링크를 따라가 보면, 저기 기록되어 있는 LLM만 해도 130여개에 달합니다 - 우리나라의 LLM은 LG AI 연구원의 EXAONE 3.0 뿐인데도요.

바야흐로, 거대 AI 모델 경쟁은 ‘혼돈의 소용돌이’에 빠져들고 있다고 하겠습니다. 오픈AI의 GPT-4o-2024-11-20은 이전 버전보다는 빠르지만 성능은 다소 떨어지는 것으로 이야기되고 있는데요, Gemini Exp 1114를 잠시 앞섰다가 곧 Gemini Exp 1121에 선두주자 자리를 내주었구요. 버전 번호 대신 날짜를 붙이는 방식으로 모델의 표기법이 바뀌어가면서, ‘점진적’인 업데이트인데도 불구하고 마치 ‘획기적’인 발전이 있는 것처럼 ‘포장’되는 끝없는 순환이 계속되고 있습니다.

이런 주도권 싸움이 무의미하다고 할 수는 없지만, 결국은 개발자, 연구자를 포함해서 시장의 실망감을 키우게 되는 단계에 이를 수 있습니다. 기대를 모았던 ‘GPT-5’와 ‘Claude 5’는 여전히 모습을 드러내지 않은 가운데, 업계의 모든 플레이어가 ‘벤치마크 점수 달성’에 집착하고 있는 모습입니다. 연구소든, 스타트업들이든, 의미있는 발전보다는 리더보드의 상위에 랭크되는 것에만 집중하면서, 미래를 바라보는 ‘Clarity (명확한 비전)’과 ‘Innovation (진정한 혁신)’이 ‘Speed (속도)’를 위해서 희생되는 상황에까지 이른 것 아닌가 싶기도 합니다.

Image Credit: Quantum Thinker

물론, 실제로 유의미한 작업이 활발하게 이루어지고 있는 분야가 있습니다 - 이번에는 몇 가지 주목할 만한 소형 모델, 그리고 임베딩 관련 연구 성과를 소개하면 어떨까 해요.

엔비디아의 심바, ‘Hymba’ (‘심바’는 제 마음대로 붙여본 겁니다 ^.^;)

엔비디아가 개발한 Hymba 모델은, 트랜스포머 어텐션과 SSM (State Space Model; 상태 공간 모델)을 결합한 하이브리드 헤드 아키텍처를 특징으로 하는 소형 언어모델 (SLM)입니다. Hymba-1.5BLlama-3.2-3B와 같은 더 큰 모델들보다 뛰어난 성능을 보이면서도, 메모리 사용량을 획기적으로 줄이고 처리량도 높인 모델입니다. 슬라이딩 윈도우 어텐션이라든가 학습 가능한 메타 토큰 (Learnable Meta Tokens) - 프롬프트의 앞부분에 추가되는, 중요한 정보를 저장하는 토큰 - 은 정말 주목할 만한 혁신이 아닌가 합니다.

Hymba 1.5 베이스 모델과 타 Sub-2B 모델 성능 비교. Image Credit: 엔비디아

어도비의 온디바이스용 LM, ‘SlimLM’

비슷한 맥락에서, 어도비에서 발표한 SlimLM은 온디바이스 AI 영역에서 새로운 기준을 제시합니다. 스마트폰용으로 개발된 이 컴팩트한 언어 모델은, 성능과 효율성 vs. 개인정보 보호 간 균형을 맞춰가면서, 삼성 갤럭시 S24와 같은 기기에서 요약, QA 등의 문서 지원 작업을 인상적으로 잘 수행하게 해 줍니다.

Image Credit: SlimLM 오리지널 논문

‘멀티모달’ 영역의 돌파구를 찾는다: BlueLM-V-3B, Jina CLIP v2

소형 모델들이 조용히 혁신적인 발전을 거듭하는 가운데, ‘멀티모달 (Multimodal)’ 영역에서도 나름의 돌파구들이 열리고 있는데요.

BlueLM-V-3B는 모바일 기기용으로 만들어진 거대 멀티모달 모델로, 임베딩을 활용해서 모바일 기기에서의 효율성을 최적화하면서 다국어 OCR, 그리고 이미지-텍스트 변환 작업에서 뛰어난 성능을 보여줍니다.

Jina CLIP v2라는 모델은 ‘마트료시카 표현 학습’ 방식으로 강력한 성능과 컴팩트함을 동시에 달성하면서, 텍스트와 이미지를 위한 다국어 멀티모달 임베딩을 제공합니다. 마트료시카 표현 학습은 이전에 튜링 포스트 코리아의 FOD#71 에피소드를 참고해 보시면 좋겠습니다:

최첨단의 연구소들, 빅테크와 대형 스타트업들이 벤치마크 점수 경쟁에 매달리는 동안, 이런 ‘컴팩트’한 모델들은 조용한 가운데 효율성, 그리고 사용성 관점에서 새로운 혁신에 계속해서 매진하고 있습니다. 분명 SLM이 향후 AI 시장에서 유의미한 부분을 차지할 텐데요, 점진적으로 대형 모델의 발전도 계속되겠지만, 작지만 더 집중적인 발전이 일어나고 있는 SLM 영역을 주목해 봐야 하겠습니다.

트위터 라이브러리 (Twitter Library) 🐦

희소 오토인코더는 거대 언어모델 (LLM)이 데이터를 학습해서 만들어내는 표현 (Representation)을 이해할 수 있게 - 해석 가능하게 - 도와주는 도구로 널리 알려져 있는데요. 직접 사람이 손으로 뽑아낸 특징을 사용하는 지도 학습은, 시간도 많이 소요될 뿐 아니라 새로운 문제가 닥쳤을 때 적용이 힘들죠. 반면에, 비지도 신경망의 하나인 희소 오토인코더는 데이터로부터 의미있는 특징들을 자동적으로 뽑아내도록 학습을 합니다.

입력이 들어왔을 때 ‘소수의 뉴런만이 활성화’되도록 해서, 가장 중요한 패턴을 더 부각시키도록 해 주는 희소 오토인코더는, ‘Feature Extraction (특징 추출)’, ‘Dimension Reduction (차원 축소)’, ‘Pretraining Deep Networks (심층 네트워크의 사전 훈련)’ 등에 광범위하게 사용되고 있습니다.

아래에 ‘희소 오토인코더’를 더 잘 이해할 수 있도록 도와줄 12개 논문을 소개합니다:

AI 업계 전문가들이 관심있어하는 제품/서비스 👍🏼

  • 오늘은, 평소에 소개했던 제품이나 서비스보다는 다소 헤비(?)하게 느끼실 수도 있는 솔루션인데요. 앤쓰로픽이 ‘AI 시스템을 다양한 데이터 소스에 연결하는데 사용할 개방형 표준’으로 MCP (Model Context Protocol)라는 걸 발표해서, AI 관련된 일을 하는 실무자들의 관심을 끌었습니다. 복잡한 AI 시스템과 타 시스템 간의 통합을 단순화하는데 기여하기 위해서 만들어진 이 프로토콜은, 구글 드라이브라든가, 깃헙 같은 도구들을 대상으로 안전하게, 확장 가능한 연결을 할 수 있도록 해 줍니다. 이 프로토콜을 기반으로, 개발자들이 더 스마트하고, 더 맥락을 쉽게 인지하는 AI 시스템을 구축하기 위해서 ‘사전에 구성된 서버, SDK, 오픈소스 리포지토리’ 등을 사용할 수 있습니다. AI의 확산을 위해서 꼭 필요한 요소라고 생각하구요, Claude 외에 다른 AI 스타트업들이 더 많이 활용하게 되든가, 아니면 주요한 AI 스타트업들도 비슷한 솔루션을 발표하게 되지 않을까 짐작해 봅니다.

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

튜링 포스트 팀이 읽고 있는 것들 📝

  • Which countries are leading in AI? (스탠포드 HAI)
    Global AI Vibrancy Tool이라는 틀 안에서 R&D, Responsible AI, Economy, Education, Diversity, Policy & Governance, Public Opinion, Infrastructure 등 8가지 차원에서 국가별 현황을 평가, 순위를 매긴 보고서인데요. 한국은 6위 프랑스에 이어 7위에 랭크되었네요.

Image Credit: 스탠포드 HAI, Global AI Vibrancy Ranking

  • Kai-Fu Lee on U.S. AGI Hegemony (Recode China AI)
    중국계로서 글로벌 AI 씬을 이끌고 있는, 독특한 포지셔닝을 가진 카이푸 리의 인터뷰인데요. AGI와 관련된 여러 가지 주제, 그리고 샘 알트만에 대한 생각, 향후의 추론 비용과 AI 산업 구조에 대한 생각 등을 들어볼 수 있습니다.

Image Credit: Recode China AI

  • The History of RAND and Commentary from its CEO (ChinaTalk)
    AI와 직접적인 관련성은 좀 적다고 보실 수도 있겠지만, RAND는 아마도 미국에서 가장 중요한 싱크탱크로 경제, 산업, 사회 전반에 대한 다양한 연구를 수행하면서 미국의 정치, 경제, 기술 등 모든 분야에 큰 영향을 끼치는 기관입니다. 이 RAND의 역사와 향후 방향에 대해 CEO인 Jason Matheny가 이야기하고 있는 글입니다.

금주의 주목할 만한 업계 동향 📰

AlphaQubit: 양자 컴퓨팅의 최대 난제, ‘오류 수정’ 문제에 도전하다

  • 구글 딥마인드의 AlphaQubit이 ‘양자 컴퓨팅의 아킬레스건’이라고 할 수 있는 ‘오류 수정’ 문제에 도전합니다. 고도화된 신경망을 활용, 구글의 시카모어 (Sycamore) 프로세서에서 기존 디코더를 뛰어넘어 정확도를 30% 향상시켰다고 합니다. 실시간으로 사용하기에는 아직 너무 느리지만, 확장 가능한 양자 시스템을 향한 유의미한 도약이라고 할 수 있겠습니다.

Qwen2.5-Turbo: 1백만개 토큰 컨텍스트 모델

  • 알리바바의 Qwen2.5-Turbo가 희소 어텐션(Sparse Attention) 기법으로 처리 시간을 4.3배 단축하면서 1백만 토큰 컨텍스트로 토큰의 제약 사항을 깨트렸습니다. 방대한 텍스트나 코드베이스를 분석할 수 있고, GPT-4를 능가하는 성능에 백만 토큰당 0.3위안이라는 비용 효율성을 달성했네요. 실제 환경에서의 도입은 물론 아직 Qwen의 과제로 남아 있습니다만, 그 잠재력은 대단해 보입니다.

프랑스 스타트업 H, ‘Runner H’ 발표하면서 에이전트 경쟁에 참전

  • 프랑스 파리에 기반을 두고 있는 AI 스타트업 ‘H’가 2억 2천만 달러의 투자금을 유치한 후 첫 제품인 ‘Runner H’를 공개했습니다. 20억 개의 파라미터를 가진 컴팩트한 LLM을 탑재한 이 플랫폼은, RPA (Robotic Process Automation), QA (Quality Assurance), 아웃소싱 등을 위한 에이전트 도구들을 기업에 제공합니다. Runner H는 앤쓰로픽 같은 더 큰 경쟁사의 도구보다 높은 효율성과 성능을 보여준다고 주장하고 있는데요. 이 도구가 AI의 제 2 시대를 여는 관문이 될까요? 대기자 명단에 등록하고 한 번 기다려 봐야겠습니다.

마이크로소프트 코파일럿: 계속해서 워크플로우의 미래를 주도하다

  • Ignite 2024에서, 마이크로소프트가 작업을 자동화하고 협업을 더 잘 하도록 도와주는 새로운 코파일럿 기능들을 공개했습니다. Copilot Actions, Pages, 그리고 Teams의 통역 에이전트와 같은 기능들을 통해서 생산성을 크게 향상시킬 수 있다고 하는데요. Copilot Control System을 통해서 이런 기능들을 안전하게 도입할 수 있도록 함으로써, 마이크로소프트의 AI 리더십을 더욱 공고히 하려는 모양세입니다. 자세한 내용은 블로그에서 확인해 보세요.

세레브라스 (Cerebras): 속도의 한계를 뚫다

Image Credit: 세레브라스 홈페이지

앤쓰로픽: 아마존으로부터 40억불 추가 투자

xAI: 일론 머스트의 ‘AI 야망’, 계속해서 솟구쳐 오르나

  • 정말 놀랄 수 밖에 없는 소식인데요. 일론 머스크의 xAI가 추가로 50억 달러를 투자 유치했고, 기업 가치가 500억 달러로 두 배가 되었다고 합니다. 카타르 투자청 (Qatar Investment Authority)과 앤드리슨 호로위츠 (Andreessen Horowitz) 같은 거물급 투자사들의 지원을 받으면서, 머스크의 ‘AI 지배력 강화’를 향한 비전이 더욱 가속화되고 있습니다.

새로 나온, 주목할 만한 연구 논문

금주의 Top Pick - 전부 ‘모델’에 대한 이야기들이네요 ^.^

  • Tülu 3: SOTA 모델과의 갭을 따라잡고 있는 오픈 모델
    AI2 (앨런 AI 연구소; Allen Institute for AI)에서 발표한 Tülu 3가 오픈 모델 생태계의 사후 훈련의 수준을 한 단계 끌어올렸습니다. 세련되게 정제된 프롬프트, 합성 데이터와 파인튜닝, 혁신적인 RLVR 프레임웍을 활용해서, Llama 3.1-Instruct를 뛰어넘으면서 GSM8K와 IFEval 등의 테스트에서 비공개 AI 모델들의 성능에 근접하는 결과를 보여주었습니다. 그야말로 경쟁력 있는 정확도를 갖춘 오픈소스계의 혁신적인 모델이라 하겠습니다. —> [블로그 보기]

  • Marco-o1: 개방형 추론 (Open Reasoning)을 향한 알리바바의 도전
    알리바바의 Marco-o1 모델에서는 ‘개방형 과제’들을 해결하기 위해서 CoT (Chain-of-Thought) 튜닝과 몬테카를로 트리 서치 방식을 도입했습니다. MGSM에서 6% 수준의 성능 향상을 보여주고 있고, 섬세하고 정밀한 작업에서 구글 번역의 성능도 능가하고, 추론의 잠재력을 새롭게 정의했다고 합니다. 자가 수정이 가능한 최첨단 모델입니다. —> [논문 보기]

  • DeepSeek-R1-Lite: 오픈AI에 대한 또 하나의 도전
    DeepSeek가 논리적 추론과 수학적 추론, 실시간 문제 해결을 위해 설계된 추론 AI, R1-Lite-Preview를 선보였습니다. CoT (Chain-of-Thought) 기법을 활용해서 AIME나 MATH 같은 벤치마크에서 오픈AI의 o1-preview와 대등하거나 더 나은 성능을 보여주고 있습니다. DeepSeek는 R1 모델과 API를 오픈소스로 공개할 계획을 가지고 있는데, 이를 통해서 전 세계의 AI 혁신을 활성화하는 것을 목표로 한다고 합니다 - 중국 기업의 저력을 보여주는 하나의 사례 같습니다. —> [API 문서 보기]

  • Bi-Mamba: Binary (이진) 시스템의 혁신
    MBZUAI (모하메드 빈 자예드 인공지능대학)와 CMU (카네기멜런 대학교)가 공동으로 개발한 Bi-Mamba가 1비트 모델링을 현실화했습니다. 저장 공간을 80% 줄이고, 에너지 소비를 절감하면서도 Mamba-2와 같은 전체 정밀도(Full-Precision) 모델과 견줄 만한 성능을 보여줍니다. Low-Bit 하드웨어에 최적화되어 있어서, 성능을 유지하면서도 높은 효율성을 달성할 수 있다는 것을 입증했다고 볼 수 있겠습니다. —> [논문 보기]

  • Pixtral Large: 미스트랄의 플래그십 멀티모달 모델
    1,240억 개의 파라미터를 가진 미스트랄AI의 Pixtral Large가 멀티모달 AI 모델의 새로운 기준을 제시하고 있습니다. 문서에서부터 고해상도 이미지까지, 기업에서 필요한 다양한 과제들을 수월하게 처리하고, 주요한 테스트에서 GPT-4V와 Claude-3.5 Sonnet을 능가하는 성능을 보여준다고 합니다 - 새로운 멀티모달 모델계의 챔피언이 등장한 것 같은데요? —> [블로그 보기]

멀티모달 및 시각-언어 모델

  • Multimodal Autoregressive Pre-training of Large Vision Encoders는 확장 가능한 아키텍처와 멀티모달 추론을 위한 자기회귀적 재구성을 통해서 이미지-텍스트 이해 분야에서 새로운 기준을 확립하고 있습니다. —> [논문 보기]

  • Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization은 혁신적인 파인튜닝 기법을 통해서 멀티모달 추론을 최적화, 다양한 추론 작업에서 뛰어난 성능을 달성하게 해 줍니다. —> [논문 보기]

  • SAMURAI: Adapting Segment Anything Model For Zero-Shot Visual Tracking은 동작 인식 메모리를 활용해서 Segment Anything 모델을 시각적인 추적 상황에 맞게 조정함으로써, 까다로운 환경에서도 높은 성능을 달성하도록 해 줍니다. —> [논문 보기]

강화학습과 전이학습

  • Natural Language Reinforcement Learning은 자연어를 활용해서 강화학습 컴포넌트를 재정의함으로써, 해석 가능하고 풍부한 지식을 바탕으로 한 의사결정을 가능하게 하고 있습니다. —> [논문 보기]

  • Model-Based Transfer Learning For Contextual Reinforcement Learning은 상황적인 맥락을 고려하는 전이학습 방식을 통해서 다양한 작업에서 강화학습의 효율성을 향상시켜주는 방법을 제안합니다. —> [논문 보기]

메모리, 효율성, 스케일 관련 혁신

  • Ultra-Sparse Memory Network은 초희소(Ultra-Sparse) 아키텍처를 도입해서 지연 시간을 줄이고 메모리 효율성을 개선하고, 더 큰 규모의 밀집 (Dense) 모델들과 견줄만한 성능을 보여줍니다. —> [논문 보기]

  • When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training은 정밀도 관련 문제들을 해결하여 긴 맥락 (Long-Context) 처리를 최적화하면서도, 성능은 유지하면서 학습 속도를 향상시키는 방법을 제안합니다. —> [논문 보기]

  • Loss-to-Loss Prediction: Scaling Laws for All Datasets는 다양한 작업과 데이터셋에 걸쳐서 모델의 성능을 예측하는 스케일링 법칙을 개발해서, AI 시스템 개발의 효율성을 높이고 계획을 더 잘 수립할 수 있도록 도와줍니다. —> [논문 보기]

에이전트 아키텍처 및 로보틱스

  • Generative World Explorer는 상상력을 동원한 3D 환경 탐색을 위한 프레임웍 Genex를 개발했는데, 실제 물리적 움직임 없이도 의사 결정 (Decision Making) 및 기준 수정 (Belief Update)이 가능하도록 했다고 합니다. —> [논문 보기]

  • One to Rule Them All: Natural Language to Bind Communication, Perception, and Action은 거대 언어모델(LLM)을 통합한 로봇 아키텍처를 도입, 작업을 실행할 때 환경이 변화하더라도 동적으로 적응할 수 있도록 하는 방법을 제안합니다. —> [논문 보기]

Alignment, 검증, 가드레일 및 안전 프레임웍

  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering은 파운데이션 모델을 위한 사후 학습 (Post Training) 패러다임을 제안, 검증 기술을 통해 확장성과 Alignment를 향상시키는 방법을 제안하고 있습니다. —> [논문 보기]

  • Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models는 모델의 표현 방식 (Representation)에서 특정한 방향성을 발견해서, 환각 (Hallucination) 현상을 줄이고 개체를 더 잘 인식할 수 있도록 개선했습니다. —> [논문 보기]

  • A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection에서는 거대 언어모델이 안정적인 성능을 달성할 수 있도록, 합성 데이터셋과 파이튜닝 기법으로 Off-Topic (주제에서 벗어난) 프롬프트를 감지하는 가드레일 방법론을 제안하고 있습니다. —> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.