• Turing Post Korea
  • Posts
  • FOD#65: 제본스(Jevons)의 역설과 생성형 AI 개발의 패러다임

FOD#65: 제본스(Jevons)의 역설과 생성형 AI 개발의 패러다임

금주의 주요 소식, 업계 동향과 연구

⚡️ 2024년 가을, 튜링 포스트 코리아의 계획 ⚡️

벌써 9월이네요! 유난히 무더웠던 한여름 모두들 휴가도 다녀오시고 건강하게 나셨기를 바랍니다.

튜링 포스트 코리아를 시작한지 벌써 한 달이 지났습니다. 많은 분들의 성원 덕분에 즐겁게 조사도 하고 글도 쓰고 있는데요. 튜링 포스트 코리아의 원래 목표대로, 계속해서 AI 기술 자체 뿐 아니라 역사와 배경, 창업자나 스타트업의 스토리, 트렌드 등을 공유할 수 있도록 하겠습니다.

튜링 포스트 코리아는 아래와 같은 토픽으로 주 2~3회 이메일로 뉴스레터를 전달합니다:

  • ‘FOD (Froth On the Daydream)’, AI 뉴스 다이제스트

  • AI 유니콘 스타트업 또는 🆕 Agentic Workflows 🆕

  • AI 101 시리즈 (핵심 AI 컨셉, AI 모델과 아키텍처, 개발 기법 등)

‘Agentic Workflows’는 특히 광범위한 토픽이고 최근에 많은 관심을 받고 있는 만큼, 여러 차례 걸쳐서 함께 이해의 폭을 넓혀나갈 수 있도록 컨텐츠를 구성할 생각이고, AI 101 시리즈는 최신의 모델, 기법 등에 대해서도 계속해서 다루되 ‘AGI’를 향해 나가고 있는 핵심적인 컨셉, 연구 동향도 함께 커버할 수 있도록 하겠습니다.

많은 관심 가져주시고, 피드백과 요청 사항은 언제든지 환영합니다! 🙏

금주의 튜링포스트 코리아 예고:

  • AI 101: LLM의 추론 능력을 개선하는 기법, Chain-of-Knowledge에 대해서 알아봅니다.

  • AI 유니콘: 창업 1년도 채 안 되어 유니콘이 된, 카이푸 리 (Kai-Fu Lee)의 AI 스타트업, 01.AI에 대해 알아봅니다.

기대해 주세요!

여러분, 제번스의 역설 (Jevons’ Paradox)에 대해 들어보셨나요? 영국의 경제학자인 윌리엄 제번스 (William Stanley Jevons, 1835 ~ 1882)가 1865년 산업혁명 당시에 발견한 역설인데요. 제임스 와트가 이전 방식보다 훨씬 석탄을 덜 사용해도 되는 효율적인 증기 엔진을 선보인 후 사람들이 결국 와트의 엔진이 석탄 소비 총량을 줄일 거라고 생각했는데, 이상하게도 정반대로 영국의 석탄 소비가 급증한 것을 보고 발견했다고 합니다. 바로 기술이 계속해서 발전하면서 자원의 효율성이 증가한다고 그 자원의 사용이 줄어드는 것이 아니라 오히려 늘어나는 현상을 이야기합니다.

생성형 AI 영역에서도, 특히 LLM 기술 개발이 가속화하고 오픈소스 LLM이 확산되면서 LLM을 사용하는데 드는 토큰 비용이 빠르게 줄어들고 있습니다. 앤드류 응 교수가 며칠 전 이와 관련해서 토큰 비용의 빠른 하락과 그 이유, 그리고 앞으로 AI 회사들이 가져야 할 관점에 대해서 글을 썼는데요. 간단히 요약해 보면 아래와 같습니다:

앤드류 응의 포스트 요약

  • LLM 토큰 가격은 거의 연간 약 80%에 육박하는 큰 폭으로 하락하고 있습니다.

Image Credit: Deeplearning.ai

2023년 3월 GPT-4 출시 당시 토큰 백만 개당 36달러였던 가격이 최근 오픈AI가 가격을 인하하면서 GPT-4o 토큰 가격은 백만 개당 4달러가 되었습니다. 거기다 새로운 Batch API의 경우는 백만 개당 2달러라는 더 낮은 가격에 사용할 수 있습니다.

  • 급격한 토큰 가격 하락의 이유는 오픈 웨이트 모델 출시와 하드웨어의 혁신

여러가지 원인이 있겠지만, 메타의 Llama 3.1과 같은 훌륭한 오픈 웨이트 모델이 출시되면서 완성도 높은 쓸만한, 그리고 다양한 사이즈의 LLM이 계속해서 등장하고 있죠. 그래서 Anyscale, Fireworks, Together.ai 와 같은 스타트업과 대형 CSP들이 ‘모델 개발비용’을 회수해야 하는 부담없이 가격, 속도 같은 요소로 직접 경쟁하고 있습니다.

그리고 Groq, Samba Nova (Llama 3.1 405B 토큰을 초당 114개 속도로 제공합니다), Cerebras와 같은 스타트업, 엔비디아, AMD 등이 지속적으로 추진하는 하드웨어 혁신도 앞으로의 가격 인하를 더욱 가속화할 것입니다.

  • AI 회사, LLM 어플리케이션을 개발하려는 기업에 하고 싶은 말

생성형 AI 시장을 이끌어갈 소프트웨어 및 하드웨어 회사들의 기술 로드맵을 살펴볼 때, 앞으로도 계속해서 토큰 가격이 빠르게 하락할 것으로 확신합니다.

이런 관점에서, ‘비용 최적화’보다는 ‘유용한 애플리케이션’을 많이 구축하는데 집중하고, 이런 애플리케이션에 드는 비용이 현재 약간 비싸 보이더라도, 앞으로 가격 하락을 고려해서 공격적으로 개발, 배포할 필요가 있으며, 새로운 모델이 출시될 때 애플리케이션을 주기적으로 검토, 다양한 모델 제공자나 다른 버전의 모델로 전환할 수 있는 역량을 갖추기를 바랍니다.

생성형 AI 개발의 패러다임

앤드류 응의 글처럼, 앞으로도 이어질 급격한 토큰 가격의 하락이 LLM, 그리고 생성형 AI 어플리케이션의 확산에 분명히 기여하게 될 거라고 생각합니다. 결국 Multi-LLM 기반의 아키텍처를 갖추고, 다양한, 생성형 AI의 특성을 잘 살린 새로운 어플리케이션을 많이 실험해 보고 고객에게 배포할 수 있는 사업자들이 승자가 될 겁니다.

여기서 잊지 말아야 할 건, ‘Cost’가 유일한 요소가 아니라 결국은 ‘Utility vs. Cost’의 균형을 맞추는 것이 중요하다는 겁니다. 문제는, 생성형 AI에서의 ‘Utility’란 것이 좀 다루기 까다로운 놈이라는 것이고, ‘Utility’의 요소가 매끄럽게 해결되지 않으면 AI 산업에서 ‘제본스의 역설’을 관찰하는 건 쉽지 않을 겁니다.

생성형 AI를 제대로 이용하는 킬러 어플리케이션의 모범 사례도 아직 그리 많지 않을 뿐 아니라, 기술의 특성에서 기인하는 리스크도 잘 다루고 관리해야 합니다. 특히 일반적으로 성능이나 안정성 관점의 리스크에 더해서 생성형 AI 고유의 ‘환각’, ‘편견’, ‘개인정보 유출’ 등의 리스크를 잘 관리하지 못하면 AI 회사와 기업, 그리고 사회적으로도 부정적 영향이 발생할 수 있죠.

LLM 기술의 발전에 따른 ‘비용 하락’을 기회로 삼아 ‘생성형 AI’ 시장의 리더가 될 기업은, 이 기술의 특성과 장점을 극대화하는 어플리케이션을 빠르게, 그리고 리스크를 잘 관리하면서 만들고 운용하는 기업일 거라고 생각합니다. 저는 이걸 ‘리스크 기반의 생성형 AI 패러다임’이라고 부르는데요, 이에 대해서는 다시 한 번 기회가 있을 때 자세하게 다뤄 보겠습니다.

여러분은 LLM을 비롯한 생성형 AI 개발이 이전의 소프트웨어 개발과 어떤 점이 같고 어떤 점이 다르다고 생각하시나요?

트위터 라이브러리 (Twitter Library) 🐦

현재까지 LLM의 역사는 어찌보면 ‘더 긴 텍스트를 잘 처리하고 다루는 모델을 만들어보자’는 노력의 과정이었다고 해도 과언이 아닐 겁니다. 초기의 RNN에서 LSTM으로, 그리고 트랜스포머에 이르기까지 말이죠.

이제는 ‘처리할 수 있느냐’의 문제가 아니라 ‘얼마나 잘 다루느냐’의 문제가 중요해진 시점에서, LLM이 Long-Context를 효율적으로 처리할 수 있게 하는 ‘10가지의 새로운 방법’을 정리해 봤습니다:

업계 전문가들이 추천하는 AI 서비스 👍🏼

  • Multi-LLM의 시대가 올 거라는 것에는 많은 분들이 공감하실 거라고 생각되는데요, 오늘은 다양한 AI 모델에 쉽게 연결해서 사용하도록 해 주는 OpenRouterNot Diamond (이름이 재미있죠?)를 소개하려고 합니다. OpenRouter는 단일 API를 통해서 여러 가지 LLM을 쉽게 사용할 수 있게 해 주는 툴이고, Not Diamond는 쿼리에 따라서 어떤 LLM이 최적의 답을 줄 것인지 자동적으로 결정해서 콜하는 ‘메타 모델’이자 ‘AI 모델 라우터’입니다. - Not Diamond를 여러분의 어플리케이션 요건에 맞춰 트레이닝할 수 있다는 얘기죠.

Image Credit: Not Diamond 웹사이트

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

금주의 주목할 만한 업계 동향 📰

앤쓰로픽의 시스템 프롬프트, 그리고 아티팩트 출시

  • 앤트로픽의 ‘시스템 프롬프트’가 공개되었는데요. 사실 LLM 개발사가 시스템 프롬프트를 잘 공개하지 않기 때문에 이례적인 일로 받아들여집니다만, ‘윤리적이고 투명한 AI 공급사가 되기 위한 노력의 일환으로 공개’한다고 합니다. 몇 가지 흥미로운 것들 살펴보면, ‘죄송합니다’라고 답을 시작하지 않게 하고, 한 번에 답하기 어려운 복잡한 요청은 단계적으로 답을 제시해 가면서 사용자의 피드백을 받게 되어 있네요. 호기심이 많지만 신중한 접근을 하는 페르소나를 설정하고, 이미지가 주어졌을 때 사람의 얼굴은 식별하지 않고 언급하지 않도록 하고 있습니다.

  • 지난 6월에 선보였던 ‘아티팩트’ 기능을 전면 출시했는데요. 클로드가 생성한 결과물을 실시간으로 사용자가 확인하면서 편집할 수 있는 작업 공간이라서, 코딩하는 과정이나 디자인 대시보드 작업 과정 등에 특히 유용합니다.

구글의 신기능, 젬스 (Gems)

  • 구글에서 맞춤형 챗봇 또는 AI 비서라고 부를 수 있는 Gems를 출시했습니다. 오픈AI의 GPTs와 비슷하다고 할까요? 기본적으로는 브레인스토밍 파트너, 코딩 가이드, 커리어 상담사 등의 역할이 제공된다고 합니다. 이미지 생성 기능이 업그레이드된 Imagen 3 모델까지 해서 구글의 AI가 개인, 전문가가 사용하기에 손색없는 진용을 갖추어나가는 것 같습니다. Gemini도 새로운 소형 모델 Gemini 1.5 Flash-8B, 코딩이나 복잡한 프롬프트를 잘 처리하는 Gemini 1.5 Pro, 이전보다 개선된 Gemini 1.5 Flash 등 세 개의 실험용 모델을 출시할 예정입니다.

  • 미국 대선이 다가오는 가운데, 검색, 유튜브, 구글플레이 등에서 신뢰할 수 있는 정보를 제공하기 위해서 AI를 사용한 모니터링과 오류 정보 탐지, 보안 강화 등 신경을 쓰고 있다고 합니다.

메타, 라마 (Llama)를 타고 질주하다

  • 메타의 ‘라마’가 3억 5천만 다운로드를 기록, 2023년 대비 10배의 놀라운 성장세를 보이면서 질주하고 있습니다. 라마가 원래 빠른 동물인지는 모르겠는데 ^.^; 허깅페이스에만 6만 개의 라마 기반 파생 모델들이 있는 걸 보면, 라마의 파급력과 활용 수준이 정말 대단한 것 같습니다.

세레브라스, 새로운 AI 추론 솔루션으로 엔비디아와 경쟁

오픈AI의 ‘달콤한’ 비밀

  • 오픈AI가 계속해서 조금씩 뉴스를 흘리고 있는 ‘스트로베리 (Strawberry)’는 단순한 ‘채팅’ 이상의 다양한 응용 가능성을 암시하면서 미국 국가안보국 등의 관심을 받고 있습니다. 한편, 오픈AI는 다시 한 번 막대한 자금 조달을 해서 기업가치를 1,000억 달러 이상으로 끌어올릴 계획이라고 합니다. 정말 엄청난 규모네요.

코히어 (Cohere), 기업 고객을 위한 ‘Comman R’ 시리즈 업그레이드

  • 코히어의 최신 ‘Command R’ 시리즈는 비즈니스에 최적화된 모델로 빠른 RAG 및 다국어 기능을 제공하고, 코딩, 수학, 추론 등의 작업에서 높은 성능을 보여줍니다. 코히어의 주요 타겟인 ‘기업 고객’의 효율성을 높이기 위한 AI 솔루션, 기업의 AI 유즈케이스 구축에 활용하기 적합한 모델이 되는 것을 목표로 하고 있다고 합니다.

새로운 AI 유니콘을 소개합니다: Codeium, Magic AI

  • 현재 12억 5천만 달러의 기업가치를 인정받고 있는 Codeium은 ‘AI 기반의 개발 도구’를 만드는 스타트업으로, 지난 8월 말에 클로징한 시리즈 C에서 1억 5천만 달러의 투자를 받았습니다.

  • Magic AI는 ‘1억 개의 토큰’을 처리할 수 있는 Ultra-Long Context 모델을 소개하면서 AI의 한계를 한층 더 확장하고 있는 스타트업입니다.

미드저니, 하드웨어에 눈독들이다

새로 나온, 주목할 만한 연구 논문

금주의 Top Pick

  • 디퓨젼 모델 기반의 게임 엔진, GameNGen
    구글 딥마인드, 구글 리서치, 텔아비브 대학 연구진이 함께 만든 ‘GameNGen’은 단일 TPU에서 DOOM 게임을 20FPS 이상으로 시뮬레이션할 수 있습니다. JPEG 압축시 손실과 비슷한 29.4의 PSNR로 다음 프레임을 예측합니다. 평가자가 실제 게임 클립과 시뮬레이션된 짧은 게임 클립을 구분하기 어려웠다고 할 만큼 모델의 시각적 충실도, 인터랙션 품질이 좋다고 합니다. GameNGen은 AI가 어떻게 게임 제작 과정을 혁신해서, 즉석에서 생성되는 끝없는 인터랙티브 월드를 만들 수 있는지 보여줬다는 점에서 큰 의미가 있습니다. 스스로 만들어지는 게임을 상상해 보세요! —> [논문 보기]

  • ‘음악’을 대상으로 한 Foundation Model 서베이

    표현 학습 (Representation Learning), 생성 학습 (Generative Learning), 멀티모달 학습과 같은 분야를 커버하는, 음악용 FM에 대한 훌륭한 자료입니다. 이 서베이에서 Instruction Tuning, Long-sequence 모델링, 자기 지도 학습 등을 중심으로 음악 영역에서도 FM이 큰 잠재력이 있다는 걸 강조합니다. FM을 활용해서 데이터셋의 한계를 격파해 나가면서 음악에 대한 이해, 생성을 더 잘 하도록 할 수 있습니다. —> [논문 보기]

  • ‘LLM 기반 자동화를 통한 연합 학습’용 웹 기반 솔루션

    Oulu 대학교의 연구진은 LLM 기반의 자동화 기술을 활용해서 연합 학습 (Federated Learning)을 간단하게 하도록 해 주는 웹 솔루션을 제안합니다. 이 플랫폼은 FedAvg (Federated Averaging) 알고리즘, 모델 압축 및 스케줄링 등을 지원해서 연합 학습의 성능을 향상시켜 줍니다. 파인튜닝을 거친 LLM은 프롬프트로 연합 학습을 수행, 기존 방식과 비슷한 정확도를 달성하면서도 전송 바이트 수는 64%, CPU 시간은 46% 더 적게 사용합니다. 또 LLM을 사용하는 신경망 아키텍처 검색(NAS), 하이퍼파라미터 최적화(HPO)로 테스트 정확도를 10~20% 향상시킬 수 있습니다. —> [논문 보기]

거대 언어모델과 최적화 기법

  • NanoFlow: Nano-batching과 GPU 안에서 Resource Co-scheduling을 통해서 처리량을 개선, 거대 언어모델의 추론 프로세스를 최적화합니다. —> [논문 보기]

  • Smaller, Weaker, Yet Better는 는 저렴하고 작은 모델로 더 강력한 언어 모델을 위한 합성 트레이닝 데이터를 생성, 트레이닝에 필요한 컴퓨팅 자원의 사용량을 최적화합니다. —> [논문 보기]

  • LlamaDuo: 합성 데이터로 반복적인 튜닝 작업을 해서, 성능을 유지하면서도 대규모 클라우드 기반 언어 모델에서 소규모 로컬 모델로 마이그레이션하기 위한 파이프라인을 소개합니다. —> [논문 보기]

  • Efficient LLM Scheduling by Learning to Rank: 작업의 출력값 길이를 먼저 예측하고 최적화해서 LLM의 지연 시간과 처리량을 향상시키는 스케줄링 방법을 제안합니다. —> [논문 보기]

  • MobileQuant: 언어 모델을 효율적으로 온디바이스에 배포하기 위한 Quantization 기술을 제공합니다. —> [논문 보기]

멀티모달 모델과 시각-언어 통합 기법

  • Generative Inbetweening: 이미지-비디오 모델을 조정, 키 프레임을 보간 (Interpoltion)해서 동영상에서 부드럽고 일관된 동작을 생성합니다. —> [논문 보기]

  • EAGLE: 시각적인 인식을 더 잘 하게 하고 환각을 줄이기 위해서 비전 인코더를 혼합하는 방식의 멀티모달 LLM을 연구합니다. —> [논문 보기]

  • CogVLM2: 이미지와 비디오를 통합적으로 이해할 수 있게 해서, 시각-언어 작업에서 SOTA 성능을 보여주는 CogVLM2 모델을 소개합니다. —> [논문 보기]

  • Building and Better Understanding Vision-Language Models: 비전 언어 모델의 개발과 최적화에 대한 인사이트를 제공하는 논문으로, Idefics3-8B 모델을 함께 소개합니다. —> [논문 보기]

효율적인 모델 훈련 및 지식 증류 (Knowledge Distillation)

  • LLAVA-MOD: Sparse MoE 아키텍처를 사용해서 소형 멀티모달 언어모델을 효율적으로 트레이닝하기 위한 지식 증류 프레임웍을 소개합니다. —> [논문 보기]

  • The Mamba in the Llama: 증류 기법을 사용하여 거대 트랜스포머 모델을 효율적인 하이브리드 모델로 변환, 계산 복잡성을 줄이면서 성능을 향상하는 방법을 살펴봅니다. —> [논문 보기]

새로운 컴퓨팅 접근방법과 이론적 인사이트

  • Dolphin: Long-Context 정보를 모달리티로 처리, 온디바이스 언어 모델의 에너지 효율성과 지연 시간을 개선합니다. —> [논문 보기]

  • Meta Flow Matching: Wasserstein Manifold의 벡터장을 사용해서 상호작용하는 시스템 역할을 학습하는 방법, 그리고 이를 개인 맞춤형 의학에 적용하는 방법을 소개합니다. —> [논문 보기]

  • Physics of Language Models: Error-correction 데이터를 가지고 언어모델을 학습시켜서 추론의 정확도를 높이고, 생성 과정에서 발생하는 오류를 더 잘 수정하게 하는 방법을 탐구합니다. —> [논문 보기]

이론적 프레임웍과 비전 Representation

  • Law of Vision Representation in MLLMs: 멀티모달 모델에서 Cross-modal Alignment를 정량화해서 모델의 성능을 예측하고 비전 Representation을 최적화하는 방법을 소개합니다. —> [논문 보기]

  • Auxiliary-Loss-Free Load Balancing: MoE 아키텍처에서 보조 손실 (Auxiliary Loss) 없이 Expert에 주어지는 부하를 분산, 성능을 향상하고 Routing Collapse를 방지하는 전략을 제시합니다. —> [논문 보기]

글에 대한 리뷰를 남겨주세요!

Login or Subscribe to participate in polls.

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.