🌁FOD#79: Sora, 그리고 월드모델 - 우리 손에 들어온(?) 마법의 지팡이

크리스마스가 2주 앞으로 다가온 연말이지만, AI 업계는 변화의 속도를 늦출 기미가 전혀 안 보이네요. ^.^; 금주에는 오픈AI의 Sora, 구글 딥마인드의 Genie 2, 페이페이 리 (Fei-Fei Li)의 월드랩스 (World Labs) 이야기를 하지 않을 수 없겠습니다. 비디오도 많으니 한 번 편안히 함께 읽어 보시죠!

누가 뭐래도 금주의 헤드라인 - Sora, Genie 2, 월드 랩스

현지 시간으로 12월 9일, 오픈AI의 동영상 생성모델 Sora가 공개되었습니다. 생각만큼 Sora를 사용하는 과정이 편하지는 않았는데요:

오픈AI 팀의 소통 과정 이슈
예를 들어서, 오픈AI는 Sora가 ChatGPT Plus/Pro에 포함된다고 발표했지만, 정확히는 그런 모습은 아니었구요. 그에 대한 설명도 충분히 빠르고 상세하지는 않았습니다. 결국은 추가 구독을 하게 됐습니다.
"12 days of Shipmas" 홍보로 인한 엄청난 관심과 수요 창출
“12일간 매일 아침 새로운 제품에 대한 발표, 데모를 하겠다” - 그 자체로 멋지기도 한 이 캐치프레이즈 광고는 엄청난 관심을 끌었죠. 샘 알트만도 "생각보다 수요가 많아서 가입을 종종 비활성화해야 할 것 같고, 생성 속도도 한동안 느려질 거다”라고 말했습니다.

유럽이나 영국에 있다면 - Sora에 접근하는 것조차 힘듭니다. 우리로서는 다행(?)이라고 해야 하나요?

어쨌든, 사용해 보실 수 있다면 Sora는, 꽤 멋지다고 생각합니다. 사실은 굉장히 놀랍죠. 오픈AI가 다시 한 번 직관적인 사용자 경험을 제공해서 이 복잡한 기술을 모든 초보자들이 사용할 수 있게 하지 않았나 해요. ‘해리 포터’ 컨텍스트로 이야기한다면, 머글 (Muggle; 해리 포터 세계관에서 마법사가 아닌 사람)에게 마법의 지팡이를 쥐어준 것 같다고 할까요?

그러고보니, 2001 스페이스 오딧세이의 아서 C. 클라크가 “고도로 발달한 과학은 마법과 구별할 수 없다“고 했었던 것도 생각나네요.

Sora, 조금 써 보니까요

일단, 아무리 이렇게 저렇게 해 봐도, Sora는 실제 인물의 사실적인 모습을 생성하는 것은 허용하지 않습니다. 역사적 인물도 마찬가지구요 - 위 영상에서 저희가 만들어 보려고 했던 건, 당연히 앨런 튜링 (Alan Turing)인데요, 비슷한가요?

경쟁 모델들이 곧 이걸 할 수 있도록 하지 않을까 예상해 보면, 단점이라고 할 만한 부분이기는 한데….지금 오픈AI가 겪고 있는 저작권 관련 법적 분쟁을 감안하면 이해할 만합니다.

오픈AI의 발표에서 언급된 것처럼, Sora가 장편 영화를 만들어줄 거라고 기대한다면, 그건 불가능합니다. 그렇지만, 그 동안 얼마나 빠르게 발전했는지 생각해 보니…불과 2년 전만 해도 텍스트로 이미지 생성하는 것 자체가 어설픈 수준이었죠? 저도 이제 제 강의나 발표 자료에서, ‘여섯 손가락’이 나오는 이미지 생성 모델 이야기는 더 이상 못할 것 같네요. 이제 직관적으로 스토리보드를 만들어서 전체 비디오 클립을 만들 수 있고, 텍스틀틀 영상으로 바꾸고, 이미지 통합하고, 꽤 세련되게 다듬을 수 있게 됐습니다.

발전된 상황이나 결과물 자체가 깨나 인상적인 건 사실입니다만, 유명한 테크 유튜버 마르케스 브라운리가 올린 감상처럼, Sora에서 물리 법칙이 완벽하게 구현된 걸로 보기에는 아직 갈 길은 먼가 싶기도 해요. 마르케스 브라운리가 지적한 부분은 몇 가지인데요:

먼저 ‘대상의 영속성 (Object Permanence)’입니다. 예를 들어, 영상 전체에 걸쳐서 한 사람의 손에 들려 있는 특정 물체를 표현한다든가 할 때, 물체가 움직이거나 갑자기 사라져버리기도 합니다.
이건 Sora의 가장 큰 문제 - Sora만의 문제라기보다는 사실 아주 어려운 문제죠 - 인 ‘전반적인 물리 법칙의 문제’와 연결됩니다. 사실적인 (장편) 영상 제작이 쉽지 않을 수 있는 이유가 바로, 단순히 걷는 사람조차 부자연스럽게 속도가 느려지거나 빨라지기도 하고, 신체 부위나 물건들이 갑자기 전혀 다른 걸로 변화하기도 하거든요.
텍스트의 표현은 많이 개선된 걸로 보이지만, 아주 구체적으로 지정하지 않는다면 여전히 Sora는 건물, 도로 표지판에서 볼 수 있는 배경 텍스트의 철자를 알아보기 힘들게 만들어 버립니다.

Sora, 우리가 기다렸던 마법의 지팡이가 맞기는 한 것 같습니다. 그렇지만 아직은 마법의 지팡이도 가다듬어야 하고, 우리가 이 지팡이를 어떻게 쓸 수 있는지도 - 당연하게도 - 많은 고민이 이어져야 할 것 같습니다.

물리 법칙, 공간 지능

조금 더 들어가서 이야기를 해 보자면, 시각 데이터와 물리 법칙의 Intersection의 발전은 ‘공간 지능 (Spatial Intelligence)’이라는 개념하고 밀접하게 연관이 되어 있는데요. 우리 사람은, 이 공간 지능을 인식하지 못한 채 일상적으로 사용하고 있죠. 예를 들어, 지도를 보면서 길을 찾는다거나, 여행 가방을 싼다거나, 주차를 한다거나, 복잡한 요리 레시피 단계를 이미지로 떠올리면서 계획할 때 라든가…수없이 많습니다. 이 공간 지능은 ‘월드 모델 (World Models)’이라는 개념과 연결되는데, 이건 지금 일본 사카나AI (Sakana AI)의 데이빗 하 (David Ha)와 위르겐 슈미트후버 (Jürgen Schmidhuber; LSTM 고안하신 분이죠)가 2018년 논문 ‘World Models’에서 처음 소개한 용어입니다. 그 이후에 이 개념에 대한 논의, 그리고 구체적인 기술 측면에서 상당한 진전이 있었습니다.

지난 주 발표된 두 개의 ‘월드 모델’

구글 딥마인드에서 Genie 2를 소개했습니다. Genie 2는 단일 이미지나 텍스트 프롬프트만 사용해서 다양한, 행동 제어가 가능한 3D 환경을 생성할 수 있는 대규모의 ‘파운데이션 월드 모델 (Foundation World Model)’입니다. 방대한 비디오 데이터셋을 사용해서 훈련시킨 Genie 2는 객체 상호작용, 캐릭터 애니메이션, 중력과 조명 같은 물리적 효과를 포함한 다양한 시나리오를 시뮬레이션할 수 있습니다. 사용자는 키보드라든가 마우스 같은 표준 입력 장치를 사용해서 이렇게 생성된 세계와 실시간으로 상호작용할 수 있구요.

이것도 Sora 못지않게 중요한, AI를 위한 적응형 학습 환경을 만들어주는 의미있는 진전입니다. 이런 기술을 통해서 사용자에게 주고자 하는 경험을 빠르게 프로토타이핑할 수 있고, 실제 환경에서 작동할 AI 에이전트를 훈련, 평가하기 위한 다양한 환경을 제공할 수도 있습니다.

비슷한 맥락에서, AI의 선구자 중 하나인 페이페이 리가 공동 설립한 월드 랩스 (World Labs)는 단일 이미지에서 대화형 3D 장면을 생성하는 AI 시스템을 공개했습니다. 사용자는 웹 브라우저에서 직접 AI가 생성한 장면을 확인하고 탐험해 볼 수 있고, 해당 환경 안에서 이동한다거나 다양한 요소들과 상호작용할 수 있습니다. 다양한 예술적인 스타일과 장면을 적용해 볼 수도 있고, 실제의 물리적 특성을 가상 공간으로 가져올 수도 있습니다.

월드 랩스의 접근 방식은, 3D 세계를 인식하고, 생성하고, 상호작용할 수 있는 ‘대규모 월드 모델’을 만드는 데 초점을 맞추고 있는데요. 이 기술을 활용해서 가상 공간을 누구나 쉽게, 더 빠르게 만들 수 있게 하고자 한다고 합니다.

‘공간 지능’이 열어줄 가능성

Sora가 가장 큰 주목을 받고 있지만, Genie 2, 월드 랩스의 시스템도 모두, 혁명적인 수준의 기술이라는 점에는 개인적으로 이견이 없습니다. 이 시스템들은 기본적으로 월드 모델의 기본 원칙을 가져와서 아직 우리에게 미답의 영역으로 확장시키고 있고, 더 풍부하고 상호작용할 수 있는 3D 환경으로 변화시키고 있습니다.

2021년까지 ‘특정한 작업에 국한된 어플리케이션’ 영역에 머물렀던 AI, 그 이후 챗GPT를 위시로 한 거대 언어모델 기반의 시스템이 ‘범용 대화형 시스템’으로의 가능성을 보여주고 열어가고 있는 상황에서, 다시 한 번 ‘다목적의 몰입형 (Immersive) 시스템’을 향한 이런 도약은, 바로 ‘월드 모델’의 혁신적인 파워를 보여주는 것이 아닌가 합니다. ‘공간 지능’은 AI의 잠재력에 대한 우리의 이해에 근본적인 변화를 가져오고 있습니다. ‘평면적’ 세상의 패러다임에서 벗어나서, 우리가, 우리의 마음이 원래 생각하고, 탐험하고, 상호작용하게 설계된 3차원적인 방식을 받아들이게 해 주니까요.

앞으로 AI와 함께 할, 어떤 세상이 펼쳐질지. 기대됩니다.

트위터 라이브러리 (Twitter Library) 🐦

튜링 포스트 코리아에서 2024년 8월에 ‘12가지 RAG 유형’이라는 이름으로 ‘Twitter Library’ 포스팅을 한 적이 있는데요. 4개월 남짓한 그 사이에 (!) 새롭고 향상된 많은 RAG 기법들이 또 등장했습니다…

최신의 RAG 기법 16가지를 소개합니다:

새로운 RAG 기법 16選

turingpost.co.kr/p/rag-16

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

뉴스레터 구독

튜링 포스트 팀이 읽고 있는 것들 📝

금주 저희는 ‘인텔’ 관련 소식에 관심을 두고 있었습니다: 정말 인텔은 역사의 뒤안길로 이렇게 사라지는 걸까요?

인텔의 오랜 적이자 동지, Arm의 CEO인 Rene Haas는 인텔이 맞닥뜨린 ‘수직 통합’ vs. ‘팹리스’ 모델 사이의 고민에 대해서 이야기하고 있습니다. 인텔이 Arm 기술을 라이센싱하도록 하려고 했던 일화라든가, Arm이 인텔의 일부 사업을 인수하는데 관심이 있는 것 아니냐 하는 소문들과 함께, Rene Haas는 그래도 ‘수직 통합’ 선택지가 전략적인 이점이 있다고 생각한다고 이야기합니다.
한편, Ben Thompson은 인텔의 쇠퇴가 ‘모바일 환경, 그리고 효율성을 중심으로 하는 컴퓨팅 패러다임에 적응하지 못한 것에 기인’하고, 결국 Arm과 TSMC가 시장을 지배하게 되었다는 논지의 주장을 펼칩니다. Pat Gelsinger의 파운드리 계획이 이런 문제들을 해결하려는 시도이기는 했지만, AI와 수익성에서의 손실을 뒤집기에는 너무 늦었다고 보는 것 같구요. Ben Thompson은 인텔의 부활이 결국은 정부가 지원하는 AI 이니셔티브에 달려 있다고 합니다 - 미국의 기술 주권을 위한 미국 내의 핵심적인 파운드리로서 위치를 잡는 수 밖에 없다는 거죠.
Semianalysis는 인텔 쇠퇴의 원인이 ‘수십 년간의 리더십 실패, 이사회의 잘못된 결정, 문화적·기술적 리더십의 상실’ 때문이라고 이야기합니다. CEO Pat Gelsinger를 해고하고, 혁신보다 재무 공학적 결정을 우선시한 것이 상황을 악화시켰다고 보네요. 이렇게 인텔의 첨단 공정 개발이 지연되는 와중에 TSMC와 AMD 같은 경쟁사들이 시장을 지배하게 된 것이죠. ‘Intel Foundry Services’가 인텔이 시장의 유의미한 플레이어로서 자리를 유지하기 위한 마지막 기회 아니냐는 생각을 하는 듯한데, 여기에는 ‘미국 반도체 주권’ 확보를 기치로 한 대규모의 투자, 정부 지원이 필요할 겁니다. 이 기사는 비핵심 사업을 매각하고 인텔의 생명줄로서 파운드리 재활성화에 집중할 것을 주장하고 있습니다.

금주의 주목할 만한 업계 동향 📰

구글, 일론 머스크와 샘 알트만 모두로부터 '감탄’을 이끌어내다

구글이 12월 9일, 최신의 양자 (Quantum) 칩인 Willow를 발표하면서, 일론 머스크, 샘 알트만, 그렉 브록먼 등 다양한 업계 리더로부터 찬사를 받고 있습니다. 다양한 벤치마크에서 최고 수준의 성능을 보여주는 Willow는 특히 두 가지 영역에서 중요한 성과를 보여주는데요:

- 큐비트 수를 늘려가면서 스케일링을 할 때 양자 오류를 기하급수적으로 줄여줍니다 - 수십년 간 양자 컴퓨팅의 가장 중요한 문제 중의 하나였던 양자 오류 문제를 해결할 수 있는 하나의 단초라고 하겠습니다.

- 현재 가장 빠른 슈퍼컴퓨터로, 10²⁵년이 걸리는 표준 벤치마크 계산을 5분 이내에 수행합니다. 이건 우주의 나이보다 긴 시간이라고 하네요.

— # (#)

허깅페이스, 2024년 허깅페이스와 오픈소스 AI의 한 해를 그래픽으로 정리

허깅페이스가 aiworld.eu와 협업, 2024년 오픈소스 AI와 허깅페이스의 발전 현황을 데이터와 그래픽으로 정리하고 있습니다. 오픈AI가 하듯이 매일 하나의 통계와 데이터를 발표하고 있네요. 오픈소스 AI에 관심이 있으시면 한 번 참고삼아 보시면 괜찮을 듯 합니다.

— # (#)

마이크로소프트, 계속해서 ‘빅 픽처 (Big Picture)’에 집중

마이크로소프트의 새로운 Copilot Vision은 Pro 사용자를 위해서 Edge 브라우저에 실시간으로 인사이트를 제공합니다. 기업의 의사결정자들을 대상으로 해서, 버튼 한 번말 클릭하면 데이터를 시각적 자료로 변환해서 상호작용하고 검토할 수 있게 만들어 줍니다. 역시 전통의 마이크로소프트, AI를 우리의 일상적인 업무 흐름에 통합하는 관점에서는 가장 적극적이고 앞서나가는 것 같습니다.

오픈AI, ChatGPT Pro와 강화 파인튜닝 연구 프로그램으로 업그레이드

오픈AI, 월 200달러로 ‘o1’을 포함한 모든 모델을 무제한으로 쓸 수 있는 ChatGPT Pro를 소개했습니다. 그리고 RFT 프로그램을 확장, 개발자나 머신러닝 엔지니어가 복잡한 특정 도메인 특화 작업을 잘 수행할 수 있도록 파인튜닝을 해서 일종의 ‘전문가 모델’을 만들 수 있도록 해 줍니다. 이건 내년 초 발표된 내용의 Preview로, 지금은 신청서를 받고 있습니다.

AWS, AI를 다시 한 번 혁신한다

AWS가 re:Invent 2024에서 최첨단의 AI 업데이트를 시연하면서 큰 성과를 보여준다고 하네요. 주요 내용으로는 Bedrock의 다중 에이전트 오케스트레이션, Nova AI 모델 패밀리, 그리고 큰 비용 절감을 가능하게 해 주는 프롬프트 캐싱 등이 있습니다. Moody's와 같은 기업들은 이미 AWS와 함께 협업, AI 기반 워크플로우의 혜택을 누리고 있다고 합니다.

새로 나온, 주목할 만한 연구 논문

금주의 Top Pick!

얼마 전 오픈AI의 o1이 공개되었죠. 그 System Card에 대한 Simon Willison의 X 포스트입니다.

— # (#)

카이푸 리의 스타트업인 01.ai에서 얼마 전에 발표한 새로운 플래그십 모델 ⚡️Yi-Lightning이 세계 6위에 오르면서 5개월 전 출시된 GPT-4o보다도 더 높은 순위를 기록했습니다. Yi-Lightning은 아주 빠르고 저렴한 (백만 토큰당 0.14달러) 아주 작은 MoE 모델입니다. 이 모델의 테크니컬 리포트를 한 번 보시죠.

Image Credit: 카이푸 리 링크드인

북경 교통대학의 연구자들이 오픈AI의 o1 모델을 모사하면서 특별히 코딩 작업에 우수한 성능을 보이는 O1-CODER 모델을 발표했습니다.

중국과 독일의 연구진들이 (좁은 공간에서의) 쥐의 행동과 생태를 학습, 모방할 수 있는 로봇, SCuRo를 만들어 실험을 한 결과, 성공적으로 쥐 사회에 섞여들면서 사회적 상호작용을 한다는 점을 확인했다고 합니다. 휴머노이드 로봇이 앞으로 주류 로봇의 한 형태가 될 것으로 예상되는데, 기능적 측면 외에 사회적으로 사람과 로봇이 어떻게 섞여서 상호작용을 할 수 있을지에 대한 하나의 시사점이 될 것 같습니다.

Image Credit: TechExplore

‘스케일링 법칙’에 대해서는 튜링 포스트 코리아에서도 몇 차례 다뤘는데요. 단순하게 모델의 대형화를 추구하는 것보다 ‘사이즈 vs. 성능’ 의 균형점 - Capacity Density - 을 중심으로 모델의 효율성을 측정하고 개선시키려는 전환이 필요하다는 논문이 나왔습니다. 재미있네요.

— # (#)

새로운 모델들

Llama 3.3 (by 메타 AI) 나왔습니다. —> [더 보기]

— # (#)

Efficient Track Anything and Segment Anything Model 2 (SAM 2) also from Meta AI는 자원이 제한된 기기에서도 높은 정확도와 효율성으로 실시간 비디오 객체 추적을 할 수 있는 EfficientTAM을 개발했습니다. —> [논문 보기]
Amazon Nova Foundation Models는 확장성, 안전성, 다국어 지원, 비용 효율성에 중점을 둔, 이해력과 창의적 작업에 장점을 보이는 모델군입니다. —> [더 보기]
PaliGemma 2 from Google DeepMind는 OCR, 분자 구조 인식, 악보 변환과 같은 작업에 최적화된 비전-언어 모델을 사용해서 전이 학습을 한 단계 발전시킵니다. —> [논문 보기]
NVILA by Nvidia는 의료 영상이나 로봇 내비게이션과 같은 작업에서 높은 정확도를 유지하면서도 학습 및 추론 비용을 줄여줍니다. —> [논문 보기]

시각-언어 모델 개선

Discriminative Fine-tuning of LVLMs는 Contrastive 및 Autoregressive Loss를 통한 파인튜닝으로 LVLM을 개선, 이미지-텍스트 구별 능력과 효율성을 향상시킵니다. —> [논문 보기]
Florence-VL은 Depth-Breadth Fusion이 결합된 생성형 비전 인코더를 사용해서 멀티모달 이해력을 향상시켜, OCR 및 시각적 작업 등에서 뛰어난 성능을 보여줍니다. —> [논문 보기]
VLsI는 효율성과 작업 성능을 높이기 위해서, 언어화된 중간 계층을 활용, 더 작은 비전-언어 모델을 최적화합니다. —> [논문 보기]

LLM과 물리 시뮬레이션을 위한 데이터셋

FineWeb2는 허깅페이스의 Initiative로, 다양한 사전 학습 요구사항에 대응하기 위한 고품질의 15조 토큰 데이터셋인 FineWeb2로 AI 연구를 대중화합니다. —> [더 보기]
The Well은 여러 분야에 걸친 다양한 고해상도의 수치 시뮬레이션으로, 물리학 기반의 머신러닝을 지원합니다. —> [논문 보기]

모델 최적화 및 파인튜닝

Weighted-Reward Preference Optimization은 정렬된 어휘 사전이 없이도 서로 다른 LLM들의 기능을 효율적으로 통합하게 해 줍니다. —> [논문 보기]
TinyFusion은 Adaptive Pruning과 Knowledge Distillation 등의 방법으로 디퓨전 트랜스포머의 크기, 비용을 줄입니다. —> [논문 보기]
Aim은 중복되는 토큰을 Pruning하고 병합해서 멀팀달 추론을 최적화합니다. —> [논문 보기]

특정 작업 관련 혁신 및 스케일링

Establishing Task Scaling Laws는 계산량이 줄어든 ‘Ladder Model’을 사용, 작업별 LLM 성능을 효율적으로 예측합니다. —> [논문 보기]
Exploring Proportional Analogies는 정확도를 높이기 위해 더 명확한 목표 하에 지식 요소를 강화한 프롬프트를 사용, 유추 (Analogies) 작업에 대한 LLM의 추론 능력을 평가합니다. —> [논문 보기]

멀티 에이전트 및 협력적 훈련

MALT는 작업 결과를 개선하기 위해서 멀티 에이전트 설정에서 협업 역할을 할당, LLM의 추론 성과를 개선합니다. —> [논문 보기]
Free Process Rewards Without Process Labels는 중간 단계 주석 대신 결과 레이블을 사용해서 프로세스 보상 모델을 효율적으로 학습하게 합니다. —> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

프리미엄 구독자 되기

🌁FOD#79: Sora, 그리고 월드모델 - 우리 손에 들어온(?) 마법의 지팡이

누가 뭐래도 금주의 헤드라인 - Sora, Genie 2, 월드 랩스

Sora, 조금 써 보니까요

물리 법칙, 공간 지능

지난 주 발표된 두 개의 ‘월드 모델’

‘공간 지능’이 열어줄 가능성

트위터 라이브러리 (Twitter Library) 🐦

튜링 포스트 팀이 읽고 있는 것들 📝

금주의 주목할 만한 업계 동향 📰

구글, 일론 머스크와 샘 알트만 모두로부터 '감탄’을 이끌어내다

허깅페이스, 2024년 허깅페이스와 오픈소스 AI의 한 해를 그래픽으로 정리

마이크로소프트, 계속해서 ‘빅 픽처 (Big Picture)’에 집중

오픈AI, ChatGPT Pro와 강화 파인튜닝 연구 프로그램으로 업그레이드

AWS, AI를 다시 한 번 혁신한다

새로 나온, 주목할 만한 연구 논문

금주의 Top Pick!

새로운 모델들

시각-언어 모델 개선

LLM과 물리 시뮬레이션을 위한 데이터셋

모델 최적화 및 파인튜닝

특정 작업 관련 혁신 및 스케일링

멀티 에이전트 및 협력적 훈련

Reply

Keep Reading

Turing Post Korea

Home

Account