• Turing Post Korea
  • Posts
  • FOD#62: 미래를 열어갈 '딥마인드'의 새로운 기술, 탁구 로봇으로 데뷔!

FOD#62: 미래를 열어갈 '딥마인드'의 새로운 기술, 탁구 로봇으로 데뷔!

+ 안드레 카파시의 강화학습에 대한 코멘트와 금주의 주요 소식, 업계 동향과 연구

금주의 튜링포스트 코리아 예고:

  • AI 101: 오랜 친구의 귀환! 트랜스포머에 밀려 한참 집떠나 있다가, LSTM의 한계를 극복하고 차세대 언어모델로 복귀를 노리는 (^.^) xLSTM을 알아봅니다.

  • 외부 전문가 기고: 세계적으로 가장 유명한 오픈소스 벡터 DB인 Milvus의 개발자, 스티븐 바티폴이 Ollama, Llama3, Milvus를 사용해서 함수 호출 (Function Calling)하는 방법을 설명해 드립니다.

기대해 주세요!

딥마인드 (DeepMind).

그리고 딥마인드의 CEO 데미스 하서비스 (Demis Hassabis). 이 사람이 뭔가 하고 있다면, 그게 뭐든간에 잘 살펴볼 필요가 있죠.

지난 주, 딥마인드가 사람으로 치면 ‘아마추어’ 선수 수준으로 탁구 경기를 하는 로봇을 공개해서 많은 사람들을 놀래켰습니다.

보시다시피, 3D 프린팅된 로봇팔로 경기를 하는데, 총 29게임에서 13게임을 승리했고, 초보자 대상으로는 전승, 아마추어 수준의 상대와는 절반 정도 이겼다고 합니다. 영역으로 봤을 때 많은 회사가 관심을 가지고 연구하는 영역이지만, ‘실제 시합’에서 인간 수준의 탁구 기술을 보여준 건 처음이라고 합니다.

딥마인드 이야기하기 전에, 그런데 갑자기 이걸 보다가 몇 년 전인가 어떤 마케팅 캠페인에서 ‘로봇 골키퍼’라고 골대 앞에 세워놓고 축구 선수들이 골 넣으려고 안간힘 쓰는 걸 본 기억이 나서 살짝 웃었습니다 ^.^;

자, 다시 돌아와서, 딥마인드의 이 로봇이 몇 명을 꺾었느냐가 중요한 건 아닌 것 같고, 진짜 궁금했던 건 ‘이번에는 딥마인드가 어떤 새로운 기술을 개발해서 이걸 가능하게 한 거냐’라는 거겠죠 - 아마 이 방향의 기술이, 딥마인드를 바라보고 있는 많은 회사들이 곧 따라서, 또 같이 개발하게 될 테니까요

새로운 접근: 계층적 (Hierarchical), 모듈식 (Modular) 정책 아키텍처의 결합

이번의 성공적인 쇼케이스에서 보여준 기술의 핵심은, 계층적 정책 (Hierarchical Policy)과 모듈식 정책 (Modular Policy)을 결합한 정교한 아키텍처라고 할 수 있습니다. 이 시스템은, 저수준 컨트롤러 (LLC: Low-Level Controllers)와 고수준 컨트롤러 (High-Level Controllers)를 기반으로 구축한 것인데, 각각의 저수준 컨트롤러가 특정한 탁구 기술 - 예를 들면, 포핸드 탑스핀이라든가 백핸드 드라이브라든가 하는 것들이요 - 을 위해 사용되는 특화된 정책 역할을 하는데, 50Hz의 빠른 주기로 실행합니다. 그리고, 이 위에서 고수준 컨트롤러가 날아오는 공의 유형, 전략적인 목표, 실시간 경기 데이터 등을 포함해서 현재 경기 상황에 따라 적절한 저수준 컨트롤러를 선택하는, 일종의 ‘마스터 마인드’ 역할을 합니다. 이렇게 계층화된 구조를 채용해서 로봇이 마치 사람과 같은 적응력과 정확성으로 대응을 할 수 있게 하는 거죠. 아마 이 접근 방식은 탁구, 또는 심지어 스포츠를 넘어서 그 적용 대상과 범위가 아주 넓을 것 같습니다.

Image Credit: 오리지널 논문

이게 바로 ‘게임 체인저’: ‘Zero-Shot Sim-to-Real Transfer’

이번에 선보인 딥마인드의 로봇은 이론적으로만 대단한 게 아니라, 힘들게 파인튜닝을 하지 않아도(!) 실세계에서 잘 작동할 수 있도록 설계된 것으로 로봇 공학 분야의 대단한 발전이라고 볼 수 있습니다.

이걸 가능하게 한 게 바로 ‘Zero-Shot Sim-to-Real Transfer’라는 기법인데, 이 기법은 ‘실제 데이터를 사용해서 훈련 태스크를 어떤 분포로 수행할지 설정하고, 시뮬레이션과 실제 배포해서 테스트하는 과정을 계속 돌려가면서 훈련 태스크의 분포를 재조정’해 가는 방법입니다. 특히 여기서 혁신적인 건, (조금 어려운 이야기네요 ^.^;) Sim-to-Sim 어댑터 계층, 구체적으로는 FiLM (Feature-wise Linear Modulation) 계층을 사용한 부분인데요. 이 계층을 이용해서 다양한 유형의 탁구공 스핀을 처리한다거나 하는 작업을 할 수 있게 해 줍니다. 이 접근 방식은 ‘탐색’이라는 강화 학습의 강점, 모방 학습의 실용적인 ‘연관성’을 잘 결합해서, 추가적인 트레이닝 없이도 시뮬레이션에서 실제 환경으로 모델의 능력이 잘 전이되도록 해 줍니다 - 시뮬레이션과 실제 환경 간의 격차를 좁혀 주어서, 로봇이 훈련 중에 ‘스핀 보정’ 같은 복잡한 문제를 다이나믹하게 조정할 수 있게 해 주는 것이죠.

실시간 적응 (Real-Time Adaptation): 즉석에서 학습하기

이번에 보여준 딥마인드 로봇의 차별점은, 사람의 ‘직관’과 ‘경험’을 따라하는 (Mirroring) 실시간의 적응 능력이라고 볼 수 있습니다. 각각의 저수준 컨트롤러 (LCC)별로 세부적인 지표 - 샷의 반환율, 공의 속도, 공의 착지 위치 등 - 를 계속 업데이트하면서 시스템에 피드백을 전달합니다. 이 데이터를 활용해서, 고수준 컨트롤러 (HLC)는 즉각적으로 전략을 평가, 조정해 가면서 로봇이 ‘낯선 상대’를 맞아서도 게임에서 경쟁할 수 있도록 합니다.

기술적 우수성이 다가 아니다, ‘재미’도 놓치지 않는다

딥마인드의 연구자들은, 인간적인 측면에서도 사람들이 하기에 재미있는 게임을 만들기 위해 노력한 것으로 보입니다. 로봇이 단순히 모든 게임을 지배하다시피 하는 것이 아니라, 함께 플레이하는 상대편 사람에게 도전적이면서도 즐거운 경험을 줄 수 있도록 ‘샘플링’이라든가 ‘실수로부터 배우기’ 같은 요소를 포함시켰습니다…대단하네요.

탁구와 로봇, 그 너머

이번에 선보인 탁구 로봇은 그 자체로도 대단한 성과지만, 엄청난 잠재성과 시사점을 담고 있습니다. 계층적 정책 아키텍처 (Hierarchical Policy Architecture), 실시간 적응 (Real-Time Adaptation) 등의 기법은 로봇 공학에서만이 아니라 자율 주행에서도 중요한 요소로, 시뮬레이션과 현실 사이의 간극을 메워줍니다. 그렇지만, 논문의 저자들이 이야기한 것처럼, 여러 가지 작업에서 일관되게 사람 수준의 성능을 달성하고, 능숙하면서도 안전하게 사람과 상호 작용하는 로봇 (및 자동차 등)을 만들려면, 아직 갈 길은 멀다고 합니다.

AGI/슈퍼인텔리전스와 관련된 뉴스 Pick ⛏️

  • 강화 학습(Reinforcement Learning)의 부활?

    • 위에 말씀드린, 탁구치는 로봇을 훈련하는데 사용했던 강화학습! 최근 RLHF1 에 대해서 안드레 카파시2는 “RLHF는 진짜 강화 학습이라고 보기 어렵다. 강화 학습은 진짜 강력하지만, RLHF는 그런 게 아니다”라고 말했습니다. 그러면서, 딥마인드의 초기 성과 중 하나인 ‘알파고’를 진짜 강화 학습을 사용해서 성공한 예로 언급했습니다. RLHF는 사람의 선호도를 직접적으로 대리해서 근사화할 뿐이기 때문에, 모델의 훈련 과정을 잘못 이끌거나 적대적 공격에 노출될 수도 있고, 직접적으로 ‘승리’라는 목적 자체에 최적화하는 강화 학습과는 다르다는 거죠.

    • 여러분은, 챗GPT의 성능 개선에 큰 역할을 한 RLHF에 대해 어떻게 생각하세요? 궁극적인 ‘인간 수준의 AI’를 만드는데 기여할 수 있는 기법일까요?

  • 기계 심리학 (Machine Psychology)

    • 슈투트가르트 대학교, 구글 딥마인드, 헬름홀츠 연구소 (Helmholtz Institute), 뮌헨 공과대학교의 연구자들이 함께 "기계 심리학 (Machine Psychology)"이라는 새로운 분야를 개척하고 있습니다. 이 연구는 ‘인간 심리학’에서 영감을 얻은 행동 실험을 적용해서, 거대언어모델 (LLM)의 심층 작동 방식을 밝혀내는 것을 그 목표로 하고, 단순한 성능 지표를 넘어서 창발적 능력 (Emergent Abilities), 추론 패턴, AI 모델의 행동 등에 대한 인사이트를 제공합니다.

    • 위 링크의 백서는 강력한 실증 연구를 위한 이론적 프레임웍, 실험의 패러다임, 베스트 프랙티스 등을 제공하면서 AI를 이해하는 새로운 관점을 열어줍니다.

  • LLM으로 사회과학 실험 결과 예측하기

    • 스탠포드 대학교와 뉴욕 대학교의 연구진은, 미국을 대표하는 70개의 사전 등록된 설문조사 실험의 결과를 GPT-4가 얼마나 잘 예측하는지에 대한 테스트를 진행했습니다. 그 결과는 어땠을까요? 실제 실험 결과와 꽤 인상적인 상관 관계 (r = 0.85)를 나타냈고, 심지어는 사람이 예측한 값을 능가하거나 미발표 연구에 대해서도 높은 정확도 (r = 0.9)를 보여주기도 했습니다. 이렇게 사회과학 연구를 개선하는데 있어서 LLM이 잠재력이 있다는 것을 보여주는 동시에, 물론 편견이 작동하거나 오용될 가능성도 연구진들은 지적하고 있구요.

    • 잭 클라크 (Jack Clark)는 이 연구에 대해서 “AI 시스템은 창조적인 거울과 같은 것으로, 인간이 가진 무의식의 기계적 영혼이며, 가치의 시뮬라크르입니다…우리가 다루는 AI는 계산기가 아닙니다. 단순한 도구가 아니예요. 이건 훈련받은 문화를 스스로 내재화하고 이걸 다시 우리에게 내비쳐 줄 수 있는, 거대한 고차원적 인공물입니다…’실재’ 자체가 생물학적인 존재 - 인간 - 와 실리콘 창조물 - AI - 모두가 함께 기록하는, 공동 작업의 결과물입니다.”라는 아주 멋지지만 어려운 (^.^;) 말을 남기고 있습니다.

트위터 라이브러리 (Twitter Library) 🐦

Sakana AI라는 스타트업을 아시나요? ‘Attention is All You Need’ 논문의 8명 저자 중 구글을 마지막으로 그만둔 Llion Jones, 그리고 구글 브레인, 스태빌리티 AI에서 일한 David Ha가 일본 도쿄에서 작년 말에 공동 창업한 스타트업으로, 파운데이션 모델과 관련된 연구를 하고 있습니다. 올 초 Lux Capital과 Khosla Ventures 등 대형 VC와 일본 대기업 등으로부터 30M USD 규모의 시드 펀딩을 받았구요. 이 회사에서 자주 재미있는 연구를 발표하곤 하는데, 오늘 ‘AI Scientist’라는 놀라운 논문을 발표 (옥스포드 및 UBC 연구진과 함께)해서 미국, 영국, 캐나다의 많은 연구자들에게 관심을 받고 있어요. 아주 간단히 이야기하면, Scientific Research 작업을 End-to-End로 자율적으로 수행하는 인공지능 모델입니다. 앞으로 찬찬히 좀 들여다볼 생각인데요. 놀랍게도, Apache 2.0 License로 소스코드까지 몽땅 다 깃헙에 공개했습니다! (메타의 Llama 3.1이나, 며칠 전 LG 엑사원과는 공개의 범위나 방식이 다릅니다). 앞으로 몇 주간 많은 연구자들이 AI Scientist들을 가지고 다양한 테스트와 검증을 해 볼 것으로 예상됩니다.

LLM 어플리케이션을 만드는 중요한 방법 중 하나로 많이 도입되는 RAG (Retrieval-Augmented Generation), 다른 어떤 생성형 AI 영역보다도 빠르게 변화하고 있지 않나 싶은데요. 지난 8월 12일 올린, ‘12가지 유형의 RAG’을 정리한 글에 많이들 관심을 가져주고 계시네요. RAG에 관심있으시면 한 번 읽어보세요.

금주의 주목할 만한 업계 동향 📰

오픈 AI : 계속해서 출시되는 새로운 기능, 그런데 조직은 흔들 흔들?

  • 오픈 AI의 최신 API 기능으로 발표된 ‘Structured Outputs’는 AI 모델이 개발자가 정의한 JSON 스키마에 깔끔하게 맞는 출력을 생성해서 복잡한 워크플로우를 더 안정적으로 처리할 수 있도록 해 줍니다.

  • 한편, GPT-4o 시스템 카드를 보면 AI 기반의 음성 모드가 사용자 목소리를 흉내낸다거나 불안한 소리를 내는 등 좀 이상한 동작을 보여주는 걸 알 수 있는데요. AI의 혁신이란 건 항상 어렵게 어렵게 진행되는 건가 봅니다.

  • 챗GPT 개발에 큰 역할을 한 공동창업자 존 슐만 (John Schulman)은 앤쓰로픽으로, 그리고 피터 덩 (Peter Deng)은 회사를 그만뒀고, 그렉 브록만 (Greg Brockman)은 연말까지 장기 휴가를 간다고 합니다. CMU의 지코 콜터 (Zico Kolter) 교수는 오픈AI 이사회에 합류, AI 안전 문제에 기여할 거라고 합니다.

미스트랄 AI: ‘AI Master’로 향하는 도로를 깔다

  • 미스트랄 AI는 맞춤화할 수 있는 플래그십 모델, 그리고 복잡한 워크플로우를 지원하는 ‘Agents’의 알파 릴리즈를 통해서 생성형 AI 개발을 간소하게, 손쉽게 할 수 있도록 합니다.

  • 이 회사의 SDK인 mistralai 1.0은 이제 Python과 Typescript에서 사용할 수 있는데요, 개발자의 사용성을 높여서 도메인별 AI 어플리케이션을 더 쉽게 만들 수 있도록 해 줍니다. 이건 개발자 친화적으로 패키지화된 AI 툴킷입니다.

그록 (Groq): 6억 4천만 달러를 손에 쥐다

  • 그록은 최근 블랙록 (BlackRock)이 주도한 라운드에서 6억 4천만 달러를 유치, 기업 가치를 28억 달러로 끌어올렸습니다! 초고속의, 에너지 효율이 높은 LPU (Language Processing Unit)을 발표했는데, 여기에서 LPU의 작동 원리를 보실 수 있습니다. (튜링 포스트 코리아 Launch 이전의 글이라 영문 버전입니다)

마이크로소프트, 팔란티어, 그리고 해커들

  • 마이크로소프트와 팔란티어는, 양사가 함께 미국의 국방 및 정보 기관을 위한 AI 기반의 분석 역량을 강화하기 위해서 제휴를 확대하고 있습니다. Azure 클라우드를 일급 기밀을 다루는 분석 업무를 수행하는 팔란티어의 AI 플랫폼과 결합하고 있다고 합니다.

  • 당연히 마이크로소프트의 AI 영역이 모두 안전한 것은 아닙니다. 블랙햇 (Black Hat)3에서 연구자들은 MS 코파일럿 AI가 피싱이나 데이터 유출의 도구로 어떻게 무기화될 수 있는지 보여주고, AI 도구와 통합할 때 보안을 신경써야 한다는 걸 강조했습니다.

허깅 페이스 (Hugging Face)는 XetHub를 왜 인수할까?

  • XetHub는 ML 개발 과정에서 데이터, 모델 등의 개발 자산을 다수의 개발자가 협업하면서 다룰 수 있게 해 주는 협업 플랫폼인데요, 지난 8월 8일 허깅 페이스에 인수되었습니다:

  1. 확장성 (Scalability): XetHub의 기술로 대규모 데이터셋과 모델에 필요한 TB 크기의 리포지토리를 다루도록 Git을 확장할 수 있습니다.

  2. 효율성 (Efficiency): 대용량 파일을 부분 업데이트할 수 있게 해 줘서 작업을 효율화합니다.

  3. 협업 (Collaboration): 대규모 데이터셋, 모델 및 코드를 팀이 원활하게 함께 작업할 수 있도록 해 줍니다.

  4. 미래 대비 (Future-Proofing): 수조 개의 파라미터를 가진 모델, 그리고 진화하는 AI 요구사항에 허깅 페이스가 대비할 수 있도록 해 줍니다.

  5. 얼라인먼트 (Alignment): XetHub의 미션이 ‘AI 개발을 최적화해 준다’는 허깅 페이스의 목표와 합치합니다.

다른 뉴스레터의 읽어볼 만한 기사와 글

새로 나온, 주목할 만한 연구 논문

새로운 모델

  • EXAONE 3.0: LG AI 연구원에서 영어와 한국어 작업에 최적화된 78억 개의 파라미터를 가진 모델, ‘엑사원 3.0’을 출시했습니다. 이중 언어로 Instruction Tuning이 되어 있고, 도메인에 특화된 추론에 탁월한 성능을 발휘합니다.

  • Qwen2-Math: Qwen Labs는 수학 전용 언어 모델 시리즈인 Qwen2-Math를 출시하면서, 성능 벤치마크에서 GPT-4o와 Claude 3.5를 능가하는 Qwen2-Math-72B-Instruct를 선보였습니다. 이 모델은 복잡한 수학 관련 작업에서 탁월한 성능을 발휘하는데, 이후에 이중 언어 지원도 예정되어 있습니다.

  • CogVideoX: 중국의 AI 유니콘 중 하나인 Zhipu AI와 칭화 대학교에서 Text-to-Video 생성용 디퓨젼 기반 트랜스포머인 CogVideoX를 출시했습니다. 이 솔루션은 3D VAE (Variational Autoencoder)와 트랜스포머를 사용해서 일관성 있는 장시간의 동영상을 제작하는데 탁월한 성능을 보입니다.

  • VITA: 텐센트의 Youtu Lab과 협력 기관들이 함께 비디오, 이미지, 텍스트, 오디오 입력을 동시에 처리할 수 있는 최초의 오픈소스 멀티모달 LLM인 VITA를 발표했습니다. Mixtral 8x7B 모델을 기반으로 개발된 이 제품은 높은 벤치마크 성능을 보여줍니다.

금주의 Top pick

  • Self-Taught Evaluators: Meta FAIR의 연구원들이 모델의 판단력을 향상시키기 위해서 합성 데이터를 사용하고 사람이 작업한 주석 없이 LLM 평가자 (Evaluator)를 훈련하는 방법을 도입했습니다. 이런 접근 방식을 통해서 Llama-3-70B-Instruct의 RewardBench 점수가 75.4점에서 88.7점으로 향상, 사람이 작업한 데이터로 훈련된 모델을 능가하는 성능을 보여줬습니다. —> [논문 보기]

  • RAG Foundry: Intel Labs는 LLM이 RAG 기반 작업을 더 잘 수행하도록 해 주는 오픈소스 프레임웍 RAG FOUNDRY를 개발했습니다. 이 도구를 Llama-3과 Phi-3 패밀리 모델들 대상으로 여러가지 지식 집약적인 데이터셋에 대해서 테스트했을 때 유의미한 성능 개선을 보여줍니다. —> [논문 보기]

  • CODEXGRAPH: NUS, 알리바바, 시안 교통 대학교의 연구원들이 LLM과 그래프 데이터베이스를 통합, 대규모 리포지토리에서 코드를 잘 검색하도록 하고 코딩 작업에서 뛰어난 성능을 보여주는 CODEXGRAPH를 소개했습니다. —> [논문 보기]

언어모델의 최적화 및 개선

  • Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters에서는 테스트 시간 동안 컴퓨팅 자원 할당을 최적화해서 LLM의 성능을 향상시키고, 더 많이 사전 학습을 한 모델을 능가하는 성능을 보여주는 방법을 살펴봅니다. —> [논문 보기]

  • Synthesizing Text-to-SQL Data from Weak and Strong LLMs는 Text-to-SQL 작업을 개선하는데 사용하는 강력한 모델과 약한 모델로부터 만들어진 합성 데이터를 조합해서, 오픈소스 및 폐쇄 LLM 간의 격차를 메꾸는 모델을 개발합니다. —> [논문 보기]

  • StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation은 다양한 인지적 지각 수준에서 LLM을 평가하는 다계층 (Multi-layered) 프레임웍을 도입, 편견을 줄이고 평가의 일관성을 개선하도록 해 줍니다. —> [논문 보기]

발전된 데이터 검출 및 평가 기법

  • LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection는 텍스트를 여러 범주로 분류해서 LLM과의 관련성 수준을 감지하는 시스템을 제시, 기계 생성 (Machine-generated) 컨텐츠 탐지를 강화하게 해 줍니다. —> [논문 보기]

  • CoverBench: A Challenging Benchmark for Complex Claim Verification는 복잡한 클레임을 검증할 때 LLM의 정확도를 평가하는 벤치마크를 만들어서, 어떤 과제가 앞으로 해결되어야 하는지 확인합니다. —> [논문 보기]

혁신적인 시뮬레이션과 렌더링 기법

  • GPUDrive: Data-driven, multi-agent driving simulation at 1 million FPS는 복잡한 에이전트 행동을 지원하고 강화 학습 에이전트를 빠르게 훈련할 수 있는 고성능 주행 시뮬레이터를 소개합니다. —> [논문 보기]

  • RayGauss: Volumetric Gaussian-Based Ray Casting for Photorealistic Novel View Synthesis는 가우스 함수를 사용해서 사실적인 렌더링을 할 수 있도록 하는 방법을 제안하고, 새로운 뷰를 합성할 때 우수한 성능을 보여줍니다. —> [논문 보기]

글에 대한 리뷰를 남겨주세요!

Login or Subscribe to participate in polls.

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Keep reading:

1  Reinforcement Learning w/ Human Feedback; 챗GPT 훈련에 사용된 기법으로, 사람의 피드백으로 강화 학습을 진행함

2  Andrej Karpathy. 캐나다의 컴퓨터 사이언티스트로, 오픈AI 창립멤버로 들어갔다가 2017년부터 얼마 전까지 테슬라의 기술 이사로 근무하다 사직함

3  사이버보안 영역의 국제적 연례 행사. 각종 보안 기술의 연구와 교류를 위한 행사임

Reply

or to participate.