• Turing Post Korea
  • Posts
  • FOD#74: 오픈AI가 탐구하는 또 하나의 길, '온디바이스'

FOD#74: 오픈AI가 탐구하는 또 하나의 길, '온디바이스'

MS에서 오픈AI로 옮긴 Phi 개발자, 세바스찬 부벡 인터뷰 + 금주의 주요 소식, 업계 동향과 연구

튜링포스트 코리아 예고:

  • AI 101: 프랑스의 대표적인 AI 스타트업, 미스트랄 AI의 모델, Mistral에 대해 알아봅니다.

  • AI 유니콘: 우리나라의 SK와도 전략적인 파트너십을 맺어 잘 알려져 있는, 퍼플렉시티 (Perplexity)의 시작과 현재, 미래에 대해서 알아보겠습니다.

기대해 주세요!

Connecting the Dots

지난 주에도 어김없이 쏟아진 수많은 AI 뉴스들 가운데, 제 관심을 끈 두 가지 뉴스가 있었는데요; 그 하나는, 소형 언어모델 (SLM; Small Language Model) 관련된 논문이나 발표가 급증했다는 소식, 그리고 다른 하나는 마이크로소프트의 연구자였던 세바스찬 부벡 (Sebastien Bubeck)이 오픈AI로 합류했다는 소식입니다.

세바스찬 부벡은 - 최소한 - 두 가지의 중요한 업적(?)으로 연구자들 사이에는 잘 알려져 있는 사람이라고 할 수 있을 것 같은데요:

  • 2023년 4월 발표된 155페이지 분량의 연구 논문, ‘Sparks of Artificial General Intelligence: Early Experiments with GPT-4’의 공동 저자이구요

  • 스마트폰, 노트북 등의 엣지 디바이스에 최적화된, 효율적 AI 모델인 마이크로소프트의 Phi 시리즈 개발에 핵심적인 역할을 한 연구자입니다. 첫 번째 Phi 모델은 ‘Textbooks Are All You Need’라는 논문으로 소개됐는데, 상당히 큰 반응이 있었고 효율적인 AI에 대해 많은 논의를 불러일으킨 논문이라고 하겠습니다 - 양질의 데이터, 적은 컴퓨팅 파워로도 동일한 성능을 낼 수 있다는 내용이었으니까요.

튜링 포스트 코리아에서도 마이크로소프트 Phi 모델의 개발자로서 세바스찬 부벡과 로넨 엘단 (Ronen Eldan) 인터뷰를 게재한 적이 있는데, 관심있으시면 한 번 보셔도 좋겠습니다:

인터뷰에서 세바스찬은 ‘Textbooks Are All You Need’에서 택했던 접근 방식을 어떻게 생각하게 되었는지 이렇게 이야기했었습니다:

“‘Sparks of AGI’ 논문을 쓴 다음에, 곰곰이 생각해 보니 결국 거대 언어모델에서 실제로 무슨 일이 일어나는 건지 이해하려면 직접 모델을 만들어봐야겠다는 생각이 들었어요. 처음에는 대형 트랜스포머를 트레이닝해 본 적도 없었고 사용할 수 있는 데이터도 제한적이었어요. 아무래도 학술적인 벤치마크들이 복잡하다보니, 우리가 만든 언어모델을 평가하는 게 쉽지 않을 것 같아서, 먼저 범위를 좁히기로 했습니다. ‘코딩’을 목표로 삼았던 이유는, ‘The Stack’이라는 큰 데이터셋이 있었고, 오픈AI의 ‘HumanEval’이라는 상대적으로 단순한 평가 지표도 있었고, 10억개 정도의 파라미터를 가진 신경망으로도 코딩 작업을 꽤 잘 할 수 있다는 선행 연구가 있었기 때문이예요.

몇 십개 정도의 GPU만 가지고, 제한된 데이터를 사용해서 소형 언어모델을 트레이닝해서, 높은 HumanEval 점수를 받아보자는게 목표였어요. The Stack에서 ‘(GPT-4가 판단하기에) 교육용으로 적합한 컨텐츠’를 필터링하고, 데이터를 다양하게 만들기 위해서 합성하는 과정에 신경을 많이 썼습니다. 작업을 시작한지 한 달 뒤에, HumanEval에서 50% 성능을 달성하고 나서 이 정도면 일단은 성공이다 판단하게 되었는데, 그리고 나서 이 접근 방식을 ‘코딩’ 외 다른 영역으로 확장할 수 있을까 하는 생각이 들었어요. 그래서 phi-1.5로 상식 추론, phi-2로 일반 인지 능력을 다루다가 결국 phi-3까지 발전하게 된 거예요.”

세바스찬 부벡, 튜링 포스트 인터뷰

얼마 전에 오픈AI가 애플의 디자이너였던 조니 아이브와 협력해서 현재의 스마트폰보다 나은 컴퓨팅 경험을 목표로 AI 기반의 하드웨어 기기를 개발하고 있다는 게 확인되었고, 바로 이틀 전에는 메타의 AR 글래스 팀 리더였던 케이틀린 칼리노스키 (Caitlin Kalinowski)가 오픈AI 로봇공학 및 소비자 하드웨어 팀을 이끌게 됐다는 소식이 있었죠. 이런 소식들이, AI 모델을 일상적인 기기에 통합하고자 했던 세바스찬 부벡의 꿈과도 완벽하게 일치한다는 생각이 드는 건 저 뿐은 아니겠죠?

세바스찬은 이런 말도 했었습니다:

“Phi-3 같은 소형 언어모델이 모든 기기에 탑재될 날을 기대합니다. 이미 Build 2024 직전인 5월 20일 발표한 Copilot+ PC 용으로 특별히 제작한 Phi Silica (Phi-3-mini의 파생 모델)가 그 작업이 시작되었음을 보여주고 있죠. 윈도우는 올해 말까지 NPU에 최적화된 최신의 소형 언어모델을 탑재하는 첫 플랫폼이 될 겁니다. 궁극적으로는, 달리기를 하면서 시계에 작업 수행을 요청하거나, 하이킹을 하면서 내가 보고 있는 것들에 대해서 질문하고 대화를 나누는 게 가능한, 그런 소형 언어모델을 소비자용 하드웨어에 탑재하고 싶어요. 응용 분야는 무궁무진하다고 생각합니다”

세바스찬 부벡, 튜링 포스트 인터뷰

새로운 소비자용 기기 + 소형 언어모델 = 오픈AI ‘AGI 전략’의 핵심

세바스찬 부벡, 조니 아이브와 케이틀린 칼리노스키의 배경, 그리고 오픈AI의 최근 하드웨어 계획을 종합적으로 생각해 보면, 오픈AI가 SLM (소형 언어모델)을 AGI 달성을 위한 전략의 핵심 - 적어도 주요한 구성 요소 - 으로 보고 있다는 추측이 얼마든지 가능합니다. 저는 여기에 베팅을 한 번 해 볼 수 있다고 생각합니다.

오픈AI에서 세바스찬과 같은 친구들의 역할은 아래와 같은 분야에 집중될 것으로 보입니다:

  • 하드웨어에 통합할 효율적인 AI 모델 개발

    • 소형 언어모델에 대한 전문성과 경험을 기반으로 해서, 제한된 리소스를 가진 기기에서 최고의 성능을 보여줄, 오픈AI의 새 하드웨어에 최적화된 컴팩트한 AI 모델 개발

  • 온디바이스 AI 기능 향상

    • 클라우드 컴퓨팅 의존도를 줄이고 사용자의 개인정보를 자연스럽게 보호하는 가운데, 사용자의 기기에서 직접 작동하는 AI 기능의 추가 개발, 개선

  • 커스텀 AI 칩 개발에 협력

    • 오픈AI가 브로드컴, TSMC와 협력해서 커스텀 AI 칩을 개발하는 상황이기 때문에, 세바스찬 같은 연구자가 이런 칩에 잘 맞는 모델을 만들어서 효율성과 성능을 모두 향상시키는데 기여

오픈AI는, 멈출 생각도, 속도를 늦출 생각도 없어 보입니다. 지난 주에 실시간 웹 정보와 대화 기능을 합쳐서 AI 기반 검색 엔진인 SearchGPT를 출시하면서 구글의 직접적인 경쟁자로 자리매김을 했고, 세바스찬, 케이틀린 같은 전문가를 계속해서 영입하면서 더 넓은 영역으로 확장, 가장 핫한 영역에서 여전히 리더의 자리를 놓치지 않고 있습니다.

오픈AI 외에도 물론 소형 언어모델 개발에 속도를 내고 있는 다른 기업들도 잊지 말아야죠:

퀄컴의 CEO 크리스티아노 아몬 (Cristiano Amon)‘앱 구조의 패러다임을 깨고 싶다’고 말한 것도 주목할 만한 이야기입니다. 전통적인 앱에서 온디바이스 AI 에이전트로의 전환을 암시하는 말일 텐데, 이걸 위해서 소형 언어모델만큼 효율적인 게 있을까요?

여러분이 좀 더 소형 언어모델에 대한 관심이 있으시다면, 13개 대학교와 연구소에서 작성한 ‘소형 언어모델에 대한 보고서’를 한 번 확인해 보시기 바랍니다. 이 보고서는 소형 언어모델을 잘 이해하고 평가하는데 적용할 체계적인 접근 방식, 그리고 여기 필요한 분류 체계를 담고 있는데, 아래와 같은 내용에 중점을 둡니다:

  • 모델의 최적화 기법 : 아키텍처 설계, 트레이닝 효율성, 압축 등

  • 여러 제약조건 (e.g., 컴퓨팅 자원, 메모리, 에너지)을 사용 및 배포 환경에 따라 우선순위화하는 방법

Image Credit: The Survey of SLMs

트위터 라이브러리 (Twitter Library) 🐦

‘AI 모델에 대해 보다 더 자유롭게 탐구하고 직접 경험해 볼 수 있는 기회를 제공’하는 ‘오픈소스’ 모델은, 이제 LLM을 넘어서 멀티모달 모델에까지 그 영향력을 확대하고 있습니다.

금주에는 다양한 사이즈로 배포되고 있는, 강력한 오픈소스 멀티모달 모델 10가지를 소개합니다:

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

AI 업계 전문가들이 추천하는 서비스 👍🏼

  • Patchwork 데이터셋을 손쉽게 변환하고 합치도록 도와주는 오픈소스 도구 모음 ‘Patchwork’입니다. 유연하게, 모듈형으로, 혼란스러운 데이터 환경을 정리하는데 쓸모가 있다고 하네요.

금주의 주목할 만한 업계 동향 📰

혁신인가? 아니면 그냥 재미있는 시도에 불과한가?

  • Osmo Labs가 ‘냄새’를 AI 기술로 완전히 디지털화, 재생성하는데 성공했다고 발표했습니다 - “싱상한 여름 자두의 향기를 디지털화해서 사람의 개입 없이 리프린트 (Reprint) 해 냈습니다”. Alex Wiltschko의 트위터를 한 번 보시죠.

  • Decart AI와 Etched가 협업해서 AI가 생성하는 게임 월드 ‘Oasis’를 발표했습니다. 마인크래프트 플레이 동영상으로 학습한 Oasis AI Video 모델이 사용자의 입력 (키보드 등)을 바탕으로 실시간으로 프레임을 생성해 낸다고 합니다.

Image Credit: Etched

웨이모, 새로운 Driving Model 발표

  • 웨이모 (Waymo)가 구글의 Gemini를 활용해서 센서 데이터 및 언어 데이터를 결합한 EMMA (End-to-end Multimodal Driving Model)를 발표했습니다. 이 모델은 경로 예측, 물체 감지 등에서 뛰어난 성능을 보이지만, 여전히 단기적 기억력이나 LiDAR의 부재는 한계점으로 지적된다고 합니다.

구글, AI의 잠재력을 보여주기 위한 시도를 계속하는 중

  • 구글의 새로운 기능, ‘Grouding with Google Search’는 앱에서 실시간 데이터를 사용할 수 있게 해 주는데, 이 기능을 통해서 검색하는 정보의 사실성, 신뢰도를 향상시켜 줍니다.

  • 구글의 AI 도구, ‘Big Sleep’이 SQLite에서 심각한 결함을 발견해 냈다고 합니다. 이건 AI가 소프트웨어의 복잡한 취약점을 탐지해 낼 수 있는 잠재력을 보여주는 사례가 아닌가 합니다.

  • 구글의 새로운 ‘Learn About’ 도구는 Gemini를 기반으로 해서 모든 검색이나 질뭄ㄴ을 체계적이고 상호 작용할 수 있는 학습 경험으로 전환해 준다고 합니다. 플레이그라운드로 사용해 보면 좋겠는데, 아직 한국 지역에서는 사용해 볼 수 없는 것 같습니다 ^.^;

엔비디아, 휴머노이드 로봇의 효율적 제어를 위한 모델 ‘HOVER’ 발표

  • HOVER (Versatile Neural Whole-Body Controller for Humanoid Robots)는 150만 개 파라미터로 복잡한 로봇의 움직임을 처리하는 소형 신경망입니다. 엔비디아의 Isaac 시뮬레이션 환경에서 훈련시킨 이 모델은, 추가 조정없이 시뮬레이션 환경에서 실제 로봇에 바로 적용할 수 있고, VR 헤드셋, 모션 캡처, 엑소스켈레톤 관절 각도, 표준 조이스틱 등 다양한 입력 방식과 호환된다고 하네요.

앤쓰로픽, 맞춤형 AI 규제를 주문

a16z와 마이크로소프트, AI의 미래를 위해 손잡다

  • 스타트업과 대기업 모두가 융성할 수 있는 균형잡힌 AI 생태계를 위해서 a16z와 마이크로소프트가 함께 정책적 활동을 시작한다고 합니다. 대표적인 정책적 방향으로, 오픈소스 AI, 공유 데이터 풀, 더 나아가 차고에서 시작하는 조그만 스타트업에서부터 빅테크에 이르기까지, 누구든 혁신적 기술을 개발하고자 할 때 지원하는 정책을 개발하고 지원할 계획이라고 합니다.

새로 나온, 주목할 만한 연구 논문

금주의 Top Pick

  • Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models —> [논문 보기]

    스텔렌보쉬 (Stellenbosch) 대학교의 연구진이 프롬프트 엔지니어링과 외부 도구를 통합해서 거대 언어모델 (LLM)의 환각 현상을 줄이는 전략을 연구했습니다. 수학과 상식 문제에서 자기 일관성(SC; Self-Consistency)과 CoT (Chain-of-Thought) 같은 기법을 테스트한 결과, 추론 과제에서는 자기 일관성 방식이 환각을 가장 효과적으로 줄이는 것으로 나타났습니다. 한편, 더 단순한 프롬프트를 사용하고 도구의 복잡성을 피하는 것이 전반적으로 더 효과적이었습니다. ReAct는 특히 성능이 낮은 LLM에서 환각 발생률을 증가시켰는데, 이는 도구를 잘 통합한다는게 얼마나 어려운지 보여줍니다.

  • Mind Your Step (By Step): CoT Can Reduce Performance on Tasks Where Thinking Makes Humans Worse —> [논문 보기]

    프린스턴 대학교 연구진이 CoT 추론이 오히려 거대 언어모델 (LLM)의 성능을 저하시키는 작업들을 발견했습니다. 암묵적 통계 학습, 시각적 인식, 예외 기반 분류 등에서 테스트한 결과, CoT는 정확도를 최대 36%까지 감소시켰습니다. 이런 성능의 저하는 비슷한 작업에서 사람의 경우에 나타나는 오류와도 유사한 패턴을 보여, 사람이 가진 특정한 인지적 제약이 LLM에도 존재한다는 것을 시사합니다. 하지만 CoT는 공간 추론이나 메모리 집약적 선택과 같은 작업에서는 성능 저하를 일으키지 않았는데, 이는 사람과 모델의 제약이 서로 다르게 나타나는 경우에 해당한다고 판단됩니다.

  • Measuring Memorization Through Probabilistic Discoverable Extraction
    —> [논문 보기]

    구글 딥마인드와 보스턴 대학교 연구진이 거대 언어모델 (LLM)의 기억 현상을 더 정확히 측정하기 위한 확률적 방법을 제안했습니다. Greedy Sampling을 통한 단일 시도 추출에 초점을 맞춘 현재의 방법들은 기억 현상을 과소평가하는 경향이 있습니다. 이 연구는 "(n, p)-discoverable extraction" 지표를 도입해서, 여러 시도와 샘플링 방식에 걸쳐 기억된 데이터를 추출할 확률을 측정합니다.

Robotics & Embodied AI

  • Advancing Embodied AI Through Touch And Dexterity더 촉각을 잘 인식할 수 있는, 사람-로봇 간의 상호작용을 위한 도구를 제공합니다. —> [논문 보기]

  • A Large Recurrent Action Model: xLSTM Enables Fast Inference For Robotics Tasks는 효율적인 실시간 로봇의 움직임을 위한 xLSTM 모델을 소개합니다.
    —> [논문 보기]

언어모델의 능력 및 추론

  • Counting Ability Of Large Language Models And Impact Of Tokenization은 LLM이 숫자를 세는 능력에 토큰화가 어떤 영향을 미치는지 연구합니다. —> [논문 보기]

  • On Memorization Of Large Language Models In Logical Reasoning은 LLM의 논리적 작업에 있어서 기억과 추론을 비교합니다. —> [논문 보기]

  • What Happened In LLM Layers When Trained For Fast Vs. Slow Thinking은 상세한 추론과 사고를 위해 훈련된 LLM의 Gradient Stability에 대해 살펴봅니다. —> [논문 보기]

  • Language Models Can Self-Lengthen To Generate Long Texts는 LLM의 응답을 더 확장하기 위한 방법을 소개합니다. —> [논문 보기]

최적화 및 선호도 튜닝

  • Hybrid Preferences: Learning To Route Instances For Human Vs. AI Feedback은 사람과 AI의 피드백 간 균형을 맞춰서 더 나은 선호도 기반 튜닝을 하는 방법을 연구합니다. —> [논문 보기]

  • LongReward: Improving Long-Context Large Language Models With AI Feedback은 AI 피드백을 기반으로 Long-Context LLM의 성능을 개선하는 방법을 검토합니다. —> [논문 보기]

  • Accelerating Direct Preference Optimization With Prefix Sharing은 선호도 기반 최적화 과정에서 트레이닝의 중복성을 줄이는 방법을 연구합니다. —> [논문 보기]

메모리 효율성 및 모델 압축

  • BITSTACK: Fine-Grained Size Control For Compressed Large Language Models는 LLM을 위한 동적 메모리 압축 기술을 연구합니다. —> [논문 보기]

  • NeuZip: Memory-Efficient Training And Inference With Dynamic Compression은 신경망의 트레이닝과 추론 시 필요한 메모리를 줄이는 방법을 검토합니다. —> [논문 보기]

Agents & Multi-Agent Systems

  • AgentStore: Scalable Integration Of Heterogeneous Agents는 동적인 작업 자동화를 위해서 다중 에이전트를 통합하는 연구입니다. —> [논문 보기]

  • OS-ATLAS: A Foundation Action Model For Generalist GUI Agents는 Universal Navigation을 위한 GUI 에이전트 모델을 구축합니다. —> [논문 보기]

흥미로운 응용 사례

  • SocialGPT: Prompting LLMs For Social Relation Reasoning은 사회적 관계를 인식하는 작업을 위해서 비전과 언어 모델을 통합해 봅니다. —> [논문 보기]

  • AutoKaggle: A Multi-Agent Framework For Autonomous Data Science
    는 멀티 에이전트 프레임웍을 기반으로 데이터 사이언스 컨테스트를 자동화합니다. —> [논문 보기]

Retrieval & Dense Retrieval Optimization

  • Zero-Shot Dense Retrieval With Embeddings From Relevance Feedback은 Zero-shot 검색 정확도를 높이는 방법을 연구합니다. —> [논문 보기]

  • RARe: Retrieval Augmented Retrieval With In-Context Examples는 검색 성능을 개선하기 위해서 ‘예시’를 사용하는 방법을 시험해 봅니다. —> [논문 보기]

  • Beyond Text: Optimizing RAG With Multimodal Inputs는 업계에서 활용할 수 있는 수준의 환경에서 멀티모달 RAG을 테스트해 봅니다. —> [논문 보기]

  • FACT: Examining Iterative Context Rewriting For Multi-Fact Retrieval은 반복적으로 Context를 업데이트함으로써 Multi-fact 검색 결과를 개선하는 방법을 연구합니다.
    —> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.