• Turing Post Korea
  • Posts
  • FOD#63: AI Scientist, 그리고 '개방형 탐색 에이전트' 기술

FOD#63: AI Scientist, 그리고 '개방형 탐색 에이전트' 기술

진짜 AI-Augmentation의 길 + 금주의 주요 소식, 업계 동향과 연구

‘생성형 AI’에 대한 폭발적인 관심에 이어서 - 물론 그 연장선상에서 - AI 영역에서 지금 가장 ‘핫’하면서 많은 관심을 받는 ‘새로운 버즈워드 (buzzword)’ 중 하나가 있다면 바로 ‘Open-Ended Exploration’일 거라고 생각합니다. 한글로 번역하는게 영 부자연스럽고 맘에 들지 않아서 이 글에서는 개방형 탐색 에이전트라고 부르려고 하는데요, 현재 언급하는 맥락에서의 의미는 ‘사전에 정의된 제약 사항이나 고정된 목표가 부여되지 않은 상태에서 환경을 탐색하고 새로운 결과물을 만들어내는 능력을 가진 에이전트’라고 할 수 있겠습니다.

‘AI 에이전트’, ‘에이전틱 AI’ 등의 용어와 연결시킨다면 더 직관적으로 그 의미를 이해하기 쉬울 수는 있지만, 그래도 이 둘은 살짝 차이가 있습니다; ‘개방형 탐색 에이전트’는 ‘AI가 목표를 넘어서 새로운 것을 탐구하는 것’을 의미하고, ‘창의적이고 예측 불가능한 발견’을 강조하는 반면에, ‘에이전틱 AI’는 ‘특정 목표를 달성하기 위해 행동하는 것’을 말하고 ‘목표 지향적 행동’을 강조합니다.

‘개방형 탐색 에이전트’에 대한 큰 관심은 사실 아주 자연스러운 현상이라고 봅니다. 지금 거대언어모델 (LLM)을 활용해서 우리들이 하는 일의 대략 70%를 자동화할 수 있다고 이야기하는 수준에 이르고 있기는 하지만, 자세히 들여다보면 여전히 사람의 손을 상당히 타야 작업을 잘 수행하는 ‘어시스턴트’ 형태의 어플리케이션이 대부분이기 때문이죠.

이런 시스템은 주어진 환경을 파악해서 수행활 활동을 계획하고, 자율적으로 행동하고, 피드백을 받아 개선하는 소프트웨어 시스템이라고 할 수 있습니다. AI가 가져올 미래 가치가 바로 이 ‘개방형(Open-Ended)’ 시스템에 있다고 주장하는 전문가들도 많이 있구요.

이번 주에는 일본의 스타트업 Sakana AI에서 최근 발표한 AI Scientist를 포함해서 이 영역을 개척하고 있는 4개의 연구를 살펴보려고 합니다.

The AI Scientist: ‘Open-Ended’ Scientific Discovery

‘The AI Scientist’는 작년 말 일본에 설립된 Sakana AI라는 스타트업에서 지난 주에 내놓은 연구 논문입니다. 바로 이 논문의 핵심 컨셉이, 자율적으로 연구 아이디어를 만들어내고 실험도 수행하고, 논문을 작성하는 ‘Open-Endedness’에 있습니다. 연구자들이 이 논문을 가지고 테스트하는 것들을 살펴보면, 아직 그 구현 수준에 제한이 있고 결과물의 품질도 중간 수준으로 보이지만, 이 프레임웍은 시스템이 미리 정해진 경로가 없는 상태에서 새로운 연구의 방향을 탐색’할 수 있도록 하는, ‘개방형 발견 (Open-Ended Discovery)’이라는 아이디어를 구현하고 있습니다.

Image Credit: AI Scientist 논문

Sakana AI의 이번 논문은 ‘AI를 중심으로 연구 과정을 End-to-End로 자동화할 수 있는가’라는 질문에 대한 첫 번째 시도이니만큼, 섣불리 과도하게 기대할 이유도, 지나치게 폄훼할 필요도 없다고 봅니다. 예를 들어, 미네소타 대학교와 UC 버클리의 연구자들이 2024년 2월에 쓴 논문 ‘Shallow Synthesis of Knowledge in GPT-Generated Texts: A Case Study in Automatic Related Work Composition’에서 지적한 것처럼 ‘LLM이 자동적으로 생성하는 결과물이 과연 과학자나 연구자들이 하는 작업과 인지적으로 유사한 의미와 과정으로 결과를 만들어내는 작업인가’ 하는 질문에 과연 ‘AI Scientist’ 논문을 적용한 결과가 어떤 답을 주는지 등을 객관적으로 평가해 볼 필요가 있습니다. (밑의 그림을 보면, GPT가 생성한 Citation Graph는 사람이 직접 작업한 것과 많이 다를 뿐 아니라 ‘유의미하지 않은’ 그래프를 만들고 있습니다) - 한 편으로는, 지금의 arXiv에 올라오는 논문들의 숫자, 종류, 품질, 그리고 Peer Review 상황들을 본다면 ‘우리는 그렇게 타이트하게 하나’ 싶은 생각도 듭니다만 ^.^;

Image Credit: ‘Shallow Synthesis of Knowledge in GPT-Generated Texts’

어쨌든 지금 많은 연구자들이 ‘AI Scientist’를 살펴보면서 공개된 코드로 다양한 구현을 해 보고 있는 듯하니, 조만간 또 한 번 기회가 될 때 업데이트 드릴 수 있도록 하겠습니다.

코사인 (Cosine)의 지니 (Genie): 소프트웨어 ‘설계’의 자동화

영국의 AI 스타트업 Cosine (코사인)에서 바로 며칠 전 지니 (Genie)라는 ‘소프트웨어 엔지니어링’을 위한 모델을 선보였는데요. 깃허브 리포지토리에서 수집한 약 2천 3백개의 소프트웨어 엔지니어링 문제로 구성된 ‘SWE-Bench’ 벤치마크에서 30.08%로 경쟁 모델들과 현격한 격차를 보이며 최고 성능을 보여줍니다.

Image Credit: Cosine

지니 모델의 테크니컬 리포트에 명시적으로 ‘개방형 탐색’ 시스템이라는 접근 방식이 설명되어 있진 않지만, 지니는 ‘소프트웨어 엔지니어링’이라는 문제 영역에서 ‘Open-Ended Discovery’의 특성을 보여줍니다:

  • 자율적인 작업 수행과 완료: 지니는 다양한 프로그래밍 작업을 자율적으로 실행할 수 있기 때문에 사람이 지속적으로 개입하거나 가이드하지 않아도 문제의 해결책들을 다방면으로 탐색할 수 있습니다.

  • 사람과 유사한 추론: 실제 소프트웨어 엔지니어의 의사 결정 과정을 담고 있는 데이터셋을 학습해서, 지니는 좀 더 개방적이고 창의적인 방식으로 문제에 접근할 수도 있습니다.

  • 협업의 잠재력: 실제 개발자와 함께 작업을 할 수 있기 때문에, 단독으로가 아니라 사람과 AI가 협업하는 과정을 통해서 Open-Ended Discovery가 될 수 있는 가능성을 열어줍니다.

지니 모델을 만드는 과정에 녹아들어있는 이 ‘자율성’은 ‘개방형 탐색’의 핵심적인 요소로, 모델이 만들어내는 결과물이 단순히 ‘학습된 패턴을 조금씩 변형하는 반복’이 아니라 소프트웨어 엔지니어링이라는 맥락 안에서 실행되는 ‘창의적인 탐구의 산물’이라는 점에서 큰 의미가 있습니다.

ADAS (Automated Design of Agentic Systems; 에이전틱 시스템의 자동 설계): 진화하는 에이전틱 시스템

여기서 말씀드리는 ADAS는 흔히 자율주행에서 이야기하는 ADAS (Advanced Driver Assistance System)가 아니고, 위에 나와있는 것처럼 ‘Automated Design of Agentic Systems’입니다. 이건 ‘에이전트를 수작업으로 설계하지 말고 시스템이 자동적으로 설계하고 계속해서 개선하면 어떨까?’라는 아이디어에서 출발한 연구인데요.

브리티시 컬럼비아 대학교, 그리고 벡터 인스티튜트 (Vector Institute)의 연구자들이 작성한 이 논문을 아주 간단히 요약하자면, ‘메타 에이전트’가 ‘Meta Agent Search’라는 알고리즘을 사용해서 ‘에이전트 시스템’을 학습, 개선하고 점진적으로 우수한 성능의 에이전트를 작성, 테스트하면 어떨까 하는 연구입니다. 실험의 결과를 보면, 이렇게 메타 에이전트를 통해 만들어진 에이전트가 수작업으로 설계된 에이전트보다 더 우수한 성능을 발휘하고, 도메인 간의 전이 학습에서도 그 성능을 유지하는 것으로 나타납니다. (물론, 이 연구는 초기 연구로, 메타 에이전트의 재귀적 개선 - Recursive Improvement - 과정이 완전히 자율적이 되려면 사람의 초기 입력과 가이드라인이 중요합니다)

Image Credit: Original 논문

ADAS는 에이전틱 시스템의 설계 뿐 아니라 ‘지속적인, 자율적인 진화’, 그리고 ‘새로운 챌린지가 있는 다양한 환경과 다른 도메인에의 적용’까지 검토한다는 측면에서, ‘개방형 탐색 에이전트’ 시스템의 새로운 차원을 연다고 볼 수도 있을 것 같습니다.

LONGWRITER: 엄~청나게 긴 텍스트를 생성한다

언뜻 보기에는 큰 관련이 없어 보일 수 있지만, LongWriter는 ‘언어를 생성하는 것’ 자체에 있어서 ‘개방성’이 뭔지를 이야기하는 논문이라고 볼 수 있습니다. 칭화대학교와 Ziphu AI라는 중국의 AI 유니콘 연구자들이 공저한 이 논문은, ‘일관성이 있는 아~주 아주 긴 텍스트’를 생성할 수 있게 해서 정말 창의적인 글쓰기, 대량의 기술 문서 등 엄청난 양의 텍스트를 생성해야 하는 어플리케이션에 AI가 중추적인 역할을 할 수 있다는 걸 보여줍니다.

Image Credit: Original 논문

현재 Long-Context를 지원하는 거대언어모델들이 많죠? 크게는 100,000개에 달하는 입력 토큰도 받아주는 모델들이 있지만, 이런 거대한 모델들조차 2,000개 정도의 단어로 만들어진 여러 개의 문단들을 일관성있고 유의미하게 생성하는 작업은 쉽지가 않습니다. 이 논문의 실험 결과에 따르면, 이런 현상은 ‘지도학습 미세조정 (SFT; Supervised Fine-Tuning)’ 과정에서 아주 긴 텍스트 샘플이 별로 주어지지 않아서 발생한다고 합니다. 그래서 연구진들은 AgentWrite라는 이름의 ‘에이전트 기반 파이프라인’으로 아주 긴 문장을 생성하는 작업을 하위 작업들로 나눠서 ‘기성품 (Off-the-Shelf)’ LLM으로도 20,000 단어가 넘는, 그렇지만 일관성이 있는 긴 텍스트를 생성할 수 있도록 했습니다.

‘개방형 탐색 에이전트’의 잠재력, 그리고 도전과제

위에서 살펴본 4개의 논문에서 볼 수 있듯이, ‘개방형 (Open-Ended) 탐색 에이전트’ 시스템은 자율적으로 진화하는 AI 시스템의 가능성을 충분히 보여주는 반면에, 저품질의 결과물 또는 정당화할 수 없는 결론을 만들어낸다거나 (예, ‘AI Scientist’의 경우), 개발 과정의 투명성이 충분하지 않아서 문제가 될 수 있다거나 (예, ‘지니’의 경우) 하는 개선점 또한 드러내고 있어, 앞으로의 이 분야의 연구는 ‘지속적인 결과물의 품질 개선을 담보할 방법론’과 ‘에이전트의 행동을 이해, 통제하기 위한 투명성’의 두 가지 축을 중심으로 전개될 것으로 보입니다.

맺으며

위에서 본 예시들처럼, 개방형 탐색 에이전트 기술은 ‘과학적 발견’을 훨씬 가속화, 효율화하고, 소프트웨어 개발을 혁신하고, 나아가 AI가 생성할 콘텐츠의 너비와 깊이를 크게 확장시킬 수 있는 잠재력을 지니고 있습니다.

그렇지만 과연 어떻게 이런 시스템을 효과적으로 감독할 것인가, 어느 정도 범위까지 자율성을 부여할 것인가 등을 포함해서 기술의 발전이 야기할 광범위한 기술적, 산업적, 사회적 영향에 대한 너무나도 중요한 질문들도 함께 제기됩니다.

이런 중요한 질문들, 도전 과제들에 차근차근 우리만의 답을 해 나가면서 기술을 발전시킬 수 있다면, 그야말로 AI가 우리 인간의 지식, 그리고 창의성을 확장하는데 파트너로서 기여하는 시대, ’AI-Augmentation의 시대’에 다다를 수 있을 거라고 생각합니다. 어때요, 기대되지 않으세요?

AGI/슈퍼인텔리전스와 관련된 뉴스 Pick ⛏️

인간 수준, 그리고 그걸 넘어서는 ‘초지능 (Superintelligence)’으로 가는 길에서 넘어야 할 중요한 장애물 중 하나가 바로, ‘기계에 어떻게 추론 능력을 부여할 것이냐’의 문제입니다. Mistral-7B 같은 발전된 모델도, CoT (Chain-of-Thought) 같은 기법을 사용해도 GSM8K 데이터셋에 대해서 36.5%의 정확도를 달성하는데 그치는 수준이죠.

지난 주에 ‘마이크로소프트 리서치 아시아’와 하버드 대학교의 연구원들이 함께 발표한 따끈따끈한 논문에서 ‘rStar’라는 기법을 소개하고 있는데요, 이건 SLM - 소형언어모델 - 에 파인튜닝을 하거나 SLM을 보완해줄 대형언어모델을 사용하지 않고서도 추론 능력을 상당히 높여주는 ‘Self-play muTuAl Reasoning’ - 그래서 rStar - 이라는 이름의 기법이예요.

Image Credit: Original 논문

두 개의 SLM을 하나는 ‘Generator’에서, 하나는 Discriminator’에서 사용하는데, 첫 번째 SLM을 활용해서 MCTS (몬테 카를로 트리 검색) 기법으로 ‘추론 경로’들을 만들어 내고, 두 번째 SLM을 활용해서 이 경로들을 ‘부분적인 힌트’를 기준으로 검증해서 최종의 추론 경로를 선택하게 됩니다. 이 rStar 기법을 적용해서 GSM8K 벤치마크의 정확도를 상당히 개선할 수 있는데, Llama 2-7B로는 12.51%에서 63.91%, Mistral-7B로는 36.46%에서 81.88%로 높일 수 있습니다. 대형 Teacher 모델을 사용하지도 않고 파인튜닝도 하지 않는 방법으로 꽤 좋은 결과가 아닌가 합니다.

트위터 라이브러리 (Twitter Library) 🐦

지난 주는 ‘이미지 생성모델’이 또 화제의 중심에 있었던 한 주이기도 했습니다. 스태빌리티 AI 출신 연구자들이 독일에서 세운 Black Forest Labs AI에서 8월 1일 Flux.1을 출시하면서 화제가 되는 듯하더니, 바로 며칠 전인 8월 18일, 구글에서도 지난 5월 I/O에서 발표했던 최신의 고품질 이미지 생성모델 Imagen 3를 공개했습니다. 물론 모든 최신의 모델들이 일반에게 공개된 것은 아니지만, 많은 사람들이 이제 ‘인상적인’ 이미지를 생성하는게 크게 어려워지지 않은 시대가 된 것은 확실해 보입니다. ‘고품질 이미지 생성’ 작업에 ‘Disruption’이 일어나고 있다고 봐야 할까요?

튜링 포스트 코리아에서 고품질의 이미지를 생성할 수 있는 Text-to-Image 도구 10개를 정리해 봤습니다. 마음에 드는 것들로 골라서 테스트해 보시면 어떨까요?

*아직 튜링 포스트 코리아에 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

금주의 주목할 만한 업계 동향 📰

구글, 제미니 (Gemini)로 AI의 ‘가치 실현’에 베팅하다

  • 지난 8월 13일, ‘Made by Google’ 행사에서 구글은 안드로이드와 밀접하게 통합된 제미니 모델을 선보였습니다. 이번 쇼케이스에서 구글의 릭 오스테로 수석 부사장은 ‘AI가 더 이상 공허한 약속이 아니라 실제 값어치를 할 때’라는 점을 분명히 했습니다. 문제는, 구글의 스마트폰 ‘픽셀’의 시장 영향력이 아직 미미하다는 점인데요, 과연 제미니를 통합한 것이 ‘픽셀’의 시장 점유율에 어느 정도 영향을 줄 수 있을지가 또 하나의 관전 포인트인 것 같습니다. 한편, 미국 법무부의 구글에 대한 반독점 조사가 눈앞으로 다가오면서 구글의 ‘AI 통합 전략’이 위기를 맞이하는게 아니냐 하는 전망도 있네요.

스노우플레이크 데이터브릭스 : ‘AI’로 한판 승부

  • AI 시대의 ‘데이터 플랫폼’ 패권을 놓고 치열한 경쟁을 벌이고 있는 스노우플레이크와 데이터브릭스. 데이터 관리 자동화 플랫폼인 ‘Tabular’를 데이터브릭스가 인수하면서 치고 나가는 듯 한데요. 더욱이 데이터브릭스의 ‘SnowMelt’ 캠페인 - 대놓고 스노우플레이크를 노린 캐치프레이즈죠? - 같이 공격적인 플레이로 경쟁은 더욱 뜨거워졌습니다. 물론, 까마득한 큰 형, 마이크로소프트가 이 판에 뛰어들면서, 이 두 회사는 앞으로 지금과는 차원이 다른, 더 치열한 전장으로 끌려들어가게 될 수도 있습니다.

앤쓰로픽, Claude에 ‘캐싱’ 기능을 더하다

  • Claude 모델에 적용된 최신 기술, ‘Prompt Caching’ - API 콜 사이에 자주 사용되는 컨텍스트를 캐시로 저장해 주는 기술 - 은 사용자가 Claude 모델을 사용할 때 비용은 최대 90%, 지연 시간은 최대 85%까지 줄여줍니다. 지금 Public Beta로 제공되는데, AI와 더 복잡하고 풍부한 대화를 하도록 해 주는 획기적인 기능이 될 것으로 전망됩니다. 이미 Notion은 이 기능을 탑재해서 자사의 AI 어시스턴트를 최적화하고 있다고 합니다.

MIT의 ‘AI 리스크 리포지토리’ : 미지의 ‘위험’을 탐색한다

  • MIT에서 AI와 관련된 700가지 이상의 ‘리스크’에 대해 자세한 카탈로그인 ‘AI 리스크 리포지토리’를 출시했습니다. 개발자, 연구자, 서비스 기획자, 정책 입안자 등 다양한 이해관계자가 AI 리스크를 이해하고 자신의 영역에서 적용할 중요한 AI 리스크를 선별, 활용하는데 쓰일 수 있는 좋은 레퍼런스가 될 것으로 보입니다.

미드저니의 ‘올인원’ 이미지 에디터

  • 미드저니가 인페인징 (Inpainting), 아웃페인팅 (Outpainting) 등의 기능을 모두 통합한 AI 이미지 에디터를 출시했습니다. 예술가 집단들과 저작권 관련 집단 소송에 걸려 있는 상태지만 여전히 미드저니는 ‘가상 브러쉬’라든가 웹-디스코드 플랫폼 간의 ‘메시지 미러링’ 등 혁신적 서비스를 계속해서 도입하면서 전진하고 있습니다.

허깅페이스의 초소형 언어모델, SmolLM

  • 허깅페이스가 초경량급, 오픈소스 SLM인 SmolLM을 출시했습니다. 클라우드 서버에 연결하지 않고 로컬 디바이스에서 실행 가능한 이 모델은 현재 공개된 SLM 중 가장 작은 사이즈지만, 메타의 모바일LM, 알리바바의 큐원 등 5억개 미만의 파라미터를 가진 모든 모델을 성능에서 능가했고, 주력 모델인 ‘SmolLM-1.7B’는 여러 벤치마크에서 마이크로소프트의 Phi-1.5, 메타의 모바일LM-1.5B, 알리바바의 큐원2-1.5B 등을 능가했다고 합니다.

다른 뉴스레터의 읽어볼 만한 기사와 글

  • New LLM Pre-training and Post-training Paradigms - Sebastian Raschka —> 현대적인 LLM을 어떻게 훈련하는지에 대해 잘 정리된 글입니다. 나중에 기회가 있으면 한 번 따로 커버해 보려고 합니다.

  • On Nous Hermes 3 and classifying a "frontier model" - Nathan Lambert —> ‘파인튜닝 하우스’라고나 할까요? Nous Research에서 Llama 3.1-405B를 기반으로 풀튜닝한 Hermes 3를 공개했습니다. 사용자의 인스트럭션을 ‘충실히’ 잘 따르도록 훈련해서, 롤플레잉을 잘 하고, ‘Safety’의 이름으로 다른 모델들에서는 답변을 못하던 질문들에 대해서도 답을 잘 한다고 합니다. (그런데 잠깐 써 보니, 극단적인 질문들에는 역시 답을 하지 않네요 ^.^;)

  • California's controversial AI bill is on the verge of becoming law - The Platformer —> 캘리포니아주의 ‘악명높은’ AI 규제법 - 보는 관점에 따라 ^.^; - SB-1047에 대한 갑론을박이 한창입니다. 규제에 대한 관점도 한 번 따로 정리해 볼 기회가 있으면 좋겠네요.

새로 나온, 주목할 만한 연구 논문

금주의 Top Pick

  • Towards Flexible Perception with Visual Memory

    구글 딥마인드의 연구원들이 ‘이미지 분류’ 성능을 향상시키기 위해서 심층 신경망과 유연한 데이터베이스를 결합한 새로운 ‘시각 메모리 모델’을 제안합니다. 이 모델은 데이터를 쉽게 추가하고 제거할 수 있어서 재학습이 없이 개별 샘플부터 수십억 개 규모의 데이터셋까지 확장성이 높습니다. 이전의 집계 방법보다 나은 성능을 보이는 RankVoting을 도입, ImageNet에서 88.5%의 상위 1퍼센트 정확도를 달성했고, 머신 언러닝, 해석 가능한 의사 결정 등의 가능성을 보여줌으로써 명시적인 ‘시각적 메모리’의 이점을 보여 줍니다. —> [논문 보기]

  • Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability

    역시 다시 구글 딥마인드. 딥마인드 연구원들이 사실적인 콘텐츠가 완전히 통제된 지식 그래프에서 모델을 훈련시켜서 LLM의 환각을 연구했는데요. 결과적으로, 더 크고 오래 훈련된 모델은 보이는 데이터에 대해서는 착각을 덜 하지만 보이지 않는 데이터에 대해서는 여전히 어려움을 겪게 되어, 이전에 최적이라고 생각했던 것보다 훨씬 더 대규모의 컴퓨팅 자원이 필요하다는 걸 발견했습니다. 모델 규모가 커질수록 환각을 탐지하는 것이 더 어려워져서, 모델의 크기, 학습 시간, 환각의 탐지 가능성 간에 상충 관계가 있는 것으로 나타났습니다. —> [논문 보기]

  • Automated Design of Agentic Systems

    위에서 소개한 논문이죠. 브리티시 컬럼비아 대학교와 벡터 연구소의 연구자들이 기파운데이션 모델을 사용해서 에이전트 시스템을 자율적으로 생성하고 개선하는 ‘ADAS’를 제안합니다. 여기서 설명하고 있는 ‘Meta Agent Search’ 기법으로 'Meta Agent’가 코드로 반복적으로 새로운 에이전트를 프로그래밍할 수 있습니다. 논문의 실험에 따르면, 이렇게 자동적으로 만들어진 에이전트는 수학 및 독해력 등 다양한 영역에서 수동으로 설계된 최첨단 시스템보다 뛰어난 성능을 발휘하고, 서로 다른 도메인에도 그 성능이 안정적으로 잘 전이되는 것으로 나타납니다. —> [논문 보기]

새로운 모델과 기존 모델의 개선된 버전

  • Falcon Mamba 7B – 기존 트랜스포머 모델보다 성능이 뛰어난 오픈 소스의 SSLM (상태 공간 언어모델; State Space Language Model)로, 장문의 텍스트 생성 작업을 효율적인 실행합니다. —> [TII 블로그 보기]

  • Hermes 3 ‘멀티 턴 대화’와 ‘롤플레잉’에 탁월한 다목적 오픈 소스 모델로, 다양한 사이즈로 제공되며 동급 모델 대비 훌륭한 성능을 보여줍니다. —> [Nous Research 블로그 보기]

  • Grok-2는 코딩, 수학, 추론 과제에서 탁월한 성능을 발휘하는데, 사용자의 인스트럭션을 따르는 것과 환각을 줄이는 것 등에서 주요 경쟁모델을 능가합니다. —> [xAI 블로그 보기]

  • Imagen 3 – 품질과 정확성 면에서 경쟁사를 능가하고, 오용을 방지하기 위한 강건한 안전 조치가 되어 있는 구글의 고급 Text-to-Image 모델입니다. —> [논문 보기]

  • xGen-MM (BLIP-3) – 시각-언어 모달리티를 다루는 작업에 탁월하고, 단일 및 다중 이미지 입력을 모두 지원하는 고급 멀티모달 모델 프레임웍입니다. —> [논문 보기]

  • JPEG-LM – 이미지를 압축된 JPEG 파일로 생성하는 방법으로 - 특히 복잡한 요소가 있을 때 - 시각 데이터 생성을 간소화하도록 해 주는 LLM입니다. —> [논문 보기]

모델 설계 및 어플리케이션 영역의 혁신적 기법

  • Layerwise Recurrent Router for Mixture-of-Experts는 계층 간에 라우팅 정보를 공유해서 효율성과 성능을 모두 개선하는 방식으로 거대모델에서의 라우팅을 향상시키는 새로운 접근 방식을 소개합니다. —> [논문 보기]

  • Solving a Rubik’s Cube Using Its Local Graph Structure는 루빅스 큐브를 그래프로 모델링하여 해 (Solution)의 길이를 줄이면서 검색 효율을 높이는 새로운 해법을 제안합니다. —> [논문 보기]

모델의 훈련과 효율성 향상을 위한 연구

  • How to Prune and Distill Llama-3.1 8B to an NVIDIA Llama-3.1-Minitron 4B Model은 Pruning과 Distillation로 LLM의 크기를 효과적으로 줄임으로써 ‘성능은 향상’시키면서 컴퓨팅 비용을 절감하는 방법을 보여줍니다.
    —> [엔비디아 블로그 보기]

  • I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm은 LLM이 스스로 반복적으로 개선하도록 하는 새로운 접근 방식을 실험하면서, 외부 신호를 최소한으로 활용해서 지속적으로 Alignment를 조정하고 상당한 수준의 성능 향상을 가능하게 하는 방법을 보여줍니다. —> [논문 보기]

모델의 훈련 과정과 파인튜닝에 대한 이해를 위한 연구

  • Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models는 LLM의 사전 훈련과 파인튜닝 작업 간에 어떤 상호작용이 일어나는지를 조사함으로써, 사전 훈련 및 파인튜닝 프로세스가 Performance와 Task Retention에 미치는 영향을 알아봅니다.
    —> [논문 보기]

  • Can Large Language Models Understand Symbolic Graphics Programs?는 심볼릭 그래픽 프로그램 (Symbolic Graphics Program)을 이해하는 LLM의 능력을 평가하고, 이런 프로그램에 대한 이해도를 높이기 위한 새로운 벤치마크와 기법을 소개합니다. —> [논문 보기]

  • Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents는 소프트웨어 엔지니어링 에이전트의 다양한 관점의 강점을 통합해서 문제 해결 능력을 크게 향상시키는 프레임웍을 제안합니다. —> [논문 보기]

글에 대한 리뷰를 남겨주세요!

Login or Subscribe to participate in polls.

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Keep reading:

Reply

or to participate.