• Turing Post Korea
  • Posts
  • FOD#67: 오픈AI의 o1 - 샘 알트만이 꿈꾸는 '오리온 성좌 (星座)'의 '첫번째 별'

FOD#67: 오픈AI의 o1 - 샘 알트만이 꿈꾸는 '오리온 성좌 (星座)'의 '첫번째 별'

양분된 반응의 'o1', 어떻게 바라볼 것인가 + 금주의 주요 소식, 업계 동향과 연구

튜링포스트 코리아 예고:

  • AI 101: 점점 많아지고 복잡해지는 AI 용어들을 한 번 간단히 정리하는 의미에서, ‘플래시 카드’ 형식의 AI 개념 정리를 해 보겠습니다.

  • 튜링 포스트의 공동 연구 프로젝트: 우리가 가장 많이 사용하는 ‘이미지 생성 모델’의 렌즈를 통해서 바라본 베이비부머, X세대, 밀레니얼, Z세대의 공통점, 차이점, 그리고 그 시사점을 확인해 봅니다.

기대해 주세요!

오리온자리 이미지 (Urania’s Mirror, 1825) by Sidney Hall, Library of Congress

여러분, 혹시 ‘별자리 관측’ 좋아하시는 분 있나요?

오리온 자리는, 사계절 별자리 중에서도 가장 밝고 화려한 별자리라고 하는데, 겨울의 저녁 하늘에서 가장 잘 보인다고 합니다. 이 때, 오리온 자리의 베텔게우스, 리겔, 큰개 자리의 시리우스, 작은개 자리의 프로키온, 황소 자리의 알데바란, 마차부 자리의 카펠라 등 빛나는 별들이 하늘을 가득 채운 모습을 볼 수 있다고 해요.

오픈AI에서 지난 주 공개한 새로운 모델 o1. o1에 대해서 다양한 전문가들의 리뷰와 감상이 계속해서 나오고 있죠. 당연하게도, 각자의 바라보는 관점과 기대치 등에 따라서 o1에 대한 평가랄까 입장은 양분되고 있는 것 같습니다.

긍정적인 입장

  • 멘사 테스트로 o1의 추론 능력을 평가했을 때 IQ가 120으로 나왔다고 합니다. 사람의 평균 IQ가 100이라고 보면, o1은 전세계 인구 중 상위 9%에 해당하고 사람의 평균 IQ를 넘은 최초의 인공지능이라고 합니다.

  • 제가 개인적으로 가장 흥미롭게 봤던 데모 비디오는 ‘Corrupted Korean Language’ - 일부러 외국인이나 기계가 이해하지 못하게 쓴 한국어 정도라고 할까요? - 를 CoT 프로세스를 거치면서 번역하는 것이었습니다.

  • 트랜스포머 이후의 지배적 패러다임라고 할 수 있을 ‘훈련 시간의 스케일링 (Training-Time Scaling)’에서 ‘추론 시간의 스케일링 (Inference-Time Scaling)’으로 패러다임이 이동하고 있다는 Jim Fan의 의견도 흥미롭습니다. AI 모델 개발의 관점, 방향에 변화를 가져올 수 있는 인사이트인 것 같습니다.

유보 내지 부정적인 입장

  • ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) - Francois Chollet가 고안한, AI의 ‘일반화’ 능력을 평가하기 위해 만들어진 테스트죠 - 결과도 괜찮지만 그리 인상적이지는 않습니다. Claude Sonnet 3.5 수준의 결과를 보여주네요. Francois는 “알려진 추론 문제들에 대해서는 훌륭하게 작동하지만 패러다임 시프트까지는 아니다”라고 하고 있습니다.

  • 이전 LLM들이 제대로 대답하지 못했던, “strawberry 단어에 r이 몇 개인가?”라는 질문에 o1은 제대로 답을 해서 또 화제가 되기도 했는데요. 그렇지만 조금만 더 이야기를 진행시키면서 괴롭혀(?) 보면, 역시 o1도 여전히 문제를 드러냅니다.

o1을 바라보는 관점

왜 GPT-x가 아니라 갑자기 o1이라는 이름을 지었을까요? 저는 ‘o’는 아마 ‘오리온 (Orion)’의 앞자리에서 따온 걸 거라고 생각합니다. 샘 알트만이 남긴, 암호같은 트윗을 한 번 볼까요?

“I love being home in the Midwest. The night sky is so beautiful. Excited for the Winter constellation to rise soon; they are so great.”

당연히 오리온 자리는 북반구의 겨울에서 볼 수 있는 별자리죠.

‘스트로베리’라는 코드명으로 우리가 기다리던 o1이 공개되었지만, o1은 실제로 오픈AI가 그리고 있는 더 큰 시스템, 즉 ‘오리온’이라는 별자리의 별 하나에 불과하다는 걸 암시하는 거 아닐까요? o1을 발표한 이후 9월 14일, 오픈AI의 o1 개발팀이 진행했던 AMA (Ask Me Anything) 세션에서, o1은 ‘모델’이고 ‘시스템이 아니다’라는 언급도 있었습니다.

생각해 보면, 별자리가 오래 전부터 ‘내비게이션’이나 ‘스토리텔링’에 이용되어 왔다는 것도 흥미로운 부분인데요. 결국 오픈AI가 계획하고 있는 건, 더 넓고 서로 연결된 ‘시스템’에서 각각의 고유한 역할을 하는 AI 모델들의 ‘별자리’를 계획하고 있구나 싶어요 - 이 과정에서 우리에게 이야기하고 싶은 AI 시대에 대한 내러티브를 구축하고, 담론을 만들어 내겠죠.

그렇다면, 이번에 발표된 o1을 포함한 각각의 모델 - 별자리의 별 - 들이, 더 큰 관점에서 통합된 프레임웍의 각 부분을 대표하는 것이 되겠죠? 이런 여러 가지 모델들이 서로 협업하게 설계되고, 궁극적으로는 통합된 ‘하나’로서 추론이나 탐색, 의사결정 능력 등을 크게 향상시키는 모습으로 만들어갈 겁니다. 마치 하늘에 더 있는 별들이 정렬해서 패턴을 형성하듯이, 각 구성 요소가 목적에 맞도록 정렬되는, ‘새로운 종류의 AI 생태계’ 같은 것 말이죠.

o1을 통해서 들여다보는, 오픈AI가 시도하는 ‘에이전트’의 단초

자, 다시 o1으로 돌아가죠. 머신러닝 연구자 네이선 램버트 (Nathan Lambert)가 ‘Interconnects’의 o1 분석에서 언급한 내용을 인용하자면, “o1은 앞으로 우리가 보게 될 ‘언어모델 에이전트’에 대한 하나의 단초”라고 할 수 있는데, o1이 강화 학습, 검색기반 추론, CoT (Chain-of-Thought) 메커니즘 등을 결합해서 더 발전된 ‘자율적인 AI 시스템 개발의 방향’을 보여주었기 때문입니다. o1은 단순한 언어모델이 아니라, 지능형 에이전트의 미래를 보여주는 큰 그림의 일부분이고, 그렇기 때문에 시스템을 구성하는 하나의 조각으로 보아야 할 것 같습니다.

그래서, o1은 굳이 비교하자면 ‘챗GPT’보다는 ‘GPT-3’에 가까운 무언가라고 할 수도 있을 것 같습니다 - 출시할 때부터 명확한 Value Proposition이 있고, 즉각적으로 사용자들이 어떻게 무엇에 사용하면 될지 파악할 수 있는 PMF (Product-Market-Fit)가 주어졌던 챗GPT와는 좀 다르게, 좀 불분명하지만, AI의 미래를 열 수 있는 잠재력을 지닌 그 무언가라는 관점에서요. 그래서 o1은 우리 모든 사람들이 다양한 유즈케이스에서 사용할 수 있는 AI 모델은 아닐 겁니다.

앞으로, o1을 시작으로 ‘새로운 AI의 가능성’을 탐색하는 접근법과 모델들이 계속 나올 텐데요. ‘o1의 등장과 함께 앞으로 자주 나올 용어들에 익숙해진다’는 관점에서 아래 용어들 쭉 한 번 살펴보고 기억해 놓으시면 좋을 것 같습니다.

q*, Strawberry, o1 정리. Credit: Turing Post

  • 강화학습 (RL; Reinforcement Learning)
    o1 훈련에 사용된 기법으로, 모델의 행동이나 추론에 따라 피드백(보상)을 제공해서 모델을 개선하도록 합니다. RL을 통해서 o1은 다양한 추론의 방식을 시도하고, 실수를 통해 학습하며, 지속적으로 개선할 수 있습니다.

  • 강화학습 기반의 검색 알고리즘 (RL-Based Search Algorithm)

    문제를 더 효율적으로 해결하기 위해 o1이 추론 공간에서의 검색을 잘 하도록 도와주는 강화학습 기법을 말합니다.

  • Chain-of-Thought (CoT) 기반 추론

    사람이 복잡한 문제를 단계별로 해결하는 방식과 유사하게, 모델이 복잡한 작업을 작은 단계로 세분화하고 체계적으로 처리하는 프로세스입니다. 이런 기법을 사용해서 더 정확한 결론을 도출할 수 있습니다.

  • 추론 시간 스케일링 (Inference-Time Scaling)

    대부분의 AI 모델에서, 헤비한 계산 작업은 모델의 트레이닝 중에 이루어지는데, o1에서는 추론 중에 실제 연산 작업이 많이 일어납니다. 작업의 복잡성이 증가하게 되면, o1은 응답을 생성할 때 다이나믹하게 계산을 확장하면서, ‘생각하는 데 더 많은 시간을 할애’합니다.

  • 테스트 시간 계산의 스케일링 (Test-Time Compute Scaling)

    문제를 해결하는 작업을 수행할 때 모델이 더 많은 컴퓨팅 자원을 할당하는 방식으로, 컴퓨팅 성능을 높이는 만큼 추론 능력을 향상시킬 수 있습니다. 스케일링은 문제의 해결 과정에서 실시간으로 일어납니다.

  • Self-Play 강화 학습 (Self-Play Reinforcement Learning)

    바둑 같은 게임을 마스터하는 방식과 유사하게, AI 모델이 독립적으로 문제를 해결하면서 학습하는 방식입니다. o1에서 이 기법은 실제 문제를 해결하는 단계에서 의사 결정 과정을 개선하는 데 도움을 줍니다.

  • 숨겨진 ‘추론 토큰’ (Hidden Reasoning Tokens)

    o1이 문제를 추론하는 동안 내부적으로 수행하는, 외부에는 보이지 않는 단계이빈다. 추론 토큰을 이용해서 o1 모델이 ‘생각’하고 프롬프트에 대한 이해, 분석을 하고 여러 턴을 거쳐 응답을 생성하는 등 여러가지 접근 방식을 고려하게 해 줍니다. 단, 모델의 컨텍스트 윈도우 공간을 차지하므로, 개발자는 추론 토큰의 규모를 고려해서 컨텍스트 윈도우를 관리해야 합니다.

  • AIME와 ARC 벤치마크

    특히 수학, 과학 분야에서 o1의 ‘일반화된’ 문제 해결 및 추론 능력을 측정하는 데 사용하는 테스트라고 정리하면 될 것 같습니다. o1이 이런 테스트에서 GPT-4, Claude Sonnet 3.5를 능가한 것은 사실이지만, 그 차이가 극적이라고 할 수는 없을 것 같습니다.

o1에 대한 더 상세한 내용, 평가, 전문가의 의견 등이 궁금하시면 아래 링크들 참조해 보시면 좋겠습니다:

트위터 라이브러리 (Twitter Library) 🐦

코딩을 해 주는 LLM이 계속 등장하고 있지만, 코드 생성 과정의 효율성, 정확성을 높일 수 있는 방법을 찾아내고 정리하는 건 여전히 중요합니다. 튜링 포스트 코리아에서 LLM이 생성하는 코드의 품질을 개선하도록 도와주는 7가지 기법을 정리해 봤습니다:

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

업계 전문가들이 추천하는 AI 서비스 👍🏼

  • 오랜만에 돌아왔습니다 ^.^ 오늘은 Vercel의 V0를 소개합니다. V0는 대화형 인터페이스로 어떤 형태의 UI든 만들 수 있도록 도와주는 도구인데요. TypeScript, React, Next.js, Vercel을 포함한 많은 프론트엔트 기술을 잘 아는 웹 개발 전문가를 비서로 옆에 두고 일하는 것 같은 경험을 선사합니다. ‘Midjourney of Coding’이라고 부르는 개발자들도 많고, X를 보면 일본 개발자들도 많이 활용하고 있는 것 같습니다 - 프론트엔드에 대한 ‘미감’이 우리나라와 일본이 얼마나 비슷한지는 모르겠지만, 저도 한 번 테스트해 볼까 합니다. ^.^

금주의 주목할 만한 업계 동향 📰

마이크로소프트, ‘더 나은 AI를 위한 UI 계층’을 강조한 코파일럿 웨이브 2

  • 지난 16일, 마이크로소프트가 ‘MS 365 웨이브 2’ 온라인 이벤트에서 코파일럿을 중심으로 한 AI 기능을 업그레이드하면서 새로운 기능을 공개했습니다. CEO인 사티아 나델라는 “LLM 자체는 점점 Commodity화되어 갈 것이고, 결국 AI의 가치가 사업자의 데이터와 워크플로우에 LLM을 얼마나 잘 매끄럽게 통합하는가, 그리고 사람 - AI 간 상호작용을 원활하게 할 수 있는가에 달려 있다”고 강조하면서, AI 기반 생산성 도구로서의 코파일럿의 의미와 강점을 강조했습니다.

월드 랩스 (World Labs) - ‘AI의 다음 차원’을 기치로 출범

  • 페이페이 리 (Fei-Fei Li)가 주도하여 설립한 월드 랩스는 3D로 인식하고 상호 작용할 수 있는 LWM (Large World Models; 거대 세계 모델)을 통해 달성하게 될 ‘공간 지능’에 주목한다고 합니다. 2D를 넘어서, 가상 영역 뿐 아니라 실제 세계 대상의 어플리케이션에 이르기까지, AI가 세상을 이해하는 방식을 한 단계 혁신하는 것이 이 회사의 목표입니다. 2억 3천만 달러의 투자 자금, 그리고 유명 투자자들의 지원을 등에 업고, 과연 3D 기반의 세상에 대한 이해를 할 날이 곧 올지 어떨지 주목됩니다.

오픈AI의 1,500억 달러짜리 질문: “기업 구조를 어떻게 가져갈 건가?”

  • 오픈AI가 추진하고 있다고 알려진, 65억 달러 규모의 다음 펀딩 라운드에는 ‘투자자의 수익 상한선을 없애기 위해서 오픈AI의 비영리 조직 구조를 재구성해야 한다’는 조건이 붙습니다. 과연 오픈AI가 1,500억 달러짜리 기업이 될 것이냐가 이 조건이 가능하냐 아니냐에 달려 있는데, 초기 투자자와 후원자들에게 막대한 수익을 약속하는 동시에, 회사가 추구하는 상업적인 야망과 AI 안전의 균형을 맞추려는 회사의 사명 사이에서 여러 이해관계자들이 우려하고 있는 것도 사실입니다. 어찌보면 도박에 가까운 이 베팅, 투자자들은 기꺼이 위험을 감수하려고 하는 것 같은 분위기네요.

세일즈포스의 ‘에이전트포스 (AgentForce): 개인화된 자율형 AI 에이전트 도구

  • 세일즈포스가 현지 시간 17일 샌프란시스코에서 열린 드림포스에서 ‘AI-기반의 자율형 에이전트’인 AgentForce를 공개했습니다. 사전에 구축한 템플릿을 기반으로, 영업, 서비스, 마케팅 등 고객 접점에서 자율 에이전트를 활용할 수 있게 도와주는 Low-Code 플랫폼이라고 합니다.

오라클의 제타스케일 (Zettascale) 야망: 클라우드 AI의 새로운 시대를 열다

  • 오라클은 AI 워크로드에 대응하기 위해서 최대 131,072개의 엔비디아 블랙웰 GPU를 탑재한 최초의 제타스케일 클라우드 슈퍼컴퓨터를 공개했습니다. 2.4 제타플롭스의 최고 성능을 자랑하는 이 슈퍼컴퓨터는, 대규모의 AI 처리 용량을 필요로 하는 업계의 판도를 바꿀 것으로 평가받고 있는데요. Zoom과 WideLabs는 이미 오라클과 파트너십을 맺고 혁신을 추진하고 있습니다.

일론 머스크, ‘하늘’도 독점하나: 위성의 3분의 2를 차지한 스페이스엑스

  • 일론 머스크의 스페이스엑스가, 하루에 약 3개의 위성을 추가하고 있는 Starlink Constellation에 힘입어 전체 활성 위성의 62% 이상을 손에 넣고 있습니다. 지구 저궤도에 6,300개 이상의 위성을 보유한 스페이스엑스는 전 세계 인터넷망을 커버하기 위해서 42,000개까지 위성 수를 늘리는 것을 목표로 하고 있습니다 - 정말 대단하네요.

허깅페이스 - 제로GPU (ZeroGPU) v2

  • 허깅페이스가 소규모 기업이나 학계에 무료로 GPU 자원을 사용할 수 있도록 하는 ‘제로GPU’ 프로그램의 v2를 공개했습니다.

👯‍♀️ 핫(Hot)한 모델들 👯‍♀️ - o1만큼 주목받지는 못했지만 꼭 체크해야 할 모델들

  • 구글의 ‘DataGemma’ - AI의 환각 (Hallucination)과 팩트 체크로 싸운다
    구글이, 언어 모델을 광범위한 Data Commons의 실제 데이터와 연결한 최초의 개방형 모델, DataGemma를 소개했습니다. 2,400억 개의 데이터 포인트를 기반으로 하는 이 모델은 ‘팩트’에 기반한 응답을 함으로써 AI 환각 문제를 해결하고자 합니다. 새로운 RIG 및 RAG 기법을 활용해서 응답의 정확도와 신뢰성을 향상시켜서, LLM 기반 어플리케이션의 신뢰성을 높여줍니다.

  • 미스트랄의 Pixtral 12B - ‘백문이 불여일견’
    오픈AI의 대항마로 프랑스에서 키우고 있는 AI 스타트업 미스트랄이, 텍스트와 이미지를 모두 처리할 수 있는 120억 개 파라미터의 멀티모달 모델 ‘Pixtral 12B’를 출시했습니다. 사진에 캡션을 달거나 물체 갯수를 세는 등, Pixtral은 ‘AI 이미지 이해’ 분야의 선두주자가 되겠다는 목표를 세우고 있다고 합니다. Apache 2.0 라이센스로 공개되었습니다.

새로 나온, 주목할 만한 연구 논문

금주의 Top Pick

LLM과 아키텍처

  • Theory, Analysis, and Best Practices for Sigmoid Self-Attention: 언어, 시각, 음성 작업 전반에서 안정성과 속도를 높여주는데 널리 사용되는, Softmax 어텐션의 대안을 제시합니다. —> [논문 보기]

  • What is the Role of Small Models in the LLM Era: 리소스가 제한되어 있는 특정한 작업에 대한 비용 및 효율성 관점의 이점을 중심으로, 소형 모델이 LLM과 함께 조화롭게 수행할 수 있는 역할을 조사, 공유합니다. —> [논문 보기]

  • Configurable Foundation Models: Building LLMs from a Modular Perspective: LLM을 ‘모듈식 접근 방식’으로 동적으로 재구성하고 수행하는 작업을 전문화해서, LLM의 확장성과 효율성을 개선하는 방법을 보여줍니다. —> [논문 보기]

멀티모달 모델과 시각-언어 통합

  • Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation: 시각 데이터 생성을 위한 자동 회귀 모델을 제안하는데, 이 모델을 통해서 이미지의 품질을 더 개선하고 시각적 작업을 위한 대규모 어휘를 잘 관리할 수 있는 방법을 제시합니다. —> [논문 보기]

  • MMEVOL: Empowering Multimodal Large Language Models with EVOL-Instruct: 한층 진화된 이미지-텍스트 Instruction으로 멀티모달 LLM을 성능을 개선, 전반적인 시각-언어 작업 성능을 향상시키는 법을 보여줍니다. —> [논문 보기]

  • Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments: 재교율을 하지 않고도 멀티모달 학습을 통해서 새로운 환경에서 로봇이 주어진 작업을 수행할 수 있도록 지원, 다양한 환경과 설정 하에서 적응력을 발휘하도록 합니다.
    —> [논문 보기]

  • LLAMA-OMNI: Seamless Speech Interaction with Large Language Models: LLM과 실시간으로 음성 기반 상호작용을 할 수 있는 모델을 소개하는데, 전사 (Transcription)를 하지 않고도 텍스트와 음성을 생성할 수 있어서 Latency를 크게 단축할 수 있습니다. —> [논문 보기]

  • UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity: 자기 지도 학습을 근간으로, 온스크린 활동 정보에 근거해서 사용자의 의도를 예측함으로써 UI 인터랙션 예측의 계산 비용과 지연 시간을 줄여줍니다. —> [논문 보기]

모델의 최적화, 효율성 제고 및 성능 개선

  • OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs:
    생성 및 검색 작업을 단일 모델 패스로 병합하여 RAG (Retrieval-Augmented Generation)이나 Entity Linking (엔티티 연결) 등의 작업 성능을 개선하기 위해서, ‘생성’과 ‘검색’ 작업을 한 번의 모델 패스로 합쳐서 수행하는 기법을 제시합니다. —> [논문 보기]

  • MEMORAG: Moving Towards Next-Gen RAG via Memory-Inspired Knowledge Discovery: 장기 기억 메커니즘을 활용해서, 복잡하거나 모호한 쿼리가 있는 작업의 정확도와 성능을 향상시키는 ‘메모리 강화 검색 시스템’을 소개합니다. —> [논문 보기]

  • SARA: High-Efficient Diffusion Model Fine-Tuning with Progressive Sparse Low-Rank Adaptation: 작업을 수행할 때 전반적으로 높은 성능을 유지하면서, 메모리 비용을 줄이기 위해 Sparse LoRA (Low-Rank Adaptation) 기법을 사용하는 확산 모델의 파인튜닝 방법을 제시합니다. —> [논문 보기]

  • Agent Workflow Memory (AWM): LLM 에이전트가 사용할 수 있는 ‘재사용 가능한 워크플로우’를 저장하는 메모리 시스템을 도입, 과거의 작업 경험을 다시 활용해서 Long-term의 작업을 보다 효율적으로 완료할 수 있다는 걸 보여줍니다. —> [논문 보기]

  • Towards a Unified View of Preference Learning for Large Language Models: 피드백 시스템을 통해 개인화 및 상호작용을 개선하는 데 중점을 두고, LLM을 Human Preference (사람의 선호도)에 맞추기 위한 전략들을 조사합니다. —> [논문 보기]

  • Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources: 실제 데이터를 활용해서 높은 품질의 합성 데이터를 생성, 복잡한 추론 작업에서의 LLM 성능을 향상시킵니다. —> [논문 보기]

3D 장면 재구축, 가우시안 스플래팅

  • gsplat: An Open-Source Library for Gaussian Splatting: 3D 장면 재구축을 위한 오픈소스 라이브러리를 제공, 가우시안 스플래팅 모델에서 메모리 사용량과 훈련 시간을 줄여줍니다. —> [논문 보기]

  • Instant Facial Gaussians Translator for Relightable and Interactable Facial Rendering: 실시간으로 크로스 플랫폼에서 페이셜 애니메이션 및 렌더링을 지원하는 가우시안 스플래팅 방법을 제안합니다. —> [논문 보기]

  • FlashSplat: 2D to 3D Gaussian Splatting Segmentation Solved Optimally😀 선형 프로그래밍을 사용해서 속도 (Speed)와 견고성 (Robustness)을 개선하는 효율적인 3D 세그먼테이션 기법을 소개합니다. —> [논문 보기]

시스템 벤치마크와 에이전트 평가

  • PingPong: 캐릭터의 일관성, 상호작용의 품질과 같은 요소를 평가하는 멀티턴 대화 벤치마크를 통해서 LLM의 롤플레잉 능력을 평가하고자 합니다. —> [논문 보기]

  • SUPER: 리포지토리로부터 연구 작업을 재현하는 LLM을 평가하는데 사용할 벤치마크를 소개하는데, 작업 실행 및 오류 처리에 있어서의 어려움을 보여줍니다. —> [논문 보기]

  • WINDOWSAGENTARENA: 탐색 (Navigation), 도구 사용 (Tool Usage) 및 코딩 (Coding)에 중점을 두고 Windows OS 작업에서 멀티모달 에이전트의 성능을 평가할 수 있는 확장 가능한 벤치마크를 개발하고자 합니다. —> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.