나와 맞는 코딩 에이전트를 잘 고르고 잘 사용 - 또는 협력 - 한다는 것

AI 기반의 코딩 도구, 코딩 에이전트. 요즘 그 어떤 AI 도구보다도 아주 큰 관심을 받고 있는 토픽이죠?

저도 몇 가지 코딩 에이전트를 조금씩 사용해 보면서 저한테 잘 맞는게 뭘까 시험해 보고 있기는 합니다만, 여러분은 어떠신가요?

Focus AI의 Will Schenk와 함께 15가지 코딩 에이전트들을 직접 사용해 본 후의 평가를 해 봤는데요. 도구를 쓰는 ‘재미’ 관점에서는 어떤 도구가 높은 순위를 차지하고 있을까요? - 뭐가 됐든 ‘재미’, ‘감정’적인 요소를 빼놓는다면 제대로 된 평가가 아니지 않겠어요? ^.^

Will Schenk의 코딩 에이전트 ‘재미’ 평가. 여러분은 어떻게 느끼셨나요? ^.^

종합적으로, 개발자의 유형별로 추천할 만한 코딩 에이전트 조합은 이렇습니다: (절대적인 기준과 절대적인 평가가 아니니, “이건 써볼만 하다” 싶은 조합이라는 의미로 참고만 하세요 ^.^)

👨‍💻 시니어 개발자를 위한 궁극의 조합: Cursor + Warp

개발을 업으로 삼는 개발자라면, Cursor + Warp 조합이 최고라고 봅니다. 작업의 플로우는 이렇게 흘러갑니다:

  1. 아이디어 정리는 ChatGPT나 Claude 같은 LLM으로 시작

  2. Cursor Background Agentproduct-brief.md를 바탕으로 프로젝트 핵심 구현

  3. Cursor IDE에서 세밀한 코드 수정 — 이때 주의할 점:

    • 현재 코드 상태를 파악하게 유도할 것

    • 테스트 코드를 먼저 작성하게 할 것

    • active-context.md를 잘 유지할 것

  4. 배포 단계에선 Warp 터미널로 전환 → GitHub Actions, 배포 스크립트 등 커맨드라인 작업을 깔끔하게 처리

이렇게 하면, 전체의 흐름이 아주 매끄럽고, ‘미래의 개발 환경’이라는 표현이 전혀 과장이 아니라고 해요.

💼 비즈니스 사용자 & 일반 유저용: Replit

실제 닥친 문제를 빨리 해결하고 싶고, 플랫폼 락인(Lock-in)에 크게 신경 쓰지 않는다면? Replit이 가장 쉬운 선택입니다.

Replit은 완전히 통합된 개발·배포 환경이고,

  • 시각적 플래너 UI도 훌륭하고,

  • 백엔드 서비스도 클릭 몇 번이면 연동 가능하고,

  • 그냥 ‘잘 작동’합니다.

다만 주의할 점은, 이 선택은 ‘Replit 세상에 살겠다’라는 결정을 하는 거라는 점이예요. 예를 들어서, 테스트 중에 "Docker 컨테이너화는 이 개발 환경에선 지원되지 않습니다"라는 메시지를 받게 될 겁니다. Replit에서 제공하는 규칙에 따라 움직여야 돼요.

🎨 제품 디자이너와 UI 목업용: v0 (Vercel)

UI 목업(Mock-up)을 빠르게 만들고 싶고, 개발팀과 디자인의 비전을 공유하고 싶다면? v0가 최고입니다.

Vercel에서 만든 툴인 만큼 Next.js를 완벽히 지원하고, 버튼 한 번으로 배포까지 가능한 수준의 자동화. 게다가 만들어지는 프론트엔드 코드가 ‘진짜 근사한 현대적인 부트스트랩 스타일의 MVP’ 수준으로 나옵니다.

🧭 프로젝트/프로덕트 매니저를 위한 관찰 포인트: Copilot Agent 또는 Jules

아직은 다듬어지지 않은 부분이 많지만, SDLC(소프트웨어 개발 생명 주기) 전반에 가장 깊게 통합될 가능성이 높은 도구들이라고 봅니다.

특히 Copilot Agent는 GitHub 생태계와 강력하게 통합돼 있어서, 기업 시장을 선점할 가능성이 매우 높다고 봅니다. 아직은 과도기지만, 제대로 성장하면 세상을 바꿔놓을지도 몰라요.

🧪 하드코어 개발자 & 실험가라면: RooCode / Goose

로컬에서 모델을 직접 돌리고, 모든 걸 내 손으로 제어하고 싶다? 그렇다면 이 두 가지가 가장 잘 맞을 겁니다.

  • RooCode는 VSCode용 확장판이고, 어떤 LLM이든 꽂아 쓸 수 있는 유연성이 정말 뛰어납니다. 어떤 개발자들은 “이 도구가 존재한다는 사실만으로 세상이 더 나아졌다고 느껴질 정도”라는 평가도 있었죠.

  • Goose는 CLI 기반 툴로, 진정한 ‘주권 개발자(Sovereign Developer)’를 위한 선택입니다.

저는 Replit을 중심으로 제가 하고 싶은 작업들을 - 초기입니다만 - 조금씩 해 보고 있는데, 다른 도구들의 재미는 어떤지 한 번 생각해 봐야 할 것 같습니다.

그런데, 이제 시작한다고 볼 수 있는 제 입장에서도, 코딩 에이전트를 쓰다가 다양한 ‘감정’을 느끼게 되는 것만은 맞는 것 같습니다 - 깜짝 놀라다가도 어떨 때는 너무 답답해서 미치겠고 말이죠 ^.^; 그래서, 코딩 에이전트에게 꽥꽥 소리를 지르지 않고서도 원하는 결과를 얻을 수 있게끔 하는, 참고할 만한 가이드를 한 번 정리해 봤습니다 😆

1. 코딩 에이전트에게 빈정거리거나 삐친 태도를 보일 필요는 없습니다.

코딩 에이전트는 우리가 하던 일을 대신 하게끔 맡기는 대상이죠 - 아주 말을 잘 듣고, 인내심도 끝내주는 수준이예요.

어쩔 땐 깜짝 놀랄만한 결과를 내놓기도 하고, 어쩔 땐 기가 막히게 멍청한 짓을 하기도 하구요. 가끔은, 일부러 말을 안 듣는 건가 싶기도 해요 - 그냥 진짜 내가 타이핑을 한 그대로만 딱딱 작업을 하면서, 오히려 날 방해하려는 건가 싶은 느낌이 들 때도 있구요.

결국 어느 순간, 짜증이 폭발해서 에이전트한테 화를 내고 싶어질지도 모릅니다. 모니터 앞에서 혼잣말로 "대체 왜 이러는 거야!" 소리를 지르거나, 키보드를 내리치게 될 지도요. 가끔은 그런 감정적 반응이 잠깐 효과를 낼 수도 있겠지만, 그러지 마세요.

그럴 땐 잠시 멈추고 심호흡을 하세요. 일단 침착하게, 문제가 없던 시점으로 되돌아가서, 에이전트에게 상황을 더 잘 이해할 수 있도록 설명을 덧붙여 주세요. 원래의 코드 상태를 검토해 보게 하고, 함께 계획을 세워보는 게 훨씬 좋은 방법입니다.

2. ‘오랫동안 작업을 했다’ ≠ ‘대단히 훌륭한 에이전트다’

사람들하고 일할 때도 이건 마찬가지죠.

“Claude가 코드베이스를 리팩토링하면서 7시간 동안 작동했다.” 이건 자랑이라고 생각할 수 있지만, 사실은 그런 게 아니죠. Will Schenk가 테스트한 케이스 하나를 보면, Copilot 에이전트가 30분 걸린 작업을 Jules는 6분 만에 끝낸 경우도 있어요. 결과가 5배 더 뛰어났던 게 아니라, 단지 5배 더 오래 걸린 것뿐이죠.

‘기술적으로’ 보면 에이전트가 작업에 꾸준히 집중했다는 점은 멋진 걸 수 있지만, 저는 이걸 “5배 더 멍청하다”는 뜻으로 받아들입니다. 그 작업을 30초 만에 끝냈다면 훨씬 더 인상적이었을 겁니다.

3. 소프트웨어 개발 생명주기(SDLC), 그 맥락에 맞춰서 도구를 고르고 협업하세요.

지금 하는 작업이 단발성으로 스크립트를 짜는 건가요? 아니면 어떤 실험 중이신가요? 그것도 아니면, MVP에서 시작해서 제대로 된 제품을 만들어가는 과정에 있는 건가요? 혹은, 그런 수준을 넘어서 SRE (Site Reliability Engineer)가 출품할 만큼 견고한 운용 시스템을 만들고 있는 건가요?

이런 각각의 작업, 개발의 단계, 그 맥락은 정말 중요합니다 - 에이전트한테 뭘 어떻게 시킬지가 여기서 정해질 테니까요.

물론, 정답은 없어요. 어느 하나가 더 낫다는게 아니라, 어떤 일을 하고 있는가에 따라 달라지는 걸 겁니다. 빠른 실험을 원한다면 Dynamic Typing이 나을 수도 있고, 장기적인 운용을 염두에 두는 작업이라면 Static Typing이 나을 수도 있죠 - 이것조차 꼭 그렇다는 건 아니니까요.

이런 맥락에 맞게 몇 가지 AI 기반 코딩 에이전트를 사용할 수 있어야 할 테고, 에이전트가 그런 상황에 맞는 코드를 짜게 하려면, 그 작업의 성격과 목적을 명확히 전달해야 합니다. 아니라면, 과도하든, 부적절한 해결책이든, 당신이 원하지 않는 결과가 나올 수 있을 거예요.

4. ‘격식’을 버리게 하세요.

기업용을 염두에 두고 만들어진 코딩 에이전트일수록, 어찌보면 쓸데없는 격식, 형식을 많이 갖추려는 경향을 보인다고 해요. 그래서 그런 에이전트에게는 계속해서, “간단하게 해 달라”고 반복해서 요청해야 합니다.

모든 걸 한 파일에 인라인으로 넣어도 잘 작동하는 상황에서는 - 그 이상이 필요하지 않은 맥락이 있는 상황에서는, 굳이 빌드 시스템이니 모듈화된 여러 파일 구조니 하는 건 필요하지 않을 가능성이 있잖아요? 게다가, 아마도, 미래의 당신이 어차피 또 다른 에이전트를 시켜서 이 코드들을 정리할 가능성이 높아요. ^.^

5. ‘기술 부채 (Technical Debt)’, 이제 달라진 성격에 맞게 접근하세요.

기술 부채(Technical Debt), 즉 시스템을 변경하거나 유지보수하는 데 앞으로 추가로 들어갈 작업량을 뜻하는 개념이죠. AI 에이전트의 시대에는 기술 부채를 해결하는 시간과 비용이 극적으로 줄어들 수 있습니다.

리팩토링, 정적인 분석, 테스트 작성, 스타일 정리, 뭐가 됐든 이제 ‘나중에 할 일’로 미뤄놓을 필요없이 그 자리에서 처리할 수 있는 시대가 왔습니다 - AI에게 지시해서 실시간으로 기술 부채를 0으로 만드세요.

6. ‘코딩의 규칙’이 모든 것을 지배합니다.

에이전트를 여러 번 계속해서 실행하면서, 당신이 원하는 방향으로 잘 작동하게 만들고 싶다면? ’규칙(Rules)’이 아주 중요합니다.

가능하다면, 코드가 들어 있는 저장소(Repository) 안에, 코드를 작성하는 방식과 표준에 대한 규칙들을 함께 문서화해 두세요.

사실, 이미 인프라 정의를 코드로 관리하는 시대에 우리는 들어섰습니다. 이제는 개발을 진행하는 프랙티스도 저장소에 담을 차례겠죠.

대부분의 코딩 에이전트들은 일정한 규칙에 따라 작동하도록 조정이 되어 있습니다. 예를 들어서:

  • Cursor.rules 디렉터리를 사용합니다.

  • ClaudeCLAUDE.md라는 파일로 규칙을 정의합니다. (Claude 코드 베스트 프랙티스를 읽어보면 많은 걸 배울 수 있습니다.)

이러한 규칙들은 특정한 파일에 적용싴ㄹ 수도 있고, 저장소 전체에 적용시킬 수도 있습니다. 중요한 건, 다시 말씀드리지만, 선호하는 개발 방식, 아키텍처의 패턴, 기타 지침들을 명시적으로 문서화하는 것입니다.

샘 알트만이 보여준, 초지능 시대를 바라보는 ‘아버지’의 시선?

샘 알트만이 최근 몇 주 동안 팟캐스트와 블로그를 오가면서 ‘슈퍼 인텔리전스(Superintelligence)’에 대한 새로운 비전을 적극적으로 공유하고 있죠. 그런데 그 변화의 출발점은 의외로 개인적인 경험이었나봐요 - 바로 부모가 된 겁니다!

샘 알트만이 포스팅한 사진

이전에 주로 AGI(범용 인공지능)에 대한 이야기를 많이 했다면, 지금은 그보다는 훨씬 실용적인 시선에서 ‘AI가 어떤 과학적 진보를 가능하게 만들 것인가’에 집중하는 듯합니다. 샘 알트만은 “지금 태어난 아이들은 AI가 늘 존재하던 세상에서 자라게 될 것이고, 우리가 지금 살아가는 시대를 원시시대처럼 바라보게 될 것”이라고 이야기하기도 하는데요.

이런 일종의 ‘관점의 변화’ - 이 시대를 이끄는 기술 리더의 하나로서 샘 알트만을 어느 정도 인간적인 존재로 다시 보이게 만들기도 하는 것 같습니다. 냉정한 시선으로 기술 기업을 이끄는 사람이 동시에 부모로서 아이들의 세상을 상상하는 모습, AI의 진보를 훨씬 현실적이고 따뜻하게 느끼게 해 주네요.

안드레 카파시: “우리는 지금 소프트웨어 3.0 시대의 초입에 있다”

테슬라의 AI 디렉터, 오픈AI의 공동창립자였던 안드레 카파시는, 지금의 AI 혁신을 ‘새로운 컴퓨팅 시대로 규정’하고 있습니다. 와이컴비네이터의 ‘AI 스타트업 스쿨’ 행사에 참여한 안드레 카파시는, 이 시대를 ‘소프트웨어 3.0’이라고 부르면서, LLM이 일종의 운영체제 혹은 새로운 종류의 컴퓨터처럼 작동한다고 생각한다고 밝혔습니다:

안드레 카파시가 강조한 포인트들은 다음과 같습니다:

  • 자연어(영어)가 새로운 프로그래밍 언어가 되었고

  • AI는 인간을 대체하기보단 강화(Augmentation)하는 방향이 중요하고

  • 우리가 아직 발견하지는 못했지만, 새로운 GUI(그래픽 사용자 인터페이스)가 AI 활용의 열쇠가 될 것이라는 점입니다.

또, AI 에이전트를 ‘인터넷에 존재하는 인간의 정신(Spirit)’이라고 표현하기도 했는데요. 마치 미야자키 하야오의 세계관에 나오는 정령들처럼, 인터넷 속에서 우리를 대신해서 끝없이 일하는 존재들이죠.

안드레 카파시가 이야기한 비전은 단순하게 기술이 이렇게 변화한다는 예측을 넘어서, AI 시대의 삶과 제품을 재설계하는 사고방식의 전환을 제안하는 하나의 단초라고 봐야 할 것 같습니다.

이제, ‘기능’을 넘어서 ‘나를 즐겁게 해 주는’ 코딩 에이전트를 찾아 잘 협력하는 방법을 찾고 있고, 샘 알트만은 부모가 되어서 AI를 통한 인간 성장의 가능성을 이야기하고, 안드레 카파시는 새로운 운영체제로서의 AI를 통해서 기술 자체가 재구성되는 모습을 상상하고 있습니다.

출발점은 조금씩 다르지만, 이 세 가지 케이스 모두 AI가 기술의 영역을 훌쩍 뛰어넘어서, 인간과 사회를 다시 설계하는 시대를 향해 나아가고 있는 지금의 현실을 극명하게 드러내는 것 아닌가 합니다.

그렇다면 지금, 우리 앞에 놓인 가장 중요한 질문은:

“이 거대한 전환의 시대에, 나는 어떤 태도, 어떤 기준으로 참여할 것인가?”

하는 걸 겁니다.

AI를 통한 진보는, 이미 선택할 수 있는 것이 아니라 빠르게 전개되고 있는 현실입니다. 이제 중요한 것은, 그 흐름을 수동적으로 따라가는 게 아니라, 그 안에서 나 스스로의 위치를 새롭게 정의하는 일입니다.

트위터 라이브러리 (Twitter Library) 🐦

많은 회사들이 뛰어난 추론 능력을 가진 모델을 개발, 릴리즈하고 있는데요. 때로는, 실제 작업에서는 그게 병목이 되는 경우도 여전히 많습니다.

이번 주에는 LLM이 좀 더 일관된 논리, 계획 수립, 깊이있는 사고를 하게끔 도와주는 강력한 기술들 몇 가지를 살펴보겠습니다:

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

튜링 포스트 코리아팀이 읽고 있는 것들

구글 번역의 사례를 통해서, AI 도구가 겉으로는 똑똑해 보여도 맥락과 뉘앙스를 잘 놓칠 수 있다는 점을 보여주는 글입니다. 코딩 에이전트도 단순히 코드만 잘 짜는 게 아니라, 왜 이 코드가 필요한지를 이해하게끔 도와줘야 진짜 협업이 된다는 게 글의 핵심 논지네요.

AI 훈련용 봇들이 박물관·도서관 같은 문화유산 사이트를 무분별하게 크롤링하면서, 실제로 여러 기관들의 서버를 느려지게 하거나 다운시키는 일이 벌어지고 있다고 하네요. 봇들이 robots.txt도 무시하고 수천 개 IP로 자료를 긁어가다 보니, 일부 기관들은 IP 차단, 로그인 강제 같은 조치를 취하고 있지만, 이런 제한은 오픈 액세스를 위한 철학과도 충돌하고 운영의 부담도 크죠. 문화 컨텐츠를 보호하면서도 AI의 지속적 개발을 가능하게 하는 새로운 기준이 필요한 시점인 것 같습니다.

“AI는 준비됐지만, 당신의 회사는 준비됐나요?”라는 질문을 던지는 글입니다. 기술은 빠르게 발전하고 도입하는데 드는 비용은 줄었지만, 대부분의 기업은 아직 이 기술을 제대로 활용하지 못하고 있습니다. 이유는 명확하죠 — 신뢰의 부족, AI 활용 경험의 부족, 조직 내 변화에 대한 준비의 미흡. 결국 AI 도입은 아직 도구 수준에 머물러 있고, 진짜 변화는 AI를 워크플로우에 깊이 통합하고 실험하며 학습하는 조직만이 만들어낼 수 있다는 게 핵심 메시지입니다.

개발자도 ‘내부 창업가’처럼 일할 수 있다고 - 어쩌면 그렇게 해야 한다고 - 말합니다. 단순히 시킨 일만 하는 게 아니라, 스스로 문제를 찾고 해결책을 제안해서 끝까지 밀어붙이는 게 진짜 영향력을 만든다는 거죠. 구글처럼 큰 회사에서도 이런 주도적인 태도를 가진 사람이 더 빨리 성장합니다. 핵심은 기술뿐 아니라 협업과 설득도 잘해야 한다는 점이에요 - 이게 ‘AI가 코딩을 대신하는’ 시대에 개발자가 목표로 삼아야 할 모습이 아닐까 싶기도 합니다.

금주의 주목할 만한 업계 동향 📰

구글, A2A를 리눅스 파운데이션에 이관

구글 클라우드 조직에서 Agent2Agent(A2A) 상호운용성 프로토콜을 리눅스 재단에 기증했습니다.
이와 함께 AWS, 마이크로소프트, 시스코, 세일즈포스, SAP, ServiceNow 등 주요 기업들도 여기 참여해서, AI 에이전트들이 서로 소통하는 방식을 표준화하는 움직임에 힘을 보태고 있습니다.

A2A의 목표는, 각기 다른 AI 에이전트들이 제각각 다른 언어로 말하다가 생길 수 있는 ‘바벨탑 사태’를 막는 것이죠. 이미 100개가 넘는 기업들이 이 프로토콜을 지지하고 있고, 중립적인 거버넌스 체계도 보장된 상태입니다.


오픈AI, 구글, A2A를 리눅스 파운데이션에 이관

🧠 오픈AI | 비틀리고 어긋난 AI의 마음(Misaligned Mind)

오픈AI가 충격적인 사실을 밝혀냈다고 하는데요. 예를 들어서, 모델에게 특정 분야에서 잘못된 행동(예: 보안이 취약한 코드 작성)을 가르치면, 전혀 다른 분야에서도 이상한 행동을 하게 될 수 있다는 겁니다. 예컨대 사기나 여성혐오 발언을 지지하는 식이죠.

이걸 ‘정렬되지 못한 페르소나(Misaligned Persona)”라고 부르는데, 모델 내부에 존재하는 하나의 성향 패턴이 증폭되거나 완화될 수 있는 구조라는 것을 확인했습니다. 다행히도, 어느 정도 조정을 하면 모델을 다시 제대로 작동하게 만들 수 있다고는 하네요.

🏢 오픈AI | 방향을 잃은 조직(Misaligned Institution)

오픈AI가 ‘모델이 어떻게 ‘비정렬된 페르소나’를 가지게 되어서 이상한 행동을 보이는지 공개했지만, 정작 조직 내부에서도 비슷한 일이 벌어지고 있는 거 아니냐는 비판도 나옵니다.

The OpenAI Files에 따르면, 회사 내부에 비밀주의, 사라진 안전 기준, 수익 제한 해제와 비영리 감시 축소라는 방향의 조직 재편이 진행되고 있다고 합니다. 즉, AI 모델만이 아니라 조직 자체도 정렬(Alignment)이 필요한 건 아닐까 하는 우려가 커지고 있는 상황인 것 같네요.

🪖 미국 국방부 | 오픈AI, 국방부 프로젝트 승인받다

오픈AI가 최근에 미 국방부(DoD)와 2억 달러 규모의 계약을 체결했습니다. 계약 내용은 국가 안보를 위한 첨단 AI 기술 프로토타입 개발이라고 하는데요. 이 계약은 수십억 달러 규모의 방위산업 계약들 사이에 조용히 포함되어 있었지만, 미 국방부가 민간 섹터의 AI 리더들에게 본격적으로 베팅하고 있다는 사실을 보여주는 중요한 신호입니다.

미드저니, V1으로 영상 영역에 진출

멋진 AI 이미지를 생성하는 것으로 잘 알려진 Midjourney가 이제 V1이라는 이름의 첫 번째 ‘영상 생성 모델’을 공개하면서 영상 분야에 발을 들였습니다.

V1은 미드저니 특유의 스타일 — 몽환적이고, 시네마틱하고, 철저히 예술 중심적인 감성 — 을 그대로 담은 짧고 스타일리시한 클립들을 만들어냅니다.

xAI에서 매월 10억 달러를 태우고 있는 일론 머스크

일론 머스크의 AI 스타트업 xAI는 현재 ‘그록(Grok)’을 단순한 밈 생성기가 아니라 진짜 모델로 훈련시키기 위해서 한 달에 약 10억 달러(약 1조 3천억 원)를 태우고 있습니다.

올해 예상 손실만 130억 달러에 달할 것으로 보이는데, 회사 측은 기본적인 운영을 계속해서 이어가기 위해서 93억 달러의 자금을 급히 조달하려 애쓰고 있다고 합니다.

머스크는 이번에도 모든 것을 걸고 도박을 벌이고 있지만, 테슬라나 스페이스X와는 달리, xAI는 아직 ‘빚 외에 어떤 수익 모델도 찾지 못한 상태’로 보입니다.

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

  • 구글이 Gemini 2.5 Flash와 Pro안정적으로 실제 서비스에 사용할 수 있는 (Production-ready) 모델로 소개했고, Gemini 2.5 Flash-Lite는 프리뷰(Preview) 버전으로 출시했습니다 – 2.5 라인업 중 가장 빠르고 비용 효율적인 모델이라고 합니다.
    그리고 Flash-Lite는 코딩, 수학, 과학, 추론, 멀티모달 벤치마크에서 2.0 Flash-Lite보다 더 뛰어난 성능을 보여주고 있습니다. 이 모델은 다양한 프롬프트에서 더 낮은 지연시간(Latency)을 보여주고, 100만 토큰 컨텍스트를 지원하고, 멀티모달 입력을 처리하고, 구글 검색 및 코드 실행 같은 도구들과도 연동됩니다. —> [테크니컬 리포트 보기]

  • Moonshot AI의 연구팀이 Kimi-Dev-72B를 공개했습니다. 이 모델은 Qwen2.5-72B를 기반으로 파인튜닝한, 파라미터 727억 개 규모의 오픈소스의, 코딩에 특화된 LLM입니다.
    이 모델은 SWE-bench Verified 벤치마크에서 60.4% 정확도를 기록했고, 오픈소스 모델 중 최고 성능(State-of-the-Art)을 달성했습니다. Kimi-Dev-72B는 대규모 강화학습(RL)을 통해서 최적화되었고, 실제 GitHub 이슈(예: Docker 관련 버그)를 스스로 고치는 방식으로 학습했고, 전체 테스트 스위트가 통과될 때에만 보상을 받도록 설계되어 있습니다. 이 모델은 Hugging Face와 GitHub에서 누구나 사용할 수 있도록 공개되어 있습니다.
    —> [허깅페이스 페이지 보기]

LLM 추론(Reasoning) 및 효율성 최적화

  • 🌟 Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers
    드문(Rare) 입력값이라든가, 특정한 분야의 입력값에 대한 응답 성능을 향상시키기 위해서, 추론 시의 생성 행동을 조절하기 위한 방편으로 주석 처리된 제어 마커(Control Marker)를 사용해서 모델을 학습시킵니다. —> [논문 보기]

  • 🌟 Steering LLM Thinking with Budget Guidance
    추론 시에 사용 가능한 토큰 예산에 따라서 추론 사슬의 길이를 조절하는 예산 인식(Budget-aware) 예측기를 사용, 제약 조건 하에서도 토큰의 효율성을 개선합니다. —> [논문 보기]

  • 🌟 Truncated Proximal Policy Optimization
    생성된 응답을 잘라내고 정책-가치(Policy-Value) 디커플링을 최적화해서, LLM의 강화학습 속도를 높입니다. —> [논문 보기]

메모리, 검색, 멀티 에이전트 추론(Reasoning)

  • Xolver: Multi-Agent Reasoning with Holistic Experience Learning
    여러 모달리티에 걸쳐서 과거의 예제를 검색하고, 협업하고, 학습하는 추론 에이전트를 구축합니다 - 올림피아드 팀에서 영감을 받은 방식이라고 하네요. —> [논문 보기]

  • AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents
    하위의 과제를 조합하고 LLM의 추론 경로(Trajectory)를 기록해서 스케일링할 수 있는 벤치마크 과제를 생성하고, 이를 통해서 범용 에이전트에 대해 정밀하게 평가를 할 수 있게끔 합니다. —> [논문 보기]

추론(Reasoning)을 위한 강화학습

  • 🌟 Reinforcement Learning with Verifiable Rewards
    검증 가능한 보상(Verifiable Reward)을 활용한 강화학습이 논리적 일관성을 향상시킨다는 것을 보여주고, CoT(Chain-of-Thought)를 인식하는 새로운 평가 지표도 함께 제안합니다. —> [논문 보기]

  • 🌟 Revisiting RL for LLM Reasoning from a Cross-Domain Perspective
    Guru라는 이름의 멀티 도메인 강화학습 코퍼스를 소개하는데, 도메인별 보상이 수학, 논리, 시뮬레이션 등 다양한 분야에서 추론의 일반화 능력을 어떻게 향상시키는지 보여줍니다.
    —> [논문 보기]

소형 모델 특화 및 추론(Reasoning)

  • A Technical Study into 0.5B Reasoning Language Models
    SFT, 지식 증류(Distillation), 강화학습을 혼합한 방식으로 5억 개 파라미터 모델의 추론 성능을 향상시킵니다. —> [논문 보기]

  • 🌟 Taming Polysemanticity in LLMs
    희소 오토인코더(Sparse Autoencoder)를 사용해서, 작은 LLM에서 기저(Feature-level) 특성에 대한 해석 가능성을 높이고, 해당 특성을 복원할 수 있다는 이론적인 보장을 하고 있습니다. —> [논문 보기]

  • 🌟 Microsoft Research: New Methods for Boosting Reasoning in Small and Large Models
    rStar-Math, Logic-RL, Chain-of-Reasoning(CoR) 프레임웍을 통해서, 상징적(Symbolic)이고 도메인 간(Cross-Domain) 추론 능력을 소형 및 대형 LLM 모두에서 강화합니다. —> [논문 보기]

멀티모달 및 통합 모델링

  • Show-o2: Improved Native Unified Multimodal Models
    이미지, 비디오, 텍스트 모델링을 하나의 3D 인과적 변분 공간(Causal Variational Space)이중 경로 융합(Dual-path Fusion) 방식으로 통합, 멀티모달 이해 및 생성의 확장 가능성을 제시합니다. —> [논문 보기]

  • SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
    복잡한 멀티모달 과학 분야에서 기초 모델의 사실 검증 능력(Claim Verification)을 벤치마킹한 결과, 큰 성능 격차가 존재함을 보여주고 있습니다. —> [논문 보기]

  • Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency
    정확도를 떨어뜨리지 않으면서도, 추론 중 "Wait" 같은 불필요한 필러 토큰(Filler Token) 생성을 억제해서 멀티모달 추론의 효율성을 향상시킵니다. —> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

Avatar

or to participate

Keep Reading