🦸🏻#20: 15가지 코딩 에이전트 전격 비교! 뭐가 제일 좋을까?

들어가며

지금까지 튜링 포스트에서는 빠르게 변화하는 ‘에이전트’, 그리고 ‘에이전틱 시스템’ 영역에서 ‘변하지 않는 요소’들을 체계적으로 정리하려고 애를 써 왔는데요.

오늘 에피소드는 조금은 다른 방향의, 특별한 에피소드로 준비했습니다 - 저희의 Guest Writer인 Will Schenk가 직접 손으로 써 보고 평가한, 실전 중심의 컨텐츠입니다.

그리고, 그 주제는 바로, ‘코딩 에이전트’입니다.

‘AI 없이 코딩한다’는 것, 벌써부터 너무 오래 전 이야기처럼 느껴지죠? 아마 프로그래밍을 잘 하는 사람이든 못하는 사람이든, 처음부터 코드를 한 줄 한 줄 손으로 쓰는 사람은, 이미 없을 겁니다. 지금은 지능형의 에이전트가 레포에 코드를 던져주는 시대니까요.

어느 정도 하이프 사이클이 있을 수 밖에 없기는 하지만, 이 뿌연 먼지가 가라앉고 나면, 결국 남는 건 하나죠: 개발의 워크플로우를 완전히 바꾸겠다고 나선 수많은 소프트웨어 에이전트들, 그 중에 정말 가치를 만들어주는 것들만이 남게 될 겁니다.

이번에는, 딱딱한 벤치마크가 아니라, 완벽하지는 않더라도 실제 한 번 써 보는 과정에서 실무자가 비교한, 현실감 넘치고 임팩트있는 테스트를 Will Schenk가 진행해 봤습니다.

특히, 이런 도구들을 쓰면서 맞닥뜨리게 되는 테스터의 감정적인 반응까지도 담아내고 고려하려고 해 봤습니다. 이런 거요:

❝

“이 멍청한 도구를 테스트하면서, 화면이 빈 상태로 캡처하는 건 좀 그러니까 억지로 뭐라도 적어넣고 싶은 충동이 들었어요. 이 도구를 쓰면 아마 폭발 직전의 감정 상태를 자주 겪을지도 몰라요.”

테스트에 참가한 개발자

테스트는, 2025년 중반 현재 가장 많이 언급되는 15가지의 코딩 에이전트를 대상으로 했고, 이 에이전트들을 네 가지의 카테고리로 나눠서 평가했습니다:

IDE 에이전트
CLI 에이전트
풀스택 에이전트
하이브리드 플랫폼

그리고 각 에이전트를 아래 다섯 가지 핵심 항목에 대해서 AI가 평가를 하게끔 해서 점수를 산정했습니다 (총 25점 만점):

코드 작성 능력
테스트 처리
툴 연동
문서화
전체적인 완성도 (Polish)

추가로, "이 에이전트를 개발자라고 생각했을 때, 채용 추천할 수 있을까?"라는 질문도 AI에게 해 봤고, 물론 사람들도 함께 다음 요소들을 가지고 평가에 참여했습니다:

사람이 직접 쓴다고 했을 때 얼마나 구현하기 쉬운가?
이걸 쓸 때 신이 나는가?

또, 각 에이전트가 작동에 성공했는지 여부를 ‘One Shot’ (한 번에 성공) 또는 ‘Two Shot’ (재시도 필요)으로 표기했습니다.

이렇게 테스트를 해 보니, 실용적인 관점에서 현재 기준으로 어떤 에이전트가 앞서가고 있고, 어떤 워크플로우가 당장 실행해 볼 가치가 있는지, 저희로서는 나름대로 명확해졌습니다. 여러분들께도 재미있는 내용이 되기를 바랍니다.

오늘 에피소드에서는 아래와 같은 내용을 다룹니다:

📌 이번 테스트의 핵심

실제 비전문가가 에이전트를 썼을 때 어떤 결과가 나오는가?
미래의 느낌은 어떤가? 기쁨인가, 좌절인가?
15명의 신입 개발자가 만들어낸 산출물은?
각기 다른 목적에 맞는 최고의 도구는 무엇인가?
전체 테스트 결과가 담긴 PDF 보고서 (다운로드 가능)

궁극의 ‘테스트’: 과연, 비전문가도 할 수 있나?

15가지나 되는, 서로 특성과 장단점이 다른 도구들을 다루다 보니, 우선은 ‘모든 조건을 평등하게 맞추기 위해서 모든 에이전트에게 똑같은 프롬프트를 제공했고, 완전히 비어 있는 깃 저장소에서 시작’하게 했습니다.

제공한 프롬프트는 다음과 같습니다:

❝

아이디어를 수집하고, 투표하고, 주석을 달 수 있는 간단한 Node.js 웹앱을 만들어 주세요.

사용자는 새로운 아이디어를 입력할 수 있어야 하고, 기존에 입력된 아이디어 목록을 볼 수 있어야 하고, 투표 기능으로 순위를 올릴 수 있어야 합니다. 또, 아이디어에 노트를 추가하고 파일도 첨부할 수 있어야 합니다.

이 웹앱은 Docker 컨테이너로 배포되어야 하고, 데이터를 저장할 수 있는 영속적인 볼륨을 사용해야 합니다.

모든 기능은 단위 테스트를 포함해야 합니다.

제공 프롬프트 (by Will Schenk)

보시다시피, 이 프롬프트는 일부러 약간 애매하고, 계획이 완전히 정리되지 않은 상태로 작성했는데, 그것도 이유가 있습니다: 현실에서 흔히 우리가 코딩을 하고 싶을 때 처음 프롬프트가 대부분 저렇게 나오거든요.

그런 다음에, 아무런 간섭 없이 코딩 에이전트가 프롬프트 그대로 실행하게 했습니다 - 중간에 도와주지도 않았고, 코드 리뷰도 하지 않았습니다. 바로, ‘과연 이 도구들이 비전문가의 입장에서도 쓸모가 있을까?’라는 질문에 대한 실험을 해 봐야 하니까요. 결국, 어느 정도는 막연한 아이디어를 실제로 구현해낼 수 있는지를 봐야, 진짜 비전문가한테도 쓸모가 있는지 알 수 있을 거잖아요? 아무 도움 없이, 마치 제품을 박스에서 꺼내자마자 바로 쓸 수 있는 상태에서 확인하는 것처럼요.

사실, 이 테스트는 에이전트 입장에서는 가장 쉬운 종류의 작업이라고 할 수 있어요 - 기존의 코드도 없고, 어떤 제약도 없고, 완전히 새로 시작하는 프로젝트니까요. 그래서, 이것마저도 제대로 못 한다고 하면, 다른 건 더더욱 어렵다고 보는게 맞을 겁니다.

미래의 개발자 경험: 기쁨인가, 좌절인가?

무릇, 어떤 도구든지간에 단지 그 결과물만으로 평가할 수는 없다고 생각합니다. 진짜 중요한 것, 간과해서는 안 되는 것이 바로 도구의 사용 경험, 여기 맥락에서는 개발자 경험(DX)이죠:

그 도구를 쓸 때 느낌은 어떤가요?
쓸 때 기분이 좋아지고, 내가 뭔가 ‘강력해진’, ‘실력이 좋아진’ 느낌이 드나요?
아니면, 그냥 노트북을 창 밖으로 던져버리고 싶은 느낌인가요?

그래서, 이번에 Will이 한 테스트에서는, 각 에이전트에 대해서 ‘Sparks Joy (기쁨을 불러일으키나)’라는 지표를 따로 평가해봤는데요 - 그 결과는 엄청나게 다양했습니다. 아래 표를 한 번 참고해 보세요.

'도구의 사용 과정에 기쁨을 느끼는가’ 지표의 평가 결과

위 평가 결과를 보면 흥미로운 점이 있는데요.

테스트에 참여한 사람들이, “어떤 도구들은 포근한 느낌을 준다”고 이야기하기도 했는데요. 그 대표적인 사례가 오리지널 에이전트라고 할 수 있는 Aider였습니다. 이제는 Git 기반의 워크플로우가 다소 번거롭게 느껴질 수는 있지만, Aider는 마치 이 모든 흐름이 어떻게 시작됐는지를 상기시켜주는, 향수를 느끼게끔 했다는 반응이 많았습니다.

반면에, 어떤 도구들은 순도 100%의 마법 같은 경험을 하게 해 줬다는 반응도 있었는데요. 예를 들면 Claude Code는 마치 “와, 이거 되네! 이거 진짜 생각하고 있는 것 같애!”라는 느낌이 드는 순간이 많았다고 하구요.

Cursor+의 경우에는, 도구를 사용하는 재미와 기쁨이 100% 충전된 느낌이라는 반응이었습니다. “오, 이거 재밌는데?” 하는 작은 발견 후에 곧바로 “좋아, 이걸로 한 번 제대로 달려보자!” 하는, 말하자면 창작의 폭주로 바뀌는 순간을 경험했다는 개발자들이 많았습니다.

반면에, ‘좌절감’ 같은 부정적인 느낌을 주었다고 이야기하는 도구들도 있는데요.

현재 기준으로 표준 Copilot 경험은 정말 ’극심한 좌절’에 가깝다고 느끼는 개발자들이 있었습니다. 어쩌면 가능성도 많고 기대도 너무 큰데, 실망을 하게 되어서 그에 따른 분노를 하게 되는 걸까요?

그리고 불쌍한 Windsurf. 이건 그냥 말로 설명하기 어려웠다고 하는데, Will의 반응은 한 마디로, “몸이 안 좋은 느낌이 들어요.”라는 거였네요.

아무래도 참여한 개발자들의 개인적인 경험, 그 주관적인 느낌을 반영하는 부분이긴 하지만, 이건 특히 AI라는 기술의 특성 - 적어도 Pair Programmer 또는 나를 도와주는, 마치 인격화될 수 있는 Assistant로 받아들여질 가능성이 있다는 측면에서도 - 흥미로운 평가의 영역이라는 생각이 듭니다. 기술 자체의 좋고 나쁨과 상관없이, 도구의 ‘표현 방식’이 즉각적인 즐거움, 또는 반대로 즉각적인 거부감을 일으킬 수 있다는 걸 보여주니까요.

이런 주관적인 인상이 사실은 아주 중요하다고 생각해요. 이런 감정적 요소가, 즉 개발자의 마음에 일어나는 마찰(Friction), 한 방의 도파민같은 느낌, 또는 종이의 날카로운 면에 벤 것 같은 불편한 느낌이 결국 그 도구를 채택할 건지, 아니면 버릴 건지를 결정할 수 있으니까요.

15개 코딩 에이전트에 대한 전체적인 리뷰는 총 60페이지 분량의 상세 리포트(영문)인데요, 아래 링크에서 다운로드해서 보실 수 있습니다:

june-2025-coding-agents.pdf

1.92 MB • PDF File

이 에피소드에서는 어떤 결과가 나왔는지, 나에게 적합한 코딩 에이전트는 어떤 건지에 대한 내용을 중심으로 이야기를 해 보겠습니다.

결과: ‘15명의 주니어 개발자’ 순위 매기기

최종적으로 만들어진 코드를 객관적으로 평가하기 위해서, 일단 각각의 에이전트를 개발 과제를 제출한 주니어 개발자라고 생각하고 평가했습니다. 초기 코드 리뷰는 Claude-3.7-Sonnet에게 맡겼고, 각각의 프로젝트를 아래와 같은 다섯 가지 항목에 따라서 점수를 매겼습니다:

코드 품질
테스트
툴 연동
문서화
전체적인 완성도 (Polish)

결론부터 말하자면, 최고의 개발자(에이전트), 그리고 최악의 개발자(에이전트) 간 보여주는 격차는 엄청났습니다.

1등은 Cursor Background Agent (Cursor+), v0, 그리고 Warp 3개 에이전트가 모두 25점 만점에 24점이라는 높은 점수로 공동 수상했습니다.

이 에이전트들이 만든 코드는 단순히 동작만 하는 수준이 아니라, 전문가가 만든 것처럼 구조화가 잘 되어 있고, 실제 운영환경에 바로 적용 가능한 수준의 품질이었습니다. 프롬프트의 요구사항은 물론이고, 추가로 필요할 수 있는 요소까지 미리 예상해서 반영했고, 구성도 깔끔하고 DevOps도 탄탄했습니다.

특히 Cursor 에이전트가 생성한 프로젝트는 "탁월한 구성력과 견고한 아키텍처", 그리고 "주니어 수준이 아니라 시니어 개발자 수준의 결과물"이라는 평가를 받았습니다.

Cursor가 만든 최종 웹앱의 모습

Warp의 경우는, 사실 주된 목적이 소프트웨어 개발이라기보다는 ‘Command Line을 잘 쓰는 파워유저’를 위한 도구에 더 가깝다고 보는데요. 그럼에도 불구하고, 백그라운드에서의 사고 모델, 설계 모델을 아주 잘 활용해서 소프트웨어 개발에 특화된 다른 도구들 사이에서도 최상위 점수를 획득했습니다.

그 뒤를 이은 도구는 Copilot Agent와 Jules로, 각각 21점(25점 만점)을 기록했습니다. 이 둘은 아주 높은 잠재력을 보여줬다고 할 수 있는데, 깔끔하고 모듈화된 구조에, 테스트 커버리지도 잘 갖춘 애플리케이션을 만들어냈습니다.

반면에, 저 반대편 끝에서 인상적인 성능을 보여주지는 못한 도구들도 있었습니다.

표준 Copilot과 Windsurf는 13점을 기록하면서, 테스트를 간신히 완주한 수준이라고 해야 할 것 같습니다. 이 도구들의 결과물은 “기능적으로는 동작하지만 아주 단순”했고, “테스트 구현은 미완성”, “문서화는 거의 없다시피” 했습니다. 말 그대로 최소한의 요구사항만 겨우 충족했을 뿐이고, 출시를 고려할 만한 품질의 정교함, 안정성은 부족했습니다.

15개 모든 코딩 에이전트들에 대한 점수와 AI가 평가한 세부 내역을 자세히 본다면, 어떤 코딩 에이전트를 써 볼지 결정할 때 일종의 치트키로 사용하실 수 있을 텐데요, 메인 보고서 안의 테이블, 상세 분석 자료를 참고하시기 바랍니다.

15개 코딩 에이전트의 종합 평가 결과

당신의 상황, 목적에 맞는 최고의 에이전트를 추천한다면?

자, 그럼 모든 테스트가 끝났다고 하고, 최종적인 승자는 누구일까요?

사실, 이 질문에 대한 정답은 당신이 누구고, 어떤 상황에서 어떤 목적으로 코딩 에이전트를 쓰려고 하느냐에 따라 달라집니다.

👨‍💻 당신이 ‘소프트웨어 전문가’라면:

그렇다면, 최고의 조합은 단연 Cursor + Warp라고 할 수 있습니다.

이 두 개의 도구를 함께 쓰면, 진지하게 제대로 된 소프트웨어를 만들고자 하는 개발자에게 최적화된 도구의 스펙트럼을 제공합니다.

아래, 이 도구들을 활용해서 개발을 진행하는 워크플로우는, 말 그대로 게임 체인저라고 봅니다:

ChatGPT나 Claude 같은 모델로 아이디어를 구체화합니다.
Cursor Background Agent를 사용해서 product-brief.md를 바탕으로 프로젝트의 핵심을 구현합니다.
그다음 Cursor IDE에서 코드를 정교하게 다듬고, 작은 단위로 수정을 반복합니다. 여기서 중요한 팁은:
- 항상 현재의 코드 상태를 점검하게 하세요.
- 반드시 먼저 테스트 코드를 작성하게 하세요.
- active-context.md를 유지하세요.
마지막으로 배포 단계에서는 Warp로 전환해서 GitHub Actions, 배포 스크립트, CLI 작업 등을 처리합니다. 이 전환은 자연스럽고, 미래의 개발 방식으로 느껴질 겁니다.

🧑‍💼 실용성을 중요하게 생각하는 ‘비전문가’ 사용자라면:

Replit이 가장 쉽고 빠릅니다.

복잡한 설정이 없이 실제 풀고 싶은 문제를 해결하는 서비스를 만들고 싶다면, 이보다 쉬운 방법은 없습니다. 개발과 배포가 통합되어 하나의 플랫폼으로서 작동하고, 비쥬얼 플래너는 직관적이고, 백엔드 서비스도 버튼 한 번이면 연결됩니다. ‘그냥 잘 작동’하는 시스템이예요.

다만 주의할 점은 있습니다: Replit 환경 안에서만 가능한 것들이 있고, 실제 테스트 프롬프트에서도 “Docker 컨테이너화는 이 개발 환경에서는 지원되지 않습니다.”라는 메시지를 볼 수 있었는데, 결국 Replit의 규칙 안에서 움직일 수 밖에 없다는 겁니다.

🎨 당신이 제품 디자이너나 UI 디자이너라면:

그렇다면, v0가 정답입니다.

UI를 빠르게 목업(Mock-up)하고, 개발팀과 비전을 공유하려는 목적이라면 v0가 최고입니다. Vercel에서 만든 도구답게, Next.js와 궁합이 좋고 원클릭 배포는 그야말로 짱입니다. 생성된 프론트엔드 코드도 아주 세련되고 구조도 잘 잡혀 있습니다.

말하자면, “모던 부트스트랩 MVP”의 왕자라고 할 수 있습니다.

📋 만약 프로젝트 매니저에게 추천한다면:

Copilot Agent 또은 Jules 같은 도구를 체크해 보라고 이야기해 주세요.

이 두 개의 도구는 아직 다듬어지지 않은 거친 면이 있지만, ‘SDLC(소프트웨어 개발 생명주기)’와 통합될 가능성이 가장 높은 도구들이라고 생각합니다. 특히 Copilot Agent는 GitHub 생태계와 깊게 연동되어 있기 때문에, 엔터프라이즈 시장에서 마치 승기를 거의 쥐고 있는 것처럼 이야기되기도 합니다.

만약 이 도구들이 빠르게 성숙해진다면, 제대로 판을 바꿀 수 있는 도구가 될 수도 있을 것 같습니다.

🧠 전문가나 실험을 해 보고 싶은 파워유저라면:

RooCode와 Goose가 제격이라고 생각합니다.

로컬에서 직접 모델을 돌리고, 모든 걸 컨트롤하고 싶은 사람이라면 이 도구들이 가장 적합합니다.

RooCode는 VSCode의 익스텐션으로, ‘이 도구 덕분에 세상이 더 나아져 보인다’는 찬사에 가까운 평가를 받기도 했고, 원하는 어떤 LLM이든 플러그인처럼 연결해서 쓸 수 있습니다.

Goose는 CLI 기반으로 작동하는 강력한 도구로, 나만의 색깔을 원하는 개발자라면 한 번 고려해 볼 만합니다 - ‘궁극적으로 오픈소스 도구들이 승리할 것이다. 아니면 적어도, 우리는 그런 세상에서 살고 싶다’는 개발자들이요.

오늘 에피소드에서는, Will Schenk가 15개 코딩 에이전트들을 테스트한 내용의 아주 일부, 그리고 그 결과 및 어떤 도구들을 어떤 상황에 추천할 만할지만 간략하게 말씀드렸는데요.

60페이지 분량의 실제 리포트를 자세히 보신다면:

실제 개발자의 경험과 로그
최종 앱의 스크린샷 (혹은 에러 메시지)
모든 에이전트에 대한 AI 기반 코드 리뷰

까지 빠짐없이 담겨 있습니다. 뉴스레터엔 너무 커서 담기 어렵지만, 아래에서 무료로 다운로드 가능합니다. (광고도, 스폰서도 없습니다. 그냥 양이 많아서요)

june-2025-coding-agents.pdf

1.92 MB • PDF File

그리고 보고서가 마음에 드셨다면, 들었다면, 👉 https://thefocus.ai 를 한 번 구독해 보세요: Will Schenk가 멋진 글을 많이 씁니다. ^.^

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!