Turing Post Korea
Posts
Topic #38: AlphaEvolve와 Codex가 멋진 이유

Topic #38: AlphaEvolve와 Codex가 멋진 이유

'코딩', '개발'의 모습을 바꿔놓을, 구글과 오픈AI의 새로운 도구에 대해서 알아봅시다

Ksenia Se & Ben Eum
May 25, 2025

글을 시작하며

‘바이브 코딩’을 위시로 한 수많은 AI 기반 개발 도구들이 있습니다. 뭔가를 만들고 싶은 - 특히 소프트웨어겠죠 - 사람의 협력자로서, 반복적인 코딩 작업에 소비되는 시간을 절약하고, 실질적으로 생산성을 높이도록 도와주는 툴들의 전성시대라고 해도 과언이 아닙니다.

그 중에, 특히 최근 발표된 2개의 도구는 “드디어 개발자의 전형적인 워크플로우에 자연스럽게 맞아떨어지면서 합쳐지는, 아주 좋은 도구들이다” 생각이 들게 했는데요. 오늘은 바로 우리가 한 번 주목해 볼 만하다고 생각하는, 새로운 ‘코딩 에이전트’들을 살펴보려고 합니다. 바로:

‘스스로 진화’하는, 구글 딥마인드의 AlphaEvolve
챗GPT에 통합된, 클라우드 기반의 ‘자율 소프트에어 엔지니어 (Autonomous SWE)’,
오픈AI의 Codex

가 그 2개의 도구인데요. 구글의 비동기 코딩 에이전트 Jules, Mistral의 Devstral 코딩 모델 등도 발표되면서, 코딩 에이전트와 모델들이 확실한 트렌드로 부각되는 시점이 아닌가 싶습니다.

구글 딥마인드는 며칠 전에 있었던 구글 I/O를 앞두고 AlphaEvolve를 소개했죠. AlphaEvolve는 ‘새로운 알고리즘, 과학적인 문제에 대한 해결책을 자율적으로 발견하게끔 설계된, 진화형 코딩 에이전트’로 설명했습니다.

오픈AI의 Codex는, 코드를 작성, 테스트, 수정할 수 있는 강력한 AI 기반의 코딩 어시스턴트인데요, 여러분이 갖고 있는 Repository를 중심으로 안전하게 함께 작업하는 ‘가상의 코딩 동료’로서 작동합니다.

이런 도구들이 출시된 게 뭐가 그렇게 특별한 건지, 어떤 방식으로 작동하는지, 이런 도구들이 코딩, 그리고 AI 섹터 전반에 어떤 혁신을 가져오게 될지 한 번 같이 생각해 보시죠.

오늘 에피소드에서는, 다음과 같은 내용을 커버합니다:

핵심은 ‘진화’: 구글 딥마인드의 AlphaEvolve
오픈AI의 코딩 에이전트, Codex
- Codex의 작동 방식
- Codex의 성능
- Codex를 보완해 주는 Codex CLI
- 모바일에서의 Codex
- 현재의 한계
맺으며
보너스: 참고자료

핵심은 ‘진화’: 구글 딥마인드의 AlphaEvolve

AlphaEvolve를 개발한 구글 딥마인드는, 여러 종류의 ‘Alpha’를 개발해 왔죠.

2016년 바둑에서 이세돌 9단과 대국해서 승리한 AlphaGo를 기억하실 겁니다. 그 다음에는 체스, 장기, 바둑을 사람의 데이터 없이도 마스터한 범용의 게임플레이 AI AlphaZero가 있었는데, 이건 자기 대국을 통해서 스스로 학습했고, 다음에 둘 수를 결정하는 MCTS (몬테카를로 트리서치)라는 강력한 알고리즘을 활용했습니다.

딥마인드가 만들어낸 진짜 결정체 중 하나는 아마 생물학의 미스터리 중 하나를 해결한 AlphaFold라고 할 수 있을 겁니다: 아미노산 서열만 가지고 단백질의 3D 구조를 예측하는 방법인데, AlphaFold가 단백질이라는 물질에 대한 우리의 이해를 혁신적으로 높여주고 수년 이상 걸릴 수도 있는 실험실에서의 작업을 엄청나게 단축해 줬다고 하죠. 2억 개가 넘는 단백질의 구조를 예측하고, 신약 개발과 의학 연구를 가속화하는데 기여한 공로로, AlphaFold는 데미스 하사비스, 존 점퍼에게 노벨 화학상을 안겨주기도 했습니다.

딥마인드는 그 외에도 다양한 ‘문제 해결 도구’들도 내놓았습니다. AlphaGeometry는 복잡한 기하학 문제를 잘 해결하는데, 수학 올림피아드에서 최고의 성적을 내는 사람들과 비교할 만한 우수한 성능을 보여줍니다. AlphaProof는 언어 모델과 강화학습을 결합, 자연어 문제를 형식적 증명으로 치환하는데, 국제 수학 올림피아드에서 은메달리스트 수준의 결과를 달성하기도 했습니다.

이렇게 쭉 살펴보면, 구글 딥마인드는 ‘AI를 도구로 해서 우리들에게, 그리고 세상에 의미있는, 중요한, 그리고 실용적인 분야에 도움이 되는, 스스로 학습할 수 있는 강력한 알고리즘을 구축해 왔다’고 할 수 있는데요.

그리고, AlphaEvolve의 시간이 찾아왔습니다.

아주 간단히 말하자면, AlphaEvolve는 LLM이 아주 복잡한 문제를 훨씬 더 잘 해결하게끔 도와주는 발전된 AI 도구입니다 – 컴퓨터 시스템을 고도화한다거나, 과학적 영역의 난제를 해결하는 것 같은 거죠. ‘진화’의 개념에서 착안한 코딩 에이전트로, 마치 ‘자연 선택 (Natural Selection)’ 개념과 비슷하게 작동합니다. 코드에 변화를 줘 보고, 피드백을 받고, 시간이 지나면서 계속 개선을 해 나갑니다. 아이디어 브레인스토밍, 실험에 이은 성공이나 실패, 그로부터 이어지는 학습과 결과의 개선 등을 포함하는 ‘과학적인 발견’ 과정의 일부를 자동화하는 겁니다. 보통 이런 과정이 토픽에 따라서는 수 년 혹은 그 이상도 걸릴 수 있지만, AlphaEvolve는 AI가 그 작업의 많은 부분을 담당하도록 해서 시간을 대폭 단축시켜 줍니다.

그럼, 한 번 AlphaEvolve의 한 꺼풀 밑에 있는 실체를 살펴보죠.

AlphaEvolve의 작동 방식

구글 딥마인드의 AlphaEvolve 팀은, AlphaEvolve의 ‘창의성’을 높이기 위해서 최고의 Gemini 모델들을 앙상블로 사용하고, 작성된 해결책을 자동적으로 검증, 평가하는 평가자 (Evaluator)를 활용하는데요.

AlphaEvolve의 단계별 작동 방식은 아래와 같습니다:

먼저, 사용자가 AlphaEvolve에게 초기 코드, 그리고 평가 함수를 제공하는 걸로 시작합니다. 평가 함수라는 건, 만들어진 해결책이 얼마나 좋은 건지 판단하는데 쓰이는 채점 시스템이죠 - 많은 경우에는 ‘솔루션’을 실행해 보고 점수를 리턴해 주는 단순한 파이썬 함수예요. 사용자는 이 평가 함수를 통해서 ‘성공 조건’을 정의하게 되고, AlphaEvolve는 LLM을 사용해서 코드를 수정해 가면서 그 ‘성공 조건’에 도달하는 방법을 제안하고, 다시 평가 함수를 통해서 더 나은 솔루션을 찾아가는 탐색을 계속하기 위한 피드백을 주는, 그런 구조입니다.

Image Credit: AlphaEvolve 오리지널 논문

특별한 마커들 (# EVOLVE-BLOCK-START 등)이 있는데, 이 마커들을 통해서 AlphaEvolve가 코드 중에 어디를 수정하고 개선할 수 있는지를 알 수 있습니다. 나머지 부분은, 전체를 하나로 연결하는 일종의 ‘골격 (Skeleton)’으로 그대로 남아 있게 됩니다.
AlphaEvolve는 ‘Program Database’에 저장되어 있는, ‘이전에 시도했던 프로그램들’을 살펴봅니다. 그리고 LLM이 코드를 개선하는 방향을 이해할 수 있도록 도와주기 위해서 ‘사용자의 지시사항’과 ‘예시’를 합쳐서 프롬프트를 구성합니다.
그 다음 단계가 아마 가장 흥미로운 단계가 아닌가 싶은데, AlphaEvolve가 Gemini 2.5 Flash와 Gemini 2.5 Pro 모델을 사용해서 코드의 편집, 개선을 제안합니다: 바로 LLM으로 아이디어를 생성하는 단계입니다.
- Gemini 2.5 Flash는 아이디어의 ‘폭을 최대화’해서, 아주 많은 숫자의 코드 편집본을 빠르게 만들 수 있습니다
- Gemini 2.5 Pro는 만들어지는 제안 내용에 ‘깊이’를 더합니다. 추론을 심화하고 맥락을 더 깊이 이해해서, 혁신적인 변화를 이끌어낼 수 있습니다.
자, 그럼 이제 여러 개의 코드 버전이 만들어져 있겠죠. 이 각각의 버전을 실행한 다음, 사용자가 처음에 제공했던 ‘평가 함수’로 점수를 매깁니다. AlphaEvolve는 이 단계를 빠르게 진행하기 위해서 검사와 평가 작업을 병렬적으로 실행합니다.
결과가 좋든 나쁘든, AlphaEvolve는 실행했던 모든 실험을 Program Database에 저장해 두고, 가장 잘 작동한 해결책을 기준으로 ‘개선’을 계속합니다. 이런 자동적인 피드백 루프를 통해서, 좋은 결과를 내지 못하는 제안 내용을 피하는데 도움을 줍니다.

유사한 다른 시스템들과 비교해 보면, AlphaEvolve는 더 큰, 더 복잡한 코드를 작성할 수 있고, 프로그래밍 언어와 관련없이 작동하고, 프로그램의 평가를 병렬적으로 실행할 수 있습니다. 그리고 속도와 정확성을 높이는 것과동시에 여러 가지의 목표를 한 번에 최적화할 수도 있습니다.

그럼 이제, AlphaEvolve가 이미 어디에서 사용되고 있는지 한 번 살펴보겠습니다.

AlphaEvolve가 보여준 성과

AlphaEvolve는 이미 수학, 컴퓨터 과학, 엔지니어링 등의 분야에서 놀라운 결과를 보여주고 있는데요 - 특히 만들어진 결과를 ‘자동적으로 테스트할 수 있는 분야’에서요.

첫번째로, 수학 영역의 문제를 풀기 위한 새로운 해결 방법, 새로운 알고리즘을 발견했습니다:

행렬 곱셈 (Matrix Multiplication)

AlphaEvolve는 복잡한 4×4 행렬을 곱하는 더 빠른 방법을 찾아서, 1969년 Strassen의 유명한 알고리즘을 개선했습니다.
50개 이상의 미해결된 수학적 난제를 해결하거나 개선

특히, 그 중에 20%에서는 기존에 최고로 알려진 해결책조차 능가하는 모습을 보여줬는데, 그 예로 Minimum Overlap Problem, 11차원에서의 Kissing Numbers, Fourier 분석의 불확정성 원리 문제, 자기상관 부등식 (Autocorrelation Inequalities)의 알려진 경계 개선 등이 있습니다. 정말 놀라운 성과라고 생각합니다.

Image Credit: AlphaEvolve 오리지널 논문

두번째로, AlphaEvolve는 구글 내부의 ‘엔지니어링 작업 그 자체’를 업그레이드했습니다. 즉, 스스로의 업무 영역에 AlphaEvolve를 적용해서 효과를 보고 있는 겁니다:

구글의 데이터 센터용 스케쥴링 시스템 개선

스케쥴링 시스템은, CPU와 메모리를 기반으로 해서 다양한 작업을 실행할 머신에 배치하는 걸 말하는데, 비유하자면 물건을 박스에 포장하는 것 같다고 할까요? 이 스케쥴링 시스템을 AlphaEvolve로 개선해서, 데이터 센터 전체에서 총 컴퓨팅 자원의 0.7%를 절약했다고 해요. 0.7%면 얼마 안 되는 것처럼 느껴집니다만, 구글의 규모라면 그 절대값은 엄청난 수치입니다.
Gemini 모델의 훈련 속도 개선

대규모의 연산을 작은 덩어리로 나누는 ‘타일링 규칙’을 발견해서, 커널의 런타임을 23% 단축시켰고, 결과적으로 전체적인 Gemini 훈련 시간을 1% 단축시켰다고 합니다.
AI 지원용 칩 설계

AlphaEvolve 솔루션은 구글의 차세대 Tensor Processing Unit (TPU)에도 적용되고 있다고 해요. 컴퓨터 하드웨어 설계를 스마트하게 단순화해서, 불필요한 부분을 제거하고 행렬 곱셈을 위한 더 빠른 연산 회로를 설계했다고 합니다.

그 외에도, AlphaEvolve가 전반적으로 모델의 구조를 개선하는데도 기여해서, 트랜스포머 모델의 FlashAttention 실행 속도를 높여줬다고 하는데요. 복잡한 코드를 정리해서 더 빠르게 실행할 수 있도록 하는 작업과 함께, 어텐션 커널 자체를 변경해 가면서 테스트하고, 동시에 전처리 및 후처리 단계를 개선했다고 하네요. 이 모든 결과로, 코어 FlashAttention 연산의 속도가 최대 32.5%까지 빨라지고, 기타 다른 코드의 실행 속도도 15% 정도의 빨라졌다고 합니다.

정말 놀랍습니다 - 이전에 개발자들이 몇 달에 걸쳐서 했던 작업들을 이제 AlphaEvolve로 며칠 만에 해결할 수 있게 되었으니까요. 특히 멋진 것은, 이 엄청난 도구가 구글이라는 회사에서 진행하는 대규모의 작업에서 실질적으로 의미있는 수준의 성능 향상이 가능하다는 걸 보여줬다는 거예요.

AlphaEvolve의 한계

물론, 몇 가지 한계점은 있습니다:

일단은, 무엇보다도 AlphaEvolve가 좋은 해결책과 나쁜 해결책을 구분하는데 사용할 ‘평가 함수’가 있어야만 한다는 겁니다. 수학, 알고리즘 설계, 엔지니어링 최적화 등에는 큰 문제가 없더라도, 생물학 실험, 사회과학 연구, 예술적 창의성 같이 ‘결과를 질적으로 해석’해야 하는, 더 복잡한 시나리오에는 적용할 수 없다는 단점이 있죠.
아이디어를 테스트하기 위해 (코드로) '실행'을 해야 합니다. 그래서, LLM이 판단할 수 있는, ‘순수하게 개념적이거나 추상적인 아이디어’를 처리하는 데는 어려움이 있습니다. 즉, 시뮬레이션과 실제 실험이 가능한 영역으로 적용 범위가 제한됩니다.

이런 중요한 한계점에도 불구하고, AlphaEvolve는 아주 광범위한 영역에서 워크플로우를 최적화하는데 적용해 볼 수 있는, 획기적인 아이디어로 만들어진 ‘코딩 에이전트’입니다.

결과적으로 얻을 수 있는 개선의 ‘양’이 엄청나지는 않을 수도 있지만, 그 영향을 미칠 수 있는 스케일을 고려하면, 충분히 업계에 실질적인 이득을, 효익을 만들어 낼 수 있을 거라고 봅니다. 물론, AlphaEvolve는 이제 시작일 뿐이고, 딥마인드 팀이 우리를 놀라게 할 또 다른 ‘Alpha’를 곧 들고 나올 가능성도 높죠.

자, 그럼 여러 소셜 미디어에서 반향을 일으킨, 또 다른 AI 기반의 코딩 어시스턴트를 살펴보러 갈까요?

오픈AI의 코딩 에이전트, Codex

Codex는 오픈AI가 새로 내놓은, 클라우드 기반의 소프트웨어 엔지니어링 에이전트입니다. 단순히 코딩 작업을 도와주는 것을 넘어서, 실질적으로 개발자를 옆에서 지켜보면서 지원하는 동료와 같이 협업합니다. Codex는 다양한 코딩 작업을 병렬로 수행할 수 있는데요:

새로운 기능을 위한 코드 작성
코드에 있는 버그 수정
코드의 정리 (오타 수정, 일관성있게 맞추는 작업 등)
코드에 대한 질문 답변
Pull Request (PR) 제안
개발자의 실제 코드베이스를 가지고 작업
개발자가 다른 일을 하는 동안 백그라운드에서 작업

여러 개의 Codex 에이전트를 병렬로 작동시킬 수도 있고, 클라우드에서 실행되는 구조이기 때문에 노트북의 속도를 늦추는 효과는 없습니다. 특히 Codex의 편리한 점은, 챗GPT의 사이드바에서 직접 작동한다는 겁니다 (아쉽지만 Pro, Team, Enterprise 버전을 사용하는 경우에만 적용되고, Plus 사용자에 대한 지원은 곧 제공될 예정이라고 합니다).

Codex 에이전트 자체는, 소프트웨어 엔지니어링 작업용으로 별도로 파인튜닝을 한 o3 모델의 변형 버전, codex-1로 구동되는데요, 아래와 같은 방식으로 훈련을 했다고 합니다:

실제 코딩 작업을 기준으로 한 End-to-End 강화학습을 통해서, Codex는 코드를 만들고 테스트하고 수정하는 전체 사이클의 과정을 학습했습니다.
개발자의 지시사항에 잘 따르고, 깔끔하게 Pull Request를 작성하고, 실질적인 테스트를 통과할 수 있도록 코드를 작성하게 하게끔 하는데 중점을 뒀습니다.

Codex의 작동 방식

Codex는 실제 여러분이 작업하는 리포지토리와 환경에서 실행되는데, 이렇게 하기 위해서 Github 계정을 Codex에 먼저 연결해야 합니다. 아래는 단계별로 실행해야 하는 작업 과정입니다:

Codex에 작업을 할당하려면 코딩 작업의 경우에는 ‘Code’ 버튼을 클릭하고, 코드베이스에 대해서 질문하고 싶다면 ‘Ask’를 클릭하면 됩니다.
Codex가 작업을 수행할 때는, 파일을 읽고 수정하고, 테스트를 하고, 타입 체커나 Linter - 코드를 자동으로 검사해서 문제점이나 개선할 부분을 찾아주는 도구 - 를 실행하고, 사용자의 지시사항에 따라서 코드를 편집하거나 생성할 수 있습니다.

Image Credit: 챗GPT 안에서 작동하는 Codex의 리서치 프리뷰 (비디오)

각각의 작업은 자체적인 ‘보안 샌드박스 (Secure Sandbox)’에서 실행됩니다. 여러분의 코드가 이 샌드박스에 로드되어 있어서, Codex가 프로덕션 환경에서는 아무것도 손상시키지 않으면서 안전하게 테스트하고 작업할 수 있습니다. GitHub 저장소의 코드와 설정 스크립트에서 정의한 사전에 설치된 도구나 라이브러리만 사용해서 작업을 진행합니다.
Codex가 작업을 완료하면 클라우드 환경에서 변경사항을 시연하고, 필요한 요약과 로그 등을 제공합니다. 이런 정보를 보면서 어떤 작업을 어떻게 했는지 정확히 파악할 수 있는 것이죠. 그럼 사용자가 코드를 검토해서 필요하면 수정하고, 기존 코드와 병합하거나 Github의 Pull Request를 진행할 수도 있습니다.

꼭 해야 하는 건 아니고 선택 사항이지만, 사용자는 프로젝트에 AGENTS.md라는 이름의 파일을 추가할 수 있습니다 - 이건 AI를 위한 일종의 README 같은 겁니다. 이 파일을 가지고 Codex가 코드의 작동 방식을 이해하는데 도움을 줄 수 있습니다. 예를 들어서, 실행할 명령어, 리포지토리의 구조, 실행할 테스트, 팀의 코딩 표준을 따르는 방법 등을 알려주는 것이죠.

한 가지 더. Codex가 비슷한 다른 시스템들보다 훨씬 스마트하다는 걸 보여주는 멋진 기능이 있는데요. 바로 테스트가 실패한다든가, 뭔가 확실하지 않고 애매한 경우에는, Codex가 그런 부분은 확실히 알려줍니다. — 그래서 개발자가 ‘뭔가 문제가 있구나’ 하는 걸 알 수 있게 해 주는 겁니다. 아무런 표시 없이 그냥 작업을 계속한다거나, 결과를 ‘가짜로’ 만들거나 하는 일이 없다는 거고요, 이건 AI 에이전트에게 신뢰성을 부여하는데 아주 중요한 부분입니다. Codex 에이전트는 필요한 경우 사용자에게 이러이러한 내용을 명확히 해 달라고 요청하고, 뭔가 작업이 막히면 거기서 일단 멈추기도 하고, 여러 가지 방식으로 개발자가 Codex (동료)의 작업 과정과 생각(?)을 들여다 볼 수 있게 해 줍니다.

Codex의 성능

이미 시스코, Superhuman, Temporal, Kodiak Robotics, 그리고 (당연히) 오픈AI를 포함한 많은 회사들의 엔지니어들이 Codex를 사용하고 있습니다 - Codex가 얼마나 편리하고 강력한 코딩 도구인지에 대한 일종의 반증이라고 할 수 있겠는데요.

아래는 Codex가 잘 할 수 있는 작업, 그리고 효과입니다:

일반적인 코딩 작업을 빠르게 진행

사람 개발자라면 각각 1분~30분 정도 걸릴 정도의 중간 복잡도의 작업을, 빠르게, 그리고 동시에 처리할 수 있습니다.
다수의 작업을 병렬로 처리

팀 규모 그 자체를 늘리지 않고도 Codex의 병렬 처리 능력을 활용해서 업무량을 빠르게 스케일링할 수 있습니다.
일상적인 개발 업무를 더 수월하게 진행한다든가, 대규모의 코드베이스를 이해하는데 도움을 줄 수 있습니다.
대규모의 코드베이스를 용이하게 디버그한다거나 리팩토링할 수 있습니다.
백그라운드로 Codex가 작업을 진행하도록 해서, 엔지니어들은 그 사이에 더 중요한 다른 작업에 집중할 수 있게 해 줍니다.
그렇게 대규모의 작업이 아닌 경우, 결과를 검토할 때 빼고는 특별히 엔지니어들이 개입할 필요가 없습니다.

즉, 개발자들은 단순히 Codex에게 작업을 할당하고, 자리를 잠깐 비운 다음 돌아와서 제대로 작동하는 완료된 작업을 확인할 수 있는 겁니다.

성능의 벤치마크 관련해서는, Codex를 구동하는 codex-1 모델이 다른 오픈AI의 최고 수준 모델들과 비교해도 ‘소프트웨어 엔지니어링 작업’에서만큼은 더 나은 성능을 보여주네요:

Image Credit: Codex 블로그

그리고, Codex는 최대 192,000 토큰 규모의 아주 큰 컨텍스트 윈도우로 작업할 수 있기 때문에 아주 긴 코드와 정보를 한 번에 처리할 수 있고, 따라서 대규모 코드베이스를 처리하는데 아주 유용합니다.

사용해 본 사람들이 이야기하는 ‘Codex의 전반적인 장점’이라면, Codex가 만들어내는 출력이 마치 사람이 작성한 코드처럼 보이고 느껴진다는 겁니다 - 상당히 깔끔하고 읽기도 쉽고, 실제 소프트웨어 개발 워크플로우에 잘 맞아떨어진다고 합니다.

Codex를 보완해 주는 Codex CLI

Codex 에이전트 생태계는, 컴퓨터 터미널에서 직접 실행할 수 있는, 아주 가벼운 코딩 에이전트인 Codex CLI를 통해서 한층 확장됩니다. 바로 AI와 실시간으로 상호작용하면서 페어 프로그래밍을 할 수 있게 해 주는 것이죠.

오픈AI는 Codex CLI를 구동하기 위해서 o4-mini를 기반으로 한 더 작고 빠른 모델, codex-mini-latest를 개발했는데, 이 모델은 빠른 속도가 필요하고 지연 시간은 짧아야 하는 작업에 딱 맞고, 개발자의 지시 사항을 잘 따르는 동시에 코드의 스타일을 잘 이해하고 유지하는 능력을 갖고 있습니다.

Codex CLI를 사용하려면, 챗GPT 계정으로 로그인만 하면 됩니다 — API 토큰을 수동으로 관리할 필요가 없다는 거죠.

Codex CLI(로컬에서 실행)와 Codex(클라우드에서 실행)는, 같은 시스템의 양면으로 이해할 수 있고, 이 둘이 함께 하이브리드 워크플로우를 구성하게 됩니다:

Codex CLI는 빠르고 상호작용성이 높은 작업, 그리고 로컬에서 빠르게 편집하는 작업에 더 적합합니다.
Codex는 어느 정도 장시간에 걸쳐 실행을 해야 하거나, 규모 자체가 큰 작업의 경우에 적합합니다.

모바일에서의 Codex

Codex는 챗GPT iOS 앱을 통해서 모바일 기기에서도 사용할 수 있습니다! 모바일 앱 ChatGPT를 열면, 바로 코딩 작업을 시작하고, 코드들의 차이를 체크하고, 수정하도록 요청하고, 심지어는 아이폰에서 직접 Pull Request를 푸시할 수도 있습니다.

자, 이렇게 우리가 ‘코딩하는 방식’은 빠르게 변화하고 있어요. 휴대폰 앱에서 바로 코드를 작성, 편집, 푸쉬할 수 있고, 노트북도 IDE도 필요없는 거죠. 앞으로는, 뭔가 개발 프로젝트를 시작한다는 건 그저 ‘원하는 것, 필요한 것을 말하기만 하면 되는’ 그런 일이 될지도 모르겠어요. 개발자들은 지시사항을 명확하게 전달하고, 시스템의 내부에 있는 논리를 이해하고, 결과를 빠르게 확인하고 필요한 경우에 수정을 하도록 다시 지시사항을 전달하는 작업이 주요 작업이 될 겁니다 - 일견 ‘관리자’로서의 일만 하게 되는 것 같지만, 사실은 ‘구축’, ‘개발’이라는 작업, 그리고 기술에 대한 깊은 이해가 필요한 일입니다.

현재의 한계

아직까지 Codex가 보여줄 수 있는 잠재력을 제한하고 있는 몇 가지 문제가 있습니다. 우선, Codex는 리서치 프리뷰 단계의 제품이라서 일부의 기능은 제공되지 않습니다:

이미지를 사용할 수 없어서, 시각적이거나 UI 기반의 프론트엔드 작업에는 현재 기준으로는 도움이 안 됩니다.
Codex가 작업을 하고 있는 중간에 가이드할 수가 없습니다. 작업을 할당했으면, 결과를 기다려야 합니다.
특히 클라우드에서 실행되는 동안은, 내 손으로 직접 코드를 변경하는 것보다 느리게 느껴질 수도 있습니다.

Codex, 이 도구는 이제 출발점에 서 있을 뿐입니다. 위에 열거한 문제들이 차례로 해결된다면, Codex의 잠재력이 폭발하면서 Codex가 마치 팀 동료인 것처럼 느껴지는 때가 곧 올 거라고 믿습니다.

맺으며

개발자 뿐 아니라, 우리 모두가 경험하는 ‘코딩’이라는 작업의 성격, 엄청나게 빠르게 변화하고 있습니다.

이제 챗GPT 모바일 앱을 켜면 실행할 수 있는 Codex 같은 도구들로 개발자들이 휴대폰만으로 프로젝트를 진행할 수 있게 됐습니다.

동시에, 딥마인드의 AlphaEvolve는 에이전트들이 ‘스스로 해결책을 탐색’하고 ‘자동화된 테스트와 평가 작업’을 하면서 코드를 더 나은 버전으로 진화시킬 수 있다는 걸 보여줍니다.

이미 우리는, 직접 한 줄씩 코드를 작성하는 일로부터는 빠르게 멀어지고 있습니다. 일상적인 작업이라면, 상당한 부분을 우리 대신 해 주는 AI 시스템을 동료처럼 활용하고, 대신 중간 중간 가이드해 가면서 마지막 결과물을 검토하는 방식으로 바뀌어가는 중입니다. AI가 진정한 우리의 협력자가 되고, 우리는 AI를 깊게 생각하면서 가이드하는 관리자가 되는 것이죠.

그렇습니다. 2025년은 에이전트의 해입니다 - 사람과 에이전트가 함께 하는 진짜 협업을 확장하는 한 해이기도 합니다. ‘코딩’은 다른 어떤 영역보다도 앞서서 이 하이브리드 종 간의 협업을 보여주고 있습니다.

보너스: 참고자료

읽어주셔서 감사합니다. 친구와 동료 분들에게도 뉴스레터 추천해 주세요!

Reply

or to participate.