- Turing Post Korea
- Posts
- Pulse Check: 오픈AI, ChatGPT Agent 기습 공개
Pulse Check: 오픈AI, ChatGPT Agent 기습 공개

‘기습적’인 ChatGPT Agent 출시
7월 17일, 오픈AI에서 전격적으로 라이브스트림을 통해서 ChatGPT Agent를 공개했습니다. AI 업계, 미디어 모두의 이목을 집중시킨 기습적 출시였는데요.
ChatGPT Agent는 아주 간단하게 이야기하자면 ‘Operator’의 웹사이트 및 각종 도구 조작 능력, ‘Deep Research(심층 리서치)’의 정보 종합 및 분석 능력, 그리고 ‘ChatGPT’의 대화 및 추론 능력을 통합한 ‘에이전트’라고 볼 수 있습니다.
ChatGPT Agent를 사용해서 웹 탐색, 데이터 분석, 슬라이드 작성, 앱 연동 등 다양한, 복잡한 작업을 Operator가 제공하는 ‘가상 컴퓨터’ 환경에서 할 수 있습니다:
복잡한 다단계의 워크플로우 실행
기술 지원 이메일을 읽는다든가, 엑셀 데이터 등에서 타겟 고객을 식별해서 LinkedIn에서 검색하고 분석한다든가 하는 일을 할 수 있습니다.Raw 데이터를 분석, 가공해서 프레젠테이션으로 변환
P&L 데이터를 담은 엑셀, 성과 지표 등을 분석해서 핵심 내용을 정리한 파워포인트 자료를 생성한다든가 하는 일을 할 수 있습니다.포괄적인 UX의 모니터링 및 보고
여러 웹사이트를 탐색해서 사용자 흐름을 문서화한드단가, 상세한 사용성 보고서 등을 작성할 수 있습니다.실시간 데이터를 활용해서 특정 토픽에 대한 브리핑 작성
뉴스 리포트, 연구 논문, 포럼 등을 스캔해서, 특정한 주제에 대해서 실시간의 요약 내용을 생성해 낼 수 있습니다.인증 및 다이나믹 컨텐츠 처리
비밀번호를 사용해서 사이트에 로그인을 한다든가, JavaScript가 많은 페이지를 탐색하고, Paywall 이면에 있는 데이터를 추출할 수도 있습니다.
ChatGPT Agent를 사용하는 사람이 언제든지 작업에 개입하고 작업의 방향을 수정할 수도 있습니다. 그리고, ChatGPT Agent 자체가, ‘중요한’ 작업(예: 이메일 전송, 예약, 로그인 등)을 하기 전에 꼭 사용자로부터 승인을 받도록 하고 있습니다.
ChatGPT Agent의 구체적인 사용 사례나 성능에 대해서는 다른 글들이 많이 있으니, 여기서 같은 내용을 다시 반복할 필요는 없을 것 같고, 다만 한 가지, HLE(Humanity’s Last Exam) 벤치마크 성능만 확인하면 될 것 같습니다:

ChatGPT Agent의 HLE (Humanity’s Last Exam) 테스트 결과 (왼쪽)과 Grok 4의 테스트 결과 (오른쪽)
마찬가지로 얼마 전 발표된 Grok 4도 그렇고, 이번에 긴급 공개된 ChatGPT Agent도 그렇고, 모두 이 HLE 벤치마크에서 기존 모델들을 크게 앞서는 성과를 보여주고 있습니다.
Grok 4의 경우에는, 도구 없이 기본 모델만으로는 약 26.9%의 정확도인데 코드 실행 및 외부 도구 활용이 가능할 때는 41.0%까지 정확도가 상승합니다. 추가로, 여러 에이전트가 협업하는 'Grok 4 Heavy' 모드에서는 50.7%라는 아주 높은 정확도에 도달해서, 현존 AI 중 최상위권 성적을 기록하고 있습니다.
오픈AI의 ChatGPT Agent는, 도구를 활용하는 능력을 기반으로 HLE에서 41.6%의 정확도를 기록했습니다 - 이전의 Deep Research 모드(26.6%)나 기존의 o3 모델(20%대)보다 훨씬 높은 수준이고, 여러 에이전트를 병렬로 운영하는 세팅에서는 44.4%까지 점수가 올라간 것으로 보고되고 있네요.
두 모델 모두 기존의 SOTA를 넘어서는 성적을 보여주면서, 복잡한 논리, 그리고 추론 중심의 과제를 AI가 상당히 잘 처리할 수 있다는 걸 입증한 것으로 봐도 되지 않을까 합니다.
‘메모리’는 빠져있다
AI 에이전트의 ‘핵심적인 요소’로 ‘장기 메모리 기능’이 자주 언급되어 왔다는 건, 튜링 포스트 구독자라면 아마 다들 아실 겁니다 - 사용자와의 과거 대화나 선호도 등을 기억해서, 작업의 연속성을 보장하는 거죠.
이번에 공개된 ChatGPT Agent에는 아직 메모리 기능이 기본적으로 탑재되어 있지 않습니다. 공식 발표 자료에 따르면, Agent는 세션 중의 작업의 컨텍스트를 실시간으로 분석해서 복잡한 명령을 처리하지만, 사용자의 과거 대화나 취향, 반복된 정보를 장기적으로 저장하고 재사용하는 ‘메모리(저장 메모리)’ 기능은 포함되어 있지 않다고 명시하고 있습니다.
즉, 기존의 ChatGPT(Plus·Pro 등)에서 제공되던 저장 메모리 및 맞춤형 기억 기능은 일반 챗봇 대화라든가 일부 GPT 미니앱(GPTs)에는 적용할 수 있지만, 이번에 발표된 ChatGPT Agent의 실제 업무 수행 및 자동화 워크플로우에는 사용자의 의사나 반복되는 정보를 세션을 넘어서로 장기 저장하는 기능은 빠져 있는 겁니다.

네, 기억을 잃는 건 아주 괴로운 일이죠…^.^;
이렇게 ‘메모리’ 기능을 이번에 ChatGPT Agent 안에 포함시키지 않은 건, 당연히 실수는 아니고 ‘전략적 선택’이라고 봐야 할 겁니다. 아래와 같은 이유들을 짐작할 수 있습니다:
메모리를 포함시키지 않은 이유 | 설명 |
---|---|
⚙️ 기술적 안정성 | Agent의 자율 실행에 따르는 위험을 낮추기 위한 방편으로 Memory는 우선은 제외 |
🧭 제품의 방향성 | ‘사용자의 승인을 기반으로 한 행동’이라는 원칙과 일관된(Coherent) 설계를 유지 ChatGPT Agent의 제품 방향을 ‘개인을 위한 생산성 도구(MS워드, MS파워포인트 등)’라고 봤을 때 ‘개인화를 위한 메모리’는 현재 기준으로는 최우선 순위는 아님 |
🧪 MVP 전략과 목적 | ChatGPT Agent의 현재 버전에서는, 테스트의 범용성 및 예측가능한 행동을 검증하는 것이 가장 중요한 목적 |
🛡️ 개인정보 보호 | 규제 리스크의 최소화 및 법적 충돌을 사전에 방지하기 위한 방편 |
이런 면에서, 3~4일 전에 금융 산업이라는 Vertical을 위한 특화된 AI 플랫폼 Claude for Financial Services를 공개한 앤쓰로픽의 움직임과 Horizontal한 개인용 생산성 극대화를 위한 AI 플랫폼으로서의 ChatGPT Agent를 공개한 오픈AI의 전략도 대비해서 생각해 볼 수 있을 것 같습니다: Claude for Financial Services는 장기적인 맥락 유지 및 확장된 메모리 기능을 바탕으로 해서, 금융 담당자들의 분석 및 리서치 생산성을 크게 끌어올리겠다는 목표를 가진 AI 솔루션입니다. Claude 4 계열의 심화된 컨텍스트 윈도우(최대 200K 토큰)와 금융기관 맞춤형 워크플로우에 최적화된 문서·대화 맥락 보존 기술을 결합해서, 거대한 금융 문서, 거래 데이터, 장기적인 평가 작업 등을 하더라도 정보의 단절 없이 연속적으로 대화를 이어갈 수 있다고 합니다.
물론, 앞으로도 영원히 ChatGPT Agent가 ‘메모리’ 기능을 탑재하지 않을 거라고 예상하는 건 아닙니다.
ChatGPT Agent의 포지셔닝
‘에이전트의 해’까지는 모르겠지만, 어쨌든 모든 주요 AI 기업이 ‘에이전트’라는 한 방향을 향해서 달려가고 있는 지금, Deep Research, Claude Code, ChatGPT Agent 같은 도구들은 점점 더 긴 시간, 더 복잡한 작업을, 점점 더 사용자가 적게 개입하도록 하면서 수행하게 되고 있습니다. 말 그대로, 에이전트가 스스로 계획, 실행하고, 결과만을 사용자에게 돌려주는 시대가 열리는 틈이 보이는 것 같은데요.
이 와중에 벌어지는, ‘에이전트들이 기술 스택의 어느 계층을 어떻게 변화시키고 지배할 건가?’하는 새로운, 거대한 전쟁의 한 가운데에서, 지금 가장 눈에 띄는 전장은 ‘브라우저’ 계층이겠죠.
브라우저 계층은 바로 사용자가 정보를 얻고 행동을 하는, 그 인터페이스인데요. 앞으로 브라우저 계층의 지배자가 바로 사용자의 웹 안에서의 행동을 통제할 가능성이 높아집니다.
The Browser Company의 Dia, Perplexity의 Comet 등은 브라우저 내부에 AI를 직접 내장하는 전략을 택하고 있죠. 즉, 브라우저 자체가 에이전트인 겁니다. 사용자는 브라우저와 대화하면서 탐색하고, 클릭하고, 의사결정을 합니다. 에이전트는 내장된 엔진입니다.
반면에, 오픈AI의 ChatGPT Agent는 결이 많이 다른 전략을 택하고 있습니다. 이건, 브라우저 자체를 추상화합니다. 사용자는 에이전트에게 그냥 “내 항공권 예약해 줘”라고 말하면, ChatGPT Agent가 브라우저와 컴퓨터를 대신 사용해서 이 작업을 수행합니다. 사용자에게는 브라우저가 보이지 않게 되고, 브라우저를 넘어선 존재, 그 자체가 인터페이스입니다.
이 싸움에서 누가 이기든, 에이전트는 사람과 웹 사이의 중재자로 자리 잡게 될 겁니다. 웹은 더 이상 사람이 직접 클릭하면서 사용하는 게 아니라, 에이전트를 통해서 ‘간접적으로 접근’하는 세계로 바뀔 것 같습니다. 그리고 그 에이전트가 누구의 것인지, 어디에서 작동하는지, 어떤 계층을 통제하는지가 컴퓨팅 산업 전체의 힘의 중심을 재편하게 될 테구요.
다시 돌아와서, ChatGPT Agent의 임팩트와 전망
여러 AI 전문 블로거, 매체 등의 리뷰를 보면, “Wow”의 순간은 있을지언정 아직 ChatGPT Agent의 일상적인 사용성이 확보되었다고 보기는 이른 것 같습니다 - 어쩌면 당연한 것이겠죠, 이제 며칠 전에 나왔으니. 그리고 ‘브라우저 호환성’ 문제나 ‘작업 속도’ 문제 같은 것들은 시간이 지나면서 자연스럽게 해결될 거라는 생각도 듭니다.
대부분의 AI 사용 사례에서, o3 정도면 충분한 경우가 많을 겁니다 - “이메일 이거 어떻게 작성하는게 좋을까?” 하는 질문을 하려고 ‘브라우저’, ‘CLI’에 접근할 수 있는 전체 가상머신을 가동시킬 필요는 없으니까요.
코딩을 하고 싶다면, 제 경우는 Claude Code, Replit 등을 계속해서 사용할 것 같고, ChatGPT Agent가 그 시장을 대상으로 한 것은 아니겠죠. 연구를 한다고 하면 Claude Code, 조사 분석 작업에 도움이 필요하다고 하면 Deep Research를, 적어도 당분간은, 쓰게 될 것 같습니다.
그렇지만, ‘Deep Research’와 ‘Operator’의 결합은, ‘복잡한 사고’와 ‘정교한 행동’ 능력을 함께 가지고 있어야 할 미래의 ‘에이전트’로 가기 위해서 반드시 거쳐야 할 단계일 겁니다. 그런 의미에서, 아직은 ‘일상적인 사용’을 할 만한 수준에 도달했다고 생각은 안 들지만, 복잡한 문제도 오류없이 풀어내고 메모리 통합도 하는 등 조금 더 세련되고 정교해지고, 무엇보다 ‘익숙’해진다면, 적어도 종종, 한 달에 몇 번 이상씩 사용할 만한 경우를 찾을 수 있는 도구라고 생각합니다. 특히, ChatGPT Agent는 더 거대한 ChatGPT 생태계의 일부이니만큼, 앞으로 어떤 예상하지 못했던 가치를 제공하면서, 중요한 자리를 차지하게 될지도 모를 일이죠.
*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.
Reply