Turing Post Korea
Posts
🌁FOD#118: OpenAI가 비춘 명암(明暗): '이상한 보고서'와 '괜찮은 Codex'

🌁FOD#118: OpenAI가 비춘 명암(明暗): '이상한 보고서'와 '괜찮은 Codex'

+ 금주의 주요 뉴스 및 연구

Ksenia Se & Ben Eum
September 19, 2025

보고서 ‘사람들은 ChatGPT를 어떻게 쓰고 있는가’

금주 FOD에서는, 원래는 다른 주제를 생각하고 있었습니다. 최근에 ‘환각(Hallucination)’에 대한 좋은 논문들이 나와서, 이 이야기를 좀 해 볼까 논의를 하고 있었거든요.

그런데, 갑자기 오픈AI가 월요일에 뉴스를 내보냈습니다 - 사람들이 ChatGPT를 어떻게 사용하는지 구체적인 수치들까지 담은 63페이지 짜리 보고서를 냈어요.

일단, 어떤 인사이트가 들어 있을지 큰 관심이 생겼고, 보고서를 아예 출력해서 읽어봤습니다. 읽는 과정에서 생긴 의문점들을 확인하고 명확히 하려고 또 ChatGPT하고 이야기도 좀 나눠 보구요.

개인적으로 좀 미스터리다라고 생각한 부분들이 있었는데, 이 보고서를 쓴 사람들이 어떤 생각으로 보고서를 리뷰했을까 하는 포인트들이 있었어요.

프롬프트: 이 보고서에 대해 몇 가지 의문이 가는 사항이 있거든. 너는 이 보고서를 보고 어떤 부분에 일관성이 없거나 정확하지 않거나, 아니면 결함이 있다고 판단하는지 이야기를 해 줘.

네, 제가 보기에는, 이 보고서 여기저기에 일관성이 없는 부분이 꽤 있어요. 대부분의 경우에 ‘치명적인 오류’라고까지 할 건 아닐지 몰라도, 이런 작은 오류들이나 “어?” 하는 부분들이 하나하나 쌓여서 신뢰성에 흠집을 내는 거죠. 게다가, 보고서 전체를 흔드는 더 큰 문제점도 있어요.

그런 점들을 한 번 짚어볼께요.

보고서에는 “2025년 7월 기준으로, ChatGPT 소비자 쿼리의 약 70%는 업무와 관련이 없었다. 업무 관련 쿼리와 비업무 관련 쿼리가 모두 증가하고 있지만, 비업무 쿼리가 더 빠르게 증가하고 있다”는 내용이 여러가지 표현으로 반복하면서 나옵니다.

그런데 각주를 보면 이런 내용이 있어요. “연구 샘플은 세 가지 소비자 요금제(무료, Plus, Pro)를 포함한다. 오픈AI는 다른 다양한 ChatGPT 요금제(Business fka. Teams, Enterprise, Education)도 제공하지만, 이번 샘플에는 포함하지 않았다.”

이 리포트를 ‘소비자 사용 보고서’로만 본다면, Teams, Business, Enterprise, Education 계정을 제외한 건 당연해 보입니다 - 이것들은 ‘소비자 요금제’가 아니라 기업용 상품이니까요. 이것 그 자체 때문에 논문이 잘못된 건 물론 아니에요.

그런데, 그러면 ‘업무 vs. 비업무’ 사용 비중에 대해서는 어떻게 결론을 내릴 수 있는 걸까요?

비유를 하자면, 마치 사람들이 피자를 어떻게 먹는지에 대한 보고서를 쓰면서, 일반 식당이나 학교 식당, 회사 파티에서 먹는 피자는 다 빼고 도미노 피자 매장에서 포장해 간 것만 세는 것 비슷한 건데요.

혼란스러운 건 바로 ‘보고서의 프레임’이예요. 보고서 제목과 결론은 마치 ‘사람들이 ChatGPT를 어떻게 사용하는지’ 전체를 다루고 이야기하는 것처럼 보이지만, 사실은 ‘소비자들이 ChatGPT를 어떻게 사용하는지’에 대한 내용이니까요. 이 중요한 수식어 하나가 빠지면서, 보고서에 실린 사실과 인사이트들은 완전히 다르게 읽혀야 하는 상황이 됩니다.

“사용량의 70%가 비업무 관련”이라는 내용은 무료/Plus/Pro 사용자의 경우에는 해당되지만, (당연하게도) 업무용 사용이 압도적일 수 밖에 없는 ‘기업 계정’이라는 거대한 부분을 빼놓고서 전체 사용 패턴에 적용할 수는 없습니다.
‘업무 vs. 비업무’ 사용 트렌드의 변화는 ‘소비자 계정’ 그룹 안에서는 사실이겠지만, 사무실, 교실, 기업 워크플로우에서 어떤 일이 벌어지고 있는지는 알 수가 없습니다. 거기서도 업무와 비업무 양쪽 모두에 ChatGPT를 쓰고 있을 테니까요.

정리하자면 이렇습니다.

만약 연구자들이 제목을 ‘소비자들이 ChatGPT를 어떻게 사용하는지’라고 했다면 아무 문제가 없었을 겁니다.
그런 부분을 놓쳤기 때문에, 이 보고서는 “ChatGPT가 대부분 비업무용으로 사용된다”는 주장의 ‘증거’로 잘못 인용될 위험이 있습니다. 이 주장은 보고서에서 선택한 표본 그룹의 특성 때문에 보고서 내용으로 뒷받침할 수 없는 내용이죠.

보고서 저자들은 “대부분의 AI 경제 분석이 유급 노동에서의 생산성 향상에 초점을 맞추고 있지만, 일 외적인 활동(가정 내 생산)에 미치는 영향도 비슷한 규모고, 어쩌면 더 클 수도 있다”라고 말하고 있는 셈인데요.

만약 이런 주장을 하려면, 실제로 비교 분석을 해 보고 증명을 해야겠죠 - 그런 과정이 없다면, 이런 비교는 그저 근거없는 주장일 뿐이구요.

또 “비업무 사용이 더 빠르게 증가한다는 사실은, 생성형 AI를 사용해서 얻는 후생 이득(Welfare Gain)이 상당할 수 있다는 것을 시사한다”고 주장하기도 하는데요:

생성형 AI가 후생 이득을 가져온다는 건, AI를 사용함으로써 개인이 더 효율적으로 업무를 처리하거나, 새로운 창작물을 만들고, 학습 능률을 높이는 등 일상생활에서 느끼는 편익이 커지는 것을 의미합니다

예를 들어서, 업무 시간 단축(보고서 초안 작성, 자료 요약 등 AI가 처리하면서 남는 시간을 다른 중요한 일에 투자), 창작 활동 지원(그림, 글쓰기 등 창작의 진입 장벽이 낮아져 누구나 쉽게 자기만의 작품을 만들 수 있음), 개인 학습 증진(복잡한 내용을 쉽게 설명해 주거나, 맞춤형 학습 자료를 받아 지식을 빠르게 습득) 등 개인의 여가, 학습, 자기계발 등 삶의 질을 높이는데 기여하고 있다는 뜻입니다.

편집자 주

이 포인트를 특별히 강조하고 싶어하는 이유가 있는지는 모르겠지만, 이 역시 근거가 빈약합니다.

수백만, 수천만 명의 사용자, 독자를 가진 서비스나 회사라면, 거기서부터 나오는 말에 대해서 책임을 져야 합니다. 어쨌든 이렇게 읽는 사람으로 하여금 의문이 들게 한다면, 결국은 원저의 신뢰성에 금이 갈 수 밖에 없으니까요.

이렇게 ‘오픈AI’를 원망(?)하면서 마무리를 하나 했더니, Codex를 출시했네요. 초기 반응이 나쁘지는 않아 보입니다. ^.^

오픈AI, 신모델 ‘GPT-5-Codex’ 출시

오픈AI의 코딩 에이전트 Codex에 적용할 신모델 ‘GPT-5-Codex’를 내놨습니다.

GPT-5-Codex — big improvement for long-running agentic tasks:
— Greg Brockman (@gdb)
5:20 PM • Sep 15, 2025

Codex 뿐 아니라 Claude Code, Cursor 등 수많은 AI 기반 코딩 도구들이 각축전을 펼이고 있는데요. 여러분은 어떤 도구의 손을 들어주시나요?

Codex는 지시에 잘 따르고, 응답 속도도 빠르고, 그리고 비교적 오류가 없이 코드를 생성해서 주목받고 있습니다. 특히, 토큰 사용 최적화, 작업 난이도에 따른 스마트한 처리 방식으로, 에이전트로서의 면모를 강조한 게 돋보입니다 - 간단한 작업은 순식간에 처리하고, 복잡한 문제를 받으면 더 깊이 추론을 해서 개발자의 생산성을 한층 끌어올립니다. 하지만 일부 개발자는 복잡한 작업을 할 때 Codex가 "좀 느리게 느껴진다"고 하기도 하네요.

Image Credit: Introducing Updates to Codex

물론, Codex는 이미지 입력을 지원하지 않는다든가, 복잡한 리팩토링에 제한이 있다든가 하는 한계도 있습니다. Claude Code가 그런 여러가지 면에서 완성도가 아직은 높다고 보지만, Codex도 빠르게 발전하고 있는 만큼, 결국은 개발자 워크플로우와 어떤 도구가 더 정밀하고 부드럽게 통합되느냐가 성공의 열쇠가 되지 않을까 싶네요.

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

트위터 라이브러리 (Twitter Library) 🐦

거의 매주 RL(강화 학습)에 대한 새로운 연구와 자료가 쏟아져 나오고 있습니다. 최신 트렌드에 발맞춰 지식을 끊임없이 ‘새로고침’하고 업데이트해야 하죠 - 힘들기는 하지만요 ^.^;. 그래서 오늘은, 여러분이 RL 분야에서 뒤처지지 않도록 도와줄 6가지 무료 자료를 공유해 드립니다:

강화학습 마스터가 되자! 최신, 무료 자료 6選

turingpost.co.kr/p/6-recent-reinforcement-learning-sources

금주의 주목할 만한 업계 동향 📰

앤쓰로픽, MCP 공개

앤쓰로픽의 MCP 레지스트리가 드디어 공개되었습니다. 공개적으로 사용 가능한 MCP 서버를 찾아볼 수 있는, 일종의 오픈 카탈로그이자 API인데요. 이 레지스트리는, 공공, 그리고 민간 하위 레지스트리가 서로 방해하지 않고 성장할 수 있게끔 설계된 'Single Source of Truth' 역할을 합니다. 커뮤니티가 직접 관리하는 모델과 오픈 소스 기반을 갖춘 이 프로젝트는, '맥락을 인식하는 AI(Context-Aware AI)'를 확장하기 위한 아주 중요한 기초입니다. 조용하게 시작했지만, 깊은 뿌리, 그리고 원대한 야망을 가진 프로젝트라고 할 수 있습니다.

Oracle의 파격적인 피벗

10년 동안 ‘조용히’ 인프라를 구축해 온 Oracle, 드디어 AI 거물들 사이에 큰 소리를 내며 뛰어들었습니다. 사상 최대 규모의 컴퓨팅 계약을 추진하고 있고, AI 수요가 밀려들면서 백로그가 눈에 띄게 늘어나고 있습니다. 이제 Oracle은 ‘낡은’ 데이터베이스 공급업체가 아니라, 기업용 AI의 핵심 연결고리로 자리매김하고 있는 것 같네요. AI 모델을 만드는 군비 경쟁에 뛰어들지 않고, 다른 회사들이 그 위를 달릴 수 있도록 데이터, 거버넌스, 유통이라는 '철로'를 깔아놓은 겁니다.

Devin, 레벨 업!

코딩 에이전트 Devin을 만든 Cognition AI가 최근 102억 달러(약 14조 원)의 가치로 4억 달러(약 5,500억 원)의 투자를 유치했습니다. 올 초만 해도 40억 달러 가치였는데, 벌써 두 배 이상 뛴 금액이죠. 1년도 안 돼서 연간 반복 매출(ARR)이 100만 달러에서 7,300만 달러로 급증했고, 순수 소각액(Net Burn)은 2,000만 달러 미만입니다. 회사의 문화만큼이나 공격적인 수치라고 할 수 있겠죠? 장시간 노동, 정리해고, 바이아웃(Buyout) 같은 이슈들도 Cognition AI에 돈을 싸고 들어오는 투자자들을 막지 못했고, 성장을 늦추지도 못했죠. 가치와 속도 면에서 마치 ‘하이퍼루프’를 탄 듯합니다. 튜링포스트 코리아에서 곧 이 회사에 대한 분석 기사를 발행 예정이니, 기대해 주세요.

튜링 포스트 코리아팀이 읽고 있는 것들

Magical Thinking on AI by Melanie Mitchell

"Magical Thinking on AI"라는 이름의 이 글에서, 멜라니는 ‘토마스 프리드먼의 최근 주장’을 심도 있게 다룹니다. 토마스 프리드먼은 AI를 안전하게 만들기 위해서 미국과 중국의 협력이 필요하고, 만약 우리가 잘 대응하지 못하면 초지능 AI가 자율적으로 진화할 수 있다는 우려를 제기하는데요. 그렇지만 멜라니는 이런 생각이 "마법적 사고"라고 이야기하면서 반박합니다. AI의 능력은 방대한 인간 데이터에서 비롯된 것이지, 스스로 발달한 결과가 아니라는 점을 강조하면서, 규제도 현실에 바탕을 두고 해야 한다고 이야기하고 있습니다. 이 논의는, AI의 본질, 그리고 그에 맞는 관리 방식이 뭘까 한 번 다시 생각해 보게 하는 중요한 시사점을 담고 있습니다.

Demis Hassabis on AI, Creativity, and a Golden Age of Science | All-In Summit

구글 딥마인드의 CEO 데미스 하사비스가 AI, 창의성, 그리고 과학의 황금기에 대해 논합니다. AI가 AlphaFold 같은 혁신적인 기술로 인류가 직면한 난제를 해결할 뿐만 아니라, 향후 5~10년 내에 진정한 범용 인공지능(AGI)이 개발되어서 과학과 창의성의 새로운 황금기를 열 것이라는 전망을 제시하고 있습니다. 데미스 하사비스의 주요 메시지는, AI가 단순히 기술을 발전시키는 도구를 넘어서, 인간의 창의성을 증폭시키고 인류의 삶을 근본적으로 개선하는 데 결정적인 역할을 할 거라는, 꽤나 낙관적인 비전입니다.

Fully autonomous robots are much closer than you think – Sergey Levine with Dwarkesh Patel

세르게이 레빈 박사는 이 팟캐스트에서 완전 자율 로봇의 발전 가능성을 진지하게 탐구합니다. 2030년쯤 가사까지 수행할 수 있는 로봇이 등장할 수 있다는 전망을 내놓고 있는데요. 실전 경험을 통한 기술 향상과 학습 능력의 중요성을 역설합니다. 빨래 접기나 주방 청소 같은 성과를 예로 들면서, 안전성과 데이터 확보의 과제를 언급합니다. 또 중국의 제조 경쟁력과 경제적 파급효과를 고려할 때, 로봇 기술의 균형 잡힌 생태계 구축이 시급해 보인다는 이야기도 덧붙이고 있습니다.

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

VaultGemma – 디퍼런셜 프라이버시를 완전히 적용해서 1B 크기의 디코더 전용 Gemma 변형 모델을 훈련하고, 실용적인 DP 스케일링 법칙을 보여주고, 프라이버시를 보호하는 애플리케이션을 위한 가중치를 공개합니다. → [논문 보기]
Hunyuan-MT / Hunyuan-MT-Chimera – 33개 언어에 걸친 다국어 번역 모델을 구축하고, 테스트 시점에서 여러 설정의 출력을 집계, 견고성을 높여서 WMT2025 성능에서 최첨단을 달성합니다 → [논문 보기]
mmBERT – 3T 토큰으로 현대적인 다국어 인코더를 사전 훈련하고, 어닐링된 언어 학습을 통해서 고자원 및 저자원 언어 모두에서 분류와 검색 성능을 향상시킵니다 → [논문 보기]
Qwen3-Next – 게이트 DeltaNet과 게이트 어텐션을 결합하고, 초희소 MoE와 네이티브 멀티-토큰 예측을 적용해서 80B 파라미터 중 약 3B만 활성화하면서 장문 컨텍스트를 효율적으로 처리할 수 있게 해 줍니다 → [논문 보기]

에이전트, 도구 및 환경

🌟 Tool-space interference in the MCP era: Designing for agent compatibility at scale (Microsoft) – Model Context Protocol 생태계에서 도구 카탈로그가 상호작용하는 방식을 분석하고, 크로스 에이전트의 비효율성을 방지하기 위한 방법을 제안합니다 → [논문 보기]
🌟 Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents (Stanford) – 연구 논문을 상호작용 가능하고 신뢰할 수 있는 MCP 기반 에이전트로 변환, 원래 워크플로우를 실행하고 확장할 수 있도록 합니다 → [논문 보기]
🌟 Virtual Agent Economies (Google DeepMind) – 에이전트 간 시장을 개념화하고, 경매 메커니즘, 미션 경제, 그리고 조정 가능한 AI 경제를 위한 거버넌스를 탐구합니다 → [논문 보기]
WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents – 복잡한 웹 탐색 데이터를 생성하고, 장문의 컨텍스트와 도구 호출 기능을 활용해서 최첨단 브라우징을 위한 에이전트를 훈련합니다 → [논문 보기]
EnvX: Agentize Everything with Agentic AI – GitHub 리포지토리를 자연스러운 상호작용과 크로스 리포지토리 협업이 가능한 자율 에이전트로 변환합니다 → [논문 보기]

에이전틱 RL 및 장기간 실행(Long-Horizon Execution)

🌟 Bootstrapping Task Spaces for Self-Improvement (Meta) – 탐색적 반복 훈련을 통해 작업 공간을 확장하고, 수학, 도구 사용, ML 작업에서 추론 시 자기 개선을 가능하게 하는 모델을 훈련합니다 → [논문 보기]
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning – 현실적인 환경에서 다중 턴 의사결정을 위한 LLM 에이전트를 훈련하기 위한 통합 프레임워크와 스케일링 전략을 제공합니다 → [논문 보기]
Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents – 불확실성을 인지한 경사 조절로 학습을 안정화하고, 자신 있는 올바른 업데이트를 강화하며 불안정한 업데이트를 억제합니다 → [논문 보기]
Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding – 모델 능력에 맞춰 적응형 힌트를 동적으로 조정해 문제 난도를 유지하며 훈련 효율성과 일관성을 높입니다 → [논문 보기]
Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing – 비동기 롤아웃 공유를 통해 RL 후속 훈련을 분산시키고, 이종 하드웨어에서 효율적으로 스케일링합니다 → [논문 보기]

추론, 환각, 그리고 신뢰성

🌟 The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs – 단계별 정확도가 장기 작업에서 기하급수적인 성과를 가져오는 과정을 보여주고, 실행 오류가 추론 격차보다 더 큰 영향을 미치는 이유를 설명해 줍니다 → [논문 보기]
🌟 Why Language Models Hallucinate (OpenAI) – 환각 현상을 훈련 및 평가 인센티브에서 오는 통계적 압력으로 설명하고, 보정된 불확실성이 아니라 오히려 추측을 보상하는 경향이 원인임을 밝힙니다 → [논문 보기]
Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet – 사실 중심의 환경에서 긴 추론이 종종 환각을 증가시켜서, Test-Time 스케일링이 주는 장점도 제한적일 수 있다는 걸 밝혀냅니다 → [논문 보기]

안전, 보안 및 강건성

🌟 Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated (Google DeepMind) – CoT(Chain-of-Thought)를 표적으로 하는 분해된 추론 공격을 보여주는데, 동시에 새로운 강건성도 있다는 것이 드러납니다 →[논문 보기]
🌟 All You Need Is A Fuzzing Brain: An LLM-Powered System for Automated Vulnerability Detection and Patching (Texas A&M University) – DARPA의 AIxCC에서 검증된 LLM 기반 시스템을 구축해서 소프트웨어 취약점을 자동으로 탐지하고 패치합니다 → [논문 보기]
🌟 R2AI: Towards Resistant and Resilient AI in an Evolving World (Tsinghua) – AI가 적대적 피드백 루프를 통해서 면역과 같은 저항력과 회복력을 발달시키는 공진화 안전 패러다임을 제안합니다 → [논문 보기]
🌟 Statistical Methods in Generative AI – 생성 AI 파이프라인에서 신뢰성, 공정성, 안전성을 높이기 위한 통계적 도구의 활용 방식을 조사합니다 → [논문 보기]

아키텍처 및 트레이닝 패러다임

Guided Decoding and Its Critical Role in Retrieval-Augmented Generation – RAG 출력을 구조화된 형식으로 제한하는 디코딩 프레임워크를 비교하고, ‘환각 제어’와 ‘사용성’ 간의 균형을 맞추면서 조화시키는 방법을 탐구합니다 → [논문 보기]
Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models – 확산 대형 언어 모델을 위한 궤적 인지 강화학습(RL)을 도입해서, 더 작으면서도 강력한 추론 모델을 만듭니다 → [논문 보기]
🌟 Language Self-Play For Data-Free Training (Meta) – 게임 이론적 자기 플레이를 활용해서 외부 데이터 없이 모델을 개선하는데, 데이터 기반 베이스라인보다 우수한 작업 성과를 보여줍니다 → [논문 보기]
🌟 Causal Attention with Lookahead Keys – 전방향 컨텍스트를 혼합하면서도 자가회귀 제약을 깨지 않도록 Lookahead 키를 활용해서 인과적 어텐션을 확장합니다 → [논문 보기]

멀티모달 추론 및 통합

🌟 Visual Representation Alignment for Multimodal Large Language Models (KAIST) – 사전 훈련된 VFM과 멀티모달 LLM의 시각 경로를 정렬해서 세밀한 시각적 추론을 향상시킵니다 → [논문 보기]
Can Understanding and Generation Truly Benefit Together – or Just Coexist? – 재구성 기반의 강화학습을 통해서 이미지 이해와 생성을 통합하고, 상호 개선 가능성을 보여줍니다 → [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.