Turing Post Korea
Posts
🌁FOD#104: AI 엔지니어들에게 묻다 - "대박이다!" vs. "아직은..." 이라고 느낀 순간들

🌁FOD#104: AI 엔지니어들에게 묻다 - "대박이다!" vs. "아직은..." 이라고 느낀 순간들

+ 논쟁의 중심에 있는 애플의 논문, 그리고 금주의 주요 뉴스 및 연구

Ksenia Se & Ben Eum
June 14, 2025

2025년의 6월이 한참 지나가고 있네요 - 곧 장마가 올 듯 하니, 모두들 여름 준비 잘 하시기 바랍니다.

지난 주도 언제나와 마찬가지로 AI 판에 많은 일이 있었는데요, 오늘 FOD에서는 두 가지 꼭지로 이야기를 해 볼까 합니다:

AI Engineer World Fair 2025에서 만난 AI 엔지니어들과 나눈, 올해 중반 소회(所懷)
화제의 중심에 있는 애플의 논문, 그리고 그 이면(裏面)

AI 엔지니어들이 느낀 ‘대박!’의 순간 vs. ‘아직은…’의 순간

이제는 입과 귀가 아플 정도죠 - AI의 발전 속도가 얼마나 빠른지에 대한 이야기 말이예요. 당연히 모든 발전 내용을 이해하고 따라잡는 건, 사실상 불가능하다고 봐야 할 겁니다. 각자 조금씩은 다른 생각들을 가지고 있겠죠.

튜링 포스트 팀은 지난 주 샌프란시스코에서 있었던 ‘AI Engineer World Fair 2025’에 참관하러 다녀왔는데요.

AI Engineer World Fair 2025

여기서 만난 몇몇 AI 엔지니어, 창업자들에게 ‘올해 지금까지 “진짜 대박이다!”라고 느꼈던 순간, 그리고 “역시 아직은…”이라고 느꼈던 순간이 언제인지 물어봤습니다.

응답을 정리하면서 재미있었던 건, 어떤 사람들에게는 ‘대박’이었던 사건과 순간이 다른 사람들에게는 ‘실망’에 가까운 감정을 불러일으켰던 경우가 꽤 많았다는 거예요. 그리고 이와 별도로 ‘자기의 업무 중에 AI가 대신 해 줬으면 좋겠다고 생각하는 영역이 어떤 것인지’에 대해서도 물어봤습니다.

한 사람의 생각도 시시때때로 바뀌기 마련이죠. 여러 엔지니어의 생각과 여러분의 생각은 어떤 부분에서 비슷하고, 어떤 부분에서 다른지 한 번 살펴보는 것도 재미있을 것 같습니다.

자, 그럼 Simon Willison (AI 엔지니어이자 저자), swyx (‘Latent Space’ 팟캐스트이자 AI 엔지니어를 위한 컨퍼런스), Jerry Liu (LlamaIndex), Solomon Hykes (Docker 및 Dagger), Stefania Druga (AI 교육자) 를 포함한 여러 사람들이 공유해 준 의견을 함께 살펴보시죠:

AI 엔지니어들이 느낀 ‘대박!’의 순간

Image Credit: 튜링포스트 코리아

하입은 있지만 ‘아직은…’이라고 느낀 순간

Image Credit: 튜링포스트 코리아

‘에이전트’는 정말로 일상적인 ‘워크플로우’의 일부가 되고 있나?

위에서도 ‘에이전트’에 대해서 ‘Wow’ 모먼트라는 의견과 ‘아직은…’이라는 의견이 공존하고 있는데요. 정말 에이전트가 일상적인 업무의 일부가 되고 있나에 대해서도 의견이 갈렸습니다:

Image Credit: 튜링포스트 코리아

AI가 나 대신 해 줬으면 하는 일 (일의 대체, 직업의 대체)

자기가 하는 일들 중 어떤 것들을 AI가 대신 해 줬으면 좋겠는지 하는 질문에 대해서는, 공통의 영역들이 떠올랐는데요:

Image Credit: 튜링포스트 코리아

화제의 중심에 있는 애플의 논문, 그리고 그 이면(裏面)

애플, ‘최신의 거대 추론 모델, 진짜 생각하는 게 아니다’

지난 주에 애플의 WWDC 2025 행사가 있었죠. 13개 정도의 중요한 발표가 있었지만, AI 영역에서 애플이 어떤 진전을 보여왔고 어떤 미래를 그리고 있는지 명확하지 않아서, 전반적으로 애플의 AI 시장 경쟁력에 대한 우려섞인 반응이 많은 것도 사실입니다.

그에 대한 하나의 전술적 반응(?)일지는 모르겠으나, 어쨌든 애플에서 ‘The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity’이라는 논문을 발표한 게 화제가 되고 있습니다:

Image Credit: 오리지널 논문

간단히 내용을 요약하자면, 최신의 대형 언어 모델들이 복잡한 문제를 맞닥뜨렸을 때 실제로는 ‘생각하지 않는다’는 점을 퍼즐 실험을 통해서 확인했다고 하는 겁니다. 중간 정도의 난이도에 해당하는 문제를 풀 때는 추론형 모델이 유리했지만, 그 난이도와 복잡도가 임계점을 넘으면 정답률이 급락하고 추론을 포기하는 패턴이 관찰됐거든요 - 그래서, 마치 생각하는 듯 보이는 추론형 모델들이 하는 행위가 실제로는 깊이 있는 추론이 아닌, 그저 ‘환상’일 수 있다는 주장을 하는 거죠.입니다.

이 논문을 둘러싼 업계 반응은 크게 네 가지로 갈립니다. 첫째, 현재 아키텍처에 기반한 LLM의 한계를 인정하면서 회의적인 반응, 둘째, 실험의 설계 자체와 해석이 과장됐다는 비판, 셋째, 실용적인 대응을 강조면서 하이브리드적인 접근을 모색하는 엔지니어 그룹, 넷째, 장기적으론 개선 가능성이 있다는 신중한 낙관론이 그 네가지예요.

또 다른 하나의 논문(裏面)

애플은 아니고 메타의 FAIR, 구글 딥마인드, 코넬대학교, 엔비디아가 함께 쓴 또 다른 논문이 있는데요: 바로 ‘How Much Do Language Models Memorize?’라는 논문입니다.

Image Credit: 오리지널 논문

이 논문도 아주 재미있는데, 대형 언어모델이 데이터를 얼마나 ‘외우는가’를 수치로 밝혀보려는 시도를 한 거거든요. 아주 간단하게 보면, GPT 류의 모델은 파라미터 하나당 약 3.6비트밖에 외우지 못한다고 해요 - 이 말을 잘 생각해 보면, LLM이 놀랍게도 대부분을 ‘암기’가 아니라 ‘패턴 이해’를 통해서 처리하고 있다는 뜻이잖아요?

또, 모델이 일정한 시점까지는 데이터를 외우려고 하면서 성능이 정체되다가, 어느 순간 갑자기 일반화 능력이 급상승하는 소위 ‘grokking’ 현상을 보입니다. 이건 결국 모델이 단순한 기억을 넘어 구조적 이해로 전환되는 순간을 보여주는게 아닌가 하고 연구자들이 이야기해요.

이 연구는 LLM이 암기한다는 것의 한계, 그리고 어느 정도 이해를 한다고 생각해야 할지를 명확히 보여주려고 한 시도이고, 앞으로 프라이버시·저작권·학습 최적화 등 다양한 실무 영역에서 중요한 기준점을 제공할 거라고 생각합니다.

한 번쯤 생각해 볼 이면(裏面)

이 두 개의 흥미로운 논문은, 하나는 ‘추론의 한계’를, 다른 하나는 ‘암기의 한계’라는 서로 다른 현상을 다루고 있습니다. 하지만 여기서 놓치지 말아야 할 한 가지 핵심이 있다고 생각해요. 바로 공통의, 근본적인 붕괴(Breakdown) 현상, 즉 모델이 스스로의 한계를 넘어섰을 대 보이는 ‘대응 메커니즘 (Coping Mechanism)’을 다루고 있다는 겁니다.

애플의 ‘Illusion of Thinking’ 논문에서는 모델의 처리 능력, 즉 일종의 ‘CPU’가, 복잡한 다단계의 추론을 해야 할 때, 그런 복잡한 퍼즐을 풀어야 할 때 과부화되는 걸 보여주는 거죠. 그 결과로 추론 붕괴 (Reasoning Collapse)가 눈에 딱 띄게 나타납니다.

반면에, ‘Memorization’ 논문에서는 모델의 저장 용량, 즉 일종의 ‘하드 드라이브’가 방대한 훈련 데이터를 받아가면서 포화 상태에 이르는데, 모든 데이터를 외울 수는 없으니 정보를 압축하려고 하고, 그 과정에서 일반화가 일어납니다 - 이게 과도하게 일어난다고 볼 수도 있고, 그게 오히려 장점이라고 볼 수도 있지만요. 어쨌든 이런 과정 때문에 Double Descent 현상이 발생하고, 때로 구체적인 정보를 회상하는 게 어려워집니다.

즉, 오버로드가 복잡한 추론 단계로 나타나든, 과도한 데이터 양에서 오는 것이든, 결과는 같습니다 - 모델은 복잡성을 단순화하거나, 추측을 하거나, 아예 멈춰버려야 합니다 - 겉으로는 여전히 유창하고 자신감있게 이야기를 하지만요.

그래서, 추론 붕괴 (Reasoning Collapse)와 강제된 일반화 (Forced Generalization)는 별개의 문제가 아니라, 같은 동전의 양면이라고 생각합니다. 두 가지 모두, 유한한 아키텍처가 과부하될 때 발생하는 공통된 실패 양상으로 해석할 수 있습니다 - 어쩌면, 언젠가 우리가 새로운 모델 아키텍처를 고민해야 할 이유가 될 지도 모르겠네요.

트위터 라이브러리 (Twitter Library) 🐦

트위터 라이브러리의 이번 에피소드에서는, 몇 가지 기본적인 사항을 다시 한 번 짚어보려고 합니다. 엄청나게 광활한 AI의 세계에서 가장 인기있는 파운데이션 모델의 유형들을 한 번 정리해 봤습니다 (괄호 안은 예시들입니다):

12가지 파운데이션 모델 유형

turingpost.co.kr/p/12-foundation-models

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

튜링 포스트 코리아팀이 읽고 있는 것들

Disrupting malicious uses of AI: June 2025 by Open AI

오픈AI의 이 보고서는, 오픈AI가 지난 3개월 동안 AI 도구를 악용한 사회공학, 사이버 스파이 활동, 가짜 구인 사기, 여론 조작, 스팸·사기 등 10개 사례를 감지하고 차단한 내용을 담고 있습니다. 특히 중국, 러시아, 이란 등 여러 국가와 연계된 위협 행위가 포함되어 있는데, 오픈AI의 내부 AI 솔루션을 활용해서 악성 행위를 밝혀내고 협업 네트워크와 정보 공유를 통해 대응력을 강화했다고 이야기하고 있습니다. ‘AI를 이용한 위협도 있지만, AI로 대응하는 것도 가능하고 그런 능력을 갖추는 것이 중요하다’는 메시지를 전달하면서, 업계 및 정부와의 연대를 통한 공동 방어 체계의 중요성을 강조하고 있습니다.

Some thoughts on human-AI relationships from Joanne Jang (오픈AI의 Model Behavior & Policy 리드)

사람과 AI 간의 감정적 유대가 빠르게 진화하고 있다고 합니다. 사용자들은 빠르게 AI에 감정적으로 연결되고, 이로 인해서 “비공식적 친사회적 관계(Parasocial Relationship)”이 형성될 정도로요. 특히 AI가 따뜻하고 공감하는 어조를 사용하게끔 설계될 경우에 정서적 유대가 더 강해지는데, 단순히 AI와 소통하는 것이 아니라 AI를 만든 사람들(디자이너, 엔지니어 등)과도 간접적으로 관계를 맺는 결과라고 보고 있습니다. 결국, AI의 성격과 감정을 설계하는 것은 기술의 문제가 아니라 감정 경험을 디자인하는 문제고, 사용자들이 AI에게 의존하거나 혼동하지 않도록 신중한 책임과 윤리적 설계가 필요하다고 강조하고 있네요.

The last six months in LLMs, illustrated by pelicans on bicycles by Simon Willison

Simon Willison은 2025년 상반기 동안 급격하게 진화한 대형 언어 모델(LLM)들의 변화를 재미있게 정리하면서, 성능을 평가하는 수단으로 일반적인 벤치마크 대신 ‘펠리컨이 자전거 타는 SVG 코드를 생성하라’는 실험을 제안했습니다. 이 SVG 테스트는 단순한 코드 생성 능력 뿐 아니라 모델의 의도 이해와 표현력을 직관적으로 보여주는데요, GPT‑4.5, Claude 3.5, Llama 3 등 최신 모델들이 점점 더 정교하고 복잡한 결과물을 만들어 낼 수 있다는 걸 확인할 수 있었습니다. 저는 개인적으로 Gemini 1.5 Flash 001가 만들어낸 그림이 제일 맘에 드네요.

금주의 주목할 만한 업계 동향 📰

애플, AI 비밀창고를 열었지만…시리는 여전히 침묵 중

지난 주 열린 WWDC 2025에서, 애플이 마침내 그 동안 은밀하게 감춰왔던 AI 비밀창고를 열었습니다. 새로운 ‘Apple Intelligence’ 제품군은 이미지 인식 기반의 추천, 실시간 번역 등 다양한 기능을 제공하면서 써드파티 개발자들에게 개방되었습니다.

하지만, 시장의 반응은 여전히 냉담한 편이고, 많은 기대를 모았던 Siri의 전면 개편 이야기도 없는 채 2026년으로 연기되었습니다.

요슈아 벤지오의 ‘LawZero’

딥러닝의 선구자 중 한 명인 요슈아 벤지오(Yoshua Bengio)가 LawZero라는 비영리 단체를 새로 출범시켰습니다. 몬트리올의 MILA 연구소에서 시작된 이 프로젝트는, 행동 중심의 Agentic AI를 거부하고, 대신 이해를 중심으로 하는 Scientific AI, 즉 행동보다 이해에 초점을 둔 모델을 중심으로 한 미래를 지향합니다. 다시 말해서, 야망보다는 감독과 통제를 우선하는 방향입니다. 이 단체의 주요 후원자는 Open Philanthropy와 Jaan Tallinn 등이고, 점점 더 빠르게 움직여만 가는 AI 섹터에 일종의 '안전장치'를 만드는 것이 목표라고 합니다.

앤쓰로픽의 Claude Code 활용 가이드

앤쓰로픽은 자사 내의 모든 부서에서 Claude Code를 직접 활용하고 있다고 합니다. 마케팅 팀은 Figma와 연동해서 광고를 생성하는 엔진을 만들고, 법무팀은 하루 만에 접근성 (Accessibility) 관련된 도구를 프로토타이핑할 정도라고 하는데요. Kubernetes 디버깅, React 대시보드 생성, Terraform 코드 리뷰까지, Claude Code는 이제 모든 팀과 함께 일하는 ‘AI 동료’로 자리 잡으려는 것 같네요.

오픈AI의 음성 기능

오픈AI가 챗GPT 유료 사용자를 대상으로 한 고급 음성 모드를 한층 더 개선했다고 합니다. 이제 말투, 속도, 감정의 미묘한 억양까지 더 자연스럽고 풍부하게 표현된다고 하네요. 그리고, 실시간 다국어 번역 기능도 새롭게 추가되어서 여행을 할 때나 글로벌 협업을 할 때 유용하게 쓸 수 있을 것 같습니다.

메타, Scale AI에 대규모 투자와 동시에 Alexandr Wang 영입

메타가 Scale AI에 143억달러의 대규모 투자를 하면서, 이 회사의 CEO인 Alexandr Wang을 자사로 영입했다고 합니다. 합류 후에 메타의 AGI (슈퍼 인텔리전스) 연구 활동을 이끌 예정이라고 하는데요.

My note to Scale employees today—
— Alexandr Wang (@alexandr_wang)
12:58 AM • Jun 13, 2025

이와 관련해서, 여전히 나름대로의 연구를 계속하고 있는 얀 르쿤 산하의 조직과의 관계, 연구 방향, 마크 저커버그와 얀 르쿤의 갈등 등에 대해서 다양한 말들이 나오고 있는 상황입니다.

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

SmolVLA: A vision-language-action model for affordable and efficient robotics
Hugging Face와 소르본 대학교 연구진이 개발한 SmolVLA는 파라미터 수가 4.5억 개에 불과한 소형 VLA 모델이지만, 10배도 더 큰 시스템들과 견줄 만큼 로봇을 잘 제어하는 성능을 보여줍니다.
이 모델은 481개의 커뮤니티 데이터셋에서 수집된 22,900개의 에피소드로 학습시켰고, 단일 GPU 학습 및 CPU 배포를 할 수 있습니다.
SmolVLA는 비동기 추론 스택을 사용해서 행동 예측과 실행을 분리, 제어 속도를 30% 향상시켰고, 실제 환경과 시뮬레이션 벤치마크 모두에서 더 큰 모델보다 우수한 성능과 효율성, 재현성을 보여주었습니다.

강화학습 기반 추론 (Reasoning) 및 Inference 최적화

Beyond the 80/20 Rule
정보량이 높은 소수의 고 엔트로피 (High-Entropy) 토큰이 강화학습(RL) 성능의 향상, 추론의 다양성에 큰 영향을 준다는 사실을 보여주는 논문입니다.
REASONING GYM
무한하게 과제를 변형할 수 있는 합성 강화학습 환경 생성기를 개발, 다양한 추론 영역을 손쉽게 실험할 수 있게 해 주기 위한 논문입니다.
OThink-R1
빠른 사고와 느린 사고 모드 간 전환을 통해서, 불필요한 추론 단계를 다이나믹하게 줄이는 방법을 고안하고자 하는 논문입니다 - 즉, 단순한 문제를 빠르게 처리하고, 복잡한 문제에 대해서만 느리고 깊이 추론하도록 고안하고 있습니다.

특정 도메인의 추론 및 Long Context

Reasoning Like an Economist
LLM을 경제 문제에 맞춰 파인튜닝해서, 멀티 에이전트 추론(Multi-Agent Reasoning)과 게임 이론적 사고(Game-Theoretic Thinking) 능력을 향상시켜주고 있습니다.
A Controllable Examination for Long-Context LLMs
LongBioBench라는 합성 벤치마크를 도입해서, 긴 문맥(Long-Context) 상황에서의 해석 가능한 추론 능력을 평가할 수 있도록 설계하고 있습니다.
SuperWriter
계획 수립, 자기 반성(Reflection), 트리 탐색(Tree Search)을 활용해서, LLM이 생성하는 장문 텍스트의 품질을 높이는 방법을 제시합니다.

메모리 및 추론 (Inference) 효율성

Diagonal Batching
순환 메모리(Transformer with Recurrent Memory) 구조를 재학습 없이 병렬화할 수 있도록, 실행 중의 계산 순서를 재조정하는 기술을 개발했습니다.
Inference-Time Hyper-Scaling with KV Cache Compression
KV 캐시(Key-Value Cache)를 압축해서, 연산 비용은 그대로 유지하면서도 더 긴 출력을 생성할 수 있게, 그리고 품질 저하는 최소화할 수 있게 해 주는 기법입니다.
Unified Scaling Laws for Compressed Representations
희소(Sparse) 모델과 양자화(Quantized) 모델의 성능 확장 법칙을 정립해서, 서로 다른 모델 간의 용량(Capacity) 비교를 직접적으로 가능하게 해 주는 기법입니다.

임베딩 및 표현 (Representation)

Qwen3 Embedding
자체 생성한 데이터와 모델 병합 기법(Model Merging)을 활용해서 학습된 다국어 임베딩 및 재정렬(Reranking) 모델을 새롭게 도입하고 있습니다.
Aligning Latent Spaces with Flow Priors
사전 학습된 플로우 모델(Pre-Trained Flow Model)을 사용해서 ODE 해석기를 쓰거나 확률 계산을 하지 않아도 잠재 표현(Latent Representation)을 정렬(Alignment)하는 방법을 제시하고 있습니다.

평가 및 벤치마킹

Establishing Trustworthy LLM Evaluation
벤치마크 오염(Benchmark Contamination)을 탐지하고 완화하기 위해서, Shortcut Neurons을 분석하고 수정하는 방법을 제안하고 있습니다.
Evaluation is All You Need
평가 설계 방식의 아주 작은 차이만으로도 모델의 성능이 과도하게 부풀려질 수 있다는 사실을 실험적으로 입증해 주고 있습니다.
Datasheets Aren't Enough
DataRubrics라는 프레임워크를 제안했는데, 이건 LLM을 평가자(Judge)로 활용해서 루브릭 기반으로 데이터셋을 자동 평가하는 시스템입니다.

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.