민족의 대명절 ‘추석’을 맞아, 튜링포스트 코리아도 여러분들과 함께 한 주 쉬고 돌아왔습니다. 가족, 지인들과 함께 즐겁고 평안한 연휴 되셨기를 바라면서, 그럼 튜링포스트 코리아 다시 시작합니다!

편집자

‘생각 토큰’, AI 경제(그리고 AI 버블) 관점에서의 그 의미

딥마인드의 케빈 머피가 쓴 10월 15일 트윗

위 트윗을 쓴 케빈 머피(Kevin Murphy)는 머신러닝의 이론 뿐 아니라 실무도 통달한 대표적인 전문가로, 현재 딥마인드에 있습니다. 케빈은 ‘AI가 실제 산업에서 잘 쓰이려면 효율성이 중요하다’는 입장을 견지해 온 사람입니다.

위에 형광펜으로 표시한 케빈의 이 한 문장은, 지금 AI 산업의 본질적인 고민을 정확히 짚어냅니다: AI가 만들어내는 경제적인 이익 대비 훈련과 운영에 드는 비용이 훨씬 막대한 상황이, 생각보다 오래 지속될 거라는 거죠.

특히 ‘생각 토큰(Thinking Tokens)’ - 모델이 스스로 사람과 같이 사고하는 것처럼 흉내를 내기 위해서 내부적으로 수행하는 추가 계산 - 이 그 ‘비효율’의 대표적인 상징이라는 점을 꼬집고 있는 건데요. 이 메시지는 단순한 비판으로 바라볼 게 아니라 다음 단계 AI의 진화는 ‘더 많은 GPU’가 아니라 ‘더 똑똑하게 효율성을 확보하는 것’에 달려있다는, 조용하지만 명확한 선언으로 볼 필요가 있습니다.

‘사고 토큰’이 뭘까요?

돌이켜 보면, 초기의 언어 모델들은 ‘즉각적으로’ 화면에 단어들을 만들어 나갔죠. 그래서 프롬프트 엔지니어들이 “단계별로 생각해 보자”라는, 소위 CoT(Chain-of-Thought) 프롬프트를 사용해서 기존 모델의 한계를 우회하려고 하기도 했구요. 효과는 좀 있었지만, 지저분했죠. 길고 장황해서 비용도 많이 들었구요.

그래서 연구자들이 CoT를 ‘내부’로 돌려버렸습니다.

Herel, Mikolov가 쓴 ‘Thinking Tokens for Language Modeling’ 논문은 이 ‘생각 토큰’의 개념을 공식화한 초기 사례 중 하나입니다.

이 ‘생각 토큰’은 특별히 숨겨져 있는 토큰이고, 모델이 어려운 문제에 닥쳤을 때 추가적인 계산 시간을 활용할 수 있게끔 해 줍니다 - 토큰이 추가로 쓰이니까 비용이 드는 셈이죠. 이것과 비슷한 아이디어로 Pause Token이라든가 Filler Token 같은 것들이 트랜스포머 모델의 연구 과정에서 더 일찍 등장하기도 했지만, 이 특별한 토큰은 ‘생각 토큰’이라고 불립니다.

오늘날 우리가 보고 쓰는 많은 추론 모델들 - Claude 4.5, Gemini 2.5, GPT-5 등 - 은 대부분 겉으로 보이지 않는 뒷편에서 많은 작업과 생각을 하죠. 응답을 하기 전에 내부의 작업을 추적하고, 화면에는 보이지 않는 숨겨져 있는 토큰들을 사용해서요.

‘잠깐 멈춤(Pause)’의 댓가

결과적으로, 거대 언어모델들은 응답하기 전에 ‘잠깐 멈출 줄을’ 알게 됐죠. 답변을 확정짓기 전에 추가적인 연산량을 비용을 치르고 사용하는 겁니다.

장점은 어쨌든 품질이 좋아진다는 것이겠죠 - 더 어려운 수학문제를 풀고 국제 수학 올림피아드에서 입상한다든가, 코드 계획을 더 잘 한다든가요.

단점은, 역시 ‘비용’입니다. 엄청난 비용이요. 모든 하나 하나의 숨겨져 있는 토큰이 GPU 타임, 그리고 전력을 소비하잖아요. 하나의 ‘사려깊은’ 답변을 만들어내기 위해서, Forward Pass를 추가적으로 수천번 더 해야 할 수도 있는 겁니다. 뭐, 괜찮은 경우도 있겠지만, 간단한 질문이라면…글쎄요, 낭비 아닐까요?

‘추론(Reasoning) 연구의 두 가지 전선(Frontline)

언어모델의 추론을 연구하는 사람들은, 이제 두 개의 전선에서 싸우고 있습니다:

그 중 한 쪽 진영에서는 ‘더 가벼운 생각(Leaner Thinking)’의 방향을 탐구합니다. 내부의 트레이싱을 줄여서 더 짧게 하고, 토큰 예산을 조정해 가면서, 도움이 될 때만 추론을 하게끔 합니다.

다른 한 쪽 진영에서는 ‘완전히 다른 방식의 생각(Different Thinking Altogether)’을 추구하는데, ‘토큰 중심의 추론’, 즉 끝없이 토큰을 굴려가면서 문장을 이어붙이는 구조가 아니라, 토큰 개념의 바깥에서 이루어지게 될 ‘진짜 이해와 생각’은 어떻게 하도록 할 수 있을까 하는 겁니다.

첫 번째 진영의 무기는 기본적으로 ‘압축(Compression)’입니다. 올해 이와 관련해서 많은 연구들이 진행되기도 했습니다:

‘Wait, We Don’t Need to “Wait” ! Removing Thinking Tokens Improves Reasoning Efficiency’라는 논문은 “흠…”이나 “잠깐…” 같은 Filler Token을 제거해서 추론의 길이를 대략 40% 정도 줄이면서도 정확도는 비슷한 수준으로 유지할 수 있다는 걸 보여줬구요.

‘Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space’ 논문은 모델이 단어 하나하나를 나열하면서 생각하는게 아니라, 머리속에서 개념을 연결하듯이 부드럽게 생각하게끔 해서, 불필요한 계산을 줄이고 전체 토큰 사용량을 약 22% 줄여준다고 합니다.

그리고 아주 주목할 만한 논문, ‘MARCOS: DEEP THINKING BY MARKOV CHAIN OF CONTINUOUS THOUGHTS’는 여기서 더 나아가서, 아예 CoT를 없애고 생각이 안 끊기면서 흘러가는 ‘연속적 사고 흐름(Hidden Markov Flow of Continuous Thoughts)’으로 바꿔버립니다. 그래서, 기존보다 최대 15배 빠르게 추론을 하면서도 정확도는 그대로 유지하든지 아니면 높이든지 할 수가 있다고 합니다.

두 번째 진영의 무기는 ‘변형(Transformation)’이예요. 덜 생각하는게 아니라 ‘다르게’ 생각하는 거죠. 지난 주에 이 주제에 대해서 꽤 많은 새 논문들이 나왔는데요:

‘Less is More: Recursive Reasoning with Tiny Networks’ 논문은 700만개 파라미터 규모의 작은 네트워크가 답변을 반복적으로 다듬어서, 거대 언어모델과의 ARC-AGI 퍼즐 대결에서 승리할 수 있다는 걸 보여줍니다. ‘넓이(Width)’를 포기하고 대신 ‘반복(Iteration)’을 선택하는, 즉, 거대한 뇌가 한 번 생각하는게 아니라 작은 뇌가 여러 번 생각하는 겁니다.

‘LADIR: LATENT DIFFUSION ENHANCES LLMS FOR TEXT REASONING’ 논문은, 잠재 추론 공간에 디퓨젼 스타일의 노이즈 제거 기능을 도입하는데요. 좀 더 쉽게 말하자면, 말로 생각을 내뱉기 전에 머릿속에서 여러 가능한 생각들을 동시에 떠올린 다음, 그 중에서 점점 잡음을 제거해 가면서 가장 일관적인 사고 경로를 남기는 방식입니다.

‘Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts’는 AI가 문제를 한 번에 다 계산하지 않고, 필요한 부분만 집중해서 다시 생각하도록 만드는 구조입니다. 모델이 입력을 잠재공간(머릿속 개념 형태)으로 바꾼 뒤에, 그 중 중요한 영역만 여러 번 되짚어 보면서 사고를 정제하고, 마지막에 결과를 문장으로 표현합니다. 쉽게 말해, “전체를 반복 학습하는 대신, 핵심만 여러 번 곱씹는 똑똑한 사고 방식” 이라고 보면 됩니다.

이런 방향의 연구들은, 무작정 반복하면서 ‘양’으로 승부하던 방식이 아니라, 더 구조적이고, 재사용도 가능하고, 확률에 기반해서 성능을 높이는 새로운 추론, ‘질’의 방향으로 나아가는 연구들이라고 하겠습니다.

자, 그럼 이게 지금의 ‘AI 버블’에 대한 논쟁, 논의하고 어떤 관련이 있는 걸까요?

‘생각 토큰’과 이걸 둘러싼 ‘추론 비용’에 대한 논의와 다양한 접근은, 기술의 발전과 경제적 이슈가 정면으로 충돌하는 현장이기도 합니다. 지난 10월 7일 블룸버그의 기사 "OpenAI, Nvidia Fuel $1 Trillion AI Market With Web of Circular Deals"에서 바로 AI 모델의 ‘생각을 하는 비용(Cost of Thinking)’이 오픈AI, 엔비디아, AMD, 오라클 등을 둘러싼 1조 달러 규모의 ‘상호 의존적인 거래’를 드라이브하는지 추적하고 있습니다. 엔비디아는 오픈AI에 최대 1,000억 달러를 투자해서 거대한 데이터센터 건설을 위한 자금을 지원할 겁니다. 오픈AI는 반대로 그 데이터센터 사아ㅣ트를 엔비디아의 칩으로 채우겠죠. 그리고 며칠 안에 3,000억 달러 규모의 오라클 클라우드 계약, 수십억 달러 규모의 AMD 파트너십 기사가 나왔습니다. 모닝스타에서는 이 ‘엔비디아-오픈AI’ 파트너십 구조가 AI 버블이 터지는 순간 ‘빵 부스러기’처럼 될 거라고 하기도 했습니다. 참고로 오픈AI는 2030년 정도까지는 현금 흐름이 (+)로 전환되기를 기대하지 않는다고 했구요.

Image Credit: 블룸버그 “OpenAI, Nvidia Fuel $1 Trillion AI Market With Web of Circular Deals”

거미줄처럼 연결된 이 관계들 속에, 바로 AI 모델 추론(Reasoning)을 둘러싼 수학과 계산이 자리하고 있습니다.

AI 시스템이 ‘생각’하는데는 비용이 들고, 모든 AI 시스템은 쉬운 질문은 빠르게, 어려운 문제는 더 깊이 생각하게끔 설계하고 있죠. 그 과정에서, 눈에 안 보이는 ‘숨은 토큰(Hidden Tokens)’을 둘러싼 계산량이 계속 누적됩니다. 결과의 정확도를 높일 수는 있지만, 이런 계산 때문에 컴퓨팅 자원은 엄청나게 빠르게, 그리고 많이 소모됩니다.

자, AI 모델이 매일 수십억 회의 요청을 처리한다고 하면, 이 산업은, 마치 ‘전력망처럼 에너지를 소비하는 구조’가 될 겁니다. 그런데도 왜 돈을 계속해서 쏟아부을까요? 답은 간단해요: 철도망을 깔 때처럼, 먼저 깔아놓고 표는 나중에 팔겠다는 겁니다.

‘지능’의 새로운 비용 곡선

AI 기술의 ‘숨은 추론(Hidden Reasoning) 비용’은 이제 이코노믹스 자체에 큰 영향을 주고 있습니다.

시장은 두 개의 방향, 즉 빠른 응답을 위한 경량 모델, 그리고 복잡한 문제를 깊이 파고드는 고성능 모델의 방향으로 나뉘고 있지만, 여전히 사고 과정이 내부에 숨겨질수록, 그 안에 있는 편향이나 오류도 함께 보이지 않게 된다는 문제가 있습니다. 이 때문에라도, 오히려 엣지 디바이스에서 직접 실행할 수 있는 작고 효율적인 모델의 필요성이 더 커지는 것 같기도 합니다.

위에서 잠깐 살펴본, 무서우리만큼 거대한 AI 산업의 순환 투자 구조, 그에 따라올 기록적인 설비 투자도, 결국은 추론 효율이 컴퓨팅 비용의 상승 속도보다 빠르게 개선될 때에만 의미가 있습니다. 그렇지 않으면, 새로 만들어지는 데이터센터들은 ‘아직 돈이 되지 않은 AI 모델의 생각들’이 쌓여있는 창고일 뿐이죠.

오라클의 GPU 클라우드가 대표적인 예가 될 것 같네요: AI 서버 매출 1달러당 이익은 14센트 정도에 불과합니다. 세대가 바뀔수록 모델은 더 많이 생각을 해야 할 텐데, 그만큼 이 적은 마진폭은 더 줄어들기 쉬울 겁니다.

‘감당할 수 있는 생각(Affordable Thought)’을 향한 새로운 경주

이 ‘숨은 추론 (Hidden Reasoning)’ 개념은, 한 때 AI가 마치 사람처럼 사고하기 시작했다는 신호로 받아들여졌는데요.

2025년 지금에 와서는, 어쩌면 ‘지능으로 포장된, 과장되고 부풀려진 계산’일 뿐인가 싶기까지 합니다. 겉으로는 더 똑똑해진 것 같지만, 글쎄요, 사실은 보이지 않는 곳에서 계산량만 조용한 가운데 폭증하고 있는 것이라고 보면, 너무 지나친 생각일까요?

AI 산업, AI 이코노미가 앞으로 안정되어가면서 성장할지, 아니면 버블이 터지게 될지는, 결국 단 하나의 숫자, 비율(Ratio)에 달려 있는 셈입니다:

  • 기계가 1달러를 벌기 위해서 얼마나 많은 토큰을 써서 생각해야 하는가?

그런 의미에서, 이제 AI 씬의 다음 경쟁 무대는 ‘성능’이 아닌 ‘효율’의 무대입니다. “얼마나 깊이 생각하느냐”가 아니라, “얼마나 적은 비용으로 생각하느냐”가 핵심이 될 겁니다.

그리고, 그 싸움에서라면 ‘인간은 아직 압도적인 우위’를 지니고 있는 것 같네요.

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

트위터 라이브러리 (Twitter Library) 🐦

최근 몇 주간, Sora 2가 큰 화제를 모으면서 ‘고품질 영상을 생성한다는 건 이런 거다’는 새로운 기준을 보여주고 있죠. 이 트렌드에 맞춰서, Sora 2 뿐 아니라 Sora 2의 괜찮은 대안, 또는 보완책이 될 만한 비디오 생성 도구들을 한 번 소개해 드립니다:

금주의 주목할 만한 업계 동향 📰

SemiAnalysis, ‘얼마나 효율적으로 생각하느냐’는 추론 벤치마킹

언어모델의 추론 벤치마킹, 지금까지는 뿌연 연기 속에서 어렴풋이나마 뭐가 있는지 보려는 노력이었다고 해 볼 수 있을까요? 하지만, SemiAnalysis의 벤치마킹 Inference Max는 모델을 실제 하드웨어에서 매일 밤 벤치마크하고, 실제 처리량 vs. 지연 시간 트레이드오프를 보여줍니다. 날 것 그대로의, 현실적인 오픈소스 성능 데이터입니다. 역시, 위에서 언급한 ‘얼마나 잘’이 아니라 ‘얼마나 효율적으로’라는 방향의 한 움직임이라고 볼 수도 있겠습니다

InferenceMax vs. 여타 추론 벤치마킹 비교. Image Credit: 튜링포스트 코리아

Reflection AI: 중국이 리드하는 (모양새인) 오픈소스 AI에 대한 미국의 카드

PaLM, AlphaGo, Gemini를 만든 베테랑 연구 개발진이 만든 팀, Reflection AI가 스텔스 모드에서 박차고 나와 20억 달러의 전투 자금을 확보했습니다. Reflection AI의 미션은, ‘오픈AI의 최전선을 다시 미국이 차지하도록 하겠다’는 겁니다. 빅테크 랩에 필적하는 프런티어 규모의 MoE, 강화학습 플랫폼을 구축했다고 주장하고 있는데요. 이 회사의 후원자는 엔비디아, 세쿼이아 캐피탈, 에릭 슈미트입니다. 글쎄요, 지금 있는 리스트도 차고 넘치는데, 또 하나? 앞으로 지켜봐야겠습니다.

Figure, 제품 출시

Figure가 드디어 프로토타입이 아닌 제품으로서 3세대 휴머노이드를 공개했습니다. Figure 03이라는 이름의 이 로봇은, 역시 Helix를 기반으로 만들어진, 범용 로보틱스를 향한 Figure의 한 단계 도약이라고 할 수 있겠습니다.

새로운 촉각 센서, 저지연의 시각 센서, 속삭이는 것마냥 아주 조용한, 가정에서도 쓸만한 섀시로 만들어졌다고 하는데, 새로운 공급망과 자체적으로 구축한 공장에서 수천대의 공급 역량을 갖췄다고 합니다. 그런데, 다 좋은데, 하는 일은 가사일인데 음악은 좀 Spooky하네요? ^.^;

튜링 포스트 코리아팀이 읽고 있는 것들

중국이 티베트 고원에 약 162평방마일(약 420 km²) 규모의 태양광 패널 단지를 조성한 것에 대한 뉴욕타임즈 기사입니다. 이 프로젝트가, 단순한 친환경 선언을 넘어서 전략적인 에너지 인프라 구축으로 해석된다고 하는데요, 높은 고도 덕분에 일사량이 강하고 공기 밀도가 낮아서 패널 효율이 더 좋고, 냉각 부담도 줄어든다고 합니다. 이 전력은 수천 킬로미터 떨어진 동부 연해 지역으로 송전되어서 공장과 도시에 전기를 공급하는 방식으로 연결되고 있는데요. 저장 시스템과 고압 송전망 구축 같은 보완 장치들이 갖춰지면, 이 지역이 거대한 ‘기저 발전 센터’로 성장할 가능성이 있습니다.

소셜미디어의 데이터 수집 관행, 이 관행은, 우리에게 적나라하게 ‘사용자는 상품’이라는 불편한 진실을 알려줬죠. 이제 대화형 AI에도 비슷한 바운더리에 대한 논의가 필요하다는 글입니다. AI와 1:1로 대화하는 환경은 공개 플랫폼과는 다르게 더 깊고 내밀한, 개인적인 정보를 끌어내기 쉽고, 이 과정이 광고 수익과 결합된다면 사용자의 인지와 선택에 영향을 줄 수 있습니다. 이 글은 AI 회사들이 투명하게 데이터 처리 방식을 밝혀야 하고, 사용자들이 스스로 데이터 흐름을 통제할 수 있어야 한다고 강조합니다. 또, 오픈소스 모델을 활용하면 ‘내 데이터가 어디로 가는가’에 대한 선택권을 더 가질 수 있다는 제안도 덧붙이고 있습니다.

오픈AI가 LLM이 정치적 편향을 내포할 가능성을 체계적으로 진단하고 줄이려는 자사의 노력을 소개합니다. 약 500개의 주제와 다양한 정치 성향을 커버하는 프롬프트 세트를 구성하고, 편향이 나타나는 축(사용자 무시, 감정 과잉, 일방적 서술 등)을 다섯 가지로 정의해서 자동적인 평가 시스템을 만들었습니다. 실험 결과, 최신 GPT-5 모델은 중립적 혹은 약한 편향 프롬프트에는 안정적인 응답을 보이며, 감정적으로 자극적인 문장은 여전히 편향 위험이 존재하지만 이전 모델 대비 개선되었다는 결과가 나왔습니다. 앞으로는 편향을 더 세밀하게 검출하고 보정하는 방향으로 연구를 이어가겠다는 비전도 포함돼 있습니다.

새로 나온, 주목할 만한 연구 논문

금주에는 ‘주목할 만한 최신의 AI 모델’ 3가지를 소개하겠습니다!

주목할 만한 최신 AI 모델

  • Liquid AI의 LFM-8B-A1B

  • Apriel-1.5-15B-Thinker by SLAM Lab and ServiceNow
    SLAM Lab과 ServiceNow가 공개한 Apriel-1.5-15B-Thinker는 150억 개의 파라미터를 가진 오픈 멀티모달 추론 모델입니다. Pixtral-12B를 기반으로, 깊이 업스케일링(Depth Upscaling)단계적 연속 사전학습(Staged Continual Pretraining), 그리고 추론 과정(Reasoning Traces)이 포함된 고품질의 지도 파인튜닝(Supervised Fine-Tuning)을 결합해서 만들어졌습니다. 이 모델은 Artificial Analysis Intelligence Index에서 52점을 기록하면서, 더 적은 자원으로 DeepSeek-R1-0528 모델과 동등한 성능을 달성했습니다. 또 AIME’25에서 87%, CharXiv에서 88.2%의 점수를 기록해서, 단일 GPU 환경에서도 더 큰 모델들을 능가하는 추론 효율을 보여줍니다. —> [논문 보기]

  • Ling-1T from Ant Group
    Ant Group이 발표한 Ling-1T1조 개의 파라미터를 가진 범용 대형 언어 모델로, Ling(백령, BaiLing) 모델 패밀리의 최신 버전입니다. 논리적 추론, 코드 생성, 수학 영역에서 최첨단(SOTA) 성능을 달성했고, AIME 2025 벤치마크에서 70.42%를 기록했습니다. 한 문제당 4,000개 이상의 출력 토큰을 생성할 수 있을 정도로 긴 추론을 지원합니다. Ling 패밀리는 비추론형 MoE 모델(Ling), 추론 중심형 Ring 모델, 멀티모달 Ming 모델, 그리고 실험적인 LLaDA-MoE 모델로 구성되어 있고, 포용적인 AGI 개발을 위해서 오픈소스 생태계로 공개되었습니다. —> [발표 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

Avatar

or to participate

Keep Reading