- Turing Post Korea
- Posts
- 달콤쌉싸름한(Bittersweet) 교훈
달콤쌉싸름한(Bittersweet) 교훈
리차드 서튼의 LLM 비판(?): AI 스케일링의 성공과 한계

들어가며
튜링 포스트 코리아 구독자 여러분, 이제 2025년 추석 연휴가 진짜 시작되었네요. 모두 가족, 지인과 함께 풍성하고 행복한 연휴 되시기 바랍니다!
오늘 ‘커뮤니티 트위스트’ 에피소드에서는, 최근에 X와 레딧 등에서 꽤 많이 언급된, ‘AI의 미래 방향에 대한 논의’를 한 번 다뤄볼까 합니다.
아시다시피, 강화학습의 아버지라고도 할 수 있을 리차드 서튼(Richard Sutton)이 최근 유튜브 인터뷰에서 ‘LLM은 AGI(인공 일반 지능)로 가는 죽은 길(Dead End)' - LLM으로는 AGI에 도달하기 어렵다는 뜻이겠죠 - 이라고 지적한 후에, AI 커뮤니티에서 다양한 의견과 반응이 나왔습니다.
많은 사람들이, 이와 관련해서 2019년에 리치드 서튼이 쓴 'Bitter Lesson' 에세이를 연상하기도 했습니다. 이 글은 AI 발전의 핵심이 컴퓨팅 파워에 있다고 강조하면서, LLM의 성장을 예견한 듯한 표현이 많이 있는 글입니다. 하지만 이제 글의 저자인 리차드 서튼 본인이 LLM의 한계를 언급하고 있는 이 상황이, 마치 '달콤쌉싸름한 교훈(Bittersweet Lesson)'처럼 느껴지기도 합니다.
아마, 원래의 'Bitter Lesson'은 사람의 지식을 과대평가하고 거기에 과도하게 의존하지 말라는 '쓰디쓴(Bitter)' 교훈이었지만, LLM의 성공은 그 교훈의 '달콤(Sweet)'한 결실처럼 보이면서도 AGI로 가는 길에서 한계를 드러내는 '쌉싸름(Bittersweet)'한 면이 있는 것 아닌가 하는 생각에, 제목을 이렇게 한 번 잡아봤습니다 – AI의 미래가 흥미롭지만 동시에 도전적이라는 뉘앙스를 담아보기에도 적절한 것 같았구요.
어쨌든, 이 글에서 리차드 서튼이 출연한 유튜브와 관련한 논의를 정리하고, 주목할 점들을 살펴보겠습니다.
Bitter Lesson을 다시 떠올려보자
먼저, 리차드 서튼의 'Bitter Lesson'을 간단히 복기해 보죠.
2019년 에세이에서, 리차드 서튼은 AI 연구 70년의 역사를 돌아보면서, 그 때까지의 발전에 기여한 핵심적인 원동력이 ‘컴퓨팅 자원의 폭발적 증가’, 그리고 그걸 활용한 일반적 방법(검색과 학습)이라고 강조합니다. 인간의 지식을 미리 주입하는 접근법은 단기적으로 유용할 수 있지만, 장기적으로 시스템을 복잡하게 만들고 스케일링을 저해한다고 지적했습니다.
예를 들어서, 체스나 바둑에서 인간 지식에 기반한 방법은 초기에는 유망해 보였지만, 대규모 검색과 자가 학습(Self-play)을 활용한 AlphaGo나 AlphaZero가 이를 압도하는 모습을 확인했죠. 음성 인식이나 컴퓨터 비전 분야에서도 통계적 방법과 딥러닝이 인간 중심적인 접근을 대체한 사례를 들면서, "인간 지식을 빌려 쓰는 건 단기적으로 만족감을 줄 지는 모르지만, 궁극적으로는 AI 발전의 정체를 초래한다"고 이야기했습니다.
이 에세이는 정말 ‘LLM 시대의 등장과 폭발적인 성장’을 미리 내다본 것 같은 느낌을 줍니다. LLM은 방대한 데이터와 컴퓨팅 파워로 훈련되고, 사람의 지식을 최소화하고 스케일링을 통해 성능을 높여 왔으니까요. 오픈AI의 GPT 시리즈나 구글의 PaLM처럼, 더 많은 연산 자원과 데이터를 투입할수록 성능이 향상되는 '스케일링 법칙(Scaling Laws)'은 Bitter Lesson의 실증 사례로 여겨졌습니다. 실제로 AI 연구자들 사이에서 이 에세이를 기준으로 접근법을 평가하는 경우가 많기도 했습니다.
그런데, 위에서 이야기한 것처럼, 최근 유튜브를 통해 우리가 접한 리차드 서튼의 발언은, 이런 해석에 균열을 만들어 내는 것 같습니다. 리차드 서튼은 ‘LLM이 Bitter Lesson의 정신을 제대로 따르지 않는다’고 본다고 이야기하는데, 훈련 데이터가 ‘사람이 생성한 인터넷 텍스트’로 가득 차서 사람의 편향(Human Bias)을 피할 수 없기 때문입니다. 결국, "데이터가 고갈되면 어떻게 할 건가? 인간 지식을 어떻게 제거할까?"라는 질문이 핵심 논지인 것 같습니다.
리차드 서튼의 최근 인터뷰: LLM은 정말 '막다른 길목(Dead End)’에 있나?
지금으로부터 일주일 정도 전인 9월 26일, Dwarkesh Patel과의 팟캐스트에서 리차드 서튼은 LLM의 한계를 직설적으로 비판했습니다. "LLM은 사람을 모방(Mimic)하는 데 초점을 맞추고 있지 세계를 이해하려 하지 않는다. 다음 토큰을 예측하는 건 사람이 말할 걸 예측하는 거지, 실제 일어날 일을 예측하는 게 아니다."
즉, LLM이 '진짜 월드 모델(World Model)'을 구축하지 못한다고 주장하는 것이죠. 월드 모델이란 건 행동의 결과를 예측하고, 예상치 못한 사건에 놀라기도 하고(Surprised), 이런 경험을 바탕으로 이해(Understanding)를 조정해 나가는 걸 의미하는 것이죠. 하지만 LLM은 인터넷 텍스트 기반이니 "사람이 말할 법한 것"에 한정되고, 실험적 경험(Experience) 없이 학습할 수 없다고 합니다.
특히 LLM이 '연속적 학습(Continual Learning)' 관점에서 가진 부족함, 한계를 강조합니다. 인간이나 동물은 삶의 흐름 속에서 행동-감각-보상(Action-Sensation-Reward)을 통해 배우지만, LLM은 미리 훈련된 후에 일단 배포가 되면 테스트 시에 - 실제 환경에서 - 추가적으로 학습하지는 않습니다.
"목표(Goal)가 없으면 옳고 그름을 판단할 수 없다. LLM은 목표나 더 나은/나쁜 것이 뭔지에 대한 감각이 없이 버티려고 하는데, 그건 잘못된 출발점이다."
리차드 서튼은 이게 바로 '경험의 시대(Era of Experience)'로 넘어가야 할 이유라고 지적합니다. 미래의 AI는 특별한 훈련 단계가 없더라도 실시간으로 배우는, 'Child Machine'처럼 돼야 한다는 겁니다, 앨런 튜링의 아이디어를 빌려서 말이죠.
이 발언은 AI 커뮤니티에 충격을 주었습니다. 서튼은 강화학습(RL)의 아버지이자 2024년 튜링상 수상자입니다. 그의 'Bitter Lesson'이 LLM 연구를 강력하게 지지하는 받침대처럼 여겨져 왔는데, 지금에 와서 LLM을 비판하는 것으로 들리니, 아이러니하다고 느낀 사람들도 많았던 모양이예요.
세간의 반응: 찬반 논란과 다양한 관점
리차드 서튼의 발언은 즉시 화제가 됐습니다. X와 레딧 같은 웹 포럼에서 논의가 쏟아졌어요.
일부는 "LLM이 막다른 골목"이라는 데 동의하면서 ‘새로운 아키텍처’가 필요하다고 이야기합니다. 예를 들어서, Gary Marcus는 서튼의 관점을 지지하면서 LLM이 '월드 모델'을 제대로 구축하지 못하고 단순한 모방에 그친다고 트윗했습니다. 그는 "LLM의 예측 능력은 사람이 말하는 걸 예측할 뿐, 물리적 세계에서 일어날 일을 예측하는 능력이 아니다. 실제 세계의 사건에 놀랄 수도 없고, 예상치 못한 결과에 적응하지도 못한다"고 요약했습니다.
반면에, Andrej Karpathy는 리차드 서튼의 비판을 인정하면서도 LLM이 '실용적으로 Bitter Lesson에 부합'한다고 이야기합니다. "LLM은 인간 데이터에 의존하지만, 이는 '초기화(Initialization)' 개념으로 볼 수 있다. 동물의 DNA처럼 진화의 산물을 압축한 것이다."라고 이야기한 그는, LLM을 '유령(Ghosts) 소환'에 비유하면서, "우리는 동물을 만드는 게 아니라 인류가 역사적으로 만들어 온 문서들을 가지고 통계적으로 그 정수(Essence)를 증류(Distillation)한 결과물을 만드는 중이다. 유령은 동물처럼 되지는 않을지도 모르지만, 여전히 세상을 바꿀 수 있다"고 썼습니다. Karpathy는 AlphaZero처럼 인간 지식이 없이도 자가 학습하는 시스템이 이상적이지만, 현실적으로 보면 LLM이 'Cold Start' 문제를 해결하는 방법이라고 봅니다.
OpenMided의 창립자인 Andrew Trask는 링크드인에서 "Bitter Lesson's Bitter Lesson"이라는 블로그 초안을 공유하면서 리차드 서튼의 논지에 반박하기도 합니다. "서튼은 모방 학습이 진화와 문화의 지식을 상속받아서 컴퓨팅 비용을 절감한다는 점을 간과한다. 순수한 경험 학습은 진화를 다시 돌리는 셈으로, 10의 50승에 달하는 추가적인 연산량이 필요할 수도 있다." 그는 인간 아기가 '빈 슬레이트(Blank Slate)'처럼 보일지 몰라도, 진화적으로 최적화된 신경 구조를 물려받는다는 점을 지적합니다. LLM이 이 '상속 학습(Inherited Learning)'을 활용한다고 보는 관점을 제시합니다.
X에서 키워드 검색을 해 봐도 "Richard Sutton LLM dead end" 관련 포스트가 많습니다.
예를 들어, @karpathy의 긴 Reflection 포스트나 @iamaniku의 마인드맵 요약이 인기였습니다. 마인드맵은 서튼의 관점을 시각화한 것으로, 중앙에 "Richard Sutton: Perspectives on AI and Reinforcement Learning"이 있고, 가지로 "LLM lacks substantive external goals", "Mimicking behavior vs. building models", "Experience-driven learning will supersede LLMs" 등이 뻗어 나갑니다. 이건 LLM이 인간 지식에 치중해서 진짜 학습(동물처럼 시행착오로 배우기)을 놓친다는 점을 강조하는 것이죠.
Richard Sutton contends that LLMs are not a viable path to true general intelligence, considering them a "dead end." His primary critique is that LLMs operate by mimicking human behavior and predicting the next token based on vast amounts of internet text, rather than developing
— ISMAIL (@iamaniku)
6:35 PM • Sep 26, 2025
전체적으로 봤을 때, 리차드 서튼의 발언은 'LLM 스케일링 만능론'에 제동을 걸면서 AI 발전의 방향을 재고하고 한 걸음 떨어져서 새로운 탐구 방향을 생각해 보게 하는 효과가 있습니다. 일부는 LLM을 유용하지만 AGI의 최종 길이 아니라고 동의하고, 다른 일부는 하이브리드(LLM + RL)가 답이라고 봅니다.
앞으로 주목할 논점: AGI로 가는 길은?
리차드 서튼의 발언에서 촉발된 다양한 관점으로부터 주요 논점을 한 번 다시 추출, 정리해 보면 이렇습니다:
연속 학습 vs. 사전 훈련: LLM은 훈련이 끝난 다음에는 고정(Fix)되지만, AGI는 실시간 학습이 핵심입니다. 리차드 서튼은 "경험 스트림(Action-Sensation-Reward)"을 강조하면서 목표 기반의 RL이 필요하다고 봅니다. Yann LeCun이나 Gary Marcus가 이야기하듯이, "스케일링만으로는 AGI 달성은 불가능"이라는 목소리가 커지고 있거든요. 미래의 AI에게 'On-the-Job Learning)'은 얼마나 중요한 요소가 될까요?
월드 모델과 목표 지향성: LLM의 월드 모델은 텍스트 기반으로 아무래도 한정적입니다. 리차드 서튼은 "예측은 사람이 말할 걸 예측할 뿐, 물리적 세계를 예측하지 않는다"고 지적했다고 말씀드렸죠. AGI는 '놀라움(Surprise)'과 '조정(Adjustment)'을 통해 성장해야 합니다. 오픈AI의 o1 모델처럼 CoT로 추론을 강화하는 식의 접근이 한계를 극복하게 해 주는 실마리일 수도 있지만, 이 역시 인간의 편향을 피하기 어렵습니다.
인간 지식 vs. 순수 경험: Bitter Lesson의 본질은 인간 지식의 개입을 최소화하는 것입니다. LLM은 인간 데이터로 편향이 될 수 있으니 문제지만, Trask처럼 "모방이 진화의 지식을 효율적으로 상속"한다는 반론도 있습니다. 하이브리드가 그 균형을 잡아내는 접근 방법일 수도 있지 않을까요?
스케일링의 한계와 새로운 패러다임: 최근 연구에서 LLM 스케일링의 수익 체감 현상이 관찰됩니다. 475명의 AI 연구자에 대한 설문에서 "현재의 접근 방식으로는 AGI 달성은 매우 어려움"이라는 의견이 지배적인 모습을 보여주기도 했습니다. 리차드 서튼은 "데이터가 고갈될 때, 그 때 경험 학습이 LLM을 대체할 것"이라고 예측합니다. 내재적 동기(Intrinsic Motivation) – 호기심, 재미 – 를 활용한 멀티 에이전트 셀프-플레이가 주목받을 것입니다.
안전과 윤리적 함의: 리차드 서튼은 AI가 인류를 '대체(Succession)'할 수 있다고 봅니다. "슈퍼인텔리전스는 불가피하지만 궁극적으로는 인류에게 좋은 결과로 이끌어 갈 수 있다."고 이야기하면서, AI를 '디지털 지능'으로 보고 긍정적으로 받아들일 것을 권하지만, 역시 권력의 집중, '부패(Corruption)' 문제에 대해서는 철저한 대비를 해야 한다고 경고합니다. 그런 관점에서도, AGI 개발에서 가치 정렬(Alignment)이 개념적으로, 철학적으로 훨씬 더 중요한 의미를 가지게 될 것입니다.
맺으며
2017년, 리차드 서튼의 에세이 ‘Bitter Lesson’, 이 글은 AI가 인간 중심의 관점에서 벗어나서 확장 가능한 컴퓨팅을 활용해야 한다는 교훈을 줬습니다.
하지만 2025년 지금, LLM의 엄청난 성공, 그 이면의 한계를 보면서 우리는 이전과는 조금 다른 ‘Bittersweet Lesson’을 얻어야 합니다. LLM은 놀라운 도구지만 AGI로 가는 유일한 길은 아닙니다. 리차드 서튼의 발언은 스케일링 만능주의에 대한 경종이자, 경험 중심 학습이라는 방향을 새롭게 탐구하라는 메시지를 담고 있습니다. 물론, 이와 동시에 Karpathy나 Trask의 관점처럼 하이브리드가 현실적 대안일 수도 있고 얼마든지 그 가치가 있는 방향일 수도 있겠습니다.
AI의 미래, 여전히 미지의 영역입니다. 연속 학습 아키텍처, 월드 모델의 강화, 윤리적 설계가 앞으로 AI와 우리가 함께 사는 세상을 만들어가기 위한 핵심적인 키워드가 되지 않을까요? 저희도 앞으로 이와 관련된 논의가 어떻게 전개되어 가는지 지속적으로 모니터링해 보려고 합니다.
*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.
Reply