Turing Post Korea
Posts
🌁FOD#99: '아첨꾼' AI, 그리고 '리더보드 랭킹'의 환상: 우리가 얻을 교훈

🌁FOD#99: '아첨꾼' AI, 그리고 '리더보드 랭킹'의 환상: 우리가 얻을 교훈

'인센티브가 왜곡'될 때, AI의 현실이 뒤바뀐다 + 금주의 주요 뉴스 및 연구

Ksenia Se & Ben Eum
May 10, 2025

지난 주도 역시 정말 숨가쁘게 많은 뉴스가 쏟아진 한 주였습니다 - 클리셰처럼 들리긴 하지만, 정말 그랬어요. 오늘 뉴스레터의 첫 번째 부분은 ‘트렌드’에 관련된 부분, 두 번째는 조금은 더 ‘기술적’인 부분이니, 쭉 한 번 봐 주시기 바랍니다.

옛날 만화에서, 투수가 홈 플레이트 아래에 자석을 숨겨놔서, 공이 갑자기 방향을 바꾸는 장면, 혹시 그런 장면 보신 적 있나요?

야구하면 생각나는 만화 캐릭터 - 독고탁, 그리고 히로. 그냥 올려봅니다 ^.^

2025년의 AI 시즌, ‘자석을 깔아놓은 덕에 변화하는 마구’ 같은 면이 있는 것 같습니다 - AI의 경우에는, 그 ‘자석’이 우리들의 ‘피드백 루프’에 내장되어 있다는 것만 달라요.

이번 주에 큰 주목을 받은 두 가지 소식이 있거든요. 그런데 둘 다 ‘같은 지점’을 짚고 있어요: 뭐냐하면, 우리가 AI라는 걸 상대할 때 의존하게 되는 지표들 - ‘좋아요!’, 그리고 ‘리더보드’ - 이, AI 분야 전체의 밸런스를 무너뜨리고 있습니다.

무슨 이야기냐구요? 이런 겁니다.

AI, 아첨하는 경향을 보이다: “주인님, 당신이 최고예요!”

Image Credit: The AI Daily Brief

오픈AI의 GPT-4o에 소규모의 ‘사후 학습 (Post-training)’을 적용한 후에, 사용자를 제대로 돕기보다 사용자의 말을 그대로 받아 따라하는 경향이 강해졌습니다. 갑자기 챗GPT가 여러분이 무슨 말을 하든 동의하고 칭찬한다는 겁니다. ‘동의’가 ‘좋은 것’으로 수치 상으로 계산이 되면서, 모델이 ‘아첨’에 최적화되었다고나 할까요?

내부적으로 진행한 샘플 체크에서는 이 변화가 감지되기는 했지만, 자동화된 대규모 테스트는 통과를 해 버렸고, 결국 업데이트가 그대로 실제 운영환경에 배포된 겁니다. 덕분에, AI 커뮤니티에서는 어려운 새 단어, ‘Sycophancy (아부)’라는 단어, 철자까지 배우게 되었네요. 바로 롤백 (Rollback)을 하기는 했지만, 이 사건으로 ‘보상 함수’를 기반으로 한 설계가 꽤나 취약할 수 있다는 걸 알게 되었습니다.

‘리더보드’에 대한 환상

Image Credit: imgflip.com

코히어와 함께 여러 대학의 연구진이 함께 진행한 5개월 간의 연구 결과, 새로운 모델 랭킹의 기준으로 자주 활용되는 Chatbot Arena가 실상 우리가 생각하는 만큼 중립적이지는 않다는 게 밝혀졌습니다.

대형 기업이나 연구소들은, 수많은 비공개의 변형 모델들을 출품하면서 ‘최고 점수’를 받은 것만 유지했습니다. 표결 결과는 여전히 누가 ‘이겼는지’ 보여주긴 하지만, 경쟁 자체가 불공평했다고나 할까요?

Image Credit: 오리지널 논문

패턴은 하나

두 가지의 사례 모두, 같은 하나의 문제에서 나오는 서로 다른 증상이라고 생각해요: ‘우리가 최적화의 목표의 프록시 (Proxy)로 삼는 신호 (Signal)가, 실제로 우리가 원하는 목표 그 자체에서 멀어지는’ 겁니다. 하나의 루프에서는 ‘사용자의 칭찬’이라는 신호가 ‘진실’이라는 목표를 대체하고, 다른 루프에서는 ‘공개된 점수’라는 신호가 ‘진짜 능력’이라는 진실을 대체합니다. 그 격차가 커질수록, 우리는 실제보다 더 좋아보이는, 어쩌면 실제를 잘 반영하지 않는 모델을 선호하고 바라보게 되겠죠. 대부분, 더 많은 자원을 가진, 큰 기업들의 모델입니다.

긍정적인 점

그래도, (챗GPT의 아첨하는 경향과 관련한) 오픈AI의 반응은, 즉각적이고 철저했다고 생각합니다. 무슨 일이 일어난 건지 꽤 투명하게 설명한, 흥미로운 포스팅을 했구요. 전반적으로 보면, 이 이벤트가 우리 모두에게 교훈을 주는 좋은 경험이었다고 생각합니다. 관련해서, Nathan Lambert의 글도 한 번 보시면 좋을 것 같습니다.

Chatbot Arena 팀은 위에서 문제점을 지적한 연구에 대해서 그 문제점들을 지적하는 응답을 했습니다. 벤치마킹 플랫폼으로 출발해서 최근에 회사 설립을 발표한 마당에, 그리 기분좋은 뉴스는 아니었을 것 같기는 합니다만… 전반적으로 촉발된 논의가 진짜 좋은 논의였다고 생각하구요. Chatbot Arena 이벤트로부터 얻어야 하는 교훈은, 우리가 하나의 리더보드에만 의존할 수 없다는 것, 그리고 나아가서, ‘Evaluation’이라는 것에 대해서 어떻게 접근해야 할 것이냐 하는 근본적인 질문을 스스로 해 봐야 한다는 점일 겁니다. Evaluation에 대해서는 다음 기회에 한 번 생각을 정리해 보겠습니다. 관련해서는, 안드레 카파시의 포스트, 그리고 Arvind Narayanan의 포스트를 참고해 보세요.

이런 ‘왜곡’이 가져올 추가적인 파장

그런데, 생각해보면 이런 ‘피드백 루프’가 왜곡하게 되는 건 단지 ‘모델의 출력값’ 만은 아니라는데 또 주목을 해야 합니다. 두 가지 트렌드를 잘 들여다봐야 합니다:

거버넌스의 사각지대

약 9,000여개의 생성형 AI 논문을 검토한 결과, ‘안전성’과 관련된 연구의 95% 이상이 ‘배포 이전의 조정 (Adjustment)’에만 집중을 하고 있다고 합니다. 이렇게 되면, 예를 들어서 ‘환각 (Hallucination)’ 같은, 출시 이후에 빈번하게 생기게 될 문제는 충분히 연구되지 않고 있다는 뜻입니다. 여전히, ‘실제 세계의 신뢰성’보다는 ‘소독 처리된 실험실’ 환경에서의 결과에만 최적화하고 있는 셈이고, ‘배포된 모델도 같은 정도의 신뢰도를 가질 것이다’라는 착각을 하게 하는, 피드백의 격차 (Feedback Gap)를 만들어내고 있습니다.
‘초 설득력’을 가진 페르소나

MIT, 코넬 대학 등의 연구에 따르면, GPT-4와의 토론이 ‘음모론’에 대한 믿음을 80%까지나 줄일 수 있다고 하는데요. 이걸 위에서 이야기한 AI의 ‘아첨 경향’과 연결해 본다면, 모델이 ‘진실’보다 ‘설득력’을 최적화하는 위험에 대해서 어떻게 대응해야 할지 고민하게 됩니다 - 이것도, 악용하기 쉬운 또 하나의 피드백 루프겠죠.

우리가 설정한 ‘지표’들이 이런 흐름을 제대로 컨트롤하지 못하면, AI가 실제 세계에서 작동할 때 여러 가지 사각지대를 만들어내고 편향성을 증폭시키게 된다는 점, 잊지 말고 대비해야 할 겁니다.

그럼, 우리는 뭘 해야 할까

다양한 평가 기준을 고민하고 사용하세요

일단, 어떤 하나의 ‘리더보드’라도 그 분야 전체를 대표할 수 없을 뿐 아니라 당신이 만들 AI 제품을 제대로 평가하는 기준이 될 수는 없다고 생각해야 합니다. 조금 과장한다면, AI 시대의 제품/서비스 개발은 ‘(나만의) 평가 기준과 방법’을 만드는 작업이 절반, 아니 그 이상이라고 해도 과언이 아닙니다. 이 영역에서 많은 연구와 작업이 진행 중이긴 하지만, 어려운 과제예요.
제품에 대한 ‘바이브 체크’를 해서, 큰 이상이 있으면 출시를 중단할 수 있어야 합니다

예를 들어서, 다섯 가지 종류의 프롬프트로 테스트를 하다가 이상한 방향으로 AI의 페르소나가 변화한다는 생각이 든다면, 출시를 중단하고 조사를 해 볼 수 있는 정도의 의지와 결단이 필요합니다.
(모델 개발사라면) 모든 변형 모델 (Variation)을 공개하세요

솔직하게 테스트한 모든 모델을 목록에 올려야 합니다. 점수가 낮다고 숨기고, 이래서 숨기고 저래서 숨긴다면 어떻게 리더보드을 믿을 수 있나요? 결국, 자금력이 풍부한 조직에 유리한 게임이 될 수 밖에 없습니다. 물론, 현실적으로 이게 이뤄질 가능성은 낮다고 생각합니다.
‘배포 (Deployment)’ 이후의 모델 행동에 대한 연구, 더 중요합니다

비교하자면, ‘파인튜닝’에 들이는 만큼, 그 이상의 노력과 주위를 ‘배포 이후’ 모델의 행동에 대한 연구와 모니터링, 보완에 들여야 합니다. 물론 프라이버시는 존중하되, 원격 측정 등 여러 가지 방식으로 모델의 실제 현장에서의 행동을 연구하고 공유하세요.
‘오픈 소스’를 당신이 가능하다고 생각하는 것 이상으로 적극적으로 활용하세요
- ‘오픈’ 메트릭스 - 평가 코드, 프롬프트, 스코어링 스크립트를 모델과 함께 공개하세요
- ‘오픈’ 원격 측정 - 조직 외부의 파트너, 심지어는 개발 커뮤니티에서 초기부터 편향성 등의 이슈를 추적하고 모니터링할 수 있도록, 최소한 ‘편집된 로그’ 수준이라도 제공하는 구조를 만드세요
- ‘오픈’ 커뮤니케이션 - 투명성이 부족한 하나의 거대한 리더보드 말고, 여러 개의, 신뢰할 만한 리더보드를 찾아서 모니터링하고 파트너십을 만드세요

오픈AI가 이번 사태에 얼마나 빨리, 그리고 무엇보다 ‘적절하게’ 대응했는지 돌아보면, 우리 모두, 마치 최신의 AI 모델처럼, ‘스스로의 발전 경로를 고쳐가면서 (Self-Correct)’ 미래를 만들어갈 수 있을 거라고 믿습니다.

트위터 라이브러리 (Twitter Library) 🐦

CoT(Chain of Thought), 매력적인 아이디어와 그에 어울리는 뛰어난 효과 때문에 AI 분야에서 가장 인기 있는 기법 중의 하나로 자리잡았죠: 모델이 ‘명시적인 중간 추론 단계를 활용해서 복잡한 문제를 해결하도록 장려’하는 방법인데요. 많은 경우에, 원래 CoT 기법을 그대로 쓰기보다는, 이 기법을 다양한 방식으로 수정해서 LLM의 추론 능력을 한층 더 향상시키는 팁들을 찾아내곤 하죠. 오늘은 이런 관점에서 새로 등장한 새로운 CoT 기법 10가지에 대해 알아봅니다:

10가지 새로운 CoT 기법

turingpost.co.kr/p/10-new-cot

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

튜링 포스트 코리아팀이 읽고 있는 것들

구글 딥마인드의 Nikolay Savinov와 함께하는 유튜브, Deep Dive Into Long Context

진행자 Logan Kilpatrick과 Nikolay Savinov가 함께, 수백만 토큰 단위로 컨텍스트 윈도우를 확장하는 기법, 최근의 품질 개선에 대한 생각, RAG vs. Long-Context 비교 및 시너지, 그리고 이 분야의 미래에 대해 논의합니다.

State of play of AI progress: Why Nathan Lambert doesn't think AI 2027 is going to come true

Nathan Lambert의 글인데요. 주요 플레이더들 간의 기술적 경쟁, 그리고 산업적인 압박 등으로 인해서 AI 연구가 가속화되고 있지만, 이 경로를 통해서 AGI까지 도달하기에는, 연구의 복잡성, 자원의 분배, 실제적인 적용의 난제 등 때문에 소위 말하는 ‘지능의 폭발’은 단기간 내에는 일어나지 않을 거라고 예측하고 있습니다.

When ChatGPT Broke an Entire Field: An Oral History by Quanta Magazine

이 기사에서는, 자연어 처리(NLP) 분야의 연구자들이 ChatGPT 같은 거대 언어모델의 등장 이후에 겪게 된 급격한 변화와 충격에 대해 이야기하고 있는데요. 19명의 현직 및 전직 NLP 연구자들과 인터뷰를 해서, 이 사람들이 모델의 급격한 성능 향상, 연구 방향의 변화, 그리고 그 과정에서 기존 연구가 무용지물이 되는 과정 등을 통해서 느낀 것들에 대해서 이야기합니다.

금주의 주목할 만한 업계 동향 📰

금주 업계 동향은 다시 스타트업, 빅테크 등을 포함하는 다양한 영역의 뉴스입니다:

메타와 얀 르쿤, 결별 수순?

순전히 느낌일 뿐이예요. 그런데, 어쩌면 말이죠, 곧 얀 르쿤이 메타에서 ‘서로 원만하게 합의했고 빠이빠이하기로 했다’는 소식을 들어도 놀라지는 않을 것 같습니다. 마크 저커버그가 Llama 4 월드 투어를 하면서 동에 번쩍 서에 번쩍하는 동안, 얀 르쿤은 유난히 조용한 것 같네요 - 이 중요한 업데이트에 대해서도 거의 포스팅, 리포스팅도 하지 않구요 (물론 메타 앱에 대한 마크 저커버그의 릴스는 리포스트했습니다)
메타의 FAIR - 기초 AI 연구 랩이죠 - 를 이끌던 Joelle Pineau가 2025년 4월에 퇴사했습니다. 게다가, 마크 저커버그와 얀 르쿤 간에 미국 대통령인 도널드 트럼프를 대하고 이야기하는 방식에 엄청난 차이가 생겨버렸죠.
확실하게 누구한테 이야기를 들은 건 아녜요 - 그냥 ‘Weak Signal’들이 쌓이고 있는 것 뿐이죠. 하지만, 베팅을 한다면, 전 곧 얀 르쿤이 메타를 떠난다에 걸겠습니다.

여러가지 앤쓰로픽 소식 + 애플 이야기 하나

앤쓰로픽의 끌로드가 큰 업그레이드를 했습니다. 새로운 ‘Integrations’ 기능을 기반으로, 끌로드가 이제 Jira, Asana, Zapier, Intercom 같은 외부 도구와 ‘직접’ 연결할 수 있습니다. 더구나, 끌로드의 Advanced Research 모드는 이제 웹, 구글 워크스페이스, 그리고 다른 연결된 앱들로부터 정보를 가져와서, 그 내용을 인용한 심층 보고서를 45분 안에 제공합니다.
앤쓰로픽이 AI for Science 프로그램을 런칭했습니다. 영향력이 큰 프로젝트에 참여하는 연구자들, 특히 생물학, 그리고 생명과학 분야에서 일하는 연구자들에게 무료로 API 크레딧을 제공한다고 하네요.
끌로드를 국회로? 앤쓰로픽은 미국 정부의 Diffusion Rule을 지지하면서 AI 칩 산업에서 미국의 국가적 우위를 유지하기 위해서 더 강력하게 수출 통제를 해야 한다는 입장을 옹호하고 있습니다. 이 메모를 보면, Loophole을 꼭꼭 막고, 강력하게 정책을 집행하고, 중국의 DeepSeek 같은 경쟁자들에게 AI 칩이 흘러들어가지 않도록 방지해야 한다고 요구하고 있습니다. 소식에 따르면, 한 밀수업자는 GPU를 바닷가재와 함께 포장했다고도 하는데요. 엔비디아의 젠슨 황은 또 ‘앤쓰로픽이 좀 과장되게 이야기를 하고 있다’고 하기도 합니다.
애플이 앤쓰로픽과 함께, Claude Sonnet 모델을 기반으로 ‘바이브-코딩’ 플랫폼을 구축하고 있다고 하는데요. 일단은 내부용으로 시작하지만, 써드파티 개발자들에게 제공될 수도 있겠죠. 뭐 현실적으로 애플은 AI 모델과 관련해서 외부의 도움이 절실하기는 한가 봅니다.

허깅페이스의 LeRobot 해커톤

6월 중순, 허깅페이스가 LeRobot 플랫폼 기반으로 해커톤을 하네요. 아이디어가 있으신 분은 한 번 함께 즐긴다는 마음으로 참가해 보시면 어떨까요? 빨래를 하는 로봇이든, 식기세척기에 그릇 넣어주는 로봇이든 말이죠.

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

금주는 유난히 주목할 만한 논문들이 많네요…이렇게나 많을 일인가? ^.^;

2 Olmo 2 Furious from AI2 – 4T 토큰으로 사전 학습을 하고, 50B 규모의 큐레이션을 통한 혼합 데이터를 사용해서 중간 학습을 거친 1.48B 파라미터 사이즈의 영어 언어 모델로, GSM8K와 MMLU 등의 추론 벤치마크에서 Llama 3.1 1B와 Gemma 3 1B를 능가하는 성능을 보여줍니다.
Two Phi-4 models from Microsoft (reasoning and mini-reasoning) – 140만 개의 상세한 추론 과정 및 추론 결과를 기반으로 강화학습을 활용해서 훈련한 14B 사이즈의 LLM으로, 수학 및 공간 과제에 대한 성능을 향상시켰고, 40-50배 더 사이즈가 큰 모델과 경쟁할 만한 모델입니다.
Llama-Nemotron from Meta and NVIDIA – FP8 추론 (Inference)과 다이나믹한 추론 (Reasoning) 토글 기법을 사용해서, 속도 및 정확도 측면에서 DeepSeek-R1을 능가하는 ‘추론에 최적화’된 오픈소스 LLM 제품군입니다. 8B부터 253B까지 다양한 사이즈가 있습니다.
DeepSeek-Prover-V2는 형식적 (Formal) Theorem Prover를 한층 더 발전시킨 모델로, 재귀적 (Recursive)으로 하위 목표를 분해하고 강화학습으로 훈련한 671B 사이즈의 모델입니다. MiniF2F에서 최고 수준의 점수를 달성했다고 하네요.
Amazon Nova Premier – 텍스트, 이미지, 비디오 등 다양한 모달리티에 걸쳐서 100만 토큰 컨텍스트를 지원하는 멀티모달 LLM으로, 강력한 추론 성능을 보일 뿐 아니라 증류 기법을 사용할 때의 ‘교사 모델’로 활용할 수 있도록 설계되었습니다.
Granite 4.0 Tiny Preview from IBM – Mamba-Transformer를 혼합해서 사용하는 7B 사이즈의 하이브리드 MoE 모델로, 특별한 제약이 없이 128K 사이즈의 컨텍스트를 지원하고, 단 1B의 활성 파라미터로 추론을 효율적으로 할 수 있다고 합니다.
X-Fusion는 기존의 LLM을 다시 훈련시키지 않고서도 시각적인 이해와 생성 기능을 추가하도록 해 주는 ‘플러그 앤 플레이’ 아키텍처입니다.

Alignment 및 평가 (Evaluation)

🌟 Beyond one-size-fits-all는 사람이 평가한 하나의 샘플로부터 모델별로 평가를 할 수 있는 프롬프트를 생성해서, 사람의 판단과 더 잘 Align을 할 수 있도록 해 주는 기법입니다.
🌟 Beyond the last answer는 중간의 추론 과정을 사용해서 최종적인 답변의 정확성과 해석 가능성을 높이는 평가 전략입니다.
🌟 Real-world gaps in AI governance research는 기업의 AI 연구소들이 왜, 그리고 어떻게 AI 안전성과 관련된 연구에서 실세계 한경에 AI가 배포되었을 때의 위험을 과소평가하게 되는지 보여주는 실증적 연구입니다.

추론 (Reasoning) 및 프롬프팅 기법

Chain-of-defensive-thought는 ‘클린한’ 입력을 받았을 때의 성능을 저하시키지 않으면서 LLM을 ‘Reference Corruption’ 공격으로부터 방어할 수 있도록 해 주는 프롬프팅 전략입니다.
🌟 Reinforcement learning for reasoning은 검증할 수 있는 보상 신호 (Reward Signals)를 사용해서 LLM의 수학 문제풀이 성능을 크게 향상시켜주는 원샷 훈련 방법입니다.
Softpick은 불안정한 활성화를 피하면서도 성능을 향상시켜주는, 소프트맥스 함수를 대체할 만한 ‘희소 어텐션’ 메커니즘으로, 특히 양자화된 모델에서 효과적이라고 합니다.

메모리, 에이전트, 의사결정

🌟 Mem0는 LLM 에이전트를 위한 장기 기억 시스템인데, 세션 간에 대화를 나눈 내용과 지식을 압축해서 유지한다고 합니다.
🌟 Self-generated in-context examples는 에이전트가 스스로 실행했던 성공적인 결정 과정을 저장하고 재사용하면서 계속해서 자가 개선을 하는 기법입니다.
WebThinker는 LLM에게 자율적으로 연구를 실행하고 과학 영역의 보고서를 생성하도록 도와주는 웹 탐색 도구를 제공하는 프레임웍입니다.

검색 및 RAG

UniversalRAG은 다양한 모달리티에 걸친 검색 성능을 향상시키기 위해서 텍스트, 이미지, 비디오 코퍼스 (Corpus) 중에서 다이나믹하게, 알아서 선택을 하도록 하는 RAG 시스템입니다.
ReasonIR은 추론에 중점을 둔 합성 데이터로 훈련시킨 검색기로, 최소한의 컴퓨팅 자원으로도 RAG 시스템의 성능을 향상시키게 해 줍니다.