Turing Post Korea
Posts
🌁FOD#90: AI 벤치마크의 역설: '지능'을 측정한다는 것의 함정

🌁FOD#90: AI 벤치마크의 역설: '지능'을 측정한다는 것의 함정

벤치마크의 포화, 굿하트의 법칙과 진짜 '지능'을 측정하기 위한 방향 + Sesame AI + 금주의 주요 뉴스 및 연구

Ksenia Se & Ben Eum
March 05, 2025

소위, 점점 더 ‘똑똑한’ AI를 개발하려는 경쟁은 점점 치열해지고 있죠. 지난 2월 27일 오픈AI는 기다리던 최신 모델, ‘GPT-4.5’를 발표했구요, 바로 이틀 전, 앤쓰로픽은 최초의 하이브리드 추론 모델 ‘Claude 3.7 Sonnet’을 발표했습니다.

GPT-4.5는 특히 ‘감성 지능’을 향상시키면서 글쓰기, 프로그래밍 등 영역에서 쓸모가 높아진 걸로 보이고, 대화의 흐름이 이전보다 한층 자연스러워졌습니다. ‘환각’ 현상도 GPT-4o 대비 크게 감소했다고 하구요.

Claude 3.7 Sonnet은 ‘시스템 1 사고’ - 즉각적으로 응답을 생성하는 것, 그리고 ‘시스템 2 사고’ - 깊은 추론 과정을 하나의 모델에 통합한 것이 특징으로, 코딩 분야에 강점이 있을 뿐 아니라 Extended Thinking Mode를 활성화하면 다른 최신 모델과 비슷한 수준의 벤치마크 점수가 나온다고 합니다.

뭐, 어떤 모델이 나왔다는 말씀을 드리려는 건 아닙니다. 오히려, ‘더 똑똑한 AI’를 개발하려는 경쟁이 낳고 있는 ‘역설 (Paradox)’에 대한 이야기를 하려고 합니다 - 바로, ‘발전의 정도’를 측정하는데 사용하는 ‘벤치마크’에 대한 이야기입니다.

각종 벤치마크들이 빠르게 포화되면서, ‘추론’ 능력을 검증하기 위한 새로운 벤치마크들이 등장하고 있습니다.

이 벤치마크는, 모델이 발전하는 속도, 바로 그만큼 빠르게 쓸모가 없어지고 있습니다.

예를 들어볼까요? 불과 몇 년 전만해도, BIG-Bench Hard (BBH) 데이터셋은 거대 언어모델의 추론 능력을 평가하는 아주 훌륭한 기준이었는데, 오늘날 현재, 사실상 쓸모가 없어져 버렸습니다. GPT-4o, Gemini, DeepSeek 같은 최신 모델들은 이 테스트를 거의 완벽하게 통과하고 있고, 한 때 무서운 호랑이 같았던 선생님(?)을 형식적, 요식적 절차에 지나지 않는, 종이 호랑이로 만들어 버렸죠. 그래서 연구자들이 AI 추론 능력을 극한까지 시험하기 위해서 설계한 ‘BIG-Bench Extra Hard (BBEH)’라는 새로운 벤치마크를 도입했죠.

주요 SOTA 모델들의 BBEH 벤치마크 결과 - 현재 결과겠죠.

그렇지만, 과거의 사례를 볼 때, BBEH 역시 우리가 예상하는 것보다 빨리 ‘해결’될 겁니다. 그럼, 그 다음은 뭘까요?

이런 ‘벤치마크 포화 주기’ - 정확히는 ‘점점 빨라지는 포화 주기’겠죠 - 가 AI의 평가에 관련한 가장 큰 장애물 중 하나라고 할 수 있습니다. 연구자들이 새로운 테스트를 고안할 때마다 모델들은 마치 이런 연구자들의 노력을 ‘비웃듯이 (^.^;)’ 빠르게 적응하는데요. 문제는! 이 과정이, 가끔은 진짜 ‘추론’을 하는 것과는 거의 관련이 없는 방법으로 이루어지기도 한다는 점입니다. 많은 AI 기업과 스타트업들이, 리더보드와 랭킹에서 상위를 차지하기 위해서 모델을 최적화하기도 하고, 진짜 제대로 된 ‘인지’ 능력을 높이기보다 벤치마크 형식에 맞게 응답을 파인튜닝하기도 합니다.

굿하트의 법칙: 할당량을 채우려는 작업자 vs. 가치 창출에 기여하려는 작업자

굿하트의 법칙 (Goodhart’s Law)이라는게 있습니다. 1975년 영국 경제학자 찰스 굿하트가 통화 정책의 분석 과정에서 처음 이야기한 개념인데요, “측정치가 목표가 되면, 이미 올바른 측정은 불가능해진다”는 거예요. 나중에 인류학자인 마릴린 스트래선이 이걸 “척도가 목표가 되는 순간, 더 이상 좋은 척도가 아니다”라고 변형하면서 다양한 분야에 쓰이게 되었는데요. 위에서 이야기한 ‘AI 모델의 성능 개선 방법’ 이슈도 굿하트의 법칙이 적용된 전형적인 사례라고 할 수 있습니다 - 측정 지표가 목표가 되면, 그건 더 이상 좋은 측정 지표가 아니게 되는 겁니다.

‘벤치마크의 포화’ 문제 뿐이 아닙니다 - 더 큰 문제가 있어요. 우리는 ‘잘못된 것들을 측정’하고 있습니다.

대부분의 추론 벤치마크는, 명확한 정답과 오답이 있기 때문에 ‘수학’이라든가 ‘코딩’ 과제를 상대적으로 많이 선호하게 됩니다. 하지만 대수 (Algebra) 문제를 풀 수 있다고 해서 AI가 실제 세상의 모호한 상황을 헤쳐나가거나, 인과 관계를 추론하거나, 사람이 가진 동기를 이해할 수 있다는 의미는 아니죠. 완벽한 Python 스크립트를 작성할 수 있는 모델이라도, 미묘한 윤리적 딜레마에 답을 하거나 대화 중의 비꼬는 말을 해석하는데는 여전히 택도 없이 실패할 수가 있어요. 이걸 모르는게 아니지만, 수학, 프로그래밍은 점수를 매기기 쉽기 때문에 계속해서 ‘AI 모델에 대한 평가’ 영역을 지배하면서, 우리들에게 ‘발전 상황에 대한 왜곡된 인식’을 심어줍니다.

더 광범위한 추론 능력을 다뤄 보려고 하는 벤치마크를 사용할 때마저도, 또 다른 문제에 직면하게 돼요: 모델들이, 문제를 진짜 ‘추론’하는 대신, ‘피상적인 지름길’을 택할 수도 있습니다. AI는 아시다시피 ‘패턴 인식’을 잘 하잖아요? 그래서 사람처럼 ‘과제를 해결’하는 대신, 데이터셋으로부터 통계적인 단서를 식별하곤 합니다. 예를 들어볼께요. 벤치마크가 항상 논리적 추론 문제를 비슷한 형식으로 제시하게 되면, 모델이 실제로 추론을 수행하는 대신, 패턴을 암기할 수 있습니다. 이런 ‘능력에 대한 환상 (Illusion of Competence)’이, 우리가 아는 최고의 모델이 낯선 실제 세상의 도전 과제에 직면했을 때 여지없이 실수하게 되는 이유 중에 하나입니다.

위에서 이야기한, ‘벤치마크의 한계’, ‘평가 방법의 문제’는 연구실에만 머무르지 않고 현실 세계로 확장될 수 밖에 없습니다. AI 모델은 이미 의료, 법률 분석, 고객 서비스 등 ‘추론 능력이 중요한 핵심적인 어플리케이션’들에 통합되고 있습니다. 만약, 우리가 사용하는 벤치마크가 실제 세상에서 요구하는 ‘추론 능력’에 대한 요구를 제대로 반영하지 못하는 거라면, ‘겉으로는 아주 유능해 보이지만 예측할 수도 없고 실제로는 비용이 많이드는 방식으로 실패하는’ 모델을 배포하게 될 위험이 있겠죠. 더 나아가서, 기업의 리더나 정책 입안자들이, 오해의 소지가 있는 벤치마크 점수를 기반으로 해서 AI가 가진 인지 능력을 과대 평가한다면, 자동화된 의사 결정에 지나친 믿음과 권위를 줄 수도 있겠구요.

그렇다면, 어떻게 더 나은 벤치마크를 구축할 수 있을까요? 그 답은 아마도 다양성 (Diversity), 적응성 (Adaptability), 그리고 실제 세계를 모사하는 테스트 (Real-World Test), 이 세 가지 키워드에 있지 않을까요? 빠르게 쓸모없어지는 고정된 데이터셋에 의존하지 말고, 앞으로 AI 모델을 평가할 때는 ‘새롭고 보지 못한 문제들이 지속적으로 모델의 능력에 도전하는’, 다이나믹하면서 적대적인 (Adversarial) 테스트를 포함해야 한다고 생각합니다. 그리고, 수학, 코딩을 넘어서 상식적 추론, 인과적 추론, 윤리적 의사 결정도 포함하게끔 확장되어야 하구요. 마지막으로, 벤치마크 점수가 아니라 ‘실제 세계에서의 성능’이 궁극적인 지표가 되어야 할 겁니다 - AI가 의사 선생님을 얼마나 잘 지원하는지, 자율 에이전트 시스템을 얼마나 잘 가이드하는지, 복잡한 사회적인 상호작용을 잘 해내는지 말입니다.

BBEH는, 분명 ‘올바른 방향으로 나아가는 한 걸음’입니다. 그렇지만 앞으로 우리가 만들어가야 할 아주 긴 이야기의 새로운 챕터일 뿐이라는 겁니다. 중요한 건, ‘벤치마크를 더 어렵게’ 만드는게 아니라, ‘모델이 정말로 똑똑하게’ 만드는 거니까요. AI가 진짜 ‘추론’을 하는지 테스트하는 방법, 제로 베이스에서 다시 재고해 봐야 합니다. 그렇지 않으면, ‘시험치는 능력’을 ‘지능’이라고 오해하는 기간이 늘어날 뿐입니다 - 이건 아주 빠지기 쉬울 뿐 아니라 위험한 환상이구요.

AI 업계 전문가들이 추천하는 서비스 👍🏼

Sesame AI의, ‘불쾌한 골짜기 (Uncanny Valley)’를 넘어서는 음성 서비스 (데모)

금주에는 아직 상용화 서비스는 아니고 ‘데모’ 상태일 뿐이지만, Sesame AI를 소개해야 할 것 같습니다. Personal Companion이라는 이름으로 AI 기반의 대화형 에이전트, 그리고 이 에이전트가 작동할 하드웨어인 Lightweight Eyewear를 만들고 있는 팀인데요. a16z의 마크 앤드리슨, 스파크 캐피탈, 매트릭스 파트너스 등 쟁쟁한 VC와 투자자들의 백업을 받고 있습니다.

이 팀에서 최근에 내놓은 음성 대화 에이전트의 데모가 화제인데요. Ethan Mollick은 “Sesame AI의 새로운 음성 어시스턴트는 AI가 나아가는 방향을 보여주는 강력한 사례이다. 내 브라우저에서 실시간으로 작동하는데, 말의 더듬거림, 휴지 (Pause), 심지어는 숨을 들이마시는 소리까지 훌륭하게 활용해서, 정말 사람하고 대화하는 것같은 느낌을 준다. 물론 아직 부자연스런 부분들이 남아있지만, 적어도 지금 이 기술이 어디로 향하고 있는지 충분히 느낄 수 있다”는 피드백을 남겼습니다.

저도 Sesame AI에서 오픈해 놓은 데모 중에 Maya와 이야기를 꽤 해 봤는데요. AI 에이전트라는 걸 알 수 있는 힌트는 여럿 있었지만, 정말 대화 자체는 너무나 자연스러워서 놀랐습니다. 여러분들도 한 번 시험해 보시기를 권합니다.

조코딩 님 유튜브에도 Sesame AI 이야기가 있으니, 함께 한 번 보시면 더 좋을 듯 하네요. Sesame AI 이야기는 5분 20초부터입니다:

LLM의 내부를 들여다볼 수 있는 현미경(?)

이건 개발자, 또는 아주 딥하게 기술적으로 공부하시는 분들은 관심이 있으실 것 같은데요. LLM을 정밀하게 해부하는 메스처럼, 오픈소스로 공개된 LLM-Microscope입니다: Token Nonlinearity, Memory Depth, Layer Insight, Representation Complexity 등을 시각적으로 보여준다고 합니다.

저는 개인적으로 안드레 카파시의 유튜브에서 보여준 정도의 시각적 자료가 제 수준에는 좀 더 맞다는 생각은 들었습니다. ^.^;

트위터 라이브러리 (Twitter Library) 🐦

CoT (Chain-of-Thought) 프롬프팅은, 복잡한 문제를 논리적인 단계별 순서로 나눠서 해결하도록 해서 ‘AI 모델의 추론 능력을 향상’시켜 줍니다. 특히 이 기법은 최고의 성능을 보여주는 추론 모델에서 그 효과를 계속 입증하고 있는데요. 그렇지만, CoT를 확장하고 다양한 목적으로 사용할 수 있는 유사한 다른 방법들도 있죠 - 오늘은 그런 방법 9가지에 대해 소개합니다:

LLM 기능을 확장하는 9가지 'Chain-of-X' 기법

turingpost.co.kr/p/llm-9-chain-of-x

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

금주의 주목할 만한 업계 동향 📰

DeepSeek, ‘오픈소스’ 위크 기간에 선보인 6가지 놀라운 결과물

DeepSeek이 이번 주에 자사가 적용한 오픈소스 AI 최적화 기술 여섯 가지를 공개하는 ‘오픈소스’ 위크 기간을 가졌습니다. 이미 깃허브에서 11,000개 이상 별을 받은, Hopper GPU를 위한 MLA (Multi-Head Attention)을 최적화한 FlashMLA, MoE의 효율성을 향상시키는 새로운 라이브러리 DeepEP, DeepGEMM, 병렬 처리 최적화 전략, 고성능의 AI 데이터 관리 시스템인 Fire-Flyer 파일 시스템 (3FS) 등을 소개했구요. 마지막 날인 6일째에는 DeepSeek-V3/R1 추론 시스템에 대한 심층적인 분석 내용을 발표했습니다.
DeepSeek이 일으킨 파장의 또 다른 효과는 바로 ‘증류 (Distillation)’ 기술에 대한 관심인 것 같습니다. 증류 기법이 미디어의 헤드라인까지 장식하는 걸 보니 재미있네요. 이제 AI 모델의 최적화 기술까지도 나름의 ‘15분간의 명성’을 누리는 것 같습니다. 곧 ‘지식 증류 (Knowledge Distillation)’에 대해서 튜링 포스트 코리아에서도 다뤄보도록 하겠습니다.

앤쓰로픽의 레벨 업: 더 똑똑한 AI, 더 큰 투자, 그리고 ‘투명성’을 향한 한 걸음

앤쓰로픽이 큰 보폭의 행보를 보이고 있습니다. Claude 3.7 Sonnet 발표로, 이제 사용자들이 AI가 얼마나 깊이 생각해야 할지를 제어할 수 있게 됐습니다 - 복잡한 문제를 해결하든, 포켓몬 플레이를 하든 말이죠.
한편, 앤쓰로픽의 새로운 ‘Transparency Hub’는 AI에 대한 규제가 강화(?) 내지 구체화되는 흐름 속에서 안전 조치를 어떻게 구성할지, 거버넌스는 어떻게 구축할지에 대한 정책적인 관점을 제시합니다. 과학 분야에서는 앤쓰로픽이 국가 안보라든가 연구에서 AI의 역할을 테스트하기 위해서 미국 에너지부와 협력도 하고 있다고 하네요.
이런 모든 노력의 결실이겠죠? 615억 달러의 기업 가치로, 35억 달러의 신규 자금을 유치하면서 앤쓰로픽은 시리즈 E 투자 라운드를 마무리했습니다. Dario와 Daniela Amodei는 최근에 타임즈에 등장해서 “내년까지 AI가 모든 사람보다 똑똑해질 수 있다”고 이야기할 만큼, 자신감에 차 있는 듯 합니다.

구글의 AI 플레이북: 더 열심히 일하고, 더 똑똑하게 코딩하기 + AI Co-Scientist

지금 실리콘 밸리에서 펼쳐지는, 일종의 ‘AI 레이스’는 기계 뿐 아니라 사람들도 한계에 밀어붙이고 있는 것처럼 보입니다: 세르게이 브린이 구글의 Gemini AI 팀에게 주당 60시간 근무를 하기를 원하는데, 이걸 ‘생산성의 Sweet Spot’이라고 부른다고 하네요. 우리나라라면 어떻게 받아들여질까요?
더 많은 개발자 커뮤니티를 자기 편으로 만들기 위해서, 구글이 Gemini Code Assistant를 통해서 누구나 AI 기반의 코딩을 할 수 있도록 무료로 제공하고 있습니다. 이 도구를 통해서 월 최대 180,000건의 코드가 완성된다고 하네요 - 기존의 도구들보다도 엄청나게 높은 수치 아닌가 합니다. 현재 VS Code, JetBrains, GitHub에서 사용할 수 있고, 단순히 코드를 작성하는 것 뿐 아니라 Pull Request를 검토하거나 커스텀 스타일 가이드 등에 적응하면서 작업할 수도 있다고 하네요.
‘연구실’에서 구글의 존재감도 만만치 않습니다. Gemini 2.0 기반으로 구축된 구글의 AI Co-Scientist는 과학적인 가설을 만들고 다듬습니다 - 이미 신약물 후보라든가 유전자 전달 메커니즘을 발견해서, 바이오메디컬 연구에서 두각을 나타내고 있습니다. 미래에는, AI가 ‘사람도 AI처럼 휴식도 하지 않고 계속해서 일할 수 있는 방법’을 알아낼 수 있을까요?

계속해서 이어지는 ‘퀀텀 컴퓨팅’의 진전

AWS Center for Quantum Computing의 연구자들이, 연결된 보존 (Boson) 큐비트를 사용해서 하드웨어를 효율적으로 사용하는 양자 오류 정정 (QEC; Quantum Error Correction) 기법을 개발했다고 합니다. 좀 어렵지만, 이 시스템은 Bosonic Cat Qubits와 Distance-5 반복 코드를 통합해서, Fault-Tolerant Quantum Computing에서 요구하는 오버헤드를 줄였다고 합니다.

튜링 포스트 코리아팀이 읽고 있는 것들

Nathan Lambert의 ‘Character Training: Understanding and Crafting a Language Model’s Personality’

꽤 흥미롭고 인사이트가 있는 글이라고 생각하는데요. 위에서 말씀드린 Sesame AI를 사용해봐도 그렇고, 최근의 GPT-4.5를 둘러싼 반응들을 봐도 그렇고, 어느 정도 높은 수준의 모델들을 최소한 ‘쓸만한’ 수준에 공통적으로 도달해 있는 것 같고, 결국은 그렇다면 마지막 남은 단계는 ‘자연스러운’, 또는 ‘개성있는’ 상호작용인가 싶기도 하거든요.

이 ‘개성’을 튜링 포스트 코리아의 ‘AI 에이전트’ 시리즈의 한 에피소드에서는 ‘Profiling (프로파일링)’이라고 불렀는데요:

🦸🏻#6: 에이전틱 시스템에서 '프로파일링'의 역할

'프로파일링'이 AI 에이전트의 캐릭터, 환경 인식, 그리고 의사 결정에 중요한 이유

turingpost.co.kr/p/6-agent-profiling

이 프로파일링 이라는 용어가 가장 좋은 용어인지는 모르겠습니다. 어쨌든 ‘Character Training’이라는 표현도 프로파일링의 복잡성을 온전히 담아내지는 못하지만, 현재로서는 더 일반적으로 사용되는 표현으로 보입니다.

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

NeoBERT: A Next-Generation BERT – 아키텍처를 업그레이드 (RoPE, SwiGLU, RMSNorm)하고 컨텍스트 길이를 확장, 양방향 인코더를 현대화해서, BERT-large와 RoBERTa-large를 능가하는 성능을 보여주면서 추론 속도도 개선합니다.
IBM Granite 3.2: Reasoning, Vision, Forecasting, and More – 향상된 추론 능력, 비전-언어 능력, 예측 기능을 갖춘 오픈소스 모델을 도입해서, 다양한 분야에서 더 큰 규모의 독점적 모델보다 우수한 성능을 보여줍니다.
Kanana: Compute-Efficient Bilingual Language Models – 한국어-영어 이중 언어 모델을 최적화해서, 계산 비용을 낮추면서도 한국어 벤치마크에서 LLaMA 3.1 70B보다 뛰어난 성능을 발휘하는 모델입니다. 오랜만에 본 카카오의 논문이라 반갑네요.
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers – 구조화된 추론이 ‘Polynomial Nonnegativity’ 문제에서 LLM의 정확도를 향상시켜주고, 최소한의 계산으로도 훨씬 더 큰 모델보다 우수한 성능을 나타낸다는 걸 보여줍니다.
Conversational Speech Model (CSM) – 트랜스포머를 활용해서 텍스트와 오디오 표현 (Representation)을 통합하고, 지연 시간을 최적화하고, 기존의 텍스트-음성 변환 기법을 넘어서 대화형 AI를 발전시키는, 표현력이 좋고 맥락도 인식하는 음성을 생성하는 ‘End-to-End 멀티모달 기법’입니다. (위에서 이야기한 Sesame AI의 블로그 글입니다)

LLM 최적화 및 트레이닝 안정성

🌟 SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution – 소프트웨어 엔지니어링 관련 작업에서 LLM의 추론 능력을 개선하는 강화학습 프레임웍인 SWE-RL을 소개하는데, 이 기법의 결과는 SFT의 결과를 능가하는 모습을 보여줍니다.
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment – 적응형 (Adaptive) SVD 사전 분포를 갖춘 최적화된 MoE 프레임웍을 사용해서 LoRA의 효율성을 향상시키고, 기존의 파인튜닝 방법보다 우수한 성능을 보여줍니다.
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve? – LLM 압축 (Compression)은 단순한 토큰 효율성보다 추론 및 검색 능력을 보존하는 데 중점을 두어야 한다는 점을 강조합니다.
🌟 LongRoPE2: Near-Lossless LLM Context Window Scaling – LLM 컨텍스트 윈도우를 128K 토큰까지 확장하면서도 짧은 컨텍스트 급의 성능을 유지하는 고도화된 RoPE 리스케일링 기법을 제안합니다.

추론 (Reasoning) 및 멀티스텝 문제해결

🌟 TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding – STEM 관련 주제에 대한 ‘움직이는 (Animated)’ 멀티모달 추론 컨텐츠를 생성하는 에이전트를 소개합니다
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? – LLM이 멀티스텝 추론 과정에서 오류를 감지하는 것이 어렵다는 걸 보여주는 데이터셋, DeltaBench를 소개합니다.
Self-rewarding Correction for Mathematical Reasoning – 수학 문제를 해결하는데 있어서 LLM의 정확도를 향상시키는, 강화학습 기반의 교정 (Correction) 프레임웍을 개발합니다.

RAG 및 정보 처리

Rank1: Test-Time Compute for Reranking in Information Retrieval – 테스트 타임 컴퓨팅을 활용해서 검색의 Relevance를 향상시키는 Reranking 기법을 소개합니다.
TeleRAG: Efficient Retrieval-Augmented Generation Inference With Lookahead Retrieval – LLM의 생성 작업 중에 관련된 데이터를 미리 가져오는 방식으로 RAG의 추론 지연 시간을 줄이고, 검색 효율성을 최적화합니다.
🌟 LettuceDetect: A Hallucination Detection Framework for RAG Applications – 빠른 처리 속도를 유지하면서도 더 큰 모델보다 우수한 성능을 발휘하는 경량화된 환각 감지 시스템을 개발합니다

AI 에이전트와 과학적 실험 자동화

Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents – 자동화된 가설 검증, 그리고 결과 확인을 통해서 보다 엄격하게 과학적 실험을 수행하는 AI 에이전트를 소개합니다.

강화학습과 Policy 최적화

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users – 사용자 선호도의 합성 데이터를 기반으로 LLM을 개인화하는 Few Shot 학습 방법을 소개합니다.
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance – 계산의 오버헤드를 줄이면서도 효율성을 개선하는 강화학습 최적화 방법을 제안합니다.

보안 및 AI Alignment

Guardians of the Agentic System: Preventing Many-Shots Jailbreak with Agentic System – 멀티 에이전트의 Alignment 기술을 통해서 AI 탈옥 시도를 방지하는 보안 프레임웍을 개발합니다.
On Relation-Specific Neurons in Large Language Models – LLM에서의 ‘관계-특화 뉴런 (Relation-Specific Neurons)’을 조사해서, 구조화된 지식을 회상하는데 있어서의 역할, 그리고 잠재적인 간섭 효과를 파악합니다.

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.