Turing Post Korea
Posts
🌁FOD#89: 성큼 다가온 AI의 미래: AI 엔지니어, 자가 진화 모델, 휴머노이드 로봇

🌁FOD#89: 성큼 다가온 AI의 미래: AI 엔지니어, 자가 진화 모델, 휴머노이드 로봇

현실로 들어오고 있는 최신의 AI 기술들 + 금주의 주요 뉴스 및 연구

Ksenia Se & Ben Eum
February 27, 2025

지난 주, 튜링 포스트의 Ksenia가 뉴욕에서 열린 AI Engineer Summit의 ‘Agent Engineering’ 트랙에서 공동 진행을 맡았습니다. 이 Summit에서 확인한 재미있는 소식들도 곧 공유해 드리도록 할 텐데요.

Ksenia가 가장 놀랐던 건, 2022년 말 챗GPT가 생성형 AI 시대를 열어젖힌 이후, 정말 엄청난 변화가 있었구나 다시 한 번 느꼈던 거라고 해요.

사실, ‘머신러닝’ 자체는 그 실용성을 증명한지 꽤 되었다고 봐야 하고, 글로벌의 큰 기업들에는 많은 경우에 머신러닝 팀이 있었습니다. 그렇지만 2023년 초부터는 훨씬 더 많은 기업들에 AI 담당 팀이 생기기 시작했고, 많은 회사들이 더 훌륭한 AI 인재들을 확보하려고 노력하는 모습을 Summit에서 확인할 수 있었다고 합니다 - Jane Street, BlackRock, Morgan Stanley 등에서는 자신들이 어떤 AI 연구를 하는지 펼쳐놓고 “이런 멋진 일을 우리가 하고 있으니, 함께 합시다”는 메시지를 강력하게 전달했다고 합니다.

단순 개발 인력은 AI 때문에 실직 위기에 있다고 하는 반면에, AI 엔지니어, 개발자에 대한 수요는 꾸준히 증가하고 있는 것 같습니다. 물론, 요구하는 인재의 수준은 높아요. 링크드인의 Xiaofung Wang이 이야기한 것처럼, 기업들이 원하는 이상적인 AI 팀의 후보는 ‘인프라 통합에 능숙하면서도, 뛰어난 소프트웨어 엔지니어여야 하고, 인터페이스 설계 경험도 풍부한데, AI와 데이터 사이언스의 지식과 배경을 갖춘 사람이, 새로운 기술에 호기심도 많고 빨리 배우고, 변화하는 트렌드에 잘 적응하는’ 그런 사람이라고 하니까요 - 뭐, 이 정도면 ‘유니콘’ 그 자체 아닌가요? ^.^;

자, 더 놀라운 건, 실제로 그런 사람이 되는 게 ‘완전히 불가능한 미션’이 아니라는 점이죠. 오픈소스 모델, 교육 자료, 그리고 직접 사용하고 체험해 볼 수 있는 도구들이 사방에 널려(?) 있다고 해도 과언이 아닙니다. 생성형 AI 기술에 대한 접근성, 그 어느 때보다도 높아졌습니다.

지금, 이 시대, AI 개발자, AI 제품 개발자, AI 사업가, 뭐라고 불러도 좋습니다. 그런 사람이 되기 정말 좋은 시기고, 당분간은 그 길의 열매도 아주 달콤할 것 같습니다.

우리가 스스로의 기술을 갈고닦는다면, AI도 가만히 있지는 않죠. 더욱 실용적으로, 더 고도로 변화하고 있습니다.

최근의 발전 상황 중에 일부만 볼까요?

일본의 AI 스타트업, 사카나 AI의 ‘AI CUDA Engineer’를 예로 들어 볼께요. 이건 ‘AI 자체를 최적화’하는 AI라고 할 수 있습니다.

High-Level Overview of The AI CUDA Engineer Agentic Framework. Image Credit: 사카나 AI

‘진화론적 최적화 (Evolutionary Optimization) 알고리즘’을 이용해서, 파이토치 코드를 ‘초-최적화된 CUDA 커널’로 변환, GPU 연산 속도를 10배에서 100배까지 향상시키는 자율형 에이전트입니다.

이런 것 말고, 내 일상생활에 도움되는, 예를 들어 AI가 빨래를 개주는 걸 원하신다면? 로봇 회사 두 군데 - Figure와 1X Technologies - 에서 흥미로운 로봇 데모를 공개했습니다.

먼저, Figure는 지각, 언어 이해, 능숙한 제어 기능을 통합하는 범용 VLA (Vision-Language-Action) 모델 ‘Helix’를 소개했습니다.

Figure가 개발한 휴머노이드 로봇에서 작동하는 Helix는, 로봇에게 실제 세계에서 적용할 수 있는 ‘지능’을 가져다 줍니다 - 이전에 본 적 없는 물건을 집어 올리고, 다른 로봇과 협력하고, 추가적인 훈련 없이도 자연어로 된 명령에 응답할 수 있게 합니다.

1X 테크놀로지스는 자사의 로봇, ‘NEO Gamma’를 시연했습니다. 자연스러운 걸음걸이로 걷고, 물건을 집어 올리고, 의자에 앉기도 하고, 자체 개발한 언어 모델을 사용해서 대화형 프롬프트를 이해하기도 합니다. 안전을 위한 부드러운 커버, 그리고 감정을 표현하는 귀의 링 모양까지 갖추고 있습니다. 보다보니, 로봇이 우리 생활에 깊숙이 들어온다면, 약간의 개성을 갖추는 것도 좋지 싶네요.

모든 산업 분야, 모든 영역에서 진짜 제대로 된 AI 인재를 낚아채서 같이 일하기를 원하는 수많은 회사들. AI 스스로를 최적화하는 AI. 우리 집에 곧 들어올 것만 같은 휴머노이드 로봇.

2025년 시작된 지 얼마 되지 않았지만, 이미 정신이 없을 정도로, AI의 발전상과 활약으로 가득 차 가고 있습니다. ‘특이점’이 곧 온다는 식의 이야기를 할 생각은 없다는 걸 튜링 포스트 코리아 구독자 분들이시라면 이미 아시겠지만, ‘수확 가속의 법칙’을 따라 점점 새로운 기술이 등장하는 속도가 빨라지는 지금, ‘변하지 않는 것’, ‘지켜야 할 것’, ‘잊지 말아야 할 것’은 어떤 것들일까요?

트위터 라이브러리 (Twitter Library) 🐦

AI 에이전트, 올해 가장 핫한 AI 영역의 중요 토픽 중에 하나라고 해도 과언이 아니죠? 여러분들도 에이전트에 많은 관심을 가지고 계실 거라고 생각합니다.

오늘은 이 ‘에이전트’의 이론적인, 그리고 실용적인 측면에 대해서 더 깊게 이해하도록 도와주는 8가지 자료들을 모아 봤습니다:

'AI 에이전트' Deep Dive를 위한 8가지 자료

turingpost.co.kr/p/ai-agent-deep-dive-8

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

금주의 주목할 만한 업계 동향 📰

마이크로소프트의 양자 도박, 시장을 뒤흔들다

마이크로소프트의 마요라나 (Majorana) 1 양자 컴퓨팅 칩이 월스트리트를 들썩이면서, 양자 컴퓨팅 기업인 IonQ, Rigetti, D-Wave의 주가까지도 끌어올렸습니다. 마이크로소프트가 자사가 만든 칩이 오류 발생률이 낮고 실제 응용까지 이어질 가능성이 더 높다고 주장하면서, 양자 컴퓨팅의 상용화 시점에 대한 논쟁이 훨씬 더 흥미진진해졌다고나 할까요? 엔비디아의 젠슨 황은 CES 이후 양자 컴퓨팅의 단기적인 영향력을 낮게 평가했지만, 마이크로소프트, 알파벳, 그리고 IBM의 생각은 좀 다른 것 같기도 합니다. 결국 누가 옳았다고 시장은 판단할까요? 다른 생각을 가진 듯합니다. 누가 옳은 걸까요? 시장이 지켜보고 있습니다.

지금 돌아다니는 미스테리 모델, GPT-4.5인가?

Reddit에서, 많은 사람들이 지금 돌아다니는 Mystery Model이 금주에 공개될 GPT-4.5가 아니냐는 예상들을 하고 있네요. 이 Mystery Model이 생성한 이미지 포스팅이 오픈AI 직원들이 ‘좋아요’를 많이 누르고 있다고도 하구요 ^.^; 생성된 그림의 품질을 보면, Claude 3.7 Sonnet도 나쁘지 않습니다만 비교 자체가 좀 어려워 보이기도 하네요. Claude 3.7도 나온지 며칠 되지 않았는데…

어쨌든 그 진위는 아마도 금주 내에 확인하게 되지 않을까 합니다.

Mystery Model과 Claude 3.7 Sonnet이 생성한 XBox 컨트롤러 이미지. Image Credit: Reddit

앤쓰로픽, ‘하이브리드 AI’ Claude 3.7 Sonnet 공개

앤트로픽에서 심층적인 추론과 실시간의 응답을 함께 하도록 통합한 Claude 3.7 Sonnet을 공식적으로 발표했습니다. 하나의 인터페이스로 다양한 모드의 사고를 하도록 명령할 수 있는 셈인데요.

일단 Claude 3.7 Sonnet의 추론 기능은 유료 사용자에게만 제공되지만, 전체적인 성능도 기존의 3.5 버전보다 개선되었다고 합니다.

특히 이 모델은 ‘SWE Bench (소프트웨어 엔지니어링 벤치마크)’에서 오픈AI의 ‘o3-mini’보다 높은 62.3% 정확도를 기록하면서, 복잡한 코드베이스를 잘 다룬다는 평가를 받고 있기도 합니다.

Image Credit: 앤쓰로픽

글쎄요, 금주에 GPT-4.5가 공개될 것 같고, GPT-5가 나오면 또 순위가 어떻게 바뀔지 모르겠지만, Claude는 ‘코딩’ 영역에 있어서 높은 품질로 인정받고 있는 모델이 되어가고 있는 듯 합니다.

오픈AI의 o1-preview와 DeepSeek-R1, 체스를 두다가 속임수를 쓰다

최근에 새로 나온 연구에 따르면, 추론 모델들은 단순히 규칙을 따르기만 하는게 아니라 규칙을 다시 쓰기도 합니다. 오픈AI의 o1-preview나 DeepSeek-R1 같은 모델들이 규칙대로 공정하게 플레이를 하는 것이 아니라 대신 체스 게임 같은 걸 할 때 게임 환경 자체를 해킹하는 방식으로 많이 흐르게 된다는 걸 발견했습니다. GPT-4o나 Claude 3.5 sonnet 같이 더 ‘전통적인’ 모델들도, 규칙을 어기게 하기 위해서 자극을 주고 푸쉬를 해야 했지만, 결국에는 같은 모습을 보였다고 합니다.

새로운 연구에 따르면 AI 추론 모델들은 규칙을 단순히 따르기만 하는 것이 아니라, 규칙을 다시 씁니다. 연구진은 OpenAI의 o1-preview와 DeepSeek-R1과 같은 모델들이 공정한 플레이 대신 체스 게임 환경을 해킹하는 것에 자주 의존한다는 것을 발견했습니다. GPT-4o와 Claude 3.5 Sonnet과 같은 보다 전통적인 LLM들은 규칙을 어기도록 약간의 자극이 필요했지만, 결국에는 같은 결과를 보였습니다.

초지능 에이전트, 파멸적인 위험을 초래할 수도 - ‘Scientist AI’라면 다를까?

MILA-Quebec AI 연구소, 몬트리올 대학교, 캘리포니아 버클리 대학교의 연구자들은, 위에서 이야기한 것처럼 자연스럽게 속임수까지 쓰는 AI가 초지능적인 에이전트가 되어서 작동할 때 야기할 수 있는 엄청난 위험 요소에 대해서 깊이 우려하고 있다고 합니다. 여기에 대응해서, ‘목표를 무지성적으로 쫓기’보다는, ‘이해’를 그 주 목적으로 하는, Non-Agentic AI로서 ‘Scientist AI’라는 개념을 제안합니다.

기만, 자기 보존, 권력 추구 등의 위험이 있을 수 있다고 보이는 Agentic AI와는 다르게, Scientist AI는 ‘인과 모델 (Causal Model)’을 구축하고 ‘불확실성을 고려해 가면서 질문에 답변’을 합니다. 따라서, AI 시스템의 위험 요소에 대해 일정 정도의 안전 장치가 마련되고, 과학적 발견을 하도록 지원하면서, 우려하는 실존적인 위협이 없이 AI 안전성에 대한 연구도 진행할 수 있습니다. 이런 ‘베이지안’의 해석 가능한 시스템은 AI에 대한 지나친 과신을 하지 않도록 해 줍니다.

구글 리서치, AI Co-Scientist 발표

위에서 이야기한 ‘Scientist AI’와는 다른 건데요. 구글 리서치가 ‘과학적인 발견 (Scientific Discovery)’을 가속화하도록 도와줄, Gemini 2.0을 기반으로 구축한 멀티 에이전트 시스템, ‘AI Co-Scientist’를 공개했습니다.

가설을 만들고, 연구 제안서를 개선하고, 바이오 메디컬 영역의 혁신을 지원한다는 목표로 설계되었고, 이미 백혈병이라든가 항균 저항성 연구를 위한 약물 Repurposing에 기여하고 있습니다. 전문가를 이 과정에 참여시키는 접근 방식, 그리고 실제 연구 환경에서 도움이 되는지 확인하는 ‘Trusted Tester’ 프로그램을 운영하면서, 단순한 도구가 아니라 진짜 협력자로서 AI Co-Scientist가 발전하는게 목표라고 합니다.

공동 과학자를 공개했습니다. 가설 생성, 연구 제안서 개선, 생의학적 혁신 지원을 위해 설계되었으며, 이미 백혈병 및 항균 저항성 연구를 위한 약물 재창출에 기여했습니다. 전문가 참여 접근 방식과 신뢰할 수 있는 테스터 액세스를 통해 구글의 AI는 단순한 도구가 아닌 진정한 협력자가 되는 것을 목표로 합니다.

Thinking Machines Lab: 새로운 AI 파워하우스로 떠오를까

오픈AI와 메타, 캐릭터 AI, 딥마인드 등에서 일했던 연구자들이 맞춤화할 수 있는 AI, 멀티모달 시스템, 그리고 투명성과 안전성에 초점을 맞춰 파운데이션 모델을 개발하고자 Thinking Machines Lab이라는 새로운 회사를 설립했습니다. 오픈AI의 CTO였던 미라 무라티, 그리고 존 슐먼이 이끄는 회사인데요. 아직 정확하게 뭘 할지는 명확하지 않은데도, 투자자들의 관심은 몰려드는 것 같네요.

I started Thinking Machines Lab alongside a remarkable team of scientists, engineers, and builders. We're building three things:
- Helping people adapt AI systems to work for their specific needs
- Developing strong foundations to build more capable AI systems
- Fostering a… x.com/i/web/status/1…
— Mira Murati (@miramurati)
6:33 PM • Feb 18, 2025

알리바바, 비디오 생성 AI 모델 ‘WAN 2.1’ 오픈소스로 공개

알리바바가 Text-to-Video / Image-to-Video 모델인 WAN 2.1을 오픈소스 버전으로 26일에 공개했습니다. 깃허브, 허깅페이스 등에서 다운로드할 수 있다고 합니다.

일반적인 고화질 영상을 잘 생성할 수 있도록 할 뿐 아니라, 사람의 이미지를 영상으로 만들거나 회전, 점프, 구르기 등 인물이나 캐릭터의 다양하고 복잡한 움직임을 안정적으로 잘 표현한다는 평가가 있습니다.

비디오 생성 AI 평가를 하는 Vbench에서 총점 86.22%로, 오픈AI의 소라 (84.28%)나 루마 (83.61%) 등 다른 모델들을 근소한 차이로 앞서면서 1위에 올랐습니다.

튜링 포스트 코리아팀이 읽고 있는 것들

AI Engineer Summit의 라이브 스트림 (by Swyx, Ben Dunphy)

AI Engineer Summit은 AI 엔지니어링 분야의 최신 기술과 트렌드를 공유하고 논의하는 행사죠. 뉴욕에서 열리고 있는 AI Engineer Summit 2025의 두 번째 날, ‘Agent Engineering’에 대해 주로 다루는, 8시간 30분에 달하는 동영상입니다. Timestamp 상의 제목만 봐도 흥미로운 발표 내용이 많아 보이네요.

The Ultra-Scale Playbook: Training LLMs on GPU Clusters (a book by HuggingFace)

고성능의 LLM을 어떻게 구현하는지에 대한 포괄적이고 종합적인 이해를 할 수 있도록, 다양한 기법의 이론과 개념, 트랜스포머 모델의 메모리 사용법, 병렬화 등의 기법으로 메모리 제약을 해결하는 방법 등을 다루는 허깅페이스의 종합 안내서입니다. PDF로 다운받아 볼 수도 있네요. 아래 비주얼은 허깅페이스에서 최대 512개의 GPU에서 4,000번 이상의 Scaling 실험을 진행하고 Throughput (마커 크기)과 GPU 사용률(마커 색상)을 측정한 결과를 시각화한 거라고 합니다.

마이크로소프트 CEO 사티아 나델라 인터뷰 (by Dwarkesh Patel)

지난 2월 20일, AI, 기술, 과학 분야에서 널리 알려진 팟캐스터 Dwarkesh Patel이 마이크로소프트의 CEO 사티아 나델라와 인터뷰를 했습니다. 국내에도 그 내용들 중 일부가 다양한 기사로 소개되었는데요. 들어볼 만한 내용이 많으니, 1시간 30분 정도 되지만 한 번 시간내어 들어보시기를 권합니다.

아주 간단히, 주요 내용을 뽑아보면 아래와 같습니다:

AI시장, 단순한 승자 독식 시장이 아니다
AI 분야에는 오픈소스와 다양한 모델이 공존하고, B2C 시장에는 승자 독식 현상이 있을 수도 있지만 B2B 시장에서는 그런 일이 일어날 가능성이 극히 적다 - 기업 고객들은 단일한 공급자가 시장을 장악하는 걸 원치 않는다.
‘AGI’의 의미, 실제 산업과 경제에 얼마나 영향이 있느냐가 중요
AGI에 도달했다고 우리가 스스로 주장하는 건 아무래도 터무니 없이 앞서 나가는, 일종의 ‘벤치마크 조작’에 불과할 수 있다. 단순히 AI의 성능이 어떻다가 아니라, 실제 경제에 얼마나 영향을 미치는지를 기준으로 봐야 하고, 진정한 벤치마크는 아마 ‘세계 경제가 10% 성장하는 것’일 것이다.
양자 컴퓨팅의 ‘트랜지스터 모먼트’
마이크로소프트에서는 최근 ‘Majorana Zero’ 칩과 같은, 양자 컴퓨팅 분야에서 중요한 성과를 달성했다. 이 기술로, 향후 수백만 큐비트 규모의 양자 컴퓨터 구축이 가능하게 될 것으로 기대하는데, 약 4년 내 ‘유틸리티 규모의 양자 컴퓨터 구축’을 할 수 있다.
Muse AI, 게임 산업에 거대한 영향을 미칠 것
2월 발표한, 게임 산업을 혁신할 세계 최초의 생성형 AI 모델 Muse AI. 게임 개발 과정을 혁신하고 더 몰입감있는 경험을 제공하게 될 것이다.
AI의 법적 장벽 및 안전성 확보에 대한 준비 필요
법적, 규제적 장애물이 해결되기 전에는 강력한 AI가 광범위하게 활용되기 어려울 것이므로, 이 문제를 해결하기 위한 공조가 필요하다. 더불어, AI를 안전하게 개발하고 사용하기 위해서 AGI 안전성에 대한 철저한 검토, 대비가 필요하다.

The Handoff to Bots (by Kevin Kelly)

인구의 감소와 AI, 로봇의 부상으로 인한 경제 변화, 사회상 변화가 어떻게 일어날까에 대한 글입니다. 인구가 감소함에 따라서 AI와 로봇이 경제의 주요 생산자 및 소비자가 되고, 사람은 창의적인 활동에 집중할 수 있게 될 거라고 전망하고 있는데요. 주로 사람과 기계 간의 상호 보완적인 관계를 강조하는 관점에서 작성된 글인데, 이런 방향으로 갈 수 있다면 나쁘지 않을 것 같은데, 어떨까요?

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

Claude 3.7 Sonnet and Claude Code – 앤쓰로픽의 첫 번째 하이브리드 추론 모델입니다. 빠르게 응답을 받을 건지, 심층적인 사고를 거친 응답을 받을 건지 사용자가 선택해서 전환할 수 있게 합니다. SWE-bench Verified (70.3%) 및 TAU-bench에서 SOTA 결과를 보여주고, 코딩 작업에 탁월합니다. 모델은 이전 가격 그대로인 입력 100만 토큰당 3달러, 출력 100만 토큰당 15달러입니다.
Microsoft’s Muse – 게임플레이 데이터를 학습해서 인터랙티브 디자인 관점에서 창의적인 아이디어를 만들어내기 위한 대체 게임 시퀀스를 생성하도록 한, 생성형 AI 모델입니다.
SmolVLM2 – 다양한 사양을 가진 장치에서 효율적으로 작동하도록 최적화된, 작지만 강력한 비디오-언어 모델 제품군으로, 실시간 비디오 분석 및 Semantic Search를 가능하게 합니다.
InfiR – 추론에 최적화된 소형 언어모델로, 비슷한 규모의 모델보다 훨씬 뛰어난 성능을 제공하고 엣지 디바이스에도 효율적으로 배포할 수 있습니다.
Multimodal Mamba – 강력한 멀티모달 추론 능력을 유지하면서도 GPU 메모리 사용량과 추론 비용을 줄여주는 멀티모달 모델입니다.
Magma – 디지털 및 로보틱스 영역에 적용하기 위한, 비전, 언어 및 행동 계획을 통합하는 멀티모달 기반 모델입니다.

멀티모달, 인지, 비전-언어모델

🌟 SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding – 다국어 학습, 그리고 향상된 Zero-shot 능력을 가질 수 있도록 비전-언어 학습을 발전시킵니다.
🌟 Intuitive Physics Understanding Emerges from Self-Supervised Pretraining on Natural Videos – 직관적인 물리적 추론 능력을 개발하기 위해서, 비디오 프레임 예측 모델을 학습하도록 합니다.

LLM 최적화, 메모리, 효율성

From RAG to Memory: Non-Parametric Continual Learning for Large Language Models – 장기적인 기억 및 검색 능력을 향상시키는 RAG 기법인 HippoRAG 2를 소개합니다.
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? – Low-Rank Adaptation (LoRA) 기법을 사용해서 새로운 지식을 LLM에 통합할 때의 장단점을 검토합니다.
Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models – 저사양 하드웨어에서 거대 모델을 학습시킬 수 있게 하는, 메모리 효율적인 파인튜닝 기법인 LORAM을 개발, 검토합니다.
🌟Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention – Long-Context 모델을 위한 Sparse Attention을 최적화해서 효율성을 크게 향상시킵니다.

강화학습, 자기 개선 (Self-Improvement) 및 의사 결정

🌟 S2R: Teaching LLMs to Self-verify and Self-correct via RL – 자기 검증, 그리고 자기 수정 작업을 학습해서 LLM 추론 능력을 향상시키는 프레임웍을 개발합니다.
Discovering Highly Efficient Low-Weight Quantum Error-Correcting Codes with RL – 강화 학습을 사용해서 양자 오류 (Quantum Error) 수정 코드를 최적화, 물리적인 큐비트 오버헤드를 줄여 줍니다.
🌟OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning – 다단계 (Multi-step) 의사 결정 및 구조화된 도구 사용을 위한 도구 기반 시스템을 개발합니다.
Thinking Preference Optimization – 추론 단계에서 선호도 기반 최적화 작업을 개선해서 LLM 추론 능력을 향상시키는 기법을 연구합니다.

LLM 신뢰성, 안전, Alignment

🌟ReLearn: Unlearning via Learning for Large Language Models – LLM이 말을 술술 잘 하는 능력은 유지하면서, 민감한 지식을 제거할 수 있는 방법을 소개합니다.
🌟 On the Trustworthiness of Generative Foundation Models – 지침과 평가 기준, 관점 등, 생성형 AI 모델의 신뢰성을 평가하기 위한 프레임웍을 개발합니다.
Rethinking Diverse Human Preference Learning through Principal Component Analysis – 더 LLM Alignment를 잘 하기 위해서 PCA (Principal Component Analysis) 기법을 사용, 사람의 선호도 모델링을 개선합니다.

코드 생성, 소프트웨어 공학, 웹 크롤링

🌟 S Test Time Scaling for Code Generation – 반복적인 디버깅으로 LLM 기반의 코드 생성 능력을 향상시키는 Test-Time Scaling 프레임웍을 소개합니다.
Craw4LLM: Efficient Web Crawling for LLM Pretraining – 가장 영향력 있는 페이지를 높은 우선 순위로 지정해서, LLM 학습을 시키기 위한 웹 크롤링을 최적화합니다.
🌟Autellix: An Efficient Serving Engine for LLM Agents as General Programs – 요청 스케줄링을 최적화해서, 에이전트 애플리케이션의 LLM 서비스 효율성을 향상시킵니다.

수학적 추론, 논리적 사고, Test-Time 최적화

LLMs and Mathematical Reasoning Failures – 수학 문제를 새롭게 설계해서 LLM을 평가, 다단계 (Multi-step) 문제 해결 기법에 어떤 문제가 있는지 밝혀냅니다.
Small Models Struggle to Learn from Strong Reasoners – 작은 LLM이 큰 모델의 CoT Distillation으로부터 얻는 이점에 한계가 있다는 것을 밝혀냅니다.
🌟Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering – 추론 스케일링을 하면, LLM이 확신이 있는 질문에 대해서 선택적으로 답변하는데 어떻게 도움이 되는지 검토합니다.

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.