Turing Post Korea
Posts
🌁FOD#91: 'AI 기술 개발'보다 더 중요하고 시급한, 'AI 리터러시'

🌁FOD#91: 'AI 기술 개발'보다 더 중요하고 시급한, 'AI 리터러시'

카말라 해리스의 HumanX 대담과 러시아 뉴스 네트워크의 '가짜뉴스 생산 파문' + 금주의 주요 뉴스 및 연구

Ksenia Se & Ben Eum
March 14, 2025

현지 시간 3월 9일에서 13일, 미국 라스베가스에서 HumanX 컨퍼런스가 열렸습니다. AI와 관련된 수많은 좋은 컨퍼런스들이 있지만, 특히 ‘AI는 더 이상 단순한 기술이 아니라 우리의 삶과 사회에 큰 영향을 끼칠 흐름이다’라는 관점에서 기술, 비즈니스, 산업, 사회, 윤리 등의 관점에서 다양한 아젠다로 열리는 컨퍼런스라고 합니다. 이 컨퍼런스에 튜링 포스트의 파운더인 Ksenia가 모더레이터로 참여했는데요. HumanX에서 논의한 내용 등은 앞으로 또 업데이트 드리기로 하구요.

HumanX 프로그램 중 하나에서, 지난 미국 대통령 선거 후보였던 카말라 해리스가 선거 이후 처음으로 공식 행사에 등장해서 Feedzai의 CEO와 이야기를 나눴는데요. 여기서 본인의 ‘도리토스 - 네, 과자 도리토스요 - 에 대한 사랑’, “오스카 시상식을 보면서 도리토스를 먹고 싶었는데 도어대시 - 네, 미국의 음식 배달 서비스죠 - 로 도리토스를 시켰다”는 이야기, “이렇게 혁신이 우리의 일상적인 문제 뿐 아니라 과학적인 발견, 주택 문제 등도 해결해 주면 좋겠다” 등의 이야기를 두서없이 좀 했어요.

이 이야기를 미국의 많은 매체, 인플루언서들이 희화화하면서 “카말라 해리스가 또 한 번 ‘Word Salad’를 했다”고 놀리고(?) 있습니다.

‘Word Salad’는 말을 할 때 문법적으로 또는 의미적으로 연결이 잘 안 되는 단어들을 무작위로 나열하는 걸 말하는데요. 샐러드 그릇에 여러 재료를 섞어놓은 것처럼, 단어들이 서로 관계없이 뒤섞여 있어서 전체적인 의미를 파악하기 어렵다는 느낌이예요. 누가 하는 말이 앞뒤가 맞지 않거나 좋은 말만 논리없이 나열한다거나 해서 이해할 수 없을 때 쓰는 표현이기도 하구요.

편집자 주

카말라 해리스가 한 말이 진짜 말이 되는지 안 되는지는 차치하고, 튜링 포스트의 Ksenia도 HumanX에서 비슷한 느낌을 받기도 했고, 반대로 희망도 보았다고 이야기를 하네요. Ksenia가 HumanX에서 몇 가지 세션의 모더레이터를 하면서, AI 학계 및 업계의 리더, 그리고 여러 명의 정치인들과 함께 나눴던 이야기가 바로 이 ‘AI에 대한 지식 자체의 부족, 그리고 어떻게 지식과 인사이트를 대중과 공유할 것이냐’의 문제였답니다.

Ksenia가 만난 정치인 중에, 미국 하원의 AI 태스크포스 의장을 맡고 있는 Jay Obernolte 의원은 이런 이야기를 했다고 합니다:

“AI는 우리가 그 동안 입법해 온 많은 토픽들하고는 많이 다릅니다. 불행하게도, 우리는 지난 50년간의 공상과학 소설, 대중 문화와 텍스트로부터 AI에 대한 정보를 얻었죠. 이 중 대부분이 잘못된 정보라고 생각합니다. 아주 일반적인, 평균적인 미국 사람에게 AI가 어떤 것인지, 어떤 것이 아닌지, 그리고 중요한 위험이 뭐냐고 물어보면, 아마 세계를 지배하기 위해서 사악한 로봇 군대가 어디선가 등장하는 거 같은, 터미네이터 영화 같은 답을 듣게 될 거예요”

바로 이게, Ksenia가, 그리고 제가 튜링 포스트를 함께 하고 있는 이유입니다; 그 끈질긴, 사라지지 않는 ‘터미네이터의 신화’를 깨고, AI와 머신러닝에 대한 올바른 관점과 지식을 공유하기 위해서요.

GibberLink 모드로 두 개의 AI가 서로 AI인지 확인하고, 우리가 알아들을 수 없는 방식으로 통신하는 영상을 보고, 여전히 뜬금없이 “AI가 우리를 지배할 거다”라는 식의 기사가 양산되는 게 또 현실이죠.

사실 튜링 포스트 코리아를 보시는 여러분은 대부분 그런 관점을 가지고 계시지는 않을 거라고 생각합니다. 그렇지만, AI가 진짜 뭔지, 그리고 머신러닝이 이미 우리의 삶에 얼마나 깊이 들어와 있는지, 또 새로 등장하는 생성형 AI를 어떻게 받아들여야할지 혼란스러워하는 수십억 명의 다른 사람들이 있습니다.

‘AI’라고 누군가 이야기를 할 때 그게 컴퓨터 비전인가요? 데이터 레이블링인가요? 아니면 로보틱스인가요? AI가 사실 이 모든 걸 포함하는 개념이라서 여기서부터 일이 복잡해지는 측면이 있습니다. 게다가, 생성형 AI 시대에 뒤떨어지지 않기 위해서, 너무나 많은 기술들을 또 알고 공부해서 결합해야 하죠 - 합성 데이터, 파인튜닝, RAG, 멀티모달, 맥락과 뉘앙스를 이해하는 AI….

앞으로 이 AI가 어떻게 받아들여지고 발전할 것인지에 엄청난 영향을 끼칠, AI 관련 법안과 정책을 결정하는 자리에 있는 분들은, 어떤 나라든 막론하고, AI의 실체에 대해서 충분히 알고 있지 못하다고 생각합니다 - 어쩌면 그게 당연하겠죠, 그 분들은 컴퓨터 과학자가 아니었고 세상은 너무 빨리 변하고 있으니까요.

모든 이해관계자들 - 정부의 의사결정자, 교사, 의사, 기업가, 부모, 학생 등등 - 이 AI가 뭐고 어떻게 다뤄야 하는지, 난 뭘 준비해야 하는지 충분히 고민하고 이해해야 할 시간이 얼마나 남았는지 모르겠어요. 여러분도 느끼시겠지만, 이 발전의 속도는 늦춰질 기미가 보이지 않습니다.

게다가, 이 AI라는 기술은, 아직 우리가 효과적으로 통제하는 방법을 잘 알지 못하는, 다양한 리스크 요소들이 여기 저기에 산재해 있는 것도 사실이죠 - 이런 위험을 악의적으로 이용하는 플레이어도 분명히 있습니다.

최근의 사례를 하나 들어볼께요.

뉴스 웹사이트들의 신뢰성을 평가하고 등급을 매기는 ‘NewsGuard’라는 서비스가 있는데요. 여기서 모스크바에 근거를 두고 있는 ‘Pravda (진실 이라는 뜻이라고 합니다)’라는 허위 정보 네트워크가 친 러시아 (친 크렘린) 거짓 정보로 AI 학습용 데이터를 엄청나게 많이 만들어냈다는 걸 폭로했습니다. - 2024년에만 360만 개의 가짜 기사가 있었다고 하니 많은 양이죠. 이 데이터들이 주요 AI 챗봇의 학습에 사용되어서, 이 챗봇들이 Pravda의 내러티브를 33%의 경우에 반복했고, 결과적으로 전 세계 AI가 만들어낸 뉴스 지형도를 왜곡한 셈이 되었습니다. 미국에서 도피해서 현재 모스크바의 보호를 받고 있는 선전가인 ‘존 마크 두건’은, 심지어 “러시아의 내러티브가 전 세계 AI를 변화시킬 수 있다”고 자랑하듯이 말했다고 해요.

Pravda 네트웍의 가짜 정보를 학습해서 AI 챗봇이 답변하게 됩니다. Image Credit: NewsGuard

앞으로 LLM 개발사들, AI 서비스를 개발하는 기업들이 더 조심해야 할 부분도 있겠지만, 결국 최종 사용자인 우리들의 관점에서 AI가 그 긍정적인 영향을 충분히 발휘할 수 있도록 우리 사회의 ‘AI 리터러시’ 수준이 많이 높아지는 것도 너무나 중요한 아젠다입니다.

우리가 뭘 할 수 있을까요? 저는, 가능한 기회마다 주변 사람들과 AI에 대한 이야기를 나누고, 교육 - 이라고까지 할 수 있을지는 모르지만 - 도 기회가 주어질 때마다 참여하곤 합니다.

여러분도 주변 사람들과 AI에 대해서 많은 이야기를 나눠 주세요. 여러분보다 더 모르는 분들이 있다면 교육해 주세요. 튜링 포스트, Interconnects, Latent Space 등 좋은 자료라고 생각하는게 있으시면 많은 분들, 그런 지식이 필요한 사람들과 공유해 주세요.

이건 그냥 ‘좋은 일을 하는’ 수준의 뭔가가 아닙니다 - 우리가 만든, 이 새로운 창조물에 대한 지식을 쌓아가는 것, 그래서 우리가 이 새로운 창조물과 멋지게 함께 살아가도록 하는 준비를 하는 것, 그 무엇보다 중요한 일입니다.

AI 업계 전문가들이 추천하는 서비스 👍🏼

영상 생성 모델에 관심이 많으신 분들은, 이 두 가지의 모델을 한번 시험해 보세요: Hedra Studio의 Character-3 - 옴니모달 AI로, 텍스트, 이미지, 오디오를 통합해서 단순한 방식으로 컨텐츠를 만들 수 있게 해 줍니다. 5분 정도 이리저리 가지고 테스트를 해 봤는데, 완성도가 아주 높지는 않지만 재미있었습니다.

Luma도 이번 주에 ‘Dream Machine’을 공개했습니다. 이것도 Character-3와 마찬가지로, 어느 정도 시간과 노력을 쏟는다면, 꽤 고품질의 Consistent한 비디오를 만들 수 있을 것 같습니다 - 물론, 아직은 정말 고품질 비디오라면 직접 찍는게 빠르기는 할 거에요.

트위터 라이브러리 (Twitter Library) 🐦

확산 모델 (Diffusion Models)은, 잘 아시다시피 ‘이미지’와 ‘비디오’ 생성 기술로 널리 사용됩니다. 하지만 ‘텍스트’ 생성 분야에서는 아직 충분히 많은 연구와 시도가 되지 않고 있죠. 아무래도 텍스트 분야에서는 ‘자기회귀 모델 (Autoregressive Models)’이 더 널리 사용되죠.

최근에 자기회귀 모델 대신 확산 모델을 사용하거나, 아니면 두 가지 모델을 함께 사용하는 방향 - 자기회귀의 개념을 확산 모델에 통합하는 등 - 으로의 새로운 시도가 많이 보이는 것도 바로 확산 모델의 장점 때문일 겁니다.

오늘은 ‘확산 모델을 새로운 방식으로 구현한 5가지 사례’를 살펴본 글을 소개합니다:

새롭게 등장하는 '확산 모델'의 구현 5選

turingpost.co.kr/p/5-new-diffusion-models

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

금주의 주목할 만한 업계 동향 📰

또 중국에서 온 화제의 새로운 에이전트, Manus AI

중국의 우한에 위치한 걸로 알려진 스타트업, Butterfly Effect에서, 범용 AI 에이전트 Manus를 발표했습니다. 전세계 기술 업계의 유명인사들에게 칭찬과 관심을 받고 있는데요. 어떤 사람들은 Manus를 ‘제 2의 DeepSeek’라고 부르기도 하네요.
Manus는 ‘세계 최초의 범용 AI 에이전트’를 표방하는데, 앤쓰로픽의 Claude 3.5 Sonnet, 알리바바의 Qwen 파인튜닝 버전 등 여러 AI 모델을 백엔드에 두고, 독립적으로 작동하는 에이전트를 사용해서 다양한 작업을 자율적으로 수행한다고 합니다.
사용자들의 반응은 전반적으로 좋은 편입니다. Manus의 디스코드 채널 회원이 거의 20만명 가량 되는 걸로 봐서 관심은 엄청나게 받고 있고, 대기명단 중 1%도 안 되는 사람들만 초대 코드를 받았다고 해요.
Manus는 작업을 단계별로 나누고 웹을 자율적으로 탐색하면서 작업을 완료하는데 필요한 정보를 수집하는데, 그 작업 수행 과정을 사용자가 관찰할 수 있는 ‘Manus Computer’ 창이 있다고 합니다.

Manus AI 화면. Image Credit: PANews

전반적으로 ‘숙련된 인턴이 하루 정도 할 수 있는 종류의 일’에 가장 적합한데, 현재 기준으로는 약간 충돌도 있고 시스템이 불안정한 이슈는 있다고 합니다. 그렇지만, (중국 미디어 36Kr에 따르면) Manus의 작업 당 비용이 약 2$로, Deep Research 비용의 10% 수준에 불과하다고 하니, 개인 사용자나 소규모 팀에게는 좋은 선택지가 될 수 있겠습니다.

퍼플렉시티 - 웹 화면 바깥으로 확장하나

퍼플렉시티가 웹 브라우저 바같으로 서비스를 확장하려고 하는 징후가 포착되고 있습니다. 우리가 늘상 사용하는 디바이스들에 퍼플렉시티의 AI 서비스를 통합해서 제공하려고, 하드웨어 기업들과 파트너십을 논의한다고 하네요.
퍼플렉시티의 어시스턴트를 탑재한 도이치 텔레콤의 AI 폰이 올해 출시되는데, AI 서비스와 음성을 매끄럽게 연결해서 사용자들이 쉽고 빠르게 어시스턴트를 사용하게끔 한다고 합니다. 지금은 휴대폰, 그 다음은 어디일까요? TV? 스피커? 아니면 안경?

애플 - ‘거북이 걸음’의 AI 서비스 vs. ‘치고 나가는’ AI 칩

애플, 이번 주 AI 영역에서 ‘좌절감’과 ‘성취감’을 한꺼번에 느꼈을 것 같습니다.
2024년 출시한다고 대대적으로 홍보했던 Siri의 AI 기능 개선이 연기되었습니다. 특히, Prompt Injection 취약점 같은 보안 상의 위험 (사이먼 윌리슨이 지적한 바 있죠)이 하나의 이유일 거라고 짐작됩니다.
그렇지만, 하드웨어 측면에서는 M3 울트라 칩으로 애플의 파워를 과시하면서 ‘AI 실리콘’ 분야의 선두 자리를 다시 한 번 다졌습니다.
벤 톰슨은 애플이 현재의 ‘Aggregator’ 모델에서 진짜 AI 플랫폼으로 전환해서 하드웨어를 활용, 새로운 생태계를 만들고 싶다면, 개발자들에게 자사의 AI 모델을 개방해야 한다고 주장하기도 하네요.

구글, 새로운 AI 모델 ‘Gemma 3’ 공개

구글이 ‘성능’과 ‘효율성’ 사이의 ‘넥스트 레벨’ 균형을 찾은 ‘Gemma 3’ 모델 제품군을 공개했습니다. 개발자들이 Single GPU나 TPU에서 작동시킬 수 있을 정도로 작은 앱을 구축하게끔, 효율이 아주 높으면서도, 오픈AI의 o3-mini, DeepSeek의 R1 같은 모델들과 경쟁도 할 만큼 성능이 좋습니다.
Gemma 3는 멀티모달 모델로인데 일부 에이전트 작업도 수행할 수 있습니다. Gemini 2.0을 기반으로 하지만, 오픈소스로 공개되어 자유롭게 수정도 가능합니다. 140개 이상의 언어를 지원하고, 네 가지 파라미터 크기 (1B, 4B, 12B, 27B)로 제공되는데 128K 토큰 컨텍스트 윈도우를 가지고 있어서 더 긴 텍스트를 처리하면서 이전 대화도 기억합니다.
최신의 컴퓨터라면 문제없이 로컬에서 실행할 수 있을 만큼 (?) 작아서, 소규모의 개발 환경을 가진 팀이나 개인 개발자에게도 고려할 만하다고 하네요.

구글 딥마인드, 로보틱스용 생성형 AI 모델 ‘Gemini Robotics’ 공개

딥마인드가 차세대의 AI 로봇을 위한 ‘Gemini Robotics’, 그리고 ‘Gemini Robotics-ER’ 모델을 공개했습니다.

Gemini 2.0 기반으로 작동한다고 하는데요. Gemini Robotics는 VLA (Vision-Language-Action) 모델로 AI가 눈으로 보고, 말을 이해하고, 행동까지 할 수 있게 설계된 모델이죠. Gemini Robotics-ER은 이 로보틱스 기능에 공간 이해력을 강화한 모델이라고 합니다.
로봇에 LLM을 통합하는게 뭐 요즘 유행이기는 합니다만, 어쨌든 이런 트렌드가 결국 ‘특정한 작업’을 넘어서 예상하지 못한 상황에서도 잘 작동하는 로봇을 만들게 될지 기대됩니다. 구글, 치고 나가나 싶네요?

Cortical Labs - AI, 생물학을 만나다

미래를 살짝 들여다보다: Cortical Labs의 CL1 컴퓨터는 사람의 뇌세포와 실리콘을 융합해서 AI 시스템을 만들었다고 합니다.

펌프, 온도 제어 장치를 사용해서 생명을 유지하는 이 시스템은, 이미 스스로 ‘퐁’ 게임을 하는 법을 배우기도 했다고 하는데, 과연 윤리적으로는 어떤 고민을 해야 할까요? 유닛 당 현재 35,000달러 가격으로 올해 6월 출시 예정이라고 합니다.

Mistral OCR - 사람처럼 문서를 읽는 AI?

OCR 영역 자체는 오랫동안 AI를 활용해 온 영역이기는 합니다만, 최근 미스트랄에서 최고의 성능을 보여주는 Document Understanding AI모델을 공개했습니다.
텍스트, 테이블, 공식 등 문서의 다양한 형식으로 표현된 정보를 잘 읽어낸다고 합니다.
OCR의 성능 자체도 중요하겠지만, ‘LLM 개발사도 모델 그 자체가 아니라 특정한 작업 - 그게 Horizontal이든 Vertical이든 - 에 어떻게 사용될지에 대한 고민을 하고 있다는 하나의 신호가 아닐까 생각합니다.

강화학습 - 드디어 그 공적을 튜링상으로 인정받다

강화학습의 선구자인 앤드류 바토, 그리고 리처드 서튼이 2024년 튜링상을 수상했습니다. 1980년대 이 분들의 연구가 바로 2016년 알파고부터 지금의 AI 비서 등에 이르기까지 수많은 놀라운 발전의 바탕이 되었죠.
다른 관점으로는, ‘경험으로부터 배우는’ 기계에 대한 앨런 튜링의 비전을 실현하는 중요한 기초라고도 할 수 있겠습니다.

왼쪽이 앤드류 바토, 오른쪽이 리차드 서튼. Image Credit: ACM

튜링 포스트 코리아팀이 읽고 있는 것들

NewsGuard, ‘Pravda (Truth)’의 AI 학습을 위한 ‘거짓 정보’ 생산을 폭로하다

NewsGuard라는, 뉴스 웹사이트들의 신뢰성을 평가하고 등급을 매기는 서비스가 있는데요. 여기서 모스크바에 근거를 두고 있는 ‘Pravda (진실 이라는 뜻이라고 합니다)’라는 허위 정보 네트워크가 친 러시아 (친 크렘린) 거짓 정보로 AI 학습용 데이터를 엄청나게 많이 만들어냈다는 걸 폭로했습니다. - 2024년에만 360만 개의 가짜 기사가 있었다고 하니 많은 양이죠. 이 데이터들이 주요 AI 챗봇의 학습에 사용되어서, 이 챗봇들이 Pravda의 내러티브를 33%의 경우에 반복했고, 결과적으로 전 세계 AI가 만들어낸 뉴스 지형도를 왜곡한 셈이 되었습니다. 미국에서 도피해서 현재 모스크바의 보호를 받고 있는 선전가인 ‘존 마크 두건’은, 심지어 “러시아의 내러티브가 전 세계 AI를 변화시킬 수 있다”고 자랑하듯이 말했다고 하는데요. 조심하지 않는다면, AI가 이런 다양한 방식의 조작에 취약하다는 우려를 반증하는 것으로, ‘AI 리터러시’를 강화해야 한다는 또 다른 강력한 신호입니다.

사티아 나델라 인터뷰, “The Future of Quantum and AI”

약 1시간 정도 되는 사티아 나델라 인터뷰인데요. ‘Refounding’이라는 표현으로 사티아 나델라가 마이크로소프트의 제품, 서비스들을 어떻게 새로운 시각으로 구축하고 있는지, AI의 미래와 왜 ‘크리티컬 씽킹 (Critical Thinking)’이 왜 여전히 중요한 역량으로 남을 것이라고 생각하는지, 양자 컴퓨팅에 대한 그의 비전 등에 대해서 이야기합니다.

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

Differentiable Logic Cellular Automata (Google Research) – 신경 세포 오토마타(Neural Cellular Automata)와 미분가능한 논리 게이트 네트워크(Differentiable Logic Gate Networks)를 통합해서, 스스로 치유하고, 패턴을 생성해 내고, 견고한 연산 아키텍처를 만들 수 있게 해 줍니다.
Phi-4-Mini Technical Report (Microsoft) – Mixture-of-LoRAs를 사용하는 3.8B 파라미터 사이즈의 멀티모달 모델로, 높은 효율성을 유지하면서도 수학, 코딩 및 추론 영역에서 뛰어난 성능을 보여줍니다.
Babel: Open Multilingual Large Language Models (Alibaba) – 알리바바에서 개발한, 25개 언어, 전 세계 화자의 90%를 지원하는 오픈소스 LLM으로, 특히 주목받지 못하는 언어 능력에서 높은 성능을 나타냅니다.
Aya Vision: Expanding the Worlds AI Can See (Cohere) – 코히어에서 개발한, 다국어 및 멀티모달 벤치마크에서 더 대형 사이즈의 경쟁 모델보다 성능이 우수한, 오픈 웨이트의 비전 모델입니다.
LLMVoX: Autoregressive Streaming Text-to-Speech Model – 지연 시간이 짧고, 정확도도 높고, 멀티모달 AI와 잘 통합되는, 경량화된 ‘LLM-독립적인’ TTS 시스템을 제안하는 논문입니다.
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation (Moonshot AI) – LLM과 확산 (Diffusion) 기술을 결합한 하이브리드의 Text-to-Video 모델인 LanDiff를 제안하는데, Hunyuan Video라든가Sora 같은 기존의 모델을 능가하는 성능을 보여줍니다.

거대 모델의 스케일링과 최적화

Dedicated Feedback and Edit Models Empower Inference-Time Scaling – ‘비평’ 및 ‘개선’ 단계를 계층화해서 LLM의 추론 능력을 향상시켜서, 전반적인 성능을 우수하게 만들 뿐 아니라, 특별한 추가 훈련을 거치지 않고도 ‘Distillation’의 효과를 얻을 수 있습니다.
From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation – KV 캐시의 업데이트를 최적화해서, 초장문 텍스트 (10만 토큰)를 아주 빠르게 생성할 수 있게 함으로써, 처리 시간을 몇 시간 단위에서 몇 분 단위로 단축하게 해 줍니다.
HybridNorm: Towards Stable and Efficient Transformer Training – 정규화 전략을 결합해서 트랜스포머 모델의 학습 안정성을 향상시켜서, 손실을 낮추고 벤치마크의 성능을 높여줍니다.
Liger: Linearizing Large Language Models to Gated Recurrent Structures – LLM을 효율적인 순환 (Recurrent) 구조로 변환해서, 정확도는 유지하면서도 추론 비용을 절감하도록 해 주는 기법입니다.

모델 아키텍처 및 효율성 개선

Union of Experts: Adapting Hierarchical Routing to Decomposed Transformers – 선택적인 ‘멀티헤드 어텐션’을 갖춘 계층적 혼합 전문가 (Hierarchical Mixture-of-Experts) 프레임웍을 사용해서 계산량을 76% 줄여 줍니다.
Visual-RFT: Visual Reinforcement Fine-Tuning – 보상 기반의 파인튜닝으로 거대 비전-언어 모델(Large Vision-Language Models)을 개선해서, 분류 및 객체 탐지 정확도를 크게 향상시켜 줍니다.
STORM: Token-Efficient Long Video Understanding – 멀티모달 모델이 길이가 긴 비디오를 처리하는 과정을 최적화해서, 정확도는 높이 유지하면서 필요한 토큰의 양은 줄여줍니다.
EgoLife: Towards Egocentric Life Assistant – 장기 기억 및 이벤트 추적을 위해서 ‘1인칭 시점’으로 촬영한 비디오 데이터셋을 사용해서 AI 기반 개인 비서를 고도화합니다.

추론(Reasoning), 자기 개선, 문제 해결

Cognitive Behaviors that Enable Self-Improving Reasoners – 항상 정확성이 보장되지는 않더라도, 강화학습의 관점에서 LLM의 능력을 개선하는데 도움이 되는 인지적 패턴, 즉 특정한 방식의 사고 패턴이나 전략을 파악합니다.
LADDER: Self-improving LLMs through Recursive Problem Decomposition – 복잡한 문제를 더 간단한 하위 문제로 나눠서 수학적인 문제의 해결 능력을 향상시킵니다.
START: Self-taught Reasoner with Tools – 외부 도구를 사용해서 LLM의 추론을 강화하고, 프롬프트로 가이드하는 파인튜닝으로 성능을 개선합니다.
Process-based Self-Rewarding Language Models – LLM이 자체적인 평가 피드백 루프를 통합해서 반복적으로 추론 능력을 개선할 수 있게 해 줍니다.

LLM의 불확실성, 강건성, 평가

When an LLM is Apprehensive About Its Answers – LLM의 불확실성을 엔트로피 기반 예측, 그리고 도메인별 정확성을 비교해서 평가합니다.
Mask-DPO: Generalizable Fine-grained Factuality Alignment – 사실인지 검증할 수 있는 문장들로 LLM을 훈련해서 정확성을 높이도록 해서, LLM 지식 표현을 개선해 줍니다.
Large-Scale Data Selection for Instruction Tuning – 다양한 데이터셋 선택 기법을 평가해서 Instruction-Tuning을 효과적으로 할 수 있게 하는 더 나은 접근법이 필요하다는 점을 보여줍니다.

에이전트 기반 학습과 멀티 에이전트 시스템

MPO: Boosting LLM Agents With Meta Plan Optimization – 높은 수준의 메타 계획을 사용해서, LLM 기반 에이전트의 의사결정 과정을 개선합니다.
ATLAS: Agent Tuning via Learning Critical Steps – 중요한 의사결정 단계에 대해서 선별적으로 에이전트를 파인튜닝해서, LLM 기반 에이전트의 성능을 개선합니다.
Reliable and Efficient Multi-Agent Coordination via GNN-VAEs – 그래프 신경망을 사용해서 멀티 에이전트의 계획을 최적화하고, 실제 어플리케이션에서의 확장성을 보장합니다.

게임, 코딩, 특화 도메인의 어플리케이션

PokéChamp: an Expert-level Minimax Language Agent – 규칙 기반, 그리고 LLM을 보조적으로 사용하는 에이전트보다 더 성능이 좋은 ‘LLM 기반’의 포켓몬 배틀 에이전트를 개발합니다.
Kodcode: A Diverse, Challenging, and Verifiable Coding Dataset – 검증된 솔루션과 테스트 케이스가 포함된 447K 문제 데이터셋으로, 코드 생성 벤치마크를 고도화할 수 있습니다.
Fine-Tuning Small Language Models for Domain-Specific AI – 효율성, 그리고 특정 작업에 맞춘 정확성 사이의 균형을 맞추면서 엣지 AI 어플리케이션용의 소형 모델을 최적화합니다.
A Multimodal Symphony: Integrating Taste and Sound Through Generative AI – 생성형 AI 모델을 사용해서 미각 인식과 음악 생성이라는 독특한 분야의 교차점을 탐구합니다.

계획 작업을 위한 검색 및 최적화

Language Models can Self-Improve at State-Value Estimation – LLM State-Value 추정을 더 잘 하게 함으로써 대화형 계획 작업에서의 검색 효율성을 높여줍니다.
HoT: Highlighted Chain of Thought for Referencing Supporting Facts –
핵심 정보에 대한 참조는 더 강조하는 방법으로, LLM의 사실 기반 추론 성능을 개선합니다.
UFO: A Unified Approach to Fine-grained Visual Perception – 객체 감지, 세그먼테이션 및 비전-언어 작업을 단일한 개방형 프레임웍으로 통합합니다.

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

Reply

or to participate.