- Turing Post Korea
- Posts
- FOD#71: 에이전트 세계는 내가 주인공! 트랜스포머에 대항하는 맘바 + 마트료시카 연합군
FOD#71: 에이전트 세계는 내가 주인공! 트랜스포머에 대항하는 맘바 + 마트료시카 연합군
새로운 마트료시카 SSM + 금주의 주요 소식, 업계 동향과 연구
튜링포스트 코리아 예고:
AI 101: 오픈AI의 자동 음성인식 (Automatic Speech Recognition) 모델, 위스퍼 (Whisper)의 모든 것을 알아봅니다.
AI 에이전트: 에이전트를 이해하는 프레임웍과 용어 정의에 이어, Agentic Workflow가
유용하게 적용되는 다양한 유즈케이스를 구체적으로 알아봅니다.
기대해 주세요!
여러분, ‘마트료시카’라는 인형을 아시나요? 러시아의 전통 인형이고, 다산, 다복, 부유함과 행운을 가져오는 인형이라고 해서 기념품으로 한 때 유명했던 기억이 있습니다.
열어도 열어도 끝없이 나오는 마트료시카 인형. Image Credit: 소년중앙
전통 인형이기는 한데, 러시아의 다른 전통 인형과 비교하자면 마트료시카의 탄생 자체가 1890년으로 역사는 아주 짧다고 해요. 러시아의 철도왕이었다는 사바 마몬토프가 일본에 갔다가 일본의 칠복신 (七福神, 시치후쿠진) 인형, 특히 복록수 (福禄寿, 후쿠로쿠주)를 보고 큰 인상을 받아서, 러시아에 귀국한 다음에 예술가들에게 인형을 보여주고 비슷한 인형을 만들도록 한 게 바로 마트료시카의 시작이라고 하네요.
뜬금없이 마트료시카와 트랜스포머가 무슨 상관이냐고 생각하시겠죠? 하나는 인형을 열면 그 안에서 계속해서 조금씩 더 작은, 숨겨져 있던 인형이 나오는 러시아 전통 예술의 상징, 다른 하나는 환경과 상황에 빠르게 적응하면서 다양한 형태로 변화할 수 있는 미래적인 로봇이니까요.
네, AI 판에서는 상관이 있습니다 ^.^ - ‘마트료시카 (Matryoshka)’가, 우선 먼저는 트랜스포머 아키텍처 내에서 더 좋은 임베딩을 만들어내는 노믹 임베드의 마트료시카 표현 학습 (Matryoshka Representation Learning) - 임베딩 차원을 가변적으로 다양하게 만들어서 모델이 더 많은 정보를 잡아낼 수 있게 하는 기법 - 에서 사용되었죠. 또 하나는, 당당히 트랜스포머와 경쟁하는 아키텍처로서 ‘마트료시카’라는 이름을 사용하고 있습니다.
첫 번째에 해당하는 개념은, 2023년 구글 리서치의 연구자들이 MatFormer를 발표했을 때 소개되었는데요.
MatFormer의 Netsted Structure. 그림 중간에 ‘마트료시카 구조’가 보임. Image Credit: 오리지널 논문
이 모델에서는, 각각의 트랜스포머 블록이 그 안에 중첩된 서브 블록으로 설계되어 있는데, 여기서 더 작은 하위 모델들이 더 큰 모델 안에 포함되어 있습니다 - 마트료시카 인형의 층처럼요. 이런 구조로, 모델이 별도의 훈련이 없어도 단일한 범용 모델에서 다양한 크기의 하위 모델을 필요에 따라 다이나믹하게 뽑아내서 활용할 수 있으니, 어떤 모달리티든, 어떤 작업이든 유연하게 스케일링을 할 수도 있고 추론도 탄력적으로 할 수가 있게 되는 겁니다. 이 방법을 마트료시카 표현 학습 (Matryoshka Representation Learning)이라고 부릅니다.
그런데, 우리 모두 알다시피, 최근 트랜스포머 아키텍처는 점점 더 많은 비판을 맞닥뜨리고 있죠. 예를 들어, AI21의 CEO인 Ori Goshen은 트랜스포머의 아성에 의문을 던집니다 - 트랜스포머 모델에 의존하는 에이전트들은, 그 효율성과 비용 측면에서 성공하기 힘들다고 주장하면서, (당연하게도) Mamba를 기반으로 한 AI21의 Jamba 아키텍처가 더 빠르고, 더 믿을 수 있고, 더 나은 메모리 효율을 보여주는 AI 에이전트의 기반이 될 수 있다고 이야기합니다. (Jamba를 비롯한 다양한 Mamba 아키텍처에 대한 소개는, 튜링 포스트 코리아의 ‘Mamba 아키텍처 관련 연구 15選’을 한 번 참조해 주세요)
글쎄요…Mamba 좋죠. 이전에 튜링 포스트의 기사에서 한 번 커버했듯이, Mamba는 그야말로 실제로 트랜스포머와 한 번 경쟁해 볼 만한 모델입니다.
그런데 말입니다. 이 Mamba에, 마트료시카를 결합해서 트랜스포머에 더 큰 타격을 줄 수 있다면 어떨까요?
최강 산왕 (트랜스포머)에 대항해서 힘을 합쳐 대결하는 북산 강백호 (맘바)와 서태웅 (마트료시카)
바로 워싱턴 대학의 연구자들, 그리고 Scaled Foundations - 로봇 인텔리전스를 연구하는 기관입니다 - 의 연구자들이 그런 생각을 했습니다…!
이 친구들이 10월 9일 발표한 ‘MatMamba’는 마트료시카 표현 학습을 Mamba2의 상태 공간 모델 (SSM; State Space Model)에 통합해서, 파라미터 전반에 걸쳐서 유연하고 중첩된 아키텍처를 만들었습니다. 이렇게 설계된 아키텍처는, 재훈련이 필요없이 하나의 큰 모델로부터 여러 개의 작은 모델을 추출할 수 있도록 해 주는데, 각각의 하위 모델은 중요한, 학습된 표현을 유지하면서 다양한 크기에서도 일관된 성능을 보장합니다.
앞서 언급된 MatFormer나 기본적인 트랜스포머와 비교해서는, MatMamba는 SSM을 백본으로 사용하고, 다양한 컴퓨팅 요구사항에 대해서 더 세분화해서 적응해 가면서 스케일링을 할 수 있기 때문에, 특히 긴 시퀀스에 대해서 추론을 빠르게 할 수 있습니다. 예를 들자면, 자원이 제한되어 있는 엣지 디바이스에서도, MatMamba는 재훈련을 하지 않고 다이나믹하게 더 작은 모델을 추출할 수 있어서, 가용 메모리나 컴퓨팅 파워에 맞춰서 추론 작업을 조정할 수 있습니다 - 바로 이런 게 트랜스포머의 경우 좀 경직된 아키텍처 때문에 어려움을 겪는 부분이죠.
MatMamba : Mamba2 + Nested Matryoshka. Image Credit: 오리지널 논문
클라우드 기반의 시스템에서도, 추론의 시나리오에서 컴퓨팅 자원의 변동성이 큰 경우에는, MatMamba가 가진 하위 모델 간의 유연한 전환 능력이 전체적인 시스템으로 하여금 효율적으로 실시간 스케일링을 가능하게 해 줍니다. 트랜스포머가 ‘범용 작업’의 세계를 집어삼켰다고 한다면, MatMamba는 실시간 비디오 분석이라든가 대규모의 이미지 검색 같이, ‘긴 컨텍스트가 주요 환경이고 배포나 운용을 탄력적으로 해야 하는 영역’에서는 트랜스포머를 충분히 능가할 수 있다고 봅니다.
물론 현실적으로 볼 때, MatMamba가 모든 상황에서 트랜스포머를 완전히 대체할 가능성은 낮다고 봐야겠죠 - 두 모델은, 각각 다른 성격의 작업에서 뛰어난 성능을 보이는 모델들입니다. 대신, 현재의 흐름으로 트랜스포머 일변도인 시장에서, 높은 효율성, 그리고 적응력있고 확장성있는 추론이 요구되는 어플리케이션에서라면, MatMamba가 차지할, 충분히 큰 틈새 시장이 있을 것으로 보입니다.
앞으로 다중 에이전트 생태계가 출현하고 확산된다면, 이보다 더 많은 트랜스포머의 대안을 만들고 활용하려는 시도가 더욱 주목받는 시기가 오게 되리라 생각합니다.
튜링 포스트 코리아의 구독자 300명 돌파 기념 ‘프리미엄 플랜 1년 구독 70% 할인’이 이틀 남았습니다!
튜링 포스트 코리아는 AI 기술 최신 동향과 트렌드, 관심가져볼 만한 AI 스타트업 및 창업자 스토리, AI 현장 전문가와의 인터뷰, 그리고 사회 경제적 임팩트 등에 대한 글을 주 2~3회 구독자 분들께 전해드리고 있습니다. 프리미엄 구독자가 되어 주시면, 튜링 포스트 코리아의 컨텐츠 제작에 큰 힘이 됩니다.
(위 링크 클릭하시면 나오는 ‘업그레이드’ 페이지에서 ‘프리미엄 구독’의 ‘Annually’ 옵션을 클릭하시면 됩니다.)
트위터 라이브러리 (Twitter Library) 🐦
오늘날 생성형 AI 모델의 ‘대장’이라고 할 수 있는 건, 단연 ‘트랜스포머’겠죠. 이런 트랜스포머도 완벽할 수는 없으니까, 많은 연구자들이 트랜스포머의 성능과 효율성을 높이기 위해 다양한 기법을 계속해서 새로 개발하고 있습니다.
트랜스포머의 효율성을 높여주기 위해서 고안된, 새로운 기법 10가지를 소개합니다:
*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!
금주의 주목할 만한 업계 동향 📰
노벨 물리학상과 화학상, AI 학계로!
딥러닝에 관련된 업적으로 자그마치 두 개의 노벨상 - 물리학상, 화학상 - 이 AI 학계/업계에 수여되었습니다!
물리학상은 AI의 시대를 연 신경망 연구의 선구자 두 분, 존 홉필드 (91세) 프린스턴대 교수, 제프리 힌튼 (77세) 토론토대 교수의 품에 안겼습니다! 존 홉필드 교수는 1982년 ‘홉필드 네트워크’로 사람의 뉴런에 착안해서 인공 신경망 (ANN; Artificial Neural Network) 연구의 초석을 놓은 분입니다. 제프리 힌튼 교수는 ‘딥 러닝’ 개념을 처음 고안한 분들 중 한 분으로, ‘인공 신경망’이라는 용어를 쓰면 정부 과제도 받기 힘들었던 때 연구를 계속하면서, RBM (Resricted Boltzmann Machine)으로 경사 소실 문제를, Dropout으로 과적합 문제를 해결하면서 인공 신경망의 가능성을 보여준 분입니다.
화학상은 그 ‘절반’ - 나머지 절반은 미국 시애틀대 교수인 데이비드 베이커 교수에게 - 이 구글 딥마인드 CEO 데미스 하사비스와 수석 과학자 존 점퍼에게 수여되었습니다. 단백질의 3차원 구조와 기능을 예측하는 AI, ‘알파폴드’를 개발한 공로를 인정받아 화학상을 받게 되었습니다.
본질적으로 AI 연구에 이런 상을 수상하는 것이 맞느냐 아니냐에 대해서는 여러가지 의견이 있을 수 있지만, ‘AI가 과학의 혁명, 산업의 혁명을 주도하는 시대가 도래하고 있다’는 신호임에는 분명해 보입니다.
어도비 (Adobe), 맥스 (MAX) 컨퍼런스에서 ‘파이어플라이 AI’ 공개!
어도비가 2024년 MAX 컨퍼런스에서 중요 업데이트를 발표하는 가운데, 상업적으로 사용할 수 있는 최초의 비디오 모델을 포함하고 있는 ‘파이어플라이 AI’를 공개했습니다. 가장 주목을 받은 건 ‘생성형 확장 (Generative Extend)’ 기능인데, 영상을 촬영하다가 마무리하지 못하거나 한 부족한 부분을 최대 2초간 자연스럽게 이어서 만들어주는 기능입니다.
프리미어 프로의 AI 도구라든가 100개 이상 추가된 Creative Cloud 기능 등, 어도비의 사용자 층에 어필하는 많은 새로운 내용이 발표되었고, ‘Project Concept’ 기반의 창의적인 협업, GenStudio 플랫폼을 활용한 마케팅 혁신 등도 기대됩니다. Firefly로 소비자가 개인화된 게토레이 병을 만들 수 있도록 하는 협업도 선보였네요.
AI를 개발하는 선도 스타트업이나 빅테크들이 소라 (Sora), 무비젠 (MovieGen) 등 동영상 생성 AI를 ‘맛보기용’으로만 보여주고 있는데요. 이미지와 동영상 편집 소프트웨어 업계의 리더인 어도비가 이번 발표를 통해서 창작자 시장을 끌고 나가는 선두가 될 수 있을지 기대됩니다.
오픈AI, 멀티 에이전트 프레임웍 ‘스웜 (Swarm)’ 공개
오픈AI가 다수의 에이전트를 더 효율적으로 조율하기 위해 활용할 수 있는 프레임웍 ‘스웜 (Swarm)’을 공개했습니다. 이 프레임웍은 다양한 ‘루틴 (Routine)’과 ‘인계 (Handoff)’ 메커니즘으로 이루어져 있는데요, 지금까지 그럴싸하게 보여줘 온 ‘데모’의 상태에서, 앞으로 ‘견고한 다중 에이전트 기반의 워크플로우’를 도입하기 위한 본격적인 진전을 의미한다고 볼 수 있겠습니다.
이 프로젝트가, 여러 AI 에이전트들을 마치 ‘벌떼처럼 협력하고 소통하면서 자율적으로 작업하지만 결국은 여왕벌을 돕는다는 것 같은 더 큰 목표를 달성하는 것을’ 도와주기 때문에 ‘Swarm’이라는 이름을 붙인 것으로 보입니다.
Swarm 같은 도구로, AI 에이전트들이 원활하게 커뮤니케이션하면서 사용자가 요구하는 구매, 환불, 작업 관리 등을 병목 현상 없이 처리할 수 있게 될 겁니다.
오픈AI는 ‘Swarm은 아직 실험적이고 예시적인 프레임웍이고, 실제 환경에서 사용하기 위한 것이 아니다. 공식적으로 지원하지도 않고 독립형 라이브러리가 아니라 주로 교육 목적으로만 사용하게 될 것이다’라고 입장을 밝혔습니다.
개인적으로는, ‘Swarm’이라는 이름을 듣자마자 Sakana AI가 떠올랐는데요. 조그만 물고기가 떼를 이뤄 주변 환경에서 개별적으로 학습한 걸 통합하고 적응해 나가는 방식의 모델을 만들고 싶다는 이야기를 했던 회사이니만큼, Sakana AI가 들고 나올 에이전트 프레임웍이 Swarm과 유사할지 어떨지 궁금해지네요.
대만 TSMC: AI 칩 업계의 챔피언
TSMC의 2024년 3분기 이익이 애플, 엔비디아 같은 대기업들의 AI 칩 수요 급증에 힘입어 40% 가량 급증할 전망입니다. 세계 파운드리 시장의 60% 이상을 점유하고 있는 TSMC는 전세계적으로 더욱 사업을 확장하고 있는데요 - 미국 공장에 650억 달러를 투자하고 있지만, 대부분 생산은 여전히 대만에서 이루어집니다.
올해 주가가 77% 올라간 TSMC는 여전히 AI 붐을 타고 승승장구하고 있네요.
앤쓰로픽 CEO의 ‘AI 신도들을 위한 은혜의 메시지’ ^.^
앤쓰로픽의 공동창업자이자 CEO, 다리오 아모데이 (Dario Amodei)가 ‘사랑의 기계들 (Machine of Loving Grace)’라는 글에서 AI가 사회를 더 나은 방향으로, 그것도 아주 빠르게 변화시킬 수 있는 잠재력에 대해 낙관적인 비전을 제시했습니다. 물론 다가올 위험도 인정하고, 그걸 해결할 필요성에 대해서도 이야기했구요. 여기서 흔히 이야기하는 ‘AGI’ 대신 ‘Powerful AI (강력한 AI)’라는 새로운 표현을 사용했어요.
이런 ‘미래를 바라보는’ 관점이 아니라도, 앤쓰로픽은 현재 생성형 AI를 도입하고 싶어하는 기업과 개인들에게 실용적인 기술과 서비스를 제공하는 회사죠: Message Batches API를 출시해서 대규모의 데이터셋을 다뤄야 하는 개발자들이 50% 적은 비용으로도 작업을 할 수 있도록 합니다. Claude 3.5 Sonnet, Opus, Haiku를 사용해서 최대 10,000개의 질의를 일괄로 24시간 내에 처리할 수 있다고 하는데요. 시간에 특히 민감하지 않아도 되는 작업이라면 이 API가 좋은 고려대상일 것 같습니다. Quora는 이미 이 API를 도입해서 잘 쓰고 있다고 합니다.
Gradio 5: 허깅페이스의 로켓 연료를 탑재한 웹 앱
허깅페이스가 더욱 세련된 디자인, 그리고 로켓같이 빠른 로딩을 위한 서버 사이드 렌더링, 실시간 스트리밍 기술로 자사의 머신러닝 웹 앱, Gradio 4를 Gradio 5로 업그레이드했습니다. 단지 몇 줄의 파이썬 코드만 가지고도 빠르게, 프로덕션 레벨의 앱을 만들 수 있게 해 줍니다. 브라우저에서 바로 앱을 만들 수 있는 AI 플레이그라운드도 제공하네요.
Gradio 5 - AI 플레이그라운드. Image Credit: 허깅페이스
Writer의 Palmyra X 004,
Writer는 ‘풀스택 생성형 AI 플랫폼’을 표방하면서 LLM, 지식 그래프, LLM 가드레일 등 다양한 제품을 개발하고, 금융, 메디칼 등의 산업에 필요한 생성형 AI 어플리케이션을 만드는 스타트업인데요. Writer가 기업에서 필요한 업무를 더 능숙하게 처리하도록 설계된 강력한 AI 모델, Palmyra X 004를 소개합니다. 도구 호출 기능도 갖춰서 앱 전반적으로 워크플로우를 자동화하고, 데이터를 가져온다든가 코드를 실행한다든가, 이메일을 보내는 등 다양한 기능을 ‘실행’할 수 있습니다. 이 LLM 모델은 다양한 성능 벤치마크에서 선두권을 달리면서, 오픈AI나 앤쓰로픽의 주요 모델을 능가하는 모습도 보여주고 있습니다.
Palmyra X 004의 Action Capability. Image Credit: Writer
Inflection AI, 최근에 상대적으로 조용한데, 뭘 하고 있을까요?
Inflection AI가 인텔 가우디® 3와 협력해서 고성능의 Inflection 3.0 모델을 기반으로 한 ‘Inflection for Enterprise’를 출시합니다. 단순한 챗봇 이상, 그 너머의 기능을 필요로 하는 기업을 위해서 설계되었는데, 데이터, 모델, 아키텍처에 대해서 완전하게 기업이 제어할 수 있도록 해 준다고 합니다. 온프레미스, 클라우드, 또는 하이브리드 환경 모두 지원합니다.
튜링 포스트 팀이 보고 있는 다른 뉴스레터와 글, 영상들
AI 영역이 투자자 Nathan Benaich와 Air Street Capital에서 몇 년전부터 만들어서 공개하고 있는 State of AI Report 2024년판이 나왔습니다. 매년 AI 판의 주요 이벤트나 기술, 사업개발 현황 등을 공유하고 다음 해 예측을 하고 있는데요, 한 번 정리하는 차원에서 보시면 좋을 듯 합니다.
Image Credit: Nathan Benaich / Air Street Capital
영국의 Imperial College London에서 떨어져 나온 연구기관, Peri Labs에서 공개한 State of Edge AI 보고서입니다. 이것도 엄청나게 긴 보고서이긴 한데, 관련있으신 분들은 인덱스해서 참고해 보셔도 좋을 것 같아 공유합니다.
State of AI Report 같은 경우는, 한글로 잘 번역해서 공유하면 더 많은 분들께 도움이 될지도 모르겠다 생각이 들긴 하는데, 아직 엄두가 안 나네요 ^.^; 꼭 필요하다거나 의견이 있으시면 알려주세요!
새로 나온, 주목할 만한 연구 논문
금주의 Top Pick
Differential Transformer: 마이크로소프트 리서치와 칭화대가 공저한 이 논문은 ‘Differential Attention’ - 두 개의 소프트맥스 어텐션 맵의 차이로 계산합니다 - 을 통해서 더 관련성이 높은 정보를 뽑아내면서도 노이즈를 줄일 수 있게 해서, 트랜스포머 모델이 더 중요한 정보에 더 주의를 기울이도록 해 줍니다. 환각 현상도 줄일 수 있다고 하네요.
—> [논문 보기]
Differential Transformer, proposed by @MSFTResearch and @Tsinghua_Uni, helps the model to pay more attention to important info.
It uses differential attention to subtract one attention map from another, reducing noise and highlighting relevant parts.
Here's how it works:
— TuringPost (@TheTuringPost)
11:07 AM • Oct 11, 2024
살펴볼 만한 모델
TinyEmo: Scaling Down Emotional Reasoning via Metric Projection
– 감정을 표현하는 합성 데이터셋, 그리고 효율적으로 작업을 처리하는데 쓰는 Metric Projector를 활용하는 감정 분류용 소형 멀티모달 모델로, 감정과 관련한 작업에서 훨씬 더 큰 모델들보다도 뛰어난 성능을 보여줍니다. —> [논문 보기]Falcon Mamba: The First Competitive Attention-Free 7B Language Model
– 어텐션 메커니즘이 없이도 긴 문맥의 처리와 추론 속도에서 우수한 성능을 보여주는 7B 모델로, 다양한 벤치마크에서 더 큰 모델들을 능가하는 성능을 보여주네요. —> [논문 보기]Pixtral 12B – 이미지와 텍스트의 이해를 모두 잘 하는, 120억 파라미터의 멀티모달 모델로, 멀티모달 및 텍스트 전용 작업에서 최첨단의 성능을 보여주는데, 비슷하거나 더 큰 사이즈의 모델들을 능가합니다. —> [논문 보기]
Baichuan-Omni Technical Report – 텍스트, 이미지, 비디오, 오디오를 모두 처리하는 70억 개 파라미터 짜리 오픈소스 멀티모달 모델로, 여러 가지 모달리티에 걸쳐서 강력한 모습을 보여주는데, 특히 중국어 벤치마크에서 뛰어난 성능을 나타냅니다. —> [논문 보기]
ARIA: An Open Multimodal Native Mixture-of-Experts Model - 언어 및 멀티모달 벤치마크 모두에서 경쟁력 있는 성능을 보여주는 MoE 모델입니다. 긴 문맥의 처리 능력이 크게 향상되어, GPT-4와 같은 공개되지 않은 모델의 성능을 능가합니다. —> [논문 보기]
모델 아키텍처와 최적화
Retrieval-Augmented Decision Transformer: External Memory for In-Context RL은 외부 메모리를 강화 학습에 통합해서, 훈련에 사용할 ‘긴 에피소드’에 대한 의존도를 줄이면서도 ICL (In-Context Learning) 성능을 개선합니다. —> [논문 보기]
OPTIMA: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System은 통신의 복잡성과 토큰 사용량을 줄이면서 작업 성능은 높이는 거대 언어모델(LLM)의 사용법을 제시하여, 다중 에이전트 시스템의 성능을 향상시킵니다. —> [논문 보기]
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations는 공간 정보를 더 잘 포착하게 하고, 다양한 작업에서 비전 트랜스포머를 능가하도록 하기 위해서, ConvNet(합성곱 신경망)에 더 큰 합성곱 커널을 사용하는 방법을 제안합니다. —> [논문 보기]
TidalDecode: Fast and Accurate LLM Decoding with Position Persistent Sparse Attention은 희소 어텐션(sparse attention)을 사용해서 거대 언어모델(LLM)의 디코딩 효율성을 개선하고, 메모리 및 계산 비용을 줄입니다. —> [논문 보기]
MathCoder2: Better Math Reasoning from Continued Pretraining on Model-Translated Mathematical Code는 수학에 중점을 둔 데이터셋으로 사전 훈련을 해서 거대 언어모델(LLM)의 수학적 추론 능력을 향상시키고, 수학 관련 작업에서의 성능을 개선하는 모습을 보여줍니다. —> [논문 보기]
ϵ-VAE: Denoising as Visual Decoding은 반복적인 노이즈 제거 과정을 통해서 이미지 재구성, 생성 작업 모두를 개선하는, 새로운 Visual Autoencoder 기법을 제안합니다. —> [논문 보기]
ONLY-IF: Revealing the Decisive Effect of Instruction Diversity on Generalization은 다양한 유형의 지시 사항 (Instruction)이 거대 언어모델(LLM)을 새로운 작업에 대해서도 잘 일반화할 수 있도록 하는데 필수적인 요소라는 걸 보여주며, 다양한 데이터셋의 중요성을 강조합니다. —> [논문 보기]
Inference Scaling for Long-Context Retrieval Augmented Generation
은 추론의 파라미터를 조정, RAG를 최적화해서 Long-Context나 멀티 스텝 쿼리 시의 성능을 향상시켜 줍니다. —> [논문 보기]
AI 에이전트 및 에이전트 프레임웍
AGENT S: An Open Agentic Framework that Uses Computers Like a Human
은 그래픽 사용자 인터페이스(GUI)를 통한 사람과 컴퓨터의 상호작용을 모방, 메모리 기반 학습을 사용해 복잡한 다단계 작업을 자율적으로 수행합니다. —> [논문 보기]WALL-E: World Alignment by Rule Learning Improves World Model-Based LLM Agents는 규칙 기반 학습을 통해 거대 언어모델(LLM)을 환경의 변화와 정렬시켜서, 실제 세계 작업에서의 의사결정을 개선하고 오류를 줄입니다. —> [논문 보기]
Emergent Properties with Repeated Examples
는 반복된 훈련 예제를 제공해서 모델 성능을 크게 향상시킬 수 있다는 걸 보여주는데, 특히 작은 데이터셋을 가진 작업에서 효과적이라는 것을 입증합니다. —> [논문 보기]
AI의 학습, 안전 및 정렬 (Alignment)
DATA ADVISOR: Dynamic Data Curation for Safety Alignment of Large Language Models는 적절히 다루어지지 않았던 안전 관련한 문제들에 대해서 데이터 생성 과정을 동적으로 개선, 거대 언어모델(LLM)의 안전성을 향상시킵니다. —> [논문 보기]
Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning은 몬테카를로 트리 서치 기법으로 단계별 훈련 과정을 개선함으로써, 거대 언어모델(LLM)이 추론 작업을 더 잘 하도록 스스로 개선할 수 있도록 합니다. —> [논문 보기]
Self-Boosting Large Language Models with Synthetic Preference Data
는 거대 언어모델(LLM)이 더 나은 작업 성능을 달성하기 위해 합성으로 선호도 데이터를 생성, 스스로를 개선할 수 있게 합니다. —> [논문 보기]Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders는 거대 언어모델(LLM)이 의도치 않게 악성 코드를 추천할 수 있는 취약점을 탐구하며, 안전장치를 개선할 필요가 있음을 강조합니다. —> [논문 보기]
멀티모달 및 멀티태스킹 능력
Everything Everywhere All At Once: LLMs Can In-Context Learn Multiple Tasks in Superposition은 거대 언어모델(LLM)이 한 번의 추론 과정에서 여러 개의 서로 다른 작업을 동시에 수행할 수 있음을 보여주는데, AI의 기능과 효용에 큰 시사점이 있는 ‘Task Superposition’ 능력에 대해 살펴볼 수 있는 기회를 제공합니다. 오스카 상을 수상한 영화 제목을 차용한 것도 재미있네요. ^.^ —> [논문 보기]
Token-Level Detective Reward Model for Large Vision Language Models는 멀티모달 모델을 대상으로 토큰 수준에서 - 즉 가장 작은 수준에서 - 세밀한 피드백을 제공하는 보상 모델을 소개합니다. 이 기법는 모델의 오류를 진단하거나 수정을 할 때 효과적입니다. —> [논문 보기]
Personalized Visual Instruction Tuning은 이미지에서 특정 개인을 인식하도록 모델을 훈련시켜서 거대 언어모델(LLM)이 더 개인화된 대화를 할 수 있도록 해 줍니다. —> [논문 보기]
새로운 AI의 기능 및 창의성
Diversity-Rewarded CFG Distillation은 ‘Classifier-Free Guidance’를 모델 가중치로 ‘Distillation’해서, 생성형 모델의 창의성을 더욱 촉진합니다. 이렇게 하면 출력값의 다양성을 높게 유지하면서도 계산 비용을 줄일 수 있습니다. —> [논문 보기]
SUPERCORRECT: Supervising and Correcting Language Models with Error-Driven Insights는 더 큰 모델로부터의 계층적 지도 (Hierarchical Guidance) 기법을 활용하고 오류를 더 잘 수정할 수 있도록 해서, 더 작은 LLM의 추론 능력을 향상시킬 수 있게 해 줍니다. —> [논문 보기]
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations는 거대 언어모델(LLM)이 내부적으로 ‘진실성에 대한 정보 (Truthfulness Information)’를 어떻게 인코딩하는지, 그리고 이 데이터를 활용해서 어떻게 환각 현상 (hallucination)을 줄일 수 있는지 탐구합니다. —> [논문 보기]
특수한 AI 시스템이나 Task-Specific한 AI 성능 제고
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching은 Non-Autoregressive 접근 방법으로 고품질의 Zero-shot 음성 생성과 코드 스위칭을 달성하는 TTS 모델을 소개합니다. —> [논문 보기]
Erasing Conceptual Knowledge from Language Models는 거대 언어모델(LLM)에서 전반적인 유창함 (Fluency)와 다른 작업에서의 정확성 (Accuracy)을 유지하면서 특정한 개념적 지식을 선택적으로 지우는 프레임워크를 제안합니다. —> [논문 보기]
STUFFED MAMBA: State Collapse and State Capacity of RNN-based Long-Context Modeling은 RNN 기반 모델이 Long-Context 모델링을 할 때의 어려운 점에 대해서 탐구하고, 이런 긴 시퀀스에서의 성능 저하를 완화하기 위한 해결책을 제안합니다. —> [논문 보기]
Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA는 ‘Q&A’ 작업에서 사람과 AI의 상호 보완적인 강점을 연구하며, 각각이 서로 다른 추론 작업에서 어떻게 뛰어난 성과를 보이는지 보여줍니다. —> [논문 보기]
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!
Reply