- Turing Post Korea
- Posts
- FOD#75: '스케일'을 넘어 - 다음 단계 AI의 돌파구, 'Metacognitive AI'
FOD#75: '스케일'을 넘어 - 다음 단계 AI의 돌파구, 'Metacognitive AI'
금주의 주요 소식, 업계 동향과 연구
‘사람같은’ AI를 갖게 된다는 것의 의미
‘메타인지 (Metacognition)’라는 말은 우리같은 일반인에게는 그리 익숙한 단어는 아닌 것 같습니다. 1970년대에 발달심리학자 존 플라벨 (John H. Flavell)이 만든 용어로, ‘자신의 생각에 대해서 판단하는 능력’을 뜻한다고 해요. 말하는 사람에 따라서 ‘상위인지’, ‘초인지’라는 용어를 쓰기도 하는데, 자신의 생각이라든가 지식에 대해서 곧이곧대로 받아들이지 않고 자체적인 검증을 거치는 걸 말합니다.
지금 한참 AI 업계 한 편으로는 오픈AI의 확장성 (Scaling) 이슈나 최신 GPT 모델의 성능 저하를 두고 다양한 이야기들이 나오고 있고, 다른 한 편으로는 샘 알트만이 ‘AGI가 임박해 있고 2025년이면 실현될 수도 있다’는 주장까지 하고 있는 상황인데요. 지난 주에 발표된 ‘AI 메타인지’, ‘AI 복지’에 대한 논문들은 ‘AI를 개발한다’는 것이 단순히 속도라든가 성능에 관한 것이 아니라 ‘신중하고 균형잡힌 접근’이 중요하다는 걸 다시 한 번 상기시켜주고 있습니다.
‘The Centrality of AI Metacognition (AI 메타인지의 중심성)’ 논문 - 곁가지지만, 이 논문의 저자들은 요슈아 벤지오 교수를 포함해서 대단한 분들이네요 ^.^; - 을 보면, 저자들은 지금 전개되고 있는 AI 개발의 핵심적인 결함, 문제를 지적하고 있어요: 그건 바로, AI 시스템들이 특정 작업에서는 계속해서 성능이 좋아지고 있지만, 스스로의 한계를 인식하고 그에 따라서 적응하는 능력은 부족하다는 겁니다. 이런 ‘자기 모니터링’, 즉 ‘메타인지’ 능력이 바로 사람이 미지의 영역에 접근하고 있는지 또는 재검토를 해 봐야 하는 가정을 하고 있지는 않은지 등을 평가하도록 해 주는 능력인데요. AI에게도 이런 비슷한 능력이 있다면, 새로운 -학습하지 않은 - 상황에 닥쳤을 때 그저 예상되는 오류를 내 버리지 않고 어떻게든 안정적으로 처리할 수 있게 될 겁니다.
‘현명한’ 사람들에게서 찾아볼 수 있는 메타인지 프로세스. Image Credit: 오리지널 논문
그런 의미에서, ‘AI에서의 메타인지는 일종의 안전장치’라고 할 수도 있겠습니다. AI가 맥락이 충분하지 않은 상황이라든가 문제 해결을 위한 접근 방식을 조정해야 할 때가 언제인지라든가, 이런 걸 이해할 수 있다면, ‘예측하기 힘든 상황에서 AI는 더 신뢰할 수 있는 도구’가 되지 않을까요? AI에 이런 능력을 부여하는 것이, 특정한 작업 - 그게 코딩이든, 수학 문제풀이든 말이죠 - 에서 정말 최고 수준의 성능을 달성하는 것보다 덜 섹시하고 급해 보이지 않을 수는 있을 거예요.그렇지만, 더 탄력적이고, 유연하고, 적응력이 높은 시스템이 가져다 줄 장기적인 이점은 절대 무시해서는 안 됩니다 - ‘메타인지 AI (Metacognitive AI)’는, 차세대 AI를 위한 중요한 연구 방향 중 하나라고 생각합니다.
자, 그런 한 편, ‘Taking AI Welfare Seriously’ 논문의 저자들은 좀 다른 각도에서, 더 폭넓은 질문을 던지고 있습니다: 아직은 다소 일러 보이지만,
‘AI 자체의 복지’까지도 고려해야 하는 시점이 올 건지, 온다면 뭘 어떻게 준비해야 할 건지에 대한 거예요. 물론 아주 가까운 미래에 ‘AI를 보호해야 할 것이다’라는 주장을 하는 건 아니지만, AI 시스템이 점점 ‘자율적’ - 진짜 자율적이요 - 으로 발전하게 된다면, 결국은 ‘AI가 어떻게 대우받고 여러 현장에 배치, 사용되는지’와 관련된 윤리적인 질문에 맞닥뜨리게 될 수도 있을 것 같기는 합니다.
웨스트월드 시즌 2의 한 장면. Image Credit: The New York Times
이 분들의 관점에 100% 동의하기는 어렵지만 - 섣부른 AI의 의인화는 그 자체로 잘못된 접근 방식일 가능성이 클 뿐 아니라, 여러 가지 부작용을 가져올 수 있다고 개인적으로는 생각합니다 - , 저자들은 지금부터 기본적인 윤리 지침을 수립하는게 이후에 맞닥뜨릴 수 있는 딜레마를 방지할 수 있다면서, 선제적인 연구와 사회적인 논의가 필요하다고 제안하고 있습니다.
위에서 말씀드린 두 개의 논문은, 저마다의 방식으로 ‘AI를 개발한다는 게 단순히 더 빠르거나 더 똑똑한 시스템을 만든다’는 게 아니라, 우리가 사는 세상에서 ‘책임감있게 작동할 수 있는’, 그리고 ‘우리와 사려깊은 상호작용을 할 수 있는’ 시스템을 만드는 거라는 관점을 제시해 줍니다.
물론, ‘메타인지’, 그리고 ‘윤리적인 인식과 준비’가 가장 시급한 우선순위가 아닐 수는 있겠죠. 그렇지만, 단순히 ‘유능한 AI’를 만들겠다는 접근이 가져올 지도 모르는 수많은 부정적 영향을 잘 정리해 가면서 차근차근, 신중하게 AI를 발전시켜 나갈 수 있는 하나의 거울이 될 수는 있지 않을까요?
물론 이 작업도 그렇게 직관적인 작업은 아닐 겁니다. 우리 사람에게 ‘메타’인 것과 기계에게 ‘메타’인 것이 같을까요? 어쩌면, 기계에게 메타가 무엇인지 찾아갈면, 사람 중심의 사고방식을 버리고 지능을 이해하고자 하는 새로운 방식을 탐구해야 할지도 몰라요. 아마, 인간의 특성과는 다르게, 기계에 고유하게 적합한 자기 평가 형태가 무엇일지 탐구할 필요는 있을 겁니다. 점점 우리가 고도화된 AGI가 가까이 있다는 주장에 부합하는 실체를 만나게 된다면, 어쩌면 그건 AI 시스템이 사람과 무관하게 학습하고, 상호작용하고, 진화하는 방식을 만들어나가는 새로운 형태의 ‘성찰하는 기계 (Machine Introspection)’일지도 모르겠네요.
트위터 라이브러리 (Twitter Library) 🐦
현재 AI 기술 분야 전체를 통틀어서 가장 큰 주목을 받고 있는 모델이라고 하면, 단연 트랜스포머(Transformer) 구조겠지만, 몇몇 특정 분야에서는 트랜스포머보다 오히려 더 뛰어난 성능을 보이는 다른 AI 모델들이 있다는 것도 잊지 말아야 할 겁니다.
오늘은 그런 AI 모델들 중에서도, 기존의 LSTM을 발전시켜서 텍스트나 시계열 데이터와 같은 순차적인 정보를 처리하고 예측하는 데 특히 장점을 보이는 xLSTM (Extended Long Short-Term Memory) 모델 10가지를 소개할까 합니다:
*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!
AI 업계 전문가들이 관심있어하는 제품/서비스 👍🏼
GPT-4o로 작동하는 청소 로봇 – UC 버클리와 ETH Zurich의 Jannik Grothusen, Kaspar Janssen이 GPT-4o를 가지고 대략 100개의 데모를 가지고 4일동안 훈련시켜서 물, 커피, 잉크 등이 쏟아졌을 때 테이블을 청소해주는 로봇을 만들어서 공개했습니다. 로봇팔은 The Robot Studio의 SO-100인데, 한 대에 $120 정도라고 하네요. 작동하는 모습을 보면, 그렇게 세련되거나 고급지지는 않지만, 이걸 이 방법이 아니라 전통적인 코딩으로 한다면 과연 가능할까 싶습니다. Use Case를 잘 찾는다면, Disruptive Innovation이 일어날 수 있는 분야도 있지 않을까요?
We built a GPT-4o-powered cleaning robot.
- $250 for the robot arms
- 4 days to buildOpen source is truly democratizing the field of robotics.
@KasparJanssen— Jannik Grothusen (@JannikGrothusen)
7:10 PM • Nov 2, 2024
금주의 주목할 만한 업계 동향 📰
마이크로소프트, 멀티 에이전트 프레임웍 ‘마젠틱-원 (Magentic-One)’ 공개
마이크로소프트가 ‘여러 단계가 필요한 작업’을 다수의 에이전트 팀을 활용해서 통제하면서 처리하도록 하는 다중 에이전트 프레임웍 ‘마젠틱-원’을 공개했습니다. 마젠틱-원은 복잡한 웹 작업 (WebSurfer), 파일 작업 (FileSurfer) 등을 포함하는 다단계의 작업을 안전을 최우선으로 하면서 처리한다고 하네요. —> [깃허브 바로가기]
마젠틱-원 아키텍처. Image Credit: 마이크로소프트
오픈AI 소식 몇 가지
AI 모델 성능의 발전 속도가 점차 늦어지는 가운데 오픈AI는 Orion의 트레이닝을 합성 데이터로 하는 방식으로 전환했다고 합니다. 업계에서 전반적으로 AGI를 향한 목표가 다소 느린 속도로 - 정말 된다면요 - 진행될 것으로 보이네요. —> [The Information 뉴스]
한편, 샘 알트만은 ‘AGI에 2025년에 도달할 수 있을 것이다’라고 했습니다. 글쎄요…. 어떻게 생각하시나요? —> [유튜브에서 보기]
오픈AI 입장에서 좋은 소식 하나. 저작권 남용과 관련한 소송 주장이 기각되었습니다. 이 사례는 물론 수많은 사례 중의 하나일 뿐이지만, 어쨌든 생성형 AI의 저작권 관련 법적 분쟁에 있어서 중요한 사례이고, 향후 유사한 분쟁에 대해서 선례가 될 수 있겠습니다. —> [로이터 뉴스]
GPT-4o, GPT-4-o-mini에서 텍스트 출력의 지연 시간을 줄여주는 ‘Predicted Outputs (예측 출력)’ 기능을 공개했습니다. 동일한 내용을 다시 출력하는 경우라든가 약간의 수정만 하면 되는 경우 등일 때 참조 문자율을 제공해서 속도를 2~4배 정도 빠르게 해 준다고 하네요. —> [오픈AI 블로그]
Introducing Predicted Outputs—dramatically decrease latency for gpt-4o and gpt-4o-mini by providing a reference string. platform.openai.com/docs/guides/la…
Speed up:
- Updating a blog post in a doc
- Iterating on prior responses
- Rewriting code in an existing file, like @exponent_run here:— OpenAI Developers (@OpenAIDevs)
10:27 PM • Nov 4, 2024
마이크로소프트와 오픈AI 협업, ‘파인튜닝 vs. 프롬프팅’
파인튜닝이냐, 프롬프팅이냐는 항상 논쟁이 많은 주제죠. 마이크로소프트의 Medprompt를 오픈AI의 GPT-4o 및 o1-preview와 함께 테스트한 결과, COT 추론 등의 방법을 종합적으로 적용한 경우 o1-preview에서는 SOTA 성능을, GPT-4o에서는 가성비를 최대로 할 수 있는 진단 정확도를 달성할 수 있었다고 하네요.
—> [논문 보기]
구글 제미니, 오픈AI 라이브러리에서도 접근 가능
최신 제미니 모델을 오픈AI 라이브러리와 REST API를 이용해서 손쉽게 접근할 수 있게 되었습니다. 블로그에서 파이썬, 자바스크립트, REST 코드 등을 활용한 예제를 제공하고 있습니다. —> [블로그 보기]
Image Credit: 구글
엔비디아, NeMo Curator + Cosmoss Tokenizer로 플랫폼 경쟁력 강화
엔비디아는 NeMo Curator와 Cosmos Tokenizer를 통해서 NeMo를 확장, 비디오, 이미지, 텍스트 분야에서의 생성형 AI 개발 지원을 한층 강화할 계획입니다. 더 빠른 데이터 처리와 고품질의 토크나이징을 통해서 로보틱스라든가 자동차 산업 같은 분야에서 효율적으로 고품질의 시각적 결과물을 얻을 수 있다고 하네요. Cosmos Tokenizer의 12배 빠른 속도는 업계의 새로운 기준을 세운 것이라고 해도 과언이 아니겠습니다. —> [블로그 보기]
Defense Llama: 스케일AI ‘국가 안보’용 특화 모델
스케일AI의 'Defense Llama'는 안전성이 강화된 Llama 3의 변형 모델인데, 미국의 국방 작전을 지원하며 고도의 보안이 요구되는 환경에서 임무 계획 수립과 정보 분석 능력을 제공한다고 합니다. —> [블로그 보기]
Defense Llama: 스케일AI ‘국가 안보’용 특화 모델
미스트랄AI가 Ministral 8B 모델을 기반으로 해서 11개 언어로 유해한 컨텐츠를 감지하는 Moderation API 서비스를 출시했습니다. 9가지 종류의 유해 컨텐츠 카테고리를 다루게 되어 있고, 단순한 개별 텍스트 분석 뿐 아니라 대화 맥락을 이해하도록 모델을 훈련했다고 하네요. —> [블로그 보기]
Image Credit: 미스트랄AI
새로 나온, 주목할 만한 연구 논문
금주의 Top Pick
Mixture-of-Transformers (MoT): A Sparse and Scalable Architecture for Multi-Modal Foundation Models proposed by researchers from Meta and Stanford —> [논문 보기]
MoT(Mixture of Transformer) 아키텍처가 중요한 이유는 대규모의 멀티모달 모델 학습에 수반되는 높은 컴퓨팅 비용과 비효율성 문제를 해결해 줄 수 있기 때문입니다. 기존의 Dense Model은 텍스트, 이미지, 음성과 같은 여러 데이터 유형을 통합적으로 처리하는데, 이는 상당한 자원을 필요로 할 뿐 아니라 확장성을 제한하며 학습을 복잡하게 만듭니다. MoT의 접근 방식은 각 모달리티에 관련된 모델 구성 요소만을 활성화하는 방식으로 Sparsity를 도입해서, 모델의 성능은 유지하면서도 FLOPs와 컴퓨팅 부하를 줄입니다.Agent K v1.0: Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level introduced by researchers from Huawei Noah’s Ark and UCL —> [논문 보기]
Agent K v1.0은 경험을 통해 학습하면서 전체 데이터 사이언스 생명주기를 관리하는 자율적인 데이터 사이언스 에이전트입니다. Agent K v1.0이 중요한 이유는 복잡한 데이터 사이언스 작업을 자동화하고 캐글에서 전문가 수준의 성능을 달성해서, LLM이 일반적으로 숙련된 인간 데이터 사이언티스트를 필요로 하는 작업 흐름을 자율적으로 처리할 수 있다는 것을 보여주기 때문입니다. 이러한 확장성은 생산성을 향상시키고, AI가 경험을 통해 학습하고 적응하며 개선될 수 있는 잠재력을 보여주면서 높은 수준의 문제 해결에서 어떻게 AI를 활용하는지에 대한 기준점이 될 것으로 보입니다.Decoding Dark Matter: Specialized Sparse Autoencoders (SSAEs) for Interpreting Rare Concepts in Foundation Models introduced by researchers from Carnegie Mellon —> [논문 보기]
이 연구는 일반적으로 간과하기 쉬운 희귀하고 도메인에 특화된 특성들을 포착해서 기초 모델(Foundation Models, FMs)을 해석하는 능력을 향상시킨다는 점에서 중요한 의미를 가집니다. 이러한 "Dark Matter" 개념들은 특히 AI 안전성과 공정성에 있어 중요한데, 보통은 발견하지 못하는 미묘한 편향이나 의도하지 않은 행동들을 포착할 수 있기 때문입니다. SSAE (Sparse Shallow AutoEncoder)는 이러한 특성들을 분리하고 제어하는 데 도움을 주며, 이는 더 공정한 모델 개발, 의료와 같은 특정 분야에서의 더 안전한 사용, 그리고 기초 모델이 작동하는 방식에 대한 더 명확한 이해에 기여할 수 있습니다.Artificial Intelligence, Scientific Discovery, and Product Innovation by Aidan Toner-Rodgers —> [논문 보기]
이 논문에 따르면, AI의 도움을 받은 과학자들은 44% 더 많은 물질을 발견했고, 이는 특허 출원의 39% 증가와 후속 제품 혁신의 17% 상승으로 이어졌습니다. 이러한 발견들은 또한 새로운 화합물과 획기적인 혁신으로 이어졌으며, 특히 수준이 높은 과학자들 사이에서 큰 효과를 보여 그들의 생산성이 거의 두 배로 증가했습니다. 그러나 상대적으로 능력이 낮은 연구자들은 많은 혜택을 보지 못했고, 이로 인해 생산성 격차가 더욱 벌어진 것으로 나타나고 있습니다.
1/10 Today we're launching FrontierMath, a benchmark for evaluating advanced mathematical reasoning in AI. We collaborated with 60+ leading mathematicians to create hundreds of original, exceptionally challenging math problems, of which current AI systems solve less than 2%.
— Epoch AI (@EpochAIResearch)
9:05 PM • Nov 8, 2024
언어모델 Alignment (정렬) 및 최적화
The Semantic Hub Hypothesis는 LLM에서 언어와 데이터 유형 전반에 걸쳐서 통합적으로 의미를 처리하는 허브 (Semantic Hub)를 제안하는데, 이 접근 방법이 다목적성을 향상시키기는 하지만 잠재적인 편향이 들어가 내재될 수도 있다고 합니다. —> [논문 보기]
Self-Consistency Preference Optimization은 레이블 데이터를 쓰지 않고 단순히 응답의 일관성을 기반으로 선호도를 결정, Zero-shot 정확도를 향상시키고 추론 능력을 개선합니다. —> [논문 보기]
SALSA: Soup-Based Alignment Learning은 평균화된 가중치들의 "모델 수프(model soup)" 방식을 통해 강화학습에서 모델의 안정성을 향상시킵니다. —> [논문 보기]
효율적인 모델 압축 및 Quantization
Give Me BF16 Or Give Me Death? 는 효율적인 모델 배포를 위해서 정확도와 비용의 균형을 맞추는 Quantization 포맷을 분석해 봅니다. —> [논문 보기]
BitNet a4.8: 4-Bit Activations For 1-Bit LLMs는 4비트 활성화(Activation)를 사용해서 파라미터 요구사항을 줄이고, 빠르게 대규모의 배포를 할 수 있도록 해 줍니다.
—> [논문 보기]SPARSING LAW는 LLM에서의 뉴런 희소성(Neuron Sparsity)을 연구, 활성화를 줄이기 위한 효율적인 패턴을 식별합니다. —> [논문 보기]
멀티모달 프로세싱 및 시각-언어 모델
Inference Optimal VLMs Need Only One Visual Token에서는 더 적은 수의 시각적 토큰을 사용하되 더 큰 모델 크기를 활용하는 것이 시각-언어 모델(VLM)의 효율성을 향상시킬 수 있다는 걸 보여줍니다. —> [논문 보기]
A Systematic Analysis Of Multimodal LLM Data Contamination은 멀티모달 모델에서 데이터 오염을 감지, 깨끗한 데이터셋의 필요성을 강조해 줍니다. —> [논문 보기]
LLM2CLIP: Language Models Unlock Richer Visual Representation은 LLM을 통합해서 멀티모달 학습을 강화함으로써 교차 언어 검색(Cross-Lingual Retrieval) 성능을 개선합니다. —> [논문 보기]
적응형 및 동적 액션 모델
WEBRL: Training LLM Web Agents는 에이전트 학습을 통해 진화하는 커리큘럼으로 웹 에이전트를 훈련시켜, 에이전트의 작업 성공률을 향상시킵니다. —> [논문 보기]
DynaSaur: Large Language Agents Beyond Predefined Actions는 Python 기반의 Adaptability로 에이전트가 즉석에서 행동을 생성할 수 있게 해서, 예상하지 못한 작업들을 처리할 수 있게 합니다. —> [논문 보기]
THANOS: Skill-Of-Mind-Infused Agents는 대화형 에이전트에 사회적 기술을 강화하여 응답의 정확성과 공감 능력을 향상시킵니다. —> [논문 보기]
데이터 효율성 및 검색-최적화
DELIFT: Data Efficient Language Model Instruction Fine-Tuning은 가장 유익한 데이터를 선별하여 파인튜닝을 최적화함으로써, 필요한 데이터셋의 크기를 크게 줄여줍니다. —> [논문 보기]
HtmlRAG: HTML Is Better Than Plain Text는 RAG(Retrieval-Augmented Generation) 시스템에서 HTML 구조를 보존함으로써 검색 품질을 향상시킵니다.
—> [논문 보기]M3DOCRAG: Multi-Modal Retrieval For Document Understanding은 시각적 데이터를 포함한 다수의 페이지와 문서에 대한 QA 작업을 처리하기 위한 멀티모달 RAG 프레임웍을 도입합니다. —> [논문 보기]
트랜스포머 개선 및 아키텍처 최적화
Polynomial Composition Activations는 다항식 활성화(Polynomial Activation) 함수를 사용해서 모델의 표현력을 향상시키고, 파라미터 효율성을 최적화합니다. —> [논문 보기]
Hunyuan-Large: An Open-Source MoE Model은 언어, 수학, 코딩 작업 전반에서 뛰어난 성능을 보이는 대규모 MoE(Mixture of Experts) 모델을 제시합니다. —> [논문 보기]
Balancing Pipeline Parallelism With Vocabulary Parallelism은 어휘 층(Vocabulary Layers) 전반에 걸쳐 메모리를 균형 있게 분배함으로써 트랜스포머 학습의 효율성을 향상시킵니다. —> [논문 보기]
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!
Reply