🌁FOD#126: 그 이름도 근사한, Kosmos AI?

금주 이야기할 두 가지 토픽 - 첫번째, Kosmos AI

이번 주는 두 가지 이야기를 여러분과 나누려고 합니다

먼저, Kosmos AI 이야기부터 해볼까요.

많은 연구자들과 개발자 커뮤니티에서 Edison Scientific이 여러 곳의 저명한 연구소와 협력해서 만든 새로운 ‘AI Scientist’, Kosmos AI에 대해 이야기를 나누고 있습니다.

Edison Scientific은 FutureHouse에서 분사한 회사입니다. FutureHouse는 샌프란시스코에 본사를 둔 비영리 연구소로, AI를 활용해서 과학 연구(특히 생물학·화학 분야)를 자동화하려는 ‘AI Scientist’ 프로젝트를 추진해 왔고, 최근에는 이 연구 성과를 상업화하기 위해 Edison Scientific이라는 별도 회사를 분사시켰습니다.

Edision Scientific은 Kosmos AI를 ‘자율 발견(Autonomous Discovery) 시스템’으로 설계했다고 하는데요, 첫 번째 단계에서만도 신경과학, 재료과학, 임상유전학 등 세 분야에서 일곱 가지 연구 성과를 냈습니다. 그 중의 세 가지는 (인간) 연구자들이 아직 발표하지 않은 결과를 재현했고, 나머지 네 가지는 현재 학계 파트너들과 함께 검증 중인, 완전히 새로운 발견이라고 해요.

놀라운 점은, 이 AI Scientist가 만들어 낸 결과의 약 79%가 재현 가능하다는 겁니다 - 이건 사람이 연구할 때의 초기 단계 결과와 거의 같은 수준의 신뢰도예요. 게다가 Kosmos가 만든 모든 발견의 결과물이 어떤 코드와 논문에서 도출된 것인지 정확히 추적할 수 있습니다. AI가 생성해 낸 연구를 이렇게 투명하게 추적할 수 있다는 것, 아주 드문 경우예요.

그런데 제가 가장 흥미롭게 생각한 건 따로 있습니다: 바로, 이 시스템이 과학자만이 아니라 누구나 쓸 수 있다는 점이에요.

예를 들어서, 건강과 관련된 조언을 얻고 싶을 때 말이죠. 조금 개인적인 이야기지만, 제가 지금 다이어트를 위한 약을 먹고 식이요법도 하고 있거든요. 처음 하는 건 아니고, 평소엔 ChatGPT를 참고하곤 하는데, 답변이 매일 조금씩 달라집니다.

물론 주제를 잘 알고 있다면 그 차이를 빠르게 읽어낼 수 있겠지만, 건강처럼 중요한 문제에서는 ‘일관되고 검증 가능한 답’이 필요하잖아요. 단순히 한 모델의 답이 아니라, “연구계 전체가 이 주제에 대해 어떻게 이야기하고 있는가”를 보여주고, 그 출처를 직접 확인할 수 있는 시스템이 필요합니다.

Kosmos는 바로 그 지점을 겨냥했습니다. 모델은 크레딧 기반으로 운영되는데, 무료 사용자는 10크레딧을 받습니다. 특정한 분야의 전문 에이전트와 대화할 때마다 1크레딧이 차감되고, 후속 질문도 마찬가지로 1크레딧이 듭니다.

유료 구독을 해야 하는 건 딱 하나, Kosmos 그 자체를 사용해야 할 때 뿐입니다. 월간 약 200달러 정도로, 이건 실제 연구용으로 쓰이는 버전이입니다. 예를 들어서, ‘노화 과정에서 내후엽피질(Entorhinal Cortex)이 취약해지는 메커니즘’이라든가 ‘저체온 상태에서 뇌에서 가장 크게 변화하는 대사 경로로서의 뉴클레오타이드 대사(Nucleotide Metabolism)’ 같은 주제를 다룰 때 사용되는 겁니다. 즉, 이 에이전트는 진짜로 과학을 할 수 있는 AI입니다.

솔직히, 아직도 “AI는 항상 틀린다”, “AI가 내 일을 빼앗는다” 같은 이유로 AI를 강하게 부정하는 연구자들을 보면 조금 안타깝습니다. 이런 도구들은 인간 과학자의 연구 속도를 상상할 수 없을 정도로 가속화합니다. 정말로, 그냥 잡고 써 보시면 좋겠습니다. 아마 새로운 돌파구를 여는 데 큰 도움이 될 겁니다.

이제, AI를 거부하는 건 마치 “현미경 따위는 필요 없다”고 하면서 할머니의 돋보기로 분자를 보겠다는 것과 다를 바가, 크게는, 없는 것 같습니다.

AI가 ‘지식’이 아니라 ‘발견’을 만들어 내는 시대 — Kosmos는 그 첫 번째의 실험일지도 모르겠습니다.

Kosmos에 대해 더 잘 알고 싶으신 분은 테크니컬 리포트를 한 번 읽어보세요.

금주 이야기할 두 가지 토픽 - 두번째, 페이페이 리(Fei-Fei Li)

자, 두 번째 토픽은 페이페이 리(Fei-Fei Li) 교수 이야깁니다.

유명한 분이죠, 페이페이 리 교수가 며칠 전에 새 블로그를 시작했어요. 주제는 ‘공간 지능(Spatial Intelligence)’인데, 앞으로 가장 흥미로운, 그리고 관심을 두고 살펴볼 읽을거리 중 하나가 될 것 같습니다.

예전에 튜링포스트 코리아에서도 잠깐 ‘공간지능’에 대해서 ‘앞으로 알아두어야 할 AI 컨셉’ 중 하나로 언급했던 적이 있는데요, 그 연장선상에서 이어지는 이야기로 보면 되겠습니다.

페이페이가 쓴 내용을 간단히 요약해 보면, 공간 지능(Spatial Intelligence)은 세 가지 핵심 원리를 기반으로 구축된 월드 모델(World Model)에 의존합니다:

생성적(Generative)이어야 합니다 — 물리적으로 일관된 시뮬레이션 세계를 스스로 만들어낼 수 있어야 합니다.
멀티모달(Multimodal)이어야 합니다 — 이미지, 텍스트, 행동 등 다양한 입력을 이해하고 반응할 수 있어야 합니다.
상호작용적(Interactive)이어야 합니다 — 행동이나 목표에 따라 세상이 어떻게 변하는지를 예측할 수 있어야 합니다.

이 세 가지가 합쳐져야 비로소 진정한 공간 지능형 AI의 기반이 된다는 겁니다. 이 도전의 범위는 ‘지금까지 AI가 맞닥뜨린 어떤 과제보다도 더 크다’고 페이페이 리는 덧붙입니다.

페이페이 리처럼 깊이있는 사상가이자 실제로 무언가를 만들어가는 사람들이, AI의 다음 프런티어가 어디로 향하는지 대중과 함께 나누고 있다는 사실이 참 반갑습니다. 페이페이 리의 블로그 글을 여기에서 읽어보세요.

참고로, 오늘 연구논문 섹션에도 ‘공간 지능(Spatial Intelligence)’ 관련 새로운 논문들이 몇 편 올라왔습니다. 한 번 살펴보세요.

튜링 포스트 코리아는 독자들의 응원으로 만들어집니다. 가치있는 컨텐츠를 지속적으로 여러분과
공유할 수 있도록, 커피 한 잔으로 힘을 보태주세요 ☕

‘커피 한 잔’ ☕ 응원하기

트위터 라이브러리 (Twitter Library) 🐦

정밀도(Precision)는 AI에서 아주 중요한 요소죠. 모델의 정확도와 효율성을 결정하니까요. 정밀도가 바로 숫자를 얼마나 세밀하게 표현할지를 조절하고, 실제의 값을 근사(Approximation)하기 위해서 고정소수점(Fixed-Point)이나 부동소수점(Floating-Point) 형식을 사용하게 됩니다. 최근에는 BF16 → FP16으로 전환하는 연구가 진행되면서, 정밀도가 성능에 미치는 영향이 다시 주목받고 있습니다.

오늘은 아래 7가지의, AI에서 사용되는 중요한 ‘정밀도’ 형식인데, 훈련에는 고정밀도, 추론에는 저정밀도가 주로 사용된다고 생각하면 될 것 같네요:

AI 영역에서 사용하는 7가지 주요 정밀도 형식

turingpost.co.kr/p/7-precisiosn-formats-in-ai

튜링포스트 팀이 보고 있는 것들

Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs by Bo Bai

이 논문은 ‘정보의 기본 단위’를 비트가 아닌 토큰으로 다시 정의하면서 LLM의 작동을 정보이론 관점에서 재해석합니다. 토큰 단위의 의미 흐름을 모델링해서 사전학습·추론 단계의 효율성, 그리고 일반화의 한계를 설명하고, LLM을 ‘언어적 의미 엔진’으로 분석할 수 있는 이론적인 틀을 제시합니다.

We Built Social Media for Agents and They Won’t Stop Posting by Harper Reed

아주 흥미로운 글이예요. AI 에이전트들에게 일종의 ‘소셜미디어’를 제공했더니, 에이전트들이 서로의 생각을 공유·인용하면서 문제를 훨씬 빠르고 싸게 해결하는 현상을 발견했다고 합니다. 인간의 협업처럼 자발적 피드백 루프가 생겨나면서 LLM 호출 횟수와 비용이 크게 줄었다는 것이죠. 즉, 에이전트 간의 협업을 사회적 구조로 설계할 가능성을 보여줍니다.

Evaluating the Impact of AI on the Labor Market: Current State of Affairs by the Budget Lab

예일대의 보고서인데, AI가 노동시장에 미친 영향을 분석해 본 결과 현재까지는 뚜렷한 고용 변화나 대체 효과는 없다고 결론을 냅니다. AI 기술의 도입 속도는 과거 PC·인터넷 시기와 비슷한 수준이고, AI의 구조적 영향은 아직 초기 단계에 머물러 있다고 하네요. 지금은 ‘충격’보다 ‘점진적 적응’의 시기라는 진단입니다.

금주의 주목할 만한 업계 동향 📰

Deepnote, 완전히 새로운 노트북 포맷으로 등장

7년간 조용한 개발을 한 끝에, Deepnote가 드디어 오픈소스로 전환했습니다. 이 팀에서는 이제 오래된 .ipynb 포맷을 대체할 새로운 .deepnote 형식을 선보였는데요. 사람이 읽을 수 있는 YAML 기반 구조, AI 친화적인 설계, 다중 언어 지원, 그리고 실제 팀과 AI 에이전트 모두에게 적합한 프로젝트 중심의 구조를 갖추고 있습니다. 데이터 도구를 완전하게 개방적인, 그리고 커뮤니티 중심으로 구성된 도구로 만들기 위해 노력했다고 Deepnote 팀이 이야기하네요.

Memories.ai, 기기에 ‘기억’을 불어넣다

Memories.ai가 LVMM 2.0을 공개했습니다. 사람에게는 너무 당연하지만, 기계에게는 없던 ‘지속적인 시각 기억(Persistent Visual Memory)’을 가질 수 있도록 하는 모델입니다.

Qualcomm과의 협력을 통해서, 이 차세대 기술은 2026년까지 스마트폰, 카메라, 웨어러블 기기 등 온디바이스(On-device) 환경에서 동작하게 될 예정입니다. 초고속 영상 검색, 프라이버시를 지키는 추론, 실시간 시각 회상 기능이 엣지 디바이스로 들어오는 셈이죠. 이제는 긴 영상을 ‘빨리감기’로 찾아볼 필요가 없습니다 — 기계가 스스로 기억하고, 의미 단위로 찾아주는 시대가 옵니다.

Webflow, 홈페이지를 통해서 조직의 ‘긴장 관계’를 들여다보다

Webflow의 State of the Website 2026 보고서가 공개되었습니다. 이 보고서에 따르면, 디지털 현장은 지금 마케팅팀과 엔지니어링팀 간의 전쟁터에 가깝습니다. 응답자의 92%가 부서 간 마찰을 겪고 있고, 97%는 기술 부채(Technical Debt)의 부담을 느낀다고 답했습니다. 개발자들 중 일부는 심지어 “그만두고 싶다”고 할 정도로 피로감이 크다고 합니다.

한편, AI 도입이 눈앞까지 다가왔지만, 절반 정도의 팀은 여전히 ‘AI를 들이는 게 안전한가’를 확신하지 못하고 있습니다.

Google, 이번엔 진짜 ‘별을 향해 쏜다’

Project Suncatcher는 Google Research가 공개한 최신의 ‘문샷(Moonshot)’ 프로젝트입니다. 태양광으로 구동되는 군집 위성에 TPU를 탑재하고, 광통신으로 연결해서 우주에서 AI 연산을 수행하는 구상입니다. 말 그대로 “궤도 위의 클라우드 인프라”인 셈이죠.

테스트를 해 본 결과, 1.6Tbps의 대역폭과 방사선에 견디는 TPU를 갖춘 이 시스템은 ‘우주 기반의 머신러닝’이라는 다소 황당해 보이면서도 현실적인 비전을 제시합니다. 이게 실제로 잘 된다면, “클라우드 컴퓨팅(Cloud Computing)”이라는 말이 곧 ‘진짜 구름 위의 컴퓨팅’을 뜻하게 될지도 모른다는 생각이 드네요?

오픈AI, 경고의 메시지: “우린 아직 준비되지 않았다”

오픈AI가 최근 발표한 보고서를 보면, AI가 이미 인간을 능가하는 영역들이 늘어나고 있음에도 불구하고, 여전히 많은 사람들이 “그냥 챗봇일 뿐”이라고 여긴다고 이야기하고 있습니다. 오픈AI가 우려하는 지점은 명확합니다 — 기술은 너무 빨리 발전하고 있지만, 사회적 이해와 거버넌스는 그 속도를 따라가지 못하고 있다는 겁니다.

오픈AI는 새로운 안전 기준, 정부 간 협력, 그리고 ‘AI 회복력(Resilience)’ 생태계 구축이 시급하다고 경고합니다.

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

🌟🌟 🦋 Kimi K2 Thinking
모두를 놀라게 한 모델이죠. 아마 곧 여러 연구자들의 의견을 포함해서 이 모델을 다룬 에피소드를 발행하게 될 것 같습니다.
간단히 말씀드리면, 이 모델은 수백 번의 연속적인 도구 호출을 지원하는 오픈소스 장기 추론 에이전트로, INT4 추론에 최적화되어 있고, 도구를 심화 통합해서 추론, 코딩, 웹 에이전트 벤치마크에서 최고 수준의 성능을 달성했습니다. —> [논문 보기]
🌟🦋 NVIDIA Nemotron Nano V2 VL
하이브리드 맘바-트랜스포머(Transformer-Mamba) 비전-언어 아키텍처를 사용해서 문서와 비디오 이해 능력을 한층 발전시켰습니다. 토큰 축소(Token Reduction) 기법을 통해서 효율적인 Long-Context 추론을 수행하고, 다양한 정밀도(Precision) 형식과 함께 공개 데이터셋 및 학습 레시피로 출시되었습니다 —> [논문 보기]
🌟🌟 Cambrian-S: Towards spatial supersensing in video
뉴욕대학교와 스탠퍼드대학교 연구진이 Cambrian-S라는 모델을 소개했습니다. 이건 공간적 추론(Spatial Reasoning)을 위한 공간 기반 멀티모달 모델(Spatially Grounded Multimodal Model) 계열의 모델인데, 연구진은 59만 개의 샘플로 구성된 비디오 데이터셋(VSI-590K)을 이용해서 학습을 진행했습니다.
또, VSI-SUPER라는 새로운 벤치마크를 제시했는데, 이건 공간 회상(VSR)과 공간 카운팅(VSC)이라는 두 가지 과제를 포함하고, 최대 240분짜리 비디오를 활용합니다.
Cambrian-S는 VSI-Bench에서 30% 이상의 성능 향상을 보였지만, VSI-SUPER에서는 실패하면서 모델의 스케일 한계를 드러내기도 했습니다.
예측 기반 감각(Predictive Sensing) 프로토타입은 잠재 프레임 예측(Latent Frame Prediction)과 ‘Surprise-Based’ 메모리를 활용하고, VSI-SUPER 과제에서 Gemini-2.5-Flash보다 우수한 성능을 보였습니다.
아마도 ‘예측’이 장기적 공간 이해(Long-horizon Spatial Understanding)에 도움이 된다는 점을 보여주는 연구 아닌가 싶네요. —> [논문 보기]

로보틱스 영역의 흥미로운 데이터셋

PHUMA: Physically-Grounded Humanoid Locomotion Dataset
물리적으로 제약된 리타겟팅(Retargeting)을 통해서 관절 한계와 접촉의 정확성을 보장하면서, 대규모 비디오 기반 휴머노이드 동작 데이터를 구축했습니다. 이를 통해서 물리적으로 신뢰할 수 있는 동작을 생성해서 강건한 모방 학습(Robust Imitation Learning)에 활용할 수 있습니다. —> [논문 보기]
TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System
모션캡처 없이 작동하는(VR 기반의) 원격조작(Teleoperation) 시스템을 개발, 빠르고 저비용으로 휴머노이드 데이터를 수집하고 전신 시각-운동 제어(Whole-Body Visuomotor Control)를 구현합니다. 이를 통해서 정교한 조작(Dexterous Manipulation)과 역동적인 보행(Dynamic Locomotion)이 가능해집니다. —> [논문 보기]
VSI-590K: Spatially-Focused Instruction-Tuning Dataset
공간적 추론(Spatial Reasoning)에 초점을 맞춘 대규모 데이터셋을 구축하고, 다양한 출처로부터 세밀한 공간 주석(Fine-grained Spatial Annotations)을 통합했습니다. 이런 방식으로 모델의 공간 이해 능력(Spatial Understanding)을 향상시킬 수 있습니다.
—> [논문 보기]

에이전트 훈련, 시뮬레이션 및 경험의 합성

🌟 Scaling Agent Learning via Experience Synthesis (by Meta)
환경의 다이나믹스를 추론 기반 경험 모델로 정제(Distill)해서, 확장 가능한 합성 롤아웃(Scalable Synthetic Rollouts)을 생성하고 강화학습을 빠르게 초기화(Warm-Start)합니다. 이렇게 해서 훨씬 적은 실제 상호작용만으로도 PPO/GRPO 수준의 성능을 달성할 수 있습니다. —> [논문 보기]
🌟🦋 Magentic Marketplace: An open-source simulation environment for studying agentic markets (by Microsoft)
어시스턴트 에이전트와 서비스 에이전트로 구성된 양면 시장을 시뮬레이션, 복지(Welfare), 편향(Bias), 프롬프트 인젝션(Prompt-Injection) 위험, 검색 설계(Search Design) 등을 현실적인 경쟁 환경에서 평가할 수 있는 오픈소스 시뮬레이션 환경을 제시합니다.
—> [논문 보기]

공간 인식, 멀티모달 추론 및 그라운딩

🌟 Visual Spatial Tuning
VST-P (410만 개)와 VST-R (13.5만 개) 데이터셋을 구축하고, 지도학습(SFT)에 이어 강화학습(RL) 단계를 거쳐 비전-언어 모델(VLMs)을 학습시켜서, 일반화된 능력을 저하시키지 않으면서도 공간 인지(Spatial Perception)와 공간 추론(Spatial Reasoning) 능력을 강화합니다. —> [논문 보기]
🌟 Towards Mitigating Hallucinations in Large Vision-Language Models by Refining Textual Embeddings (by University of Maryland, Dolby Laboratories, Hilabs, Capital One)
시각적 특징(Visual Features)의 평균 풀링(Average Pooling)을 텍스트 임베딩에 통합해서 모달리티 간 균형(Modality Balance)을 재조정, 그라운딩(Grounding)을 향상시키고 환각(Hallucination)을 줄입니다. —> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

프리미엄 구독자 되기