🌁FOD#115: AGS(Artificial General Science)가 태동하는 순간

❝

이번 주에 ‘주목해 볼 모델’을 포함해서 연구 논문 카테고리가 특히 흥미롭습니다. 뉴스레터의 끝부분에서 확인하실 수 있으니, 놓치지 마세요!

편집자

지난 일주일 동안, 조만간 AGS(Artificial General Science)라는 용어를 탄생시키게 될 지도 모를 중요한 논문들이 나왔습니다. AGS란 건, 아마 ‘AI를 기반으로 한 자율적인 과학적 발견(AI-powered Autonomous Scientific Discovery) 정도로 개념을 정의하면 되지 않을까 하구요.

지난 수백년, ‘과학’은 우리 인간이 세상을 이해하는 걸 도와주는 도구였습니다. 그런데 지금 우리는, 도구의 위치를 넘어서 스스로 ‘과학이라는 행위’를 수행할 수 있는 도구를 만들고 있습니다. 비교해 보자면, 망원경을 발명했는데 그 망원경이 우리가 자는 동안 천문학에 관련된 논문을 쓰고 있는 모습을 발견한 것하고 비슷하다고나 할까요?

첫 번째의 중요한 변곡점은, 누가 뭐래도 AlphaFold였죠. 2020년, 딥마인드가 단백질 구조를 실제 실험 결과에 근접한 정확도로 예측해 내면서 생명과학계를 충격에 빠뜨렸습니다. 수십 년 동안 해결되지 않던 난제를 AlphaFold가 풀어낸 셈이니까요. AI가 오랫동안 인간의 손이 닿지 못했던 질문들에 답을 낼 수 있다는 걸 보여줬고, 이후 생물학이라는 학문의 방향과 흐름을 바꿔 놓았습니다.

다음으로 중요했던 이정표는 2022년에 등장한 AlphaTensor였다고 생각해요. 여기서는 강화학습 기반의 에이전트가 행렬 곱셈(Matrix Multiplication)을 위한 더 빠른 알고리즘을 재발견했는데, 이게 반세기 만에 처음으로 사람이 만든 방식을 뛰어넘은 것이었다는 거죠. 이건, 알고리즘의 발명(Algorithmic Invention)이었고, AI의 능력이 단순히 응용 분야 뿐 아니라 수학 자체의 영역까지도 확장할 수 있다는 걸 보여준 사례였습니다. 정말 놀라운 일이었어요.

2024년에는, 일본의 AI 스타트업 Sakana AI의 AI Scientist가 이런 교훈들을 하나로 모아서 ‘자율적 연구 에이전트’의 프로토타입을 만들어 냈습니다. 이건 문헌 검토, 실험 설계, 실행, 논문 작성까지 결합한 것이었고, 비록 결과물이 고르지는 않았지만, 분명한 야망과 지향하는 방향이 담겨 있었습니다. 단일한 작업을 엄청나게 잘 하는 모델에서 벗어나서, 과학적인 워크플로우 전체를 탐색할 수 있는 에이전트로 나아가려는 시도였다고 봅니다.

그리고 2025년 초, 구글이 Gemini 2.0을 기반으로 만든 AI Co-Scientist를 공개했습니다. 이 멀티 에이전트 시스템은 ‘과학적 방법론’의 ‘추론 단계를 반영’했습니다 — 생성, 반성, 순위화, 진화, 메타 리뷰 등을요. 단순히 텍스트 생성에 머물지 않고, 실제 실험실에서 검증된 가설들을 만들어 냈습니다. 백혈병 치료를 위한 약물이 시험관(In Vitro)에서 재활용되었고, 간 섬유증의 후성유전학(Epigenetic)적 표적이 인간 오가노이드에서 검증되었고, 항균제 내성에 대한 기전적 설명이 새로운 실험 결과와 일치하는 모습을 확인할 수 있었습니다. 이제 AI가, (사람) 과학자들이 곧바로 실험실로 들고 달려갈 만한 아이디어들을 제안하기 시작한 것이죠.

그리고 2025년 8월. 바로 그 마지막 2주간. 이 시간은 AGS(Artificial General Science)의 특이점으로 기억될지도 모릅니다.

Image Credit: Virtuous Machines: Towards AGS

여기서 공유드리고 싶은 몇 가지 묵직한, 중요한 논문들이 있습니다.

Virtuous Machines(160쪽; Wehr 외)는 AGS(Artificial General Science)를 위한 철학적 로드맵을 제시하고 있습니다. ‘사람들을 대상으로 한 온라인 실험을 스스로 처음부터 끝까지 기획하고 실행한 사례’를 시연하기도 했구요.

aiXiv 프로젝트(60쪽; Zhang 외)는 AI 과학자들이 연구를 제출, 심사, 수정할 수 있는 출판 생태계를 고안하고 제안하고 있습니다.

From AI for Science to Agentic Science(74쪽; Wei 외)는 이 분야에서 사용하게 될 용어를 잘 구조화해서 정리하고, 에이전틱 시스템(Agentic System)을 새로운 패러다임으로 자리매김하고 있습니다.

또, Intern-S1이 Shanghai AI Laboratory에서 공개되었습니다. 이 모델은 2,410억 개 파라미터를 가진 대규모 모델로, 수조 개의 과학 토큰으로 학습했고, 물리학과 화학 과제에서 경쟁자들을 능가하는 모습을 보여줍니다. 마이크로소프트 리서치는 MindJourney를 발표했는데, 이건 테스트-타임 추론(Test-Time Reasoning) 프레임웍으로, 모델이 3D 탐색을 시뮬레이션하면서 학습하도록 합니다.

MindJourney는 공간 능력(Spatial Aptitude) 벤치마크에서 8% 향상이라는 놀라운 결과를 보여주었고, 과학적 에이전트들이 직접 감지할 수 없는 환경을 ‘이동’하면서 탐색할 수 있는 길을 열었습니다. 이는 로보틱스, 지구과학, 실험실(Lab) 자동화의 관점에서 아주 중요한 역량입니다.

정말 놀라운 일 아닌가요? 단 일주일이라는 시간 안에 역량(Intern-S1, MindJourney), 인프라(aiXiv), 지적인 프레임웍(Agentic Science, Virtuous Machines)이 동시에 등장했으니 말이예요. 세 가지 연구가 서로 다른 그룹, 다른 레거시로부터 출발했지만, 모두 같은 지점 — 자율적으로 과학적 연구를 수행하는 AI — 에 도달한 겁니다.

세 논문의 조응 관계. Image Credit: 튜링 포스트

말 그대로 ‘숨막힐 정도의 속도’라고 하지 않을 수 없습니다. 다시 말씀드리지만, 이번 주는 단순하게 여러 개의 의미있는 논문이 몰렸던 주라고 기억되지는 않을 거 같습니다. 아마, ‘과학적 발견(Discovery)’이라는 활동 자체가 기계의 리듬(Machine Tempo)로 스케일링하기 시작한 순간, 그리고 과학 연구자가 잠들지 않는 새로운 동료를 얻게 된 순간으로 기억될 겁니다.

*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!

뉴스레터 구독

튜링 포스트 코리아팀이 읽고 있는 것들

Virtuous Machines: Towards Artificial General Science by Gabrielle Wehr et al. (2025)

앞에서도 소개드렸죠. 이번에 나온 Virtuous Machines: Towards Artificial General Science 논문은, AI가 단순히 ‘도구’의 역할을 벗어나서 스스로 과학적인 발견 작업을 해내는 동료로 진화할 수 있다는 걸 보여줍니다. 논문은 AI가 가설을 세우고, 실험을 설계하고, 실제로 검증까지 이어가는 ‘자율적 과학자’로 활동하는 모습을 그리고 있는데요. 인간이 다양한 한계나 자원 부족 때문에 쉽게 다가가지 못했던 연구 영역을 AI가 탐험할 수 있다는 점에서 큰 의미가 있습니다. 동시에 “과학적 발견의 주체는 누구인가?”, “성과의 공로를 어떻게 나눌 것인가?” 같은 철학적인 질문도 던집니다. 단순한 기술 논문을 넘어서, 과학의 미래를 함께 다시 상상해 보게 하는 로드맵에 가깝습니다.

aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists by Pengsong Zhang et al. (2025)

이것도 논문입니다. 이 논문은 aiXiv라는 플랫폼에 대한 이야기를 하고 있는데, 사람도, AI도 과학 논문을 쓰고, 심사하고, 다듬을 수 있는 차세대의 오픈 액세스 생태계를 목표로 하고 있습니다. 즉, ‘AI 과학자’들이 작성한 연구도 기존에 사람이 쓴 연구 논문처럼 출판을 하고 평가받을 수 있게끔 하는 시스템을 마련한 겁니다. 멀티 에이전트 구조로 만들어진 이 설계안은, 연구 과정의 속도, 그리고 접근성을 높여서 AI가 생성한 콘텐츠가 과학적 진보에 즉각적으로 기여하게 하는 기반이 될 수 있다는 점에서 의미가 큽니다.

From AI for Science to Agentic Science: A Survey on Autonomous Scientific Discovery by Jiaqi Wei et al. (2025)

죄송합니다, 오늘은 모두 위에서 소개한 논문들이네요 ^.^; 이 논문은 ‘AI for Science’에서 한 걸음 더 나아가서 ‘Agentic Science’, 즉 스스로 과학적 주체(Agency)가 되는 AI를 중심으로 정리합니다. 먼저 AI가 단순한 보조자 역할을 넘어서 완전한 과학적 행위자로 진화하는 단계를 짚어내고, 그 기반이 되는 다섯 가지 핵심 역량과 과학적 발견을 위한 네 단계 워크플로우를 제안합니다. 그리고 문헌·응용 분야의 실제 사례들을 살펴보면서 향후 해결해야 할 과제들과 기회들을 함께 담았습니다. 한 줄로 정리하자면, ‘AI가 이제 부분적인 지원 역할을 넘어서 과학 연구의 행위자가 되고 있는 현실에서, 이를 체계적으로 이해할 수 있는 프레임웍을 제시한 논문’이라고 할 수 있습니다.

금주의 주목할 만한 업계 동향 📰

나노 바나나!

나노 바나나(Nano Banana) - 구글이 개발한 새로운 AI 이미지 생성 모델이죠. '제미나이 2.5 플래시'라는 이름으로 정식 공개되었습니다. 이 모델의 가장 놀라운 점은 인물의 얼굴과 특징을 그대로 유지하면서 배경 변경, 스타일 전환, 2D를 3D 피규어로 변환하는 작업까지 단 1-2초 만에 처리한다는 건데요. 온라인에서는 "포토샵이 필요 없어질지도 모른다"는 반응과 함께 애니메이션 캐릭터를 실사화하는 등 다양한 활용 사례들이 화제를 모으고 있습니다. 이런 강력한 모델이 손에 들어오니, 수많은 재미있는 아이디어가 쏟아져 나오는 것 같습니다 - 상상력을 키워야 할 것 같은데, 어떻게 해야 할까요?

아카브릭에서 수고를 많이 하셔서 모아주신, 트위터(X)의 크리에이터들이 만든 나노 바나나 케이스들 보시면서 영감을 얻으실 수 있기를 바랍니다! 아카브릭, 항상 감사합니다!

나노 바나나 이미지. Image Credit: Jim Clyde Monge

힉스필드 AI의 Product-to-Video

Higgsfield AI의 Product-to-Video 기능, 바로 단순한 이미지 한 장으로 배우가 제품과 상호작용하는 광고 영상을 자동 생성하는 도구입니다. 기존의 Image-to-Video가 정적인 이미지를 동적인 영상으로 변환하는 제너럴한 개념이라면, Product-to-Video는 제품을 중심으로 실제 촬영한 듯한 영상 내 상호작용과 시네마틱 연출을 자동으로 구현해 내는 점이 차별화 포인트라고 생각합니다 - 작은 차이일 수 있지만, 사용자의 관점에서 괜찮은 아이디어이자 접근이라는 생각을 하게 됩니다. 광고 제작에 드는 시간과 비용을 급격히 줄여줘서 크리에이터와 마케터 사이에서 큰 호응을 얻고 있다고 하네요.

Product Placement. Image Credit: Higgsfield AI

새로 나온, 주목할 만한 연구 논문

‘주목할 만한 최신의 AI 모델’을 먼저 소개하고, 각 영역별로 ‘Top Pick’은 해당 논문 앞에 별표(🌟)로 표시했습니다!

주목할 만한 최신 AI 모델

Intern-s1: A scientific multimodal foundation model by Shanghai AI Lab (오픈소스)
Shanghai AI Lab이 개발한 Intern-S1은, 241B 파라미터의 멀티모달 MoE 모델로, 활성 파라미터는 28B이고 과학적인 추론 작업에 최적화를 시켰습니다. 5T 토큰(이 중에 2.5T는 과학 데이터)으로 학습했고, 텍스트, 이미지, 분자 구조, 시계열 데이터의 처리를 지원합니다. Intern-S1은 다이나믹 토크나이저(Dynamic Tokenizer)와 Mixture-of-Rewards 강화학습(RL) 프레임웍을 도입해서 MatBench 75.0, ChemBench 83.4, MSEarthMCQ 65.7 점을 기록하면서, 오픈소스·폐쇄형 모델 모두를 능가하는 모습을 보여줬습니다.
—> [논문 보기]
Nemotron Nano 2 by NVIDIA (오픈소스)
엔비디아 연구진은 Nemotron-Nano-9B-v2라는 이름의 9B 파라미터 짜리 Mamba-Transformer 하이브리드 LLM을 개발했습니다. 이 모델은 Qwen3-8B보다 3~6배 높은 처리량(Throughput)을 달성했고, MATH (80.5), BFCLv3 (66.9), RULER-128k (82.2), AIME24 (30.0) 등 다양한 벤치마크에서의 정확도도 동등하거나 더 높았습니다. 20T 토큰, 128k 컨텍스트를 활용해서 FP8 사전학습을 거쳤고, 12B 모델에서 Minitron 프루닝(Pruning)과 증류(Distillation)를 통해서 압축했습니다. 단일한 22GB A10G GPU에서도 실행할 수 있습니다. —> [논문 보기]
Command A Reasoning: Enterprise-grade control for AI agents by Cohere
Cohere가 개발한 고급 엔터프라이즈급 LLM으로, 에이전틱 워크플로우(Agentic Workflow)와 심층 추론(Deep Reasoning)에 최적화되었습니다. 128k–256k 컨텍스트 길이를 지원하고, 단일 H100/A100 GPU에서 실행됩니다. 비용과 성능의 균형을 맞추기 위한 토큰 예산(Token Budgeting) 기능도 포함되어 있습니다. BFCL-v3, Tau-bench, 다국어 태스크에서 gpt-oss-120b, DeepSeek-R1 0528, Magistral Medium을 능가한다고 보고되고 있고, North 플랫폼을 구동하고, 장문 연구, 안전성 평가, 지연(Latency)과 성능 간의 조율을 유연하게 잘 한다는 측면에서 뛰어나 보입니다. —> [블로그 보기]
DeepSeek V3.1 release (오픈소스)
이 모델은 하나의 모델 안에 “Think 모드”와 “Non-Think 모드”라는 하이브리드 추론 방식을 탑재하고 있고, 128k 컨텍스트를 지원합니다. Think 모드는 도구 활용과 다단계 추론을 강화해서, 복잡한 작업에서 DeepSeek-R1-0528을 능가한다고 합니다. 840B 토큰으로 사전학습을 해서 장문 컨텍스트에 강점을 보이는데, SWE 및 Terminal-Bench에서 성능 향상을 입증했습니다. Anthropic API 포맷, 엄격한 함수 호출(Strict Function Calling, 베타), 높은 추론 효율을 달성하면서, 에이전트를 지향하는 LLM으로서의 모습을 보여주겠다는 목표로 했다는 걸 알 수 있습니다. —> [릴리즈 노트 보기]
Ovis2.5 by Alibaba (오픈소스)
이 멀티모달 LLM은 NaViT(Native-Resolution Vision Transformer)를 통합해 정밀한 시각 인식을 지원하고, “생각 모드(Thinking Mode)”를 통해서 성찰적 추론(Reflective Reasoning)을 수행합니다. 9B 모델은 OpenCompass에서 78.3을 기록하면서, 40B 미만의 모든 오픈소스 모델을 능가하는 모습을 보여주기도 했고, STEM, 차트, OCR, 그라운딩, 비디오 태스크에서 최고 점수를 기록했습니다. 학습은 5단계 커리큘럼과 GRPO 기반 강화학습으로 진행되었고, 하이브리드 병렬처리로 3–4배 정도 속도가 향상되었다고 합니다.
—> [논문 보기]
Dinov3 from Meta AI
Meta AI의 DINOv3는 7B 파라미터의 자가 지도(Self-Supervised) 비전 파운데이션 모델입니다. 17억 개의 선별된 웹 이미지를 학습했고, Gram Anchoring 기법을 통해서 긴 학습 기간에도 Dense Feature의 안정성을 확보했습니다. 그 결과, 세분화(ADE20k mIoU 63.0), 객체 검출(COCO mAP 66.1), 깊이 추정(NYUv2 RMSE 0.309)에서 최첨단 성능을 달성했습니다. 해상도는 최대 4096²까지 지원하고, ViT 및 ConvNeXt 모델로 지식 증류(Distillation)되어서 3D 태스크, 원격 탐사, OCR에서도 뛰어난 성과를 보였습니다.
—> [논문 보기]
Matrix-game 2.0 by Skywork AI (오픈소스)
실시간 오토리그레시브(Auto-regressive) 디퓨젼 기반의 인터랙티브 월드 모델은, 단일 H100 GPU에서 초당 25 프레임(FPS)으로 비디오를 생성합니다. GTA5와 Unreal Engine 데이터(행동 주석 포함) 1,200시간으로 학습되었고, 1.8B 파라미터 DiT를 사용해서 프레임 단위 키보드/마우스 제어를 할 수 있습니다. 시각적인 품질·시간적 일관성·제어 가능성에서 Oasis와 YUME를 능가한다고 합니다. 추가적인 실험에서는 캐시 튜닝과 디노이징 단계가 긴 시퀀스의 Fidelity에 중요하다는 걸 확인하기도 했다고 하네요. —> [논문 보기]

에이전틱 시스템 및 GUI 자동화

🌟 Mobile-Agent-v3 (by Alibaba)
대규모 환경, 모듈형 스킬, 확장 가능한 강화학습(RL)을 통해서 크로스 플랫폼으로 작업을 수행할 수 있는 기본적인 GUI 에이전트를 구축합니다. —> [논문 보기]
🌟 Prompt Orchestration Markup Language (by Microsoft)
프롬프트 내에서의 스타일링, 여러 모달리티를 통합해서 다루는 것, 그리고 여러 사람의 협업을 지원하는 마크업 시스템으로서, 복잡한 멀티모달 프롬프트를 구조화하게 도와줍니다. —> [논문 보기]

Alignment와 에이전트 훈련을 위한 강화학습

AgentFly
그래디언트 업데이트 대신 메모리 기반 온라인 강화학습(RL)을 사용해서 LLM 에이전트를 적응시켜서, 파인튜닝을 하지 않고도 Continual Learning을 할 수 있게 해 줍니다.
—> [논문 보기]
🌟 SSRL: Self-Search Reinforcement Learning (by Tsinghua University)
LM이 외부 검색 엔진에 덜 의존하게끔, 스스로의 내부 지식을 활용해 검색 태스크를 수행하도록 학습합니다. —> [논문 보기]
🌟 Atom-Searcher (by Ant Group)
세밀한 “원자 레벨의 사고(Atomic Thought)”라는 개념의 보상을 활용해서, 에이전틱 심층 연구를 가이드하고, 추론의 각 단계를 해석할 수 있게끔 해 줍니다. —> [논문 보기]

추론(Reasoning), 해석 가능성(Interpretability), 통제(Control)

🌟 MindJourney (by Microsoft)
테스트 타임에 VLM(비전-언어 모델)이 자기중심적(Egocentric)인 3D 시점을 시뮬레이션하도록 함으로써 공간 추론(Spatial Reasoning)능력을 향상시킵니다. —> [논문 보기]
🌟Deep Think with Confidence (by Meta AI, UCSD)
내부의 확도(confidence) 신호를 사용해서 저품질의 추론 경로를 걸러내고, 효율성과 정확성을 개선합니다. —> [논문 보기]
🌟 Controlling Multimodal LLMs via Reward-guided Decoding (by Mila, Universite de Montreal, McGill University, Meta, CIFAR)
보상 모델을 활용해서 정밀도–재현율(Precision–Recall) 간의 균형을 조정하면서, 추론 과정에서 멀티모달 LLM을 제어합니다. —> [논문 보기]

검색(Retrieval) 및 Long-Context 추론(Reasoning)

🌟 Retrieval-augmented reasoning with lean language models (by The Alan Turing Institute, Oxford, Cambridge, Imperial College London)
작고 도메인에 특화된 모델에서 추론과 검색을 결합해서, 더 안전하고 효율적인 배포를 할 수 있게끔 해 줍니다. —> [논문 보기]
ComoRAG
메모리 기반의 검색 주기를 도입해서, 상태를 유지하는(Stateful) 긴 내러티브 추론(long-narrative reasoning)을 지원합니다. —> [논문 보기]

인간 중심적인 개념의 평가

Leveraging Large Language Models for Predictive Analysis of Human Misery
자연어로부터 ‘고통(Misery) 점수’를 예측하는 모델을 제안하는데, 게임화된 평가 체계를 통해서 검증합니다. —> [논문 보기]
Beyond Human Judgment
사람의 의견 불일치(Disagreement)를 고려하는 베이지안(Bayesian) 프레임웍을 사용해서, LLM이 하고 있는 도덕적 가치 이해(Moral Value Understanding)를 평가받도록 합니다. —> [논문 보기]

*리뷰를 남기시려면 로그인하시거나 구독해 주세요. 감사합니다!

읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!

프리미엄 구독자 되기