- Turing Post Korea
- Posts
- FOD#72: Meta Reflection - '경계를 넘어', 우리를 연결해 주는 AI
FOD#72: Meta Reflection - '경계를 넘어', 우리를 연결해 주는 AI
'메타' 뉴스 + 금주의 주요 소식, 업계 동향과 연구
튜링포스트 코리아 예고:
AI 101: 모델에 ‘화이트보드’를 제공, 추론 단계를 심상 (Mental Image)화하고, 이 심상을 다시 모델에 제공해서 최종적 추론을 하도록 하는, ‘Whiteboard-of-Thought’는 무엇인지 알아봅니다.
외부 전문가 기고: ‘AGI’에 대한 이야기는 많지만, 여러가지 이유로 ‘AGI가 무엇인가?’ 누군가 물어본다면 쉽게 대답하기가 힘들죠. AGI를 정의하는게 왜 힘든지, AGI에 어떻게 접근하는게 좋은지에 대한 외부 전문가의 생각을 들어봅니다.
기대해 주세요!
이번 주에 저는 몇 가지 일로 인도네시아의 자카르타에 와 있는데요. 어디가 되었든, 어떤 이유로 왔든, 저는 가급적 여행지나 출장지에서 시간을 내서 야시장에 들르는 걸 좋아합니다. 야시장의 거리 음식들을 맛보는 것도 좋아하고, 북적북적한 분위기 자체를 좋아하기도 하구요.
사실 자카르타에는 생각보다 다른 동남아시아 국가들에서 흔히 볼 수 있는 분위기의 ‘야시장’은 찾기가 어렵다고 생각했는데, 마침 머무는 숙소 근처의 쇼핑몰 옆에 ‘음식 페스티벌’ 분위기의 야외 장터가 있길래 들러봤습니다.
이런저런 음식들도 구경하고 사 먹어보기도 하는 와중에, 우연히, 최근에 이야기를 나눈 사람을 마주치고 반갑게 시간을 보내게 됐습니다. 자카르타 출신으로 지금은 싱가폴의 AI Singapore라는 조직에서 ‘동남아 국가들의 소버린 AI 프로젝트’를 이끌면서 자체적으로 LLM을 구축하고 있는 디렉터인데요. Zoom 콜도 여러 차례 했고 직접 대면으로 만나서 이야기를 나눠 보려고 꽤 애써왔지만 미팅이 성사되지 않았다가, 이렇게 우연히 전혀 예상치 못한 장소에서 만나게 되니, 정말 반갑기도 하고 신기하다는 생각이 들었어요.
길거리 테이블에 앉아서 개인적인 이야기, 그리고 AI 관련한 이야기도 한참 하고, 다음에 만날 것을 기약하면서 일어나 뒤돌아서 오는데, “야 이게 진짜 ‘메타’다 - 메타 (Meta)는 아시다시피 ‘Beyond’라는 의미의 그리스어죠 - 라는 생각이 들었습니다. ‘삶’이라는 놈이 저를 쭉 쳐다보고 있다가, 어느 순간 저하고 눈이 딱 마주치면서 윙크를 하는 느낌이랄까? 전에도 이런 느낌을, 도쿄 다이칸야마에서 살짝 지쳐서 카페에 앉아 커피를 마시고 있는데, 제 바로 앞으로 무라카미 하루키가 장을 봤는지 양손에 비밀봉지들을 들고 걸어가는 걸 봤을 때, 그 때 한 번 느꼈거든요.
이런 순간에는, 항상 제 생각이나 이해의 범위, 그리고 일상의 기대를 ‘넘어서는’ 누군가 나를 보고 있나 생각이 들면서, 또 다른 한 편으로는 ‘AI라는게 이렇게 예기치 않은 즐거운 만남을 만들어주는구나’ 싶기도 했습니다.
이런 개인적이면서도 인상적인 ‘메타적’ 경험과는 크게 관련이 없다고 할 수 있겠지만 (^.^), 역시 이번 주에 있었던 AI 씬의 ‘메타적’인 일들 몇 가지에 대한 생각을 금주의 FOD에서 공유할까 합니다:
메타 (Meta), ‘메타’라는 개념 자체를 받아들이고 모든 사업에 체화한다
메타 (舊 페이스북)는 ‘메타’라는 개념 자체를 받아들이는 과정에 있는 걸로 보입니다 - 무슨 말인가 하면, AI를 발전시키는 것에 국한되지 않고, AI를 연구하는 작업을 어떻게 협업하면서, 개방적으로도, 또 스스로 개선해 나가면서 할 수 있는지를 직접 보여주는 생태계를 구축하고 있습니다. 메타의 10월 10일 ‘AI 미디어 브리핑’을 보면, ‘개방적인 생태계에서 과학적 연구’를 진행하고, 타 연구자들이나 기관과 함께 연구의 ‘재현성’에 중점을 두는지가 잘 드러나 있습니다.
브리핑을 통해서 확인할 수 있는 주요 내용을 살펴보면, 우선은 이미지, 그리고 비디오 세그먼테이션 모델의 새로운 업데이트, ‘Meta Segment Anything 2.1 (SAM 2.1)’을 출시했습니다. 이 새로운 업데이트는 트레이닝 코드와 웹 데모를 포함해서 새로운 개발자 도구를 제공하는데, 메타가 더 커뮤니티의 협력을 구해나가고 커뮤니티의 접근성을 강조하고 있다는 걸 보여주는 신호가 아닌가 합니다.
또, 텍스트 및 음성을 자연스럽게 통합하고, 다양한 모달리티에서 표현력을 향상시키는 첫 오픈소스 언어모델, Spirit LM을 소개했습니다. 더불어, 특별한 하드웨어 없이도 거대 언어모델 효율성을 높일 수 있는 Layer Skip Framework을 공개했는데, 이 프레임웍으로 더 빠르고 자원을 효율적으로 사용하면서 모델을 배포할 수 있게 되었습니다.
암호화 분야에서는, 포스트 양자 암호화 표준의 검증 도구, SALSA를 출시, 미래 기술에 대한 보안에 집중하고 있는 모습을 보여줬고, 효율적인 언어모델 트레이닝을 위한 경량화 코드베이스 Meta Lingua, 무기물 소재의 발견을 가속화하는데 도움을 줄 오픈소스 데이터셋 Meta Open Materials 2024도 소개했습니다.
마지막으로, 교차 언어 (Cross-Lingual) 문장 인코더인 MEXMA, 리워드 모델 트레이닝을 위한 합성 선호도 데이터 생성 도구 Self-Taught Evaluator (원본 논문은 2024년 8월에 발표)도 공개, 메타가 연구 역량 뿐 아니라 AI 평가법 발전에도 의지를 가지고 있다는 걸 확인시켜 주었습니다.
이전에 제가 다른 글을 통해서, ‘메타가 오픈소스의 의미를 자사의 입맛에 맞게 곡해하고 있다’는 비판을 한 적이 있는데요. 그 비판은 비판대로 유지하더라도, 점점 더 ‘메타’라는 사명에 맞게, AI 모델의 성능을 ‘넘어서’, 그 ‘이면’을 받치고 있는 연구 개발의 생태계를 키우고 현장에서 활용할 수 있도록 하는 많은 메커니즘에 대해서 함께 고민하고 있다는 점만은 부정할 수 없을 듯 합니다.
Neural Metamorphosis (NeuMeta) 논문, 기존 신경망에 대한 새로운 ‘메타’
NeuMeta 논문은, 재학습이 없이도 그 내부 구조를 다이나믹하게 조정할 수 있는, ‘자가 변형’이 가능한 새로운 아키텍처로, 신경망을 바라보는 혁신적인 접근방법을 소개하는 논문입니다. 이런 ‘메타적 사고’를 바탕으로, 전통적으로 많이 다뤄져 온 정적인 모델을 넘어서서, 하드웨어나 작업의 요구사항에 따라 네트워크가 유연하게 크기를 조정하고 적응할 수 있게 하는 연속적인 ‘가중치 매니폴드’를 탐구하고, 본질적으로 외부의 조건에 따라 스스로의 정체성과 성격을 재구성합니다.
이 논문의 방향은, 개인적으로 아주 중요한 ‘진화의 방향’을 가리키고 있다고 생각합니다. NeuMeta는 신경망을 ‘자기 성찰과 변화가 가능한 실체'로 다루는데, 이는 ‘시스템을 재평가하고 적응하는 개념’에 대한 완벽한 메타라고 봅니다. INR (Implicit Neural Representation)을 하이퍼네트워크로 활용해서, 앞서 이야기한 다이나믹한 변환을 가능하게 하면서도 네트워크의 구성에 크게 상관없이 원활한 성능을 보장합니다. 75%이 압축률에서도 성능을 유지하는 모습을 보여주고, 기존의 Pruning 기법을 능가하는, 유연하고 확장 가능한 AI의 새로운 시대를 여는 기반이 될 수 있습니다.
튜링 포스트 코리아에서 ‘AI 에이전트’ 섹션을 통해서 에이전트에 대한 에피소드들을 계속 공유드리고 있는데, NeuMeta의 접근 방식이, 고도화된 에이전틱 워크플로우의 핵심 기능, ‘스스로의 능력과 자원을 유동적으로 조정할 수 있는’ 에이전트를 개발하는데 강력한 아군이 될 수도 있을 것 같습니다 - 신경망 아키텍처가 이렇게 유연해진다면, 실제의 환경에서 AI 에이전트의 효율성과 적응성이 대폭 향상될 테니까요.
다시, 이야기를 처음으로 돌려서: 우리가 AI와 그 복잡성을 탐구하는 동안, 이 기술이 우리 - 를 포함한, 이 기술 뒤에 있는 모두 - 의 삶에 어떤 영향을 끼치고 새로운 인연을 만들어내는지, 어떻게 도움이 되는지를 잊지 말아야 할 것 같습니다. AI가 일견 추상적으로 보일 수 있지만, 이런 ‘예상치 못한 연결’의 순간들이 바로 ‘AI도 결국 우리의 삶을 풍요롭게 하고, 공동체를 연결하고, 먼 다른 나라의 야시장에서 국수를 먹다가 예상치 못한 만남을 가지게 해 주는 도구’라는 걸 상기시켜 주네요.
튜링 포스트 코리아의 분석 기사를 보고 싶은 AI 유니콘을 골라주세요: |
트위터 라이브러리 (Twitter Library) 🐦
RAG (Retrieval-Augmented Generation, 검색 증강 생성)는 거대 언어모델(LLM)의 정확성을 향상시키도록 도와주는, 가장 인기있는 기법 중 하나라고 할 수 있습니다. 튜링 포스트 코리아의 이전 에피소드에서 12가지 RAG 유형을 커버한 적이 있는데요, 그 이후에도 계속해서 새로운 RAG가 등장하고 있습니다.
RAG 전문가가 되는 과정에서 도움을 받을 수 있는, 8개의 무료 강좌를 정리해 봤습니다:
*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!
AI 업계 전문가들이 추천하는 서비스 👍🏼
오늘은 Llama나 Mistral을 더 빠르고 편리하게, 더 적은 메모리로도 파인튜닝하게 도와주는 오픈소스 툴킷, Unsloth AI를 소개합니다. 모델 성능을 최적화하고 개량하고자 하는 개발자나 회사에서는 한 번 확인해 보시면 좋겠습니다.
Image Credit: Unsloth AI
금주의 주목할 만한 업계 동향 📰
미스트랄 AI (Mistral AI), 엣지로 가다
Mistral AI는 Mistral 7B 출시 1주년을 맞아 ‘les Ministraux’라는 이름으로 새로운 온디바이스 모델, Ministral 3B와 8B를 발표했습니다. 이 모델들은 스마트 어시스턴트나 로보틱스 같은 엣지 어플리케이션 시장을 대상으로 하는 모델로, 로컬 디바이스에서 잘 사용할 수 있도록 Low-Latency, Privacy에 초점을 맞추고 있습니다. 최대 128,000의 컨텍스트 길이를 제공하며, 고도의 기능과 효율성을 동시에 보여줍니다.
엔비디아의 Nemotron: 조용하지만 유용한 업그레이드
엔비디아가, 상대적으로 조용히 Nemotron의 업그레이드를 출시했습니다. 엔비디아 하드웨어에 최적화된 이 70B 모델은, 출력 품질을 파인튜닝했는데, 실용적인 AI를 만들 때 도움이 될, 효율적이고 효과적인 언어모델의 새로운 기준을 제시합니다.
밑에 보시다시피, 이 모델에 대한 다른 의견들도 있기는 합니다. 그렇지만, 새로운 모델이 나올 때마다 느끼는 더 근본적인 문제는, 너무 많은 벤치마크가 있고 자사 모델의 가장 좋은 면만 골라서 보여줄 수 있는 현재의 상황인 것 같습니다.
The Nvidia Nemotron Fine-Tune Isn’t A Very Good 70b Model!
While it improves on the base 70b Llama model on reasoning, it underperforms across several categories
It’s worse than 405b and isn’t as good as the other SOTA models
Detailed numbers coming soon on Livebench AI
— Bindu Reddy (@bindureddy)
8:04 AM • Oct 17, 2024
메타, MovieGen은 공포영화, Llama 3.2는 코딩 매직
메타가 HD 비디오와 사운드 생성 모델 Movie Gen을 출시하기 위해서 공포 영화의 명가, 블룸하우스와 협력합니다. Aneesh Chaganty와 Casey Affleck 감독이 이 기술을 실험하는데, AI가 주도하는 영화 제작의 미래를 엿볼 수 있기를 기대합니다. 본격 출시는 2025년으로 예정되어 있는데, 그 때까지는 공포 요소를 완벽하게 만드는데 집중한다고 합니다.
메타의 최신 Llama 업데이트를 기반으로 한 CodeGPT는 코딩 생산성을 30% 향상시킨다고 주장하고 있는데요. 코드 제안, 디버깅 지원, 온보딩 자동화 등의 기능을 제공해서, 신입 개발자 입장에서는 아마 최고의 친구가 되지 않을까 합니다. Llama 3.2와 함께, 메타는 계속해서 코딩 작업과 창의성이라는 두 지점을 연결하는 다리로 입지를 다지고 있습니다.
Moonshot AI의 Kimi, 레벨업하고 오픈AI와 경쟁을 선언하다
중국의 AI 유니콘 스타트업 Moonshot AI의 Kimi Chat Explore가, 검색 기능을 확장하고 문제 해결 능력을 강화, 오픈AI와 본격적으로 경쟁을 시작합니다 - 오픈AI의 o1과 같은, 시간이 더 걸리더라도 생각하고 답을 할 수 있는, 추론 능력을 강화한 방향의 업그레이드를 이야기하고 있는데요. 텐센트와 알리바바의 지원을 받는 이 회사는, 투자 분석 같은 복잡한 작업을 자동화하겠다는 목표를 내세우고 있습니다.
Moonshot AI가 어떻게 Long-Context AI를 혁신하고 있는지 궁금하시면 튜링 포스트 코리아의 분석 기사를 한 번 참고해 보세요.
Claude: AI의 사보타주 시나리오 연구
Claude의 개발사 앤쓰로픽은 Claude 3 Opus 같은 모델의 코드 변조 같은 위협을 평가하면서 ‘AI 사보타주 위험’을 연구하고 있다고 합니다. 현재의 사보타주 능력은 제한적이라고 할 수 있지만, 이 연구는 AI의 개발이 올바른 궤도에서 이루어지도록 하기 위한 선제적 조치의 필요성을 강조한다고 하겠습니다. 다양한 이해관계자가 개발사들이 보안 장치를 개선하고 혁신하기를 바라고 있습니다.
Lightmatter의 4억 달러 시리즈 D 펀딩
Lightmatter가 시리즈 D에서 4억 달러를 추가로 투자받으면서 기업 가치는 44억 달러가 되었습니다. 광자기술의 선도 기업인 Lightmatter는 자사가 개발한 Passage 엔진을 확장해서 AI 데이터센터를 ‘초 저지연 (Ultra-low Latency)’, ‘광속같은 속도’의 머신으로 변모시키려고 합니다. 구글 벤처스 같은 거물 VC의 지원을 등에 업고 Lightmatter가 AI 인프라의 미래를 재정의할 수 있을지 주목됩니다.
마이크로소프트의 BitNet 혁신
마이크로소프트의 bitnet.cpp는 1비트 LLM을 위한 획기적인 진전으로, x86 CPU에서 6배 이상의 속도 향상,80%의 에너지 절감을 가능하게 합니다. 단일 CPU에서 100B 모델을 실행할 수 있는 이 기술은 확장성을 고려해 설계되었으며, 로컬 AI를 최대한 효율적으로 만들어 줍니다.
구글 노트북LM, 더 똑똑해지다
튜링 포스트 코리아에서 구글 노트북LM에 대한 기사를 한 번 쓴 적도 있는데요. 구글 노트북LM이 맞춤형 오디오 요약 기능을 추가해서, 200개 국가에 대한 고급의 시각화와 인사이트 기능을 제공합니다. Gemini AI 기술을 활용한 이 새로운 기능을 여러 기업과 대학과 협업해서 파일럿을 하고 있다고 하는데요. 이 구글의 업그레이드된 문서 분석 도구가 과연 ‘지식 통합’이라는 분야에서 지배력을 어느 정도 가져갈 수 있을지 주목되네요.
구글, 조직 변경 카드를 만지작거리다
닉 폭스 (Nick Fox)가 구글의 검색 조직을 이끌게 되면서, 프라바카 라그하반 (Prabhakar Raghavan)을 최고 기술 책임자로 재배치했습니다. Gemini AI는 구글 딥마인드 산하로 이동, 제품과 연구 개발의 시너지를 강화하겠다는 모양새입니다. 이번 조직 개편은, 구글에 대한 반독점법 압박, 그리고 수익성에 대한 우려가 커지는 가운데 진행되었는데요. 과연 새로운 조직 개편이 구글의 운명을 어디로 이끌어갈까요?
보스턴 다이나믹스와 도요타, 힙을 합친다
보스턴 다이나믹스와 도요타 연구소가 휴머노이드 로봇 기술을 혁신하기 위해 협력합니다. 도요타의 AI와 거대 행동모델(Large Behavior Models)을 아틀라스(Atlas) 플랫폼과 결합, 자동화와 인간-로봇 상호작용을 혁신하는 것을 목표로 한다고 하네요. 더 섬세하고 다양한 작업을 할 수 있는 로봇의 미래, 언제 도래할까요?
튜링 포스트 팀이 보고 있는 다른 뉴스레터와 글, 영상들
앤드류 응이 기후 변화에 대응하는 하나의 기술, SAI (Stratospheric Aerosol Injection; 성층권 에어로졸 주입), SAI의 영향을 테스트해 볼 수 있는 Planet Parasol Emulator, (그가 투자한 것으로 보이는) 몇 개의 스타트업에 대한 글, ‘Super Interesting about Geoengineering’을 썼네요.
과연 늘어나는 AI 수요를 감당할 만한 컴퓨팅 파워를 구축하는게 가능할 거냐는 논의는 많이 듣게 되는데요. 과연 컴퓨팅 파워가 충분하다면 - 그리고 그럴 거라고 생각된다고 하는데요 - , 당신은 무얼 할 거냐는 근본적인 질문과 생각을 Exponential View의 ‘What Would You Do with an Abundance of Computing Power?’에서 이야기합니다.
새로 나온, 주목할 만한 연구 논문
금주의 Top Pick
Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices —> [논문 보기]
A Survey on Deep Tabular Learning —> [논문 보기]
TapeAgents: A Holistic Framework for Agent Development and Optimization —> [논문 보기]
ServiceNow의 연구진이 발표한 TapeAgents는 LLM 에이전트 세션의 상세 로그("테이프")를 사용해서 세션 재개, 최적화를 가능하게 하는 프레임웍입니다. AutoGen (멀티 에이전트 지원)과 LangGraph(세밀한 제어)와 같은 다른 프레임웍의 기능들을 통합하면서도 독특하게 결합했습니다. TapeAgents는 디버깅, 파인튜닝, 프롬프트 튜닝을 지원하며, 다양한 에이전트의 설정으로 Llama-3.1-8B 모델을 비용 효율적으로 GPT-4의 성능 수준에 도달하도록 최적화할 수 있다는 것을 보여주었습니다.
Agent-as-a-Judge: Evaluate Agents with Agents —> [논문 보기]
메타 AI와 KAUST의 연구진이 다른 에이전트 시스템을 사용해서 에이전트 시스템을 평가하는 "Agent-as-a-Judge" 프레임웍을 제안했습니다. 이 팀은, 55개의 현실적인 AI 개발 과제를 포함한 DevAI 벤치마크를 소개했는데, Agent-as-a-Judge는 중간 피드백을 제공하며, LLM 기반 평가보다 더 나은 성능을 보이는데요. 사람 심사관의 평가와 높은 일치도(90%)를 보이면서도, 비용과 시간을 97% 이상 절감했습니다. 이 방법은 AI 시스템이, 다이나믹하게 스스로 개선하는 작업을 스케일있게 할 수 있는 잠재성을 보여주는 프레임웍입니다.
멀티모달 시스템과 시각적 이해
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation는 서로 다른 작업을 위한 시각적 인코더를 분리해서 멀티모달 모델을 향상시키는 방법을 연구하여, 모델의 유연성과 성능을 개선하고자 합니다. —> [논문 보기]
OMCAT: Omni Context Aware Transformer는 새로운 데이터셋을 사용해서 ‘Cross-Modal Temporal Understanding’의 성능을 향상, 멀티모달 모델의 성능을 개선합니다.
—> [논문 보기]γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models는 레이어를 동적으로 조정, 멀티모달 LLM을 최적화하는 데 초점을 맞춤으로써, 계산 시간을 크게 단축합니다. —> [논문 보기]
Self-Learning 및 Self-Improvement
Web Agents with World Models는 ‘월드 모델’ 접근 방식을 기반으로 장기적인 웹 작업과 의사 결정 효율성을 향상시키는 웹 에이전트를 개발합니다. —> [논문 보기]
Retrospective Learning from Interactions는 LLM이 외부 주석 없이도 사용자와의 상호작용을 통해 학습, 시간이 지남에 따라 성능을 향상시킬 수 있는 방법을 제안합니다. —>
[논문 보기]Looking Inward: Language Models Can Learn About Themselves by Introspection은 LLM이 스스로의 행동을 돌아보고 예측하는 능력을 탐구해서, 모델이 ‘특권적인 (Priviledged)’ 내부 접근 권한을 가질 수 있다는 점을 시사합니다. —> [논문 보기]
언어모델 최적화와 정렬 (Alignment)
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement는 RLHF에서의 그래디언트 얽힘 (Entanglement) 문제를 확인하고, 향상된 안전성과 정렬을 위한 전략을 제시합니다. —> [논문 보기]
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation은 검색 증강 생성 (RAG) 모델에서 지시 수행 능력을 향상시키기 위한 파이프라인을 제안합니다. —> [논문 보기]
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment는 다양한 전략으로 LLM을 정렬하기 위한 새로운 프레임웍을 제안, 안전성과 모델 정렬을 포괄적으로 향상시키도록 해 줍니다. —> [논문 보기]
트랜스포머 최적화
DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads는 LLM의 어텐션 메커니즘을 최적화하여 효율성을 향상시키고 메모리 사용량을 줄입니다. —> [논문 보기]
What Matters in Transformers? Not All Attention is Needed는 트랜스포머 모델의 중복성을 탐구, 어텐션 레이어 Pruning이 보여주는 효율성 관점의 장점을 보여줍니다.
—> [논문 보기]Thinking LLMs: General Instruction Following with Thought Generation은 내부적인 생각/사고를 생성하기 위한 훈련 방법을 제안하여 LLM의 지시 수행 능력을 향상시킵니다. —> [논문 보기]
모델 Adaptation 및 임베딩 전략
Your Mixture-of-Expert LLM is Secretly an Embedding for Free는 MoE(Mixture of Experts) 모델이 추가 학습 없이도 효과적인 임베딩 모델의 역할을 할 수 있다는 것을 보여줍니다. —> [논문 보기]
Model Swarms: Collaborative Search to Adapt LLM Experts via Swarm Intelligence는 군집 지능을 활용해서 협업적으로 Model Adaptation을 수행하고, 다양한 작업에 대해서 LLM을 최적화하는 방법을 제안합니다. —> [논문 보기]
안전 및 강화학습에서의 Calibration
Taming Overconfidence in LLMs: Reward Calibration in RLHF는 RLHF 과정에서 LLM의 신뢰도를 조정하는 새로운 방법을 소개해서, 정확도를 유지하면서 오류를 줄일 수 있도록 해 줍니다. —> [논문 보기]
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!
Reply