- Turing Post Korea
- Posts
- FOD#69: 구글 노트북LM이 보여주는, 'AI 제품의 길'에 대한 힌트
FOD#69: 구글 노트북LM이 보여주는, 'AI 제품의 길'에 대한 힌트
출시 1년, 구글 노트북LM의 '히트 상품'이 되고 있는 Audio Overview + 금주의 주요 소식, 업계 동향과 연구
튜링포스트 코리아 예고:
AI 101: 모델 경량화 기법, DoRA, QLoRA, QDoRA는 무엇인가 알아봅니다.
AI 에이전트: 지난 에피소드 “개방성, 그리고 AI 에이전트’에 이어, ‘에이전트의 역사’에 대해 한 번 짚어보겠습니다.
기대해 주세요!
지난 주도 여느 주와 AI 판에 많은 소식이 있었지만, 제 눈에는, 딱히 새로울 것 없다면 새로울 것 없는, 구글의 AI 어시스턴트, 노트북LM (NotebookLM)이 눈에 계속 들어왔습니다. 2023년 7월 출시된, 최근의 AI 판에서는 꽤 오래 된(?) 제품이지만, 들어보지도, 사용해 보지도 않으신 분들이 더 많겠죠. 노트북LM이 기술적인 측면에서도, 사용자 경험의 측면에서도 흥미로운 점들이 있고, 특히 최근에 빠르게 진화해 나가면서 많은 관심을 받고 있는 만큼, 이번 주 FOD에서는 구글 노트북LM을 함께 살펴볼까 합니다.
Tailwind (순풍; 順風), 노트북LM이 되다
구글 랩스에서 개발을 시작한 노트북LM은, 처음에는 Tailwind라는 코드명으로 불렸다고 해요 - ‘사용자가 문서를 업로드하면 그걸 정리, 요약하고 인사이트를 찾아내고, 대량의 정보를 잘 관리하도록 도와준다’는 이 프로젝트의 목표를 더 잘 나타내는 이름으로 ‘NotebookLM’을 선택했다고 합니다.
구글 문서, PDF, 최근에는 유튜브 링크나 오디오 파일을 입력하면 인용문, 그리고 관련 인용문이 포함된 근거에 입각해서 답변을 제공해 주고, 마침 최근에는 ‘AI 팟캐스트를 만들어주는 기능’까지 추가했습니다. 소스를 업로드하면 대화라는 형태를 통해서 내용을 알려주고 요약해 주고 하는 것들이 아주 새롭고 획기적인 기능은 아니지만, 꽤 부드럽게 무난한 - 또는 상당한 - 퀄리티로 작업을 수행해 주면서 많은 사람들의 관심을 끌고 있습니다.
노트북LM을 한 번 시험해 보려고, 제가 작업을 하고 있는 책의 프로젝트에서 50개 정도의 파일을 업로드했어요. 이 파일들은 두 개 언어로 된 인터뷰 음성, PDF로 되어 있는 기사들, 문서로 된 사업 보고서들, 그리고 이 책의 초안이 있는 Google Docs 링크들이예요. 현재 일곱 번째 챕터를 작업하고 있는데, 40년 정도에 걸친 이야기를 다루는 내용이라서 아이디어가 어떻게 연결되고 흐르는지를 간결하고 이해하기 쉽게 정리하는 게 중요하거든요. 그런데 노트북LM이 몇 초 만에 아주 그럴 듯한 요약본을 만들어냈을 뿐 아니라, 이 챕터에 담을 만한, 미처 잊고 있던 요점을 떠올리는데도 도움이 됐어요. 물론 아직 탐색하고 시험해 봐야 할 것들이 많기는 해도, 구글 노트북LM은 상당히 인상적이었어요.
자 그래요. 뭐 편리한 도구이긴 해도, 아직 ‘깜짝 놀랄만한’ 뭔가는 아니다 싶죠?
사람들을 ‘깜짝 놀래킨’ 노트북LM의 새 기능
근데, 최근에 노트북LM의 새로운 기능으로 추가되어서 많은 사람들로부터 좋은 반응을 얻고 있는 기능이 있죠. 바로 ‘AI 기반 팟캐스트’를 생성해 주는 기능인데요. 그냥 업로드한 텍스트를 읽어주는 게 아니라, 두 명의 AI 호스트가 자료에 대해 심도있는 토론을 하는, 소위 ‘딥다이브 (Deep Dive)’ 성격의 대화를 하는 팟캐스트를 만들어줍니다. 이 두 캐릭터가, 자료에 대해서 이해하고 토론하고, 농담도 하고, 웃으면서 설명을 해요.
기존의 정보를 ‘새롭게 소비’하는 방법을 보여준다고 생각하구요, 음성으로 정보를 얻는데 익숙하신 분이라면 빽빽한 자료 읽는 대신 꽤 괜찮은 방법이 아닌가 싶습니다.
사용 예시를 좀 볼까요?
직접 한 번 해 봤습니다 - 제 글을 사용해서 만든 팟캐스트
일단, 제가 할 수 있는 기본적인 테스트 - 팟캐스트 생성 - 를 한 번 해 봤어요.
제가 이전에 브런치 스토리에 썼던 ‘인공지능은 정말 우리의 직업을 빼앗아갈까? - 2편’이라는 글이 하나 있습니다. 이 글은, ATM이 등장했을 때 은행 창구직원의 ‘직업’이 사라질 거라고 생각했지만, 오히려 시장 환경, 은행의 전략과 고객의 니즈 등이 다변화되면서 오히려 더 고도의 스킬을 요구하는 은행 창구 직원들이 일이 생겨나고, ATM이 그런 은행 직원의 수요를 늘리는 ‘스필오버 (Spillover)’ 효과에 대해 이야기하는 글이예요. ‘AI가 직업을 뺐냐 그렇지 않냐’ 류의 이야기에 관심있으신 분들은 한 번 보셔도 좋겠습니다:
어쨌든, 이 글의 링크를 노트북LM에 주고 아래 그림처럼 팟캐스트를 만들어봤어요 (공식적인 이름은 ‘Audio Overview’죠). 한 20~30초 정도 걸려서 오디오가 만들어졌는데, 물론 아직 한글은 안 되니 영어 버전이 만들어진 거죠.
Audio Overview 생성하고 들어봤습니다.
들어보고 깜짝 놀랐어요. 글을 읽어보신 분들이 들어보시면 아마 비슷한 감상일 것 같습니다. 팟캐스트에 두 명의 캐릭터가 등장해서, 진짜로 한 명은 진행자, 한 명은 제가 이야기하는 것 같은 - 내용적으로 말이죠 - 거예요. 거기다, 진짜 제대로 된 팟캐스트처럼, 배경이나 심화된 이해를 위한 설명도 있고, 흥미를 잃지 않고 들을 수 있게 구성이 되어 있더군요. 그냥 ‘간략한 요약’이나 ‘적당한 수준의 포맷 변경’ 정도가 아니라는 느낌이었습니다.
직접 한 번 해 봤습니다 - 허깅페이스의 토마스 울프가 제안한 ‘Life Hack’
허깅페이스의 Chief Science Officer인 토마스 울프 (Thomas Wolf)는, 기분이 좀 꿀꿀(?)하거나 다운되어 있다면, 자기 웹사이트나 링크드인 프로필 정보 등을 노트북LM에 올려서 오디오 팟캐스트로 만들어보면, 아마 다른 사람들 - 팟캐스트 진행하는 캐릭터들 - 이 내가 얼마나 대단한 사람인지 이야기하는 걸 들으면서 힐링이 될 수 있을 거라고 하네요 ^.^
Self-care life hack: if you feel a bit down/tired, paste the url of your website/linkedin/bio in Google's NotebookLM to get 8 min of realistically sounding deep congratulations for your life and achievements from a duo of podcast experts 😂
— Thomas Wolf (@Thom_Wolf)
3:09 PM • Sep 29, 2024
자, 추천대로 한 번 해 봤습니다.
역시 흥미롭고 재미있었어요. 단순히 프로필에 있는 커리어 뿐이 아니라 제 네트워크, 제가 수년 전부터 쓴 링크드인 포스팅 등을 넘나들면서 저에 대한 이야기를 나누는게요. 실제로 좀…힐링이랄까…누군가 나를 알아주는 - 조금 오버해서요 - 느낌? ^.^
저는, 누군가 내 주위에 있는 사람의 정보를 - 물론 개인정보를 보호하는 한도 내에서요 ^.^; - 잘 모아서, 구글 노트북LM에 주고 이런 팟캐스트를 만들고, 가능하다면 편집을 해서 선물해 주면 좋아할 것 같다는 생각도 해 봤어요.
여러분도 한 번 해 보시면 재미있을 것 같습니다.
안드레 카파시 (Andrej Karpathy)의 실험과 의견
안드레 카파시는 ‘GPT-2를 트레이닝하는 C 코드’를 노트북LM을 이용해서 팟캐스트로 만들었는데, 일부 내용을 본인의 의도와는 아무래도 다른 방식으로 구성하고 강조한 측면이 있을 수도 있지만, 팟캐스트가 재미있고 놀라울 정도로 일관성이 있다고 언급했습니다.
NotebookLM is quite powerful and worth playing with
It is a bit of a re-imagination of the UIUX of working with LLMs organized around a collection of sources you upload and then refer to with queries, seeing results alongside and with citations.
But the… x.com/i/web/status/1…
— Andrej Karpathy (@karpathy)
7:33 PM • Sep 28, 2024
노트북LM 이면의 기술
노트북LM은, 구글의 Gemini 1.5 Pro를 메인 모델로 구동되는데요. Gemini 1.5 Pro는 입력값에 따라 모델의 특정 부분만을 활성화해서 효율성을 높이는 MoE (Mixture-of-Experts) 아키텍처를 활용하는 트랜스포머 모델입니다. Long-Context를 잘 처리해서, 노트북LM은 한 번에 최대 1,500페이지의 정보를 다룰 수 있기 때문에 대용량의 데이터셋이나 복잡한 주제를 다루는 경우에 적합합니다.
노트북LM의 기술적 구성 요소는 아래와 같은 것들이 있는 걸로 알려져 있습니다:
RAG (Retrieval-Augmented Generation): 다양한 소스의 컨텐츠를 처리하기 위한 RAG 아키텍처를 활용합니다.
TTS (Text-to-Speech): 설득력있는 대화 환경을 조성하기 위해서 AI 팟캐스트 호스트의 음성을 생성합니다.
SoundStorm: 스크립트를 고품질의 매력있는 오디오, 자연스러운 대화로 변환합니다.
Disfluency Injection: 마치 사람이 대화하는 듯한 느낌을 주는 휴지 (Pause), 추임새 (Filler) 등 자연스러운 음성 패턴을 추가해서 대화가 더욱 사실적으로 들리게 합니다.
Prompt Engineering: AI 기반의 상호작용을 구조화하고, 호스트가 자연스러운 대화 톤을 유지하도록 프롬프트 엔지니어링 기법을 활용합니다.
생성형 AI 서비스의 새로운 UI/UX 탐색이자 흥미로운 활용 예
구글이 보여준 노트북LM - 좀 더 구체적으로는 이번에 런칭한 ‘Audio Overview’ - 은 ‘생성형 AI 기술의 강점을 살려주는 새로운 UI/UX의 탐색 사례라고 생각합니다. 안드레 카파시는 이렇게 이야기합니다:
“2인 팟캐스트 형식의 궁극적인 매력은 바로 이거라고 생각해요. 2인 팟캐스트는 LLM을 활용하는데 항상 방해물이 되는 두 가지 ‘즐거움의 장벽 (Barriers to Enjoyment)’을 없애줘요. 첫번째, ‘채팅’이란 건 생각보다 쉽지 않아요. 뭘 말하거나 물어봐야 할지는 사실 알기 힘들거든요. 2인 팟캐스트 형식에서는, 질문도 인공지능에게 맡기기 때문에, 동기식 (Synchronous) 대화의 제약을 없애고 훨씬 더 차분하게 내용을 듣는 경험을 할 수 있습니다. 두번째, 읽는 것 대비 그냥 기대서 대화를 듣는 게 훨씬 쉽습니다.”
구글 노트북LM은 이미 기술 전문가이든 아니든 누구에게나 유용한 기능을 제공하고, 특히 학생이나, 연구자, 작가 등의 일을 하는 사람이라면 즉시 활용해 볼 만하다고 생각합니다. Audio Overview 같은 기능은, 당장의 ‘실용성’과 ‘실험적’ 시도 사이에서 밸런스를 잘 맞추면서 생성형 AI 서비스가 나갈 길을 탐색하는 좋은 시도입니다.
구글 노트북LM을 어떻게 더 흥미롭게 활용할 수 있을까요? 또는 앞으로 이런 서비스는 어떻게 또 진화할까요? Audio Overview의 경우라면, 상호작용 (Interaction)과 캐릭터 (Persona)의 측면에서, 그리고 모달리티(Modality)의 측면에서 진화를 할 것 같습니다 - 마치 AI 캐릭터의 팟캐스트에 내가 또 하나의 참가자로서 원할 때 추가적인 질문이나 의견 개진을 한다든지 하는 식으로요. 또는 음성 외에 이미지, 영상 등으로 내용의 전달이나 상호작용을 더 풍부하게 하는 식으로요. 구글 노트북LM 뿐만 아니라, 쓸만한 생성형 AI 제품, 서비스는 이 세 가지 요소 - 상호작용, 캐릭터(라이제이션), 모달리티 - 를 어떻게 유즈케이스에 맞게, 또는 ‘신선하게’ 변주하느냐가 중요한 요소가 될 것 같아요.
물론, 아직 판단은 이릅니다. 이 ‘놀람’이 당장의 과민 반응일 수도 있죠, 어떤 AI 서비스든 완벽한 건 없으니까요. 하지만, 실용적인 측면에서, 구글의 노트북LM은 적어도 챗GPT나 Claude의 수준에서, 또는 그 이상에서 생산성과 재미를 다른 차원으로 끌어올리고 있는 도구라는 것만은 인정해야 할 것 같습니다.
트위터 라이브러리 (Twitter Library) 🐦
LLM이든 이미지 생성 모델이든, 누구나 AI 모델을 사용해서 다양한 작업을 할 수 있는 시대. AI 모델을 다룰 때, 생각보다 스트레스받을 때가, 내가 생각하는대로 모델이 작동하지 않을 때 - 엉뚱한 답을 내거나, 내가 생각하는 흐름대로 되지 않을 때 - 죠. 이렇게 AI 모델과 대화를 하거나, 질문을 하거나 하는 등의 상호작용이 생각보다는 까다로워서, 프롬프트 (Prompt) 그리고 프롬프트 엔지니어링 (Prompt Engineering)이 하나의 영역으로 부상하고 있죠 - 프롬프트 엔지니어를 억대 연봉이 고용한다느니 하면서 말이죠.
아래에, 여러 가지 인기있는 모델을 대상으로 하는 ‘프롬프트 엔지니어링’ 전문가로 거듭나는데 도움이 될, 무료 가이드 및 강좌 목록, 종합 가이드들입니다. 더불어, 혹시 자기만이 가진 팁이나 소스가 있다면 피드백으로 공유해 주셔도 좋겠습니다:
AI 업계 전문가들이 추천하는 서비스 👍🏼
오랜만에 돌아왔습니다 ^.^ 오늘은 오픈소스 웹 크롤러이자 스크래퍼, Crawl4AI를 소개합니다. 웹 스크래핑을 자동화해 주면서 아웃풋을 JSON이나 잘 정리된 HTML, Markdown으로 깔끔하게 뽑아줘서, LLM이 처리하게 좋게 최소한의 설정으로 AI 기반 프로젝트를 확장할 수 있게 해 주는 일종의 엔진 정도로 생각하면 될 것 같습니다.
Game changer for scraping.
This GitHub repo lets you easily scrape web pages and have the output in LLM-friendly formats (JSON, cleaned HTML, markdown).
Features
• Supports crawling multiple URLs simultaneously
• Extracts and returns all media tags (Images, Audio, and Video)… x.com/i/web/status/1…— Lior⚡ (@AlphaSignalAI)
4:56 PM • Sep 26, 2024
*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!
금주의 주목할 만한 업계 동향 📰
캘리포니아의 AI 규제법안, 벽에 부딪히다
캘리포니아의 AI 안전 관련 규제법안인 SB-1047. 한참 찬반 양론이 첨예하게 대립했던 법안인데요. 캘리포니아 주지사 ‘개빈 뉴섬 (Gavin Newsom)’이 ‘혁신을 저해하고 AI 기업의 (주 밖으로의) 이전을 촉발할 수 있다’는 우려를 이유로, SB-1047에 거부권을 행사했습니다. 이 법안은, 의무적인 안전 테스트, ‘킬 스위치’ 메커니즘을 통해서 강력한 AI 모델을 규제하는 걸 목표로 하는데, 오픈AI나 구글 같은 거대 기술 기업 - 및 다양한 학계, 업계 전문가들 - 은 강하게 반대하고 있는 법안입니다. 반대로, 지지자들은 아직 그 영향의 규모를 확인하기 어려운 AI의 위험을 방지해야 한다고 주장하고 있죠.
오픈AI, 다시 한 번 리더십 시험대에 오르다
CTO인 미라 무라티의 갑작스러운 퇴사에 이어, 최고연구책임자인 밥 맥그로우와 부사장 바렛 조프가 퇴사하면서, 오픈AI가 다시 한 번 리더십 개편의 과정을 맞이했습니다. CEO인 샘 알트만은 이 중역들의 사임에 대해 큰 걱정을 표시하지는 않았고, 앞으로 본인이 기술적인 문제에 더 집중하겠다고 - 외부 활동을 좀 줄이면서요 - 말했습니다. 지금 일어나고 있는 핵심 인재의 이탈이, 과연 1,500억 달러 기업 가치를 달성할 수 있을 것인지 여부, 그리고 샘 알트먼에게 주어진다는 7% 지분에 대한 소문, 영리 기업으로의 전환 등 때문인지, 아니면 - 어쩌면 - 스타트업이 성장하는 과정에서의 자연스러운, 있을 법한 리더십의 전환인지 아직은 판단이 쉽지 않네요.
그리고, 뉴욕타임즈에 따르면 오픈AI는 2023년 초 이후 매출이 1,700% 이상 성장했는데도 불구하고 2024년에 50억 달러의 손실을 예상하고 있습니다. 내년의 매출 목표는 116억 달러로, 1,500억 달러의 기업 가치로 70억 달러의 펀딩 라운드를 진행 중이죠. 재정적인 적자는 대부분 컴퓨팅 자원 및 운영 비용 증가 때문인데요. 이번 펀딩 라운드는 Thrive Capital이 주도하고 Microsoft가 참여합니다. Apple은 방금 투자 철회 협상을 종료했지만, 소프트뱅크는 5억 달러를 투자하겠다고 발표하기도 했네요.
한편, '블루베리 (Blueberry)'라는 이름의 새롭고 미스터리한 이미지 생성 모델이 FLUX.1을 제치고 리더보드에 등장했는데요. 굳이 추측을 해 보자면, 오픈AI의 모델이 아닌가 생각하는 사람들이 많습니다.
🥳 허깅페이스, 모델 ‘백만개’ 도달!
허깅페이스가 호스팅하고 있는 공개된 모델이, Llama 같은 유명한 모델부터 수많은 맞춤형 AI 모델까지 포함해서 총 1백만 개에 도달했습니다. 10초마다 새로운 리포지토리가 생성되는 이 대단한 플랫폼, 오픈소스 모델 기반의 맞춤형 AI가 미래라는 걸 증명하는 걸까요?
메타, 증강현실 (AR) 글래스 ‘오리온' (Orion)’ 공개: 미래는 Holographic?
지난 주에 있었던 Meta Connect 2024에서는 ‘프로젝트 오리온 (Project Orion)’이 씬 스틸러였습니다. 미래형 AR 글래스인 오리온은, 홀로그램 디스플레이, 그리고 손목의 제스처에 반응하는 인터페이스를 갖추고 있는데, 마치 공상과학 영화에 나오는 것 같은 경험을 제시합니다. 아직 개발 중이긴 하지만, 디지털 세계와 실제 물리적 세계를 제대로 결합한다면 아마도 증강현실을 새로운 차원으로 끌어올리는 제품이 될 수 있을 것 같습니다. 조금 더 자세한 분석 기사를 원하시면 Stratechery의 글을 추천합니다.
엔비디아, OctoAI를 집어삼키다 - 인수 열풍은 계속된다
OctoAI는 Run:ai, Deci AI, Shoreline, Brev.dev에 이어서 엔비디아가 2024년에 인수한 다섯 번째 스타트업이네요. 엔비디아가 AI 인프라 시장에 대한 지배력을 강화하면서, 독점 관련된 규제나 조사에 대한 우려도 깊어지고 있습니다.
마이크로소프트의 AI 신뢰성 확보 계획 - ‘보안’을 한층 강화한다
마이크로소프트가 ‘신뢰할 수 있는 AI’를 위한 최신의 계획을 발표했는데요. 강력한 보안, 안전, 개인정보 보호를 강조하고 있고, ‘Confidential Inferencing’ - 추론의 전 과정에서 데이터와 기밀을 보호하도록 하는 서비스 - 이나 ‘컨텐츠에 대한 안전 조치’ 등 새로운 기능을 통해서 AI가 만들어내는 결과물이 항상 중요한 규정이나 원칙을 준수하도록 합니다. AI 업계의 리더 중 하나인 마이크로소프트는 ‘책임감있는 AI’에 전력을 다하면서 사용자를 보호하는 동시에 최대한의 잠재력을 발휘할 수 있도록 하고 있습니다.
생성형 AI 도입, 어느 정도 되고 있나
생성형 AI가 얼마나 도입되고 활용되고 있나, 상당히 많은 조사와 연구가 되고 있는데요. NBER의 워킹페이퍼에서는, 2024년 8월까지 미국에서 18~64세 성인의 39.4%가 이 기술을 활용할 것으로 예상된다고 합니다 - 특히 젊고 교육 수준이 높은, 고소득층일수록 AI 활용을 더 많이 하고, 남성이 여성보다 더 많이 쓴다고 하네요. 직종의 관점에서는, 관리직, 기술직 등 다양한 직종에 걸쳐 광범위하게 사용되고 있지만, 생산직 근로자 사이에서도 꽤 의미있는 도입 사례가 많습니다. 생성형 AI는 주로 글쓰기, 관리 업무, 데이터 해석이라는 작업에 많이 사용되고 있습니다. 현재 업무 시간의 0.5%~3.5%에 해당하는 수준에서 AI가 도움이 된다고 하는데, 점점 생산성에 미치는 영향력은 커질 것으로 예상됩니다.
새로 나온, 주목할 만한 연구 논문
금주의 Top Pick
"Imagine yourself" is a new tuning-free model by @AIatMeta. It tackles image generation issues like lack of diversity and copying of reference, using:
- Synthetic paired data
- Fully parallel attention architecture
- Multi-stage finetuningLet's see how good this approach works
— Ksenia Se (@Kseniase_)
9:46 PM • Sep 28, 2024
Making Text Embedders Few-Shot Learners는 LLM의 ICL (In-Context Learning) 기능을 활용해서 ‘텍스트 임베딩’에 대한 새로운 접근 방식을 소개한다는 점에서 중요한 의미가 있습니다. 이 방법에서는, 몇 개의 예시를 통합하는 방식으로 임베딩의 성능을 크게 개선, 일반화 (Generalization)가 잘 되도록 하고 작업 관련성 (Task Relevance)을 향상시켜 줍니다. 이렇게 하면, 복잡한 모델 변경이 없이도 널리 사용되는 벤치마크(MTEB라든가 AIR-Bench)에서 아주 좋은 결과를 얻을 수 있어서, NLP 작업을 더 잘 할 수 있도록 하는 실용적이면서도 효율적인 솔루션이라고 생각합니다. —> [논문 보기]
특정한 도메인의 어플리케이션
Prithvi WxC: Foundation Model for Weather and Climate는 일기 예보 및 기후 모델링 분야를 다루는데, 허리케인 추적이나 기상이변 예측 같은 작업에서 기존의 방식보다 뛰어난 성능을 발휘한다고 합니다. —> [논문 보기]
TIME-MOE: Billion-Scale Time Series Foundation Models with Mixture of Experts는 MoE (Mixture-of-Experts) 아키텍처를 활용해서 시계열 예측 작업을 확장해서, 계산의 효율성을 최적화하고 예측의 정확도도 개선해 줍니다. —> [논문 보기]
Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments는 네트워크의 보안 작업에 거대 언어모델을 활용해서 복잡한 시나리오에서 레드팀 시나리오를 적용할 수 있는 좋은 성능을 보여줍니다. —> [논문 보기]
An adapted large language model facilitates multiple medical tasks in diabetes care는 당뇨병과 관련된 의료 업무에 적용할 수 있는 모델로, 임상 평가 및 개인 맞춤형 의료 서비스에서 탁월한 성과를 보여줍니다. —> [논문 보기]
Boosting Healthcare LLMs Through Retrieved Context는 Context Retrieval 시스템을 통합해서 의료 영역 관련 모델의 Factual Accuracy를 개선함으로써, 공개된 모델과 독점적 모델 간의 격차를 줄여줍니다. —> [논문 보기]
Zero-shot Cross-lingual Voice Transfer for TTS는 하나의 음성 샘플만 가지고도 다양한 언어에 대해서 Voice Transfer를 가능하게 해 주어, ‘음성의 유사성’을 확보하고 ‘구음장애가 있는 경우의 음성에 대한 적용성’을 크게 높여줍니다. —> [논문 보기]
멀티모달 및 비전 모델
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models는 사람이 직접 주석을 단 데이터셋을 사용해서 비전-언어 모델의 성능을 개선, 멀티모달 벤치마크에서 최첨단 성능을 달성하도록 해 줍니다. —> [논문 보기]
MONOFORMER: One Transformer for Both Diffusion and Autoregression은 Autoregressive (자동 회귀) 및 Diffusion (확산) 기반 작업 양쪽 모두에 단일 트랜스포머를 사용해서 텍스트 및 이미지 생성을 위한 아키텍처를 단순화, 전반적인 벤치마크에 대해서 꽤 경쟁력있는 성능을 달성할 수 있다는 걸 보여줍니다. —> [논문 보기]
Phantom of Latent for Large Language and Vision Models는 Latent Dimension을 일시적으로 확장해서 시각-언어 학습을 더 잘 하게 해서, 리소스가 제한된 환경에서 성능을 향상시켜 줍니다. —> [논문 보기]
EMOVA: Empowering Language Models to See, Hear, and Speak with Vivid Emotions는 음성, 시각, 텍스트 기능을 통합해서 음성 대화라든가 멀티모달로 진행하는 작업에서 감정적인 이해를 더 잘 하게 해 줍니다. —> [논문 보기]
Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections는 Diffusion (확산) 모델의 미러 리플렉션 생성을 개선해서, 이미지 편집 및 AR에 사용하기 위한, 정확한 기하학적 리플렉션을 보장합니다. —> [논문 보기]
효율화, 최적화
MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models는 ‘Learnable Pruning’ 방법을 적용해서, 추론 비용을 줄이고 거대 언어모델의 효율성과 성능을 모두 개선해 줍니다. —> [논문 보기]
Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction는 입력 토큰을 줄여서 Long-Context 모델을 최적화함으로써 성능 저하가 없이 더 빠르게 작업을 처리하고 메모리도 조금만 사용할 수 있도록 해 줍니다. —> [논문 보기]
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models는 논리적 프롬프트를 통합하는 방식으로 다양한 추론 작업에서 성능을 향상시켜 줍니다. —> [논문 보기]
강화학습 (Reinforcement Learning) 관련
REWARD-ROBUST RLHF IN LLMS는 불확실성 (Uncertainty)을 고려한 강력한 보상 모델을 도입, 학습 안정성을 높여서 사람의 직접 피드백을 통한 강화 학습을 개선해 줍니다.
—> [논문 보기]RRM: Robust Reward Model Training Mitigates Reward Hacking은 보상 모델 학습을 강화해서 ‘보상 해킹 (Reward Hacking)’을 방지하고, 거대 언어모델에서 선호도 조정(Preference Alignment)을 더 잘 할 수 있도록 해 줍니다. —> [논문 보기]
AI 비전문가를 위한 도구나 프레임웍
Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts는 멀티 에이전트 간 협업을 통해서 프롬프트 생성을 자동화해 줌으로써, AI 비전문가라 하더라도 고품질의 LLM용 프롬프트를 용이하게 만들 수 있도록 사용 편의성을 개선해 줍니다. —> [논문 보기]
NoTeeline: Supporting Real-Time Notetaking from Keypoints with Large Language Models는 마이크로노트를 전체 길이의 노트로 확장해서 사용자의 실시간 필기 작업을 도와주고, 필기 효율과 품질을 향상시킵니다. —> [논문 보기]
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!
Reply