- Turing Post Korea
- Posts
- FOD#70: 'AI 학계'에 안긴 노벨 물리학상 + 구독자 '300' 돌파!
FOD#70: 'AI 학계'에 안긴 노벨 물리학상 + 구독자 '300' 돌파!
그 동안의 Top 3 포스트 + 금주의 주요 소식, 업계 동향과 연구
튜링포스트 코리아 예고:
AI 유니콘: 음성 합성, 오디오 어플리케이션 개발을 지원하는 AI 스타트업, 일레븐랩스 (ElevenLabs). 지난 1월 시리즈 B 완료하고, 최근 최대 30억 달러의 기업가치로 추가 펀딩을 시작하고 있죠? 일레븐랩스의 창업 스토리와 기술, 제품, 향후 전망 등에 대해 알아봅니다.
기대해 주세요!
올해 노벨 물리학상이 AI의 시대를 연 신경망 연구의 선구자 두 분, 존 홉필드 (91세) 프린스턴대 교수, 제프리 힌튼 (77세) 토론토대 교수의 품에 안겼습니다!
존 홉필드 교수는 1982년 ‘홉필드 네트워크’로 사람의 뉴런에 착안해서 인공 신경망 (ANN; Artificial Neural Network) 연구의 초석을 놓은 분입니다. 제프리 힌튼 교수는 ‘딥 러닝’ 개념을 처음 고안한 분들 중 한 분으로, ‘인공 신경망’이라는 용어를 쓰면 정부 과제도 받기 힘들었던 때 연구를 계속하면서, RBM (Resricted Boltzmann Machine)으로 경사 소실 문제를, Dropout으로 과적합 문제를 해결하면서 인공 신경망의 가능성을 보여준 분입니다.
BREAKING NEWS
The Royal Swedish Academy of Sciences has decided to award the 2024 #NobelPrize in Physics to John J. Hopfield and Geoffrey E. Hinton “for foundational discoveries and inventions that enable machine learning with artificial neural networks.”— The Nobel Prize (@NobelPrize)
9:47 AM • Oct 8, 2024
노벨상, 그것도 물리학상이 ‘AI 학계’의 품에 안긴 것에 대해서 의외라는 반응도 있지만, 물리학을 포함해서 모든 학문의 분야에 딥러닝이 얼마나 큰 영향을 끼치고 있는가를 생각해 본다면, 그 의미가 충분히 있다고 봅니다.
존 홉필드 교수, 제프리 힌튼 교수 뿐 아니라, 과학, 기술, 산업과 사회의 모든 측면에서 AI가 현재와 같은 관심을 받고 활용될 수 있게끔 오랜 시간 공헌해 오신, 다양한 분야의 모든 연구자들께 축하를 전하고 감사하는 시간이 되면 좋겠습니다.
튜링 포스트 코리아를 공식적으로 시작한 게 지난 8월 7일인데요. 지난 주에, 구독해 주신 분들의 숫자가 300명에 도달했습니다!
미국에 있는 Turing Post의 창업자 및 팀과 콜을 하면서, 어떤 비전을 갖고 있는지 이해하고 서로 생각을 맞춰보고, 튜링 포스트 코리아에 대한 논의와 테스트를 한 게 바로 엊그제 같은데, 벌써 시작한지 두 달이 흘렀네요. AI에 대한 뉴스와 관심이 워낙 뜨겁긴 해도, 또 좁다면 좁은 이 영역에서, 짧은 기간에 300분이 넘게 구독을 해 주고 계시고, 대부분의 포스트가 50%에 가까운 오픈율을 보이고 있어서, 이메일로 도착하면 그래도 한 번 열어서 읽어봐 주시는 분들이 많구나, 다행이다 생각하고 있습니다.
전체적으로 미국 튜링 포스트의 컨텐츠 80%, 제 생각과 의견을 20% 정도 담겠다는 생각을 가지고 글을 쓰고 포스팅을 하고 있는데요. 그 동안 하드코어 엔지니어나 연구자가 아니더라도, AI의 기술적 요소라든가 중요한 의미를 가지는 SOTA 연구, AI 유니콘에 대한 분석 기사, 빠르게 변하는 가운데 중요하다고 생각하는 AI 업계와 학계의 뉴스를 공유해 왔는데, 그 중에 특히 많은 분들이 읽어주신 글 Top 3는 다음과 같습니다:
우리가 주로 접하게 되는 AI 스타트업 소식은 미국의 스타트업 - 이미 엄청나게 커 버린 - 이거나, LLM 또는 파운데이션 모델을 만드는 영역의 스타트업이 대부분이죠. 중국의 대표적인 AI 스타트업으로서, 파운데이션 모델도 만들지만 ‘돈 벌자’는 마인드셋으로 어플리케이션을 열심히 하고 있는, 카이푸 리의 01.AI에 대한 글을 많이 봐 주셨습니다.
역시 ‘오픈AI’ 소식은 항상 핫한대요. 특히 최근 ‘말하기 전에 생각한다’는 컨셉으로 트레이닝한, 일종의 시스템 2 (System 2) 모델이라고 할 수 있을 o1, 그리고 o1을 둘러싼 Orion에 대한 생각을 담은 글도 많이들 봐 주셨네요.
다른 ‘빅테크’ 기업들에 비해서 AI에 관해서는 어쩌면 조금 뒤쳐져있다는 느낌마저도 주는, 보수적인 접근을 하고 있는 애플이, 사실은 제대로, 전략적으로 준비하고 있다는 생각을 하는데요. 이와 관련해서, 최고의 단말기를 가진 AI로 ‘사용자의 행동을 더 잘 이해하고 예측하겠다’는 목적으로 진행 중인 ‘UI-JEPA’ 모델 소개도 많은 관심을 가져 주셨습니다.
역시, 조금은 다른 관점에서, 다양한 AI 스타트업의 창업자와 기술, 제품에 대한 이야기, 급격하게 발전하는 AI 기술을 어떻게 바라보면서 현재를 준비하고 미래를 전망할 것이냐 등에 관심들이 많으신 걸로 보이는데요. 앞으로도 튜링 포스트 코리아는, 그런 ‘관점’, ‘생각’을 여러분과 공유할 수 있는 플랫폼이 될 수 있도록 해 보겠습니다.
돌이켜 보면, 저는 지난 2018년부터 어쨌든 AI 판에서 주로 사업 개발 및 기획, 세일즈, 투자 등의 관점에서 일을 하고 있는데요. 다소 하이레벨하긴 해도 생각보다 자주 마주치는 질문이 “AI가 사람을 지배할 거라고 생각하느냐”는 류의 질문입니다. 제 대답은 항상 “아니다” 쪽인데, 왜 그런지를 이해하려면 어느 정도 머신러닝/AI라는 기술의 작동 방식에 대한 단단한 이해가 필요하고, 그런 이해에 기반해서 시장과 기업, 스타트업, 그리고 사회를 보는 눈을 키워가는 것이 중요하다고 생각합니다.
튜링 포스트 코리아도 그런 관점에서 시작하게 된 것이기도 한데요. 다시 한 번 구독해 주신 여러분들께 감사드리는 마음에서,10월 18일까지 튜링 포스트 코리아의 ‘프리미엄 플랜 1년 구독’을 70% 할인한 가격에 하실 수 있도록 하고자 합니다:
(위 링크 클릭하시면 나오는 ‘업그레이드’ 페이지에서 ‘프리미엄 구독’의 ‘Annually’ 옵션을 클릭하시면 됩니다.)
튜링 포스트 코리아는 계속해서 ‘생성 AI 유니콘’, ‘AI 에이전트’, ‘AI 101’ 등의 섹션을 통해서 좋은 포스트로 여러분과 만나도록 하겠습니다. 자 이제, 지난 주에는 AI 업계와 학계에 어떤 일들이 있었는지 알아볼까요?
트위터 라이브러리 (Twitter Library) 🐦
LoRA (Low-Rank Adaptation)은 ‘모델의 파라미터들 중에 일부만 수정하면 되는 방식’으로, 파인튜닝을 쉽고 빠르게, 메모리도 덜 쓰면서 하도록 해 주는 대표적인 기법으로 인기있고 잘 알려져 있죠. LoRA를 업그레이드해서 특정한 시나리오에 대해서는 파인튜닝을 더 효율적으로 하도록 해 주는 방법들이 많이 있는데요.
12가지 LoRA 패밀리에 대한 자료를 뽑아서 정리해 봤습니다:
AI 업계 전문가들이 추천하는 서비스 👍🏼
지난 번에 웹 크롤러/스크래퍼인 Crawl4AI를 소개한 적이 있는데요. 오늘은 ‘검색엔진 결과 페이지와 그 정보’를 쉬운 포맷의 Raw Data로 변환해서, 개발자들이 쉽게 맞춤화된 솔루션을 만드는데 사용할 수 있도록 API로 제공하는 ‘SERP API’를 소개합니다.
SERP API라는 이름 자체가 ‘Search Engine Results Page API’네요.
*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!
금주의 주목할 만한 업계 동향 📰
오픈AI, 폭격하듯이 뉴스를 도배하다!
오픈AI, 역대 최대 규모의 VC 투자 라운드에서 자그마치 ‘66억 달러’의 자금을 확보하고 기업 가치를 1,570억 달러로 끌어올렸습니다. 더불어 40억 달러의 새로운 리볼빙 신용 한도까지 확보했습니다.
그리고 코딩 프로젝트를 위해서 챗GPT를 더 효과적으로 활용할 수 있도록 설계된 새로운 도구, ‘캔버스 (Canvas)’를 출시했습니다. 단순한 채팅을 넘어선 이 기능을 활용하면, 사용자는 즉각적으로 강조 표시, 편집, 피드백 등 고도의 AI 어시스턴트와 함께 실시간으로 코딩, 문서 작업 등을 할 수 있습니다. Claude보다 캔버스의 UI가 맘에 더 든다는 사용자들이 꽤 있어 보이네요.
ChatGPT's new canvas interface is a game changer. Just used it to create a tesseract/hypercube visualizer with ThreeJS.
Loving the unified UX — chat, inline comments, and watching GPT-4o work its magic on the code — all in one place. Does not get old.
Claude artifacts have some… x.com/i/web/status/1…
— Bilawal Sidhu (@bilawalsidhu)
6:23 PM • Oct 3, 2024
더불어, 언어 학습이라든가 고객 서비스 같은 유즈케이스에서 자연스러운 대화를 할 수 있도록, 지연 시간이 짧은 - 즉 반응성이 좋은 - 음성 어플리케이션을 구현할 수 있는 ‘Realtime API’를 출시했습니다. 오디오 토큰의 가격은 입력 당 0.06달러, 출력 당 0.24달러고, 유료 개발자를 위한 퍼블릭 베타 버전으로 제공됩니다.
‘재사용 토큰 (Reused Token)’에 대해서 50% 할인된 가격으로 제공하는 프롬프트 캐싱 (Prompt Caching) 기능을 도입했습니다. 길거나 반복되는 대화에 잘 쓸 수 있는 이 기능은 비용 뿐 아니라 대기 시간을 줄여주는데, 캐시된 토큰 백만 개당 1.25달러로 책정되었습니다.
비전 파인튜닝 (Vision Fine-Tuning)을 도입, 시각적인 검색 및 의료 분석 분야의 어플리케이션을 강화할 수 있도록 했습니다.
GPT-4o 베이스 모델로는 태깅에 실패했지만 Vision 파인튜닝으로 성공적으로 속도제한 표지판을 태깅한 예시. Image Credit: 오픈AI
오픈AI가 도입한 ‘Model Distillation’. 이 기능은 GPT-4o 모델의 출력값을 사용해서 더 작은 모델을 파인튜닝, 성능은 유지하면서도 비용을 절감할 수 있는 선택지를 제공합니다.
오픈AI가 GPT-4o의 흥미로운 유즈케이스도 하나 소개했는데요. 로버트 양 (Robert Yang) 박사가 이끄는 ‘Altera’ 프로젝트는 단순히 사람의 일을 보조해 주는 수준을 넘어서는 ‘디지털 휴먼’ 영역을 개척하고 있습니다. AI 에이전트가 GPT-4o로 구동되는데, 사용자와 협업할 뿐 아니라 감정적인 반응도 보입니다. ‘마인크래프트 친구’부터 ‘디지털 동료’까지, Altera의 에이전트는 Data Degradation 문제를 해결해 나가면서 장기적으로는 자율적으로 행동할 수 있는 에이전트가 되고, 사람의 인지적 기능을 아주 높은 수준으로, 사실적으로 모방하는 걸 목표로 한다고 합니다.
마지막으로, 샘 알트먼은 ‘2025년에는 사람이 하면 한 달 정도 걸리는 작업을 AI 에이전트가 한 시간 만에 완료하는 등 업계 판도가 바뀔 것이다’ 라고 했습니다.
IPO로 강수를 두며 엔비디아에 도전하는 ‘세레브라스 (Cerebras)’
피자 1판만한 사이즈의 거대한 칩으로 유명한 AI 반도체 스타트업, ‘세레브라스 시스템즈’가 70억 ~ 80억 달러 기업 가치로 나스닥 상장을 추진합니다. 세레브라스는 현재 G42라는 단일 고객으로부터 매출의 87%를 만들어내고 있는데, 2024년 상반기에는 6,660만 달러의 순손실을 기록했지만 CEO인 앤드류 펠드먼은 “세레브라스가 엔비디아의 시장을 ‘모조리’ 차지할 수 있다”고 외치며 낙관적인 전망을 설파하고 있네요.
AI에 대한 공격적인 투자는 계속된다!
시장의 AI 투자에 대한 긍정적인 전망과 걱정이 공존하는 가운데, 2개의 보고서가 ‘AI 투자는 지속될 것이다’라는 기조로 관심을 받고 있습니다:
CB Insights 보고서는, SSI (Safe Superintelligence)에 대한 10억 달러 투자, Baichuan AI에 대한 6억 8800만 달러 투자, Helsing에 대한 4억 8800만 달러 투자 등 메가 라운드는 ‘AI의 혁신적 잠재력에 대한 투자자들의 여전한 신뢰를 보여준다’고 이야기합니다.
중점적인 투자 분야는 LLM, GenAI, 엔터프라이즈 솔루션 등으로 보고 있고, 금융, 의료, 방위 산업 전반에 걸쳐서 AI 연계/통합을 하는데 상당한 투자가 이루어지고 있습니다.
경제적 불확실성이 있지만, AI는 ‘장기적 가치’ 그리고 ‘산업 전반에 미치게 될 영향’을 확신하는 VC들의 ‘핫한 투자처’로 여전히 남아 있습니다.
컨설팅사 베인앤컴퍼니는, AI 시장이 2027년까지 7,800억 ~ 9,900억 달러로 성장할 것으로 예상하고, AI 기술을 선도적으로 도입하는 얼리 어답터는 20%의 수익 증가라는 효과를 누릴 거라고 전망합니다. 물론, AI의 확장으로 인해서 데이터 센터, 전력, 노동력 등에 부담도 있다고 지적합니다.
자동화 및 AI에 집중적으로 투자하는 기술 기업은 동종 업계보다 뛰어난 성과를 거둘 것이고, 선도 기업은 후발 기업보다 3배 이상 생성형 AI에 투자할 계획이라고 합니다.
베인 캐피탈 벤처스, Poolside에서 AI의 바다에 깊게 발담그다
베인 캐피털 벤처스가 깃헙의 전 CTO인 제이슨 워너 (Jason Warner)가 이끄는 AI 스타트업 풀사이드 (Poolside)의 5억 달러 규모 시리즈 B 라운드를 리드했습니다.
풀사이드는 자사의 독자적인 기술, RLCEF (Reinforcement Learning from Code Execution Feedback)를 통해서 AI를 인간 수준 이상으로 코딩을 할 수 있도록 하는 걸 목표로 하고 있습니다.
풀사이드도 여러 가지로 재미있는 회사인데요, 미국에서 시작했지만 유럽에 (프랑스에 유럽 HQ가 있습니다) 아주 큰 규모로 팀을 확장하고 유럽에서 적극적으로 사업을 전개하고 있습니다. 이번 투자의 근거도, 기술적으로 코딩을 전문으로 하는 파운데이션 모델을 만드는 것 뿐 아니라 GTM (Go-to-Market)에 적극적으로 투자하겠다고 하면서, “제대로 작동하는 Revenue Engine을 만들겠다”고 한 바 있습니다 - 아마 이건 은행 등 대기업을 위해서 On-premise에 코딩 전용의 파운데이션 모델을 구축해 주는 사업을 포함할 것으로 예상됩니다.
블랙 포레스트 랩스, FLUX 1.1 [pro]와 새로운 API 공개
허깅페이스의 ‘Artificial Analysis Leaderboard for Text-to-Image Models’에서 1위를 차지하고 있는 이 모델은, 곧 고해상도 기능도 추가해서 출시될 예정이라고 합니다. 개발자들은 BFL API 출시와 함께 FLUX의 기능을 웹에 통합해서 확장성있고 경쟁력있는 가격 - 이미지 당 4센트 - 으로 이 API를 사용할 수 있게 될 겁니다.
Liquid AI, 액체 신경망 (Liquid Neural Network)과 파운데이션 모델을 개척 중
액체 신경망은 전통적인 신경망과 비교해서 소형화, 인과 관계, 해석력의 측면에서 강점을 가진, MIT CSAIL에서 개발한 모델 아키텍처인데요.
SSM (상태 공간 모델), 신경 연산자 (Neural Operator), DNA 파운데이션 모델 등 다양한 연구를 융합적으로 진행하고 있는 Liquid AI는, 생성형 모델링, 그래프 신경망, 오픈소스 LLM 파인튜닝 등 여러 가지 영역에서 공헌하면서 AI의 확장성, 그리고 혁신적인 성능의 달성을 주도하고 있습니다.
구글 검색, 눈 (Vision)과 목소리 (Voice)를 얻다
구글 렌즈가 이제 동영상과 음성 입력을 지원, 사용자가 동영상을 녹화하거나 사진을 찍으면서 음성으로 검색할 수 있는 기능을 제공합니다. 매월 200억 건의 시각적 검색이 이루어지는 AI Overview와 쇼핑 도구들도 점점 스마트해지고 있구요.
더불어, 미국에서는 더욱 다양한 콘텐츠와 관점을 제공하는 AI 기반의 검색 결과를 선보이고 있습니다.
Last but not least - ‘AI 윤리’ 분야의 리더, Abhishek Gupta 잠들다
Montreal AI Ethics Institute의 설립자이자 BCG의 Responsible AI 디렉터, Abhishek Gupta가 9월 30일 사망했습니다. Abhishek Gupta는 ‘책임있는 AI’ 영역의 글로벌 리더 중 한 명으로, 다양한 논문과 글, 학계/업계와의 협업을 통해서 ‘AI 윤리’란 무엇이고 어떻게 현실에서 구체화할 것인지에 대한 논의를 이끌어 왔습니다.
새로 나온, 주목할 만한 연구 논문
금주의 Top Pick
Movie Gen: A Cast of Media Foundation Models는 메타에서 공개한 새로운 동영상 생성 AI 모델로, 텍스트 입력만으로 고화질 동영상을 제작하고 정밀한 비디오 편집까지 가능합니다. 기존의 여타 비디오 생성 AI 기술을 뛰어넘는 성능을 보여줄 뿐 아니라, 영상에 더해서 오디오도 자동으로 생성해서 사용자 경험을 더 높여줍니다. 내년부터 인스타그램 등 메타의 플랫폼에서 활용할 수 있을 것으로 보입니다. —> [논문 보기]
There are several surprising and notable insights from this paper on Movie Gen by
@AIatMeta:
Scale and simplicity are key: The authors found that scaling up a simple Transformer-based model with Flow Matching yielded high quality results across multiple media generation tasks.… x.com/i/web/status/1…— TuringPost (@TheTuringPost)
6:21 PM • Oct 4, 2024
RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning (RLEF): 메타 AI의 연구자들이 실행 피드백 (Execution Feedback) 메커니즘을 사용해서 LLM이 반복적인 코드 합성을 더 잘 하도록 하는 RLEF를 개발했는데요. RLEF를 통해서 LLM이 실시간 피드백으로 여러 단계에 걸쳐서 코드를 개선할 수 있다는 걸 보여줬습니다. CodeContests에서 테스트한 결과, RLEF는 샘플 요구 사항을 10분의 1 이상 크게 줄이면서도 이전의 최첨단 모델을 능가하는 성능을 보였주었습니다.
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning:
애플의 연구자들이 텍스트가 풍부한 이미지를 이해한다거나, 시각적 정보를 참조하거나, 다중 이미지를 추론하는 등의 작업에서 탁월한 성능을 보여주도록 설계된 10억~30억 개의 파라미터를 가진 멀티모달 거대 언어모델 (MLLM) 제품군인 MM1.5를 소개합니다. MM1.5는 고품질 OCR 데이터 및 합성 캡션과 함께 ‘데이터 중심의 학습’으로 지속적인 사전 학습과 감독에 의한 파인튜닝을 강조합니다. 비디오 이해를 위한 MM1.5-Video와 모바일 UI 이해를 위한 MM1.5-UI 등 특수한 상황을 위한 변종 모델이 있고, 다양한 벤치마크에서 강력한 성능을 발휘합니다.
언어모델 및 General AI 추론 능력 강화
RATIONALYST: Pre-training Process-Supervision for Improving Reasoning은 ‘프로세스를 감독’해서 추론 작업의 성능을 개선하는데, 특히 수학 및 상식을 처리하는 작업에서 LLM의 성능을 향상시킵니다. —> [논문 보기]
Quantifying Generalization Complexity for Large Language Models는 모델 성능의 'Generalization Valley'를 강조하면서, 다양한 층위의 복잡성을 나타내는 여러가지 작업에서 LLM이 얼마나 잘 일반화되는지를 측정하는 프레임웍, SCYLLA를 개발했습니다. —> [논문 보기]
VinePPO: Unlocking RL Potential for LLM Reasoning Through Refined Credit Assignment는 보다 정확한 단계별 추론을 위해서 Credit Assignment를 개선, 언어모델에 대한 강화학습을 더 잘 하도록 해 줍니다. —> [논문 보기]
Not All LLM Reasoners Are Created Equal에서는 거대 언어모델이 Compositional Reasoning Task에서 - 특히 수학의 영역에서 - 어떻게 다른 방식으로 작동하는지 살펴봅니다. —> [논문 보기]
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations는 LLM이 Truthfulness를 인코딩하는 방법을 조사하고, 출력물에서 환각 (Hallucination)을 감지하는 방법을 제안합니다. —> [논문 보기]
Task-Specific Learning + Compositional Learning
Can Models Learn Skill Composition from Examples?는 작은 모델이 예제로부터 복잡한 기술을 일반화할 수 있는지 여부를 조사해서, 파인튜닝이 이전에 학습한 적이 없는 작업에 대해서도 성과를 향상시키는데 도움이 된다는 걸 보여줍니다. —> [논문 보기]
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis는 합성 편집 시퀀스에 대한 트레이닝으로 코드 생성 작업 성능을 향상시켜, 다양성과 출력 품질을 개선하는 방법을 보여줍니다. —> [논문 보기]
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning은 복잡한 실세계의 작업에서 잘 작동하도록, 트리 검색 및 Reflection 기법을 활용해서 자율적 에이전트의 성능을 어떻게 향상시키는지 보여줍니다. —> [논문 보기]
모델의 효율성 제고, 모델 배치 및 성능 스케일링
TPI-LLM: Serving 70B-Scale LLMs Efficiently on Low-Resource Edge Devices는 메모리 최적화 및 Latency Performance 최적화를 통해서 엣지 디바이스에 대규모 LLM을 배포할 수 있는 시스템을 소개합니다. —> [논문 보기]
InfiniPot: Infinite Context Processing on Memory-Constrained LLMs는 성능을 유지하면서도 제한된 메모리 리소스를 사용, 긴 컨텍스트를 효율적으로 처리하는 방법을 제공합니다. —> [논문 보기]
SageAttention: Accurate 8-Bit Attention for Plug-and-Play Inference Acceleration는 정확도를 유지하면서 양자화 기법을 사용해서 트랜스포머 모델을 가속화하는 어텐션 메커니즘을 제안합니다. —> [논문 보기]
연합학습과 분산학습
Selective Aggregation for Low-Rank Adaptation in Federated Learning은 분산된 클라이언트에서 지식을 선택적으로 공유하고 집계하는 방법을 도입, 연합학습 작업의 성능을 최적화합니다. —> [논문 보기]
멀티모달 모델과 비전-언어 통합
COMFYGEN: PROMPT-ADAPTIVE WORKFLOWS FOR TEXT-TO-IMAGE GENERATION는 사용자 프롬프트에 따라서 워크플로우를 조정, 생성된 이미지의 품질을 개선하는 시스템을 제시합니다. —> [논문 보기]
Contrastive Localized Language-Image Pre-training (CLOC)은 ‘세분화된 리전 기반 (Region-Based) 이해’라는 방식을 도입, 비전-언어 모델을 향상시켜서 정밀한 로컬라이제이션이 필요한 작업의 성능을 높여줍니다. —> [논문 보기]
신경망을 위한 최적화 기법
Old Optimizer, New Norm: An Anthology는 Adam, Shampoo와 같은 고전적인 최적화 도구를 다양한 기준에 따라 재구성하여 모델 학습의 효율성을 개선하는 새로운 방법을 제공합니다. —> [논문 보기]
Cottention: Linear Transformers with Cosine Attention은 코사인 유사성을 사용하는 새로운 어텐션 메커니즘을 도입해서 Long-Sequence 처리 작업의 효율성을 개선합니다. —> [논문 보기]
Hyper-Connections는 네트워크 계층 간의 연결 강도를 동적으로 조정, 학습 속도와 정확도를 향상시키는 Residual Connection의 대안을 제시합니다. —> [논문 보기]
지능, 그리고 학습 시스템의 근본적 기초
Intelligence at the Edge of Chaos는 ‘적당히 복잡한 (Moderately Complex)’ 시스템에서 학습된 모델이 어떻게 더 단순하거나 더 혼란스러운 데이터로 학습된 모델을 능가할 수 있는지 살펴보고, 지능이란 건 질서와 혼란 사이의 균형에서 나온다는 점을 시사합니다. —>
[논문 보기]Were RNNs All We Needed?는 RNN을 재검토하고 최신 아키텍처만큼 성능이 뛰어난 간소화된 버전을 제안, 트랜스포머 기반 모델의 지배력에 도전합니다. —> [논문 보기]
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!
Reply