- Turing Post Korea
- Posts
- FOD#68: AI를 '평가'한다는 것의 의미
FOD#68: AI를 '평가'한다는 것의 의미
마이크로소프트의 '유레카!'에 숨어있는 뜻 + 금주의 주요 소식, 업계 동향과 연구
튜링포스트 코리아 예고:
AI 101: AI2 (앨런AI 연구소)와 AI 스타트업 Contextual AI, 프린스턴대, 워싱턴대 연구원들이 공동 개발, 오픈소스로 공개한 MoE 모델, OLMoE에 대해서 알아봅니다.
Global AI Affairs: 지난 6개월간 중국의 AI 씬 (Scene)에 어떤 변화가 있었는지 한 번 확인해 보겠습니다.
기대해 주세요!
지난 주인 9월 18일, 마이크로소프트에서 LLM과 AI를 평가하는 새로운 기준이라는 화두를 내세우면서 ‘유레카 (Eureka)’라는 이름의 오픈소스 프레임웍을 발표했습니다. 단순하게 점수를 비교하는 방식의 기존 벤치마킹 방법을 벗어나서, 모델의 상세한 강점과 약점을 다각적으로 파악하고자 만들어진 프레임웍인데요. 유레카 발표와 함께 최신의 AI 모델 12개를 심층 분석한 리포트도 내놓았습니다.
‘유레카’는 기존에 단순한 하나의 ‘점수’로만 모델의 성능을 비교하던 방식을 지양하고, 각각 모델이 가진 강점, 약점을 다각적으로 파악하는데 초점을 맞췄다는 점을 차별화 요소로 내세우고 있는데요. 실제로 유레카를 통해서 살펴본 많은 모델이, 표준 벤치마크 테스트에서는 비슷한 점수로 나타나도 실제로 사용하는 기술, 능력치가 다 다를 수 있다는 점에서 흥미롭습니다.

Image Credit: Eureka ML Insights - 평가결과 요약
사실 ‘AI 모델을 평가한다’는 건, 우리가 흔히 듣고 보는 ‘LLM 리더보드 순위’를 매기는 것을 넘어서 훨씬 더 복잡하고 생각할 게 많은 작업입니다. 최근에 어떤 AI 뉴스레터에서 “o1-preview의 성능이 우리의 바이브 체크 (Vibe Check) 평가를 넘어서는 결과를 보여준다”는 글을 보고 나서, 한 번 우리가 AI 모델을 어떻게 평가하고 있는지에 대해서 이야기를 해 봐야겠다는 생각이 들었습니다.
벤치마크의 탄생: AI 모델의 발전 수준을 우리가 제대로 평가하고 있는 걸까요?
잠깐, 1900년대 중반으로 한 번 시간을 거슬러 올라가 볼께요. 당시는 AI가 등장하고 발전하기 시작한 초기 단계였고, ‘체스’같은 게임, ‘OCR (광학 문자 인식)’ 같은 태스크가 ‘AI의 기능을 입증’하기 위한 테스트로 주로 사용되었습니다. 1980년대에 이르러서야 현대적인 형태의 벤치마크가 등장하기 시작했는데, 주로 ‘음성인식’이라든가 그 유명한 ‘ImageNet’ 같은 데이터셋 기반의 챌린지가 등장하면서부터라고 봐야 할 겁니다. 이런 챌린지나 대회들이 아주 중요한 역할을 한 건 사실이지만, 또 반면에 ‘AI의 발전상을 측정하는 사실상 유일한 척도’로 이런 벤치마크에 지나치게 의존하게 되는, 아주 부정적인 결과를 낳기도 했습니다.
지금은, 우리 모두 수많은 벤치마크에 둘러싸여 있죠 - 특히 LLM을 평가하는 벤치마크는 MMLU, GSM8K 등 어지러울 정도로 많습니다. 빅테크, AI 스타트업 가릴 것 없이 ‘리더보드’에서 높은 순위를 차지하고 싶어하고, 아주 미세한 차이로라도 순위의 계단에서 윗자리를 차지하기 위해서 많은 노력을 기울이죠. 문제는, AI의 ‘역량’이 일반화되고 확대되면서 이걸 ‘측정’하는 방법도 복잡해질 수 밖에 없다는 겁니다.
‘벤치마크 숭배’의 현실
여기에 더해서, 소위 말하는 ‘불편한 진실’이 하나 더 있습니다. 대부분의 경우, ‘AI 모델에 대한 평가’가 더 이상 객관적으로 측정 가능한 정량적 성과에만 초점을 맞출 수는 없다는 겁니다. 특히 LLM의 시대에는 더 그렇죠. 시중에 존재하는 수많은 평가가, 사실 ‘바이브 체크 (Vibe Check)’ - 분위기 체크 정도라고 할께요 - 라고 부르는 것과 연결되는 추세라고나 할까요? 이게 현재 사람들이 AI 모델과 상호 작용을 하고 평가하는 방식을 설명하는 가장 좋은 용어라는게 아쉽지만, 어쨌든 현실은 그렇습니다.
공식적인 ‘벤치마크’는 이런 ‘분위기’, 즉 ‘뉘앙스’를 포착하는데 부족한 게 사실입니다. ‘요약’이라는 기능을 예로 들어보자면, 사람의 ‘판단’ - 여기에 ‘뉘앙스’가 뭔가 좌우를 할 수 밖에 없겠죠 - 을 개입시키지 않고 텍스트를 줄이고 요약하는 LLM의 능력을 제대로 평가한다는 건 불가능하겠죠. 도대체 ‘우아함’, ‘관련성’, ‘어조’ 같은 걸 어떻게 정량화할 수 있을까 하는 건 쉽게 판단하기 어렵잖아요?
‘벤치마크’의 문제점으로 흔히 지적되는 것 중 또 하나가, 이게 마치 ‘게임’이나 ‘시험’처럼 되기 쉽다는 겁니다. AI 모델이 이전에 경험한 적 있는 테스트 데이터를 ‘외울 수 있다’는 건 잘 알려진 사실이구요. 벤치마크에 포함된 테스트 항목을 직접 트레이닝 과정에서 AI 모델에 노출시키지 않으려고 갖은 노력을 다 한다 하더라도, 여전히 LLM이 간접적으로 해당 테스트 데이터 - 또는 유의미하게 유사한 데이터 - 를 학습할 방법과 가능성은 많습니다. 결국 AI 모델의 평가가 ‘실제 세계, 실제 환경에서의 적응력’이 아니라 ‘미리 정해진 벤치마크를 얼마나 잘 수행하느냐’를 중심으로 이루어지게 된다는 겁니다.
바로 위에서 언급한 마이크로소프트의 ‘유레카’와 같은 시도가, 각 모델이 뛰어난 부분, 뒤처지는 부분을 명확하게 구체적으로 보여주는 일종의 레이더 차트를 제공해서, ‘특정한 벤치마크에서 높은 순위를 차지했다’는게 그 모델이 ‘최고’라는 환상을 깨뜨리려는, 바람직한 방향의 시도가 아닌가 생각합니다.
벤치마크가 ‘혁신의 장애물’이 되지 않도록 해야
그런데, 어떤 테스트건 간에 거기서 우수한 성적을 거둔 모델이라면 ‘혁신적이다’라고 할 수 있을까요? 꼭 그렇지는 않죠. 2016년 있었던 구글 딥마인드의 알파고와 이세돌 9단 대국을 기억하시나요? 제 2국에서 이세돌 9단에게 ‘알파고가 그냥 패턴을 계산하는 기계가 아니구나’라는 깨달음을 준 37수, 이 37수는 그 누구도 예상하지 못한 수였고 그래서 전세계를 놀라게 했습니다. ‘벤치마크’로는 이런 수를 본다 하더라도 그 의미를 알 수 없었을 겁니다. 사람만이, 바로 그 기계와 직접 상호작용을 하는 사람만이 그 수의 의미를 알 수 있었죠.
안드레 카파시가 전에 테슬라에서 일할 때, ‘내 업무 시간의 3분의 1은 좋은 평가 시스템을 구축하는데 쓰인다’고 한 적이 있습니다. 이렇게 업계 최고의 인재들이 노력을 퍼붓는데도 불구하고, 현존하는 최고의 벤치마크조차도 AI 모델을 사용하는 우리 사용자들이 직접 느끼는 ‘질적인 경험’과 일치하지 않는 경우가 많습니다. 이렇게, ‘벤치마크가 측정할 수 있는 것’과 ‘실제 중요한 것’, 즉 ‘현실에서 AI 모델이 어떻게 작동하고 사용자에게 어떻게 영향을 주는지’ 사이의 격차는 계속해서 커지고 있습니다.
다시 ‘바이브 체크’로 이야기가 돌아옵니다 - 우리가 흔히 보는 ‘벤치마크’처럼 방법론이라는 관점에서 엄격하지는 않지만, 정량적인 ‘수치’만으로는 놓치기 쉬운 것들, 즉 사람이 실제로 AI와 상호 작용하는 방식을 포착하는 현재의 방식과 흐름이 바로 ‘바이브 체크’라는 단어로 표현된다고 할 수 있을 것 같습니다.
마지막으로:
여러분들도 ‘최고의 모델이 뭘까’ 고민도 하시고 주변에서 그런 질문도 많이 받으시죠? 제 개인적인 기준에서는, ‘최고의 모델’은 바로 ‘내가 함께 작업하는 방법을 계속 연습한 모델’이라고 생각합니다. 바로 나와 라포 (Rapport)를 쌓은 모델이라는 거죠. 하려는 작업마다 다를 수 있지만, 지금은 저에게는 바로 챗GPT가 최고의 모델 - 엄밀하게는 서비스 - 입니다. 챗GPT와 어떻게 대화하는지를 가장 잘 알고, 익숙해져 있죠. 물론, 다른 분들께는 Claude나 Perplexity가 최고의 모델이자 서비스일 수 있을 겁니다.
‘최고의 모델’이 리더보드에서 가장 높은 점수를 받은 모델이 아니라, 나와, 우리와, 그리고 우리 회사와 1:1의 사람/회사 대 기계 간의 라포를 쌓은 모델이라고 진짜 생각할 수 있다면, 그게 AI의 앞으로의 발전 방향, 그리고 그걸 대하는 우리의 자세에 대해서는 뭘 의미하는 걸까요? 여러 가지 시사점을 끌어낼 수 있는, 한 번 여러분 주위 사람들과 이야기해 볼 만한 토픽인 것 같지 않으세요?
트위터 라이브러리 (Twitter Library) 🐦
‘사람 수준’의 추론 능력을 갖춘 AI 시스템을 만들고, 전반적인 AI 시스템의 지능을 향상시키는데 단초를 제공할 거라고 생각하는 여러 가지 기법, 방법론들이 있었지만, 아직 어떤 기술이 AGI로 가는 핵심이다’라고 많은 사람들이 공감하는 특정한 길이 있는 것 같지는 않습니다. 그래도, 현재 어떤 각도의 접근 방법들이 AGI로 가는 탐색의 과정에 있구나 알아보는 건 의미도 있고 흥미로운 일이기도 하죠.
지금까지 튜링 포스트 코리아에서 다양하게 커버했던 기법과 연구들을 중심으로, AGI로 가는 길을 모색하는 8가지 접근 방법을 정리해 봤습니다:
*아직 튜링 포스트 코리아 구독 안 하셨나요? 구독해 주시면 매주 중요한 AI 뉴스를 정리한 다이제스트를 받으실 수 있습니다!
금주의 주목할 만한 업계 동향 📰
샘 알트만이 캠핑가서 들려주는 것 같은 이야기 : ‘The Intelligence Age’
샘 알트만과 같이 어딘가 깊은 숲 속으로 캠핑을 갔다고 상상해 보세요. 공기는 쌀쌀하고, 머리 위에 수많은 별이 반짝이고 있어요. 발 밑에는 불이 아늑하게 피어오르고, 눈 앞에서 샘 알트만이 ‘The Intelligence Age’를 시처럼 낭독하고 있네요…이런 분위기의 글이예요. 한 마디로 요약하면 이렇습니다: “AI는 딥러닝을 통해서 전례없는 번영과 혁신을 가져올 거고, 인류의 발전에 혁명적인 기여를 할 겁니다” - 지나치게 기계적인 독해를 하거나 의미를 찾을 필요는 없는 글이라고 생각합니다.
마이크로소프트 리서치: 유레카 (Eureka)로 AI의 숨겨진 ‘발톱’과 ‘살점’을 드러내다
위에서 언급했듯이, 마이크로소프트에서 발표한 ‘유레카’ 프레임웍은 지금 주류가 되어 있는 ‘화려한 리더보드들’에 도전합니다. 그리고 우리가 ‘비슷’하다고만 생각했던 12개의 선도 모델들이 실제로는 얼마나 다른 특성을 지니는지 보여줍니다. Object Recognition이나 Spatial Reasoning은 여전히 AI 모델이 어려워하는 ‘아킬레스건’으로 남아있고, 언어 능력은 물론 많이 좋아졌지만 문맥이 길 때의 추론이나 정확도는 55% 이하로 떨어지죠. GPT-4o나 Claude 3.5 Sonnet 같은 SOTA 모델조차도 ‘하위 호환성’이나 ‘응답의 무작위성’이라는 잣대로 보면 그리 인상적이지 않습니다. 유레카는 ‘AI 평가 기준’을 새로운 차원으로 높이는 것을 목표로, AI 모델을 바라보는 새로운 관점을 제공합니다.

Image Credit : 마이크로소프트
역시 거대 공룡기업, 마이크로소프트
마이크로소프트, 블랙록, Global Infrastructure Partners, 그리고 MGX가 중량감있는 파트너십을 통해서 ‘미국의 데이터 센터와 전력 공급 시설에 1,000억 달러를 투자하겠다’는 모토로 ‘Global AI Infrastructure Investment Partnership (GAIIP)’을 출범했습니다. 엔비디아와 힘을 합쳐, 이 파트너십은 AI 혁명이 실제적으로 디지털 경제를 재편할 수 있도록 하는 동력을 제공할 것으로 보입니다.
마이크로소프트의 또 다른 이니셔티브는 ‘핵’입니다. Constellation Energy와 20년 계약을 체결해서, 쓰리마일 아일랜드의 원자력을 사용해서 마이크로소프트의 데이터 센터에 전력을 공급하겠다는 계획입니다. 아직 규제 당국에서 허가를 보류하고는 있지만, 이런 계약은 점점 증가하기만 할 AI 기반의 전력 수요를 충족하는데 원자력 에너지에 점점 더 의존할 수 밖에 없을 거라는 걸 시사합니다.
그록 (Groq)과 아람코, 함께 사우디 아라비아의 ‘AI 야망’에 숨을 불어넣는다
이 두 회사는 함께 사우디 아라비아에 세계 최대 규모의 ‘AI 추론 데이터 센터’를 구축하고 있습니다. 우선 19,000개의 LPU (Language Processing Unit)로 시작해서 최대 200,000개까지 확장할 계획을 갖고 있는 이 데이터 센터는 중동, 아프리카, 인도 전역의 AI 시스템을 지원하는 게 목표라고 하는데요. 이 데이터 센터는 엔비디아의 독주에 대한 그록의 도전장이라고 할 수 있겠습니다.

Image Credit: Groq
Perplexity AI의 ‘광고 플레이’: 3,000억 달러짜리 구글 검색 제국에 도전한다
Perplexity AI가 나이키, 메리어트 등의 브랜드와 협상을 해서 “Sponsor Questions”라는 서비스를 출시해서 디지털 광고계를 뒤흔들고 있습니다. 이건 구글의 링크 기반 경매 광고와는 다르게, ‘광고주가 승인한, AI가 생성한 답변’을 제공하는데요. 구글보다 훨씬 CPM이 저렴해서, 프리미엄 브랜드에게는 어필할 수 있는 옵션이라고 합니다. 그렇지만 Perplexity의 진짜 성공 여부는 스케일링이 가능하냐에 달려 있는 상황이죠 - 지난 7월 2억 5천만 건의 검색 질의를 달성하기는 했지만, 이건 구글에 비교하면 너무나도 미미한 수준이니까요.
라이온스게이트, 런웨이와 함께 ‘AI 마법’의 세계에 들어서다
양사의 선도적인 파트너십을 통해서, 라이온스게이트와 런웨이는 라이온스게이트가 보유하고 있는 방대한 영화 데이터를 기반으로 한 맞춤형 AI 모델을 개발하고 있다고 합니다. 영화 산업의 멀지 않은 미래에 ‘AI가 공동 감독을 하는’ 시대가 올 지도 모르겠네요.
세일즈포스 벤처스, AI에 올인하다
세일즈포스 벤처스가 ‘5억 달러 규모의 신규 펀드’를 조성, 18개월 만에 총 10억 달러에 달하는 AI 펀드를 유치하면서 AI 투자에 박차를 가하고 있습니다. 세일즈포스는 ‘신뢰와 책임을 우선시’하면서 시장을 혁신하는 AI의 발전을 주도하겠다는 모토를 걸고, 앤쓰로픽, 허깅 페이스 등의 혁신적인 스타트업들을 지원하고 있습니다.
튜링 포스트 팀이 보고 있는 것들
Jim Fan은 엔비디아의 시니어 리서치 매니저이자 Embodied AI Lab (GEAR 그룹)을 이끌고 있는 리더인데요. 엔비디아 뿐 아니라 다른 회사들이 발표하는 새로운 모델들에 대해서도 다양한, 볼만한 의견들을 개진하기 때문에 잘 팔로우하고 있습니다. Jim Fan이 세콰이어 캐피탈과의 팟캐스트에서 ‘휴머노이드 로봇과 에이전트에 대한 생각과 전망’을 이야기합니다.
‘게임’은 역사적으로 AI 발전의 최전선에서 기술의 ‘평가’ 수단으로 많이 활용되기도 했고, 더 광범위하게 적용할 수 있는 다양한 알고리즘의 개발에 기여해 온 영역이죠. 오픈AI의 Noam Brown이 포커, 바둑 등의 게임에서 최근 AI 기술의 혁신적 발전상 - 특히 Search와 Planning 관점에서 - 을 돌아보고, 향후의 연구 방향과 영향에 대해서 이야기합니다.
새로 나온, 주목할 만한 연구 논문
Kolmogorov-Arnold Transformer (KAT) is a new version of the transformer offered by @NUSingapore:
▪️ It uses Kolmogorov-Arnold Network (KAN) layers instead of traditional MLP layers.
▪️ KAN allows the KAT model to capture more complex relationships in the data.
▪️ Group KAN:… x.com/i/web/status/1…
— TuringPost (@TheTuringPost)
12:12 AM • Sep 19, 2024
금주의 Top Pick : 새로운 모델
시각-언어 및 멀티모달 모델 : 시각 및 텍스트 입력 정보 간의 통합, 상호작용 개선
Qwen2-VL은 해상도의 유연성을 더 개선해서 시각 언어 모델이 ‘세계의 인식’을 더 잘 하도록 하고, Video Understanding을 포함한 다양한 멀티모달 작업에서 이전 모델의 성능을 능가하는 모습을 보여줍니다.
코드 중심 (Code-Centric) 언어모델 : 모델의 코드 생성, 추론, 코드 완성 등의 성능 개선
Qwen2.5-Coder는 이전 모델을 기반으로 코드 관련 벤치마크 성과를 개선, 실제 코딩 작업에서 더 좋은 성능을 보일 수 있도록 변형된 모델을 제공합니다.
스피치 및 대화 모델 : 음성과 텍스트를 통합, 다이나믹한 실시간 대화 및 지연 시간 개선
Moshi는 지연 시간을 극적으로 줄여서 더 자연스러운 음성 대화를 지원하고, 실시간 대화 시스템용으로 다이나믹한 음성 인식 및 대화를 가능하게 합니다.
거대 언어모델 및 최적화
Claude’s “Contextual Retrieval” Revolutionizes AI Knowledge는 Contextual Embedding을 통합해서 RAG 성능을 크게 향상시켜서, 고객 지원이라든가 법률 분석 등 대규모의 지식 검색이 필요한 작업의 정확성을 크게 개선해 줍니다. —> [논문 보기]
Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization은 사전 학습된 작은 모델을 더 큰 모델로 효율적으로 확장, 정확도를 잃지 않고 학습 속도를 2~4배까지 높일 수 있는 방법인 HyperCloning을 제안합니다. —> [논문 보기]
Schrödinger's Memory: Large Language Models는 LLM의 메모리 메커니즘이 슈뢰딩거의 고양이 역설 - 쿼리할 때만 존재하는 현상 - 처럼 작동한다고 주장하면서, 이런 현상을 사람의 기억과 비교해서 보여줍니다. —> [논문 보기]
RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval은 Key-Value 벡터를 검색해서 Long-Context LLM 추론 속도를 높이고 정확도를 유지하면서 지연 시간을 단축하는 접근 방식을 소개합니다. —> [논문 보기]
Promptriever: Instruction-Trained Retrievers Can Be Prompted Like Language Models는 자연어 프롬프트에 적응하는 검색 모델을 생성해서, 검색 및 지시 (Instruction) 작업 모두에서 성능을 향상시키는 모습을 보여줍니다. —> [논문 보기]
모델 안전성, 출력값 오류 처리 및 자가 교정 (Self-Correction)
Language Models Learn to Mislead Humans via RLHF는 는 그럴듯하지만 거짓인 증거를 만들어내서 의도하지 않았지만 사람을 오도할 수 있는 RLHF 훈련 모델의 위험을 식별, 현재 활용되는 Probing 기법의 한계를 보여줍니다. —> [논문 보기]
Training Language Models to Self-Correct via Reinforcement Learning은 수학이나 프로그래밍 같은 복잡한 작업에서 LLM의 자가 교정 (Self-Correction) 기능을 향상시켜 한층 더 좋은 결과를 달성하는 강화학습 접근방식, SCoRe를 소개합니다. —> [논문 보기]
Jailbreaking Large Language Models with Symbolic Mathematics는 기호 수학 (Symbolic Mathematics)를 활용해서 LLM의 안전 메커니즘을 우회하는 방법을 보여줌으로써 기존에 고안된 안전장치의 취약점을 드러내 보여줍니다. —> [논문 보기]
수학적 추론 및 상징적 추론
To CoT or Not to CoT? Chain-of-Thought Helps Mainly on Math and Symbolic Reasoning은 CoT 프롬프팅을 평가해 보고, CoT가 주로 수학적, 상징적 추론 과제에서는 성과 향상에 도움이 되지만 상식이나 지식이 필요한 과제에서는 그 이득이 제한적이라는 점을 보여줍니다. —> [논문 보기]
Implicit Neural Representations with Fourier Kolmogorov-Arnold Networks는 ‘암시적 신경망 (Implicit Neural Network)’의 Frequency Representation을 개선해서 3D Occupancy Volume의 표현이나 이미지 처리 등의 작업에서 탁월한 성능을 보여주는 모델, FKAN을 소개합니다. —> [논문 보기]
개인화 및 멀티모달 학습
LLMs + Persona-Plug = Personalized LLMs는 경량 플러그인 모듈로 사용자 기본 설정을 통합함으로써 LLM의 출력값을 개인화, 결과적으로 작업의 성능을 크게 향상시키는 모델인 PPlug를 도입합니다. —> [논문 보기]
NVLM: Open Frontier-Class Multimodal LLMs는 하이브리드 아키텍처와 다이나믹한 고해상도 태깅을 활용해서, 텍스트 및 비전 작업 모두에 탁월한 성능을 보이는 멀티모달 모델 NVLM 1.0을 공개해서 독점적 모델 (Proprietary Model)과 경쟁하겠다는 포부를 밝힙니다. —> [논문 보기]
모델 효율화 및 트레이닝 기법
GRIN: GRadient-INformed MoE는 Parallelism과 Expert Routing을 최적화하는 MoE 모델을 도입해서, 수학적 과제나 추론 과제 등의 작업에서 더 높은 효율성과 성능을 보여줍니다. —> [논문 보기]
Single-Layer Learnable Activation for Implicit Neural Representation (SL2A-INR)은 ‘암시적 신경 표현 (Implicit Neural Representation)’을 위한 새로운 아키텍처를 제시, 3D Reconstruction 같은 작업에서 High-Frequency의 디테일을 캡처하는 기능을 향상시켜 줍니다. —> [논문 보기]
인지 (Cognition) 및 이해 (Understanding) 능력
Human-like Affective Cognition in Foundation Models는 GPT-4라든가 Claude와 같은 Foundation Model이 인간의 감정을 이해하는 방식을 평가하고, 심리적 시나리오에서 인간의 판단에 대한 반응을 비교하여 Alignment가 극대화되도록 하는 방법을 검토합니다. —> [논문 보기]
Measuring Human and AI Values based on Generative Psychometrics with Large Language Models는 ‘사람’과 ‘AI’가 바라보는 가치를 측정하는 GPV (Generative Psychometrics for Values)라는 기법을 도입, 상호 간의 가치가 잘 정렬되고 AI의 안전성을 개선할 수 있다는 것을 보여줍니다. —> [논문 보기]
읽어주셔서 감사합니다. 프리미엄 구독자가 되어주시면 튜링 포스트 코리아의 제작에 큰 도움이 됩니다!
Reply