• Turing Post Korea
  • Posts
  • 거대언어모델 (LLM)을 평가한다: LLM 벤치마크에 대한 안내서

거대언어모델 (LLM)을 평가한다: LLM 벤치마크에 대한 안내서

상식 추론, 코딩 기술, 수학 능력 등을 평가하기 위한 도구들

LLM의 빠른 발전과 함께, 언어모델의 역량을 비교하는 것은 현재의 수준을 확인하고 미래의 연구 방향을 설정하는데 있어서 핵심적인 작업이 되었습니다. 상식적 추론, 수학 문제풀이, 코드 생성, 질문 답변 등 언어의 이해와 생성에 관련된 여러 측면에서 언어모델을 평가하기 위한 다양한 벤치마크가 생겼고 사용되어 왔습니다.

그런데, 앨런 AI 연구소 (AI2)의 연구자 Jesse Dodge, Cohere의 CEO인 Aidan Gomez 등이 이야기한 바와 같이, LLM의 성능이 빠르게 좋아지면서 이전에 언어모델 평가에 사용되던 여러가지 벤치마크가 더 이상 유효하지 않게 되면서 새로운 벤치마크도 속속 등장하고 있습니다.

기존에 허깅페이스 ‘H6’라고 불린 ARC (추론), HellaSwag (상식), MMLU (언어이해), 환각방지 (TruthfulQA), 수학적 추론 (GSM-8K), 상식 추론 (WinoGrande) 등이 대표적 벤치마크였고, 여기에 더해서 HumanEval (코딩), MT-Bench (대화), EQ-Bench (감성), IFEval (지시이행) 등이 주로 활용되었다면, 최근 OpenAI가 GPT-4 터보 공개와 함께 추가한 MATH (수학적 문제해결), GPQA (대학원 수준 구글 증명 QA), DROP (단락에 대한 이산적 독해 추론)이라든가, 멀티모달 모델의 평가를 위한 Meta의 OpenEQA라든가, 아예 사람들이 블라인드 환경에서 챗봇을 테스트하고 선호도를 평가하도록 하는 LMSYS Chatbot Arena Leaderboard도 빠르게 성장하고 있습니다.

LLM 벤치마크는 누구에게 중요한가

벤치마크는 LLM을 만드는 연구자나 개발자에게만 중요한 것이 아닙니다. LLM이 어떤 조건에서 어떻게 작동하는지, 사용자와의 상호 작용에서 어떤 반응을 보일 것인지에 대한 전반적인 이해를 하는 것이 좋은 LLM 기반의 서비스를 만드는데 핵심적인 조건이라고 본다면, LLM을 현장에 적용하기 위해 고민하는 제품 및 서비스 기획자, 프롬프트 엔지니어, UX 디자이너 등 모두에게 LLM 벤치마크는 필수적인 선수 지식이라고 할 수 있을 것입니다.

자, 그렇다면 수없이 많은 LLM 벤치마크들 중에서 어떤 것들을 먼저 알아보면 좋을까요? 사람들이, 그리고 기업에서 가장 많이 사용하고 가장 인기가 많은 LLM의 테스트에 공통적으로 활용되는 벤치마크들이 있다면 그것들이 가장 이해의 우선순위가 높은 벤치마크라고 할 수 있지 않을까요? 그래서, 이 글에서는 가장 널리 알려진 오픈 소스 LLM 및 비공개 소스 LLM 논문과 기술보고서 등에서 활용되고 있는 여러가지 벤치마크들을 살펴보려고 합니다.

위에서 잠깐 언급한, 사용자들이 어떤 LLM을 좋아하는지 투표할 수 있는 크라우드소싱 플랫폼인 LMSYS Chatbot Arena Leaderboard에 따르면, 2024년 3월 현재 아래 LLM들이 선호도에 있어서 상위를 차지하고 있습니다:

자, 이제 이 모델들의 평가에 사용된 주요 LLM 벤치마크들을 살펴보러 갈까요?

상식 추론 (Commonsense Reasoning)

Hellaswag

Source: HellaSwag: Can a Machine Really Finish Your Sentence?

  • 테스트 목표와 방법 : LLM 상식을 얼마나  이해하고 논리적으로 시나리오를 완성할  있는지 평가합니다. 다지선다 상황에서 상식적으로, 논리적으로 개연성있는 이후 전개를 예측하도록 합니다.

  • 테스트의 의미 : LLM 상식을 얼마나  이해하고 논리적으로 시나리오를 완성할  있는지 평가합니다. 다지선다 상황에서 상식적으로, 논리적으로 개연성있는 이후 전개를 예측하도록 합니다.

  • 원저 : HellaSwag: Can a Machine Really Finish Your Sentence?

Winogrande

Source: WinoGrande: An Adversarial Winograd Schema Challenge at Scale

  • 테스트 목표와 방법 : 복잡한 문맥 안에서, 상식적인 수준에서 지칭 대상에 맞는 대명사를 판단할  있는지 평가합니다. 문장의  칸에 적합한 대명사를 채우고, 해당하는 선행명사를 지정하도록 합니다.

  • 테스트의 의미 : 원래의 WSC (Winograd Schema Challenge)로부터 영감을 받아, 편견은 더 줄이고 더 복잡한 상황을 포함하는 44,000개의 문제로 구성된 대규모 데이터셋으로 테스트를 진행하는데 그 의미가 있습니다.

  • 원조 논문 : WinoGrande: An Adversarial Winograd Schema Challenge at Scale

PIQA (Physical Interaction Question Answering)

Source: PIQA: Reasoning about Physical Commonsense in Natural Language

  • 테스트 목표와 방법 : 어떤 현상의 물리적인 인과 관계를 이해하고 있는지 평가합니다. 실제 환경에서 일어날 법한 물리적 현상의 시나리오를 주고 그 결과를 예측, 다지선다형으로 선택하도록 합니다.

  • 테스트의 의미 : 이 테스트를 통해서, 사람은 직관적으로 판단할 수 있는 물리학적인 지식을 LLM이 가지고 있는지를 확인할 수 있습니다.

  • 원조 논문 : PIQA: Reasoning about Physical Commonsense in Natural Language

SIQA (Social Interaction Question Answering)

Source: SocialIQA: Commonsense Reasoning about Social Interactions

  • 테스트 목표와 방법 : 사회적인 표준 규범과 역학 관계를 이해하고 있는지 평가하는데 초점을 맞추는 테스트로, 주어진 시나리오에서 적절한 사회적인 반응이 어떤 것인지 다지선다형으로 예측하여 선택하도록 합니다.

  • 테스트의 의미 : 암묵적인 사회적 규칙과 사람의 행동 패턴에 대해 LLM  훈련되고 이해하고 있어야만 높은 평가를 받을  있습니다.

  • 원조 논문 : SocialIQA: Commonsense Reasoning about Social Interactions

OpenBookQA

Source: Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering

  • 테스트 목표와 방법 : 핵심적인 어떤사실들을 담고 있는 ,  자료를 제공하고  범위 안에서 임의의 질문에  답변하는지 평가합니다. 제공해   가지 사실과 세상에 대한 지식을 종합하여, 질문에 다지선다형 답변을 하도록 합니다.

  • 테스트의 의미 : LLM 단순히 어떤 사실을 조회하는 것이 아니라,  사실들의 의미를 이해하고 새로운 내용을 추론할  있는지를 확인합니다.

  • 원조 논문 : Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering

ARC (AI2 Reasoning Challenge)

Source: Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge

  • 테스트 목표와 방법 : 초등학교 수준의 과학 문제를 사용해서 과학적인 맥락에서의 지식과 추론 능력을 테스트합니다. 기본적인 과학적 법칙들을 활용해서 다지선다형 문제의 답을 추론하도록 합니다.

  • 테스트의 의미 : 단순한 과학 문제부터 다양한 정보를 결합해야   있는 문제까지, 과학 영역에서의 LLM 역량 수준을 확인할  있습니다.

  • 원조 논문 : Think You Have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge

CommonsenseQA

Source: CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge

  • 테스트 목표와 방법 : 실생활에서 자주 일어날  있는 상황에 대한 상식과 추론 능력을 평가합니다. 다지선다형 문제를 주고, 훈련된 지식을 활용해서 직관적으로 판단할  있는 답을 선택하도록 합니다.

  • 테스트의 의미 : 일상적으로 일어나는, 쉽게 상황과 결과를 연결지을  있는 시나리오들에 대해 LLM  훈련되었는지 판단할  있습니다.

  • 원조 논문 : CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge

논리적 추론 (Logical Reasoning)

MMLU (Measuring Massive Multitask Language Understanding)

Source: Measuring Massive Multitask Language Understanding

  • 테스트 목표와 방법 : 사실 확인의 범위를 넘어 다양한 주제와 활동에 대해 LLM이 잘 이해하고 추론하는지, 이 과정에서 미묘한 뉘앙스를 잡아내어 반영하는지를 평가합니다. 인문학, 일반과학, 사회과학, 기타 다양한 토픽을 아우르는 다지선다형 문제에 답을 하도록 합니다.

  • 테스트의 의미 : LLM이 여러 주제를 넘나드는 질문에 대해 폭넓고 심도있는 이해를 하고 있는지, 다양한 영역에 대한 지식을 포괄적으로 활용하여 추론할 수 있는지 판단하는 근거가 됩니다.

  • 원저 : Measuring Massive Multitask Language Understanding

BBHard (Beyond the Benchmark Hard)

Source: Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models

  • 테스트 목표와 방법 : 논리의 전개, 고차원적인 추론, 창조적인 답변과 이해를 하는 능력을 가지고 있는지 탐지합니다. 고차원의 문제풀이, 불확실한 상황에서의 추론, 개념적 사고, 창조적 사고  난이도 높게 설계된 문제를 풀도록 합니다.

  • 테스트의 의미 : LLM 사물과 사건에 대한 심도있는 이해를   있는지, 연속적인 논리 전개를   있는지, 정보가 부족한 상황에서도 적절한 추론을 하는지 등을 판단할  있습니다.

  • 원저 : Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models

수학적 추론 (Mathematical Reasoning)

GSM-8K (Grade School Math 8K)

Source: Training Verifiers to Solve Math Word Problems

  • 테스트 목표와 방법 : 모델이 초등학교 수준의 수학 문제를   있는지 평가합니다. 보통 다지선다형 또는 주관식 형태로 연산, 대수, 기하 문제를 풀도록 합니다.

  • 테스트의 의미 : 초등학생 수준의 수학 능력기본 사칙연산, 분수나 비율 계산, 간단한 기하학 정도 LLM 가졌는지 판단할  있습니다.

  • 원저 : Training Verifiers to Solve Math Word Problems

MATH

Source: Measuring Mathematical Problem Solving with the MATH Dataset

  • 테스트 목표와 방법 : 다양한 난이도로 여러 수학 영역에서 출제되는 복잡한 수학 문제를 모델이   있는지 평가합니다. 난이도는 5가지로 구분되고, 대수, 미적분, 통계  7가지 수학 영역에서 문제가 출제됩니다.

  • 테스트의 의미 : MATH 계산 능력  아니라 추상적인 수학적 개념, 그리고 복잡한 문제 풀이 능력이 있어야 통과할  있기 때문에 쉽지 않은 테스트라고   있습니다.

  • 원저 : Measuring Mathematical Problem Solving with the MATH Dataset

MGSM (Multilingual Math Reasoning)

Source: Language Models are Multilingual Chain-of-Thought Reasoners

  • 테스트 목표와 방법 : 여러 개의 언어로 출제된 수학 문제를 풀게 함으로써 수학과 언어 이해 능력을 한꺼번에 평가하는 테스트입니다.

  • 테스트의 의미 : 언어와 수학이 섞여  복잡도가 높고, 모델이 문장을 적절히 번역, 이해하고 수학적인 추론을 정확히 하도록 훈련되어 있는지 비교, 판단할  있습니다.

  • 원저 : Language Models are Multilingual Chain-of-Thought Reasoners

DROP (Discrete Reasoning Over the Content of Paragraphs)

Source: DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs

  • 테스트 목표와 방법 : 길고 복잡한 지문이 주어졌을  수치적인 추론, 순서 매기기, 적절한 정보의 추출을 통해서 모델이 복잡한 추론과 답을   있는지 평가합니다. 특정한 이야기를 담고 있는 여러 문단을 제시하고 질문을 주어 이에 답하게 합니다.

  • 테스트의 의미 : 텍스트에 대한 이해와 함께 사칙연산, 날짜 이해  수학과 관련된 추론을 함께 해야만 정확한 답을   있도록 고안된 테스트입니다.

  • 원저 : DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs

코드 생성 (Code Generation)

HumanEval (또는 HumanEval-Python)

Source: Evaluating Large Language Models Trained on Code

  • 테스트 목표와 방법 : 문법적으로도 맞고 실제로 작동하는 Python 코드를 작성할  있는지 테스트합니다. 프로그래밍 작업을 이해하고   있는 코드를 만들어내는지 확인하는 것이  목적입니다. 테스트를 하기 위해, 모델에게 여러 개의 Python 코딩 과제를 주는데, 각각의 과제는 Python으로 구현해야 하는 function signature, function 해야  작업, 그리고  개의 테스트 케이스로 구성됩니다.

  • 테스트의 의미 : HumanEval에서 높은 성능을 보이는 LLM 주어진 문제를 정확히 이해하고 이를 논리적인 코드 구조로 만들어낼  있으며, 문법적으로 정확할  아니라 목표하는 기능을 수행하고 테스트도 통과하는 코드를 만들  있는 능력을 가지고 있다고 판단할  있습니다.

  • 원저 : Evaluating Large Language Models Trained on Code

MBPP (Most Basic Python Programming)

Source: Program Synthesis with Large Language Models

  • 테스트 목표와 방법 : HumanEval 유사하지만, MBPP  광범위한 프로그래밍 문제에 대해 문법적으로 옳고 작동할  아니라 효과적인 코딩을 하는지 테스트합니다. MBPP에서는 광범위한 프로그래밍 작업을 테스트하는데, 프로그래밍할 내용에 대한 설명, 요구사항, 그리고 테스트 조건을 모델에 제시합니다. 프로그래밍 과제는 실제 시스템에 사용할  있는 정도의 수준과 유사하게 출제합니다.

  • 테스트의 의미 : 문법적 정확성, 작동 가능여부에 더해서 효율성까지 테스트하기 때문에, 특정한 성능 관점의 제약 조건을 맞추거나 최적화를 수행하고, 개발 표준에 맞추어 작업을 수행할  있는 모델인지 평가할  있습니다.

  • 원저 : Program Synthesis with Large Language Models

세계 지식 및 질문 답변 (World Knowledge & Question Answering)

NaturalQuestions

Source: A BERT Baseline for the Natural Questions

  • 테스트 목표와 방법 : 이 테스트는 모델이 실세계와 관련된 정보를 찾아내는 질문에  대응하는지 평가하기 위해 고안되었습니다. 쉽게 예를 들자면, 구글 검색에 사람들이 치는 질문들에  답하느냐 하는 테스트입니다. 실제로, 구글 검색에 사용된 질문, 그리고 검색 결과로 조회되는 웹페이지를 모델에 제공하고, 모델이  웹페이지로부터 질문에 적절한 답을 찾아 제공하게 합니다.

  • 테스트의 의미 : 이 테스트를 통과하는 모델은, 자연어 질문에 대해서 길고 비정형적인  문서에서 사용자가 원하는 정확한 정보를 찾아낼  있다는 것을 의미합니다.

  • 원저 : A BERT Baseline for the Natural Questions

TriviaQA

Source: TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

  • 테스트 목표와 방법 : 이 테스트는잡학사전식의 질문 답변을 모델이  수행하는지 평가합니다. ‘잡학사전 나올 법한 질문들과 이에 대한 답변이 포함되어 있는 문서를 함께 모델에 제시하고 답을 하도록 합니다.

  • 테스트의 의미 : TriviaQA테스트로 모델이 하나 또는 다수의 문서를 활용한 문해 능력, 추론  팩트 체크 능력을 가지고 있는지 확인할  있습니다.

  • 원저 : TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

MMMU (A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark)

Source: MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

  • 테스트 목표와 방법 : 모델이 텍스트, 이미지와 영상, 음성과 소리  여러 개의 모달리티, 그리고 다양한 도메인에 걸쳐 정보를 처리하고 이해할  있는지 테스트하는 것을 목표로 합니다. 이미지를 보고 질문 답변을 한다든가, 텍스트를 읽고 추론을 하고, 소리를 듣고 이해하는 등의 테스트를 수행합니다.

  • 테스트의 의미 : 이 테스트를 높은 성적으로 통과하는 모델은 여러 가지 모달리티의 입력 정보를 폭넓게 활용하여 논리적인 추론을   있다고 판단할  있습니다.

  • 원저 : MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

TruthfulQA

Source: TruthfulQA: Measuring How Models Mimic Human Falsehoods

  • 테스트 목표와 방법 : 이 테스트는 모델이사실 기반한 정확한 답을 하는  뿐만 아니라, 특히 복잡하고 미묘한 질문에 대해서진실 답변을 하고 사용자를 오도할 만한 답변을 하지 않는지를 판단하기 위해 고안되었습니다. 의도적으로도발적 질문들을 많이 포함하고 있고, 답변이 보통 잘못 이해되거나 논란을 일으킬 만한 소지가 있는 답변이 되게끔 테스트가 구성되었습니다.

  • 테스트의 의미 : 정확한 사실에 그치지 않고 책임있고 진실한, 윤리적으로 사려깊은 답변을 하는 것은 때로 사람에게도 쉬운 일이 아닙니다.  테스트를 높은 성능으로 통과한다면  모델은 쉽게 잘못된 정보나 해로운 편견 등을 강화하지 않으리라 판단할  있습니다.

  • 원저 : TruthfulQA: Measuring How Models Mimic Human Falsehoods

LLM 벤치마크의 한계

위에서 살펴본 LLM 벤치마크 외에도 무수히 많은 벤치마크가 있습니다. 단, 이런 벤치마크들이 LLM의 전반적인 성능과 역량을 이해하는데 매우 중요한 도구이기는 하지만, 이것만으로 기업이나 개인들이 만드는 LLM 기반의 어플리케이션 또는 유즈케이스의 안전성 (Safety), 강건성 (Robustness) 등을 확보하는 것은 어렵다는 한계점 또한 충분히 인식해야 합니다.

표준화된 벤치마크는 소위 말하는 General Purpose Model의 비교를 통해 전반적인 평가를 하는데는 매우 유용하지만, LLM 어플리케이션의 진단에는 나만의 KPI와 Metric에 맞춤화된 별도의 테스트가 필수적입니다.

추가 리소스

LLM 평가에 사용되는 도구와 벤치마크에 대해 더 자세하게 알고 싶으시다면, 2023년 12월에 업데이트된 조사 자료, A Survey on Evaluation of Large Language Models, 그리고 LLM 평가 관련 논문과 자료들이 망라되어 있는 GitHub 리포지토리를 참고하시기 바랍니다.

다양한 벤치마크로 여러 가지 LLM의 성능을 추적하고 비교해 놓은 아래와 같은 플랫폼들도 점점 관심을 받고 있으니 한 번 살펴보시면 좋겠습니다: 

  • LMSYS Chatbot Arena Leaderboard: LLM 평가를 전문으로 하는 크라우드 소싱 기반의 오픈 플랫폼입니다. 이미 500,000개 이상 모인 LLM 평가 투표자료를 활용해서 ELO 시스템 방식의 LLM 랭킹 정보를 제공하고 있습니다.

  • Open LLM Leaderboard: 오픈소스 LLM 평가에 집중하고 있는 허깅페이스의 리더보드입니다. 오픈소스 커뮤니티로서의 투명성과 협업에 기반한 플랫폼입니다.

  • The Big Benchmarks Collection: 다양한 벤치마크를 한 곳에 모은 플랫폼으로, 수많은 LLM 평가 도구와 자료들을 쉽게 탐색하고 살펴볼 수 있습니다.

Reply

or to participate.