- Turing Post Korea
- Posts
- [이런 관점] '달콤하지만 뒷맛은 좀 씁쓸한' Llama 3.1
[이런 관점] '달콤하지만 뒷맛은 좀 씁쓸한' Llama 3.1
이번엔 사명을 '메타'에서 '오픈'으로 바꾸기라도 할 참인가?
며칠 전인 7월 23일, 메타에서 ‘Llama 3.1’ 모델 패밀리를 발표했습니다.
지난 4월, ‘Llama 3’ 패밀리를 발표한지 3개월 만인데요. Llama 3은 8B, 70B의 두 종 (각 종별 2가지로 총 4가지)의 소형 버전 뿐이었다면, 이번에는 매개변수 4,050억개짜리 Llama 3.1 405B 모델이 포함되어 있습니다. 이 모델은 ‘공개된’ 모델 중 최대 규모의 모델로서, GPT-4, Claude 3.5 Sonnet 등의 폐쇄형 모델 (Closed Model)과 대등한 성능을 보이는 것으로 알려져 있습니다.
발표와 함께 학계, 업계의 반응도 뜨겁고, 한 마디로 화제가 되고 있는데요. 특히 메타의 CEO인 마크 주커버그는 “오픈 소스 OS인 리눅스가 현재 클라우드 컴퓨팅 및 수많은 모바일 디바이스의 업계 표준이 되었다”고 하면서 “AI 모델 역시 비슷한 방식으로 발전할 것이다”라고 Llama 3.1에 의미를 부여했고, “내년부터는 Llama가 업계에서 가장 뛰어난 모델이 될 것이다”라고 강한 자신감을 보였습니다.
자, 한 번 발표된 Llama 3.1이 어떻게 만들어졌고 얼마나 뛰어난지, 이 Llama 3.1의 발표가 메타와 다른 AI 리더들에게 어떤 의미일지, 그리고 메타의 ‘오픈 소스’가 정말 어떤 건지 한 번 생각해 볼까요?
Llama 3.1 405B 개발 과정
다른 모델보다도, 이번에 공개된 모델들 중 가장 크고 성능이 좋은 Llama 3.1 405B 모델을 가지고 살펴보죠.
Llama 3.1 405B의 사전 학습 (Pre-training)
이 모델은 15조 개 (15 trillion) 토큰의 다중 언어(Multilingual) 데이터로 사전 학습된 모델이고, Llama 2 때와 비교했을 때 거의 50배에 가까운 3.8×1025 FLOPS의 컴퓨팅 파워로 학습했습니다. 모델 이름처럼 4,050억개 매개변수를 가진 Dense Transformer 아키텍처를 사용해서 안정성, 확장성 관점의 최적화를 거쳤습니다.
트레이닝 상의 도전과제 (Challenge)
Llama 3.1 405B는 공개된 모델들 중 가장 거대한 모델인 만큼 자그마치 16,000개의 H100 GPU를 사용했다고 합니다. 이 과정에서 GPU 최적화를 위해서 ‘4D 병렬화’ 개념을 적용했는데, 바로 다수의 GPU들 사이의 연산을 최적화하기 위해서 텐서, 파이프라인, 컨텍스트, 데이터의 4가지를 모두 병렬화한 겁니다. (데이터 병렬화에 대해서 설명한 튜링포스트 코리아의 글을 참조해 보시면 좋겠습니다)
Llama 3.1 405B의 사후 학습 (Post-training)
모델의 답변을 사람의 선호도와 정렬 (Align)하고 특정한 모델의 기능을 개선하기 위해서, 사람이 주석을 달은 데이터로 파인튜닝되어 있습니다. 그리고 강화학습법인 DPO (Direct Preference Optimization; 직접 선호도 최적화)를 적용했고, 모델 출력의 안전성, 신뢰성을 확보하기 위해서 사후 학습 단계에서 안전성 지표들을 적용했다고 합니다.
Llama 3.1 405B의 성능
Llama 3.1 405B 모델은 공개된 모델들 중에서는 최초로 ‘전반적으로 GPT-4와 같은 선두 주자에 육박하는 성능을 보이는 모델’입니다.
영어, 스페인어, 이탈리아어, 독일어, 포르투칼어, 아랍어, 벵골어, 태국어의 8개 언어를 지원하고, Context Window도 Llama 3 때와 비교해서 15배 이상 증가한 128,000 토큰으로 늘어났습니다. (128K 토큰이면 xAI의 Grok 1.5, GPT-4 Turbo 모델 정도 수준으로, 대략 50~60 페이지 분량 길이입니다.)
밑의 표에서도 나타나듯이, Llama 3.1 405B는 공개된 모델들 중에서는 가장 강력한 수준의 성능을 보여줍니다. MMLU와 IFEval 같은 포괄적인 성능 테스트 뿐 아니라, GSM8K (수학), ARC Challenge (추론), Nexus (도구 활용), Multilingual MGSM (다국어) 등 다양한 특수 영역의 테스트에서도 GPT-4o, Claude 3.5 Sonnet 등 현존 최고의 모델들과 대등한 결과를 기록하고 있습니다.
Source: Meta (Llama 3.1 405B 모델과 주요 AI 모델 벤치마크 비교)
Reply