Turing Post Korea
Posts
SFT (지도학습 파인튜닝)용 데이터셋 10選

SFT (지도학습 파인튜닝)용 데이터셋 10選

Ben Eum & Ksenia Se
January 08, 2025

데이터셋의 품질, 규모, 그리고 해결하려고 하는 문제 영역과의 관련성. 이런 것들은 모델의 훈련, 파인튜닝, 그리고 궁극적으로 모델의 실제 환경에서의 성능에 큰 영향을 미치죠. 세상에 수많은 공개된 데이터셋들 중에, 여러분의 목적에 잘 맞는, 그러면서도 포괄적인 데이터셋을 선택하는 것 또한 중요한 일입니다.

이 글에서는 자연여 처리, 그리고 수학 영역과 관련된, 공개된 데이터셋 10가지를 살펴보겠습니다:

fka/awesome-chatgpt-prompts
챗GPT에서 사용할 수 있는 다양한 프롬프트를 제안합니다. 이 데이터셋으로 700개 이상의 모델을 학습했다고 하네요. —> [더 보기]
HuggingFaceFW/fineweb
Hugging Face의 데이터셋으로, 중복을 제거하고 정제한 15T 토큰의 영어 웹 데이터를 포함합니다. LLM 학습, 벤치마킹, 모델 검증에 적합합니다. —> [더 보기]
HuggingFaceFW/fineweb-2
FineWeb의 또 다른 버전으로, 1000개 이상의 언어에 대한 고품질 사전 학습 데이터를 제공합니다. —> [더 보기]
01-OPEN/Open01-SFT
중국어와 영어 데이터가 포함된 이 데이터셋은, Chain-of-Thought를 활성화하는데 사용할 수 있습니다. —> [더 보기]
yahma/alpaca-cleaned
스탠포드가 공개한 원본 Alpaca 데이터셋을 선별해서 정제한 버전입니다. —> [더 보기]
lmsys/lmsys-chat-1m
25개의 최첨단 LLM과 했던 100만 개의 실제 대화를 포함하는 데이터인데, 콘텐츠 모더레이션, 안전성 벤치마크, Instruction-Following 모델 학습 등의 다양한 영역에서 사례를 제공하고 있습니다. —> [더 보기]
allenai/dolma
앨런 AI 연구소의 데이터셋인데, 웹 콘텐츠, 학술 출판물, 코드, 책, 백과사전 자료 등 다양한 출처에서 수집한 3T 규모의 토큰을 포함합니다. —> [더 보기]

[수학 영역 데이터셋]

HuggingFaceTB/finemath
교육용 수학 콘텐츠로 구성되어 있는 데이터셋으로, 34B 토큰과 54B 토큰의 두 가지 버전이 있습니다. —> [더 보기]
amphora/QwQ-LongCoT-130K
o1 계열의 LLM 훈련을 위한 데이터셋입니다. —> [더 보기]
openai/gsm8k
다단계 추론 작업을 훈련하기 위한 데이터셋입니다. —> [더 보기]

*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.

Reply

or to participate.