- Turing Post Korea
- Posts
- SFT (지도학습 파인튜닝)용 데이터셋 10選
SFT (지도학습 파인튜닝)용 데이터셋 10選
데이터셋의 품질, 규모, 그리고 해결하려고 하는 문제 영역과의 관련성. 이런 것들은 모델의 훈련, 파인튜닝, 그리고 궁극적으로 모델의 실제 환경에서의 성능에 큰 영향을 미치죠. 세상에 수많은 공개된 데이터셋들 중에, 여러분의 목적에 잘 맞는, 그러면서도 포괄적인 데이터셋을 선택하는 것 또한 중요한 일입니다.
이 글에서는 자연여 처리, 그리고 수학 영역과 관련된, 공개된 데이터셋 10가지를 살펴보겠습니다:
fka/awesome-chatgpt-prompts
챗GPT에서 사용할 수 있는 다양한 프롬프트를 제안합니다. 이 데이터셋으로 700개 이상의 모델을 학습했다고 하네요. —> [더 보기]HuggingFaceFW/fineweb
Hugging Face의 데이터셋으로, 중복을 제거하고 정제한 15T 토큰의 영어 웹 데이터를 포함합니다. LLM 학습, 벤치마킹, 모델 검증에 적합합니다. —> [더 보기]HuggingFaceFW/fineweb-2
FineWeb의 또 다른 버전으로, 1000개 이상의 언어에 대한 고품질 사전 학습 데이터를 제공합니다. —> [더 보기]01-OPEN/Open01-SFT
중국어와 영어 데이터가 포함된 이 데이터셋은, Chain-of-Thought를 활성화하는데 사용할 수 있습니다. —> [더 보기]yahma/alpaca-cleaned
스탠포드가 공개한 원본 Alpaca 데이터셋을 선별해서 정제한 버전입니다. —> [더 보기]lmsys/lmsys-chat-1m
25개의 최첨단 LLM과 했던 100만 개의 실제 대화를 포함하는 데이터인데, 콘텐츠 모더레이션, 안전성 벤치마크, Instruction-Following 모델 학습 등의 다양한 영역에서 사례를 제공하고 있습니다. —> [더 보기]allenai/dolma
앨런 AI 연구소의 데이터셋인데, 웹 콘텐츠, 학술 출판물, 코드, 책, 백과사전 자료 등 다양한 출처에서 수집한 3T 규모의 토큰을 포함합니다. —> [더 보기]
[수학 영역 데이터셋]
*읽어주셔서 감사합니다. 재미있게 보셨다면 친구와 동료 분들에게도 뉴스레터를 추천해 주세요.
Reply