단원 소개
챕터 3에서는 🤗 Datasets 라이브러리를 처음 맛보면서 모델을 미세 조정하는 데 필요한 세 가지 주요 단계를 배웠습니다:
- Hugging Face Hub에서 데이터셋을 로드한다.
Dataset.map()
함수를 통해 데이터셋을 전처리한다.- 평가 메트릭를 로드하고 계산한다.
하지만 지금까지 배운 것은 🤗 Datasets 라이브러리가 할 수 있는 것의 빙산의 일각입니다! 이번 챕터에서는 더 자세히 살펴볼 것이며, 그 과정에서 다음 질문에 대한 답을 찾을 수 있을 것입니다:
- 데이터셋이 Hub에 없을 때는 어떻게 할 것인가?
- 데이터셋을 어떻게 쪼개어 분석할 수 있는가? (그리고 Pandas를 반드시 사용해야만 한다면?)
- 데이터셋이 너무 방대하여 노트북 RAM을 초과하면 어떻게 할 것인가?
- 도대체 “메모리 매핑 (mmap)“과 Apache Arrow는 무엇인가?
- 당신 고유의 데이터셋을 만들어 Hub로 푸시하려면 어떻게 해야 하는가?
여기서 배운 기술을 통해 챕터 6과 챕터 7에서 심화 토큰화 기법 및 미세 조정 작업을 하는 데 활용할 예정이므로 커피 한 잔 하고 오신 뒤 시작하도록 하겠습니다!
< > Update on GitHub