NLP Course documentation

Introduction

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Introduction

Ask a Question

Dans le chapitre 3, vous avez vu comment finetuner un modèle de classification de texte. Dans ce chapitre, nous nous attaquons aux tâches de NLP courantes suivantes :

  • la classification de tokens,
  • la modélisation du langage masqué (comme BERT),
  • les résumés,
  • la traduction,
  • le pré-entraînement à la modélisation causale du langage (comme GPT-2),
  • la réponse aux questions.

Pour ce faire, vous devrez tirer parti de tout ce que vous avez appris sur l’API Trainer, sur la bibliothèque 🤗 Accelerate au chapitre 3, sur la bibliothèque 🤗 Datasets au chapitre 5 et sur la bibliothèque 🤗 Tokenizers au chapitre 6. Nous téléchargerons également nos résultats sur le Hub, comme nous l’avons fait dans le chapitre 4, donc c’est vraiment le chapitre où tout est réuni !

Chaque section peut être lue indépendamment et vous montrera comment entraîner un modèle avec l’API Trainer ou avec 🤗 Accelerate et votre propre boucle d’entraînement. N’hésitez pas à sauter l’une ou l’autre partie et à vous concentrer sur celle qui vous intéresse le plus. L’API Trainer est idéale pour finetuner ou entraîner votre modèle sans vous soucier de ce qui se passe en coulisses, tandis que la boucle d’entraînement avec Accelerate vous permettra de personnaliser plus facilement toutes les parties que vous souhaitez.

Si vous lisez les sections dans l’ordre, vous remarquerez qu’elles ont beaucoup de code et de prose en commun. La répétition est intentionnelle, afin de vous permettre de vous plonger (ou de revenir plus tard) dans une tâche qui vous intéresse et de trouver un exemple fonctionnel complet.

< > Update on GitHub