Qu’est-ce que les transformateurs Hugging Face ?

Cet article présente les Hugging Face Transformers sur Azure Databricks. Il comprend des conseils sur les raisons d’utiliser les Hugging Face Transformers et sur la manière de les installer sur votre cluster.

Arrière-plan pour Hugging Face Transformer

Hugging Face Transformers est un framework open source pour l’apprentissage profond créé par Hugging Face. Il fournit des API et des outils permettant de télécharger des modèles pré-entraînés de pointe et de les affiner pour maximiser le niveau de performance. Ces modèles prennent en charge des tâches courantes dans différentes modalités, telles que le traitement du langage naturel, la vision par ordinateur, l’audio et les applications multimodales.

Databricks Runtime pour Machine Learning inclut Hugging Face transformers dans Databricks Runtime 10.4 LTS ML et versions ultérieures, et inclut des jeux de données Hugging Face, accéléreret évaluer dans Databricks Runtime 13.0 ML et versions ultérieures.

Pour vérifier quelle version de Hugging Face est incluse dans votre version configurée de Databricks Runtime ML, consultez la section sur les bibliothèques Python dans les notes de publication correspondantes.

Pourquoi utiliser Hugging Face Transformers ?

Pour de nombreuses applications, telles que l’analyse des sentiments et le résumé de texte, les modèles pré-entraînés fonctionnent bien sans entraînement supplémentaire.

Les pipelines Hugging Face Transformers codent les meilleures pratiques et disposent de modèles par défaut sélectionnés pour différentes tâches, ce qui facilite la prise en main. Les pipelines facilitent l’utilisation des GPU lorsqu’ils sont disponibles et permettent de regrouper les éléments envoyés au GPU pour améliorer le débit du niveau de performance.

Hugging Face fournit :

  • Un hub de modèles contenant de nombreux modèles préformés.
  • La bibliothèque🤗 Transformers qui prend en charge le téléchargement et l’utilisation de ces modèles pour les applications NLP et le réglage précis. Il est courant d’avoir besoin à la fois d’un tokenizer et d’un modèle pour les tâches de traitement du langage naturel.
  • Les🤗 pipelines Transformers qui ont une interface simple pour la plupart des tâches de traitement du langage naturel.

Installer transformers

Si la version Databricks Runtime de votre cluster n’inclut pas Hugging Face transformers, vous pouvez installer la dernière bibliothèque Hugging Face transformers en tant que bibliothèque Databricks PyPI.

  %pip install transformers

Installer des dépendances de modèle

Différents modèles peuvent avoir des dépendances différentes. Databricks vous recommande d’utiliser les commandes magiques %pip pour installer ces dépendances si nécessaire.

Les dépendances communes sont les suivantes :

  • librosa : prend en charge le décodage des fichiers audio.
  • soundfile : obligatoire lors de la génération de jeux de données audio.
  • bitsandbytes : Obligatoire lors de l’utilisation de load_in_8bit=True.
  • SentencePiece : utilisé comme tokenizer pour les modèles NLP.
  • timm : obligatoire par DetrForSegmentation.

Entraînement sur un seul nœud

Pour tester et migrer des workflows monomachines, utilisez un cluster mononœud.

Ressources supplémentaires

Les articles suivants incluent des exemples de notebooks et des conseils sur l’utilisation de Hugging Face transformers pour le réglage précis et l’inférence de modèle (LLM) sur Azure Databricks.