Che cosa sono Hugging Face Transformers?

Questo articolo offre un'introduzione a Hugging Face Transformers in Azure Databricks. Include indicazioni su come usare Hugging Face Transformers e su come installarlo nel cluster.

Sfondo per i trasformatori di viso hugging

Hugging Face Transformers è un framework open source per l'apprendimento avanzato creato da Hugging Face. Fornisce API e strumenti per scaricare modelli con training preliminare all'avanguardia e ottimizzarli ulteriormente per ottimizzare le prestazioni. Questi modelli supportano attività comuni in diverse modalità, ad esempio l'elaborazione del linguaggio naturale, la visione artificiale, l'audio e le applicazioni multi modale.

Databricks Runtime per Machine Learning include Hugging Face transformers in Databricks Runtime 10.4 LTS ML e versioni successive e include set di dati Hugging Face, accelerare e valutare in Databricks Runtime 13.0 ML e versioni successive.

Per verificare quale versione di Hugging Face è inclusa nella versione configurata di Databricks Runtime ML, vedere la sezione Librerie Python nelle note sulla versione pertinenti.

Perché usare Hugging Face Transformers?

Per molte applicazioni, ad esempio l'analisi del sentiment e il riepilogo del testo, i modelli con training preliminare funzionano correttamente senza alcun training aggiuntivo del modello.

Le pipeline hugging Face Transformers codificano le procedure consigliate e hanno modelli predefiniti selezionati per diverse attività, semplificando l'avvio. Le pipeline semplificano l'uso di GPU quando disponibili e consentono l'invio in batch di elementi inviati alla GPU per ottenere prestazioni migliori per la velocità effettiva.

Hugging Face fornisce:

  • Hub modello contenente molti modelli con training preliminare.
  • Libreria 🤗 Transformers che supporta il download e l'uso di questi modelli per le applicazioni NLP e l'ottimizzazione. È comune avere sia un tokenizer che un modello per le attività di elaborazione del linguaggio naturale.
  • 🤗 Pipeline di trasformatori con un'interfaccia semplice per la maggior parte delle attività di elaborazione del linguaggio naturale.

Installare transformers

Se la versione di Databricks Runtime nel cluster non include Hugging Face transformers, è possibile installare la libreria Hugging Face transformers più recente come libreria PyPI di Databricks.

  %pip install transformers

Installare le dipendenze del modello

Modelli diversi possono avere dipendenze diverse. Databricks consiglia di usare i comandi magic %pip per installare queste dipendenze in base alle esigenze.

Di seguito sono riportate le dipendenze comuni:

  • librosa: supporta la decodifica di file audio.
  • soundfile: obbligatorio durante la generazione di alcuni set di dati audio.
  • bitsandbytes: obbligatorio quando si usa load_in_8bit=True.
  • SentencePiece: usato come tokenizer per i modelli NLP.
  • timm: richiesto da DetrForSegmentation.

Training su nodo singolo

Per testare ed eseguire la migrazione di flussi di lavoro a computer singolo, usare un cluster a nodo singolo.

Risorse aggiuntive

Gli articoli seguenti includono notebook di esempio e linee guida per l'uso di Hugging Face transformers per l'ottimizzazione e l'inferenza del modello per modelli di grandi dimensioni in Azure Databricks.