Vad är huggande ansiktstransformatorer?

Den här artikeln innehåller en introduktion till Hugging Face Transformers på Azure Databricks. Den innehåller vägledning om varför du använder Hugging Face Transformers och hur du installerar den i klustret.

Bakgrund för att krama ansiktstransformatorer

Hugging Face Transformers är ett ramverk med öppen källkod för djupinlärning som skapats av Hugging Face. Den innehåller API:er och verktyg för att ladda ned toppmoderna förtränade modeller och finjustera dem ytterligare för att maximera prestanda. Dessa modeller stöder vanliga uppgifter i olika former, till exempel bearbetning av naturligt språk, visuellt innehåll, ljud och multimodala program.

Kommentar

Apache License 2.0.

Databricks Runtime for Machine Learning innehåller Hugging Face transformers i Databricks Runtime 10.4 LTS ML och senare, och innehåller Hugging Face-datamängder, accelerera och utvärdera i Databricks Runtime 13.0 ML och senare.

Om du vill kontrollera vilken version av Hugging Face som ingår i din konfigurerade Databricks Runtime ML-version läser du avsnittet Python-bibliotek i relevanta viktig information.

Varför använda Hugging Ansiktstransformatorer?

För många program, till exempel attitydanalys och textsammanfattning, fungerar förtränade modeller bra utan ytterligare modellträning.

Att krama Ansiktstransformatorer-pipelines kodar metodtips och har standardmodeller valda för olika uppgifter, vilket gör det enkelt att komma igång. Pipelines gör det enkelt att använda GPU:er när de är tillgängliga och tillåter batchbearbetning av objekt som skickas till GPU:n för bättre dataflödesprestanda.

Hugging Face tillhandahåller:

  • En modellhubb som innehåller många förtränade modeller.
  • Biblioteket 🤗 Transformers som stöder nedladdning och användning av dessa modeller för NLP-program och finjustering. Det är vanligt att behöva både en tokenizer och en modell för bearbetningsuppgifter för naturligt språk.
  • 🤗 Transformerar pipelines som har ett enkelt gränssnitt för de flesta bearbetningsuppgifter för naturligt språk.

Installera transformers

Om Databricks Runtime-versionen i klustret inte innehåller Hugging Face transformerskan du installera det senaste Hugging Face-biblioteket transformers som ett Databricks PyPI-bibliotek.

  %pip install transformers

Installera modellberoenden

Olika modeller kan ha olika beroenden. Databricks rekommenderar att du använder %pip magic-kommandon för att installera dessa beroenden efter behov.

Följande är vanliga beroenden:

  • librosa: stöder avkodning av ljudfiler.
  • soundfile: krävs när vissa ljuddatauppsättningar genereras.
  • bitsandbytes: krävs när du använder load_in_8bit=True.
  • SentencePiece: används som tokenizer för NLP-modeller.
  • timm: krävs av DetrForSegmentation.

Träning för enkel nod

Om du vill testa och migrera arbetsflöden för en enda dator använder du ett kluster med en nod.

Ytterligare resurser

Följande artiklar innehåller exempel på notebook-filer och vägledning för hur du använder Hugging Face transformers för stor språkmodell (LLM) finjustering och modellinferens på Azure Databricks.