Partilhar via


O que são Hugging Face Transformers?

Este artigo fornece uma introdução ao Hugging Face Transformers no Azure Databricks. Ele inclui orientações sobre por que usar o Hugging Face Transformers e como instalá-lo em seu cluster.

Fundo para abraçar transformadores de rosto

Hugging Face Transformers é uma estrutura de código aberto para aprendizagem profunda criada pela Hugging Face. Ele fornece APIs e ferramentas para baixar modelos pré-treinados de última geração e ajustá-los ainda mais para maximizar o desempenho. Esses modelos suportam tarefas comuns em diferentes modalidades, como processamento de linguagem natural, visão computacional, áudio e aplicações multimodais.

O Databricks Runtime for Machine Learning inclui o Hugging Face transformers no Databricks Runtime 10.4 LTS ML e superior, e inclui conjuntos de dados do Hugging Face, acelera e avalia no Databricks Runtime 13.0 ML e superior.

Para verificar qual versão do Hugging Face está incluída na versão configurada do Databricks Runtime ML, consulte a seção Bibliotecas Python nas notas de versão relevantes.

Porquê usar Hugging Face Transformers?

Para muitas aplicações, como análise de sentimento e resumo de texto, modelos pré-treinados funcionam bem sem qualquer treinamento adicional de modelo.

Os pipelines Hugging Face Transformers codificam as melhores práticas e têm modelos padrão selecionados para diferentes tarefas, facilitando o início. Os pipelines facilitam o uso de GPUs quando disponíveis e permitem o processamento em lote de itens enviados para a GPU para um melhor desempenho de taxa de transferência.

Hugging Face oferece:

  • Um hub de modelo contendo muitos modelos pré-treinados.
  • A 🤗 biblioteca Transformers que suporta o download e o uso desses modelos para aplicativos de PNL e ajuste fino. É comum precisar de um tokenizador e de um modelo para tarefas de processamento de linguagem natural.
  • 🤗 Transformadores de tubulações que possuem uma interface simples para a maioria das tarefas de processamento de linguagem natural.

Instalar transformers

Se a versão do Databricks Runtime no cluster não incluir o Hugging Face transformers, você poderá instalar a biblioteca mais recente do Hugging Face transformers como uma biblioteca Databricks PyPI.

  %pip install transformers

Instalar dependências de modelo

Modelos diferentes podem ter dependências diferentes. O Databricks recomenda que você use os comandos %pip magic para instalar essas dependências conforme necessário.

A seguir estão as dependências comuns:

  • librosa: Suporta decodificação de arquivos de áudio.
  • soundfile: necessário durante a geração de alguns conjuntos de dados de áudio.
  • bitsandbytes: obrigatório ao usar load_in_8bit=Trueo .
  • SentencePiece: usado como tokenizador para modelos de PNL.
  • timm: exigido por DetrForSegmentation.

Preparação dos nós únicos

Para testar e migrar fluxos de trabalho de máquina única, use um cluster de nó único.

Recursos adicionais

Os artigos a seguir incluem blocos de anotações de exemplo e orientações sobre como usar o Hugging Face transformers para ajuste fino de modelo de linguagem grande (LLM) e inferência de modelo no Azure Databricks.