O que são transformadores do Hugging Face?

Este artigo fornece uma introdução ao Hugging Face Transformers no Azure Databricks. Ele inclui diretrizes sobre por que usar o Hugging Face Transformers e como instalá-lo em seu cluster.

Plano de fundo para o Hugging Face Transformers

Hugging Face Transformers é uma estrutura de código aberto para aprendizagem profunda criada pela Hugging Face. Ela fornece APIs e ferramentas para baixar modelos pré-treinados de última geração e ajustá-los ainda mais para maximizar o desempenho. Esses modelos dão suporte a tarefas comuns em diferentes modalidades, como processamento de linguagem natural, pesquisa visual computacional, áudio e aplicativos multimodais.

Observação

Licença do Apache 2.0.

O Databricks Runtime for Machine Learning inclui o Hugging Face transformers no Databricks Runtime 10.4 LTS ML e superior, e inclui conjuntos de dados do Hugging Face, acelera e avalia no Databricks Runtime 13.0 ML e superior.

Para verificar qual versão do Hugging Face está incluída na versão configurada do Databricks Runtime ML, consulte a seção Bibliotecas Python nas notas de versão relevantes.

Por que usar o Hugging Face Transformers?

Para muitos aplicativos, como análise de sentimento e resumo de texto, os modelos pré-treinados funcionam bem sem nenhum treinamento de modelo adicional.

Os pipelines do Hugging Face Transformers codificam as melhores práticas e têm modelos padrão selecionados para diferentes tarefas, facilitando a introdução. Os pipelines facilitam o uso de GPUs quando disponíveis e permitem o envio em lote de itens enviados para a GPU para um melhor desempenho de taxa de transferência.

O Hugging Face proporciona:

  • Um hub de modelo contendo muitos modelos pré-treinados.
  • A 🤗 biblioteca Transformers que dá suporte ao download e ao uso desses modelos para aplicações de PNL e ajuste fino. É comum precisar de um tokenizador e de um modelo para tarefas de processamento de linguagem natural.
  • 🤗 Pipelines do Transformers que possuem uma interface simples para a maioria das tarefas de processamento de linguagem natural.

Instalar transformers

Se a versão do Databricks Runtime no cluster não incluir o Hugging Face transformers, você poderá instalar a biblioteca Hugging Face transformers mais recente como uma biblioteca Databricks PyPI.

  %pip install transformers

Instalar dependências de modelo

Modelos diferentes podem ter dependências diferentes. O Databricks recomenda que você use comandos %pip magic para instalar essas dependências conforme necessário.

A seguir estão as dependências comuns:

  • librosa: dá suporte à decodificação de arquivos de áudio.
  • soundfile: necessário ao gerar alguns conjuntos de dados de áudio.
  • bitsandbytes: necessário ao usar load_in_8bit=True.
  • SentencePiece: usado como tokenizador para modelos NLP.
  • timm: exigido por DetrForSegmentation.

Treinamento de nó único

Para testar e migrar fluxos de trabalho de computador único, use um cluster de nó único.

Recursos adicionais

Os artigos a seguir incluem notebooks de exemplo e diretrizes de como usar o Hugging Face transformers para ajuste fino de LLM (modelo de linguagem grande) e inferência de modelo no Azure Databricks.