O que são Hugging Face Transformers?
Este artigo fornece uma introdução ao Hugging Face Transformers no Azure Databricks. Ele inclui orientações sobre por que usar o Hugging Face Transformers e como instalá-lo em seu cluster.
Fundo para abraçar transformadores de rosto
Hugging Face Transformers é uma estrutura de código aberto para aprendizagem profunda criada pela Hugging Face. Ele fornece APIs e ferramentas para baixar modelos pré-treinados de última geração e ajustá-los ainda mais para maximizar o desempenho. Esses modelos suportam tarefas comuns em diferentes modalidades, como processamento de linguagem natural, visão computacional, áudio e aplicações multimodais.
Nota
O Databricks Runtime for Machine Learning inclui o Hugging Face transformers
no Databricks Runtime 10.4 LTS ML e superior, e inclui conjuntos de dados do Hugging Face, acelera e avalia no Databricks Runtime 13.0 ML e superior.
Para verificar qual versão do Hugging Face está incluída na versão configurada do Databricks Runtime ML, consulte a seção Bibliotecas Python nas notas de versão relevantes.
Porquê usar Hugging Face Transformers?
Para muitas aplicações, como análise de sentimento e resumo de texto, modelos pré-treinados funcionam bem sem qualquer treinamento adicional de modelo.
Os pipelines Hugging Face Transformers codificam as melhores práticas e têm modelos padrão selecionados para diferentes tarefas, facilitando o início. Os pipelines facilitam o uso de GPUs quando disponíveis e permitem o processamento em lote de itens enviados para a GPU para um melhor desempenho de taxa de transferência.
Hugging Face oferece:
- Um hub de modelo contendo muitos modelos pré-treinados.
- A 🤗 biblioteca Transformers que suporta o download e o uso desses modelos para aplicativos de PNL e ajuste fino. É comum precisar de um tokenizador e de um modelo para tarefas de processamento de linguagem natural.
- 🤗 Transformadores de tubulações que possuem uma interface simples para a maioria das tarefas de processamento de linguagem natural.
Instalar transformers
Se a versão do Databricks Runtime no cluster não incluir o Hugging Face transformers
, você poderá instalar a biblioteca mais recente do Hugging Face transformers
como uma biblioteca Databricks PyPI.
%pip install transformers
Instalar dependências de modelo
Modelos diferentes podem ter dependências diferentes. O Databricks recomenda que você use os comandos %pip magic para instalar essas dependências conforme necessário.
A seguir estão as dependências comuns:
librosa
: Suporta decodificação de arquivos de áudio.soundfile
: necessário durante a geração de alguns conjuntos de dados de áudio.bitsandbytes
: obrigatório ao usarload_in_8bit=True
o .SentencePiece
: usado como tokenizador para modelos de PNL.timm
: exigido por DetrForSegmentation.
Preparação dos nós únicos
Para testar e migrar fluxos de trabalho de máquina única, use um cluster de nó único.
Recursos adicionais
Os artigos a seguir incluem blocos de anotações de exemplo e orientações sobre como usar o Hugging Face transformers
para ajuste fino de modelo de linguagem grande (LLM) e inferência de modelo no Azure Databricks.