¿Qué son los Hugging Face Transformers?

Este artículo proporciona una introducción a Hugging Face Transformers en Azure Databricks. Incluye instrucciones sobre por qué usar Hugging Face Transformers y cómo instalarlo en el clúster.

Fondo para hugging Face Transformers

Hugging Face Transformers es un marco de código abierto para el aprendizaje profundo creado por Hugging Face. Proporciona API y herramientas para descargar modelos previamente entrenados de última generación y optimizarlos para maximizar el rendimiento. Estos modelos admiten tareas comunes en diferentes modalidades, como el procesamiento del lenguaje natural, la visión artificial, el audio y las aplicaciones multimodales.

Databricks Runtime para Machine Learning incluye Hugging Face transformers en Databricks Runtime 10.4 LTS ML y versiones posteriores, e incluye conjuntos de datos de Hugging Face, aceleración y evaluación en Databricks Runtime 13.0 ML y versiones posteriores.

Para comprobar qué versión de Hugging Face se incluye en la versión configurada de Databricks Runtime ML, consulte la sección Bibliotecas de Python en las notas de la versión pertinentes.

¿Por qué usar Hugging Face Transformers?

Para muchas aplicaciones, como el análisis de opiniones y el resumen de textos, los modelos entrenados previamente funcionan bien sin ningún entrenamiento de modelos adicional.

Las canalizaciones de Hugging Face Transformers codifican los procedimientos recomendados y tienen modelos predeterminados seleccionados para diferentes tareas, lo que facilita el uso. Las canalizaciones facilitan el uso de las GPU cuando están disponibles y permiten el procesamiento por lotes de elementos enviados a la GPU para mejorar el rendimiento.

Hugging Face proporciona:

  • Un centro de modelo que contiene muchos modelos entrenados previamente.
  • La 🤗biblioteca de Transformers que admite la descarga y el uso de estos modelos para aplicaciones NLP y el ajuste preciso. Es habitual necesitar un tokenizador y un modelo para las tareas de procesamiento de lenguaje natural.
  • 🤗Canalizaciones de Transformers que tienen una interfaz sencilla para la mayoría de las tareas de procesamiento de lenguaje natural.

Instalar transformers

Si la versión de Databricks Runtime del clúster no incluye Hugging Face transformers, puede instalar la biblioteca de transformers de Hugging Face más reciente como una biblioteca de PyPI de Databricks.

  %pip install transformers

Instalar dependencias del modelo

Es posible que diferentes modelos tengan dependencias diferentes. Databricks recomienda usar comandos mágicos %pip para instalar estas dependencias según sea necesario.

A continuación se muestran dependencias comunes:

  • librosa: admite la descodificación de archivos de audio.
  • soundfile: necesario al generar algunos conjuntos de datos de audio.
  • bitsandbytes: necesario al usar load_in_8bit=True.
  • SentencePiece: se usa como tokenizador para los modelos de NLP.
  • timm: requerido por DetrForSegmentation.

Aprendizaje de nodo único

Para probar y migrar flujos de trabajo de una sola máquina, use un clúster de nodo único.

Recursos adicionales

En los siguientes artículos se incluyen cuadernos de ejemplo e instrucciones sobre cómo usar Hugging Face transformers para el ajuste preciso de modelos de lenguaje grande (LLM) y la inferencia de modelos en Azure Databricks.