Aprendizaje profundo (versión preliminar)

Apache Spark en Azure Synapse Analytics permite el aprendizaje automático con macrodatos, lo que proporciona la capacidad de obtener información valiosa de grandes cantidades de datos estructurados, no estructurados y en rápido movimiento. Existen varias opciones cuando se entrenan modelos de Machine Learning mediante Azure Spark en Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning y otras bibliotecas de código abierto.

Advertencia

  • La versión preliminar acelerada por GPU se limita a los entornos de ejecución de Azure Synapse 3.1 (no admitido) y Apache Spark 3.2 (Finalización del soporte técnico anunciada).
  • El 26 de enero de 2023 el entorno de ejecución de Azure Synapse para Apache Spark 3.1 ha alcanzado su fin de soporte técnico, por lo que a partir del 26 de enero de 2024 se interrumpirá el soporte técnico oficial y no se atenderán más incidencias de soporte técnico, correcciones de errores ni actualizaciones de seguridad después de esta fecha.
  • El 8 de julio de 2023 el entorno de ejecución de Azure Synapse para Apache Spark 3.2 alcanzó el fin del soporte técnico, por lo que no habrá correcciones de errores ni de características (aunque se pueden volver a aplicar correcciones de seguridad en función de la evaluación de riesgos), y se retirará y deshabilitará a partir del 8 de julio de 2024.

Grupos de Apache Spark habilitados por GPU

Para simplificar el proceso de creación y administración de grupos, Azure Synapse se encarga de instalar previamente bibliotecas de bajo nivel y de configurar todos los requisitos de red complejos entre nodos de ejecución. Esta integración permite a los usuarios empezar a trabajar con grupos acelerados por GPU en tan solo unos minutos. Para más información sobre cómo crear un grupo acelerado por GPU, puede visitar el inicio rápido sobre cómo crear un grupo acelerado por GPU.

Nota

  • Los grupos acelerados por GPU se pueden crear en áreas de trabajo ubicadas en las regiones Este de EE. UU., Este de Australia y Norte de Europa.
  • Los grupos acelerados por GPU solo están disponibles con el entorno de ejecución de Apache Spark 3.1 (no admitido) y 3.2.
  • Es posible que tenga que solicitar un aumento del límite para crear clústeres habilitados para GPU.

Entorno de ML por GPU

Azure Synapse Analytics brinda compatibilidad integrada con la infraestructura de aprendizaje profundo. Los entornos de ejecución de Azure Synapse Analytics para Apache Spark 3 incluyen compatibilidad con las bibliotecas de aprendizaje profundo más comunes, como TensorFlow y PyTorch. Además, el entorno de ejecución de Azure Synapse incluye bibliotecas auxiliares, como Petastorm y Horovod, que se usan normalmente para el entrenamiento distribuido.

Tensorflow

TensorFlow es un marco de aprendizaje automático de código abierto para todos los desarrolladores. Se usa para implementar aplicaciones de aprendizaje automático y aprendizaje profundo.

Para obtener más información sobre TensorFlow, puede consultar la documentación de API de TensorFlow.

PyTorch

PyTorch es una biblioteca tensorial optimizada para el aprendizaje profundo mediante GPU y CPU.

Para obtener más información sobre PyTorch, puede consultar la documentación de PyTorch.

Horovod

Horovod es un marco de entrenamiento en aprendizaje profundo distribuido para TensorFlow, Keras y PyTorch. Horovod se desarrolló para hacer que el aprendizaje profundo distribuido sea rápido y fácil de usar. Con este marco, se puede escalar verticalmente un script de entrenamiento existente para que se ejecute en cientos de GPU con solo unas pocas líneas de código. Además, Horovod se puede ejecutarse sobre Apache Spark, lo que permite unificar el procesamiento de datos y el entrenamiento de un modelo en una sola canalización.

Para obtener más información sobre cómo ejecutar trabajos de entrenamiento distribuidos en Azure Synapse Analytics, puede consultar los siguientes tutoriales: Tutorial: Entrenamiento distribuido con Horovod y PyTorch - Tutorial: Entrenamiento distribuido con Horovod y TensorFlow.

Para obtener más información sobre Horovod, puede consultar la documentación de Horovod.

Petastorm

Petastorm es una biblioteca de acceso a datos de código abierto que permite el entrenamiento distribuido o de nodo único de modelos de aprendizaje profundo. Esta biblioteca permite entrenar directamente a partir de conjuntos de datos y formato Apache Parquet y conjuntos de datos que ya se han cargado como Apache Spark DataFrame. Petastorm es compatible con marcos de entrenamiento populares como Tensorflow y PyTorch.

Para obtener más información sobre Petastorm, puede visitar la página de Petastorm en GitHub y la documentación de API de Petastorm.

Pasos siguientes

En este artículo se proporciona información general sobre las distintas opciones para entrenar modelos de Machine Learning en los grupos de Apache Spark de Azure Synapse Analytics. Para más información sobre el entrenamiento de modelos, siga este tutorial: