Aprendizaje profundo

En este artículo se proporciona una breve introducción al uso de PyTorch, TensorFlow y el entrenamiento distribuido para desarrollar y ajustar modelos de aprendizaje profundo en Azure Databricks. También incluye vínculos a páginas con cuadernos de ejemplo que ilustran cómo usar esas herramientas.

PyTorch

PyTorch se incluye en Databricks Runtime ML y proporciona cálculos tensor acelerados por GPU y funcionalidades de alto nivel para crear redes de aprendizaje profundo. Puede realizar el entrenamiento de un solo nodo o el entrenamiento distribuido con PyTorch en Databricks. Vea PyTorch.

TensorFlow

Databricks Runtime ML incluye TensorFlow y TensorBoard, por lo que puede usar estas bibliotecas sin instalar ningún paquete. TensorFlow admite cálculos numéricos generales y de aprendizaje profundo en CPU, GPU y clústeres de GPU. TensorBoard proporciona herramientas de visualización para ayudarle a depurar y optimizar los flujos de trabajo de aprendizaje automático y de aprendizaje profundo. Consulte TensorFlow para obtener ejemplos de entrenamiento distribuido y de nodo único.

Entrenamiento distribuido

Dado que los modelos de aprendizaje profundo requieren muchos datos y cálculos, el entrenamiento distribuido puede ser importante. Para obtener ejemplos de aprendizaje profundo distribuido mediante integraciones con Horovod, spark-tensorflow-distributor, TorchDistributor y DeepSpeed, consulte Entrenamiento distribuido.

Seguimiento del desarrollo de modelos de aprendizaje profundo

El seguimiento sigue siendo una pieza clave del ecosistema de MLflow y es especialmente vital para la naturaleza iterativa del aprendizaje profundo. Databricks usa MLflow para realizar un seguimiento de las ejecuciones de entrenamiento de aprendizaje profundo y el desarrollo de modelos. Consulte Seguimiento del desarrollo de modelos mediante MLflow.