Preparación de datos y entorno para ML y DL

En esta sección se describe cómo preparar los datos y el entorno de Azure Databricks para el aprendizaje automático y el aprendizaje profundo.

Preparación de los datos

En los artículos de esta sección se tratan aspectos de la carga y preprocesamiento de datos específicos de las aplicaciones de ML y DL.

Preparación del entorno

Databricks Runtime para Machine Learning (Databricks Runtime ML) es un entorno listo y optimizado para el aprendizaje automático y la ciencia de datos. Databricks Runtime ML incluye muchas bibliotecas externas como TensorFlow, PyTorch, Horovod, scikit-learn y XGBoost, y proporciona extensiones que mejoran el rendimiento, entre las que se incluyen la aceleración de GPU en XGBoost, el aprendizaje profundo distribuido mediante HorovodRunner y los puntos de control del modelo mediante un montaje de FUSE en el sistema de archivos de Databricks (DBFS).

Para usar Databricks Runtime ML, seleccione la versión de Machine Learning del entorno de ejecución cuando cree el clúster.

Nota:

Para acceder a los datos del Catálogo de Unity para flujos de trabajo de aprendizaje automático, el modo de acceso del clúster debe ser un solo usuario (asignado). Los clústeres compartidos no son compatibles con Databricks Runtime para Machine Learning.

Instalar bibliotecas

Puede instalar bibliotecas con el fin de crear un entorno personalizado para el cuaderno o clúster.

Uso de clústeres de GPU

Puede crear clústeres de GPU para acelerar las tareas de aprendizaje profundo. Para obtener información sobre cómo crear clústeres de GPU de Azure Databricks, consulte Proceso habilitado para GPU. Databricks Runtime ML incluye controladores de hardware para GPU y bibliotecas de NVIDIA, como CUDA.