Preparación de datos y entorno para ML y DL

Artículo
03/01/2024

En esta sección se describe cómo preparar los datos y el entorno de Azure Databricks para el aprendizaje automático y el aprendizaje profundo.

Preparación de los datos

En los artículos de esta sección se tratan aspectos de la carga y preprocesamiento de datos específicos de las aplicaciones de ML y DL.

Preparación del entorno

Databricks Runtime para Machine Learning (Databricks Runtime ML) es un entorno listo y optimizado para el aprendizaje automático y la ciencia de datos. Databricks Runtime ML incluye muchas bibliotecas externas como TensorFlow, PyTorch, Horovod, scikit-learn y XGBoost, y proporciona extensiones que mejoran el rendimiento, entre las que se incluyen la aceleración de GPU en XGBoost, el aprendizaje profundo distribuido mediante HorovodRunner y los puntos de control del modelo mediante un montaje de FUSE en el sistema de archivos de Databricks (DBFS).

Para usar Databricks Runtime ML, seleccione la versión de Machine Learning del entorno de ejecución cuando cree el clúster.

Nota:

Para acceder a los datos del Catálogo de Unity para flujos de trabajo de aprendizaje automático, el modo de acceso del clúster debe ser un solo usuario (asignado). Los clústeres compartidos no son compatibles con Databricks Runtime para Machine Learning.

Instalar bibliotecas

Puede instalar bibliotecas con el fin de crear un entorno personalizado para el cuaderno o clúster.

Para que una biblioteca esté disponible para todos los cuadernos que se ejecutan en un clúster, cree una biblioteca de clústeres. Puede instalar scripts de inicialización para instalar bibliotecas en clústeres después de la creación.
Para instalar una biblioteca que solo está disponible para una sesión de cuaderno específica, use bibliotecas de Python con ámbito de cuaderno.

Uso de clústeres de GPU

Puede crear clústeres de GPU para acelerar las tareas de aprendizaje profundo. Para obtener información sobre cómo crear clústeres de GPU de Azure Databricks, consulte Proceso habilitado para GPU. Databricks Runtime ML incluye controladores de hardware para GPU y bibliotecas de NVIDIA, como CUDA.

Preparación de datos y entorno para ML y DL

Preparación de los datos

Preparación del entorno

Instalar bibliotecas

Uso de clústeres de GPU

Recursos adicionales