Compartir a través de


¿Qué son los conjuntos de recursos de Databricks?

Databricks Asset Bundles es una herramienta para facilitar la adopción de procedimientos recomendados de ingeniería de software, como el control de código fuente, la revisión de código, las pruebas y la integración y entrega continuas (CI/CD) para los proyectos de datos e inteligencia artificial. Las agrupaciones proporcionan una manera de incluir metadatos junto con los archivos de origen del proyecto y hacer posible describir recursos de Databricks, como trabajos y canalizaciones como archivos de origen. En última instancia, una agrupación es una definición de un extremo a otro de un proyecto, incluido cómo se debe estructurar, probar e implementar el proyecto. Esto facilita la colaboración en proyectos durante el desarrollo activo.

El conjunto de archivos de origen y metadatos de tu proyecto de paquete se despliega como un único paquete en el entorno de destino. Un paquete incluye las siguientes partes:

  • Configuraciones necesarias de infraestructura de nube y configuraciones de espacios de trabajo
  • Archivos de origen, como cuadernos y archivos de Python, que incluyen la lógica de negocios
  • Definiciones y configuraciones de los recursos de Databricks, como trabajos de Lakeflow, canalizaciones declarativas de Lakeflow, extremos de servicio de modelos, experimentos de MLflow y modelos registrados de MLflow.
  • Pruebas unitarias y pruebas de integración.

En el diagrama siguiente se proporciona una vista general de una canalización de desarrollo y CI/CD con agrupaciones:

Introducción a los conjuntos de recursos de Databricks

¿Cuándo debo usar los conjuntos de recursos de Databricks?

Los conjuntos de recursos de Databricks son un enfoque de infraestructura como código (IaC) para administrar proyectos de Databricks. Úselos cuando quiera administrar proyectos complejos en los que son esenciales varios colaboradores y la automatización, y la integración e implementación continuas (CI/CD) son un requisito. Dado que los conjuntos se definen y administran mediante archivos y plantillas de YAML que se crean y mantienen junto con el código fuente, se asignan bien a escenarios en los que IaC es un enfoque adecuado.

Algunos escenarios ideales para paquetes incluyen:

  • Desarrolle proyectos de datos, análisis y aprendizaje automático en un entorno basado en equipo. Las agrupaciones pueden ayudarle a organizar y administrar varios archivos de código fuente de forma eficaz. Esto garantiza una colaboración fluida y procesos simplificados.
  • Iteración de los problemas de ML más rápido. Administre los recursos de canalización de ML (como los trabajos de entrenamiento e inferencia por lotes) mediante proyectos de ML que siguen los procedimientos recomendados de producción desde el principio.
  • Establezca estándares organizativos para nuevos proyectos mediante la creación de plantillas de agrupación personalizadas que incluyan permisos predeterminados, entidades de servicio y configuraciones de CI/CD.
  • Cumplimiento normativo: en los sectores en los que el cumplimiento normativo es un problema importante, los paquetes pueden ayudar a mantener un historial con versiones del código y del trabajo de infraestructura. Esto ayuda a la gobernanza y garantiza que se cumplen los estándares de cumplimiento necesarios.

¿Cómo funcionan los conjuntos de recursos de Databricks?

Los metadatos de los conjuntos se definen mediante los archivos YAML que especifican los artefactos, los recursos y la configuración de un proyecto de Databricks. Después, se puede usar la CLI de Databricks para validar, implementar y ejecutar paquetes utilizando estos archivos YAML de paquetes. Los proyectos de conjuntos se pueden ejecutar desde IDE, terminales, o bien directamente en Databricks.

Los conjuntos se pueden crear manualmente o con una plantilla. La CLI de Databricks proporciona plantillas predeterminadas para casos de uso sencillos, pero para trabajos más específicos o complejos, puede crear plantillas de agrupación personalizadas para implementar los procedimientos recomendados del equipo y mantener las configuraciones comunes coherentes.

Para obtener más información sobre el YAML de configuración que se usa para expresar los conjuntos de recursos de Databricks, consulta Configuraciones de conjuntos de recursos de Databricks.

Requisitos

Los conjuntos de recursos de Databricks son una característica de la CLI de Databricks. Las agrupaciones se compilan localmente y, a continuación, se usa la CLI de Databricks para implementar los conjuntos en áreas de trabajo remotas de Databricks y ejecutar flujos de trabajo de agrupación en esas áreas de trabajo desde la línea de comandos.

Para compilar, implementar y ejecutar agrupaciones en las áreas de trabajo de Azure Databricks:

  • Las áreas de trabajo remotas de Databricks deben tener los archivos de área de trabajo activados. Si usa Databricks Runtime versión 11.3 LTS o superior, esta característica está habilitada de forma predeterminada.

  • Debe instalar la CLI de Databricks, versión v0.218.0 o posterior. Para instalar o actualizar la CLI de Databricks, consulte Instalación o actualización de la CLI de Databricks.

    Databricks recomienda actualizar periódicamente a la versión más reciente de la CLI para aprovechar las nuevas características de agrupación. Para encontrar la versión de la CLI de Databricks que está instalada, ejecuta el siguiente comando:

    databricks --version
    
  • Ha configurado la CLI de Databricks para acceder a las áreas de trabajo de Databricks. Databricks recomienda configurar el acceso mediante la autenticación de usuario a máquina (U2M) de OAuth, que se describe en Configuración del acceso al área de trabajo. Otros métodos de autenticación se describen en Autenticación para conjuntos de recursos de Databricks.

¿Cómo puedo empezar a usar conjuntos?

La forma más rápida de iniciar el desarrollo de conjuntos es usar una plantilla de proyecto de agrupación. Crea el primer proyecto de conjunto usando el comando init de agrupación de la CLI de Databricks. Este comando presenta una elección de las plantillas de conjunto predeterminadas proporcionadas por Databricks y formula una serie de preguntas para inicializar variables de proyecto.

databricks bundle init

Crear tu paquete es el primer paso en el ciclo de vida de un paquete. A continuación, desarrolle su agrupación definiendo los ajustes del paquete y los recursos en los databricks.ymlarchivos de configuración. Por último, valide e implemente la agrupación y, a continuación, ejecute los flujos de trabajo.

Sugerencia

Los ejemplos de configuración de agrupación se pueden encontrar en Ejemplos de configuración de agrupación y en el Repositorio de ejemplos de agrupación en GitHub.

Pasos siguientes