Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Los conjuntos de automatización declarativos (anteriormente conocidos como Conjuntos de recursos de Databricks) son una herramienta para facilitar la adopción de procedimientos recomendados de ingeniería de software, como el control de código fuente, la revisión de código, las pruebas y la integración y entrega continuas (CI/CD) para los proyectos de datos e inteligencia artificial. Las agrupaciones proporcionan una manera de incluir metadatos junto con los archivos de origen del proyecto y hacer posible describir recursos de Databricks, como trabajos y canalizaciones como archivos de origen. En última instancia, una agrupación es una definición de un extremo a otro de un proyecto, incluido cómo se debe estructurar, probar e implementar el proyecto. Esto facilita la colaboración en proyectos durante el desarrollo activo.
El conjunto de archivos de origen y metadatos de tu proyecto de paquete se despliega como un único paquete en el entorno de destino. Un paquete incluye las siguientes partes:
- Configuraciones necesarias de infraestructura de nube y configuraciones de espacios de trabajo
- Archivos de origen, como cuadernos y archivos de Python, que incluyen la lógica de negocios
- Definiciones y configuración de recursos de Databricks, como trabajos de Lakeflow, canalizaciones declarativas de Lakeflow Spark, dashboards, endpoints de servicio de modelos, experimentos de MLflow y modelos registrados de MLflow.
- Pruebas unitarias y pruebas de integración.
En el diagrama siguiente se proporciona una vista general de una canalización de desarrollo y CI/CD con agrupaciones:
Tutorial de vídeo
En este vídeo se muestra cómo trabajar con agrupaciones de automatización declarativa (5 minutos).
¿Cuándo debo usar paquetes?
Los conjuntos de automatización declarativos son un enfoque de infraestructura como código (IaC) para administrar los proyectos de Databricks. Úselos cuando quiera administrar proyectos complejos en los que son esenciales varios colaboradores y la automatización, y la integración e implementación continuas (CI/CD) son un requisito. Dado que los conjuntos se definen y administran mediante archivos y plantillas de YAML que se crean y mantienen junto con el código fuente, se asignan bien a escenarios en los que IaC es un enfoque adecuado.
Algunos escenarios ideales para paquetes incluyen:
- Desarrolle proyectos de datos, análisis y aprendizaje automático en un entorno basado en equipo. Las agrupaciones pueden ayudarle a organizar y administrar varios archivos de código fuente de forma eficaz. Esto garantiza una colaboración fluida y procesos simplificados.
- Iteración de los problemas de ML más rápido. Administre los recursos de canalización de ML (como los trabajos de entrenamiento e inferencia por lotes) mediante proyectos de ML que siguen los procedimientos recomendados de producción desde el principio.
- Establezca estándares organizativos para nuevos proyectos mediante la creación de plantillas de agrupación personalizadas que incluyan permisos predeterminados, entidades de servicio y configuraciones de CI/CD.
- Cumplimiento normativo: en los sectores en los que el cumplimiento normativo es un problema importante, los paquetes pueden ayudar a mantener un historial con versiones del código y del trabajo de infraestructura. Esto ayuda a la gobernanza y garantiza que se cumplen los estándares de cumplimiento necesarios.
¿Cómo funcionan las agrupaciones?
Los metadatos de los conjuntos se definen mediante los archivos YAML que especifican los artefactos, los recursos y la configuración de un proyecto de Databricks. Después, se puede usar la CLI de Databricks para validar, implementar y ejecutar paquetes utilizando estos archivos YAML de paquetes. Los proyectos de conjuntos se pueden ejecutar desde IDE, terminales, o bien directamente en Databricks.
Los conjuntos se pueden crear manualmente o con una plantilla. La CLI de Databricks proporciona plantillas predeterminadas para casos de uso sencillos, pero para trabajos más específicos o complejos, puede crear plantillas de agrupación personalizadas para implementar los procedimientos recomendados del equipo y mantener las configuraciones comunes coherentes.
Para obtener más información sobre la configuración de YAML que se usa para expresar agrupaciones de automatización declarativa, consulte Configuración de paquetes de automatización declarativos.
¿Qué necesito instalar para usar paquetes?
Los conjuntos de automatización declarativos son una característica de la CLI de Databricks. Las agrupaciones se compilan localmente y, a continuación, se usa la CLI de Databricks para implementar los conjuntos en áreas de trabajo remotas de Databricks y ejecutar flujos de trabajo de agrupación en esas áreas de trabajo desde la línea de comandos.
Nota:
Si solo desea usar agrupaciones en el área de trabajo, no es necesario instalar la CLI de Databricks. Consulte Colaboración en agrupaciones en el área de trabajo.
Para compilar, implementar y ejecutar agrupaciones en las áreas de trabajo de Azure Databricks:
Las áreas de trabajo remotas de Databricks deben tener los archivos de área de trabajo activados. Si usa Databricks Runtime versión 11.3 LTS o superior, esta característica está habilitada de forma predeterminada.
Debe instalar la CLI de Databricks, versión v0.218.0 o posterior. Para instalar o actualizar la CLI de Databricks, consulte Instalación o actualización de la CLI de Databricks.
Databricks recomienda actualizar periódicamente a la versión más reciente de la CLI para aprovechar las nuevas características de agrupación. Para encontrar la versión de la CLI de Databricks que está instalada, ejecuta el siguiente comando:
databricks --versionHa configurado la CLI de Databricks para acceder a las áreas de trabajo de Databricks. Databricks recomienda configurar el acceso mediante la autenticación de usuario a máquina (U2M) de OAuth, que se describe en Configuración del acceso al área de trabajo. Otros métodos de autenticación se describen en Autenticación para agrupaciones de automatización declarativa.
¿Cómo puedo empezar a usar conjuntos?
La forma más rápida de iniciar el desarrollo de agrupación local es usar una plantilla de proyecto de agrupación. Crea el primer proyecto de conjunto usando el comando init de agrupación de la CLI de Databricks. Este comando presenta una elección de las plantillas de conjunto predeterminadas proporcionadas por Databricks y formula una serie de preguntas para inicializar variables de proyecto.
databricks bundle init
Crear tu paquete es el primer paso en el ciclo de vida de un paquete. A continuación, desarrolle su agrupación definiendo los ajustes del paquete y los recursos en los databricks.ymlarchivos de configuración. Por último, valide e implemente la agrupación y, a continuación, ejecute los flujos de trabajo.
Sugerencia
Los ejemplos de configuración de agrupación se pueden encontrar en Ejemplos de configuración de agrupación y en el Repositorio de ejemplos de agrupación en GitHub.
Pasos siguientes
- Cree un paquete que implemente un notebook en un área de trabajo de Azure Databricks y luego ejecute ese notebook implementado en un trabajo o pipeline de Azure Databricks. Consulte Desarrollo de un trabajo con agrupaciones de automatización declarativa y Desarrollo de canalizaciones con agrupaciones de automatización declarativa.
- Cree una agrupación que implemente y ejecute una pila de MLOps. Consulte Paquetes de Automatización Declarativa para Infraestructuras MLOps.
- Lance un despliegue de paquete como parte de un flujo de trabajo de CI/CD (integración continua/despliegue continuo) en GitHub. Consulte Ejecutar un flujo de trabajo de CI/CD con un paquete que ejecuta una actualización de canalización.
- Cree una agrupación que compile, implemente y ejecute un archivo wheel de Python. Consulte Compilación de un archivo de rueda de Python mediante agrupaciones de automatización declarativa.
- Genere la configuración en su paquete para un trabajo u otro recurso en su espacio de trabajo, luego vincúlelo al recurso en el espacio de trabajo para que la configuración permanezca sincronizada. Consulte databricks bundle generate y databricks bundle deployment bind.
- Crear e implementar un paquete en el área de trabajo. Consulte Colaboración en agrupaciones en el área de trabajo.
- Cree una plantilla personalizada que usted y otros usuarios puedan usar para crear un conjunto. Una plantilla personalizada puede incluir permisos predeterminados, entidades de servicio y configuración de CI/CD personalizada. Consulte las plantillas de proyectos de paquetes de automatización declarativa.
- Migre de dbx a paquetes de Automatización declarativa. Consulte Migración de dbx a agrupaciones.
- Descubra las últimas novedades importantes lanzadas para los Paquetes de Automatización Declarativa. Consulte las notas de la versión de la función Paquetes de Automatización Declarativa.