Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Databricks Asset Bundles es una herramienta para facilitar la adopción de procedimientos recomendados de ingeniería de software, como el control de código fuente, la revisión de código, las pruebas y la integración y entrega continuas (CI/CD) para los proyectos de datos e inteligencia artificial. Las agrupaciones proporcionan una manera de incluir metadatos junto con los archivos de origen del proyecto y hacer posible describir recursos de Databricks, como trabajos y canalizaciones como archivos de origen. En última instancia, una agrupación es una definición de un extremo a otro de un proyecto, incluido cómo se debe estructurar, probar e implementar el proyecto. Esto facilita la colaboración en proyectos durante el desarrollo activo.
El conjunto de archivos de origen y metadatos de tu proyecto de paquete se despliega como un único paquete en el entorno de destino. Un paquete incluye las siguientes partes:
- Configuraciones necesarias de infraestructura de nube y configuraciones de espacios de trabajo
- Archivos de origen, como cuadernos y archivos de Python, que incluyen la lógica de negocios
- Definiciones y configuraciones de los recursos de Databricks, como trabajos de Lakeflow, canalizaciones declarativas de Lakeflow, extremos de servicio de modelos, experimentos de MLflow y modelos registrados de MLflow.
- Pruebas unitarias y pruebas de integración.
En el diagrama siguiente se proporciona una vista general de una canalización de desarrollo y CI/CD con agrupaciones:
¿Cuándo debo usar los conjuntos de recursos de Databricks?
Los conjuntos de recursos de Databricks son un enfoque de infraestructura como código (IaC) para administrar proyectos de Databricks. Úselos cuando quiera administrar proyectos complejos en los que son esenciales varios colaboradores y la automatización, y la integración e implementación continuas (CI/CD) son un requisito. Dado que los conjuntos se definen y administran mediante archivos y plantillas de YAML que se crean y mantienen junto con el código fuente, se asignan bien a escenarios en los que IaC es un enfoque adecuado.
Algunos escenarios ideales para paquetes incluyen:
- Desarrolle proyectos de datos, análisis y aprendizaje automático en un entorno basado en equipo. Las agrupaciones pueden ayudarle a organizar y administrar varios archivos de código fuente de forma eficaz. Esto garantiza una colaboración fluida y procesos simplificados.
- Iteración de los problemas de ML más rápido. Administre los recursos de canalización de ML (como los trabajos de entrenamiento e inferencia por lotes) mediante proyectos de ML que siguen los procedimientos recomendados de producción desde el principio.
- Establezca estándares organizativos para nuevos proyectos mediante la creación de plantillas de agrupación personalizadas que incluyan permisos predeterminados, entidades de servicio y configuraciones de CI/CD.
- Cumplimiento normativo: en los sectores en los que el cumplimiento normativo es un problema importante, los paquetes pueden ayudar a mantener un historial con versiones del código y del trabajo de infraestructura. Esto ayuda a la gobernanza y garantiza que se cumplen los estándares de cumplimiento necesarios.
¿Cómo funcionan los conjuntos de recursos de Databricks?
Los metadatos de los conjuntos se definen mediante los archivos YAML que especifican los artefactos, los recursos y la configuración de un proyecto de Databricks. Después, se puede usar la CLI de Databricks para validar, implementar y ejecutar paquetes utilizando estos archivos YAML de paquetes. Los proyectos de conjuntos se pueden ejecutar desde IDE, terminales, o bien directamente en Databricks.
Los conjuntos se pueden crear manualmente o con una plantilla. La CLI de Databricks proporciona plantillas predeterminadas para casos de uso sencillos, pero para trabajos más específicos o complejos, puede crear plantillas de agrupación personalizadas para implementar los procedimientos recomendados del equipo y mantener las configuraciones comunes coherentes.
Para obtener más información sobre el YAML de configuración que se usa para expresar los conjuntos de recursos de Databricks, consulta Configuraciones de conjuntos de recursos de Databricks.
Requisitos
Los conjuntos de recursos de Databricks son una característica de la CLI de Databricks. Las agrupaciones se compilan localmente y, a continuación, se usa la CLI de Databricks para implementar los conjuntos en áreas de trabajo remotas de Databricks y ejecutar flujos de trabajo de agrupación en esas áreas de trabajo desde la línea de comandos.
Para compilar, implementar y ejecutar agrupaciones en las áreas de trabajo de Azure Databricks:
Las áreas de trabajo remotas de Databricks deben tener los archivos de área de trabajo activados. Si usa Databricks Runtime versión 11.3 LTS o superior, esta característica está habilitada de forma predeterminada.
Debe instalar la CLI de Databricks, versión v0.218.0 o posterior. Para instalar o actualizar la CLI de Databricks, consulte Instalación o actualización de la CLI de Databricks.
Databricks recomienda actualizar periódicamente a la versión más reciente de la CLI para aprovechar las nuevas características de agrupación. Para encontrar la versión de la CLI de Databricks que está instalada, ejecuta el siguiente comando:
databricks --version
Ha configurado la CLI de Databricks para acceder a las áreas de trabajo de Databricks. Databricks recomienda configurar el acceso mediante la autenticación de usuario a máquina (U2M) de OAuth, que se describe en Configuración del acceso al área de trabajo. Otros métodos de autenticación se describen en Autenticación para conjuntos de recursos de Databricks.
¿Cómo puedo empezar a usar conjuntos?
La forma más rápida de iniciar el desarrollo de conjuntos es usar una plantilla de proyecto de agrupación. Crea el primer proyecto de conjunto usando el comando init de agrupación de la CLI de Databricks. Este comando presenta una elección de las plantillas de conjunto predeterminadas proporcionadas por Databricks y formula una serie de preguntas para inicializar variables de proyecto.
databricks bundle init
Crear tu paquete es el primer paso en el ciclo de vida de un paquete. A continuación, desarrolle su agrupación definiendo los ajustes del paquete y los recursos en los databricks.yml
archivos de configuración. Por último, valide e implemente la agrupación y, a continuación, ejecute los flujos de trabajo.
Sugerencia
Los ejemplos de configuración de agrupación se pueden encontrar en Ejemplos de configuración de agrupación y en el Repositorio de ejemplos de agrupación en GitHub.
Pasos siguientes
- Cree un paquete que implemente un notebook en un área de trabajo de Azure Databricks y luego ejecute ese notebook implementado en un trabajo o pipeline de Azure Databricks. Consulte Desarrollo de un trabajo con conjuntos de recursos de Databricks y Desarrollo de canalizaciones declarativas de Lakeflow con conjuntos de recursos de Databricks.
- Cree una agrupación que implemente y ejecute una pila de MLOps. Consulte Conjuntos de recursos de Databricks para las pilas de MLOps.
- Lance un despliegue de paquete como parte de un flujo de trabajo de CI/CD (integración continua/despliegue continuo) en GitHub. Consulte Ejecutar un flujo de trabajo de CI/CD con un paquete que ejecuta una actualización de canalización.
- Cree una agrupación que compile, implemente y ejecute un archivo wheel de Python. Consulte Cree un archivo wheel de Python usando conjuntos de recursos de Databricks.
- Genere la configuración en la agrupación para un trabajo u otro recurso del área de trabajo y, a continuación, vincule al recurso del área de trabajo para que la configuración permanezca sincronizada. Consulte Generación de un archivo de configuración de agrupación y Enlace de un recurso de agrupación.
- Crear e implementar un paquete en el área de trabajo. Consulte Colaboración en agrupaciones en el área de trabajo.
- Cree una plantilla personalizada que usted y otros usuarios puedan usar para crear un conjunto. Una plantilla personalizada puede incluir permisos predeterminados, entidades de servicio y configuración de CI/CD personalizada. Consulte Plantillas de proyecto de agrupación de recursos de Databricks.
- Migración de dbx a agrupaciones de recursos de Databricks. Consulte Migración de dbx a agrupaciones.
- Descubre las principales nuevas características lanzadas para los paquetes de recursos de Databricks. Consulte Notas de la versión de las características de Conjuntos de recursos de Databricks.