Procedimientos recomendados para la excelencia operativa

Artículo
10/04/2024

En este artículo se tratan los procedimientos recomendados de excelencia operativa, organizados por principios arquitectónicos enumerados en las secciones siguientes.

1. Optimización de los procesos de compilación y versión

Creación de un equipo de operaciones de almacén de lago dedicado

Es un procedimiento recomendado usual el tener un equipo de operaciones de plataforma para permitir que los equipos de datos trabajen en una o varias plataformas de datos. Este equipo es responsable de crear planos técnicos y procedimientos recomendados internamente. Proporcionan herramientas, por ejemplo, para la automatización de la infraestructura y el acceso al autoservicio, y garantizan que se cumplan los requisitos de seguridad y cumplimiento. Esto pone la carga de proteger los datos de la plataforma en un equipo central, lo que permite a los equipos distribuidos centrarse en trabajar con datos y generar nuevas conclusiones.

Uso de la administración de código fuente de Enterprise (SCM)

La administración de código fuente (SCM) ayuda a los desarrolladores a trabajar de forma más eficaz, lo que puede dar lugar a una velocidad de lanzamiento más rápida y a reducir los costos de desarrollo. Tener una herramienta que ayude a realizar un seguimiento de los cambios, mantener la integridad del código, detectar errores y revertir a versiones anteriores es un componente importante de la arquitectura general de la solución.

Las carpetas de Git de Databricks permiten a los usuarios almacenar cuadernos u otros archivos en un repositorio de Git, proporcionando características como clonar un repositorio, confirmar e insertar, extraer, administrar ramas y ver diferencias de archivos. Use carpetas de Git para mejorar la visibilidad y el seguimiento del código.

Estandarizar procesos de DevOps (CI/CD)

Integración continua y entrega continua (CI/CD) hace referencia al proceso de desarrollo y entrega de software en ciclos cortos y frecuentes mediante canalizaciones automatizadas. Aunque este proceso no es en absoluto nuevo, ya que ha sido omnipresente en la ingeniería de software tradicional durante décadas, se está convirtiendo en un proceso cada vez más necesario para los equipos de ingeniería y ciencia de datos. Para que los productos de datos sean valiosos, deben entregarse de manera oportuna. Además, los consumidores deben tener confianza en la validez de los resultados dentro de estos productos. Al automatizar el proceso de creación, las pruebas y la implementación de código, los equipos de desarrollo son capaces de entregar versiones con mayor frecuencia y fiabilidad que los procesos más manuales que siguen siendo frecuentes en muchos equipos de ingeniería y ciencia de datos. Vea ¿Qué es CI/CD en Azure Databricks?.

Para obtener más información sobre los procedimientos recomendados para el desarrollo de código mediante carpetas de Git de Databricks, consulte Técnicas de CI/CD con carpetas de Git y Databricks Git (Repos). Esto, junto con la API de REST de Databricks, permite crear procesos de implementación automatizados con Acciones de GitHub, Azure DevOps Pipelines o trabajos de Jenkins.

Estandarización de procesos de MLOps

Los procesos de MLOps proporcionan reproducibilidad de canalizaciones de ML, lo que permite una colaboración más estrechamente acoplada entre los equipos de datos, lo que reduce el conflicto con DevOps y TI y acelera la velocidad de lanzamiento. Como muchos modelos se usan para impulsar decisiones empresariales clave, la estandarización de procesos MLops garantiza que los modelos se desarrollan, prueban e implementan de forma coherente y confiable.

La creación e implementación de modelos de ML es compleja. Hay muchas opciones disponibles para lograr esto, pero poco en la forma de estándares bien definidos. Como resultado, en los últimos años, hemos visto la aparición de operaciones de aprendizaje automático (MLOps). MLOps es un conjunto de procesos y automatización para administrar modelos, datos y código para mejorar la estabilidad del rendimiento y la eficacia a largo plazo en los sistemas de ML. Abarca la preparación de datos, el análisis exploratorio de datos (EDA), la ingeniería de características, el entrenamiento de modelos, la validación del modelo, la implementación y la supervisión.

MLOps en la plataforma de Databricks puede ayudarle a optimizar el rendimiento y la eficacia a largo plazo del sistema de aprendizaje automático (ML):

Tenga siempre en cuenta sus objetivos empresariales: Al igual que el propósito principal del aprendizaje automático en una empresa es permitir decisiones y productos controlados por datos, el propósito principal de MLOps es asegurarse de que esas aplicaciones controladas por datos permanecen estables, se mantienen actualizadas y siguen teniendo impactos positivos en la empresa. Al priorizar el trabajo técnico en MLOps, tenga en cuenta el impacto empresarial: ¿Habilita los nuevos casos de uso empresariales? ¿Mejora la productividad de los equipos de datos? ¿Reduce los costos operativos o los riesgos?
Administrar modelos de ML con una herramienta especializada pero abierta: puede usar MLflow, diseñado para el ciclo de vida del modelo de ML, para realizar un seguimiento y administrar modelos de ML. Consulte Administración del ciclo de vida de ML mediante MLflow.
Implemente MLOps de forma modular: Al igual que con cualquier aplicación de software, la calidad del código es fundamental para una aplicación de aprendizaje automático. El código modularizado permite probar componentes individuales y mitiga las dificultades con la refactorización de código futura. Defina pasos claros (como entrenamiento, evaluación o implementación), super pasos (como canalización de entrenamiento a implementación) y responsabilidades para aclarar la estructura modular de la aplicación de ML.

Esto se describe en detalle en el libro electrónico de Databricks The Big Book of MLOps.

Definición de la estrategia de aislamiento del entorno

Cuando una organización usa una plataforma de datos como Databricks, a menudo es necesario tener límites de aislamiento de datos entre entornos (como desarrollo y producción) o entre unidades operativas organizativas.

Los estándares de aislamiento pueden variar para su organización, pero normalmente incluyen las siguientes expectativas:

Los usuarios solo pueden obtener acceso a los datos en función de las reglas de acceso especificadas.
Los datos solo se pueden administrar mediante personas o equipos designados.
Los datos están separados físicamente en el almacenamiento.
Solo se puede acceder a los datos en entornos designados.

En Databricks, el área de trabajo es el entorno de procesamiento de datos principal y hay varios escenarios en los que las áreas de trabajo independientes mejoran la configuración general, por ejemplo:

Aísle diferentes unidades de negocio con sus propias áreas de trabajo para evitar compartir el administrador del área de trabajo y asegurarse de que ningún recurso de Databricks se comparta involuntariamente entre unidades de negocio.
Aísle los entornos de ciclo de vida de desarrollo de software (como desarrollo, almacenamiento provisional y producción). Por ejemplo, un área de trabajo de producción independiente permite probar las nuevas configuraciones del área de trabajo antes de aplicarlas a producción. O bien, el entorno de producción podría requerir configuraciones de área de trabajo más estrictas que el entorno de desarrollo. Si debe implementar entornos de desarrollo, almacenamiento provisional y producción en diferentes redes virtuales, también necesita áreas de trabajo diferentes para los tres entornos.
Dividir áreas de trabajo para superar las limitaciones de los recursos: Las cuentas o suscripciones en la nube tienen limitaciones de recursos. Dividir áreas de trabajo en distintas suscripciones o cuentas es una manera de asegurarse de que hay suficientes recursos disponibles para cada área de trabajo. Además, las áreas de trabajo de Databricks también tienen limitaciones de recursos. La división de áreas de trabajo garantiza que las cargas de trabajo de cada área de trabajo siempre tengan acceso al conjunto completo de recursos.

Sin embargo, hay algunas desventajas en las áreas de trabajo compartidas que también se deben tener en cuenta:

La colaboración de cuadernos no funciona a través de áreas de trabajo.
En el caso de varias áreas de trabajo, tanto la configuración como el mantenimiento deben automatizarse completamente (por Terraform, ARM, API de REST u otros medios). Esto es especialmente importante para fines de migración.
Si cada área de trabajo debe protegerse en el nivel de red (por ejemplo, para protegerse contra la filtración de datos), la infraestructura de red necesaria puede ser muy costosa, especialmente para un gran número de áreas de trabajo.

Es importante encontrar un equilibrio entre la necesidad de aislamiento, la necesidad de colaboración y el esfuerzo necesario para mantenerlo.

Definición de la estrategia de catálogo para su empresa

Junto con una estrategia de aislamiento de los entornos, las organizaciones necesitan una estrategia para estructurar y separar metadatos de datos. Los datos, incluida la información de identificación personal, el pago o la información de salud, conllevan un alto riesgo potencial y, con la amenaza cada vez mayor de vulneraciones de datos, es importante separar y proteger los datos confidenciales independientemente de la estrategia organizativa que elija. Separe los datos confidenciales de los datos no confidenciales, tanto de forma lógica como física.

Una organización puede requerir que determinados tipos de datos se almacenen en cuentas o depósitos específicos de su inquilino en la nube. El metastore de Unity Catalog permite estructurar los metadatos mediante su espacio de nombres de tres niveles catalog > schema > tables/views/volumes, con ubicaciones de almacenamiento configuradas en el nivel de metastore, catálogo o esquema para cumplir estos requisitos.

Los requisitos de cumplimiento y de la organización suelen dictar que mantenga determinados datos solo en determinados entornos. También puede que desee mantener los datos de producción aislados de los entornos de desarrollo o asegurarse de que ciertos conjuntos de datos y dominios nunca se unen. En Databricks, el área de trabajo es el entorno de computación principal y los catálogos son el dominio de datos principal. Con el metastore de Unity Catalog, los administradores y los propietarios del catálogo pueden enlazar catálogos a áreas de trabajo específicas. Estos enlaces compatibles con el entorno permiten asegurarse de que solo determinados catálogos están disponibles en un área de trabajo, independientemente de los permisos específicos de los objetos de datos concedidos a un usuario.

Para una discusión completa de estos temas, consulte Procedimientos recomendados de Unity Catalog

2. Automatización de implementaciones y cargas de trabajo

Uso de infraestructura como código (IaC) para implementaciones y mantenimiento

La infraestructura como código (IaC) permite a los desarrolladores y equipos de operaciones administrar, supervisar y aprovisionar recursos automáticamente, en lugar de configurar manualmente dispositivos de hardware, sistemas operativos, aplicaciones y servicios.

HashiCorp Terraform es un herramienta de código abierto muy utilizada para crear una infraestructura de nube segura y predecible en varios proveedores de nube. El proveedor de Databricks Terraform se puede usar para administrar áreas de trabajo de Azure Databricks y la infraestructura en la nube asociada mediante una herramienta flexible y eficaz. El objetivo del proveedor Databricks Terraform es admitir todas las API REST de Databricks, lo que permite la automatización de los aspectos más complicados de la implementación y administración de las plataformas de datos. El proveedor de Terraform de Databricks es la herramienta recomendada para implementar, administrar clústeres y trabajos de forma confiable, aprovisionar áreas de trabajo de Azure Databricks y configurar el acceso a datos.

Estandarizar las configuraciones de proceso

La estandarización de entornos de computación garantiza que se usen el mismo software, bibliotecas y configuraciones en todos los entornos. Esta coherencia facilita la reproducción de resultados, depurar problemas y mantenimiento de sistemas a través de entornos. Con entornos estandarizados, los equipos pueden ahorrar tiempo y recursos eliminando la necesidad de configurar y preparar entornos desde cero. Esto también reduce el riesgo de errores e incoherencias que pueden producirse durante la configuración manual. La estandarización también permite la implementación de prácticas y directivas de seguridad coherentes en todos los entornos. Esto puede ayudar a las organizaciones a administrar mejor el riesgo y cumplir con los requisitos normativos. Por último, la estandarización puede ayudar a las organizaciones a administrar mejor los costos al reducir el desperdicio y optimizar el uso de recursos.

La estandarización abarca tanto la configuración del entorno como la administración continua de recursos. Para una configuración coherente, Databricks recomienda usar la infraestructura como código. Para asegurarse de que los recursos de proceso iniciados a lo largo del tiempo se configuran de forma coherente, use directivas de proceso. Los administradores del área de trabajo de Databricks pueden limitar los privilegios de creación de procesos de un usuario o grupo en función de un conjunto de reglas de directiva. Pueden aplicar opciones de configuración de Spark y aplicar instalaciones de biblioteca con ámbito de clúster. También puede usar directivas de proceso para definir clústeres de tamaño de camiseta (S, M, L) como entorno de trabajo estándar para proyectos.

Uso de flujos de trabajo automatizados para trabajos

La configuración de flujos de trabajo automatizados para trabajos puede ayudar a reducir las tareas manuales innecesarias y mejorar la productividad a través del proceso de DevOps para crear e implementar trabajos. La Plataforma de Data Intelligence proporciona dos maneras de hacerlo:

Trabajos de Databricks:

Los trabajos de Databricks orquestan el procesamiento de datos, el aprendizaje automático y las canalizaciones de análisis en la plataforma Data Intelligence de Databricks. Es un servicio de orquestación totalmente administrado integrado con la plataforma de Databricks:
- Lostrabajos de Databricks son una manera de ejecutar las aplicaciones de procesamiento y análisis de datos en un área de trabajo de Databricks. El trabajo puede consistir en una sola tarea o puede ser un gran flujo de trabajo de varias tareas con dependencias complejas. Databricks administra la orquestación de tareas, la administración de clústeres, la supervisión y la generación de informes de errores para todos los trabajos.
- Delta Live Tables es una plataforma para crear canalizaciones de procesamiento de datos confiables, fáciles de mantener y que se pueden probar. Define las transformaciones que quiere realizar en los datos y Delta Live Tables administra la orquestación de tareas, la administración de clústeres, la supervisión, la calidad de los datos y el control de errores.
Orquestadores externos:

Los orquestadores externos usan la API de REST completa de Azure Databricks para orquestar los recursos, cuadernos y trabajos de Databricks. Vea:
- Apache Airflow.
- Azure Data Factory.

Se recomienda usar trabajos de Databricks para todas las dependencias de tareas de Databricks y, si es necesario, integrar estos flujos de trabajo encapsulados en el orquestador externo.

Uso de la ingesta de archivos automatizada y controlada por eventos

La ingesta de archivos controlada por eventos (frente a controlada por programación) tiene varias ventajas, como la eficiencia, el aumento de la actualización de datos y la ingesta de datos en tiempo real. La ejecución de un trabajo solo cuando se produce un evento garantiza que no desperdicia recursos, lo que ahorra dinero.

El cargador automático procesa de forma incremental y eficaz nuevos archivos de datos a medida que llegan al almacenamiento en la nube. Puede ingerir muchos formatos de archivo como JSON, CSV, PARQUET, AVRO, ORC, TEXT y BINARYFILE. Con una carpeta de entrada en el almacenamiento en la nube, el cargador automático procesa automáticamente los nuevos archivos a medida que llegan.

En el caso de las ingestas puntuales, considere la posibilidad de usar el comando COPY INTO en su lugar.

Uso de marcos de ETL para canalizaciones de datos

Aunque es posible realizar tareas de ETL manualmente, hay muchas ventajas en usar un marco de trabajo. Un marco aporta coherencia y repetibilidad al proceso ETL. Al proporcionar funciones y herramientas pregeneradas, un marco puede automatizar tareas comunes, ahorrando tiempo y recursos. Los marcos de ETL pueden controlar grandes volúmenes de datos y se pueden aumentar o reducir verticalmente con facilidad según sea necesario. Esto facilita la administración de los recursos y la respuesta a las necesidades empresariales cambiantes. Muchos marcos incluyen funcionalidades integradas de control de errores y registro, lo que facilita la identificación y resolución de problemas. Muchas veces incluyen comprobaciones y validaciones de calidad de datos para asegurarse de que los datos cumplen ciertos estándares antes de cargarlos en el almacenamiento de datos o en el lago de datos.

Delta Live Tables es una plataforma para crear canalizaciones de procesamiento de datos confiables, fáciles de mantener y que se pueden probar. Define las transformaciones que quiere realizar en los datos y Delta Live Tables administra la orquestación de tareas, la administración de clústeres, la supervisión, la calidad de los datos y el control de errores.

Con Delta Live Tables, puede definir canalizaciones de datos de un extremo a otro en SQL o Python: Especifique el origen de datos, la lógica de transformación y el estado objetivo de los datos. Delta Live Tables mantiene las dependencias y determina automáticamente la infraestructura en la que ejecutar el trabajo.

Para administrar la calidad de los datos, Delta Live Tables supervisa las tendencias de calidad de los datos a lo largo del tiempo, lo que impide que los datos incorrectos fluyan a las tablas debido a comprobaciones de validación e integridad con directivas de error predefinidas. Consulte ¿Qué es Delta Live Tables?

Siga el enfoque de implementación de código para cargas de trabajo de ML

El código y los modelos a menudo progresan de forma asincrónica a través de las fases de desarrollo de software. Hay dos formas de lograrlo:

implementación del código: Un proyecto de ML se codifica en el entorno de desarrollo y este código se mueve al entorno de ensayo, donde se prueba. Después de una prueba exitosa, el código del proyecto se implementa en el entorno de producción, donde se ejecuta.
modelo de implementación: El entrenamiento del modelo se ejecuta en el entorno de desarrollo. A continuación, el artefacto del modelo generado se mueve al entorno de ensayo para las comprobaciones de validación del modelo, antes de la implementación del modelo en el entorno de producción.

Vea Patrones de implementación de modelos.

Databricks recomienda un enfoque de implementación del código para la mayoría de los casos de uso. Las principales ventajas de este modelo son:

Esto se adapta a los flujos de trabajo de ingeniería de software tradicionales, mediante herramientas conocidas como sistemas Git y CI/CD.
Admite el reentrenamiento automatizado en un entorno bloqueado.
Solo requiere que el entorno de producción tenga acceso de lectura a los datos de entrenamiento de prod.
Proporciona control total sobre el entorno de entrenamiento, lo que ayuda a simplificar la reproducibilidad.
Permite al equipo de ciencia de datos usar código modular y pruebas iterativas, lo que ayuda con la coordinación y el desarrollo en proyectos más grandes.

Esto se describe en detalle en el libro electrónico de Databricks The Big Book of MLOps.

Uso de un registro de modelos para desacoplar el código y el ciclo de vida del modelo

Dado que los ciclos de vida del modelo no corresponden uno a uno con los ciclos de vida de código, el Unity Catalog permite administrar el ciclo de vida completo de los modelos de ML en su versión hospedada del Registro de modelos de MLflow. Losmodelos de Unity Catalog amplían sus ventajas a los modelos de ML, incluidos el control de acceso centralizado, la auditoría, el linaje y la detección de modelos entre áreas de trabajo. Los modelos de Unity Catalog son compatibles con el cliente de Python de MLflow de código abierto.

Automatización del seguimiento de experimentos de ML

El seguimiento de experimentos de ML es el proceso para guardar metadatos relevantes en cada experimento y organizarlos. Estos metadatos incluyen entradas y salidas del experimento, parámetros, modelos y otros artefactos. El objetivo del seguimiento de experimentos es crear resultados reproducibles entre todas las fases del proceso de desarrollo de modelos de ML. La automatización de este proceso facilita el escalado del número de experimentos y garantiza la coherencia en los metadatos capturados en todos los experimentos.

El Registro automático de Databricks es una solución sin código que amplía el registro automático de MLflow a fin de proporcionar seguimiento automático de experimentos para sesiones de entrenamiento de aprendizaje automático en Azure Databricks. El registro automático de Databricks captura automáticamente los parámetros del modelo, las métricas, los archivos y la información de linaje cuando entrena modelos con ejecuciones de entrenamiento registradas como ejecuciones de seguimiento de MLflow.

Reutilización de la misma infraestructura para administrar canalizaciones de ML

Los datos usados para las canalizaciones de ML normalmente proceden de los mismos orígenes que los datos usados para otras canalizaciones de datos. Las canalizaciones de ML y de datos son similares en que ambos preparan los datos para el análisis de usuarios empresariales o el entrenamiento del modelo. Ambos también deben ser escalables, seguros y supervisados correctamente. En ambos casos, la infraestructura utilizada debe admitir estas actividades.

Use el proveedor de Terraform de Databricks para automatizar las implementaciones de entornos de ML. ML requiere la implementación de infraestructuras como trabajos de inferencia, servicios de puntos de conexión y trabajos de caracterización. Todas las canalizaciones de ML se pueden automatizar como trabajos, y muchas canalizaciones de ML centradas en datos pueden usar el cargador automático más especializado para ingerir imágenes y otros datos y tablas dinámicas Delta para calcular características o supervisar métricas.

Asegúrese de usar Servicio de Modelos para la implementación de nivel empresarial de modelos de ML.

Uso de la administración declarativa para proyectos de datos complejos y ML

Los marcos declarativos dentro de MLOps permiten a los equipos definir los resultados deseados en términos de alto nivel y permiten que el sistema controle los detalles de la ejecución, lo que simplifica la implementación y el escalado de modelos de ML. Estos marcos admiten la integración e implementación continuas, automatizan las pruebas y la administración de infraestructuras y garantizan la gobernanza y el cumplimiento de modelos lo que acelera el tiempo de comercialización y aumenta la productividad en todo el ciclo de vida de ML.

Los Conjuntos de recursos de Databricks (DAB) son una nueva herramienta para optimizar el desarrollo de proyectos de datos complejos, análisis y ML para la plataforma de Databricks. Los conjuntos facilitan la administración de proyectos complejos durante el desarrollo activo al proporcionar funcionalidades de CI/CD al flujo de trabajo de desarrollo de software usando una única sintaxis YAML concisa y declarativa. Al usar conjuntos para automatizar las pruebas, las implementaciones y la administración de configuración de un proyecto puede reducir los errores al promover procedimientos recomendados de software en toda la organización como proyectos con plantilla.

3. Administración de la capacidad y las cuotas

Administración de límites y cuotas de servicio

La administración de límites y cuotas de servicio es importante para mantener una infraestructura con buen funcionamiento y evitar costos inesperados. Cada servicio iniciado en una nube debe tener en cuenta los límites, como los límites de velocidad de acceso, la cantidad de instancias, el número de usuarios y los requisitos de memoria. Para el proveedor de nube, comprueba [los límites de la nube][cloud-limits]. Antes de diseñar una solución, es necesario comprender estos límites.

En concreto, para la plataforma de Databricks, hay diferentes tipos de límites:

Límites de la plataforma de Databricks: Estos son límites específicos para los recursos de Azure Databricks. Los límites de la plataforma general se documentan en Límites de recursos.

Límites de Unity Catalog: cuotas de recursos de Unity Catalog

Cuotas de suscripción o cuenta: Azure Databricks aprovecha los recursos en la nube para su servicio. Por ejemplo, las cargas de trabajo de Azure Databricks se ejecutan en clústeres, para las que la plataforma de Databricks inicia las máquinas virtuales (VM) del proveedor de nube. Los proveedores de nube establecen cuotas predeterminadas en el número de máquinas virtuales que se pueden iniciar al mismo tiempo. Dependiendo de la necesidad, es posible que sea necesario ajustar estas cuotas.

Para más información, vea Aumento de las cuotas de vCPU de la familia de máquinas virtuales.

De forma similar, el almacenamiento, la red y otros servicios en la nube tienen limitaciones que deben entenderse y tener en cuenta.

cloud-limits

Invertir en planeamiento de capacidad

El planeamiento de capacidad implica la administración de recursos en la nube, como el almacenamiento, el proceso y las conexiones en red para mantener el rendimiento a la vez que se optimizan los costos. Planee variaciones en la carga esperada, lo que puede ocurrir por diversos motivos, incluidos los cambios empresariales repentinos o incluso los eventos mundiales. Pruebe las variaciones de carga, incluidas las inesperadas, para asegurarse de que las cargas de trabajo se puedan escalar. Asegúrese de que todas las regiones pueden escalar lo suficiente para admitir la carga total si se produce un error en una región. Ten en cuenta:

Limitaciones de tecnología, servicio y restricciones en la nube. Vea Administración de la capacidad y cuotas.
Acuerdos de Nivel de Servicio para determinar los servicios que se van a usar en el diseño.
Análisis de costos para determinar cuánto mejora la aplicación si se aumenta el costo. Evalúe si el precio justifica la inversión.

Es importante comprender y planear para los eventos de prioridad alta (volumen). Si los recursos en la nube aprovisionados no son suficientes y las cargas de trabajo no se pueden escalar estos aumentos en el volumen pueden provocar una interrupción.

4. Configuración de la supervisión, las alertas y el registro

Establecimiento de procesos de supervisión

El establecimiento de procesos de supervisión para una plataforma de datos es fundamental por varias razones. Los procesos de supervisión permiten la detección temprana de problemas como problemas de calidad de datos, cuellos de botella de rendimiento y errores del sistema lo que puede ayudar a evitar tiempos de inactividad y pérdida de datos. Pueden ayudar a identificar ineficacias en la plataforma de datos y optimizar los costos al reducir el desperdicio y mejorar el uso de recursos. Además, los procesos de supervisión pueden ayudar a garantizar el cumplimiento de los requisitos normativos y proporcionar pistas de auditoría del acceso y el uso de datos.

Uso de herramientas nativas y externas para la supervisión de la plataforma

Databricks Data Intelligence Platform tiene soluciones de supervisión incorporadas e integra sistemas de supervisión externos:

Supervisión de plataformas mediante soluciones de supervisión de Azure

La supervisión es fundamental para cualquier solución de nivel de producción y Azure Databricks ofrece una funcionalidad sólida para supervisar métricas de aplicaciones personalizadas, transmitir eventos de consulta y mensajes de registro de aplicaciones. Azure Databricks puede enviar estos datos de supervisión a distintos servicios de registro. En los artículos siguientes se muestra cómo enviar datos de supervisión de Azure Databricks a Azure Monitor, la plataforma de datos de supervisión para Azure.
Supervisión de Databricks Lakehouse

La supervisión de Databricks Lakehouse le permite supervisar las propiedades estadísticas y la calidad de los datos en todas las tablas de su cuenta. La supervisión de la calidad de los datos proporciona medidas cuantitativas para realizar un seguimiento y confirmar la coherencia de los datos a lo largo del tiempo, ayuda a identificar y alertar a los usuarios de los cambios en la distribución de datos y el rendimiento del modelo. También puede seguir el rendimiento de los modelos de aprendizaje automático mediante la supervisión de tablas de inferencia que contienen entradas y predicciones del modelo.

Consulte Ver los gastos de supervisión de Lakehouse para comprender el costo de la supervisión de Lakehouse.
Supervisión de almacén de SQL

La supervisión de almacén de SQL es esencial para comprender el perfil de carga a lo largo del tiempo y administrar el almacenamiento de SQL de forma eficaz. Con la supervisión del Almacén de SQL, puede ver información, como el número de consultas controladas por el almacén o el número de clústeres asignados al almacén.
Alertas SQL de Databricks

Las alertas SQL de Databricks ejecutan consultas periódicamente, evalúan condiciones definidas y envían notificaciones si se cumple una condición. Puede configurar alertas para supervisar el negocio y enviar notificaciones cuando los datos notificados queden fuera de los límites esperados.

Además, puede crear una alerta SQL de Databricks basada en una métrica de una tabla de métricas de supervisión, por ejemplo, para recibir notificaciones cuando una estadística sale de un intervalo determinado o si los datos se han desfasado en comparación con la tabla de la línea base.

Supervisión del cargador automático

El cargadpr automático proporciona una API de SQL para inspeccionar el estado de una secuencia. Con las funciones SQL, puede encontrar metadatos sobre archivos que han sido descubiertos por una secuencia del cargador automático. Vea Supervisión del cargador automático

Con la interfaz del agente de escucha de consultas de Streaming de Apache Spark, se pueden supervisar aún más las secuencias del cargador automático.
Supervisión del trabajo

La supervisión del trabajo le ayuda a identificar y solucionar problemas en los trabajos de Databricks, como errores, retrasos o cuellos de botella de rendimiento. La supervisión del trabajo proporciona información sobre el rendimiento del trabajo, lo que le permite optimizar el uso de los recursos, reducir el desperdicio y mejorar la eficiencia general.
Supervisión de Delta Live Tables

Se crea y se mantiene un registro de eventos para cada canalización de Delta Live Tables. El registro de eventos contiene toda la información relacionada con la canalización, incluidos los registros de auditoría, las comprobaciones de la calidad de los datos, el progreso de la canalización y el linaje de datos. Puede usar el registro de eventos para realizar un seguimiento, comprender y supervisar el estado de las canalizaciones de datos.
Supervisión de streaming

El streaming es una de las técnicas de procesamiento de datos más importantes para la ingesta y el análisis. Proporciona a los usuarios y desarrolladores funcionalidades de procesamiento de datos en tiempo real y baja latencia para realizar análisis y desencadenar acciones. Databricks Data Intelligence Platform permite supervisar las consultas de Streaming estructurado.
Supervisión de ML e IA

La supervisión del rendimiento de los modelos en los flujos de trabajo de producción es un aspecto importante del ciclo de vida de los modelos de inteligencia artificial y ML. Tablas de inferencia simplificar la supervisión y el diagnóstico de los modelos registrando continuamente las entradas y respuestas de solicitud (predicciones) de los puntos de conexión de servicio del modelo de IA de mosaico y guardándolos en una tabla Delta en el catálogo de Unity. Después, puede usar todas las funcionalidades de la plataforma de Databricks, como consultas DBSQL, cuadernos y supervisión de Lakehouse para supervisar, depurar y optimizar los modelos.

Para obtener más información sobre la supervisión del servicio de modelo, consulte Supervisión de la calidad del modelo y el estado del punto de conexión.
Supervisión de la seguridad

Vea Seguridad, cumplimiento y privacidad: Supervisión de seguridad.
Supervisión de costos

Vea Optimización de costos: Supervisión y control del costo.

Compartir a través de