Procedimientos recomendados para la interoperabilidad y la facilidad de uso

Artículo
08/09/2024

En este artículo se tratan los procedimientos recomendados para la interoperabilidad y facilidad de uso, organizados por principios de arquitectura enumerados en las secciones siguientes.

1. Definición de estándares para la integración

Uso de patrones de integración estándar y reutilizables para la integración externa

Los estándares de integración son importantes porque proporcionan directrices sobre cómo se deben representar, intercambiar y procesar los datos en diferentes sistemas y aplicaciones. Estos estándares ayudan a garantizar que los datos sean compatibles, de alta calidad e interoperables en varios orígenes y destinos.

Databricks Lakehouse incluye una API de REST completa que permite administrar mediante programación casi todos los aspectos de la plataforma. El servidor de API de REST se ejecuta en el plano de control y proporciona un punto de conexión unificado para administrar la plataforma de Azure Databricks.

La API REST proporciona el nivel más bajo de integración que siempre se puede usar. Sin embargo, la manera preferida de integrar con Azure Databricks es usar abstracciones de nivel superior, como los SDK de Databricks o las herramientas de al CLI. Las herramientas de la CLI se basan en shell y permiten una integración sencilla de la plataforma de Databricks en flujos de trabajo de CI/CD y MLOps.

Uso de conectores optimizados para ingerir orígenes de datos al almacén de lago de datos

Azure Databricks ofrece varias maneras de ayudarle a ingerir datos en Delta Lake.

Databricks proporciona conectores optimizados para los servicios de mensajería de flujos como Apache Kafka para la ingesta de datos casi en tiempo real de los datos.
Databricks proporciona integraciones compiladas a muchos sistemas de datos nativos de la nube y compatibilidad extensible con JDBC para conectarse a otros sistemas de datos.
Una opción para integrar orígenes de datos sin ETL es Lakehouse Federation. La federación de Lakehouse es la plataforma de federación de consultas para Databricks. El término federación de consultas describe una colección de características que permiten a los usuarios y sistemas ejecutar consultas en varios orígenes de datos sin tener que migrar todos los datos a un sistema unificado. Databricks usa Unity Catalog para administrar la federación de consultas. Las herramientas de gobernanza de datos y linaje de datos de Unity Catalog garantizan que el acceso a los datos se administre y audite para todas las consultas federadas ejecutadas por los usuarios en las áreas de trabajo de Databricks.

Nota:

Cualquier consulta de la plataforma de Databricks que use un origen de federación de Lakehouse se envía a ese origen. Asegúrese de que el sistema de origen puede controlar la carga. Además, tenga en cuenta que si el sistema de origen se implementa en una región de nube o nube diferente, hay un costo de salida para cada consulta.

Considere la posibilidad de descargar el acceso a las bases de datos subyacentes a través de vistas materializadas para evitar cargas elevadas o simultáneas en bases de datos operativas y reducir los costos de salida.

Uso de herramientas de asociados certificados

Las organizaciones tienen diferentes necesidades, y no hay ninguna herramienta única que pueda satisfacerlas todas. Partner Connect le permite explorar e integrar fácilmente con nuestros asociados, que abarcan todos los aspectos del almacén de lago de datos: ingesta de datos, preparación y transformación, BI y visualización, aprendizaje automático, calidad de datos, etc. Partner Connect le permite crear cuentas de prueba con asociados tecnológicos seleccionados de Databricks y conectar el área de trabajo de Azure Databricks a soluciones de asociados desde la interfaz de usuario de Azure Databricks. Pruebe soluciones de asociados mediante los datos del lago de datos de Databricks y, luego, adopte las soluciones que mejor se adapten a sus necesidades empresariales.

Reducción de la complejidad de las canalizaciones de ingeniería de datos

Invertir en reducir la complejidad de las canalizaciones de ingeniería de datos permite la escalabilidad, agilidad y flexibilidad para poder expandir e innovar más rápido. Las canalizaciones simplificadas facilitan la administración y adaptación de todas las necesidades operativas de una canalización de ingeniería de datos: orquestación de tareas, administración de clústeres, supervisión, calidad de datos y control de errores.

Delta Live Tables es una plataforma para crear canalizaciones de procesamiento de datos confiables, fáciles de mantener y que se pueden probar. Define las transformaciones a realizar en los datos y Delta Live Tables administra la orquestación de tareas, la administración de clústeres, la supervisión, la calidad de los datos y el control de errores. Consulte ¿Qué es Delta Live Tables?

Auto Loader procesa de forma incremental y eficaz nuevos archivos de datos a medida que llegan al almacenamiento en la nube. Puede leer archivos de datos de forma confiable desde el almacenamiento en la nube. Un aspecto importante de Delta Live Tables y Auto Loader es su naturaleza declarativa: sin ellos, es necesario crear canalizaciones complejas que integren diferentes servicios en la nube —como un servicio de notificación y un servicio de puesta en cola— para leer archivos en la nube de forma confiable en función de eventos y permitir la combinación de orígenes de streaming y procesamiento por lotes de forma confiable.

Auto Loader y Delta Live Tables reducen las dependencias del sistema y la complejidad y mejoran considerablemente la interoperabilidad con el almacenamiento en la nube y entre diferentes paradigmas, como el procesamiento por lotes y el streaming. Como efecto secundario, la simplicidad de las canalizaciones aumenta la facilidad de uso de la plataforma.

Uso de infraestructura como código (IaC) para implementaciones y mantenimiento

HashiCorp Terraform es un herramienta de código abierto muy utilizada para crear una infraestructura de nube segura y predecible en varios proveedores de nube. Consulte Excelencia operativa: Uso de infraestructura como código para implementaciones y mantenimiento

2. Utilizar interfaces y formatos de datos abiertos

Usar formatos de datos abiertos

El uso de un formato de datos abierto significa que no hay restricciones en su uso. Esto es importante porque elimina las barreras para el acceso y el uso de los datos para el análisis y la conducción de la información empresarial. Los formatos abiertos, como los creados en Apache Spark, también agregan características que aumentan el rendimiento con compatibilidad con transacciones ACID, streaming unificado y procesamiento de datos por lotes. Además, el código abierto está basado en la comunidad, lo que significa que la comunidad está trabajando constantemente en mejorar las características existentes y agregar otras nuevas, lo que facilita a los usuarios sacar el máximo partido de sus proyectos.

El formato de datos principal usado en la Plataforma de inteligencia de datos es Delta Lake, un formato de datos totalmente abierto que ofrece muchas ventajas, desde características de confiabilidad hasta mejoras de rendimiento, consulte Uso de un formato de datos que admite transacciones ACID y procedimientos recomendados para la eficiencia del rendimiento.

Debido a su naturaleza abierta, Delta Lake viene con un gran ecosistema. Hay decenas de aplicaciones y herramientas de terceros que admiten Delta Lake.

Para mejorar aún más la interoperabilidad, el formato universal Delta (UniForm) permite leer tablas Delta con clientes lectores Iceberg. UniForm genera automáticamente los metadatos Iceberg de forma asíncrona, sin reescribir los datos, para que los clientes Iceberg puedan leer las tablas Delta como si fueran tablas Iceberg. Una sola copia de los archivos de datos sirve ambos formatos.

El uso compartido de datos y recursos de inteligencia artificial puede dar lugar a una mejor colaboración y toma de decisiones. Sin embargo, al compartir datos, es importante mantener el control, proteger los datos y garantizar el cumplimiento de las leyes y reglamentos pertinentes sobre el uso compartido de datos.

Delta Sharing es un protocolo abierto desarrollado por Databricks para proteger el uso compartido de datos con otras organizaciones, independientemente de las plataformas informáticas que usen. Si quiere compartir datos con usuarios que están fuera de su área de trabajo de Databricks, independientemente de si usan Databricks o no, puede usar Delta Sharing abierto para compartir los datos de forma segura. Si desea compartir datos con usuarios que tienen un área de trabajo de Databricks habilitada para Unity Catalog, puede utilizar Databricks a Databricks Delta Sharing.

En ambos casos, puede compartir tablas, vistas, volúmenes, modelos y cuadernos.

Uso del protocolo abierto Delta Sharing para compartir datos con asociados.

Delta Sharing proporciona una solución abierta para compartir de forma segura los datos en directo desde el almacén de lago a cualquier plataforma informática. Los destinatarios no necesitan estar en la plataforma de Databricks, en la misma nube ni en ninguna nube. Delta Sharing se integra de forma nativa con el catálogo de Unity, lo que permite a las organizaciones administrar y auditar de forma centralizada los datos compartidos y los recursos de inteligencia artificial en toda la empresa y compartir con confianza los recursos de IA y datos que cumplen los requisitos de seguridad y cumplimiento.

Los proveedores de datos pueden compartir datos activos y modelos de IA desde donde se almacenan en la plataforma de datos sin replicarlos ni moverlos a otro sistema. Este enfoque reduce los costos operativos del uso compartido de datos e IA porque los proveedores de datos no tienen que replicar los datos varias veces en nubes, zonas geográficas o plataformas de datos a cada uno de sus consumidores de datos.
Uso compartido de Databricks a Databricks Delta entre usuarios de Databricks.

Si quiere compartir datos con usuarios que no tienen acceso a su metastore de Unity Catalog, puede usar Delta Sharing de Databricks a Databricks, siempre y cuando los destinatarios tengan acceso a un área de trabajo de Databricks habilitada para Unity Catalog. El uso compartido de Databricks a Databricks le permite compartir datos con usuarios de otras cuentas de Databricks, entre regiones en la nube y entre proveedores de nube. Es una excelente manera de compartir datos de forma segura en diferentes metastores del catálogo de Unity en su propia cuenta de Databricks.

Uso de estándares abiertos para la administración del ciclo de vida de ML

Al igual que el uso de un formato de datos de código abierto, el uso de estándares abiertos para los flujos de trabajo de IA tiene ventajas similares en términos de flexibilidad, agilidad, costo y seguridad.

MLflow es una plataforma de código abierto para administrar el ciclo de vida de la IA y el AA. Databricks ofrece una versión hospedada y totalmente administrada de MLflow integrada con características de seguridad empresarial, alta disponibilidad y otras características del área de trabajo de Databricks, como la administración de experimentos y ejecuciones y el seguimiento de revisiones de cuadernos.

Los componentes principales son seguimiento de experimentación registrar y realizar un seguimiento automático y realizar un seguimiento automático y modelos de aprendizaje profundo, modelos como formato estándar para empaquetar modelos de aprendizaje automático, un registro de modelos integrado con Unity Catalog y el modelo de escalable de nivel empresarial que sirve.

3. Simplificación de la implementación de nuevos casos de uso

Proporcionar una experiencia de autoservicio en toda la plataforma

Hay varias ventajas de una plataforma en la que los usuarios tienen autonomía para usar las herramientas y funcionalidades en función de sus necesidades. La inversión en la creación de una plataforma de autoservicio facilita el escalado para atender a más usuarios e impulsa una mayor eficacia al minimizar la necesidad de participación humana para aprovisionar usuarios, resolver problemas y procesar solicitudes de acceso.

La plataforma Data Intelligence de Databricks tiene todas las capacidades necesarias para proporcionar una experiencia de autoservicio. Aunque puede que exista un paso de aprobación obligatorio, el procedimiento recomendado es automatizar completamente la configuración cuando una unidad de negocio solicita acceso al almacén de lago de datos. Aprovisione automáticamente su nuevo entorno, sincronice usuarios y use el inicio de sesión único para la autenticación, proporcione control de acceso a datos compartidos y almacenamientos de objetos independientes para sus datos, etc. Junto con un catálogo de datos central de conjuntos de datos semánticamente coherentes y listos para la empresa, las nuevas unidades de negocio pueden acceder de forma rápida y segura a las funcionalidades de lakehouse y a los datos que necesitan.

Usar proceso sin servidor

Para el proceso sin servidor en la plataforma de Azure Databricks, la capa de proceso se ejecuta en la cuenta de Databricks del cliente. Los administradores de la nube ya no necesitan administrar entornos de nube complejos que requieran ajustar cuotas, crear y mantener recursos de red y conectar orígenes de facturación. Los usuarios se benefician de la latencia de inicio del clúster casi cero y de la simultaneidad de consultas mejorada.

Uso de plantillas de proceso predefinidas

Las plantillas predefinidas ayudan a controlar cómo los usuarios pueden usar o crear recursos de proceso: limite la creación de clústeres de usuario a una configuración especificada o un número determinado, simplifique la interfaz de usuario o controle los costos limitando el costo máximo por clúster.

La Plataforma Data Intelligence logra esto de dos maneras:

Proporcione clústeres compartidos como entornos inmediatos para los usuarios. En estos clústeres, use la reducción vertical automática a un número mínimo de nodos para evitar costos de inactividad elevados.
Para un entorno estandarizado, use directivas de proceso para restringir el tamaño o las características del clúster o definir clústeres de tamaño de camiseta (S, M, L).

Uso de las funcionalidades de inteligencia artificial para aumentar la productividad

Además de aumentar la productividad, las herramientas de inteligencia artificial también pueden ayudar a identificar patrones en errores y proporcionar información adicional basada en la entrada. En general, la incorporación de estas herramientas en el proceso de desarrollo puede reducir considerablemente los errores y facilitar la toma de decisiones, lo que conduce a un tiempo más rápido de lanzamiento.

Databricks IQ, el motor de conocimiento con tecnología de inteligencia artificial, está en el centro de la plataforma Data Intelligence. Aprovecha los metadatos del catálogo de Unity para comprender las tablas, columnas, descripciones y recursos de datos populares de toda la organización para ofrecer respuestas personalizadas. Habilita varias características que mejoran la productividad al trabajar con la plataforma, como:

Databricks Assistant le permite consultar datos mediante una interfaz conversacional, lo que hace que sea más productivo en Databricks. Describa la tarea en inglés y deje que el asistente genere consultas SQL, explique código complejo y corrija automáticamente los errores.
Los comentarios generados por IA para cualquier tabla o columna de tabla administrada por Unity Catalog acelera el proceso de administración de metadatos. No obstante, los modelos de inteligencia artificial no siempre son precisos y se deben revisar los comentarios antes de guardarlos. Databricks recomienda encarecidamente la revisión humana de los comentarios generados mediante inteligencia artificial para comprobar si hay imprecisiones.

4. Garantizar la coherencia y facilidad de uso de los datos

Ofrecer datos como productos reutilizables en los que la empresa pueda confiar

Las organizaciones que buscan convertirse en inteligencia artificial y controlada por datos a menudo necesitan proporcionar a sus equipos internos datos de alta calidad y de confianza. Un enfoque para priorizar la calidad y la facilidad de uso es aplicar el pensamiento del producto a los recursos de datos publicados mediante la creación de "productos de datos" bien definidos. La creación de estos productos de datos garantiza que las organizaciones establezcan estándares y una base de confianza de la verdad empresarial para sus datos y objetivos de inteligencia artificial. En última instancia, los productos de datos ofrecen valor cuando los usuarios y las aplicaciones tienen los datos adecuados, en el momento adecuado, con la calidad correcta, en el formato correcto. Aunque este valor se ha realizado tradicionalmente en forma de operaciones más eficientes a través de menores costos, procesos más rápidos y riesgos reducidos, los productos de datos modernos también pueden allanar el camino para nuevas ofertas de valor añadido y oportunidades de uso compartido de datos dentro de un ecosistema empresarial o asociado de una organización.

Consulte la entrada de blog Crear productos de datos de confianza y alta calidad con Databricks.

Publicación de productos de datos semánticamente coherentes en toda la empresa

Normalmente, un lago de datos contiene datos de varios sistemas de origen. Estos sistemas pueden tener nombres diferentes para el mismo concepto (por ejemplo, cliente frente a cuenta) o usar el mismo identificador para hacer referencia a distintos conceptos. Para que los usuarios empresariales puedan combinar fácilmente estos conjuntos de datos de forma significativa, los datos deben ser homogéneos en todos los orígenes para que sean semánticamente coherentes. Además, para que algunos datos sean útiles para el análisis, las reglas de negocios internas se deben aplicar correctamente, como el reconocimiento de ingresos. Para asegurarse de que todos los usuarios usen datos interpretados correctamente, los conjuntos de datos con estas reglas deben estar disponibles y publicados en Unity Catalog. El acceso a los datos de origen debe restringirse a los equipos que conozcan el uso correcto.

Proporcionar un catálogo central para la detección y el linaje

Un catálogo central para la detección y el linaje ayuda a los consumidores de datos a acceder a los datos de varios orígenes de toda la empresa, lo que reduce la sobrecarga operativa del equipo de gobernanza central.

En Unity Catalog, tanto los administradores generales como los de datos administran los usuarios y su acceso a los datos de forma centralizada en todas las áreas de trabajo de una cuenta de Azure Databricks. Los usuarios de diferentes áreas de trabajo pueden compartir los mismos datos y, en función de los privilegios de usuario concedidos centralmente en el Catálogo de Unity, pueden acceder a los datos juntos.

Para la detección de datos, el Catálogo de Unity admite usuarios con funcionalidades como:

Catalog Explorer es la principal interfaz de usuario para muchas características de Unity Catalog. Catalog Explorer se puede usar para ver detalles de esquemas, obtener una vista previa de los datos de ejemplo y ver los detalles y las propiedades de las tablas. Los administradores pueden ver y cambiar los propietarios, y los administradores de objetos de datos pueden conceder y revocar permisos. También puede usar la búsqueda de Databricks, que permite a los usuarios encontrar recursos de datos (como tablas, columnas, vistas, paneles, modelos, etc.) fácilmente y sin problemas. Los usuarios ven resultados pertinentes a sus solicitudes de búsqueda y a los que tienen acceso.
El linaje de datos en todas las consultas se ejecuta en un clúster de Azure Databricks o almacén de SQL. El linaje es compatible con todos los idiomas y se captura hasta el nivel de columna. Los datos del linaje incluyen cuadernos, trabajos y paneles relacionados con la consulta. El linaje puede visualizarse en Catalog Explorer casi en tiempo real y recuperarse con la API de REST de Azure Databricks.

Para permitir que las empresas proporcionen a sus usuarios una vista holística de todos los datos en todas las plataformas de datos, Unity Catalog> proporciona integración con catálogos de datos empresariales (a veces denominado "catálogo de catálogos").

Compartir a través de

Procedimientos recomendados para la interoperabilidad y la facilidad de uso

1. Definición de estándares para la integración

Uso de patrones de integración estándar y reutilizables para la integración externa

Uso de conectores optimizados para ingerir orígenes de datos al almacén de lago de datos

Uso de herramientas de asociados certificados

Reducción de la complejidad de las canalizaciones de ingeniería de datos

Uso de infraestructura como código (IaC) para implementaciones y mantenimiento

2. Utilizar interfaces y formatos de datos abiertos

Usar formatos de datos abiertos

Uso de estándares abiertos para la administración del ciclo de vida de ML

3. Simplificación de la implementación de nuevos casos de uso

Proporcionar una experiencia de autoservicio en toda la plataforma

Usar proceso sin servidor

Uso de plantillas de proceso predefinidas

Uso de las funcionalidades de inteligencia artificial para aumentar la productividad

4. Garantizar la coherencia y facilidad de uso de los datos

Ofrecer datos como productos reutilizables en los que la empresa pueda confiar

Publicación de productos de datos semánticamente coherentes en toda la empresa

Proporcionar un catálogo central para la detección y el linaje

Comentarios

Recursos adicionales

Compartir a través de

Procedimientos recomendados para la interoperabilidad y la facilidad de uso

1. Definición de estándares para la integración

Uso de patrones de integración estándar y reutilizables para la integración externa

Uso de conectores optimizados para ingerir orígenes de datos al almacén de lago de datos

Uso de herramientas de asociados certificados

Reducción de la complejidad de las canalizaciones de ingeniería de datos

Uso de infraestructura como código (IaC) para implementaciones y mantenimiento

2. Utilizar interfaces y formatos de datos abiertos

Usar formatos de datos abiertos

Habilitación del uso compartido seguro de datos e inteligencia artificial para todos los recursos de datos

Uso de estándares abiertos para la administración del ciclo de vida de ML

3. Simplificación de la implementación de nuevos casos de uso

Proporcionar una experiencia de autoservicio en toda la plataforma

Usar proceso sin servidor

Uso de plantillas de proceso predefinidas

Uso de las funcionalidades de inteligencia artificial para aumentar la productividad

4. Garantizar la coherencia y facilidad de uso de los datos

Ofrecer datos como productos reutilizables en los que la empresa pueda confiar

Publicación de productos de datos semánticamente coherentes en toda la empresa

Proporcionar un catálogo central para la detección y el linaje

Comentarios

Recursos adicionales