Compartir a través de


Interoperabilidad y facilidad de uso para data lakehouse

En este artículo se tratan los principios arquitectónicos del pilar de interoperabilidad y facilidad de uso , que se refiere a la interacción de lakehouse con los usuarios y otros sistemas. Una de las ideas fundamentales del lakehouse es proporcionar una gran experiencia de usuario para todas las personas que trabajan con él y poder interactuar con un amplio ecosistema de sistemas externos.

  • La interoperabilidad es la capacidad de un sistema de trabajar con otros sistemas e integrarse con ellos. Implica la interacción entre distintos componentes y productos, posiblemente de varios proveedores, y entre versiones anteriores y futuras del mismo producto.
  • La facilidad de uso es la medida de lo bien que un sistema permite a los usuarios realizar tareas de forma segura, eficaz y eficaz.

Diagrama de arquitectura de interoperabilidad y facilidad de uso de almacén de lago de datos para Databricks.

Seguir los principios de este pilar ayuda a:

  • Lograr una experiencia de usuario coherente y colaborativa.
  • Aproveche las sinergias en las nubes.
  • Simplificar la integración desde y hacia el almacén de lago de datos.
  • Reduzca los costos de entrenamiento y habilitación.

Y, en última instancia, acelerar el tiempo de obtención de valor.

Principios de interoperabilidad y facilidad de uso

  1. Definición de estándares para la integración

    La integración tiene diferentes aspectos y se puede realizar de muchas maneras diferentes. Para evitar la proliferación de herramientas y enfoques, se deben definir procedimientos recomendados y se debe proporcionar una lista de herramientas y conectores preferidos y bien compatibles.

    Uno de los principios arquitectónicos clave son modularidad y acoplamiento flexible en lugar de una estrecha integración. Esto reduce las dependencias entre componentes y cargas de trabajo, ayuda a eliminar los efectos secundarios y permite el desarrollo independiente en diferentes escalas de tiempo. Use conjuntos de datos y su esquema como contrato. Separe las cargas de trabajo, como los trabajos de preparación de datos (como cargar y transformar datos en un lago de datos) de los trabajos que añaden valor (por ejemplo, informes, paneles e ingeniería de características de ciencia de datos). Defina un catálogo de datos central con directrices para los formatos de datos, la calidad de los datos y el ciclo de vida de los datos.

  2. Uso de interfaces abiertas y formatos de datos abiertos

    A menudo, las soluciones se desarrollan en las que solo se puede acceder a los datos a través de un sistema específico. Esto puede conducir al bloqueo del proveedor, pero también puede convertirse en un gran controlador de costos si el acceso a los datos a través de ese sistema está sujeto a tarifas de licencia. El uso de formatos de datos abiertos e interfaces ayuda a evitar esto. También simplifican la integración con los sistemas existentes y abren un ecosistema de asociados que ya han integrado sus herramientas con lakehouse.

    Si usa ecosistemas de código abierto como Python o R para la ciencia de datos, o Spark o ANSI SQL para el acceso a datos y el control de derechos de acceso, tendrá un tiempo más fácil de encontrar personal para proyectos. También simplificará las migraciones potenciales hacia y desde una plataforma.

  3. Simplificación de la implementación de nuevos casos de uso

    Para sacar el máximo partido de los datos en el lago de datos, los usuarios deben poder implementar fácilmente sus casos de uso en la plataforma. Esto comienza con procesos lean en torno al acceso a la plataforma y a la administración de datos. Por ejemplo, el acceso de autoservicio a la plataforma ayuda a evitar que un equipo central se convierta en un cuello de botella. Los entornos compartidos y los planos técnicos predefinidos para implementar nuevos entornos garantizan que la plataforma esté disponible rápidamente para cualquier usuario empresarial.

  4. Garantizar la coherencia y la facilidad de uso de los datos

    Dos actividades importantes en una plataforma de datos son la publicación de datos y el consumo de datos. Desde una perspectiva de publicación, los datos se deben ofrecer como un producto. Los publicadores deben seguir un ciclo de vida definido teniendo en cuenta los consumidores y los datos deben definirse claramente con esquemas administrados, descripciones, etc.

    También es importante proporcionar datos semánticamente coherentes para que los consumidores puedan comprender y combinar correctamente diferentes conjuntos de datos. Además, todos los datos deben ser fácilmente reconocibles y accesibles para los consumidores a través de un catálogo central con metadatos y linaje de datos seleccionados correctamente.

Siguiente: Procedimientos recomendados para la interoperabilidad y la facilidad de uso

Consulte Procedimientos recomendados para la interoperabilidad y la facilidad de uso.