Compartir a través de


Interoperabilidad y facilidad de uso del almacén de lago de datos

En este artículo, se tratan los principios arquitectónicos de los fundamentos de interoperabilidad y facilidad de uso, haciendo referencia a la interacción del almacén de lago con usuarios y otros sistemas. Una de las ideas fundamentales del almacén de lago es proporcionar una excelente experiencia de usuario a todos los roles que trabajen con el y poder interactuar con un amplio ecosistema de sistemas externos.

  • La interoperabilidad es la capacidad de un sistema de trabajar e integrarse con otros sistemas. Implica la interacción entre distintos componentes y productos, posiblemente de varios proveedores, así como entre versiones anteriores y futuras del mismo producto.
  • Facilidad de uso es la medida de cómo un sistema permite a los usuarios realizar tareas de forma segura, efectiva y eficaz.

Diagrama de arquitectura de lakehouse de interoperabilidad y facilidad de uso para Databricks.

Seguir los principios de estos fundamentos ayudan a:

  • Lograr una experiencia de usuario coherente y colaborativa.
  • Aprovechar las sinergias entre nubes.
  • Simplificar la integración desde y hacia el almacén de lago.
  • Reducir los costes de entrenamiento y habilitación.

Y, en última instancia, acelerar el tiempo de amortización.

Principios de interoperabilidad y facilidad de uso

  1. Definición de estándares para la integración

    La integración tiene diferentes aspectos y se puede realizar de muchas maneras diferentes. Para evitar la proliferación de herramientas y enfoques, se deben definir procedimientos recomendados y se debe proporcionar una lista de herramientas y conectores preferidos y bien compatibles.

    Uno de los principios arquitectónicos clave son la modularidad y el acoplamiento flexible en lugar de una estrecha integración. Esto reduce las dependencias entre componentes y cargas de trabajo, ayuda a eliminar los efectos secundarios y permite el desarrollo independiente en diferentes escalas de tiempo. Use conjuntos de datos y su esquema como contrato. Separe cargas de trabajo, como los trabajos de limpieza y transformación de datos (como cargar y transformar datos en un lago de datos) a partir de trabajos de adición de valores (por ejemplo: ingeniería de características de ciencia de datos, paneles e informes). Defina un catálogo de datos central con directrices para los formatos de datos, la calidad de los datos y el ciclo de vida de los datos.

  2. Usar interfaces y formatos de datos abiertos

    A menudo, las soluciones se desarrollan donde solo se puede acceder a los datos a través de un sistema específico. Esto podría acarrear el bloqueo del proveedor, pero también podría convertirse en un gran controlador de costes si el acceso a los datos a través de ese sistema estuviera sujeto a honorarios de licencia. El uso de formatos de datos abiertos e interfaces ayuda a evitar esto. También simplifican la integración con los sistemas existentes y abren un ecosistema de asociados que ya hayan integrado sus herramientas con el almacén de lago.

    Si usa ecosistemas de código abierto para la ciencia de datos, como Python o R, o bien Spark o ANSI SQL para el acceso a datos y el control de derechos de acceso, tendrá más fácil encontrar personal para proyectos. También simplificará las migraciones potenciales hacia y desde una plataforma.

  3. Simplificación de la implementación de nuevos casos de uso

    Para sacar el máximo partido de los datos en el lago de datos, los usuarios deben poder implementar fácilmente sus casos de uso en la plataforma. Esto comienza con procesos austeros en torno al acceso a la plataforma y a la administración de datos. Por ejemplo, el acceso de autoservicio a la plataforma ayuda a evitar que un equipo central se convierta en un cuello de botella. Los entornos compartidos y los planos técnicos predefinidos para implementar nuevos entornos garantizan que la plataforma esté disponible rápidamente para cualquier usuario empresarial.

  4. Garantizar la coherencia y facilidad de uso de los datos

    Dos actividades importantes en una plataforma de datos son la publicación de datos y el consumo de datos. Desde una perspectiva de publicación, los datos se deben ofrecer como un producto. Los publicadores deben seguir un ciclo de vida definido teniendo en cuenta a los consumidores, mientras que los datos deben definirse claramente con esquemas administrados, descripciones, etc.

    También es importante proporcionar datos semánticamente coherentes para que los consumidores puedan comprender y combinar correctamente diferentes conjuntos de datos. Además, todos los datos deben ser fácilmente reconocibles y accesibles para los consumidores a través de un catálogo central con metadatos y linaje de datos mantenidos correctamente.

A continuación: procedimientos recomendados de interoperabilidad y facilidad de uso

Consulte los procedimientos recomendados de interoperabilidad y facilidad de uso.