¿Qué es un producto de datos?

Todas las aplicaciones crean y almacenan datos de forma temporal o permanente. Muchas aplicaciones también crean y guardan datos para la administración de operaciones, como el registro de errores y el seguimiento de estado. Los equipos de datos centralizados usan procesos de extracción, transformación y carga de datos (ETL) para consumir y procesar los datos que producen estas aplicaciones. Los equipos de operaciones de aplicaciones suelen tener flujos de procesamiento de datos adicionales para asuntos como la supervisión del estado del indicador clave de rendimiento (KPI) y del estado de la aplicación.

El enfoque clásico que consiste en una cascada de equipos y responsabilidades en la integración de datos no es el ideal. Puede provocar lagunas de conocimiento, problemas de propiedad y conflictos comunicativos que afecten a la calidad de los datos, las escalas de tiempo y el valor para los usuarios finales. Los equipos de aplicaciones son responsables del rendimiento y del correcto funcionamiento de la aplicación. En su trabajo, necesitan cambiar los procesos de bajada que pertenecen a otros equipos, pero a menudo estas modificaciones no transcurren según lo planeado. Por ejemplo, es posible que lo que se conoce como un cambio ascendente menor altere drásticamente la tendencia de un indicador clave de rendimiento. Estos tipos de problemas con los datos pueden afectar a la capacidad de tomar decisiones críticas.

El enfoque de la malla de datos evita estos problemas mediante la adopción del concepto de datos como producto. Los propietarios de aplicaciones y los equipos de aplicaciones tratan los datos como un producto totalmente contenido del que son responsables, en lugar de un subproducto de un proceso que administran otros. Tanto las aplicaciones como las tareas de servicio de datos analíticos se incluyen en las áreas de responsabilidad del dominio.

Los productos de datos se crean especialmente para el consumo analítico. Han determinado y acordado formas, interfaces de consumo, así como ciclos de actualización y mantenimiento, todos ellos documentados.

Los productos de datos son conjuntos de datos o activos de datos de dominio procesados que se comparten a través de procesos de bajada a través de interfaces de cierre de sesión único (SLO). A menos que sea necesario, se debería dar forma a los datos, así como procesarlos, limpiarlos, agregarlos y normalizarlos para cumplir los estándares de calidad acordados antes de disponerlos para su consumo.

En las secciones siguientes se describen las características comunes que comparten los buenos productos de datos.

Características de los productos de datos

Los productos de datos bien diseñados son:

Reconocibles, comprensibles y fiables: los equipos de dominio proporcionan reconocibilidad y comprensibilidad al compartir y actualizar la información sobre cada producto de datos, sus datos, su significado, el formato de la forma de los datos y su ciclo de actualización. Comunican puntualmente a los consumidores de bajada sobre los cambios en los datos o la forma. La fiabilidad está garantizada por las interfaces al ofrecer la compatibilidad dentro de un plazo con versiones anteriores para las formas de productos de datos.

Direccionables, accesibles de forma nativa y seguros: los procesos definidos para localizar y acceder a cada producto de datos proporcionan direccionabilidad. Se aplican medidas de seguridad necesarias para los distintos requisitos de acceso. En la mentalidad sobre propiedad del dominio de datos, el control del acceso a los datos se sustituye con la presentación de datos con precauciones de seguridad bien definidas. Las interfaces de acceso que se ofrecen están bien documentadas y pueden variar en diferentes tecnologías. Las interfaces de uso frecuente para productos de datos accesibles de forma nativa incluyen API, usuarios de base de datos, tablas o vistas y archivos con derechos de acceso obligatorios.

Interoperables, veraces y de valor: los datos proporcionan interoperabilidad al seguir estándares comunes definidos, como el que establece que el mismo valor siempre se corresponde con el mismo nombre y tipo de datos. Por ejemplo, una columna que contiene datos de identificación del cliente podría tener como título CustomerID en cada producto de datos y puede que sus datos sean enteros o usen snake_case o camelCase en cada instancia. Los productos de datos aportan valor a los clientes y también se pueden usar como orígenes ascendentes para nuevos productos de datos en los mismos o diferentes dominios. Sin embargo, no se puede llevar y copiar el mismo producto de datos en varios lugares sin más. Cada producto de datos procedente de un producto de datos anterior debería aportar un valor nuevo e información a los consumidores de nivel inferior. Los productos de datos también deben proporcionar datos veraces y libres de errores.

Con productos de datos bien diseñados y mantenidos y sus interfaces, las organizaciones pueden evitar el duplicado de datos y crear un origen único nativo de veracidad.

Recomendaciones para el diseño de productos de datos

Para satisfacer los requisitos de servicio de productos de datos, los equipos de dominio deben adquirir un nuevo conjunto de aptitudes, además de usar nuevas herramientas y plataformas.

Equipe por completo los equipos de aplicaciones de dominio para crear las aplicaciones de datos y generar o servir productos de datos. Los equipos pueden crear productos de datos por medio de una pila tecnológica conocida. También pueden preferir su propia instancia de Spark o motor de canalización, en caso de que sea factible. Por ejemplo, un dominio grande que sirve muchos productos de datos podría decidir procesar y servir productos de datos de su propia Azure Synapse Analytics. Es posible que las organizaciones y dominios más pequeños de grandes empresas decidan desarrollar y ejecutar las aplicaciones de datos en una plataforma compartida, como una Azure Data Factory ubicada centralmente, Azure Synapse Analytics o Azure Databricks.

Asegúrese de que los productos de datos reúnen las características comunes que se describen en este artículo, de que el repositorio del linaje refleja el linaje de la aplicación de datos y de que la implementación y el acceso están regulados.

Diagrama que muestra posibles distribuciones lógicas de aplicaciones de datos en dominios y zonas de aterrizaje.

Guía de aplicación de datos y productos de datos para Azure

Puede colocar todos los enfoques posibles para el entorno de aplicación de datos en las zonas de aterrizaje de datos de Azure si los equipos de aplicación del dominio usan una plataforma y un conjunto de servicios compartidos.

Diagrama que muestra el grupo de recursos data-application-rg de Data Applications Context y el grupo de recursos shared-application-rg de Core Services Context.

Puede encontrar tres plantillas de modelo de aplicaciones de datos para las zona de aterrizaje de datos de Azure en Productos de análisis de datos a escala de la nube en Azure: Aplicaciones de datos de ejemplo.

Pasos siguientes