guía del usuario de Catálogo de datos de Microsoft Purview linaje

En este artículo se proporciona información general sobre las características de linaje de datos de Catálogo de datos de Microsoft Purview.

Información previa

Una de las características de la plataforma de Microsoft Purview es la capacidad de mostrar el linaje entre los conjuntos de datos creados por los procesos de datos. Sistemas como Data Factory, Data Share y Power BI capturan el linaje de datos a medida que se mueven. Los informes de linaje personalizados también se admiten a través de enlaces de Atlas y API REST.

Colección Linaje

Los metadatos recopilados en Microsoft Purview de sistemas de datos empresariales se cosen para mostrar un linaje de datos de un extremo a otro. Los sistemas de datos que recopilan linaje en Microsoft Purview se clasifican ampliamente en los tres tipos siguientes:

Cada sistema admite un nivel diferente de ámbito de linaje. Consulte las secciones siguientes, o el artículo de linaje individual del sistema, para confirmar el ámbito del linaje disponible actualmente.

Limitaciones conocidas

  • Las vistas de base de datos usadas como origen de la actividad de proceso (Azure Data Factory, canalizaciones de Synapse, Azure SQL Database, Azure Data Share) se capturan actualmente como objetos de tabla de base de datos en Microsoft Purview. Si también se examina la base de datos, los recursos de vista se detectan por separado en Microsoft Purview. En este escenario, se capturan dos recursos con el mismo nombre en Microsoft Purview, uno como una tabla con linaje de datos y otro como vista.
  • Si un procedimiento almacenado contiene instrucciones drop o create, no se capturan actualmente en linaje.

Sistemas de procesamiento de datos

La integración de datos y las herramientas ETL pueden insertar linaje en Microsoft Purview en tiempo de ejecución. Herramientas como Data Factory, Data Share, Synapse, Azure Databricks, etc., pertenecen a esta categoría de sistemas de procesamiento de datos. Los sistemas de procesamiento de datos hacen referencia a conjuntos de datos como origen de diferentes bases de datos y soluciones de almacenamiento para crear conjuntos de datos de destino. La lista de sistemas de procesamiento de datos actualmente integrados con Microsoft Purview para linaje se muestra en la tabla siguiente.

Sistema de procesamiento de datos Ámbito admitido
Flujo Linaje de flujo de aire
Azure Data Share Compartir instantánea
Azure Data Factory actividad de copia
Actividad de flujo de datos
Ejecución de la actividad del paquete SSIS
Azure SQL Database (versión preliminar) Extracción de linaje para ejecuciones de procedimientos almacenados
Azure Synapse Analytics actividad de copia
Actividad de flujo de datos

Sistemas de almacenamiento de datos

Las soluciones de almacenamiento de bases de datos & , como Oracle, Teradata y SAP, tienen motores de consulta para transformar datos mediante lenguaje de scripting. La información de linaje de datos de vistas, procedimientos almacenados, etc. se recopila en Microsoft Purview y se cose con linaje de otros sistemas. El linaje se admite para los siguientes orígenes de datos mediante el examen de datos de Microsoft Purview. Obtenga más información sobre los escenarios de linaje admitidos en el artículo correspondiente.

Categoría Origen de datos
Azure Azure Databricks
Base de datos Cassandra
Db2
Google BigQuery
Base de datos de metastore de Hive
Mysql
Oracle
Postgresql
Copo de nieve
Teradata
Servicios y aplicaciones Erwin
Guapa
SAP ECC
SAP S/4HANA

Sistemas de análisis de datos e informes

Sistemas de análisis de datos e informes como Azure Machine Learning y el linaje de informes de Power BI en Microsoft Purview. Estos sistemas usarán los conjuntos de datos de los sistemas de almacenamiento y procesarán a través de su metamodelo para crear paneles de BI, experimentos de aprendizaje automático, etc.

Sistema de informes de análisis & de datos Ámbito admitido
Power BI Conjuntos de datos, flujos de datos, paneles de informes &

Introducción al linaje

Linaje en Microsoft Purview incluye conjuntos de datos y procesos. Los conjuntos de datos también se conocen como nodos, mientras que los procesos también se pueden denominar bordes:

  • Conjunto de datos (Nodo): conjunto de datos (estructurado o no estructurado) proporcionado como entrada a un proceso. Por ejemplo, una tabla SQL, un blob de Azure y archivos (como .csv y .xml), se consideran conjuntos de datos. En la sección linaje de Microsoft Purview, los conjuntos de datos se representan mediante cuadros rectangulares.

  • Proceso (Edge): una actividad o transformación realizada en un conjunto de datos se denomina proceso. Por ejemplo, ADF actividad de copia, Data Share instantánea, etc. En la sección linaje de Microsoft Purview, los procesos se representan mediante cuadros de borde redondo.

Para acceder a la información de linaje de un recurso en Microsoft Purview, siga estos pasos:

  1. Abra el portal de gobernanza de Microsoft Purview:

  2. En la página inicio del portal de gobernanza de Microsoft Purview, busque un nombre de conjunto de datos o el nombre del proceso, como copia de ADF o actividad de Data Flow. Y, a continuación, presione Entrar.

  3. En los resultados de la búsqueda, seleccione el recurso y seleccione su pestaña Linaje .

    Captura de pantalla que muestra cómo seleccionar la pestaña Linaje.

Linaje de nivel de recurso

Microsoft Purview admite el linaje de nivel de recurso para los conjuntos de datos y los procesos. Para ver el linaje de nivel de recurso, vaya a la pestaña Linaje del recurso actual del catálogo. Seleccione el nodo de recurso del conjunto de datos actual. De forma predeterminada, la lista de columnas que pertenecen a los datos aparece en el panel izquierdo.

Captura de pantalla que muestra cómo seleccionar Ver columnas en la página de linaje.

Linaje manual

El linaje de datos en Microsoft Purview está automatizado para muchos recursos en entornos locales, multinube y SaaS. Aunque seguimos agregando orígenes más automatizados, el linaje manual permite documentar los metadatos de linaje de los orígenes en los que aún no se admite la automatización, sin usar ningún código.

Para agregar linaje manual para cualquiera de los recursos, siga estos pasos:

  1. Busque el recurso en el catálogo de datos y selecciónelo para ver los detalles.

  2. Seleccione Editar, vaya a la pestaña Linaje y seleccione Agregar linaje manual en el panel inferior.

    Captura de pantalla de la edición de un recurso y la adición de linaje manual.

  3. Para configurar el linaje de recursos:

    1. Seleccione la lista desplegable de recursos para buscar el recurso en la lista sugerida o Ver más para buscar en el catálogo completo. Seleccione el recurso que desea vincular.
    2. Seleccione el icono de intercambio para configurar la dirección de la relación como Produce (para el linaje inferior) o Consumes (para el linaje ascendente).
    3. Si desea eliminar un linaje, seleccione el icono de papelera.

    Captura de pantalla de una página de linaje de recursos de datos, con la lista desplegable de recursos resaltada.

  4. Al agregar linaje entre dos recursos de datos, también puede configurar el linaje de nivel de columna. Seleccione el icono de expansión al principio de la fila y seleccione las columnas ascendentes y descendentes de las listas desplegables correspondientes para configurar la asignación de columnas. Seleccione el icono más para agregar más linaje de columnas; seleccione el icono de papelera para eliminar los existentes.

    Captura de pantalla de la configuración del linaje de nivel de columna.

  5. Para agregar más linaje de nivel de recurso, vuelva a seleccionar el botón Agregar linaje manual . Cuando haya terminado, seleccione el botón Guardar para guardar el linaje y salir del modo de edición.

Limitaciones conocidas del linaje manual

  • La experiencia actual del selector de recursos permite seleccionar solo un recurso a la vez.
  • Actualmente, el linaje manual de nivel de columna se admite para el linaje entre dos recursos de datos, aunque no se admite cuando el recurso de proceso está implicado entre ellos.
  • Acceso de mantenimiento de datos necesario para los recursos de origen y destino.
  • Estos tipos de recursos no permiten actualmente el linaje manual porque admiten linaje automatizado:
    • Azure Data Factory
    • Canalizaciones de Synapse
    • Conjuntos de datos de Power BI
    • Procedimiento almacenado de Teradata
    • Azure SQL procedimiento almacenado

Linaje de columnas del conjunto de datos

Para ver el linaje de nivel de columna de un conjunto de datos, vaya a la pestaña Linaje del recurso actual del catálogo y siga estos pasos:

  1. Una vez que esté en la pestaña linaje, en el panel izquierdo, active la casilla situada junto a cada columna que quiera mostrar en el linaje de datos.

    Captura de pantalla que muestra cómo seleccionar las columnas que se van a mostrar en la página de linaje.

  2. Mantenga el puntero sobre una columna seleccionada en el panel izquierdo o en el conjunto de datos del lienzo de linaje para ver la asignación de columnas. Todas las instancias de columna están resaltadas.

    Captura de pantalla que muestra cómo mantener el puntero sobre un nombre de columna para resaltar el flujo de columna en una ruta de acceso de linaje de datos.

  3. Si el número de columnas es mayor que el que se puede mostrar en el panel izquierdo, use la opción de filtro para seleccionar una columna específica por nombre. Como alternativa, puede usar el mouse para desplazarse por la lista.

    Captura de pantalla que muestra cómo filtrar columnas por nombre de columna en la página de linaje.

  4. Si el lienzo de linaje contiene más nodos y bordes, use el filtro para seleccionar el recurso de datos o procesar nodos por nombre. Como alternativa, puede usar el mouse para desplazarse por la ventana de linaje.

    Captura de pantalla que muestra los nodos de recursos de datos por nombre en la página de linaje.

  5. Use el botón de alternancia del panel izquierdo para resaltar la lista de conjuntos de datos en el lienzo de linaje. Si desactiva el botón de alternancia, se mostrará cualquier recurso que contenga al menos una de las columnas seleccionadas. Si activa el botón de alternancia, solo se muestran los conjuntos de datos que contienen todas las columnas.

    Captura de pantalla que muestra cómo usar el botón de alternancia para filtrar la lista de nodos en la página de linaje.

Procesamiento del linaje de columnas

También puede ver los procesos de datos, como las actividades de copia, en el catálogo de datos. Por ejemplo, en este flujo de linaje, seleccione la actividad de copia:

Captura de pantalla de un flujo de linaje de datos con uno de los nodos de actividad de copia resaltados.

La actividad de copia se expandirá y, a continuación, puede seleccionar el botón Cambiar al recurso , que le proporcionará más detalles sobre el propio proceso.

Captura de pantalla del nodo de actividad de copia expandido y el nuevo botón Cambiar al recurso seleccionado.

El proceso de datos puede tardar uno o más conjuntos de datos de entrada para generar una o varias salidas. En Microsoft Purview, el linaje de nivel de columna está disponible para los nodos de proceso.

  1. Cambie entre los conjuntos de datos de entrada y salida de una lista desplegable en el panel de columnas.

  2. Seleccione columnas de una o varias tablas para ver el linaje que fluye desde el conjunto de datos de entrada al conjunto de datos de salida correspondiente.

    Captura de pantalla que muestra el linaje de columnas de un nodo de proceso.

Examinar recursos en linaje

  1. Seleccione Cambiar al recurso en cualquier recurso para ver sus metadatos correspondientes desde la vista de linaje. Esto es una manera eficaz de examinar otro recurso del catálogo desde la vista de linaje.

    Captura de pantalla de cómo seleccionar Cambiar al recurso en un recurso de datos de linaje.

  2. El lienzo de linaje podría convertirse en complejo para conjuntos de datos populares. Para evitar el desorden, la vista predeterminada solo mostrará cinco niveles de linaje para el recurso en el foco. El resto del linaje se puede expandir seleccionando las burbujas en el lienzo de linaje. Los consumidores de datos también pueden ocultar los recursos en el lienzo que no son de interés. Para reducir aún más el desorden, desactive la alternancia Más linaje en la parte superior del lienzo de linaje. Esta acción ocultará todas las burbujas en el lienzo de linaje.

    Captura de pantalla que muestra cómo alternar Más linaje.

  3. Use los botones inteligentes del lienzo de linaje para obtener una vista óptima del linaje:

    1. Pantalla completa
    2. Zoom para ajustar
    3. Acercar o alejar
    4. Alineación automática
    5. Vista previa del zoom
    6. Y más opciones:
      1. Centrar el recurso actual
      2. Restablecer a la vista predeterminada

    Captura de pantalla que muestra cómo seleccionar los botones inteligentes de linaje.

Siguientes pasos