guía del usuario de Catálogo de datos de Microsoft Purview linaje
En este artículo se proporciona información general sobre las características de linaje de datos de Catálogo de datos de Microsoft Purview.
Información previa
Una de las características de la plataforma de Microsoft Purview es la capacidad de mostrar el linaje entre los conjuntos de datos creados por los procesos de datos. Sistemas como Data Factory, Data Share y Power BI capturan el linaje de datos a medida que se mueven. Los informes de linaje personalizados también se admiten a través de enlaces de Atlas y API REST.
Colección Linaje
Los metadatos recopilados en Microsoft Purview de sistemas de datos empresariales se cosen para mostrar un linaje de datos de un extremo a otro. Los sistemas de datos que recopilan linaje en Microsoft Purview se clasifican ampliamente en los tres tipos siguientes:
- Sistemas de procesamiento de datos
- Sistemas de almacenamiento de datos
- Sistemas de análisis de datos e informes
Cada sistema admite un nivel diferente de ámbito de linaje. Consulte las secciones siguientes, o el artículo de linaje individual del sistema, para confirmar el ámbito del linaje disponible actualmente.
Limitaciones conocidas
- Las vistas de base de datos usadas como origen de la actividad de proceso (Azure Data Factory, canalizaciones de Synapse, Azure SQL Database, Azure Data Share) se capturan actualmente como objetos de tabla de base de datos en Microsoft Purview. Si también se examina la base de datos, los recursos de vista se detectan por separado en Microsoft Purview. En este escenario, se capturan dos recursos con el mismo nombre en Microsoft Purview, uno como una tabla con linaje de datos y otro como vista.
- Si un procedimiento almacenado contiene instrucciones drop o create, no se capturan actualmente en linaje.
Sistemas de procesamiento de datos
La integración de datos y las herramientas ETL pueden insertar linaje en Microsoft Purview en tiempo de ejecución. Herramientas como Data Factory, Data Share, Synapse, Azure Databricks, etc., pertenecen a esta categoría de sistemas de procesamiento de datos. Los sistemas de procesamiento de datos hacen referencia a conjuntos de datos como origen de diferentes bases de datos y soluciones de almacenamiento para crear conjuntos de datos de destino. La lista de sistemas de procesamiento de datos actualmente integrados con Microsoft Purview para linaje se muestra en la tabla siguiente.
Sistema de procesamiento de datos | Ámbito admitido |
---|---|
Flujo | Linaje de flujo de aire |
Azure Data Share | Compartir instantánea |
Azure Data Factory |
actividad de copia Actividad de flujo de datos Ejecución de la actividad del paquete SSIS |
Azure SQL Database (versión preliminar) | Extracción de linaje para ejecuciones de procedimientos almacenados |
Azure Synapse Analytics |
actividad de copia Actividad de flujo de datos |
Sistemas de almacenamiento de datos
Las soluciones de almacenamiento de bases de datos & , como Oracle, Teradata y SAP, tienen motores de consulta para transformar datos mediante lenguaje de scripting. La información de linaje de datos de vistas, procedimientos almacenados, etc. se recopila en Microsoft Purview y se cose con linaje de otros sistemas. El linaje se admite para los siguientes orígenes de datos mediante el examen de datos de Microsoft Purview. Obtenga más información sobre los escenarios de linaje admitidos en el artículo correspondiente.
Categoría | Origen de datos |
---|---|
Azure | Azure Databricks |
Base de datos | Cassandra |
Db2 | |
Google BigQuery | |
Base de datos de metastore de Hive | |
Mysql | |
Oracle | |
Postgresql | |
Copo de nieve | |
Teradata | |
Servicios y aplicaciones | Erwin |
Guapa | |
SAP ECC | |
SAP S/4HANA |
Sistemas de análisis de datos e informes
Sistemas de análisis de datos e informes como Azure Machine Learning y el linaje de informes de Power BI en Microsoft Purview. Estos sistemas usarán los conjuntos de datos de los sistemas de almacenamiento y procesarán a través de su metamodelo para crear paneles de BI, experimentos de aprendizaje automático, etc.
Sistema de informes de análisis & de datos | Ámbito admitido |
---|---|
Power BI | Conjuntos de datos, flujos de datos, paneles de informes & |
Introducción al linaje
Linaje en Microsoft Purview incluye conjuntos de datos y procesos. Los conjuntos de datos también se conocen como nodos, mientras que los procesos también se pueden denominar bordes:
Conjunto de datos (Nodo): conjunto de datos (estructurado o no estructurado) proporcionado como entrada a un proceso. Por ejemplo, una tabla SQL, un blob de Azure y archivos (como .csv y .xml), se consideran conjuntos de datos. En la sección linaje de Microsoft Purview, los conjuntos de datos se representan mediante cuadros rectangulares.
Proceso (Edge): una actividad o transformación realizada en un conjunto de datos se denomina proceso. Por ejemplo, ADF actividad de copia, Data Share instantánea, etc. En la sección linaje de Microsoft Purview, los procesos se representan mediante cuadros de borde redondo.
Para acceder a la información de linaje de un recurso en Microsoft Purview, siga estos pasos:
Abra el portal de gobernanza de Microsoft Purview:
- Vaya directamente a https://web.purview.azure.com la cuenta de Microsoft Purview y selecciónela.
- Abra el Azure Portal, busque y seleccione la cuenta de Microsoft Purview. Seleccione el botón del portal de gobernanza de Microsoft Purview .
En la página inicio del portal de gobernanza de Microsoft Purview, busque un nombre de conjunto de datos o el nombre del proceso, como copia de ADF o actividad de Data Flow. Y, a continuación, presione Entrar.
En los resultados de la búsqueda, seleccione el recurso y seleccione su pestaña Linaje .
Linaje de nivel de recurso
Microsoft Purview admite el linaje de nivel de recurso para los conjuntos de datos y los procesos. Para ver el linaje de nivel de recurso, vaya a la pestaña Linaje del recurso actual del catálogo. Seleccione el nodo de recurso del conjunto de datos actual. De forma predeterminada, la lista de columnas que pertenecen a los datos aparece en el panel izquierdo.
Linaje manual
El linaje de datos en Microsoft Purview está automatizado para muchos recursos en entornos locales, multinube y SaaS. Aunque seguimos agregando orígenes más automatizados, el linaje manual permite documentar los metadatos de linaje de los orígenes en los que aún no se admite la automatización, sin usar ningún código.
Para agregar linaje manual para cualquiera de los recursos, siga estos pasos:
Busque el recurso en el catálogo de datos y selecciónelo para ver los detalles.
Seleccione Editar, vaya a la pestaña Linaje y seleccione Agregar linaje manual en el panel inferior.
Para configurar el linaje de recursos:
- Seleccione la lista desplegable de recursos para buscar el recurso en la lista sugerida o Ver más para buscar en el catálogo completo. Seleccione el recurso que desea vincular.
- Seleccione el icono de intercambio para configurar la dirección de la relación como Produce (para el linaje inferior) o Consumes (para el linaje ascendente).
- Si desea eliminar un linaje, seleccione el icono de papelera.
Al agregar linaje entre dos recursos de datos, también puede configurar el linaje de nivel de columna. Seleccione el icono de expansión al principio de la fila y seleccione las columnas ascendentes y descendentes de las listas desplegables correspondientes para configurar la asignación de columnas. Seleccione el icono más para agregar más linaje de columnas; seleccione el icono de papelera para eliminar los existentes.
Para agregar más linaje de nivel de recurso, vuelva a seleccionar el botón Agregar linaje manual . Cuando haya terminado, seleccione el botón Guardar para guardar el linaje y salir del modo de edición.
Limitaciones conocidas del linaje manual
- La experiencia actual del selector de recursos permite seleccionar solo un recurso a la vez.
- Actualmente, el linaje manual de nivel de columna se admite para el linaje entre dos recursos de datos, aunque no se admite cuando el recurso de proceso está implicado entre ellos.
- Acceso de mantenimiento de datos necesario para los recursos de origen y destino.
- Estos tipos de recursos no permiten actualmente el linaje manual porque admiten linaje automatizado:
- Azure Data Factory
- Canalizaciones de Synapse
- Conjuntos de datos de Power BI
- Procedimiento almacenado de Teradata
- Azure SQL procedimiento almacenado
Linaje de columnas del conjunto de datos
Para ver el linaje de nivel de columna de un conjunto de datos, vaya a la pestaña Linaje del recurso actual del catálogo y siga estos pasos:
Una vez que esté en la pestaña linaje, en el panel izquierdo, active la casilla situada junto a cada columna que quiera mostrar en el linaje de datos.
Mantenga el puntero sobre una columna seleccionada en el panel izquierdo o en el conjunto de datos del lienzo de linaje para ver la asignación de columnas. Todas las instancias de columna están resaltadas.
Si el número de columnas es mayor que el que se puede mostrar en el panel izquierdo, use la opción de filtro para seleccionar una columna específica por nombre. Como alternativa, puede usar el mouse para desplazarse por la lista.
Si el lienzo de linaje contiene más nodos y bordes, use el filtro para seleccionar el recurso de datos o procesar nodos por nombre. Como alternativa, puede usar el mouse para desplazarse por la ventana de linaje.
Use el botón de alternancia del panel izquierdo para resaltar la lista de conjuntos de datos en el lienzo de linaje. Si desactiva el botón de alternancia, se mostrará cualquier recurso que contenga al menos una de las columnas seleccionadas. Si activa el botón de alternancia, solo se muestran los conjuntos de datos que contienen todas las columnas.
Procesamiento del linaje de columnas
También puede ver los procesos de datos, como las actividades de copia, en el catálogo de datos. Por ejemplo, en este flujo de linaje, seleccione la actividad de copia:
La actividad de copia se expandirá y, a continuación, puede seleccionar el botón Cambiar al recurso , que le proporcionará más detalles sobre el propio proceso.
El proceso de datos puede tardar uno o más conjuntos de datos de entrada para generar una o varias salidas. En Microsoft Purview, el linaje de nivel de columna está disponible para los nodos de proceso.
Cambie entre los conjuntos de datos de entrada y salida de una lista desplegable en el panel de columnas.
Seleccione columnas de una o varias tablas para ver el linaje que fluye desde el conjunto de datos de entrada al conjunto de datos de salida correspondiente.
Examinar recursos en linaje
Seleccione Cambiar al recurso en cualquier recurso para ver sus metadatos correspondientes desde la vista de linaje. Esto es una manera eficaz de examinar otro recurso del catálogo desde la vista de linaje.
El lienzo de linaje podría convertirse en complejo para conjuntos de datos populares. Para evitar el desorden, la vista predeterminada solo mostrará cinco niveles de linaje para el recurso en el foco. El resto del linaje se puede expandir seleccionando las burbujas en el lienzo de linaje. Los consumidores de datos también pueden ocultar los recursos en el lienzo que no son de interés. Para reducir aún más el desorden, desactive la alternancia Más linaje en la parte superior del lienzo de linaje. Esta acción ocultará todas las burbujas en el lienzo de linaje.
Use los botones inteligentes del lienzo de linaje para obtener una vista óptima del linaje:
- Pantalla completa
- Zoom para ajustar
- Acercar o alejar
- Alineación automática
- Vista previa del zoom
- Y más opciones:
- Centrar el recurso actual
- Restablecer a la vista predeterminada