Compartir a través de


Conexión y administración del catálogo de Azure Databricks Unity en Microsoft Purview

En este artículo se describe cómo registrar Azure Databricks y cómo autenticarse e interactuar con el catálogo de Azure Databricks Unity en Microsoft Purview. Para obtener más información sobre Microsoft Purview, lea el artículo introductorio.

Funciones admitidas

Funcionalidades de examen

Extracción de metadatos Examen completo Examen incremental Examen con ámbito

Al examinar el catálogo de Azure Databricks Unity, Microsoft Purview admite:

  • Extracción de metadatos técnicos, entre los que se incluyen:
    • Metastore
    • Catálogos
    • Schemas
    • Tablas que incluyen las columnas
    • Vistas que incluyen las columnas
  • Captura del linaje en las relaciones de recursos entre tablas, vistas y columnas durante las ejecuciones del cuaderno.

Al configurar el examen, puede elegir examinar todo el catálogo de Unity o limitar el examen a un subconjunto de catálogos.

Otras funcionalidades

Para obtener clasificaciones, etiquetas de confidencialidad, directivas, linaje de datos y vista dinámica, consulte la lista de funcionalidades admitidas.

Nota:

Este conector trae metadatos del catálogo de Azure Databricks Unity. Para examinar los metadatos con ámbito de área de trabajo de Azure Databricks, consulte Conector de Metastore de Hive de Azure Databricks.

Limitaciones conocidas

  • Los nombres del cuaderno de Databricks aparecen como identificadores numéricos en lugar de nombres legibles en Microsoft Purview. Se trata de una limitación de Databricks, ya que los nombres de cuaderno no se exponen en la tabla del sistema del catálogo de Unity.

  • Es posible que se produzcan errores si los resultados del examen de Azure Databricks superan el 1 MB y El almacenamiento de blobs administrado por Azure Databricks deniega el acceso a la red pública. Para evitarlo, asegúrese de que Purview tiene acceso a la ubicación de almacenamiento de DBFS interna del área de trabajo de Azure Databricks que se está examinando. Puede obtener más información sobre esto aquí.

  • El examen incremental solo está disponible para el origen de datos del catálogo de Azure Databricks Unity .

  • El examen con ámbito solo está disponible para la opción Catálogo de Unity en Origen de datos de Azure Databricks .

  • Solo se pueden agregar puntos de conexión privados administrados para la opción Catálogo de Unity en Origen de datos de Azure Databricks .

  • Cuando se elimina el objeto del origen de datos, actualmente el examen posterior no quitará automáticamente el recurso correspondiente en Microsoft Purview.

  • La información de linaje no está disponible en las áreas de trabajo de Azure Databricks en la región China. Esto se debe a que las tablas del sistema de Azure Databricks no se admiten en esta región. Microsoft Purview usa estas tablas para extraer linaje, por lo que no se puede recuperar el linaje en esta región.

  • Para más información sobre otras limitaciones relacionadas con el linaje nativo de Azure Databricks, consulte la documentación de Azure Databricks.

Requisitos previos

  • Debe tener una cuenta de Azure con una suscripción activa. Cree una cuenta de forma gratuita.

  • Debe tener una cuenta de Microsoft Purview activa.

  • Necesita una Key Vault de Azure y conceder permisos de Microsoft Purview para acceder a los secretos.

  • Necesita permisos de administrador de origen de datos y lector de datos para registrar un origen y administrarlo en el portal de gobernanza de Microsoft Purview clásico. Para obtener más información sobre los permisos, consulte Control de acceso en Microsoft Purview.

  • Para examinar el catálogo de Azure Databricks Unity, Microsoft Purview se conecta a una instancia de SQL Warehouse en el área de trabajo y usa el token de acceso personal para la autenticación. Debe tener un área de trabajo de Azure Databricks habilitada y conectada al metastore que desea examinar. En el área de trabajo de Azure Databricks:

    • Cree una instancia de SQL Warehouse. También puede usar el almacén de inicio creado automáticamente, si procede.

      • Anote la ruta de acceso HTTP. Puede encontrarlo en el área de trabajo de Azure Databricks:> SQL Warehouses,> el almacenamiento,> los detalles de conexión y> la ruta de acceso HTTP.

      • Asegúrese de que el usuario tiene el permiso Can Use para conectarse a Azure Databricks SQL Warehouse. Obtenga más información sobre el control de acceso de SQL Warehouse.

  • Para capturar el linaje de Azure Databricks mediante Microsoft Purview, deben cumplirse los siguientes requisitos previos:

    • Habilitar el esquema del sistema: el esquema del sistema system.access debe estar habilitado en el catálogo de Unity. Esto es necesario porque la información de linaje se almacena en tablas del sistema y habilitar este esquema permite el acceso a esas tablas. Obtenga más información sobre la supervisión del uso con tablas del sistema.

    • Privilegios de usuario: la cuenta de usuario utilizada para el examen debe tener privilegios SELECT en las siguientes tablas del sistema:

      • system.access.table_lineage

      • system.access.column_lineage

      Estos permisos son necesarios porque los datos de linaje se leen directamente desde las tablas del sistema y, sin el acceso necesario, Microsoft Purview no puede recuperar la información de linaje.

  • Si el área de trabajo de Azure Databricks no permite el acceso desde la red pública o si la cuenta de Microsoft Purview no habilita el acceso desde todas las redes, puede usar el Virtual Network Integration Runtime administrado o un entorno de ejecución de integración autohospedado compatible con kubernetes para examinar. Puede configurar un punto de conexión privado administrado para Azure Databricks según sea necesario para establecer la conectividad privada.

Configuración del origen de datos (Catálogo de Azure Databricks frente a Azure Databricks Unity)

La conexión del catálogo de Azure Databricks Unity a Microsoft Purview se puede configurar a través de dos orígenes:

  • Azure Databricks (origen antiguo)
  • Unity Catalog para Azure Databricks

Diferencias en las capacidades entre orígenes de datos

Las funcionalidades del conector del catálogo de Azure Databricks Unity difieren en función del origen usado para la conexión. A continuación se muestra una comparación de las funcionalidades:

Funcionalidad Origen antiguo Nuevo origen
Nombre de origen Azure Databricks Unity Catalog para Azure Databricks
Compatibilidad con el origen Catálogo de Hive & Unity Catálogo de Unity
Autenticación: Token de acceso personal Compatible Compatible
Autenticación: Entidad de servicio No Compatible
Autenticación: Identidad administrada No Compatible (identidad administrada por el sistema)
Integration Runtime: Azure IR Compatible Compatible
Integration Runtime: Ir de red virtual administrada Compatible No
Integration Runtime: Kubernetes Self-Hosted IR Compatible Compatible
Examen con ámbito Sí: nivel de catálogo No
Examen incremental No
Linaje Compatible Compatible

¿Qué origen debo usar?

Puede elegir un origen en función de las necesidades de su organización o usar ambos en paralelo. El cambio entre orígenes o el uso de ambos simultáneamente no provocará la duplicación de recursos en Microsoft Purview. Esta flexibilidad le permite empezar con la opción que mejor se adapte a su configuración actual y ajustar con el tiempo según sea necesario.

Autenticación para un examen

Puede usar tokens de acceso personal, identidades administradas o métodos de autenticación de entidad de servicio para examinar el catálogo de Azure Databricks Unity.

Si se usa una identidad administrada asignada por el sistema

En Azure Databricks
  1. Vaya a Configuración Identidad>y acceso deladministrador> del área de trabajo.

  2. Seleccione Agregar entidad de servicio.

  3. Seleccione Agregar nuevo.

  4. Seleccione Microsoft Entra ID administrado. Proporcione el identificador de aplicación para Microsoft Purview. Puede encontrar el identificador de aplicación en Detalles del recurso de la cuenta de Microsoft Purview en Azure Portal.

Imagen del usuario

En Microsoft Purview
  1. Seleccione la identidad administrada asignada por el sistema en Credencial.
  • Para todos los objetos que desea traer a Microsoft Purview, el usuario o la entidad de servicio deben tener al menos el privilegio SELECT en tablas o vistas, USE CATALOG en el catálogo del objeto y USE SCHEMA en el esquema del objeto.

Registrarse

En esta sección se describe cómo registrar un área de trabajo de Azure Databricks en Microsoft Purview mediante el portal de gobernanza de Microsoft Purview clásico.

  1. Vaya a su cuenta de Microsoft Purview.

  2. Seleccione Mapa de datos en el panel izquierdo.

  3. Seleccione Registrar.

  4. En Registrar orígenes, seleccioneContinuar del catálogo > de Unity de Azure Databricks.

  5. En la pantalla Registrar orígenes (catálogo de Azure Databricks Unity), haga lo siguiente:

  6. En Nombre, escriba un nombre que Microsoft Purview mostrará como origen de datos.

    1. En Metastore ID (Id. de metastore), proporcione el identificador de metastore para el metastore del catálogo de Unity de Azure Databricks que desea examinar.

    2. Seleccione una colección de la lista.

Captura de pantalla del registro del origen del catálogo de Unity de Azure Databricks.

  1. Seleccione Finalizar.

Examinar

Sugerencia

Para solucionar cualquier problema con el examen:

  1. Confirme que ha seguido todos los requisitos previos.
  2. Revise nuestra documentación de solución de problemas de examen.

Siga estos pasos para examinar Azure Databricks para identificar automáticamente los recursos. Para obtener más información sobre el examen en general, consulte Exámenes e ingesta en Microsoft Purview.

  1. Vaya a Orígenes.

  2. Seleccione la instancia de Azure Databricks registrada.

  3. Seleccione + Nuevo examen.

  4. Proporcione los detalles siguientes:

    1. Nombre: escriba un nombre para el examen.

    2. Conectar mediante integration runtime: elija el entorno de ejecución de integración de Azure predeterminado, Managed Virtual Network IR o un entorno de ejecución de integración autohospedado compatible con Kubernetes que ha creado.

    3. Credencial: seleccione la credencial para conectarse al origen de datos. Asegúrese de:

    4. Dirección URL del área de trabajo: Proporcione la dirección URL del área de trabajo que desea examinar.

    5. Ruta de acceso HTTP: Especifique la ruta de acceso HTTP de Databricks SQL Warehouse a la que Microsoft Purview se conectará y realizará el examen; por ejemplo, /sql/1.0/endpoints/xxxxxxxxxxxxxxxx. Puede encontrarlo en el área de trabajo de Azure Databricks:> SQL Warehouses,> el almacenamiento,> los detalles de conexión y> la ruta de acceso HTTP.

    6. Extracción de linaje: Cambie la extracción de linaje a Activado para capturar el linaje de los recursos examinados.

  5. Seleccione Probar conexión para validar la configuración.

    Captura de pantalla de la configuración del examen del catálogo de Azure Databricks Unity.

  6. Seleccione Continuar.

  7. En Desencadenador de examen, elija si desea configurar una programación o ejecutar el examen una vez.

  8. Revise el examen y seleccione Guardar y ejecutar.

Una vez que el examen se complete correctamente, vea cómo examinar y buscar recursos.

Visualización de los exámenes y las ejecuciones de examen

Para ver los exámenes existentes:

  1. Vaya al portal de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
  2. Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
  3. Seleccione el examen que tiene los resultados que desea ver. En el panel se muestran todas las ejecuciones de examen anteriores, junto con el estado y las métricas de cada ejecución de examen.
  4. Seleccione el identificador de ejecución para comprobar los detalles de la ejecución del examen.

Administrar los exámenes

Para editar, cancelar o eliminar un examen:

  1. Vaya al portal de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.

  2. Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .

  3. Seleccione el examen que desea administrar. Después, podrá:

    • Edite el examen seleccionando Editar examen.
    • Para cancelar un examen en curso, seleccione Cancelar ejecución del examen.
    • Para eliminar el examen, seleccione Eliminar examen.

Nota:

  • La eliminación del examen no elimina los recursos de catálogo creados a partir de exámenes anteriores.

Examinar y buscar recursos

Después de examinar Azure Databricks, puede examinar Catálogo unificado o buscar Catálogo unificado para ver los detalles del recurso y el linaje.

Al examinar por tipos de origen, verá dos entradas para El catálogo de Azure Databricks Unity y Azure Databricks , respectivamente. El primero contiene los artefactos del catálogo de Unity, incluidos el metastore y sus catálogos, esquemas, tablas o vistas, mientras que el segundo contiene los artefactos del área de trabajo.

Captura de pantalla de los recursos de exploración por tipo de origen.

En el recurso del área de trabajo de Azure Databricks, puede encontrar el catálogo de Unity asociado en la pestaña Propiedades, también se aplica inverso.

Captura de pantalla de la búsqueda del catálogo de Unity asociado con el origen de Azure Databricks.

Linaje

Al examinar un recurso de Azure Databricks determinado, puede ver los cuadernos que han capturado el linaje.

Vaya a la pestaña recurso -> linaje; puede ver el linaje en el recurso de Azure Databricks Notebook o en el recurso de tabla/vista cuando corresponda.

Captura de pantalla de los cuadernos de exploración presentes en el recurso de área de trabajo del catálogo de Unity de Azure Databricks asociado.

Captura de pantalla del linaje del cuaderno presente en el recurso de área de trabajo del catálogo de Unity de Azure Databricks asociado.

Escenarios de linaje admitidos

  • Lineage es compatible con tablas y vistas cuando se conectan a través de cuadernos de Databricks dentro del catálogo de Unity.

  • El linaje solo aparece para los objetos examinados a través de Microsoft Purview. Todos los recursos relacionados deben examinarse para formar un gráfico de linaje completo. Asegúrese de que todas las áreas de trabajo de Databricks con cuadernos pertinentes se incluyen en los exámenes de Microsoft Purview.

Limitaciones del linaje

  • Cuando los cuadernos se ejecutan a través de trabajos de Databricks, es posible que no se capture el linaje de nivel de columna.
  • Microsoft Purview solo muestra el linaje parcial si no se examinan todos los objetos implicados en un flujo de datos. Por ejemplo, si un cuaderno del área de trabajo A escribe datos en una tabla del área de trabajo B, pero Microsoft Purview examina solo el área de trabajo A, el linaje mostrará el cuaderno, pero no la tabla de destino, lo que da como resultado un linaje incompleto.
  • Si un servicio externo desencadena un cuaderno (por ejemplo, Azure Data Factory canalización [ADF] que llama a un trabajo de Databricks), el linaje no reflejará esa dependencia en Microsoft Purview.
    • En este caso, no se muestra el linaje entre los conjuntos de datos de ADF y los recursos de Databricks.
    • Solo se captura el linaje integrado en los cuadernos de Databricks.

Falta el escenario de linaje

La extracción de linaje es pasiva; Microsoft Purview solo ingiere lo que se registra y se puede acceder a través de la tabla del sistema del catálogo de Unity.

  • Consulte las secciones anteriores para asegurarse de que se admite el escenario de linaje.
  • Valide que las tablas del sistema de linaje del catálogo de Unity (system.access.table_lineage, system.access.column_lineage) se rellenan correctamente.
  • Genere una incidencia de soporte técnico si sigue teniendo problemas.

Consulte la sección funcionalidades admitidas en los escenarios de linaje del catálogo de Databricks Unity compatibles. Para obtener más información sobre el linaje en general, consulte guía del usuario de linaje y linaje de datos.

Preguntas más frecuentes (P+F)

¿Microsoft Purview captura el linaje de nivel de columna del catálogo de Unity?

Microsoft Purview puede capturar el linaje tanto en el nivel de tabla o vista del catálogo de Unity como en el nivel de columna.

No veo linaje de nivel de columna, ¿qué está pasando?

El linaje de nivel de columna se genera cuando el cuaderno se ejecuta desde un clúster y no se genera a través de un almacén de SQL.

Recibo un error de tiempo de espera, ¿qué hago?

Cuando hay un gran volumen de recursos en el área de trabajo, el examen podría no completarse. En este caso, puede limitar el examen a algunos catálogos a la vez, lo que reducirá el volumen de recursos por examen y permitirá que los exámenes se completen.

Acabo de ejecutar mi cuaderno, pero Microsoft Purview no capturó el linaje. ¿Qué pasa?

Es posible que databricks tarde unos minutos en actualizar la información de linaje en sus tablas del sistema después de la ejecución del cuaderno. Microsoft Purview podrá capturar el linaje una vez que se actualicen las tablas del sistema.

Pasos siguientes

Ahora que el origen está registrado, use las siguientes guías para obtener más información sobre Microsoft Purview y sus datos: