Compartir a través de


Conectar con tablas Delta en Azure Data Lake Storage

Conéctese a los datos en tablas Delta y tráigalos Dynamics 365 Customer Insights - Data.

Delta es un término introducido con Delta Lake, la base para almacenar datos y tablas en Databricks Lakehouse Platform. Delta Lake es una capa de almacenamiento de código abierto que aporta transacciones ACID (atomicidad, coherencia, aislamiento y durabilidad) a cargas de trabajo de big data. Para obtener más información, consulte la página de la documentación de Delta Lake.

Razones clave para conectarse a datos almacenados en formato Delta:

  • Importe directamente datos formateados en Delta para ahorrar tiempo y esfuerzo.
  • Elimine los costos de computación y almacenamiento asociados con la transformación y el almacenamiento de una copia de los datos de su lago.
  • Mejora automáticamente la fiabilidad de la ingesta de datos a Customer Insights - Data proporcionada por el control de versiones Delta.

Requisitos previos

  • Azure Data Lake Storage debe estar en el mismo inquilino y región de Azure que Customer Insights - Data.

  • La entidad de seguridad de Customer Insights - Data debe tener permisos de Colaborador de datos de Storage Blob para acceder a la cuenta de almacenamiento. Para más información, consulte Otorgar permisos a la entidad de servicio para acceder a la cuenta de almacenamiento.

  • El usuario que configura o actualiza el origen de datos necesita al menos permisos de Storage Blob Data Lector en la cuenta Azure Data Lake Storage.

  • Los datos almacenados en servicios en línea pueden almacenarse en una ubicación diferente a la que se procesan o almacenan. Al importar datos almacenados en servicios en línea, o conectarse a ellos, acepta que los datos pueden transferirse y almacenarse. Obtenga más información en el Centro de confianza de Microsoft.

  • Las tablas Delta deben estar en una carpeta en el contenedor de almacenamiento y no pueden estar en el directorio raíz del contenedor. Por ejemplo:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Los datos de su Azure Data Lake Storage deben estar en tablas Delta. Customer Insights - Data se basa en la propiedad de versión en el historial de la tabla para identificar los últimos cambios para el procesamiento incremental.

Conéctese a los datos de Delta desde Azure Data Lake Storage

  1. Vaya a Datos>Orígenes de datos.

  2. Seleccione Agregar un origen de datos.

  3. Seleccione tablas de Azure Data Lake Storage.

    Cuadro de diálogo para introducir detalles de conexión para Delta Lake.

  4. Escriba un Nombre de origen de datos y una Descripción opcional. Se hace referencia al nombre en los procesos posteriores y no es posible cambiarlo después de crear el origen de datos.

  5. Elija una de las siguientes opciones para Conecte su almacenamiento usando.

    • Suscripción Azure: seleccione Suscripción y luego el Grupo de recursos y Cuenta de almacenamiento.
    • Recurso Azure: Introduzca el Id. de recurso.
  6. Opcionalmente, si desea ingerir datos de una cuenta de almacenamiento a través de Azure Private Link, seleccione Habilitar Private Link. Para obtener más información, consulte Private Links.

  7. Elija el nombre del Contenedor que contiene la carpeta de sus datos y seleccione Siguiente.

  8. Navegue hasta la carpeta que contiene los datos en tablas Delta y selecciónela. A continuación, seleccione Siguiente. Aparece una lista de tablas disponibles.

  9. Seleccione las tablas analíticas que desee incluir.

  10. Para tablas seleccionadas donde no se ha definido una clave principal, Obligatorio aparece debajo de Clave primaria. Para cada una de estas tablas:

    1. Seleccione Obligatorio. El panel Editar tabla aparece.
    2. Elija la Clave principal. La clave principal es un atributo exclusivo de la tabla. Para que un atributo pueda ser una clave principal válida, no debe incluir valores duplicados, no deben faltar valores ni debe haber valores nulos. Los atributos de tipo de datos de cadena, entero y GUID se admiten como claves principales.
    3. Seleccione Cerrar para guardar y cerrar el panel.

    Cuadro de diálogo que muestra Obligatorio para la clave principal

  11. Para habilitar la creación de perfiles de datos en cualquiera de las columnas, seleccione el número de Columnas para la tabla. Aparece la página Administrar atributos.

    Cuadro de diálogo para seleccionar el perfilado de datos.

    1. Seleccione Perfiles de datos para toda la tabla o para columnas específicas. De forma predeterminada, ninguna tabla está habilitada para la creación de perfiles de datos.
    2. Seleccione Listo.
  12. Seleccione Guardar. La página Orígenes de datos se abre y muestra el nuevo origen de datos en estado Actualizando.

    Propina

    Existen estados para tareas y procesos. La mayoría de los procesos dependen de otros procesos ascendentes, como las fuentes de datos y actualizaciones de perfiles de datos.

    Seleccione el estado para abrir el panel Detalles de progreso y vea el progreso de las tareas. Para cancelar el trabajo, seleccione Cancelar trabajo en la parte inferior del panel.

    En cada tarea, puede seleccionar Ver detalles para obtener más información sobre el progreso, como el tiempo de procesamiento, la fecha del último procesamiento y los errores y advertencias aplicables asociados con la tarea o el proceso. Seleccione Ver el estado del sistema en la parte inferior del panel para ver otros procesos en el sistema.

La carga de datos puede llevar tiempo. Una vez completada una actualización, se pueden revisar los datos ingeridos en la página Tablas.

Administrar cambios de esquema

Cuando se agrega o elimina una columna del esquema de carpetas Delta de origen de datos, el sistema ejecuta una actualización completa de los datos. Una actualización completa tarda más en procesar todos los datos que actualizaciones incrementales.

Agregar una columna

Cuando se agrega una columna a origen de datos, la información se agrega automáticamente a los datos en Customer Insights - Data una vez que se produce una actualización. Si ya configuró la unificación para la tabla, la nueva columna debe agregarse al proceso de unificación.

  1. Desde el paso Datos de los clientes, seleccione Seleccionar tablas y columnas y seleccione la nueva columna.

  2. En el paso Vista de datos unificada, asegúrese de que la columna no esté excluida del perfil del cliente. Seleccione Excluido y vuelva a agregar la columna.

  3. En el paso Ejecutar actualizaciones del perfil unificado, seleccione Unificar perfiles y dependencias de clientes.

Cambiar o quitar una columna

Cuando se elimina una columna de origen de datos, el sistema busca dependencias en otros procesos. Si hay una dependencia en las columnas, el sistema detiene la actualización y proporciona un error que indica que las dependencias deben eliminarse. Estas dependencias se muestran en una notificación para ayudarle a localizarlas y eliminarlas.

Validar un cambio de esquema

Después de que origen de datos se actualice, vaya a la página Datos>Tablas. Seleccione la tabla para origen de datos y verifique el esquema.

Viaje en el tiempo y actualización de datos del lago Delta

El viaje en el tiempo de Delta Lake es la capacidad de consultar versiones de tablas en función de una marca de tiempo o un número de versión. Los cambios en las carpetas delta tienen versiones y Customer Insights - Data utiliza las versiones de la carpeta Delta para realizar un seguimiento de qué datos procesar. En una actualización normal de la tabla delta, los datos se extraen de todas las versiones de la tabla de datos desde la última actualización. Mientras todas las versiones estén presentes, Customer Insights - Data puede procesar solo los elementos modificados y ofrecer resultados más rápidos. Más ifnormación sobre el viaje en el tiempo.

Por ejemplo, si Customer Insights – Data se sincronizó por última vez con la versión 23 de los datos de su carpeta Delta, espera encontrar la versión 23 y posiblemente versiones posteriores disponibles. Si las versiones de datos esperadas no están disponibles, la sincronización de datos falla y requiere una actualización manual de datos completos. La sincronización de datos puede fallar si los datos de su carpeta Delta se eliminaron y luego se volvieron a crear. O si Customer Insights - Data no se pudo conectar a sus carpetas Delta durante un período prolongado mientras avanzaban las versiones.

Para evitar la necesidad de una actualización completa de los datos, le recomendamos que mantenga un historial razonable, como por ejemplo 15 días.

Ejecute manualmente una actualización completa de datos en una carpeta de tabla Delta

Una actualización completa toma todos los datos de una tabla en formato Delta y los recarga desde la versión cero (0) de la tabla Delta. Los cambios en el esquema de la carpeta Delta desencadenan una actualización completa automática. Para activar manualmente una actualización completa, realice los siguientes pasos.

  1. Vaya a Datos>Orígenes de datos.

  2. Seleccione el origen de datos de Tablas Delta de Azure Data Lake.

  3. Seleccione la tabla que desea actualizar. El panel Editar tabla aparece.

    Edite el panel de la tabla para seleccionar una actualización completa única.

  4. Seleccione Ejecutar una actualización completa única.

  5. Seleccione Guardar para ejecutar la actualización. La página Orígenes de datos se abre y muestra el origen de datos en estado Actualizando, pero solo se actualiza la tabla seleccionada.

  6. Repita el proceso para otras tablas, si corresponde.

Error de sincronización de datos

La sincronización de datos puede fallar si los datos de su carpeta Delta se eliminaron y luego se volvieron a crear. O si Customer Insights - Data no se pudo conectar a sus carpetas Delta durante un período prolongado mientras avanzaban las versiones. Para minimizar el impacto cuando un error intermitente en la canalización de datos crea la necesidad de una actualización completa, le recomendamos que mantenga un historial razonable, como 15 días.

Pasos siguientes