Conectar con tablas Delta en Azure Data Lake Storage
Conéctese a los datos en tablas Delta y tráigalos Dynamics 365 Customer Insights - Data.
Razones clave para conectarse a datos almacenados en formato Delta:
- Importe directamente datos formateados en Delta para ahorrar tiempo y esfuerzo.
- Elimine los costos de computación y almacenamiento asociados con la transformación y el almacenamiento de una copia de los datos de su lago.
- Mejora automáticamente la fiabilidad de la ingesta de datos a Customer Insights - Data proporcionada por el control de versiones Delta.
Funciones y versiones de Databricks compatibles
Customer Insights - Data admite funciones de Databricks con una 'minReaderVersion' de 2 o anterior. Las funciones de Databricks que requieren Databricks Lector versión 3 o posterior no son compatibles. La tabla muestra las características compatibles y no compatibles de Databricks.
Características admitidas | Funciones no compatibles |
---|---|
Funcionalidad básica | Vectores de eliminación |
Cambiar la fuente de datos | Agrupamiento de líquidos |
Comprobar restricciones | Características de la tabla de escritura |
Asignación de columnas | Marca de tiempo NTZ |
Generar columnas | Ampliación de tipo |
Columnas de identidad | Variante |
Seguimiento de filas | |
Características de la tabla de lectura | |
Uniforme |
Obtenga más información: ¿Cómo gestiona Databricks la compatibilidad de funciones de Delta Lake?.
Requisitos previos
Azure Data Lake Storage debe estar en el mismo inquilino y región de Azure que Customer Insights - Data.
La entidad de seguridad de Customer Insights - Data debe tener permisos de Colaborador de datos de Storage Blob para acceder a la cuenta de almacenamiento. Para más información, consulte Otorgar permisos a la entidad de servicio para acceder a la cuenta de almacenamiento.
El usuario que configura o actualiza el origen de datos necesita al menos permisos de Storage Blob Data Lector en la cuenta Azure Data Lake Storage.
Los datos almacenados en servicios en línea pueden almacenarse en una ubicación diferente a la que se procesan o almacenan. Al importar datos almacenados en servicios en línea, o conectarse a ellos, acepta que los datos pueden transferirse y almacenarse. Obtenga más información en el Centro de confianza de Microsoft.
Customer Insights - Data admite Databricks Lector versión 2. No se admiten las tablas delta que usan características que requieren Databricks Lector versión 3 o superior. Obtenga más información: Funciones compatibles con Databricks.
Las tablas Delta deben estar en una carpeta en el contenedor de almacenamiento y no pueden estar en el directorio raíz del contenedor. Por ejemplo:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
- Los datos de su Azure Data Lake Storage deben estar en tablas Delta. Customer Insights - Data se basa en la propiedad de versión en el historial de la tabla para identificar los últimos cambios para el procesamiento incremental.
Conéctese a los datos de Delta desde Azure Data Lake Storage
Vaya a Datos>Orígenes de datos.
Seleccione Agregar un origen de datos.
Seleccione tablas de Azure Data Lake Storage.
Escriba un Nombre de origen de datos y una Descripción opcional. Se hace referencia al nombre en los procesos posteriores y no es posible cambiarlo después de crear el origen de datos.
Elija una de las siguientes opciones para Conecte su almacenamiento usando.
- Suscripción de Azure: Seleccionar la Suscripción y luego el Grupo de recursos y la Cuenta de almacenamiento.
- Recurso de Azure: Ingrese el Id. de recurso.
Opcionalmente, si desea ingerir datos de una cuenta de almacenamiento a través de Azure Private Link, seleccione Habilitar Private Link. Para obtener más información, consulte Private Links.
Elija el nombre del Contenedor que contiene la carpeta de sus datos y seleccione Siguiente.
Navegue hasta la carpeta que contiene los datos en tablas Delta y selecciónela. A continuación, seleccione Siguiente. Aparece una lista de tablas disponibles.
Seleccione las tablas analíticas que desee incluir.
Para tablas seleccionadas donde no se define una clave principal, Obligatorio aparece debajo de Clave primaria. Para cada una de estas tablas:
- Seleccione Obligatorio. El panel Editar tabla aparece.
- Elija la Clave principal. La clave principal es un atributo exclusivo de la tabla. Para que un atributo pueda ser una clave principal válida, no debe incluir valores duplicados, no deben faltar valores ni debe haber valores nulos. Los atributos de tipo de datos de cadena, entero y GUID se admiten como claves principales.
- Seleccione Cerrar para guardar y cerrar el panel.
Para habilitar la creación de perfiles de datos en cualquiera de las columnas, seleccione el número de Columnas para la tabla. Aparece la página Administrar atributos.
- Seleccione Perfiles de datos para toda la tabla o para columnas específicas. De forma predeterminada, ninguna tabla está habilitada para la creación de perfiles de datos.
- Seleccione Listo.
Seleccione Guardar. La página Orígenes de datos se abre y muestra el nuevo origen de datos en estado Actualizando.
Propina
Existen estados para tareas y procesos. La mayoría de los procesos dependen de otros procesos ascendentes, como las fuentes de datos y actualizaciones de perfiles de datos.
Seleccione el estado para abrir el panel Detalles de progreso y vea el progreso de las tareas. Para cancelar el trabajo, seleccione Cancelar trabajo en la parte inferior del panel.
En cada tarea, puede seleccionar Ver detalles para obtener más información sobre el progreso, como el tiempo de procesamiento, la fecha del último procesamiento y los errores y advertencias aplicables asociados con la tarea o el proceso. Seleccione Ver el estado del sistema en la parte inferior del panel para ver otros procesos en el sistema.
La carga de datos puede llevar tiempo. Una vez completada una actualización, se pueden revisar los datos ingeridos en la página Tablas.
Administrar cambios de esquema
Cuando se agrega o elimina una columna del esquema de carpetas Delta de origen de datos, el sistema ejecuta una actualización completa de los datos. Una actualización completa tarda más en procesar todos los datos que actualizaciones incrementales.
Agregar una columna
Cuando se agrega una columna a origen de datos, la información se agrega automáticamente a los datos en Customer Insights - Data una vez que se produce una actualización. Si la unificación ya está configurada para la tabla, la nueva columna debe agregarse al proceso de unificación.
Desde el paso Datos de los clientes, seleccione Seleccionar tablas y columnas y seleccione la nueva columna.
En el paso Vista de datos unificada, asegúrese de que la columna no esté excluida del perfil del cliente. Seleccione Excluido y vuelva a agregar la columna.
En el paso Ejecutar actualizaciones del perfil unificado, seleccione Unificar perfiles y dependencias de clientes.
Cambiar o quitar una columna
Cuando se elimina una columna de origen de datos, el sistema busca dependencias en otros procesos. Si hay una dependencia en las columnas, el sistema detiene la actualización y proporciona un error que indica que las dependencias deben eliminarse. Estas dependencias se muestran en una notificación para ayudarle a localizarlas y eliminarlas.
Validar un cambio de esquema
Después de que origen de datos se actualice, vaya a la página Datos>Tablas. Seleccione la tabla para origen de datos y verifique el esquema.
Viaje en el tiempo y actualización de datos del lago Delta
El viaje en el tiempo de Delta Lake es la capacidad de consultar versiones de tablas en función de una marca de tiempo o un número de versión. Los cambios en las carpetas delta tienen versiones y Customer Insights - Data utiliza las versiones de la carpeta Delta para realizar un seguimiento de qué datos procesar. En una actualización normal de la tabla delta, los datos se extraen de todas las versiones de la tabla de datos desde la última actualización. Mientras todas las versiones estén presentes, Customer Insights - Data puede procesar solo los elementos modificados y ofrecer resultados más rápidos. Aprenda más sobre los viajes en el tiempo.
Por ejemplo, si Customer Insights – Data se sincronizó por última vez con la versión 23 de los datos de su carpeta Delta, espera encontrar la versión 23 y posiblemente versiones posteriores disponibles. Si las versiones de datos esperadas no están disponibles, la sincronización de datos falla y requiere una actualización manual de datos completos. La sincronización de datos puede fallar si los datos de su carpeta Delta se eliminaron y luego se volvieron a crear. O si Customer Insights - Data no se pudo conectar a sus carpetas Delta durante un período prolongado mientras avanzaban las versiones.
Para evitar la necesidad de una actualización completa de los datos, le recomendamos que mantenga un historial razonable, como por ejemplo 15 días.
Ejecute manualmente una actualización completa de datos en una carpeta de tabla Delta
Una actualización completa toma todos los datos de una tabla en formato Delta y los recarga desde la versión cero (0) de la tabla Delta. Los cambios en el esquema de la carpeta Delta desencadenan una actualización completa automática. Para activar manualmente una actualización completa, realice los siguientes pasos.
Vaya a Datos>Orígenes de datos.
Seleccione el origen de datos de Tablas Delta de Azure Data Lake.
Seleccione la tabla que desea actualizar. El panel Editar tabla aparece.
Seleccione Ejecutar una actualización completa única.
Seleccione Guardar para ejecutar la actualización. La página Orígenes de datos se abre y muestra el origen de datos en estado Actualizando, pero solo se actualiza la tabla seleccionada.
Repita el proceso para otras tablas, si corresponde.
Error de sincronización de datos
La sincronización de datos puede fallar si los datos de su carpeta Delta se eliminaron y luego se volvieron a crear. O si Customer Insights - Data no se pudo conectar a sus carpetas Delta durante un período prolongado mientras avanzaban las versiones. Para minimizar el impacto cuando un error intermitente en la canalización de datos crea la necesidad de una actualización completa, le recomendamos que mantenga un historial razonable, como 15 días.