Compartir por


Conéctese ás táboas Delta en Azure Data Lake Storage

Conéctate aos datos das táboas Delta e introdúceos Dynamics 365 Customer Insights - Data.

Delta é un termo introducido con Delta Lake, a base para almacenar datos e táboas na plataforma Databricks Lakehouse. Delta Lake é un almacenamento de código aberto capa que achega transaccións ACID (atomicidade, coherencia, illamento e durabilidade) ás cargas de traballo de big data. Para obter máis información, consulte a Páxina de documentación de Delta Lake.

Razóns clave para conectarse aos datos almacenados en formato Delta:

  • Importa directamente datos con formato Delta para aforrar tempo e esforzo.
  • Elimina os custos de computación e almacenamento asociados á transformación e almacenamento dunha copia dos datos da túa casa do lago.
  • Mellora automaticamente a fiabilidade da inxestión de datos a Customer Insights - Data o proporcionado polo versión de Delta.

Requisitos previos

  • O Azure Data Lake Storage debe estar no mesmo inquilino e rexión de Azure que Customer Insights - Data.

  • O Customer Insights - Data principal do servizo debe ter permisos de Colaborador de datos de blob de almacenamento para acceder á conta de almacenamento. Para obter máis información, consulta Conceder permisos ao principal do servizo para acceder á conta de almacenamento.

  • O usuario que configura ou actualiza o orixe de datos necesita polo menos permisos de Lector de datos de Blob de almacenamento na conta Azure Data Lake Storage .

  • Os datos almacenados nos servizos en liña poden almacenarse nun lugar diferente do que se procesan ou almacenan os datos. Ao importar ou conectarse a datos almacenados nos servizos en liña, acepta que os datos se poidan transferir.  Obtén máis información no Centro de confianza de Microsoft.

  • Customer Insights - Data admite a versión 2 do lector de Databricks. Non se admiten as táboas Delta que usan funcións que requiren o lector Databricks versión 3 ou superior. Máis información: Como xestiona Databricks a compatibilidade das funcións de Delta Lake?

  • As táboas Delta deben estar nun cartafol do contedor de almacenamento e non poden estar no directorio raíz do contenedor. Por exemplo:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Os datos do teu Azure Data Lake Storage deben estar en táboas Delta. Customer Insights - Data depende da propiedade da versión do historial da táboa para identificar os últimos cambios para o procesamento incremental.

  • Customer Insights - Data admite a versión 2 do lector de Databricks. Non se admiten as táboas Delta que usan funcións que requiren o lector Databricks versión 3 ou superior. Máis información: Como xestiona Databricks a compatibilidade das funcións de Delta Lake?

Conéctese aos datos de Delta desde Azure Data Lake Storage

  1. Vaia a Datos>Fontes de datos.

  2. Seleccione Engadir un orixe de datos.

  3. Seleccione Táboas de Azure Data Lake Delta.

    Cadro de diálogo para introducir detalles de conexión para Delta Lake.

  4. Introduce un orixe de datos nome e unha Descrición opcional. O nome faise referencia nos procesos posteriores e non é posible cambialo despois de crear o orixe de datos.

  5. Escolle unha das seguintes opcións para Conectar o teu almacenamento mediante.

    • Subscrición de Azure: seleccione a Subscrición e, a continuación, o Grupo de recursos e Conta de almacenamento.
    • Recurso de Azure: introduza o Identificación do recurso.
  6. Opcionalmente, se queres inxerir datos dunha conta de almacenamento a través dunha ligazón privada de Azure, selecciona Activar ligazón privada. Para obter máis información, consulte Ligazóns privadas.

  7. Escolle o nome do Contedor que contén o cartafol dos teus datos e selecciona Seguinte.

  8. Navega ata o cartafol que contén os datos nas táboas Delta e selecciónao. A continuación, seleccione Seguinte. Móstrase unha lista de táboas dispoñibles.

  9. Seleccione as táboas que quere incluír.

  10. Para as táboas seleccionadas nas que non se definiu unha chave primaria, Obrigatorio móstrase en Chave principal. Para cada unha destas táboas:

    1. Seleccione Requerido. Móstrase o panel Editar táboa .
    2. Escolla a chave principal. A chave primaria é un atributo exclusivo da táboa. Para que un atributo sexa unha clave primaria válida, non debe incluír valores duplicados, valores perdidos ou valores nulos. Os atributos de tipo de datos de cadea, enteiro e GUID son compatibles como claves primarias.
    3. Seleccione Pechar para gardar e pechar o panel.

    Cadro de diálogo que mostra Requirido para a chave primaria

  11. Para activar o perfil de datos en calquera das columnas, seleccione o número de Columnas para a táboa. Móstrase a páxina Xestionar atributos.

    Cadro de diálogo para seleccionar o perfil de datos.

    1. Seleccione Perfil de datos para toda a táboa ou para columnas específicas. De forma predeterminada, non se activa ningunha táboa para o perfil de datos.
    2. Seleccione Feito.
  12. Seleccione Gardar. Ábrese a páxina Fontes de datos que mostra o novo orixe de datos no estado Actualizándose .

    Suxestión

    Hai estados para tarefas e procesos. A maioría dos procesos dependen doutros procesos anteriores, como as fontes de datos e os perfís de datos actualizacións.

    Seleccione o estado para abrir o panel Detalles do progreso e ver o progreso das tarefas. Para cancelar o traballo, selecciona Cancelar traballo na parte inferior do panel.

    Debaixo de cada tarefa, pode seleccionar Ver detalles para obter máis información sobre o progreso, como o tempo de procesamento, a última data de procesamento e os erros e avisos aplicables asociados á tarefa ou proceso. . Seleccione Ver estado do sistema na parte inferior do panel para ver outros procesos do sistema.

A carga de datos pode levar moito tempo. Despois dunha actualización correcta, os datos inxeridos pódense revisar desde a páxina Táboas .

Xestionar cambios de esquema

Cando se engade ou elimina unha columna do esquema dun cartafol Delta orixe de datos, o sistema executa unha actualización completa dos datos. As actualizacións completas tardan máis en procesar todos os datos que as actualizacións incrementais.

Engadir unha columna

Cando se engade unha columna ao orixe de datos, a información engádese automaticamente aos datos en Customer Insights - Data unha vez que se actualice. Se xa configurou a unificación para a táboa, debe engadirse a nova columna ao proceso de unificación.

  1. Desde Datos do cliente paso, seleccione Seleccionar táboas e columnas e seleccione a nova columna.

  2. Na vista de datos unificados paso, asegúrese de que a columna non estea excluída do perfil do cliente. Seleccione Excluído e lea a columna.

  3. No Executar actualizacións do perfil unificado paso, seleccione Unificar perfís e dependencias de clientes.

Cambiar ou eliminar unha columna

Cando se elimina unha columna dun orixe de datos, o sistema comproba as dependencias noutros procesos. Se hai unha dependencia nas columnas, o sistema detén a actualización e proporciona un erro que indica que se deben eliminar as dependencias. Estas dependencias móstranse nunha notificación para axudarche a localizalas e eliminalas.

Validar un cambio de esquema

Despois de que se actualice orixe de datos, vai á páxina Datos>Táboas . Seleccione a táboa para o orixe de datos e verifique o esquema.

Viaxes no tempo do lago Delta e actualizacións de datos

A viaxe no tempo do lago Delta é a capacidade de consultar a través de versións de táboa baseadas nunha marca de tempo ou número de versión. Os cambios dos cartafoles Delta son versionados e Customer Insights - Data utiliza as versións dos cartafoles Delta para facer un seguimento dos datos que hai que procesar. Nunha actualización regular da táboa delta, os datos son extraídos de todas as versións da táboa de datos desde a última actualización. Sempre que todas as versións estean presentes, Customer Insights - Data pode procesar só os elementos modificados e ofrecer resultados máis rápidos. Obtén máis información sobre as viaxes no tempo.

Por exemplo, se Customer Insights - Data se sincronizou por última vez coa versión 23 dos datos do cartafol Delta, espera atopar a versión 23 e posiblemente versións posteriores dispoñibles. Se as versións de datos esperadas non están dispoñibles, a sincronización de datos falla e require unha actualización manual completa de datos. A sincronización de datos pode fallar se os datos do cartafol Delta foron eliminados e despois recreados. Ou se Customer Insights - Data non se puido conectar aos teus cartafoles Delta durante un período prolongado mentres as versións avanzaban.

Para evitar a necesidade dunha actualización completa dos datos, recomendámosche que manteñas un atraso razoable do historial, como 15 días.

Executa manualmente unha actualización completa de datos nun cartafol da táboa Delta

Unha actualización completa toma todos os datos dunha táboa en formato Delta e recárgaos desde a versión cero da táboa Delta (0). Os cambios no esquema do cartafol Delta activan unha actualización completa automática. Para activar manualmente unha actualización completa, siga os seguintes pasos.

  1. Vaia a Datos>Fontes de datos.

  2. Seleccione as táboas de Azure Data Lake Delta orixe de datos.

  3. Seleccione a táboa que quere actualizar. Móstrase o panel Editar táboa .

    Edita o panel da táboa para seleccionar unha actualización completa única.

  4. Seleccione Executar unha única actualización completa.

  5. Seleccione Gardar para executar a actualización. Ábrese a páxina Fontes de datos que mostra o estado de orixe de datos en Actualización , pero só se está a actualizar a táboa seleccionada.

  6. Repita o proceso para outras táboas, se é o caso.

Fallo de sincronización de datos

A sincronización de datos pode fallar se os datos do cartafol Delta foron eliminados e despois recreados. Ou se Customer Insights - Data non se puido conectar aos teus cartafoles Delta durante un período prolongado mentres as versións avanzaban. Para minimizar o impacto cando un fallo intermitente da canalización de datos crea a necesidade dunha actualización completa, recomendámosche que manteñas un atraso de historial razoable, como 15 días.

Pasos seguintes