Łączenie z tabelami Delta w Azure Data Lake Storage

Połącz z danymi w tabelach Delta i przejmij je do Dynamics 365 Customer Insights - Data.

Delta jest terminem wprowadzonym z Delta Lake, który jest podstawą do przechowywania danych i tabel na platformie Databricks Lakehouse Platform. Tym elementem jest warstwą przechowywania open-source, która zapewnia transakcje ACID (atomiczność, spójność, izolacja i trwałość) do dużych prac dotyczących danych. Aby uzyskać więcej informacji, zobacz Strona dokumentacji Delta Lake.

Kluczowe powody łączenia się z danymi przechowywanymi w formacie Delta:

  • Bezpośrednio importuj dane w formacie Delta, aby zaoszczędzić czas i wysiłek.
  • Wyeliminuj koszty obliczeń i przechowywania związane z przekształcaniem i przechowywaniem kopii danych Lakehouse.
  • Automatycznie poprawiaj niezawodność pozyskiwania danych dostarczanych do Customer Insights - Data przez przechowywanie wersji Delta.

Wymagania wstępne

  • Musi Azure Data Lake Storage znajdować się w tym samym dzierżawie i regionie Azure co Customer Insights - Data.

  • Główna usługa Customer Insights - Data musi mieć uprawnienia dostępu do współautor obiektów Blob magazynu, aby uzyskać dostęp do konta magazynu. Aby uzyskać więcej informacji, zobacz Nadaj uprawnienia usłudze głównej w celu uzyskania dostępu do konta magazynu.

  • Użytkownik konfigurujący lub aktualizujący źródło danych musi mieć co najmniej uprawnienia do magazynu Czytelnik obiektów blob dla tego konta Azure Data Lake Storage.

  • Dane przechowywane w usługach online mogą być przechowywane w innej lokalizacji niż ta, w której dane są przetwarzane lub przechowywane. Importując lub łącząc się z danymi w usługach online, użytkownik zgadza się, że dane mogą być przenoszone.  Więcej informacji znajduje się w Centrum zaufania Microsoft.

  • Tabele Delta muszą znajdować się w folderze w kontenerze przechowania i nie mogą znajdować się w katalogu głównym kontenerów. Na przykład:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Dane w Azure Data Lake Storage muszą być w tabelach Delta. Customer Insights - Data opiera się na właściwości wersji w historii tabeli w celu identyfikacji najnowszych zmian dla wzrastającego przetwarzania.

Łączenie się z danymi z Azure Data Lake Storage

  1. Przejdź do Dane>Źródła danych.

  2. Wybierz Dodaj źródło danych.

  3. Wybierz tabele Azure Data Lake Delta.

    Okno dialogowe, aby wprowadzić szczegóły połączenia dla Delta Lake.

  4. Wprowadź Nazwa źródła danych dla źródła danych i opcjonalnie Opis. Nazwa ta jest przywoływana w dalszych procesach i nie można jej zmienić po utworzeniu źródła danych.

  5. Wybierz jedną z następujących opcji Połącz używanie magazynu.

    • Subskrypcja Azure: wybierz Subskrypcję, a następnie konto Grupa zasobów i Konto magazynu.
    • Zasób Azure: wprowadź Identyfikator zasoby.
  6. Opcjonalnie, jeśli chcesz uzyskać dane z konta magazynu za pośrednictwem łącza Azure Private Link, wybierz opcję Włącz łącze prywatne. Aby uzyskać więcej informacji, zobacz Łącza Private Links.

  7. Wybierz nazwę kontenera zawierającego folder danych i wybierz opcję Dalej.

  8. Przejdź do folderu zawierającego dane w tabelach Delta i zaznacz go. Następnie wybierz Dalej. Wyświetli się lista dostępnych tabel.

  9. Wybierz tabele, które chcesz uwzględnić.

  10. W przypadku wybranych tabel, w których nie zdefiniowano klucza podstawowego, w obszarze Klucz podstawowy wyświetla się informacja Wymagane. Dla każdej z tych tabel:

    1. Wybierz Wymagane. Zostanie wyświetlony panel Edytowanie tabeli.
    2. Wybierz Klucz podstawowy. Klucz podstawowy jest atrybutem unikalnym dla danej tabeli. Aby atrybut był prawidłowym kluczem podstawowym, nie może zawierać zduplikowanych wartości, brakujących wartości ani wartości null. Atrybuty typu ciąg, liczba całkowita i GUID są obsługiwane jako klucze podstawowe.
    3. Wybierz Zamknij, by zapisać i zamknąć panel.

    Okno dialogowe przedstawiające wymaganie dla klucza podstawowego

  11. Aby włączyć profilowanie danych dla dowolnej kolumny, wybierz liczbę kolumn dla tabeli. Zostanie wyświetlona strona Zarządzanie atrybutami.

    Okno dialogowe do wybrania profilowania danych.

    1. Wybierz profilowanie danych dla całej tabeli lub określonych kolumn. Domyślnie żadne tabele nie są włączone do profilowania danych.
    2. Wybierz Gotowe.
  12. Wybierz pozycję Zapisz. Zostanie otwarta strona Źródła danych z nowymi źródło danych Odświeżania.

    Napiwek

    Zadania i procesy mają swoje stany. Większość procesów zależy od innych procesów nadrzędnych, takich jak źródła danych i odświeżenia profilowania danych.

    Wybierz stan obok okienka Szczegóły postępu, aby wyświetlić postęp zadania. Aby anulować zadanie, wybierz opcję Anuluj zadanie w dolnej części okienka.

    Pod każdym zadaniem możesz wybrać Zobacz szczegóły, aby uzyskać więcej informacji o postępie, takich jak czas przetwarzania, data ostatniego przetwarzania oraz wszystkie odpowiednie błędy i ostrzeżenia związane z zadaniem lub procesem. Wybierz Wyświetl stan systemu u dołu panelu, aby wyświetlić inne procesy w systemie.

Ładowanie danych może zająć czas. Po pomyślnym odświeżeniu dane z pobierania można przejrzeć na stronie Tabele.

Zarządzanie zmianami schematu

Po dodaniu lub usunięciu kolumny ze schematu źródła danych folderów Delta system uruchamia pełne odświeżenie danych. Pełne odświeżenie wszystkich danych trwa dłużej niż odświeżenie przyrostowe.

Dodaj kolumnę

Po dodaniu kolumny do źródło danych informacje w Customer Insights - Data zostaną automatycznie dodane do danych po odświeżeniu. Jeśli skonfigurowano już ujednolicenie tabeli, nowa kolumna musi zostać dodana do procesu ujednolicenia.

  1. Z kroku Dane klienta wybierz Wybierz tabele i kolumny i wybierz nową kolumnę.

  2. Na etapie Ujednolicony widok danych upewnij się, że kolumna nie jest wykluczona z profilu klienta. Wybierz Wykluczone i odczytaj kolumnę.

  3. W kroku Uruchom aktualizacje ujednoliconego profilu wybierz opcję Ujednolić profile klientów i zależności.

Zmień lub usuń kolumnę

Po usunięciu kolumny z pola źródło danych system sprawdza zależności w innych procesach. Jeśli istnieje zależność w kolumnach, system zatrzymuje odświeżanie i zapewnia błąd, oznaczający, że zależności muszą być usunięte. Te zależności są wyświetlane w powiadomieniu w celu ułatwiające ich znalezienie i usunięcie.

Zweryfikuj zmianę schematu

Po odświeżeniu źródło danych przejdź do strony Dane>Tabele. Wybierz tabelę dla źródło danych i sprawdź schemat.

Podróże w czasie i odświeżanie danych w Delta lake

Podróże w czasie w Delta lake to możliwość wysyłania zapytań do wersji tabeli na podstawie sygnatury czasowej lub numeru wersji. Zmiany w folderach Delta są wersjonowane i Customer Insights - Data używa wersji folderów Delta do śledzenia, jakie dane należy przetworzyć. W przypadku zwykłego odświeżania tabeli delta dane są pobierane ze wszystkich wersji tabeli danych od czasu ostatniego odświeżenia. Dopóki dostępne są wszystkie wersje, Customer Insights - Data może przetwarzać tylko zmienione elementy i dostarczać szybsze wyniki. Dowiedz się więcej o podróżach czasu.

Na przykład, jeśli Customer Insights – Data zostały ostatnio zsynchronizowane z wersją 23 danych folderu Delta, oczekuje się, że będzie dostępna wersja 23 i ewentualnie kolejne wersje. Jeśli oczekiwane wersje danych nie są dostępne, synchronizacja danych nie powiedzie się i wymaga ręcznego pełnego odświeżenia danych. Synchronizacja danych może się nie powieść, jeśli dane w folderze Delta zostały usunięte, a następnie utworzone na nowo. Albo jeśli Customer Insights - Data nie może połączyć się z folderami Delta przez dłuższy czas, gdy wersje były zaawansowane.

Aby uniknąć konieczności pełnego odświeżania danych, zalecamy utrzymywanie rozsądnego rejestru historii, np. 15 dni.

Ręcznie uruchom pełne odświeżenie danych w folderze tabeli Delta

Pełne odświeżenie wymaga załadowania wszystkich danych ze tabeli w formacie delta i ponownego załadowania tabeli w wersji zero (0). Zmiany w schemacie folderu Delta powodują automatyczne pełne odświeżenie. Aby ręcznie uruchomić pełne odświeżanie, wykonaj następujące kroki.

  1. Przejdź do Dane>Źródła danych.

  2. Wybierz źródło danych Tabele Azure Data Lake Delta.

  3. Wybierz tabelę, którą chcesz odświeżyć. Zostanie wyświetlone okienko Edytowanie tabeli.

    Edytuj okienko tabeli, aby wybrać tylko raz pełne odświeżenie.

  4. Wybierz Uruchom jednorazowe pełne odświeżanie.

  5. Wybierz pozycję Zapisz, aby uruchomić odświeżanie. Zostanie otwarta strona Źródła danych ze źródłem danych w stanie Odświeżanie, ale odświeżanie dotyczy tylko wybranej tabeli.

  6. Powtórz ten proces w odniesieniu do innych tabel, jeśli ma to zastosowanie.

Błąd synchronizacji danych

Synchronizacja danych może się nie powieść, jeśli dane w folderze Delta zostały usunięte, a następnie utworzone na nowo. Albo jeśli Customer Insights - Data nie może połączyć się z folderami Delta przez dłuższy czas, gdy wersje były zaawansowane. Aby zminimalizować wpływ sporadycznej awarii potoku danych powodującej konieczność pełnego odświeżenia, zalecamy utrzymywanie odpowiedniego rejestru historii, na przykład 15 dni.

Następne kroki