Łączenie z tabelami Delta w Azure Data Lake Storage
Połącz z danymi w tabelach Delta i przejmij je do Dynamics 365 Customer Insights - Data.
Kluczowe powody łączenia się z danymi przechowywanymi w formacie Delta:
- Bezpośrednio importuj dane w formacie Delta, aby zaoszczędzić czas i wysiłek.
- Wyeliminuj koszty obliczeń i przechowywania związane z przekształcaniem i przechowywaniem kopii danych Lakehouse.
- Automatycznie poprawiaj niezawodność pozyskiwania danych dostarczanych do Customer Insights - Data przez przechowywanie wersji Delta.
Obsługiwane funkcje i wersje usługi Databricks
Customer Insights - Data obsługuje funkcje usługi Databricks z wartością "minReaderVersion" 2 lub starszą. Funkcje usługi Databricks, które wymagają czytelnika usługi Databricks w wersji 3 lub nowszej, nie są obsługiwane. W tabeli przedstawiono obsługiwane i nieobsługiwane funkcje usługi Databricks.
Obsługiwane funkcje | Nieobsługiwane funkcje |
---|---|
Podstawowa funkcjonalność | Wektory usuwania |
Zmienianie zestawienia danych | Grupowanie cieczy |
Sprawdzanie ograniczeń | Zapis funkcji tabeli |
Mapowanie kolumn | Znacznik czasuNTZ |
Generowanie kolumn | Poszerzanie typu |
Kolumny tożsamości | Wariant |
Śledzenie wierszy | |
Cechy stołu czytaj | |
Mundur |
Dowiedz się więcej: Jak usługa Databricks zarządza zgodnością funkcji usługi Delta Lake?.
Wymagania wstępne
Musi Azure Data Lake Storage znajdować się w tym samym dzierżawie i regionie Azure co Customer Insights - Data.
Główna usługa Customer Insights - Data musi mieć uprawnienia dostępu do współautor obiektów Blob magazynu, aby uzyskać dostęp do konta magazynu. Aby uzyskać więcej informacji, zobacz Nadaj uprawnienia usłudze głównej w celu uzyskania dostępu do konta magazynu.
Użytkownik konfigurujący lub aktualizujący źródło danych musi mieć co najmniej uprawnienia do magazynu Czytelnik obiektów blob dla tego konta Azure Data Lake Storage.
Dane przechowywane w usługach online mogą być przechowywane w innej lokalizacji niż ta, w której dane są przetwarzane lub przechowywane. Importując lub łącząc się z danymi w usługach online, użytkownik zgadza się, że dane mogą być przenoszone. Dowiedz się więcej w Centrum zaufania firmy Microsoft.
Customer Insights - Data Program Databricks obsługuje Czytelnik 2. Tabele nie są obsługiwane w przypadku funkcji wymagających użycia Czytelnik Databricks 3 lub wyższych. Dowiedz się więcej: Obsługiwane funkcje usługi Databricks.
Tabele Delta muszą znajdować się w folderze w kontenerze przechowania i nie mogą znajdować się w katalogu głównym kontenerów. Na przykład:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
- Dane w Azure Data Lake Storage muszą być w tabelach Delta. Customer Insights - Data opiera się na właściwości wersji w historii tabeli w celu identyfikacji najnowszych zmian dla wzrastającego przetwarzania.
Łączenie się z danymi z Azure Data Lake Storage
Przejdź do Dane>Źródła danych.
Wybierz Dodaj źródło danych.
Wybierz tabele Azure Data Lake Delta.
Wprowadź Nazwa źródła danych dla źródła danych i opcjonalnie Opis. Nazwa ta jest przywoływana w dalszych procesach i nie można jej zmienić po utworzeniu źródła danych.
Wybierz jedną z następujących opcji Połącz używanie magazynu.
- Subskrypcja platformy Azure: wybierz subskrypcję , a następnie grupę zasobów i konto magazynu.
- Zasób platformy Azure: wprowadź identyfikator zasobu.
Opcjonalnie, jeśli chcesz uzyskać dane z konta magazynu za pośrednictwem łącza Azure Private Link, wybierz opcję Włącz łącze prywatne. Aby uzyskać więcej informacji, zobacz Łącza Private Links.
Wybierz nazwę kontenera zawierającego folder danych i wybierz opcję Dalej.
Przejdź do folderu zawierającego dane w tabelach Delta i zaznacz go. Następnie wybierz Dalej. Wyświetli się lista dostępnych tabel.
Wybierz tabele, które chcesz uwzględnić.
W przypadku wybranych tabel, w których nie zdefiniowano klucza podstawowego, w obszarze Klucz podstawowy wyświetla się informacja Wymagane. Dla każdej z tych tabel:
- Wybierz Wymagane. Zostanie wyświetlony panel Edytowanie tabeli.
- Wybierz Klucz podstawowy. Klucz podstawowy jest atrybutem unikalnym dla danej tabeli. Aby atrybut był prawidłowym kluczem podstawowym, nie może zawierać zduplikowanych wartości, brakujących wartości ani wartości null. Atrybuty typu ciąg, liczba całkowita i GUID są obsługiwane jako klucze podstawowe.
- Wybierz Zamknij, by zapisać i zamknąć panel.
Aby włączyć profilowanie danych dla dowolnej kolumny, wybierz liczbę kolumn dla tabeli. Zostanie wyświetlona strona Zarządzanie atrybutami.
- Wybierz profilowanie danych dla całej tabeli lub określonych kolumn. Domyślnie żadne tabele nie są włączone do profilowania danych.
- Wybierz Gotowe.
Wybierz pozycję Zapisz. Zostanie otwarta strona Źródła danych z nowymi źródło danych Odświeżania.
Napiwek
Zadania i procesy mają swoje stany. Większość procesów zależy od innych procesów nadrzędnych, takich jak źródła danych i odświeżenia profilowania danych.
Wybierz stan obok okienka Szczegóły postępu, aby wyświetlić postęp zadania. Aby anulować zadanie, wybierz opcję Anuluj zadanie w dolnej części okienka.
Pod każdym zadaniem możesz wybrać Zobacz szczegóły, aby uzyskać więcej informacji o postępie, takich jak czas przetwarzania, data ostatniego przetwarzania oraz wszystkie odpowiednie błędy i ostrzeżenia związane z zadaniem lub procesem. Wybierz Wyświetl stan systemu u dołu panelu, aby wyświetlić inne procesy w systemie.
Ładowanie danych może zająć czas. Po pomyślnym odświeżeniu dane z pobierania można przejrzeć na stronie Tabele.
Zarządzanie zmianami schematu
Po dodaniu lub usunięciu kolumny ze schematu źródła danych folderów Delta system uruchamia pełne odświeżenie danych. Pełne odświeżenie wszystkich danych trwa dłużej niż odświeżenie przyrostowe.
Dodaj kolumnę
Po dodaniu kolumny do źródło danych informacje w Customer Insights - Data zostaną automatycznie dodane do danych po odświeżeniu. Jeśli ujednolicenie jest już skonfigurowane dla tabeli, nowa kolumna musi zostać dodana do procesu ujednolicania.
Z kroku Dane klienta wybierz Wybierz tabele i kolumny i wybierz nową kolumnę.
Na etapie Ujednolicony widok danych upewnij się, że kolumna nie jest wykluczona z profilu klienta. Wybierz Wykluczone i odczytaj kolumnę.
W kroku Uruchom aktualizacje ujednoliconego profilu wybierz opcję Ujednolić profile klientów i zależności.
Zmień lub usuń kolumnę
Po usunięciu kolumny z pola źródło danych system sprawdza zależności w innych procesach. Jeśli istnieje zależność w kolumnach, system zatrzymuje odświeżanie i zapewnia błąd, oznaczający, że zależności muszą być usunięte. Te zależności są wyświetlane w powiadomieniu w celu ułatwiające ich znalezienie i usunięcie.
Zweryfikuj zmianę schematu
Po odświeżeniu źródło danych przejdź do strony Dane>Tabele. Wybierz tabelę dla źródło danych i sprawdź schemat.
Podróże w czasie i odświeżanie danych w Delta lake
Podróże w czasie w Delta lake to możliwość wysyłania zapytań do wersji tabeli na podstawie sygnatury czasowej lub numeru wersji. Zmiany w folderach Delta są wersjonowane i Customer Insights - Data używa wersji folderów Delta do śledzenia, jakie dane należy przetworzyć. W przypadku zwykłego odświeżania tabeli delta dane są pobierane ze wszystkich wersji tabeli danych od czasu ostatniego odświeżenia. Dopóki dostępne są wszystkie wersje, Customer Insights - Data może przetwarzać tylko zmienione elementy i dostarczać szybsze wyniki. Dowiedz się więcej o podróżach w czasie.
Na przykład, jeśli Customer Insights – Data zostały ostatnio zsynchronizowane z wersją 23 danych folderu Delta, oczekuje się, że będzie dostępna wersja 23 i ewentualnie kolejne wersje. Jeśli oczekiwane wersje danych nie są dostępne, synchronizacja danych nie powiedzie się i wymaga ręcznego pełnego odświeżenia danych. Synchronizacja danych może się nie powieść, jeśli dane w folderze Delta zostały usunięte, a następnie utworzone na nowo. Albo jeśli Customer Insights - Data nie może połączyć się z folderami Delta przez dłuższy czas, gdy wersje były zaawansowane.
Aby uniknąć konieczności pełnego odświeżania danych, zalecamy utrzymywanie rozsądnego rejestru historii, np. 15 dni.
Ręcznie uruchom pełne odświeżenie danych w folderze tabeli Delta
Pełne odświeżenie wymaga załadowania wszystkich danych ze tabeli w formacie delta i ponownego załadowania tabeli w wersji zero (0). Zmiany w schemacie folderu Delta powodują automatyczne pełne odświeżenie. Aby ręcznie uruchomić pełne odświeżanie, wykonaj następujące kroki.
Przejdź do Dane>Źródła danych.
Wybierz źródło danych Tabele Azure Data Lake Delta.
Wybierz tabelę, którą chcesz odświeżyć. Zostanie wyświetlone okienko Edytowanie tabeli.
Wybierz Uruchom jednorazowe pełne odświeżanie.
Wybierz pozycję Zapisz, aby uruchomić odświeżanie. Zostanie otwarta strona Źródła danych ze źródłem danych w stanie Odświeżanie, ale odświeżanie dotyczy tylko wybranej tabeli.
Powtórz ten proces w odniesieniu do innych tabel, jeśli ma to zastosowanie.
Błąd synchronizacji danych
Synchronizacja danych może się nie powieść, jeśli dane w folderze Delta zostały usunięte, a następnie utworzone na nowo. Albo jeśli Customer Insights - Data nie może połączyć się z folderami Delta przez dłuższy czas, gdy wersje były zaawansowane. Aby zminimalizować wpływ sporadycznej awarii potoku danych powodującej konieczność pełnego odświeżenia, zalecamy utrzymywanie odpowiedniego rejestru historii, na przykład 15 dni.