Udostępnij przez


Poradnik do przygotowywania danych

Wysoka wydajność analizy biznesowej zależy od tego, jak efektywnie dane są przygotowywane i dostarczane z usługi Lakehouse. Dzięki wdrożeniu wzorców architektury, zastosowaniu struktury semantycznej i zastosowaniu optymalizacji docelowej można zmniejszyć złożoność zapytań, poprawić czas odpowiedzi pulpitu nawigacyjnego i obniżyć koszty obliczeń.

Poniższa tabela zawiera podsumowanie zalecanych rozwiązań, ich oczekiwanego wpływu, powiązanej dokumentacji i skojarzonych elementów akcji. Ta zawartość jest przeznaczona dla inżynierów danych, deweloperów BI i autorów pulpitów nawigacyjnych, którzy projektują, optymalizują i utrzymują zadania analityczne na platformie Lakehouse.

Przygotowywanie danych

Najlepsze rozwiązanie Wpływ Docs Elementy akcji
Wdrażanie architektury medalonu Przyspiesza przekształcanie danych pierwotnych w gotowe do użycia, niezawodne produkty danych w celu łatwego użycia. Przeglądanie i implementowanie warstw medalonu
Korzystanie z klastrowania płynnego Zwiększa wydajność zapytań dzięki pomijaniu plików i danych. Stosuj do dużych tabel wzorce filtrów
Korzystanie z tabel zarządzanych Usługa Azure Databricks automatycznie zarządza i optymalizuje warstwę magazynu i wydajność zapytań. Tworzenie tabel zarządzanych dla danych
Ręczne używanie optymalizacji predykcyjnej lub optymalizowanie tabel Umożliwia lepszą wydajność zapytań, optymalizując rozmiary i układ plików, usuwając stare pliki i aktualizując statystyki. W przypadku tabel produkcyjnych, włącz tę opcję lub zaplanuj regularną optymalizację i analizę tabel po zmianach danych.
Modelowanie danych we wzorcu schematu gwiazdy Ułatwia wykonywanie zapytań i używanie danych. Projektowanie tabel faktów i wymiarów
Unikaj szerokich typów danych i kolumn o wysokiej kardynalności Optymalizuje rozmiar modelu danych i zużycie pamięci oraz zwiększa wydajność zapytań. Przeglądanie typów danych i kardynalności
Deklarowanie kluczy podstawowych i obcych (przy użyciu funkcji RELY) Optymalizuje zapytania, eliminując niepotrzebne sprzężenia i agregacje. Definiowanie kluczy w tabelach faktów i wymiarów
Używanie kolumn generowanych automatycznie Zmniejsza konieczność obliczania wartości w czasie wykonywania zapytania. Identyfikowanie często obliczanych pól
Używanie zmaterializowanych widoków i utrwałych tabel Zwiększa wydajność przez wstępne agregowanie danych dla najczęściej używanych zapytań i zapytań intensywnie korzystających z zasobów. Tworzenie zagregowanych widoków dla typowych zapytań