Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule przedstawiono dlt-meta, projekt Databricks Labs, który udostępnia narzędzia do generowania potoków na podstawie zarządzanych metadanych.
Uwaga / Notatka
Projekt dlt-meta typu open source, podobnie jak wszystkie projekty na koncie usługi GitHub usługi Databrickslabs, istnieje tylko do celów eksploracji. Usługa Azure Databricks nie obsługuje jej ani nie zapewnia umów dotyczących poziomu usług (SLA). Nie przesyłaj biletów pomocy technicznej usługi Azure Databricks w przypadku problemów związanych z tym projektem. Zamiast tego zgłoś problem z usługą GitHub, który zostanie sprawdzony w miarę zezwolenia na czas.
Co to jest dlt-meta?
Potoki deklaratywne platformy Lakeflow umożliwiają deklaratywne określanie tabeli i generowanie przepływu w potoku, który tworzy tabelę i utrzymuje ją na bieżąco w miarę zmian danych źródłowych. Jeśli jednak organizacja ma setki tabel, generowanie tych potoków i zarządzanie nimi jest czasochłonne i może prowadzić do niespójnych praktyk.
Projekt dlt-meta to sterowany metadanymi framework metaprogramowania przeznaczony do pracy z Lakeflow Spark Declarative Pipelines. Ta struktura umożliwia automatyzację potoków danych z brązu i srebra dzięki wykorzystaniu metadanych zarejestrowanych w zestawie plików JSON i YAML. Silnik dlt-meta używa kodu w języku Python do dynamicznego generowania kodu potoku dla przepływów opisanych w metadanych. Generujesz metadane dotyczące potoków, a funkcja dlt-meta generuje potoki.
Dzięki scentralizowanej logice w jednym miejscu (metadanych) system jest szybszy, wielokrotnego użytku i łatwiejszy w obsłudze.
Uwaga / Notatka
Projekt dlt-meta został nazwany dla starszej funkcji Delta Live Tables w usłudze Azure Databricks. Funkcja Delta Live Tables została zastąpiona przez potoki deklaratywne Lakeflow Spark, a funkcja dlt-meta współpracuje z potokami deklaratywnymi Lakeflow Spark.
Zalety biblioteki dlt-meta
Istnieją dwa główne przypadki użycia dlt-meta:
- Pozyskiwanie i czyszczenie dużej liczby tabel po prostu.
- Wymuszanie standardów inżynierii danych w wielu potokach i użytkownikach.
Zalety korzystania z podejścia opartego na metadanych obejmują:
- Konserwuj metadane można wykonywać bez znajomości języka Python lub kodu SQL.
- Utrzymywanie metadanych, a nie kodu, wymaga mniejszego nakładu pracy i zmniejsza błędy.
- Kod jest generowany przez bibliotekę dlt-meta, więc pozostaje spójny i ma mniej niestandardowy kod w potokach i opublikowanych tabelach.
- Tabele można łatwo grupować w potoki w metadanych, generując liczbę potoków potrzebnych do najbardziej wydajnej aktualizacji danych.
Jak to działa?
Na poniższej ilustracji przedstawiono przegląd systemu dlt-meta:
- Pliki metadanych są tworzone jako dane wejściowe dlt-meta, aby określić pliki źródłowe i dane wyjściowe, reguły jakości i wymagane przetwarzanie.
- Aparat dlt-meta kompiluje pliki dołączania do specyfikacji przepływu danych o nazwie DataflowSpec i przechowuje je do późniejszego użycia.
- Aparat dlt-meta używa obiektu DataflowSpec do tworzenia potoków, które generują tabele z brązu. Używa to plików metadanych do odczytywania danych źródłowych i stosowania prawidłowych oczekiwań dotyczących danych w celu dopasowania ich do reguł jakości.
- Następnie aparat dlt-meta używa elementu DataflowSpec, aby utworzyć dodatkowe potoki, które generują srebrne tabele. Używa to plików metadanych do zastosowania odpowiednich przekształceń i innego przetwarzania dla systemu.
Potoki generowane przez bibliotekę dlt-meta umożliwiają aktualizowanie danych wyjściowych podczas aktualizowania danych źródłowych.
Jak mogę zacząć?
Aby użyć biblioteki dlt-meta, musisz:
- Wdrażanie i konfigurowanie rozwiązania dlt-meta.
- Przygotuj metadane dla tabel z brązu i srebra.
- Utwórz zadanie dołączania metadanych.
- Użyj metadanych, aby utworzyć potoki dla tabel.
Dokumentacja dlt-meta w usłudze GitHub zawiera samouczek ułatwiający rozpoczęcie pracy z tym procesem. Aby uzyskać więcej informacji, zobacz wprowadzenie do biblioteki dlt-meta w witrynie GitHub.