Jaka jest architektura medallion lakehouse?

Architektura medalionu opisuje serię warstw danych, które określają jakość danych przechowywanych w lakehouse. Usługa Databricks zaleca zastosowanie wielowarstwowego podejścia do tworzenia pojedynczego źródła danych dla produktów danych przedsiębiorstwa. Ta architektura gwarantuje niepodzielność, spójność, izolację i trwałość, ponieważ dane przechodzą przez wiele warstw weryfikacji i przekształceń przed zapisaniem w układzie zoptymalizowanym pod kątem wydajnej analizy. Terminy brązowe (surowe), srebrne (zweryfikowane) i złote (wzbogacone) opisują jakość danych w każdej z tych warstw.

Należy pamiętać, że ta architektura medalionu nie zastępuje innych technik modelowania wymiarowego. Schematy i tabele w każdej warstwie mogą przyjmować różne formy i stopnie normalizacji w zależności od częstotliwości i charakteru aktualizacji danych oraz podrzędnych przypadków użycia danych.

Organizacje mogą korzystać z usługi Databricks Lakehouse, aby tworzyć i utrzymywać zweryfikowane zestawy danych dostępne w całej firmie. Wdrożenie organizacyjnego myślenia skoncentrowanego na curowaniu danych jako produktów jest kluczowym krokiem w pomyślnym tworzeniu magazynu typu data lakehouse.

Pozyskiwanie danych pierwotnych do warstwy z brązu

Warstwa z brązu zawiera niewalidowane dane. Dane pozyskane w warstwie z brązu zwykle:

  • Zachowuje stan pierwotny źródła danych.
  • Jest dołączany przyrostowo i rośnie wraz z upływem czasu.
  • Może być dowolną kombinacją transakcji przesyłania strumieniowego i wsadowego.

Zachowywanie pełnej, nieprzetworzonej historii każdego zestawu danych w wydajnym formacie magazynu umożliwia odtworzenie dowolnego stanu danego systemu danych.

Dodatkowe metadane (takie jak nazwy plików źródłowych lub rejestrowanie przetworzonych danych czasu) mogą zostać dodane do danych dotyczących pozyskiwania w celu zwiększenia możliwości odnajdywania, opisu stanu źródłowego zestawu danych i zoptymalizowanej wydajności w aplikacjach podrzędnych.

Weryfikowanie i deduplikowanie danych w warstwie srebrnej

Pamiętaj, że podczas gdy warstwa z brązu zawiera całą historię danych w prawie nieprzetworzonym stanie, warstwa srebra reprezentuje zweryfikowaną, wzbogaconą wersję naszych danych, która może być zaufana do analizy podrzędnej.

Podczas gdy usługa Databricks wierzy mocno w wizję lakehouse napędzaną brązowymi, srebrnymi i złotymi stołami, po prostu efektywnie implementując srebrną warstwę, natychmiast odblokuje wiele potencjalnych korzyści z lakehouse.

W przypadku dowolnego potoku danych warstwa srebra może zawierać więcej niż jedną tabelę.

Analiza zużycia energii z warstwą złota

Te złote dane są często wysoce wyrafinowane i agregowane, zawierające dane, które zapewniają możliwości analizy, uczenia maszynowego i aplikacji produkcyjnych. Chociaż wszystkie tabele w lakehouse powinny służyć ważnemu celowi, złote tabele reprezentują dane, które zostały przekształcone w wiedzę, a nie tylko informacje.

Analitycy w dużej mierze polegają na tabelach złota dla swoich podstawowych obowiązków, a dane udostępniane klientowi rzadko będą przechowywane poza tym poziomem.

Aktualizacje do tych tabel są wykonywane w ramach regularnie zaplanowanych obciążeń produkcyjnych, co pomaga kontrolować koszty i umożliwia ustanawianie umów dotyczących poziomu usług (SLA, Service Level Agreement).

Chociaż usługa Lakehouse nie ma tych samych problemów z zakleszczeniem, które mogą wystąpić w magazynie danych przedsiębiorstwa, złote tabele są często przechowywane w oddzielnym kontenerze magazynu, aby uniknąć limitów chmury dla żądań danych.

Ogólnie rzecz biorąc, ponieważ agregacje, sprzężenia i filtrowanie są obsługiwane przed zapisem danych do warstwy złota, użytkownicy powinni zobaczyć wydajność zapytań o małe opóźnienia dla danych w tabelach złota.