Jaka jest architektura medallion lakehouse?
Architektura medalionu opisuje serię warstw danych, które określają jakość danych przechowywanych w lakehouse. Usługa Databricks zaleca zastosowanie wielowarstwowego podejścia do tworzenia pojedynczego źródła danych dla produktów danych przedsiębiorstwa. Ta architektura gwarantuje niepodzielność, spójność, izolację i trwałość, ponieważ dane przechodzą przez wiele warstw weryfikacji i przekształceń przed zapisaniem w układzie zoptymalizowanym pod kątem wydajnej analizy. Terminy brązowe (surowe), srebrne (zweryfikowane) i złote (wzbogacone) opisują jakość danych w każdej z tych warstw.
Należy pamiętać, że ta architektura medalionu nie zastępuje innych technik modelowania wymiarowego. Schematy i tabele w każdej warstwie mogą przyjmować różne formy i stopnie normalizacji w zależności od częstotliwości i charakteru aktualizacji danych oraz podrzędnych przypadków użycia danych.
Organizacje mogą korzystać z usługi Databricks Lakehouse, aby tworzyć i utrzymywać zweryfikowane zestawy danych dostępne w całej firmie. Wdrożenie organizacyjnego myślenia skoncentrowanego na curowaniu danych jako produktów jest kluczowym krokiem w pomyślnym tworzeniu magazynu typu data lakehouse.
Pozyskiwanie danych pierwotnych do warstwy z brązu
Warstwa z brązu zawiera niewalidowane dane. Dane pozyskane w warstwie z brązu zwykle:
- Zachowuje stan pierwotny źródła danych.
- Jest dołączany przyrostowo i rośnie wraz z upływem czasu.
- Może być dowolną kombinacją transakcji przesyłania strumieniowego i wsadowego.
Zachowywanie pełnej, nieprzetworzonej historii każdego zestawu danych w wydajnym formacie magazynu umożliwia odtworzenie dowolnego stanu danego systemu danych.
Dodatkowe metadane (takie jak nazwy plików źródłowych lub rejestrowanie przetworzonych danych czasu) mogą zostać dodane do danych dotyczących pozyskiwania w celu zwiększenia możliwości odnajdywania, opisu stanu źródłowego zestawu danych i zoptymalizowanej wydajności w aplikacjach podrzędnych.
Weryfikowanie i deduplikowanie danych w warstwie srebrnej
Pamiętaj, że podczas gdy warstwa z brązu zawiera całą historię danych w prawie nieprzetworzonym stanie, warstwa srebra reprezentuje zweryfikowaną, wzbogaconą wersję naszych danych, która może być zaufana do analizy podrzędnej.
Podczas gdy usługa Databricks wierzy mocno w wizję lakehouse napędzaną brązowymi, srebrnymi i złotymi stołami, po prostu efektywnie implementując srebrną warstwę, natychmiast odblokuje wiele potencjalnych korzyści z lakehouse.
W przypadku dowolnego potoku danych warstwa srebra może zawierać więcej niż jedną tabelę.
Analiza zużycia energii z warstwą złota
Te złote dane są często wysoce wyrafinowane i agregowane, zawierające dane, które zapewniają możliwości analizy, uczenia maszynowego i aplikacji produkcyjnych. Chociaż wszystkie tabele w lakehouse powinny służyć ważnemu celowi, złote tabele reprezentują dane, które zostały przekształcone w wiedzę, a nie tylko informacje.
Analitycy w dużej mierze polegają na tabelach złota dla swoich podstawowych obowiązków, a dane udostępniane klientowi rzadko będą przechowywane poza tym poziomem.
Aktualizacje do tych tabel są wykonywane w ramach regularnie zaplanowanych obciążeń produkcyjnych, co pomaga kontrolować koszty i umożliwia ustanawianie umów dotyczących poziomu usług (SLA, Service Level Agreement).
Chociaż usługa Lakehouse nie ma tych samych problemów z zakleszczeniem, które mogą wystąpić w magazynie danych przedsiębiorstwa, złote tabele są często przechowywane w oddzielnym kontenerze magazynu, aby uniknąć limitów chmury dla żądań danych.
Ogólnie rzecz biorąc, ponieważ agregacje, sprzężenia i filtrowanie są obsługiwane przed zapisem danych do warstwy złota, użytkownicy powinni zobaczyć wydajność zapytań o małe opóźnienia dla danych w tabelach złota.