Co to jest usługa Data Lakehouse?

Artykuł
03/01/2024

Usługa Data Lakehouse to system zarządzania danymi, który łączy zalety magazynów danych i magazynów danych. W tym artykule opisano wzorzec architektury lakehouse i czynności, które można z nim zrobić w usłudze Azure Databricks.

A diagram of the lakehouse architecture using Unity Catalog and delta tables.

Do czego służy usługa Data Lakehouse?

Usługa Data Lakehouse zapewnia skalowalne możliwości magazynowania i przetwarzania dla nowoczesnych organizacji, które chcą uniknąć izolowanych systemów przetwarzania różnych obciążeń, takich jak uczenie maszynowe (ML) i analiza biznesowa (BI). Usługa Data Lakehouse może pomóc w ustaleniu pojedynczego źródła prawdy, wyeliminowaniu nadmiarowych kosztów i zapewnieniu aktualności danych.

Usługa Data Lakehouse często używa wzorca projektowego danych, który przyrostowo ulepsza, wzbogaca i udoskonala dane podczas przechodzenia przez warstwy przemieszczania i przekształcania. Każda warstwa jeziora może zawierać co najmniej jedną warstwę. Ten wzorzec jest często określany jako architektura medalionu. Aby uzyskać więcej informacji, zobacz Co to jest architektura medallion lakehouse?

Jak działa usługa Databricks lakehouse?

Usługa Databricks jest oparta na platformie Apache Spark. Platforma Apache Spark umożliwia wysoce skalowalny aparat, który działa na zasobach obliczeniowych oddzielonych od magazynu. Aby uzyskać więcej informacji, zobacz Apache Spark w usłudze Azure Databricks

Usługa Databricks Lakehouse korzysta z dwóch dodatkowych kluczowych technologii:

Delta Lake: zoptymalizowana warstwa magazynu, która obsługuje transakcje ACID i wymuszanie schematu.
Wykaz aparatu Unity: ujednolicone, precyzyjne rozwiązanie do zapewniania ładu dla danych i sztucznej inteligencji.

Pozyskiwanie danych

W warstwie pozyskiwania dane wsadowe lub przesyłane strumieniowo pochodzą z różnych źródeł i w różnych formatach. Ta pierwsza warstwa logiczna zapewnia miejsce, w których te dane mają wylądować w formacie nieprzetworzonym. Podczas konwertowania tych plików na tabele delty możesz użyć możliwości wymuszania schematu usługi Delta Lake, aby sprawdzić brakujące lub nieoczekiwane dane. Za pomocą wykazu aparatu Unity można rejestrować tabele zgodnie z modelem nadzoru danych i wymaganymi granicami izolacji danych. Katalog aparatu Unity umożliwia śledzenie pochodzenia danych w miarę ich przekształcania i uściślenia, a także stosowanie ujednoliconego modelu ładu w celu zachowania prywatności i bezpieczeństwa poufnych danych.

Przetwarzanie, curation i integracja danych

Po zweryfikowaniu możesz rozpocząć curating and ujednoliczenie danych. Analitycy danych i praktycy uczenia maszynowego często pracują z danymi na tym etapie, aby rozpocząć łączenie lub tworzenie nowych funkcji i pełne czyszczenie danych. Po gruntownym oczyszczeniu danych można je zintegrować i zreorganizować w tabelach zaprojektowanych w celu spełnienia określonych potrzeb biznesowych.

Podejście schematu na zapis w połączeniu z funkcjami ewolucji schematu różnicowego oznacza, że można wprowadzać zmiany w tej warstwie bez konieczności ponownego zapisywania logiki podrzędnej, która udostępnia dane użytkownikom końcowym.

Obsługa danych

Warstwa końcowa obsługuje czyste, wzbogacone dane użytkownikom końcowym. Ostateczne tabele powinny być zaprojektowane tak, aby obsługiwały dane dla wszystkich przypadków użycia. Ujednolicony model zapewniania ładu oznacza, że możesz śledzić pochodzenie danych z powrotem do pojedynczego źródła prawdy. Układy danych, zoptymalizowane pod kątem różnych zadań, umożliwiają użytkownikom końcowym dostęp do danych dla aplikacji uczenia maszynowego, inżynierii danych oraz analizy biznesowej i raportowania.

Aby dowiedzieć się więcej o usłudze Delta Lake, zobacz Co to jest usługa Delta Lake? Aby dowiedzieć się więcej o wykazie aparatu Unity, zobacz Co to jest wykaz aparatu Unity?

Możliwości usługi Databricks lakehouse

Usługa Lakehouse oparta na usłudze Databricks zastępuje bieżącą zależność od magazynów danych i magazynów danych dla nowoczesnych firm danych. Niektóre kluczowe zadania, które można wykonać, obejmują:

Przetwarzanie danych w czasie rzeczywistym: przetwarzanie danych przesyłanych strumieniowo w czasie rzeczywistym w celu natychmiastowej analizy i akcji.
Integracja danych: ujednolicenie danych w jednym systemie w celu umożliwienia współpracy i ustanowienia pojedynczego źródła prawdy dla organizacji.
Ewolucja schematu: Zmodyfikuj schemat danych w czasie, aby dostosować się do zmieniających się potrzeb biznesowych bez zakłócania istniejących potoków danych.
Przekształcenia danych: korzystanie z platform Apache Spark i usługi Delta Lake zapewnia szybkość, skalowalność i niezawodność danych.
Analiza i raportowanie danych: uruchamianie złożonych zapytań analitycznych przy użyciu aparatu zoptymalizowanego pod kątem obciążeń magazynowania danych.
Uczenie maszynowe i sztuczna inteligencja: stosowanie zaawansowanych technik analitycznych do wszystkich danych. Użyj uczenia maszynowego, aby wzbogacić dane i obsługiwać inne obciążenia.
Przechowywanie wersji danych i pochodzenie danych: obsługa historii wersji dla zestawów danych i śledzenie pochodzenia danych w celu zapewnienia pochodzenia danych i możliwości śledzenia.
Nadzór nad danymi: użyj jednego, ujednoliconego systemu, aby kontrolować dostęp do danych i przeprowadzać inspekcje.
Udostępnianie danych: ułatwia współpracę, umożliwiając udostępnianie wyselekcjonowanych zestawów danych, raportów i szczegółowych informacji między zespołami.
Analiza operacyjna: monitoruj metryki jakości danych, metryki jakości modelu i dryf, stosując uczenie maszynowe do danych monitorowania usługi Lakehouse.

Lakehouse vs Data Lake vs Data Warehouse

Magazyny danych mają oparte na decyzjach analizy biznesowej (BI) od około 30 lat, które ewoluowały jako zestaw wytycznych projektowych dotyczących systemów kontrolujących przepływ danych. Magazyny danych przedsiębiorstwa optymalizują zapytania dotyczące raportów analizy biznesowej, ale generowanie wyników może potrwać kilka minut lub nawet godzin. Zaprojektowane pod kątem danych, które są mało prawdopodobne, aby zmieniać się z wysoką częstotliwością, magazyny danych starają się zapobiec konfliktom między równoczesnymi uruchomionymi zapytaniami. Wiele magazynów danych korzysta z zastrzeżonych formatów, które często ograniczają obsługę uczenia maszynowego. Magazynowanie danych w usłudze Azure Databricks wykorzystuje możliwości usługi Databricks Lakehouse i Databricks SQL. Aby uzyskać więcej informacji, zobacz Co to jest magazynowanie danych w usłudze Azure Databricks?.

Oparte na postępach technologicznych w przechowywaniu danych i napędzanych przez wykładnicze wzrosty typów i ilości danych, magazyny typu data lake stały się powszechne w ciągu ostatniej dekady. Usługa Data Lake przechowuje i przetwarza dane tanie i wydajne. Magazyny danych są często definiowane w przeciwieństwie do magazynów danych: magazyn danych dostarcza czyste, ustrukturyzowane dane do analizy biznesowej, a usługa Data Lake trwale i tanio przechowuje dane o dowolnym charakterze w dowolnym formacie. Wiele organizacji korzysta z usług Data Lake do nauki o danych i uczenia maszynowego, ale nie do raportowania analizy biznesowej ze względu na jej niewalidowany charakter.

Usługa Data Lakehouse łączy zalety magazynów danych i magazynów danych oraz zapewnia następujące korzyści:

Otwarty, bezpośredni dostęp do danych przechowywanych w standardowych formatach danych.
Protokoły indeksowania zoptymalizowane pod kątem uczenia maszynowego i nauki o danych.
Małe opóźnienia zapytań i wysoka niezawodność analizy biznesowej i zaawansowanej analizy.

Dzięki połączeniu zoptymalizowanej warstwy metadanych ze zweryfikowanymi danymi przechowywanymi w standardowych formatach w magazynie obiektów w chmurze usługa Data Lakehouse umożliwia analitykom danych i inżynierom uczenia maszynowego tworzenie modeli z tych samych raportów analizy biznesowej opartych na danych.

Następny krok

Aby dowiedzieć się więcej o zasadach i najlepszych rozwiązaniach dotyczących implementowania i obsługi usługi Lakehouse przy użyciu usługi Databricks, zobacz Wprowadzenie do dobrze zaprojektowanego magazynu typu data lakehouse