Czym jest magazyn data lakehouse?
Usługa data lakehouse to system zarządzania danymi, który łączy zalety data lake i magazynów danych. W tym artykule opisano wzorzec architektury lakehouse i jego możliwości w ramach Azure Databricks.
Data lakehouse zapewnia skalowalne możliwości magazynowania i przetwarzania dla nowoczesnych organizacji, które chcą uniknąć izolowanych systemów przetwarzania różnych obciążeń, takich jak uczenie maszynowe (ML) i analiza biznesowa (BI). Data lakehouse może pomóc w ustaleniu jednego źródła prawdziwych informacji, wyeliminowaniu nadmiarowych kosztów i zapewnieniu aktualności danych.
Usługa ta często używa wzorca projektowego danych, który przyrostowo ulepsza, wzbogaca i udoskonala dane podczas przechodzenia przez warstwy przemieszczania i przekształcania. Każda warstwa lakehouse może zawierać co najmniej jedną warstwę. Ten wzorzec jest często określany jako architektura medalionu. Aby uzyskać więcej informacji, zobacz Czym jest architektura medalionu w odniesieniu do lakehouse?
Usługa Databricks jest oparta na Apache Spark. Apache Spark zapewnia wysoce skalowalny aparat, który działa na zasobach obliczeniowych oddzielonych od magazynu. Aby uzyskać więcej informacji, zobacz Apache Spark w usłudze Azure Databricks
Lakehouse w Databricks korzysta z dwóch dodatkowych kluczowych technologii:
- Delta Lake: zoptymalizowana warstwa magazynu, która obsługuje transakcje ACID i wymuszanie schematu.
- Unity Catalog: ujednolicone, precyzyjne rozwiązanie do zarządzania w odniesieniu do danych i sztucznej inteligencji.
W warstwie pozyskiwania dane przesyłane w partiach lub dane przesyłane strumieniowo pochodzą z różnych źródeł oraz są w różnych formatach. Ta pierwsza warstwa logiczna zapewnia miejsce, w których dane te pojawiają się w nieprzetworzonym formacie. Podczas konwertowania tych plików na tabele Delta możesz użyć wymuszania schematu usługi Delta Lake, aby sprawdzić brakujące lub nieoczekiwane dane. Za pomocą Unity Catalog można rejestrować tabele zgodnie z modelem zarządzania danych i wymaganymi granicami izolacji danych. Unity Catalog umożliwia śledzenie pochodzenia danych w miarę ich przekształcania i udoskonalania, a także stosowanie ujednoliconego modelu zarządzania w celu zachowania prywatności i bezpieczeństwa poufnych danych.
Po zweryfikowaniu możesz rozpocząć proces selekcji i udoskonalania danych. Badacze danych i osoby zaangażowane w uczenie maszynowe często pracują z danymi na tym etapie w zakresie rozpoczęcia procesu łączenia lub tworzenia nowych funkcji oraz pełnego czyszczenia danych. Po gruntownym oczyszczeniu dane można zintegrować i ponownie zorganizować w tabelach zaprojektowanych w celu spełnienia określonych potrzeb biznesowych.
Podejście schemat przy zapisie w połączeniu z funkcjami ewolucji schematu Delta oznacza, że można wprowadzać zmiany w tej warstwie bez konieczności ponownego zapisywania logiki podrzędnej, która dostarcza dane użytkownikom końcowym.
Warstwa końcowa zapewnia czyste, wzbogacone dane użytkownikom końcowym. Ostateczne tabele powinny być zaprojektowane tak, aby zapewniały dane dla wszystkich przypadków użycia. Ujednolicony model zarządzania oznacza, że możesz prześledzić pochodzenie danych z powrotem do jednego źródła prawdziwych informacji. Układy danych, zoptymalizowane pod kątem różnych zadań, zapewniają użytkownikom końcowym dostęp do danych dla aplikacji uczenia maszynowego, inżynierii danych oraz analizy biznesowej i raportowania.
Aby dowiedzieć się więcej o usłudze Delta Lake, zobacz Czym jest Delta Lake? Aby dowiedzieć się więcej o Unity Catalog, zobacz Czym jest Unity Catalog?
Usługa lakehouse oparta na usłudze Databricks zastępuje bieżącą zależność od data lake i magazynów danych w odniesieniu do nowoczesnych firm obsługujących dane. Niektóre kluczowe zadania, które można wykonać, to:
- Przetwarzanie danych w czasie rzeczywistym: przetwarzanie danych przesyłanych strumieniowo w czasie rzeczywistym w celu wykonania natychmiastowej analizy i podjęcia akcji.
- Integracja danych: ujednolicenie danych w jednym systemie w celu umożliwienia współpracy i ustanowienia jednego źródła prawdziwych informacji dla organizacji.
- Ewolucja schematu: modyfikacja schematu danych w czasie, aby dostosować się do zmieniających się potrzeb biznesowych bez zakłócania istniejących potoków danych.
- Przekształcenia danych: korzystanie z Apache Spark i Delta Lake zapewnia szybkość, skalowalność i niezawodność danych.
- Analiza i raportowanie danych: uruchamianie złożonych zapytań analitycznych przy użyciu aparatu zoptymalizowanego pod kątem obciążeń magazynowania danych.
- Uczenie maszynowe i sztuczna inteligencja: stosowanie zaawansowanych technik analitycznych w odniesieniu do wszystkich danych. Skorzystaj z uczenia maszynowego, aby wzbogacić dane i obsługiwać inne obciążenia.
- Przechowywanie wersji danych i rejestrowanie ich pochodzenia: obsługa historii wersji dla zestawów danych i śledzenia pochodzenia w celu zapewnienia informacji dotyczących pochodzenia danych i możliwości śledzenia.
- Zarządzanie danymi: użycie jednego, ujednoliconego systemu do kontroli dostępu do danych i przeprowadzania inspekcji.
- Udostępnianie danych: ułatwienie współpracy poprzez zgodę na udostępnianie wyselekcjonowanych zestawów danych, raportów i szczegółowych informacji między zespołami.
- Analiza operacyjna: monitorowanie metryki jakości danych, metryki jakości modelu oraz dryfu, stosując uczenie maszynowe do danych monitorowania usługi lakehouse.
Od około 30 lat magazyny danych napędzają decyzje w zakresie analizy biznesowej (BI), ewoluując jako zestaw wytycznych projektowych dotyczących systemów kontrolujących przepływ danych. Magazyny danych przedsiębiorstwa optymalizują zapytania dotyczące raportów analizy biznesowej, choć generowanie wyników może potrwać kilka minut lub nawet godzin. Magazyny danych, zaprojektowane pod kątem danych, w przypadku których zmiany z wysoką częstotliwością są mało prawdopodobne, starają się zapobiec konfliktom między równocześnie uruchomionymi zapytaniami. Wiele magazynów danych korzysta z zastrzeżonych formatów, które często ograniczają obsługę uczenia maszynowego. Magazynowanie danych w usłudze Azure Databricks wykorzystuje możliwości lakehouse w Databricks oraz Databricks SQL. Aby uzyskać więcej informacji, zobacz Czym jest magazynowanie danych w Azure Databricks?.
Magazyny typu data lake, oparte na postępach technologicznych w przechowywaniu danych oraz napędzane przez wykładnicze wzrosty typów i ilości danych, stały się powszechnie stosowane w ciągu ostatniej dekady. Magazyny te przechowują i przetwarzają dane w tani i wydajny sposób. Date lake są często definiowane w opozycji do magazynów danych: magazyn danych dostarcza czyste, ustrukturyzowane dane do analizy biznesowej, podczas gdy usługa data lake trwale i tanio przechowuje dane o dowolnym charakterze i w dowolnym formacie. Wiele organizacji korzysta z data lake w zakresie nauki o danych i uczenia maszynowego, lecz nie w przypadku raportowania analizy biznesowej ze względu na jego niezweryfikowany charakter.
Usługa data lakehouse łączy zalety data lake i magazynów danych, zapewniając następujące korzyści:
- Otwarty, bezpośredni dostęp do danych przechowywanych w standardowych formatach.
- Protokoły indeksowania zoptymalizowane pod kątem uczenia maszynowego i nauki o danych.
- Niski poziom opóźnień zapytań i wysoka niezawodność analizy biznesowej i zaawansowanej analizy.
Dzięki połączeniu zoptymalizowanej warstwy metadanych ze zweryfikowanymi danymi przechowywanymi w standardowych formatach w magazynie obiektów w chmurze usługa data lakehouse umożliwia analitykom danych i inżynierom uczenia maszynowego tworzenie modeli z tych samych raportów analizy biznesowej opartych na danych.
Aby dowiedzieć się więcej o zasadach i najlepszych rozwiązaniach dotyczących implementowania i obsługi usługi lakehouse przy użyciu Databricks, zobacz Wprowadzenie do dobrze zaprojektowanego magazynu typu data lakehouse