Eksplorowanie magazynów danych analitycznych

Ukończone

Istnieją dwa typowe typy magazynu danych analitycznych.

Magazyny danych

Diagram showing a data warehouse with a star schema.

Magazyn danych to relacyjna baza danych, w której dane są przechowywane w schemacie zoptymalizowanym pod kątem analizy danych, a nie obciążeń transakcyjnych. Często dane z magazynu transakcyjnego są przekształcane w schemat, w którym wartości liczbowe są przechowywane w centralnych tabelach faktów , które są powiązane z co najmniej jedną tabelą wymiarów reprezentującą jednostki, zagregowane dane. Na przykład tabela faktów może zawierać dane zamówienia sprzedaży, które mogą być agregowane według wymiarów klienta, produktu, sklepu i czasu (na przykład w celu łatwego znalezienia miesięcznego całkowitego przychodu ze sprzedaży według produktu dla każdego sklepu). Ten rodzaj schematu tabeli faktów i wymiarów jest nazywany schematem gwiazdy, choć często jest rozszerzany na schemat płatka śniegu, dodając dodatkowe tabele powiązane z tabelami wymiarów do reprezentowania hierarchii wymiarowych (na przykład produkt może być powiązany z kategoriami produktów). Magazyn danych jest doskonałym wyborem, gdy masz dane transakcyjne, które mogą być zorganizowane w ustrukturyzowany schemat tabel i chcesz użyć języka SQL do wykonywania zapytań.

Magazyny data lakehouse

Diagram showing a data lake in which files are abstracted by tables.

Usługa Data Lake to magazyn plików, zwykle w rozproszonym systemie plików w celu uzyskania dostępu do danych o wysokiej wydajności. Technologie takie jak Spark lub Hadoop są często używane do przetwarzania zapytań dotyczących przechowywanych plików i zwracania danych na potrzeby raportowania i analizy. Te systemy często stosują podejście schematu do odczytu w celu zdefiniowania schematów tabelarycznych w częściowo ustrukturyzowanych plikach danych w momencie, gdy dane są odczytywane do analizy, bez stosowania ograniczeń podczas ich przechowywania. Magazyny Data Lake doskonale nadają się do obsługi kombinacji ustrukturyzowanych, częściowo ustrukturyzowanych, a nawet nieustrukturyzowanych danych, które mają być analizowane bez konieczności wymuszania schematu podczas zapisywania danych w magazynie.

Możesz użyć hybrydowego podejścia, które łączy funkcje magazynów typu data lake i data warehouse w bazie danych typu lake lub w usłudze Data LakeHouse. Dane pierwotne są przechowywane jako pliki w usłudze Data Lake, a warstwa magazynu relacyjnego abstrakcję podstawowych plików i uwidacznia je jako tabele, do których można wykonywać zapytania przy użyciu języka SQL. Pule SQL w usłudze Azure Synapse Analytics obejmują program PolyBase, który umożliwia definiowanie tabel zewnętrznych na podstawie plików w usłudze Data Lake (i innych źródłach) oraz wykonywanie zapytań względem nich przy użyciu języka SQL. Usługa Synapse Analytics obsługuje również podejście usługi Lake Database, w którym można użyć szablonów baz danych do zdefiniowania schematu relacyjnego magazynu danych podczas przechowywania bazowych danych w usłudze Data Lake Storage — oddzielając magazyn i zasoby obliczeniowe dla rozwiązania do magazynowania danych. Usługa Data lakehouses to stosunkowo nowe podejście w systemach opartych na platformie Spark i są włączone za pomocą technologii takich jak Delta Lake, co dodaje możliwości magazynu relacyjnego do platformy Spark, dzięki czemu można definiować tabele, które wymuszają schematy i spójność transakcyjną, obsługują źródła danych ładowane wsadowo i przesyłane strumieniowo oraz udostępniają interfejs API SQL do wykonywania zapytań.