Eksplorowanie magazynów danych analitycznych

8 min

Istnieją dwa typowe typy magazynu danych analitycznych.

Magazyny danych

Diagram magazynu danych ze schematem gwiezdnym.

Magazyn danych to relacyjna baza danych, w której dane są przechowywane w schemacie zoptymalizowanym pod kątem analizy danych, a nie obciążeń transakcyjnych. Często dane z magazynu transakcyjnego są przekształcane w schemat, w którym wartości liczbowe są przechowywane w centralnych tabelach faktów, które są powiązane z jedną lub więcej tabelami wymiarowymi, reprezentującymi jednostki, według których dane mogą być agregowane. Na przykład tabela faktów może zawierać dane zamówienia sprzedaży, które mogą być agregowane według wymiarów klienta, produktu, sklepu i czasu (na przykład w celu łatwego znalezienia miesięcznego całkowitego przychodu ze sprzedaży według produktu dla każdego sklepu). Ten rodzaj schematu tabeli faktów i wymiarów jest nazywany schematem gwiazdy; chociaż często jest on rozszerzany na schemat płatka śniegu , dodając dodatkowe tabele powiązane z tabelami wymiarów w celu reprezentowania hierarchii wymiarowych (na przykład produkt może być powiązany z kategoriami produktów). Magazyn danych jest doskonałym wyborem, gdy masz dane transakcyjne, które mogą być zorganizowane w ustrukturyzowany schemat tabel i chcesz użyć języka SQL do wykonywania zapytań.

Magazyny typu data lake

Diagram przedstawiający magazyn typu data lake, w którym pliki są abstrakcjonowane przez tabele.

Usługa Data Lake to magazyn plików, zwykle w rozproszonym systemie plików w celu uzyskania dostępu do danych o wysokiej wydajności. Technologie takie jak Spark lub Hadoop są często używane do przetwarzania zapytań dotyczących przechowywanych plików i zwracania danych na potrzeby raportowania i analizy. Te systemy często stosują podejście schematu do odczytu w celu zdefiniowania schematów tabelarycznych w częściowo ustrukturyzowanych plikach danych w momencie, gdy dane są odczytywane do analizy, bez stosowania ograniczeń podczas ich przechowywania. Magazyny Data Lake doskonale nadają się do obsługi kombinacji ustrukturyzowanych, częściowo ustrukturyzowanych, a nawet nieustrukturyzowanych danych, które mają być analizowane bez konieczności wymuszania schematu podczas zapisywania danych w magazynie.

Podejścia hybrydowe

Możesz użyć hybrydowego podejścia, które łączy funkcje jezior danych i magazynów danych w data lakehouse. Nieprzetworzone dane są przechowywane jako pliki w usłudze Data Lake, a punkty końcowe analizy SQL usługi Microsoft Fabric uwidaczniają je jako tabele, które mogą być odpytywane przy użyciu języka SQL. Podczas tworzenia usługi Lakehouse za pomocą usługi Microsoft Fabric punkt końcowy analizy SQL jest tworzony automatycznie. Lakehouse danych to stosunkowo nowatorskie podejście w systemach opartych na platformie Spark, realizowane za pomocą technologii takich jak Delta Lake, które dodaje do Spark możliwości magazynu relacyjnego. Dzięki temu można definiować tabele wymuszające schematy i spójność transakcyjną, obsługujące zarówno wsadowo, jak i strumieniowo ładowane źródła danych, oraz udostępniać interfejs API SQL do wykonywania zapytań.

Usługi platformy Azure dla magazynów analitycznych

Na platformie Azure istnieje kilka usług, których można użyć do zaimplementowania magazynu analitycznego na dużą skalę, w tym:

Microsoft Fabric to ujednolicone, kompleksowe rozwiązanie do analizy danych na dużą skalę. Łączy wiele technologii i możliwości, dzięki czemu można połączyć integralność danych i niezawodność skalowalnego, wysokowydajnego magazynu danych relacyjnych opartych na programie SQL Server z elastycznością usługi Data Lake i typu open source platformy Apache Spark. Obejmuje ona również natywną obsługę analizy dzienników i telemetrii za pomocą analizy w czasie rzeczywistym w usłudze Microsoft Fabric, a także wbudowane potoki danych na potrzeby pozyskiwania i przekształcania danych. Każde środowisko produktu Microsoft Fabric ma swój własny dom, na przykład strona główna usługi Data Factory. Każda strona główna sieci szkieletowej wyświetla utworzone elementy i mają uprawnienia do użycia ze wszystkich obszarów roboczych, do których uzyskujesz dostęp. Usługa Microsoft Fabric to doskonały wybór, jeśli chcesz utworzyć pojedyncze, ujednolicone rozwiązanie analityczne.

Zrzut ekranu przedstawiający logo usługi Azure Databricks. Azure Databricks to implementacja popularnej platformy Databricks w Azure. Usługa Databricks to kompleksowe rozwiązanie do analizy danych oparte na platformie Apache Spark i oferuje natywne funkcje SQL, a także klastry Spark zoptymalizowane pod kątem obciążeń na potrzeby analizy danych i nauki o danych. Usługa Databricks udostępnia interaktywny interfejs użytkownika, za pomocą którego można zarządzać systemem, a dane można eksplorować w notesach interaktywnych. Ze względu na typowe użycie na wielu platformach w chmurze warto rozważyć użycie usługi Azure Databricks jako magazynu analitycznego, jeśli chcesz korzystać z istniejącej wiedzy z platformą lub jeśli musisz działać w środowisku wielochmurowym lub obsługiwać rozwiązanie przenośne w chmurze.

Uwaga

Każda z tych usług może być uważana za magazyn danych analitycznych, w tym sensie, że udostępniają schemat i interfejs, za pomocą którego można wykonywać zapytania dotyczące danych. Jednak w wielu przypadkach dane są rzeczywiście przechowywane w usłudze Data Lake, a usługa służy do przetwarzania danych i uruchamiania zapytań. Niektóre rozwiązania mogą nawet łączyć korzystanie z tych usług. Proces pozyskiwania wyodrębniania, ładowania i przekształcania (ELT) może kopiować dane do magazynu data lake, a następnie używać jednej z tych usług do przekształcania danych, a drugiego w celu wykonania względem nich zapytań. Na przykład potok może używać notesu uruchomionego w usłudze Azure Databricks do przetwarzania dużej ilości danych w usłudze Data Lake, a następnie załadować go do tabel w usłudze Microsoft Fabric Warehouse.

Eksplorowanie magazynów danych analitycznych

Magazyny danych

Magazyny typu data lake

Podejścia hybrydowe

Usługi platformy Azure dla magazynów analitycznych

Opinia