Architektura rozwiązania analizy biznesowej w centrum doskonałości

Ten artykuł dotyczy specjalistów IT i menedżerów IT. Dowiesz się więcej na temat architektury rozwiązań analizy biznesowej w środowisku COE i różnych używanych technologiach. Technologie obejmują platformę Azure, usługę Power BI i program Excel. Razem można ich używać do dostarczania skalowalnej i opartej na danych platformy analizy biznesowej w chmurze.

Projektowanie niezawodnej platformy analizy biznesowej jest nieco podobne do tworzenia mostu; most, który łączy przekształcone i wzbogacone dane źródłowe z użytkownikami danych. Projekt takiej złożonej struktury wymaga myślenia inżynieryjnego, choć może to być jedna z najbardziej kreatywnych i satysfakcjonujących architektur IT, którą można zaprojektować. W dużej organizacji architektura rozwiązania analizy biznesowej może składać się z następujących elementów:

  • Źródła danych
  • Pozyskiwanie danych
  • Przygotowywanie danych big data/danych
  • Magazyn danych
  • Semantyczne modele analizy biznesowej
  • Raporty

Diagram showing the BI platform architecture diagram, from data sources to data ingestion, big data, store, data warehouse, BI semantic modeling, reporting, and machine learning.

Platforma musi obsługiwać określone wymagania. W szczególności musi być skalowana i wykonywana w celu spełnienia oczekiwań klientów usług biznesowych i danych. Jednocześnie musi być zabezpieczony od podstaw. Ponadto musi być wystarczająco odporna, aby dostosować się do zmian — ponieważ jest to pewność, że w czasie nowe dane i obszary podmiotów muszą być wprowadzane w tryb online.

Platformy

Od samego początku przyjęliśmy podejście podobne do systemów, inwestując w programowanie ramowe. Struktury procesów technicznych i biznesowych zwiększają ponowne użycie projektu i logiki oraz zapewniają spójny wynik. Zapewniają one również elastyczność w architekturze wykorzystującej wiele technologii oraz usprawniają i zmniejszają nakłady pracy inżynieryjnej dzięki powtarzalnym procesom.

Dowiedzieliśmy się, że dobrze zaprojektowane struktury zwiększają wgląd w pochodzenie danych, analizę wpływu, konserwację logiki biznesowej, zarządzanie taksonomią i usprawnianie ładu. Ponadto programowanie stało się szybsze i współpraca w dużych zespołach stała się bardziej elastyczna i skuteczna.

W tym artykule opiszemy kilka naszych struktur.

Modele danych

Modele danych zapewniają kontrolę nad strukturą i dostępem do danych. W przypadku usług biznesowych i użytkowników danych modele danych są ich interfejsem z platformą analizy biznesowej.

Platforma analizy biznesowej może dostarczać trzy różne typy modeli:

  • Modele przedsiębiorstwa
  • Semantyczne modele analizy biznesowej
  • Modele Edukacja maszynowych (ML)

Modele przedsiębiorstwa

Modele przedsiębiorstwa są tworzone i obsługiwane przez architektów IT. Są one czasami nazywane modelami wymiarowymi lub składnicami danych. Zazwyczaj dane są przechowywane w formacie relacyjnym jako tabele wymiarów i faktów. Te tabele przechowują oczyszczone i wzbogacone dane skonsolidowane z wielu systemów i reprezentują autorytatywne źródło raportowania i analizy.

Modele przedsiębiorstwa zapewniają spójne i pojedyncze źródło danych na potrzeby raportowania i analizy biznesowej. Są one tworzone raz i udostępniane jako standard firmowy. Zasady ładu zapewniają bezpieczeństwo danych, dlatego dostęp do poufnych zestawów danych , takich jak informacje o klientach lub finanse, jest ograniczony na podstawie potrzeb. Przyjmują one konwencje nazewnictwa zapewniające spójność, a tym samym dalsze ustanawianie wiarygodności danych i jakości.

Na platformie analizy biznesowej w chmurze modele przedsiębiorstwa można wdrożyć w puli SQL usługi Synapse w usłudze Azure Synapse. Pula SQL usługi Synapse staje się pojedynczą wersją prawdy, na która organizacja może liczyć na szybkie i niezawodne szczegółowe informacje.

Semantyczne modele analizy biznesowej

Semantyczne modele analizy biznesowej reprezentują warstwę semantyczną nad modelami przedsiębiorstwa. Są one tworzone i obsługiwane przez deweloperów analizy biznesowej i użytkowników biznesowych. Deweloperzy analizy biznesowej tworzą podstawowe modele semantyczne analizy biznesowej, które źródło danych na podstawie modeli przedsiębiorstwa. Użytkownicy biznesowi mogą tworzyć modele o mniejszej skali, niezależne lub rozszerzać podstawowe modele semantyczne analizy biznesowej przy użyciu źródeł działów lub zewnętrznych. Semantyczne modele analizy biznesowej często koncentrują się na jednym obszarze tematu i są często szeroko udostępniane.

Możliwości biznesowe są włączone nie tylko przez dane, ale przez semantyczne modele analizy biznesowej, które opisują pojęcia, relacje, reguły i standardy. W ten sposób reprezentują intuicyjne i łatwe do zrozumienia struktury, które definiują relacje danych i hermetyzują reguły biznesowe jako obliczenia. Mogą również wymusić szczegółowe uprawnienia do danych, zapewniając odpowiednim osobom dostęp do odpowiednich danych. Co ważne, przyspieszają wydajność zapytań, zapewniając niezwykle elastyczną interaktywną analizę — nawet w przypadku terabajtów danych. Podobnie jak modele przedsiębiorstwa, semantyczne modele analizy biznesowej przyjmują konwencje nazewnictwa zapewniające spójność.

W ramach platformy analizy biznesowej w chmurze deweloperzy analizy biznesowej mogą wdrażać semantyczne modele analizy biznesowej w usługach Azure Analysis Services lub Power BI Premium. Zalecamy wdrożenie w usłudze Power BI, gdy jest ono używane jako warstwa raportowania i analizy. Te produkty obsługują różne tryby przechowywania, umożliwiając tabelom modelu danych buforowanie danych lub używanie trybu DirectQuery, czyli technologii, która przekazuje zapytania do bazowego źródła danych. Tryb DirectQuery jest idealnym trybem przechowywania, gdy tabele modelu reprezentują duże woluminy danych lub trzeba dostarczać wyniki niemal w czasie rzeczywistym. Dwa tryby przechowywania można łączyć: Modele złożone łączą tabele, które używają różnych trybów przechowywania w jednym modelu.

W przypadku modeli z dużymi zapytaniami usługa Azure Load Balancer może służyć do równomiernego dystrybuowania obciążenia zapytań między replikami modelu. Umożliwia również skalowanie aplikacji i tworzenie modeli semantycznych analizy biznesowej o wysokiej dostępności.

Modele uczenia maszynowego

Modele Edukacja maszynowych (ML) są tworzone i obsługiwane przez analityków danych. Są one głównie opracowywane na podstawie pierwotnych źródeł w usłudze Data Lake.

Wytrenowane modele uczenia maszynowego mogą ujawniać wzorce w danych. W wielu okolicznościach te wzorce mogą służyć do przewidywania, które mogą służyć do wzbogacania danych. Na przykład zachowanie zakupów może służyć do przewidywania zmian klientów lub segmentów klientów. Wyniki przewidywania można dodać do modeli przedsiębiorstwa, aby umożliwić analizę według segmentu klienta.

Na platformie analizy biznesowej w chmurze możesz użyć usługi Azure Machine Edukacja do trenowania, wdrażania, automatyzowania i śledzenia modeli uczenia maszynowego oraz zarządzania nimi.

Magazyn danych

Sercem platformy analizy biznesowej jest magazyn danych, który hostuje modele przedsiębiorstwa. Jest to źródło zaakceptowanych danych — jako system rekordów i centrum — obsługujący modele przedsiębiorstwa do raportowania, analizy biznesowej i nauki o danych.

Wiele usług biznesowych, w tym aplikacji biznesowych (LOB), może polegać na magazynie danych jako autorytatywnym i zarządzanym źródle wiedzy przedsiębiorstwa.

W firmie Microsoft nasz magazyn danych jest hostowany w usłudze Azure Data Lake Storage Gen2 (ADLS Gen2 ) i usłudze Azure Synapse Analytics.

An image shows Azure Synapse Analytics connecting to Azure Data Lake Storage Gen2.

  • Usługa ADLS Gen2 sprawia, że usługa Azure Storage stanowi podstawę do tworzenia magazynów danych przedsiębiorstwa na platformie Azure. Jest ona przeznaczona do obsługi wielu petabajtów informacji przy jednoczesnym utrzymaniu setek gigabitów przepływności. Oferuje ona tanią pojemność magazynu i transakcje. Co więcej, obsługuje on dostęp zgodny z platformą Hadoop, który umożliwia zarządzanie danymi i uzyskiwanie do nich dostępu tak samo jak w przypadku rozproszonego systemu plików Hadoop (HDFS). W rzeczywistości usługi Azure HDInsight, Azure Databricks i Azure Synapse Analytics mogą uzyskiwać dostęp do danych przechowywanych w usłudze ADLS Gen2. Dlatego w przypadku platformy analizy biznesowej dobrym wyborem jest przechowywanie nieprzetworzonych danych źródłowych, częściowo przetworzonych lub przygotowanych danych oraz danych gotowych do produkcji. Używamy go do przechowywania wszystkich naszych danych biznesowych.
  • Azure Synapse Analytics to usługa analityczna, która łączy magazynowanie danych przedsiębiorstwa i analizę danych big data. Zapewnia swobodę wykonywania zapytań dotyczących danych na Twoich warunkach, korzystając z bezserwerowych zasobów na żądanie lub aprowizowanych zasobów — w dużej skali. Usługa Synapse SQL, składnik usługi Azure Synapse Analytics, obsługuje kompletną analizę opartą na języku T-SQL, dlatego idealnie nadaje się do hostowania modeli przedsiębiorstwa obejmujących tabele wymiarów i faktów. Tabele można wydajnie ładować z usługi ADLS Gen2 przy użyciu prostych zapytań T-SQL technologii Polybase. Następnie masz możliwości MPP do uruchamiania analizy o wysokiej wydajności.

Struktura aparatu reguł biznesowych

Opracowaliśmy strukturę aparatu reguł biznesowych (BRE), aby katalogować dowolną logikę biznesową, którą można zaimplementować w warstwie magazynu danych. Bre może oznaczać wiele rzeczy, ale w kontekście magazynu danych warto tworzyć kolumny obliczeniowe w tabelach relacyjnych. Te kolumny obliczeniowe są zwykle reprezentowane jako obliczenia matematyczne lub wyrażenia przy użyciu instrukcji warunkowych.

Celem jest podzielenie logiki biznesowej z podstawowego kodu analizy biznesowej. Tradycyjnie reguły biznesowe są trwale zakodowane w procedurach składowanych SQL, dlatego często skutkuje dużym wysiłkiem w celu ich utrzymania, gdy zmieniają się potrzeby biznesowe. W dokumencie BRE reguły biznesowe są definiowane raz i używane wielokrotnie w przypadku zastosowania do różnych jednostek magazynu danych. Jeśli logika obliczeń musi ulec zmianie, musi zostać zaktualizowana tylko w jednym miejscu, a nie w wielu procedurach składowanych. Istnieje również korzyść po stronie: struktura BRE napędza przejrzystość i wgląd w zaimplementowaną logikę biznesową, którą można uwidocznić za pomocą zestawu raportów, które tworzą dokumentację samoakcyjnej.

Źródła danych

Magazyn danych może konsolidować dane z praktycznie dowolnego źródła danych. Jest ona głównie oparta na źródłach danych BIZNESOWYCH, które są często relacyjnymi bazami danych przechowujące dane specyficzne dla podmiotów na potrzeby sprzedaży, marketingu, finansów itp. Te bazy danych mogą być hostowane w chmurze lub mogą znajdować się lokalnie. Inne źródła danych mogą być oparte na plikach, zwłaszcza dzienniki internetowe lub dane IOT pochodzące z urządzeń. Co więcej, dane mogą być pozyskiwane od dostawców oprogramowania jako usługi (SaaS).

W firmie Microsoft niektóre z naszych systemów wewnętrznych generują dane operacyjne bezpośrednio do usługi ADLS Gen2 przy użyciu nieprzetworzonych formatów plików. Oprócz usługi Data Lake inne systemy źródłowe składają się z aplikacji relacyjnych loB, skoroszytów programu Excel, innych źródeł opartych na plikach oraz repozytoriów master Zarządzanie danymi (MDM) i niestandardowych repozytoriów danych. Repozytoria MDM umożliwiają zarządzanie naszymi danymi głównymi w celu zapewnienia autorytatywnych, ustandaryzowanych i zweryfikowanych wersji danych.

Pozyskiwanie danych

W zależności od rytmów firmy dane są pozyskiwane z systemów źródłowych i ładowane do magazynu danych. Może to być raz dziennie lub w częstszych odstępach czasu. Pozyskiwanie danych dotyczy wyodrębniania, przekształcania i ładowania danych. Ewentualnie odwrotnie: wyodrębnianie, ładowanie, a następnie przekształcanie danych. Różnica sprowadza się do tego, gdzie odbywa się transformacja. Przekształcenia są stosowane do czyszczenia, zgodności, integrowania i standaryzacji danych. Aby uzyskać więcej informacji, zobacz Wyodrębnianie, przekształcanie i ładowanie (ETL).

Ostatecznie celem jest załadowanie odpowiednich danych do modelu przedsiębiorstwa tak szybko i wydajnie, jak to możliwe.

W firmie Microsoft używamy usługi Azure Data Factory (ADF). Usługi służą do planowania i organizowania walidacji danych, przekształceń i zbiorczych obciążeń z zewnętrznych systemów źródłowych do usługi Data Lake. Jest ona zarządzana przez niestandardowe struktury do przetwarzania danych równolegle i na dużą skalę. Ponadto kompleksowe rejestrowanie jest podejmowane w celu obsługi rozwiązywania problemów, monitorowania wydajności i wyzwalania powiadomień o alertach w przypadku spełnienia określonych warunków.

Tymczasem usługa Azure Databricks — platformy analityczne oparte na platformie Apache Spark zoptymalizowane pod kątem platformy usług w chmurze platformy Azure — wykonuje przekształcenia specjalnie na potrzeby nauki o danych. Kompiluje również i wykonuje modele uczenia maszynowego przy użyciu notesów języka Python. Wyniki z tych modeli uczenia maszynowego są ładowane do magazynu danych w celu zintegrowania przewidywań z aplikacjami i raportami dla przedsiębiorstw. Ponieważ usługa Azure Databricks uzyskuje bezpośredni dostęp do plików data lake, eliminuje lub minimalizuje konieczność kopiowania lub pozyskiwania danych.

An image shows Azure Data Factory sourcing data and orchestrating data pipelines with Azure Databricks over Azure Data Lake Storage Gen2.

Struktura pozyskiwania

Opracowaliśmy strukturę pozyskiwania jako zestaw tabel konfiguracji i procedur. Obsługuje ona oparte na danych podejście do uzyskiwania dużych ilości danych z dużą szybkością i przy minimalnym kodzie. Krótko mówiąc, ta struktura upraszcza proces pozyskiwania danych w celu załadowania magazynu danych.

Struktura zależy od tabel konfiguracji, które przechowują informacje dotyczące źródła danych i miejsca docelowego danych, takie jak typ źródła, serwer, baza danych, schemat i szczegóły dotyczące tabeli. Takie podejście projektowe oznacza, że nie musimy opracowywać określonych potoków usługi ADF ani pakietów usług SQL Server Integration Services (SSIS ). Zamiast tego procedury są pisane w wybranym języku, aby tworzyć potoki usługi ADF, które są dynamicznie generowane i wykonywane w czasie wykonywania. W związku z tym pozyskiwanie danych staje się ćwiczeniem konfiguracyjnym, które można łatwo zoperacjonalizować. Tradycyjnie wymagałoby to rozbudowanych zasobów programistycznych w celu utworzenia zakodowanych w kodzie pakietów usług ADF lub SSIS.

Struktura pozyskiwania została zaprojektowana w celu uproszczenia procesu obsługi zmian schematu nadrzędnego źródła. Łatwo jest aktualizować dane konfiguracji — ręcznie lub automatycznie po wykryciu zmian schematu w celu uzyskania nowo dodanych atrybutów w systemie źródłowym.

Struktura orkiestracji

Opracowaliśmy strukturę aranżacji, która umożliwia operacjonalizacja i organizowanie potoków danych. Korzysta z projektu opartego na danych, który zależy od zestawu tabel konfiguracji. Te tabele przechowują metadane opisujące zależności potoku i sposób mapowania danych źródłowych na docelowe struktury danych. Inwestycje w rozwój tych ram adaptacyjnych od tego czasu zapłaciły za siebie; Nie ma już wymogu kodowania każdego przenoszenia danych.

Magazyn danych

Usługa Data Lake może przechowywać duże ilości danych pierwotnych do późniejszego użycia wraz z przejściowymi przekształceniami danych.

W firmie Microsoft używamy usługi ADLS Gen2 jako naszego pojedynczego źródła prawdy. Przechowuje nieprzetworzone dane wraz ze przygotowanymi danymi i danymi gotowymi do produkcji. Zapewnia wysoce skalowalne i ekonomiczne rozwiązanie typu data lake do analizy danych big data. Łącząc możliwości systemu plików o wysokiej wydajności z ogromną skalą, jest zoptymalizowany pod kątem obciążeń analitycznych danych, skracając czas wglądu w szczegółowe dane.

Usługa ADLS Gen2 zapewnia najlepsze dwa światy: magazyn obiektów BLOB i przestrzeń nazw systemu plików o wysokiej wydajności, którą konfigurujemy przy użyciu precyzyjnych uprawnień dostępu.

Dane uściślione są następnie przechowywane w relacyjnej bazie danych w celu zapewnienia wysokiej wydajności, wysoce skalowalnego magazynu danych dla modeli przedsiębiorstwa z zabezpieczeniami, ładem i możliwościami zarządzania. Składnice danych specyficzne dla podmiotu są przechowywane w usłudze Azure Synapse Analytics, które są ładowane przez zapytania T-SQL usługi Azure Databricks lub Polybase.

Zużycie danych

W warstwie raportowania usługi biznesowe wykorzystują dane przedsiębiorstwa pochodzące z magazynu danych. Uzyskują również dostęp do danych bezpośrednio w usłudze Data Lake na potrzeby zadań analizy ad hoc lub nauki o danych.

Szczegółowe uprawnienia są wymuszane we wszystkich warstwach: w usłudze Data Lake, modelach przedsiębiorstwa i semantycznych modelach analizy biznesowej. Uprawnienia zapewniają użytkownikom danych wyświetlanie tylko danych, do których mają prawa dostępu.

W firmie Microsoft używamy raportów i pulpitów nawigacyjnych usługi Power BI oraz raportów podzielonych na strony usługi Power BI. Niektóre raporty i analizy ad hoc są wykonywane w programie Excel — szczególnie w przypadku raportowania finansowego.

Publikujemy słowniki danych, które zawierają informacje referencyjne dotyczące naszych modeli danych. Są one udostępniane naszym użytkownikom, aby mogli odnajdywać informacje o naszej platformie analizy biznesowej. Słowniki projektu modeli dokumentów, udostępniając opisy jednostek, formatów, struktury, pochodzenia danych, relacji i obliczeń. Usługa Azure Data Catalog umożliwia łatwe odnajdywanie i zrozumienie naszych źródeł danych.

Zazwyczaj wzorce użycia danych różnią się w zależności od roli:

  • Analitycy danych łączą się bezpośrednio z podstawowymi modelami semantycznymi analizy biznesowej. Gdy podstawowe modele semantyczne analizy biznesowej zawierają wszystkie potrzebne dane i logikę, używają połączeń na żywo do tworzenia raportów i pulpitów nawigacyjnych usługi Power BI. Gdy trzeba rozszerzyć modele przy użyciu danych działów, tworzą modele złożone usługi Power BI. Jeśli potrzebujesz raportów w stylu arkusza kalkulacyjnego, używają one programu Excel do tworzenia raportów na podstawie podstawowych modeli semantycznych analizy biznesowej lub semantycznych modeli analizy biznesowej dla działów.
  • Deweloperzy analizy biznesowej i autorzy raportów operacyjnych łączą się bezpośrednio z modelami przedsiębiorstwa. Używają programu Power BI Desktop do tworzenia raportów analitycznych połączeń na żywo. Mogą również tworzyć raporty analizy biznesowej typu operacyjnego jako raporty usługi Power BI podzielone na strony, pisząc natywne zapytania SQL w celu uzyskania dostępu do danych z modeli przedsiębiorstwa usługi Azure Synapse Analytics przy użyciu języka T-SQL lub modeli semantycznych usługi Power BI przy użyciu języka DAX lub MDX.
  • Analitycy danych łączą się bezpośrednio z danymi w usłudze Data Lake. Używają one notesów usługi Azure Databricks i python do tworzenia modeli uczenia maszynowego, które są często eksperymentalne i wymagają specjalnych umiejętności do użytku produkcyjnego.

An image shows consumption of Azure Synapse Analytics with Power BI, Excel, and Azure Machine Learning.

Aby uzyskać więcej informacji na temat tego artykułu, zapoznaj się z następującymi zasobami:

Usługi specjalistyczne

Certyfikowani partnerzy usługi Power BI są dostępni, aby pomóc organizacji w pomyślnym skonfigurowaniu środowiska COE. Mogą one zapewnić ekonomiczne szkolenie lub inspekcję danych. Aby zaangażować partnera usługi Power BI, odwiedź portal partnerski usługi Power BI.

Możesz również współpracować z doświadczonymi partnerami konsultingowymi. Mogą one pomóc w ocenie, ocenie lub zaimplementowaniu usługi Power BI.