Nowoczesna architektura analizy za pomocą usługi Azure Databricks

Data Factory
Data Lake Storage
Databricks
Synapse Analytics
Power BI

Pomysły dotyczące rozwiązań

Ten artykuł jest pomysłem na rozwiązanie. Jeśli chcesz, abyśmy rozszerzyli zawartość o więcej informacji, takich jak potencjalne przypadki użycia, alternatywne usługi, zagadnienia dotyczące implementacji lub wskazówki dotyczące cen, daj nam znać, przekazując opinię w usłudze GitHub.

To rozwiązanie przedstawia nowoczesną architekturę danych. Usługa Azure Databricks stanowi rdzeń rozwiązania. Ta platforma bezproblemowo współpracuje z innymi usługami, takimi jak Azure Data Lake Storage Gen2, Azure Data Factory, Azure Synapse Analytics i Power BI.

Architektura

Diagram architektury przedstawiający sposób, w jaki nowoczesna architektura danych zbiera, przetwarza, analizuje i wizualizuje dane.

Diagram zawiera kilka szarych prostokątów. Etykiety na prostokątach odczytują operacje pozyskiwania, przetwarzania, obsługi, przechowywania i monitorowania oraz zarządzania. Każdy prostokąt zawiera ikony reprezentujące usługi platformy Azure lub partnerów. Ikona usługi Azure Databricks znajduje się w środku wraz z ikoną Data Lake Storage Gen2. Strzałki wskazują tam iz powrotem między ikonami. Strzałki pokazują, jak dane przepływają przez system, jak opisano kroki objaśnienia diagramu. Najniższy prostokąt rozciąga się w dolnej części diagramu. Zawiera ikony usług, które monitorują operacje i informacje oraz zarządzają nią.

Pobierz plik programu Visio z tą architekturą.

Przepływ danych

  1. Usługa Azure Databricks pozyskuj nieprzetworzone dane przesyłane strumieniowo z Azure Event Hubs.

  2. Usługa Data Factory ładuje nieprzetworzone dane wsadowe do Data Lake Storage Gen2.

  3. W przypadku magazynu danych:

    • Data Lake Storage Gen2 dane wszystkich typów, takie jak ustrukturyzowane, bez struktury i częściowo ustrukturyzowane. Przechowuje również dane wsadowe i przesyłane strumieniowo.

    • Usługa Delta Lake tworzy wyselekcjonowane warstwy magazynu data lake. Dane uściślione są przechowywane w formacie open source.

    • Usługa Azure Databricks dobrze współpracuje z architekturą medalonu , która organizuje dane w warstwy:

      • Brąz: przechowuje nieprzetworzone dane.
      • Silver: zawiera oczyszczone, przefiltrowane dane.
      • Złoto: przechowuje zagregowane dane przydatne do analizy biznesowej.
  4. Platforma analityczna pozyskuje dane z różnych źródeł wsadowych i przesyłanych strumieniowo. Analitycy danych używają tych danych do wykonywania następujących zadań:

    • Przygotowywanie danych.
    • Eksploracja danych.
    • Przygotowanie modelu.
    • Trenowanie modelu.

    Platforma MLflow zarządza parametrami, metrykami i śledzeniem modeli w przebiegach kodu nauki o danych. Możliwości kodowania są elastyczne:

    • Kod może być w językach SQL, Python, R i Scala.
    • Kod może używać popularnych bibliotek i struktur typu open source, takich jak Koalas, Pandas i scikit-learn, które są wstępnie zainstalowane i zoptymalizowane.
    • Praktycy mogą zoptymalizować wydajność i koszty przy użyciu opcji obliczeniowych z jednym węzłem i wieloma węzłami.
  5. Modele uczenia maszynowego są dostępne w kilku formatach:

    • Usługa Azure Databricks przechowuje informacje o modelach w rejestrze modeli MLflow. Rejestr udostępnia modele za pośrednictwem interfejsów API usługi Batch, przesyłania strumieniowego i REST.
    • Rozwiązanie może również wdrażać modele w usługach sieci Web Azure Machine Learning lub Azure Kubernetes Service (AKS).
  6. Usługi współpracujące z danymi łączą się z pojedynczym bazowym źródłem danych, aby zapewnić spójność. Na przykład użytkownicy mogą uruchamiać zapytania SQL w usłudze Data Lake za pomocą usługi Azure Databricks SQL Analytics. Ta usługa:

  7. Usługa Power BI generuje raporty analityczne i historyczne oraz pulpity nawigacyjne z ujednoliconej platformy danych. Ta usługa używa tych funkcji podczas pracy z usługą Azure Databricks:

  8. Użytkownicy mogą eksportować złote zestawy danych z usługi Data Lake do Azure Synapse za pośrednictwem zoptymalizowanego łącznika usługi Synapse. Pule SQL w Azure Synapse zapewniają magazynowanie danych i środowisko obliczeniowe.

  9. Rozwiązanie korzysta z usług platformy Azure do współpracy, wydajności, niezawodności, ładu i zabezpieczeń:

    • Usługa Microsoft Purview udostępnia usługi odnajdywania danych, klasyfikację poufnych danych i wgląd w ład w całej infrastrukturze danych.

    • Usługa Azure DevOps oferuje ciągłą integrację i ciągłe wdrażanie (CI/CD) oraz inne zintegrowane funkcje kontroli wersji.

    • Usługa Azure Key Vault bezpiecznie zarządza wpisami tajnymi, kluczami i certyfikatami.

    • Usługa Azure Active Directory (Azure AD) udostępnia logowanie jednokrotne dla użytkowników usługi Azure Databricks. Usługa Azure Databricks obsługuje automatyczną aprowizację użytkowników przy użyciu Azure AD dla następujących zadań:

      • Tworzenie nowych użytkowników.
      • Przypisywanie każdemu użytkownikowi poziomu dostępu.
      • Usuwanie użytkowników i odmawianie im dostępu.
    • Usługa Azure Monitor zbiera i analizuje dane telemetryczne zasobów platformy Azure. Dzięki proaktywnej identyfikacji problemów ta usługa maksymalizuje wydajność i niezawodność.

    • Zarządzanie kosztami i rozliczenia platformy Azure zapewniają usługi zapewniania ładu finansowego dla obciążeń platformy Azure.

Składniki

Rozwiązanie korzysta z następujących składników.

Podstawowe składniki

  • Azure Databricks to platforma analizy danych. W pełni zarządzane klastry Spark przetwarzają duże strumienie danych z wielu źródeł. Usługa Azure Databricks czyści i przekształca bez struktury zestawy danych. Łączy ona przetworzone dane z danymi ustrukturyzowanymi z operacyjnych baz danych lub magazynów danych. Usługa Azure Databricks szkoli również i wdraża skalowalne modele uczenia maszynowego i uczenia głębokiego.

  • Event Hubs to platforma przesyłania strumieniowego danych big data. Jako platforma jako usługa (PaaS) ta usługa pozyskiwania zdarzeń jest w pełni zarządzana.

  • Data Factory to hybrydowa usługa integracji danych. To w pełni zarządzane, bezserwerowe rozwiązanie umożliwia tworzenie, planowanie i organizowanie przepływów pracy przekształcania danych.

  • Data Lake Storage Gen2 jest skalowalnym i bezpiecznym magazynem data lake dla obciążeń analitycznych o wysokiej wydajności. Ta usługa może zarządzać wieloma petabajtami informacji przy zachowaniu setek gigabitów przepływności. Dane mogą być ustrukturyzowane, częściowo ustrukturyzowane lub nieustrukturyzowane. Zazwyczaj pochodzi z wielu heterogenicznych źródeł, takich jak dzienniki, pliki i nośniki.

  • Usługa Azure Databricks SQL Analytics uruchamia zapytania w magazynach data lake. Ta usługa wizualizuje również dane na pulpitach nawigacyjnych.

  • Machine Learning to środowisko oparte na chmurze, które ułatwia tworzenie, wdrażanie i zarządzanie rozwiązaniami analizy predykcyjnej. Dzięki tym modelom można prognozować zachowanie, wyniki i trendy.

  • Usługa AKS to wysoce dostępna, bezpieczna i w pełni zarządzana usługa Kubernetes. Usługa AKS ułatwia wdrażanie konteneryzowanych aplikacji i zarządzanie nimi.

  • Azure Synapse to usługa analityczna dla magazynów danych i systemów danych big data. Ta usługa integruje się z usługami Power BI, Machine Learning i innymi usługami platformy Azure.

  • Azure Synapse łączniki umożliwiają dostęp do Azure Synapse z usługi Azure Databricks. Te łączniki efektywnie przesyłają duże ilości danych między klastrami usługi Azure Databricks i wystąpieniami Azure Synapse.

  • Pule SQL zapewniają magazynowanie danych i środowisko obliczeniowe w Azure Synapse. Pule są zgodne z usługą Azure Storage i Data Lake Storage Gen2.

  • Delta Lake to warstwa magazynu, która używa otwartego formatu pliku. Ta warstwa jest uruchamiana na podstawie magazynu w chmurze, takiego jak Data Lake Storage Gen2. Usługa Delta Lake obsługuje przechowywanie wersji danych, wycofywanie i transakcje na potrzeby aktualizowania, usuwania i scalania danych.

  • MLflow to platforma typu open source dla cyklu życia uczenia maszynowego. Jego składniki monitorują modele uczenia maszynowego podczas trenowania i uruchamiania. Platforma MLflow przechowuje również modele i ładuje je w środowisku produkcyjnym.

Raportowanie i zarządzanie składnikami

  • Power BI to zbiór usług i aplikacji oprogramowania. Te usługi tworzą i udostępniają raporty, które łączą się i wizualizować niepowiązane źródła danych. Wraz z usługą Azure Databricks usługa Power BI może zapewnić ustalenie głównej przyczyny i analizę nieprzetworzonych danych.

  • Usługa Microsoft Purview zarządza danymi lokalnymi, wielochmurowymi i oprogramowania jako usługi (SaaS). Ta usługa zapewniania ładu obsługuje mapy poziome danych. Funkcje obejmują automatyczne odnajdywanie danych, klasyfikację poufnych danych i pochodzenie danych.

  • Azure DevOps to platforma orkiestracji DevOps. Ten model SaaS udostępnia narzędzia i środowiska do tworzenia, wdrażania i współpracy nad aplikacjami.

  • Usługa Azure Key Vault przechowuje i kontroluje dostęp do wpisów tajnych, takich jak tokeny, hasła i klucze interfejsu API. Key Vault również tworzy i kontroluje klucze szyfrowania oraz zarządza certyfikatami zabezpieczeń.

  • Azure AD oferuje oparte na chmurze usługi zarządzania tożsamościami i dostępem. Te funkcje umożliwiają użytkownikom logowanie się i uzyskiwanie dostępu do zasobów.

  • Usługa Azure Monitor zbiera i analizuje dane w środowiskach i zasobach platformy Azure. Te dane obejmują dane telemetryczne aplikacji, takie jak metryki wydajności i dzienniki aktywności.

  • Zarządzanie kosztami i rozliczeniami na platformie Azure — zarządzanie wydatkami w chmurze. Korzystając z budżetów i zaleceń, ta usługa organizuje wydatki i pokazuje, jak zmniejszyć koszty.

Szczegóły scenariusza

Nowoczesne architektury danych spełniają następujące kryteria:

  • Ujednolicenie obciążeń danych, analiz i sztucznej inteligencji.
  • Działa wydajnie i niezawodnie w dowolnej skali.
  • Udostępnianie szczegółowych informacji za pośrednictwem pulpitów nawigacyjnych analizy, raportów operacyjnych lub zaawansowanych analiz.

To rozwiązanie przedstawia nowoczesną architekturę danych, która osiąga te cele. Usługa Azure Databricks stanowi rdzeń rozwiązania. Ta platforma bezproblemowo współpracuje z innymi usługami. Razem te usługi zapewniają rozwiązanie o następujących cechach:

  • Proste: Ujednolicona analiza, nauka o danych i uczenie maszynowe upraszczają architekturę danych.
  • Otwarte: rozwiązanie obsługuje kod typu open source, otwarte standardy i otwarte struktury. Działa również z popularnymi zintegrowanymi środowiskami projektowymi (IDE), bibliotekami i językami programowania. Dzięki natywnym łącznikom i interfejsom API rozwiązanie działa również z szeroką gamą innych usług.
  • Współpraca: inżynierowie danych, analitycy danych i analitycy współpracują z tym rozwiązaniem. Mogą używać notesów współpracy, środowisk IDE, pulpitów nawigacyjnych i innych narzędzi do uzyskiwania dostępu do typowych danych bazowych i analizowania ich.

Potencjalne przypadki użycia

System, który Swiss Re Group zbudował dla działu Property & Casualty Reasekursji zainspirował to rozwiązanie. Oprócz branży ubezpieczeniowej każdy obszar, który współpracuje z danymi big data lub uczeniem maszynowym, może również skorzystać z tego rozwiązania. Przykłady:

  • Sektor energetyczny
  • Handel detaliczny i handel elektroniczny
  • Bankowość i finanse
  • Medycyna i opieka zdrowotna

Następne kroki

Aby dowiedzieć się więcej o powiązanych rozwiązaniach, zobacz następujące informacje: