Nowoczesna architektura analizy przy użyciu usługi Azure Databricks

Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

Pomysły dotyczące rozwiązań

Ten artykuł jest pomysłem na rozwiązanie. Jeśli chcesz, abyśmy rozszerzyli zawartość o więcej informacji, takich jak potencjalne przypadki użycia, alternatywne usługi, zagadnienia dotyczące implementacji lub wskazówki dotyczące cen, daj nam znać, przekazując opinię w usłudze GitHub.

To rozwiązanie przedstawia nowoczesną architekturę danych. Usługa Azure Databricks stanowi rdzeń rozwiązania. Ta platforma bezproblemowo współpracuje z innymi usługami, takimi jak Azure Data Lake Storage Gen2, Azure Data Factory, Azure Synapse Analytics i Power BI.

Apache i Apache® Spark™ są zastrzeżonymi znakami towarowymi lub znakami towarowymi platformy Apache Software Foundation w Stany Zjednoczone i/lub innych krajach. Użycie tych znaków nie jest dorozumiane przez fundację Apache Software Foundation.

Architektura

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

Pobierz plik programu Visio z tą architekturą.

Przepływ danych

  1. Usługa Azure Databricks pozyskiwa nieprzetworzone dane przesyłane strumieniowo z usługi Azure Event Hubs.

  2. Usługa Data Factory ładuje nieprzetworzone dane wsadowe do usługi Data Lake Storage Gen2.

  3. W przypadku magazynu danych:

    • Usługa Data Lake Storage Gen2 zawiera dane wszystkich typów, takie jak ustrukturyzowane, nieustrukturyzowane i częściowo ustrukturyzowane. Przechowuje również dane wsadowe i przesyłane strumieniowo.

    • Usługa Delta Lake tworzy wyselekcjonowane warstwy magazynu data lake. Dane uściślione są przechowywane w formacie open source.

    • Usługa Azure Databricks dobrze współpracuje z architekturą medalionu, która organizuje dane w warstwy:

      • Brąz: przechowuje nieprzetworzone dane.
      • Silver: zawiera oczyszczone, przefiltrowane dane.
      • Złoto: przechowuje zagregowane dane przydatne do analizy biznesowej.
  4. Platforma analityczna pozyskuje dane z różnych źródeł wsadowych i przesyłanych strumieniowo. Analitycy danych używają tych danych do wykonywania następujących zadań:

    • Przygotowywanie danych.
    • Eksploracja danych.
    • Przygotowanie modelu.
    • Trenowanie modelu.

    Rozwiązanie MLflow zarządza parametrami, metrykami i śledzeniem modeli w przebiegach kodu nauki o danych. Możliwości kodowania są elastyczne:

    • Kod może znajdować się w języku SQL, Python, R i Scala.
    • Kod może używać popularnych bibliotek i struktur typu open source, takich jak Koalas, Pandas i scikit-learn, które są wstępnie zainstalowane i zoptymalizowane.
    • Praktycy mogą zoptymalizować wydajność i koszty przy użyciu opcji obliczeniowych z jednym węzłem i wieloma węzłami.
  5. Modele uczenia maszynowego są dostępne w kilku formatach:

    • Usługa Azure Databricks przechowuje informacje o modelach w rejestrze modeli MLflow. Rejestr udostępnia modele za pośrednictwem interfejsów API wsadowych, przesyłanych strumieniowo i REST.
    • Rozwiązanie może również wdrażać modele w usłudze Azure Machine Edukacja usług internetowych lub Azure Kubernetes Service (AKS).
  6. Usługi współpracujące z danymi łączą się z jednym bazowym źródłem danych w celu zapewnienia spójności. Na przykład użytkownicy mogą uruchamiać zapytania SQL w usłudze Data Lake za pomocą usługi Azure Databricks SQL Analytics. Ta usługa:

    • Udostępnia edytor zapytań i katalog, historię zapytań, podstawowe pulpity nawigacyjne i alerty.
    • Używa zintegrowanych zabezpieczeń, które obejmują uprawnienia na poziomie wiersza i na poziomie kolumny.
    • Do przyspieszenia wydajności używa aparatu delta obsługiwanego przez aparat delta firmy Photon.
  7. Usługa Power BI generuje raporty analityczne i historyczne oraz pulpity nawigacyjne z ujednoliconej platformy danych. Ta usługa używa tych funkcji podczas pracy z usługą Azure Databricks:

    • Wbudowany łącznik usługi Azure Databricks umożliwiający wizualizowanie bazowych danych.
    • Zoptymalizowane sterowniki Połączenie ivity (JDBC) i Open Database Połączenie ivity (ODBC).
  8. Użytkownicy mogą eksportować złote zestawy danych z usługi Data Lake do usługi Azure Synapse za pośrednictwem zoptymalizowanego łącznika usługi Synapse. Pule SQL w usłudze Azure Synapse zapewniają magazynowanie danych i środowisko obliczeniowe.

  9. Rozwiązanie korzysta z usług platformy Azure do współpracy, wydajności, niezawodności, ładu i zabezpieczeń:

    • Usługa Microsoft Purview udostępnia usługi odnajdywania danych, klasyfikację poufnych danych i szczegółowe informacje dotyczące ładu w obrębie infrastruktury danych.

    • Usługa Azure DevOps oferuje ciągłą integrację i ciągłe wdrażanie (CI/CD) oraz inne zintegrowane funkcje kontroli wersji.

    • Usługa Azure Key Vault bezpiecznie zarządza wpisami tajnymi, kluczami i certyfikatami.

    • Usługa Microsoft Entra ID udostępnia logowanie jednokrotne dla użytkowników usługi Azure Databricks. Usługa Azure Databricks obsługuje automatyczną aprowizację użytkowników przy użyciu identyfikatora Entra firmy Microsoft dla następujących zadań:

      • Tworzenie nowych użytkowników.
      • Przypisywanie każdemu użytkownikowi poziomu dostępu.
      • Usuwanie użytkowników i odmawianie im dostępu.
    • Usługa Azure Monitor zbiera i analizuje dane telemetryczne zasobów platformy Azure. Dzięki proaktywnej identyfikacji problemów ta usługa maksymalizuje wydajność i niezawodność.

    • Zarządzanie kosztami i rozliczenia platformy Azure zapewniają usługi zapewniania ładu finansowego dla obciążeń platformy Azure.

Składniki

Rozwiązanie korzysta z następujących składników.

Podstawowe składniki

  • Azure Databricks to platforma do analizy danych. W pełni zarządzane klastry Spark przetwarzają duże strumienie danych z wielu źródeł. Usługa Azure Databricks czyści i przekształca bez struktury zestawy danych. Łączy przetwarzane dane ze strukturą z operacyjnych baz danych lub magazynów danych. Usługa Azure Databricks szkoli również i wdraża skalowalne modele uczenia maszynowego i uczenia głębokiego.

  • Event Hubs to platforma przesyłania strumieniowego danych big data. Jako platforma jako usługa (PaaS) ta usługa pozyskiwania zdarzeń jest w pełni zarządzana.

  • Data Factory to hybrydowa usługa integracji danych. Tego w pełni zarządzanego rozwiązania bezserwerowego można używać do tworzenia, planowania i organizowania przepływów pracy przekształcania danych.

  • Usługa Data Lake Storage Gen2 jest skalowalnym i bezpiecznym magazynem danych w przypadku obciążeń analitycznych o wysokiej wydajności. Ta usługa może zarządzać wieloma petabajtami informacji, jednocześnie utrzymując setki gigabitów przepływności. Dane mogą być ustrukturyzowane, częściowo ustrukturyzowane lub nieustrukturyzowane. Zazwyczaj pochodzi z wielu heterogenicznych źródeł, takich jak dzienniki, pliki i nośniki.

  • Usługa Azure Databricks SQL Analytics uruchamia zapytania dotyczące magazynów data lake. Ta usługa wizualizuje również dane na pulpitach nawigacyjnych.

  • Usługa Machine Edukacja to środowisko oparte na chmurze, które ułatwia tworzenie, wdrażanie i zarządzanie rozwiązaniami analizy predykcyjnej. Dzięki tym modelom można prognozować zachowanie, wyniki i trendy.

  • Usługa AKS jest usługą Kubernetes o wysokiej dostępności, bezpiecznym i w pełni zarządzanym. Usługa AKS ułatwia wdrażanie konteneryzowanych aplikacji i zarządzanie nimi.

  • Azure Synapse to usługa analityczna dla magazynów danych i systemów danych big data. Ta usługa integruje się z usługami Power BI, Machine Edukacja i innymi usługami platformy Azure.

  • Łączniki usługi Azure Synapse umożliwiają dostęp do usługi Azure Synapse z usługi Azure Databricks. Te łączniki efektywnie przesyłają duże ilości danych między klastrami usługi Azure Databricks i wystąpieniami usługi Azure Synapse.

  • Pule SQL zapewniają magazynowanie danych i środowisko obliczeniowe w usłudze Azure Synapse. Pule są zgodne z usługami Azure Storage i Data Lake Storage Gen2.

  • Usługa Delta Lake to warstwa magazynu, która używa otwartego formatu pliku. Ta warstwa działa na podstawie magazynu w chmurze, takiego jak Data Lake Storage Gen2. Usługa Delta Lake obsługuje przechowywanie wersji danych, wycofywanie i transakcje na potrzeby aktualizowania, usuwania i scalania danych.

  • MLflow to platforma typu open source dla cyklu życia uczenia maszynowego. Jego składniki monitorują modele uczenia maszynowego podczas trenowania i uruchamiania. MLflow przechowuje również modele i ładuje je w środowisku produkcyjnym.

Składniki raportowania i zarządzania

  • Power BI to kolekcja usług i aplikacji oprogramowania. Te usługi tworzą i udostępniają raporty łączące się i wizualizowane niepowiązane źródła danych. W połączeniu z usługą Azure Databricks usługa Power BI może zapewnić ustalenie głównej przyczyny i analizę danych pierwotnych.

  • Usługa Microsoft Purview zarządza danymi lokalnymi, wielochmurowymi i oprogramowaniem jako usługą (SaaS). Ta usługa zapewniania ładu obsługuje mapy poziome danych. Funkcje obejmują automatyczne odnajdywanie danych, klasyfikację poufnych danych i pochodzenie danych.

  • Azure DevOps to platforma orkiestracji DevOps . Ten model SaaS udostępnia narzędzia i środowiska do tworzenia, wdrażania i współpracy nad aplikacjami.

  • Usługa Azure Key Vault przechowuje i kontroluje dostęp do wpisów tajnych, takich jak tokeny, hasła i klucze interfejsu API. Usługa Key Vault tworzy również klucze szyfrowania i kontroluje je oraz zarządza certyfikatami zabezpieczeń.

  • Microsoft Entra ID oferuje oparte na chmurze usługi zarządzania tożsamościami i dostępem. Te funkcje umożliwiają użytkownikom logowanie się i uzyskiwanie dostępu do zasobów.

  • Usługa Azure Monitor zbiera i analizuje dane w środowiskach i zasobach platformy Azure. Te dane obejmują dane telemetryczne aplikacji, takie jak metryki wydajności i dzienniki aktywności.

  • Zarządzanie kosztami platformy Azure i rozliczenia — zarządzanie wydatkami w chmurze. Korzystając z budżetów i zaleceń, ta usługa organizuje wydatki i pokazuje, jak zmniejszyć koszty.

Szczegóły scenariusza

Nowoczesne architektury danych spełniają następujące kryteria:

  • Ujednolicenie obciążeń danych, analiz i sztucznej inteligencji.
  • Wydajnie i niezawodnie uruchamiaj w dowolnej skali.
  • Udostępnianie szczegółowych informacji za pośrednictwem pulpitów nawigacyjnych analizy, raportów operacyjnych lub zaawansowanych analiz.

To rozwiązanie przedstawia nowoczesną architekturę danych, która osiąga te cele. Usługa Azure Databricks stanowi rdzeń rozwiązania. Ta platforma bezproblemowo współpracuje z innymi usługami. Razem te usługi zapewniają rozwiązanie z następującymi cechami:

  • Proste: Ujednolicona analiza, nauka o danych i uczenie maszynowe upraszczają architekturę danych.
  • Otwarte: rozwiązanie obsługuje kod open source, otwarte standardy i otwarte platformy. Współpracuje również z popularnymi zintegrowanymi środowiskami projektowymi (IDE), bibliotekami i językami programowania. Dzięki natywnym łącznikom i interfejsom API rozwiązanie współpracuje również z szeroką gamą innych usług.
  • Współpraca: inżynierowie danych, analitycy danych i analitycy współpracują z tym rozwiązaniem. Mogą używać notesów współpracy, środowisk IDE, pulpitów nawigacyjnych i innych narzędzi do uzyskiwania dostępu do typowych danych bazowych i analizowania ich.

Potencjalne przypadki użycia

System, który Swiss Re Group zbudował dla działu Property & Casualty Reasekursji zainspirował to rozwiązanie. Oprócz branży ubezpieczeniowej każdy obszar, który współpracuje z danymi big data lub uczeniem maszynowym, może również skorzystać z tego rozwiązania. Oto kilka przykładów:

  • Sektor energetyczny
  • Handel detaliczny i elektroniczny
  • Bankowość i finanse
  • Medycyna i opieka zdrowotna

Następne kroki

Aby dowiedzieć się więcej o powiązanych rozwiązaniach, zobacz następujące informacje: