Analiza danych big data z zabezpieczeniami klasy korporacyjnej przy użyciu usługi Azure Synapse

Azure Analysis Services
Azure Data Lake Storage
Azure Synapse Analytics

Pomysły dotyczące rozwiązań

Ten artykuł jest pomysłem na rozwiązanie. Jeśli chcesz, abyśmy rozszerzyli zawartość o więcej informacji, takich jak potencjalne przypadki użycia, alternatywne usługi, zagadnienia dotyczące implementacji lub wskazówki dotyczące cen, daj nam znać, przekazując opinię w usłudze GitHub.

Rozwiązanie opisane w tym artykule pokazuje, jak za pomocą usługi Azure Synapse Analytics utworzyć nowoczesną platformę danych do pozyskiwania, przetwarzania, przechowywania, obsługi i wizualizowania danych z różnych źródeł.

Architektura

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

Pobierz plik programu Visio z tą architekturą.

Przepływ danych

Dane przepływa przez rozwiązanie w następujący sposób:

  1. Potoki usługi Synapse kopiują działania pozyskiwania nieprzetworzonych danych ustrukturyzowanych z relacyjnych magazynów danych, częściowo ustrukturyzowanych danych, takich jak dzienniki, pliki płaskie i xml oraz inne systemy źródłowe. Te pozyskane dane są następnie przechowywane w lokalizacji usługi Azure Data Lake Storage Gen2. Za pomocą własnego środowiska Integration Runtime można również zarządzać i uruchamiać działania kopiowania między magazynem danych w środowisku lokalnym i w chmurze.

  2. Usługa Azure Data Lake Storage Gen2 zapewnia bezpieczny magazyn.

    • Użycie zapory w celu ograniczenia dostępu konta magazynu do zaufanych usług platformy Azure jest zalecane w celu ograniczenia luk w zabezpieczeniach ataków zewnętrznych.

    • Prywatne punkty końcowe dla kont usługi Azure Storage umożliwiają klientom w sieci wirtualnej bezpieczny dostęp do danych za pośrednictwem usługi Private Link. Prywatny punkt końcowy używa adresu IP z przestrzeni adresowej sieci wirtualnej dla usługi konta magazynu. Ruch sieciowy między klientami w sieci wirtualnej a kontem magazynu przechodzi przez sieć wirtualną i łącze prywatne w sieci szkieletowej firmy Microsoft, eliminując narażenie na publiczny Internet.

  3. Dane są szyfrowane w spoczynku po ich pozyskiwaniu do magazynu data lake. Użycie własnych kluczy zarządzanych przez klienta może dodatkowo chronić klucze szyfrowania i zwiększyć elastyczność zarządzania mechanizmami kontroli dostępu.

  4. Dane są pozyskiwane przy użyciu potoków usługi Synapse i przetwarzane na etapach przy użyciu puli platformy Synapse Spark i jej możliwości usługi Data Lake. Dane są przechowywane na koncie usługi Azure Storage przy użyciu katalogów usługi Azure Data Lake Storage Gen 2 specyficznych dla etapu. Te etapy to:

    1. Potoki usługi Synapse początkowo pozyskują dane z systemów źródłowych. Te pozyskane dane są przechowywane w formacie nieprzetworzonym przy użyciu katalogu Data Lake's Bronze .

    2. Następnie pula usługi Synapse Spark uruchamia reguły jakości danych w celu oczyszczenia danych pierwotnych. Te wzbogacone dane są następnie przechowywane w katalogu Silver usługi Data Lake.

    3. Po zakończeniu procesu czyszczenia pula Platformy Spark stosuje wszelkie wymagane normalizacje, przekształcenia danych i reguły biznesowe dotyczące danych w katalogu Silver. Te przekształcone dane są następnie przechowywane w katalogu Gold usługi Data Lake.

  5. Łącznik Synapse Apache Spark do usługi Synapse SQL wypycha znormalizowane dane do puli SQL usługi Synapse na potrzeby użycia przez aplikacje podrzędne i usługi raportowania, takie jak Power BI. Ten łącznik został zaprojektowany w celu optymalnego transferu danych między bezserwerowych pul platformy Apache Spark a pulami SQL w obszarze roboczym usługi Azure Synapse Analytics.

  6. Usługa Power BI używa trybu DirectQuery do bezpiecznego pobierania danych z puli SQL usługi Synapse. Brama danych zainstalowana na maszynie wirtualnej w prywatnej sieci wirtualnej działa jako platforma łącząca się między usługa Power BI a pulą SQL usługi Synapse przy użyciu prywatnego punktu końcowego w tej samej sieci wirtualnej, aby bezpiecznie nawiązać połączenie.

  7. Aplikacje zewnętrzne mogą uzyskiwać dostęp do danych z pul bezserwerowych usługi Synapse lub dedykowanych pul SQL, korzystając z odpowiednich prywatnych punktów końcowych połączonych z siecią wirtualną.

To przykładowe rozwiązanie korzysta z kilku usług i funkcji platformy Azure:

  • Usługa Azure Synapse Analytics to podstawowa usługa używana w tym przykładowym rozwiązaniu do dostarczania pozyskiwania, przetwarzania i analizy danych.

  • Usługa Azure Data Lake Storage (Gen2) jest oparta na usługach Azure Storage i udostępnia funkcje usługi Data Lake używane przez inne usługi w tym przykładowym rozwiązaniu podczas przechowywania i przetwarzania danych.

  • Potoki usługi Synapse kopiują dane z oryginalnych źródeł do lokalizacji magazynu usługi Data Lake.

  • Platforma Apache Spark w usłudze Azure Synapse Analytics czyści, normalizuje i wykonuje inne zadania przetwarzania danych pozyskanych z lokalizacji źródłowych.

  • Dedykowana pula SQL (dawniej SQL DW) zapewnia funkcje magazynowania danych dla danych po ich przetworzeniu i znormalizowaniu oraz są gotowe do użycia przez użytkowników końcowych i aplikacje.

  • Bezserwerowa pula SQL umożliwia użytkownikom szybkie wykonywanie zapytań i analizowanie przetworzonych i znormalizowanych danych.

  • Zarządzana sieć wirtualna usługi Azure Synapse tworzy izolowane zarządzane środowisko sieciowe dla obszaru roboczego usługi Azure Synapse, odciążając konieczność zarządzania konfiguracją sieci dla zasobów obszaru roboczego.

  • Prywatne punkty końcowe zarządzane w usłudze Azure Synapse ustanawiają prywatne linki do zasobów platformy Azure i kierują ruch między obszarami roboczymi usługi Azure Synapse i innymi zasobami platformy Azure przy użyciu tylko sieci szkieletowej firmy Microsoft.

  • Usługa Azure Virtual Network (VNet) udostępnia funkcje sieci prywatnej dla zasobów platformy Azure, które nie są częścią obszaru roboczego usługi Azure Synapse. Umożliwia zarządzanie dostępem, zabezpieczeniami i routingiem między zasobami.

  • Prywatny punkt końcowy platformy Azure zapewnia prywatny adres IP z sieci wirtualnej rozwiązania do usług zarządzanych platformy Azure, co skutecznie łączy usługę z siecią wirtualną. Umożliwia to bezpieczną sieć między obszarem roboczym usługi Azure Synapse i innymi usługami platformy Azure, takimi jak Azure Storage, Azure Cosmos DB, Azure SQL Database lub własna usługa Azure Private Link.

  • Usługa Power BI umożliwia użytkownikom przeprowadzanie zaawansowanej analizy i udostępnianie szczegółowych informacji przy użyciu przetworzonych danych rozwiązania.

Elementy

Szczegóły scenariusza

Usługa Azure Synapse Analytics łączy integrację danych, magazynowanie danych przedsiębiorstwa i analizę danych big data, aby ułatwić tworzenie nowoczesnej platformy danych umożliwiającej obsługę najbardziej typowych wyzwań związanych z danymi, przed którymi stoją duże organizacje. Usługa Azure Virtual Network umożliwia tworzenie własnej sieci prywatnej w chmurze publicznej platformy Azure i sieci zarządzanej, a prywatny punkt końcowy platformy Azure umożliwia bezpieczną integrację zarządzanych usług w chmurze z tymi sieciami prywatnymi.

Potencjalne przypadki użycia

Rozwiązanie opisane w tym artykule pokazuje, jak połączyć te technologie w celu utworzenia nowoczesnej platformy danych, która może pozyskiwać, przetwarzać, przechowywać, obsługiwać i wizualizować dane z różnych źródeł, zarówno ustrukturyzowanych, jak i częściowo ustrukturyzowanych, przy jednoczesnym spełnieniu wysokich standardów zabezpieczeń oczekiwanych przez organizację. Obejmuje to obsługę typowych wymagań, takich jak:

  • Zabezpieczanie źródeł danych. Źródła danych w lokalnej sieci firmowej lub w sieci wirtualnej są zabezpieczone za zaporą. Te zasoby można bezpiecznie uzyskać, instalując własne środowisko Integration Runtime w zasobie hostowanym lokalnie lub w sieciach wirtualnych.

  • Uwierzytelnianie i autoryzacja przy użyciu tożsamości zarządzanych. Komunikację między usługami platformy Azure można zabezpieczyć przy użyciu tożsamości zarządzanych, które zapewniają tożsamość aplikacji do użycia podczas nawiązywania połączenia z zasobami obsługującymi uwierzytelnianie firmy Microsoft Entra. W tym przykładzie usługa Azure Synapse używa tożsamości zarządzanej do integracji potoków.

  • Prywatne punkty końcowe ustanawiające link prywatny do zasobów platformy Azure. Usługa Azure Synapse zapewnia w pełni zarządzane funkcje prywatnego punktu końcowego dla usług w obszarze roboczym usługi Synapse (np. Azure Storage lub Azure Cosmos DB). Inne zasoby platformy Azure, takie jak aplikacje platformy Azure, usługa Microsoft Power BI i usługa Azure Synapse, są zabezpieczone przy użyciu prywatnych punktów końcowych zintegrowanych z siecią wirtualną przykładowego rozwiązania. Ruch sieciowy między siecią prywatną a pulami usługi Synapse używa usługi Private Link do przenoszenia ruchu przez sieć szkieletową firmy Microsoft, eliminując narażenie na publiczny Internet.

  • Szyfrowanie danych podczas przesyłania. Dane są szyfrowane podczas przesyłania, ponieważ wszystkie transfery danych są przesyłane za pośrednictwem protokołu HTTPS bezpiecznego kanału i protokołu TLS za pośrednictwem protokołu TCP, aby zapobiec atakom typu man-in-the-middle podczas komunikacji z usługami platformy Azure, zapewniając kompleksowe bezpieczne przenoszenie danych prywatnych.

  • Szyfrowanie danych magazynowanych. Funkcja Transparent Data Encryption w usłudze Azure Synapse Analytics pomaga chronić przed złośliwym działaniem, wykonując szyfrowanie i odszyfrowywanie danych przechowywanych w obszarze roboczym usługi Synapse w czasie rzeczywistym. Usługa Azure Storage szyfruje również wszystkie dane na koncie magazynu magazynowanych. Domyślnie dane są szyfrowane przy użyciu kluczy zarządzanych przez firmę Microsoft, ale możesz zarządzać własnymi kluczami, jeśli potrzebujesz dodatkowej kontroli nad szyfrowaniem.

Wdrażanie tego scenariusza

Musisz mieć istniejące konto platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.

Szablony usługi Azure Resource Manager, które należy wdrożyć składniki opisane w tej architekturze, są dostępne w repozytorium GitHub . Te szablony będą wdrażać wszystkie usługi pokazane na diagramie architektury z wyjątkiem: bramy danych usługi Power BI, własnego środowiska Integration Runtime i usługi Azure Key Vault dla kluczy zarządzanych przez klienta.

Użytkownik może utworzyć strukturę folderów data lake i potoki integracji usługi Azure Synapse Analytics niezbędne do nawiązania połączenia ze źródłami danych.

Wdróż szablon usługi ARM bezpośrednio, klikając ten przycisk:

Deploy to Azure

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Następne kroki

Aby dowiedzieć się, jak dalej opracowywać to podejście, zapoznaj się z podstawami usługi Azure Synapse Analytics, wykonując następujące samouczki:

Zapoznaj się z tymi artykułami podczas planowania i wdrażania rozwiązań przy użyciu usługi Azure Synapse Analytics: