Strefy docelowe danych

Strefy docelowe danych są połączone ze strefą docelową zarządzania danymi za pomocą komunikacji równorzędnej sieci wirtualnej. Każda strefa docelowa danych jest uważana za strefę docelową powiązaną z architekturą strefy docelowej platformy Azure.

Ważne

Przed aprowizowaniem strefy docelowej danych upewnij się, że wdrożono model operacyjny DevOps i CIĄGŁEj integracji/ciągłego wdrażania oraz wdrożono strefę docelową zarządzania danymi.

Każda strefa docelowa danych ma kilka warstw, które umożliwiają elastyczność integracji danych usługi i produktów danych, które zawiera. Możesz wdrożyć nową strefę docelową danych ze standardowym zestawem usług, które umożliwiają strefie docelowej danych rozpoczęcie pozyskiwania i analizowania danych.

Twoja subskrypcja platformy Azure skojarzona ze strefą docelową danych ma następującą strukturę:

Warstwa Wymagania Grupy zasobów
Podstawowe usługi Tak
Aplikacja danych Opcjonalnie
Wizualizacji Opcjonalnie

Uwaga

Aplikacja danych tworzy co najmniej jeden produkt danych.

Architektura strefy docelowej danych

Architektura strefy docelowej danych ilustruje warstwy, ich grupy zasobów i usługi, które zawiera każda grupa zasobów. Architektura zawiera również omówienie wszystkich grup i ról skojarzonych ze strefą docelową danych oraz zakres ich dostępu do płaszczyzn kontroli i danych.

Diagram of the data landing zone architecture.

Napiwek

Przed wdrożeniem strefy docelowej danych należy wziąć pod uwagę liczbę początkowych stref docelowych danych, które chcesz wdrożyć.

Użyj tej architektury jako punktu wyjścia. Pobierz plik programu Visio i zmodyfikuj go w celu dopasowania do określonych wymagań biznesowych i technicznych podczas planowania implementacji strefy docelowej danych.

Warstwa usług podstawowych

Warstwa usług podstawowych obejmuje wszystkie usługi wymagane do włączenia strefy docelowej danych w kontekście analizy w skali chmury. W poniższej tabeli wymieniono grupy zasobów, które zapewniają standardowy zestaw dostępnych usług w każdej wdrożonej strefie docelowej danych.

Grupa zasobów Wymagania opis
network-rg Tak Sieć
databricks-monitoring-rg Opcjonalnie Monitorowanie obszarów roboczych usługi Azure Databricks
hive-rg Opcjonalnie Magazyn metadanych Hive dla usługi Azure Databricks
storage-rg Tak Usługi data lake
external-data-rg Tak Przekazywanie magazynu pozyskiwania
runtimes-rg Tak Udostępnione środowiska Integration Runtime
mgmt-rg Tak Agenci ciągłej integracji/ciągłego wdrażania
metadata-ingestion-rg Opcjonalnie Niezależne pozyskiwanie danych
databricks-monitoring-rg Opcjonalnie Obszar roboczy usługi Log Analytics dla obszarów roboczych usługi Databricks w strefie docelowej
shared-synapse-rg Opcjonalnie Udostępniono usługę Azure Synapse
shared-databricks-rg Opcjonalnie Udostępniony obszar roboczy usługi Azure Databricks

Sieć

Diagram of a data landing zone network resource group.

Grupa zasobów sieciowych zawiera podstawowe składniki, w tym usługę Azure Network Watcher, sieciowe grupy zabezpieczeń i sieć wirtualną. Wszystkie te usługi są wdrażane w jednej grupie zasobów.

Sieć wirtualna strefy docelowej danych jest automatycznie równorzędna z siecią wirtualną strefy docelowej zarządzania danymi i siecią wirtualną subskrypcji łączności.

Monitorowanie obszarów roboczych usługi Azure Databricks

Ta grupa zasobów jest opcjonalna i jest wdrażana tylko w usłudze Azure Databricks.

Diagram of data landing zone monitoring resource group.

Wzorzec strefy docelowej platformy Azure zaleca wysłanie wszystkich dzienników do centralnego obszaru roboczego usługi Log Analytics. Jednak każda strefa docelowa danych zawiera również grupę zasobów monitorowania do przechwytywania dzienników platformy Spark z usługi Databricks. Każda grupa zasobów zawiera udostępniony obszar roboczy usługi Log Analytics i usługę Azure Key Vault do przechowywania kluczy usługi Log Analytics.

Ważne

Użyj tylko obszaru roboczego usługi Log Analytics w grupie zasobów monitorowania usługi Databricks, aby przechwycić dzienniki platformy Spark usługi Azure Databricks.

Aby uzyskać więcej informacji, zobacz Monitorowanie usługi Azure Databricks.

Magazyn metadanych Hive dla usługi Azure Databricks

Ta grupa zasobów jest opcjonalna i powinna być wdrażana tylko w usłudze Azure Databricks.

Magazyn metadanych Hive dla usługi Azure Databricks aprowizuje bazę danych usługi Azure Database for MySQL i magazyn kluczy. Wszystkie obszary robocze usługi Azure Databricks w strefie docelowej danych używają tego magazynu metadanych jako zewnętrznego magazynu metadanych Apache Hive.

Aby uzyskać więcej informacji, zobacz Zewnętrzny magazyn metadanych Apache Hive.

Usługi Data Lake

Diagram of data landing zone data lake services resource group.

Jak pokazano na poprzednim diagramie, trzy konta usługi Azure Data Lake Storage Gen2 są aprowizowane w jednej grupie zasobów usług data lake. Dane przekształcone na różnych etapach są zapisywane w jednym z magazynów danych strefy docelowej danych. Dane są dostępne do użycia przez zespoły analityczne, nauki o danych i wizualizacji.

Warstwy usługi Data Lake używają innej terminologii w zależności od technologii i dostawcy. Ta tabela zawiera wskazówki dotyczące sposobu stosowania terminów do analizy w skali chmury:

Analiza w skali chmury Delta Lake Inne terminy opis
Nieprzetworzone Brązowe Lądowanie i zgodność Tabele pozyskiwania
Wzbogacony Srebrny Strefa standaryzacji Uściślione tabele. Przechowywane pełne zestawy rekordów gotowe do użycia z systemów rekordów.
Pod opieką Złoty Strefa produktu Tabele funkcji lub tabele agregowane. Strefa podstawowa dla aplikacji, zespołów i użytkowników do korzystania z produktów danych.
Opracowywanie zawartości -- Strefa programowania Lokalizacja dla inżynierów i analityków danych obejmująca zarówno piaskownicę analizy, jak i strefę tworzenia produktu.

Uwaga

Na poprzednim diagramie każda strefa docelowa danych ma trzy magazyny danych. Jednak w zależności od wymagań możesz skonsolidować nieprzetworzone, wzbogacone i wyselekcjonowane warstwy na jedno konto magazynu i zachować inne konto magazynu o nazwie "programowanie" dla użytkowników danych, aby przynieść inne przydatne produkty danych.

Aby uzyskać więcej informacji, zobacz:

Przekazywanie magazynu pozyskiwania

Wydawcy danych innych firm muszą umieścić dane na platformie, aby zespoły ds. aplikacji danych mogły je ściągnąć do swoich magazynów typu data lake. Jak pokazano na poniższym diagramie, przekazywanie pozyskiwania grupy zasobów magazynu umożliwia aprowizowanie magazynów obiektów blob dla innych firm.

Diagram of upload ingest storage service.

Zespoły ds. aplikacji danych żądają tych obiektów blob magazynu. Ich żądania są następnie zatwierdzane przez zespół operacyjny strefy docelowej danych. Dane powinny zostać usunięte z źródłowego obiektu blob magazynu po ich pobraniu z obiektu blob magazynu do pierwotnego.

Ważne

Ponieważ obiekty blob usługi Azure Storage są aprowidowane zgodnie z potrzebami , należy początkowo wdrożyć pustą grupę zasobów usług magazynu w każdej strefie docelowej danych.

Udostępnione środowiska Integration Runtime

Wdróż maszynę wirtualną z własnymi środowiskami Integration Runtime w strefie docelowej danych. Hostuj go w udostępnionej grupie zasobów integracji. To wdrożenie umożliwia szybkie dołączanie produktów danych do strefy docelowej danych.

Diagram of a data landing zone shared integration resource group.

Aby włączyć grupę zasobów:

  • Utwórz co najmniej jedną usługę Azure Data Factory w udostępnionej grupie zasobów integracji strefy docelowej danych. Używaj go tylko do łączenia współużytkowanego własnego środowiska Integration Runtime, a nie potoków danych.
  • Utwórz i skonfiguruj własne środowisko Integration Runtime na maszynie wirtualnej.
  • Skojarz własne środowisko Integration Runtime z fabrykami danych platformy Azure w strefach docelowych danych.
  • Skonfiguruj usługę Azure Automation, aby okresowo aktualizować własne środowisko Integration Runtime.

Uwaga

Powyższe wdrożenie zapewnia pojedyncze wdrożenie maszyn wirtualnych z własnymi środowiskami Integration Runtime. Możesz skojarzyć własne środowisko Integration Runtime z wieloma maszynami lokalnymi lub maszynami wirtualnymi na platformie Azure. Te maszyny są nazywane węzłami. Z własnym środowiskiem Integration Runtime może być skojarzonych maksymalnie cztery węzły. Korzyści wynikające z posiadania wielu węzłów na maszynach lokalnych, które mają bramę zainstalowaną dla bramy logicznej, to:

  • Wyższa dostępność własnego środowiska Integration Runtime, dzięki czemu nie jest to już pojedynczy punkt awarii rozwiązania do obsługi danych big data ani integracja danych w chmurze. Ta dostępność pomaga zapewnić ciągłość korzystania z maksymalnie czterech węzłów.
  • Zwiększona wydajność i przepływność podczas przenoszenia danych między magazynami danych lokalnych i w chmurze. Uzyskaj więcej informacji na temat porównań wydajności.

Można skojarzyć wiele węzłów, instalując własne oprogramowanie Integration Runtime z Centrum pobierania. Następnie zarejestruj go przy użyciu jednego z kluczy uwierzytelniania uzyskanych z polecenia cmdlet New-AzDataFactoryV2IntegrationRuntimeKey zgodnie z opisem w samouczku.

Szczegółowe informacje można znaleźć w artykule Azure Datafactory High availability and scalability (Wysoka dostępność i skalowalność w usłudze Azure Datafactory).

Ważne

Wdróż udostępnione środowiska Integration Runtime tak blisko źródła danych, jak to możliwe. Ich wdrożenie nie ogranicza wdrażania środowisk Integration Runtime w strefie docelowej danych lub w chmurach innych firm. Zamiast tego zapewnia rezerwę dla natywnych dla chmury źródeł danych w regionie.

Agenci ciągłej integracji/ciągłego wdrażania

Agenci ciągłej integracji/ciągłego wdrażania ułatwiają wdrażanie aplikacji danych i zmian w strefie docelowej danych.

Aby uzyskać więcej informacji, zobacz Agenci usługi Azure Pipeline.

Niezależne pozyskiwanie danych

Diagram of Data landing zone ingest and processing resource group.

Ta grupa zasobów jest opcjonalna i nie uniemożliwia wdrażania strefy docelowej.

Ta grupa zasobów ma zastosowanie, jeśli masz (lub opracowujesz) niezależny aparat pozyskiwania danych do automatycznego pozyskiwania danych na podstawie rejestrowania metadanych (w tym parametry połączenia, ścieżki do kopiowania danych z i do i i harmonogramu pozyskiwania. Grupa zasobów pozyskiwania i przetwarzania ma kluczowe usługi dla tego rodzaju platformy.

Wdróż wystąpienie usługi Azure SQL Database w celu przechowywania metadanych używanych przez usługę Azure Data Factory. Aprowizowanie usługi Azure Key Vault w celu przechowywania wpisów tajnych dotyczących zautomatyzowanych usług pozyskiwania. Te wpisy tajne mogą obejmować:

  • Poświadczenia magazynu metadanych usługi Azure Data Factory
  • Poświadczenia jednostki usługi dla zautomatyzowanego procesu pozyskiwania

Aby uzyskać więcej informacji, zobacz Jak zautomatyzowane struktury pozyskiwania obsługują analizę w skali chmury na platformie Azure.

Usługi zawarte w tej grupie zasobów obejmują:

Service Wymagania Wytyczne
Azure Data Factory Tak Usługa Azure Data Factory to aparat aranżacji na potrzeby niezależnego pozyskiwania danych.
Azure SQL DB Tak Azure SQL DB to magazyn metadanych dla usługi Azure Data Factory.
Event Hubs lub IoT Hub Opcjonalnie Usługa Event Hubs lub usługa IoT Hub umożliwia przesyłanie strumieniowe w czasie rzeczywistym do usługi Event Hubs oraz przetwarzanie wsadowe i strumieniowe za pośrednictwem obszaru roboczego inżynierii usługi Databricks.
Azure Databricks Opcjonalnie Usługę Azure Databricks lub Azure Synapse Spark można wdrożyć do użycia z niezależnym aparatem pozyskiwania danych.
Azure Synapse Opcjonalnie Usługę Azure Databricks lub Azure Synapse Spark można wdrożyć w celu użycia z niezależnym aparatem pozyskiwania danych.

Udostępnione usługi Databricks

Ta grupa zasobów jest opcjonalna i jest wdrażana tylko w usłudze Azure Databricks. Wszyscy użytkownicy w strefie docelowej danych mogą używać obszaru roboczego usługi Databricks.

Usługa Azure Databricks jest kluczowym użytkownikiem usługi Azure Data Lake Storage. Niepodzielne operacje na plikach są zoptymalizowane pod kątem aparatów analitycznych platformy Spark. Ta optymalizacja przyspiesza ukończenie zadań platformy Spark, które występują w przypadku problemów z usługą Azure Databricks.

Diagram of data landing zone shared databricks resource group.

Ważne

Obszar roboczy usługi Azure Databricks o nazwie obszar roboczy usługi Azure Databricks (analiza) jest aprowizowany dla wszystkich analityków danych i metodyki DataOps, jak pokazano w udostępnionej grupie zasobów produktów.

Ten obszar roboczy można skonfigurować tak, aby łączył się z usługą Azure Data Lake przy użyciu usługi Microsoft Entra passthrough lub kontroli dostępu do tabel. W zależności od przypadku użycia można skonfigurować dostęp warunkowy jako inny środek zabezpieczeń.

Postępuj zgodnie z najlepszymi rozwiązaniami dotyczącymi analizy w skali chmury, aby zintegrować usługę Azure Databricks:

Wzorzec strefy docelowej platformy Azure zaleca wysłanie wszystkich dzienników do centralnego obszaru roboczego usługi Log Analytics. Jednak każda strefa docelowa danych zawiera również grupę zasobów monitorowania do przechwytywania dzienników platformy Spark z usługi Databricks.

Udostępniona usługa Azure Synapse Analytics

Ta grupa zasobów jest opcjonalna.

Podczas początkowej konfiguracji strefy docelowej danych jeden obszar roboczy usługi Azure Synapse Analytics jest wdrażany do użytku przez wszystkich analityków danych i analityków w grupie zasobów udostępnionych produktów.

Jeśli wymagane jest zarządzanie kosztami i doładowywanie, możesz skonfigurować więcej obszarów roboczych usługi Synapse dla produktów danych. Zespoły aplikacji danych mogą używać dedykowanych obszarów roboczych usługi Azure Synapse Analytics do tworzenia dedykowanych pul usługi Azure SQL Database jako magazynu danych do odczytu używanego przez warstwę wizualizacji.

Ważne

Zapobiegaj używaniu udostępnionego obszaru roboczego usługi Azure Synapse na potrzeby tworzenia produktu danych przez zablokowanie obszaru roboczego w celu zezwalania tylko na zapytania SQL na żądanie. Jest tam tylko do celów wykorzystania.

Aplikacja danych

Każda strefa docelowa danych może zawierać wiele produktów danych. Te produkty danych można utworzyć, pozyskiwając dane ze źródła. Możesz również tworzyć produkty danych z innych produktów danych w tej samej strefie docelowej danych lub z innych stref docelowych danych. Tworzenie danych produktów danych podlega zatwierdzeniu przez stewarda danych.

Grupa zasobów produktu danych

Produkt grupy zasobów produktu danych zawiera wszystkie usługi wymagane do tworzenia tego produktu danych. Na przykład usługa Azure Database jest wymagana dla bazy danych MySQL, która jest używana przez narzędzie do wizualizacji. Dane muszą być pozyskiwane i przekształcane, zanim zostaną wprowadzone do tej bazy danych MySQL. W takim przypadku możesz wdrożyć usługę Azure Database for MySQL i usługę Azure Data Factory w grupie zasobów produktu danych.

Napiwek

Jeśli zdecydujesz się nie implementować aparatu niezależnego od danych do pozyskiwania raz ze źródeł operacyjnych lub jeśli złożone połączenia nie są ułatwione w agnostyce danych, utwórz źródło dopasowanej aplikacji danych. Aby uzyskać więcej informacji, zobacz Aplikacje danych (wyrównane do źródła)

Aby uzyskać więcej informacji na temat dołączania produktów danych, zobacz Produkty danych analizy w skali chmury na platformie Azure.

Wizualizacja

Pusta grupa zasobów wizualizacji jest tworzona dla każdej strefy docelowej danych. Wypełnij tę grupę zasobów usługami, które należy zaimplementować w rozwiązaniu do wizualizacji. Korzystanie z istniejącej sieci wirtualnej umożliwia rozwiązaniu łączenie się z produktami danych.

Ta grupa zasobów może hostować maszyny wirtualne dla usług wizualizacji innych firm.

Napiwek

Ze względu na koszty licencjonowania wdrożenie produktów wizualizacji innych firm w strefie docelowej zarządzania danymi może być bardziej ekonomiczne, a produkty te mogą łączyć się między strefami docelowymi danych w celu wycofania danych.

Następne kroki