Strefy docelowe danych

Artykuł
12/11/2024

Strefy docelowe danych są połączone z strefą docelową zarządzania danymi przez komunikację równorzędną sieci wirtualnych lub prywatne punkty końcowe. Każda strefa docelowa danych jest uważana za strefę docelową związaną z architekturą strefy docelowej platformy Azure.

Ważny

Przed wdrożeniem strefy lądowania danych upewnij się, że masz wdrożony model operacyjny DevOps oraz CI/CD, a także że została wdrożona strefa lądowania zarządzania danymi.

Każda strefa docelowa danych ma kilka warstw, które umożliwiają elastyczność integracji danych usługi i aplikacji danych, które zawiera. Możesz wdrożyć nową strefę docelową danych ze standardowym zestawem usług, które umożliwiają strefie docelowej danych rozpoczęcie pozyskiwania i analizowania danych.

Typowa subskrypcja platformy Azure skojarzona ze strefą docelową danych ma następującą strukturę:

Warstwa	Wymagane	Grupy zasobów
warstwa usług platformy	Tak	Sieć Bezpieczeństwo
Podstawowe usługi	Tak	Magazynowanie udostępnione środowiska Integration Runtime zarządzanie Zewnętrzna pamięć masowa Wczytywanie danych udostępnione aplikacje
aplikacja danych	Fakultatywny	aplikacji danych (co najmniej 1)
Raportowanie i wizualizacja	Fakultatywny	Raportowanie i wizualizacja

Notatka

Chociaż warstwa usług podstawowych jest oznaczona jako wymagana, nie wszystkie grupy zasobów i usługi zawarte w tym artykule mogą być konieczne dla strefy docelowej danych.

Architektura strefy docelowej danych

Architektura strefy docelowej danych ilustruje warstwy, ich grupy zasobów i usługi, które zawiera każda grupa zasobów. Architektura zawiera omówienie wszystkich grup i ról skojarzonych ze strefą docelową danych oraz zakresem ich dostępu do płaszczyzn kontroli i danych. Architektura ilustruje również sposób, w jaki każda warstwa jest zgodna z obowiązkami modelu operacyjnego.

Napiwek

Przed wdrożeniem strefy docelowej danych upewnij się, że rozważyć liczbę początkowych stref docelowych danych, które chcesz wdrożyć.

Usługi platformy

Warstwa usług platformy obejmuje usługi wymagane do włączenia łączności i wglądu w strefę docelową danych w kontekście analizy w skali chmury. W poniższej tabeli wymieniono zalecane grupy zasobów.

Grupa zasobów	Wymagane	Opis
`network-rg`	Tak	Sieci
`security-rg`	Tak	Zabezpieczenia i monitorowanie

Sieci

Grupa zasobów sieciowych zawiera usługi łączności, w tym sieci wirtualnych platformy Azure, sieciowe grupy zabezpieczeń i tabele tras . Wszystkie te usługi są wdrażane w jednej grupie zasobów.

Sieć wirtualna strefy docelowej danych jest automatycznie równorzędna z siecią wirtualną strefy docelowej zarządzania danymi i siecią wirtualną subskrypcji łączności .

Zabezpieczenia i monitorowanie

Grupa zasobów zabezpieczeń i monitorowania obejmuje Azure Monitor i Microsoft Defender for Cloud do zbierania telemetrii usługi, definiowania kryteriów monitorowania i alertów oraz stosowania zasad i skanowania usług.

Podstawowe usługi

Warstwa usług kluczowych obejmuje niezbędne usługi wymagane do umożliwienia strefy przyjmowania danych w kontekście analizy na dużą skalę w chmurze. W poniższej tabeli wymieniono grupy zasobów, które zapewniają standardowy zestaw dostępnych usług w każdej wdrożonej strefie docelowej danych.

Grupa zasobów	Wymagane	Opis
`storage-rg`	Tak	Usługi Data Lake
`runtimes-rg`	Tak	Udostępnione środowiska uruchomieniowe Integration Runtime
`mgmt-rg`	Tak	Zasoby CI/CD
`external-data-rg`	Tak	Zewnętrzny magazyn danych
`data-ingestion-rg`	Fakultatywny	Współdzielone usługi pozyskiwania danych
`shared-applications-rg`	Fakultatywny	Aplikacje udostępnione (Synapse lub Databricks)

Magazynowanie

Jak pokazano na diagramie, trzy konta usługi Azure Data Lake Storage Gen2 są tworzone w jednej grupie zasobów usług data lake. Dane przekształcone na różnych etapach są zapisywane w jednym z magazynów danych strefy docelowej danych. Dane są dostępne do użycia przez zespoły analityczne, nauki o danych i wizualizacji.

Warstwy usługi Data Lake używają innej terminologii w zależności od technologii i dostawcy. Ta tabela zawiera wskazówki dotyczące sposobu stosowania terminów do analizy w skali chmury:

Analiza w skali chmury	Delta Lake	Inne terminy	Opis
Surowy	Brąz	Lądowanie i zgodność	Tabele pozyskiwania
Wzbogacony	Srebro	Strefa standaryzacji	Udoskonalone tabele. Przechowywane pełne zestawy rekordów gotowe do użycia z systemów rekordów.
Wyselekcjonowane	Złoto	Strefa produktu	Tabele funkcjonalności lub tabele agregowane. Strefa podstawowa dla aplikacji, zespołów i użytkowników do korzystania z produktów danych.
Rozwój	--	Strefa rozwoju	Lokalizacja dla inżynierów i analityków danych obejmująca zarówno piaskownicę analizy, jak i strefę tworzenia produktu.

Notatka

Na poprzednim diagramie każda strefa docelowa danych ma trzy konta magazynu data lake. Jednak w zależności od wymagań możesz skonsolidować nieprzetworzone, wzbogacone i wyselekcjonowane warstwy na jedno konto i zachować inne konto o nazwie "workspacja" dla użytkowników danych, aby wprowadzać inne przydatne produkty danych.

Aby uzyskać więcej informacji, zobacz:

Udostępnione środowiska uruchomieniowe integracji

Potoki usług Azure Data Factory i Azure Synapse Analytics używają środowisk Integration Runtime (IR) do bezpiecznego uzyskiwania dostępu do źródeł danych w sieciach równorzędnych lub izolowanych. Udostępnione środowiska Integration Runtime powinny być wdrażane na maszynie wirtualnej (lub w zestawach skalowania maszyn wirtualnych platformy Azure) w grupie zasobów udostępnionego środowiska Integration Runtime.

Aby włączyć udostępnioną grupę zasobów:

Utwórz co najmniej jedną usługę Azure Data Factory w udostępnionej grupie zasobów integracji strefy docelowej danych. Używaj go tylko do łączenia współużytkowanego własnego środowiska Integration Runtime, a nie potoków danych.
Tworzenie i konfigurowanie własnego środowiska Integration Runtime na maszynie wirtualnej.
Skojarz własne środowisko Integration Runtime z fabrykami danych platformy Azure w strefach docelowych danych.
Użyj skryptów programu PowerShell, aby okresowo aktualizować własne środowisko Integration Runtime.

Nota

Wdrożenie opisuje pojedynczą maszynę wirtualną z własnym, lokalnym środowiskiem Integration Runtime. Możesz skojarzyć własne środowisko Integration Runtime z wieloma maszynami wirtualnymi lokalnie lub na platformie Azure. Te maszyny są nazywane węzłami i można mieć do czterech węzłów skojarzonych z własnym środowiskiem Integration Runtime. Korzyści wynikające z posiadania wielu węzłów to:

Wyższa dostępność lokalnego środowiska Integration Runtime, dzięki czemu nie jest już ono jedynym punktem awarii w twojej aplikacji danych lub w orkiestracji integracji danych w chmurze.
Zwiększona wydajność i przepływność podczas przenoszenia danych między usługami danych lokalnych i w chmurze. Uzyskaj więcej informacji na temat porównań wydajności .

Można skojarzyć wiele węzłów, instalując samodzielnie hostowane oprogramowanie Integration Runtime z Centrum pobierania. Następnie zarejestruj go przy użyciu jednego z uzyskanych kluczy uwierzytelniania z polecenia cmdlet New-AzDataFactoryV2IntegrationRuntimeKey, zgodnie z opisem w samouczku .

Więcej informacji znajduje się w usłudze Azure Data Factory o wysokiej dostępności i skalowalności.

Ważny

Wdróż wspólne środowiska uruchomieniowe integracji tak blisko źródła danych, jak to możliwe. Środowiska Integration Runtime można wdrożyć w strefie docelowej danych, w chmurach innych firm lub w chmurze prywatnej, pod warunkiem, że maszyna wirtualna ma łączność z wymaganymi źródłami danych.

Zarządzanie

Procesy CI/CD działają na maszynach wirtualnych i pomagają wdrażać artefakty z repozytorium kodu źródłowego, w tym aplikacje danych i zmiany w strefie zbierania danych.

Aby uzyskać więcej informacji, zobacz agentów usługi Azure Pipeline.

Magazyn zewnętrzny

Partnerzy będący wydawcami danych muszą osadzić dane na twojej platformie, aby zespoły ds. aplikacji danych mogły pobierać je do swoich jezior danych. Możesz również mieć wewnętrzne lub zewnętrzne źródła danych, które nie mogą obsługiwać wymagań dotyczących łączności lub uwierzytelniania wymuszonych w pozostałych strefach docelowych danych. Użycie oddzielnego konta magazynu jest zalecanym podejściem do odbierania danych, a następnie współużytkowanego środowiska Integration Runtime lub podobnego procesu pozyskiwania w celu przeniesienia go do potoku przetwarzania. Jak pokazano na poniższym diagramie, grupa zasobów magazynu przesyłania danych wejściowych umożliwia aprowizowanie magazynów blokowych dla tych przypadków użycia.

Zespoły aplikacji danych żądają obiektów blob magazynu. Te żądania są zatwierdzane przez zespół operacyjny strefy docelowej danych. Dane powinny zostać usunięte ze źródłowego obiektu blob magazynu po ich pobraniu do nieprzetworzonego magazynu danych.

Ważny

Ponieważ obiekty blob usługi Azure Storage są aprowizowane w zgodnie z potrzebami, należy początkowo wdrożyć pustą grupę zasobów usług magazynu w każdej strefie docelowej danych.

Pozyskiwanie danych

Ta grupa zasobów jest opcjonalna i nie blokuje wdrażania landing zone. Ma zastosowanie, jeśli masz lub opracowujesz silnik niezależny od rodzaju danych, który automatycznie pobiera dane na podstawie zarejestrowanych metadanych, w tym parametrów połączenia, ścieżek do transferu danych i harmonogramów pobierania.

Grupa zasobów pozyskiwania i przetwarzania ma kluczowe usługi dla tego rodzaju platformy.

Wdróż instancję Azure SQL Database do przechowywania metadanych używanych przez Azure Data Factory. Udostępnienie Azure Key Vault do przechowywania tajnych danych związanych z automatycznymi usługami pobierania. Te tajemnice mogą obejmować:

Poświadczenia magazynu metadanych usługi Azure Data Factory
Poświadczenia głównego użytkownika usługi dla zautomatyzowanego procesu pozyskiwania

Aby uzyskać więcej informacji, zobacz Jak zautomatyzowane struktury pozyskiwania obsługują analizę w skali chmury w usłudze Azure.

Usługi zawarte w tej grupie zasobów obejmują:

Usługa	Wymagane	Wytyczne
Azure Data Factory	Tak	Azure Data Factory to Twoje narzędzie do orkiestracji umożliwiające pozyskiwanie danych niezależnie od rodzaju danych.
Azure SQL DB	Tak	Azure SQL DB to magazyn metadanych dla usługi Azure Data Factory.
Event Hubs lub IoT Hub	Fakultatywny	Usługa Event Hubs lub usługa IoT Hub umożliwia przesyłanie strumieniowe w czasie rzeczywistym do usługi Event Hubs oraz przetwarzanie wsadowe i strumieniowe za pośrednictwem obszaru roboczego inżynierii usługi Databricks.
Azure Databricks	Fakultatywny	Usługę Azure Databricks lub Azure Synapse Spark można wdrożyć do wykorzystania z niezależnym silnikiem do pozyskiwania danych.
Azure Synapse	Fakultatywny	Usługę Azure Databricks lub Azure Synapse Spark można wdrożyć w celu użycia z aparatem pozyskiwania danych.

Aplikacje udostępnione

Ta opcjonalna grupa zasobów jest używana, gdy istnieje potrzeba udostępnienia zestawu usług udostępnionych wszystkim zespołom tworzącym aplikacje danych w tej strefie docelowej danych. Przykładowe zastosowania obejmują:

Obszar roboczy usługi Azure Databricks używany jako udostępniony magazyn metadanych dla wszystkich innych obszarów roboczych usługi Databricks utworzonych w tej samej strefie docelowej danych (lub regionie)
Wspólne wystąpienie usługi Azure Synapse Analytics, korzystające z bezserwerowych pul SQL, umożliwia użytkownikom wykonywanie zapytań do izolowanych kont magazynowych.

Notatka

Usługa Azure Databricks używa Unity Catalog do zarządzania dostępem i widocznością metasklepów w obszarach roboczych Databricks. Katalog Unity jest włączony na poziomie dzierżawy, ale magazyny metadanych są dopasowane do regionów Azure. W praktyce oznacza to, że wszystkie obszary robocze usługi Databricks z obsługą Unity Catalog w danym regionie platformy Azure będą musiały zarejestrować się w tym samym magazynie metadanych. Aby uzyskać więcej informacji, zobacz Unity Catalog Best Practices.

Postępuj zgodnie z najlepszymi rozwiązaniami dotyczącymi analizy w skali chmury, aby zintegrować usługę Azure Databricks:

Aplikacja danych

Każda strefa docelowa danych może mieć wiele aplikacji danych. Te aplikacje można tworzyć, pozyskiwając dane z różnych źródeł. Możesz również tworzyć aplikacje danych z innych aplikacji danych w tej samej strefie docelowej danych lub z innych stref docelowych danych. Tworzenie aplikacji danych podlega zatwierdzeniu przez stewarda danych.

Grupa zasobów aplikacji danych

Grupa zasobów aplikacji danych zawiera wszystkie usługi wymagane do tworzenia tej aplikacji danych. Na przykład usługa Azure Database jest wymagana dla bazy danych MySQL, która jest używana przez narzędzie do wizualizacji. Dane muszą być pozyskiwane i przekształcane, zanim zostaną wprowadzone do tej bazy danych MySQL. W takim przypadku możesz wdrożyć usługę Azure Database for MySQL i usługę Azure Data Factory w grupie zasobów aplikacji danych.

Napiwek

Jeśli zdecydujesz się nie implementować agnostycznego systemu danych do jednorazowego pozyskiwania danych ze źródeł operacyjnych lub jeśli w twoim agnostycznym systemie danych nie są ułatwione złożone połączenia, utwórz aplikację danych dostosowaną do źródła. Aby uzyskać więcej informacji, zobacz Aplikacje danych (wyrównane do źródła).

Aby uzyskać więcej informacji na temat wdrażania produktów danych, zobacz Aplikacje analizy danych w skali chmury na platformie Azure.

Raportowanie i wizualizacja

Narzędzia do wizualizacji i raportowania można używać w Fabric Workspaces, które mają wiele podobieństw do obszarów roboczych Power BI, bez konieczności wdrażania unikatowych zasobów w obszarze przechwytywania danych. Można dołączyć grupę zasobów, aby wdrożyć pojemności Fabric, maszyny wirtualne na potrzeby bram danych lub inne niezbędne usługi danych, aby dostarczyć aplikację danych do użytkownika końcowego.

Następne kroki

Produkty danych analitycznych na skalę chmury w usłudze Azure

Udostępnij za pośrednictwem

Strefy docelowe danych

Architektura strefy docelowej danych

Usługi platformy

Sieci

Zabezpieczenia i monitorowanie

Podstawowe usługi

Magazynowanie

Udostępnione środowiska uruchomieniowe integracji

Zarządzanie

Magazyn zewnętrzny

Pozyskiwanie danych

Aplikacje udostępnione

Aplikacja danych

Grupa zasobów aplikacji danych

Raportowanie i wizualizacja

Następne kroki

Opinia

Dodatkowe zasoby