Strefy docelowe danych
Strefy docelowe danych są połączone ze strefą docelową zarządzania danymi za pomocą komunikacji równorzędnej sieci wirtualnej. Każda strefa docelowa danych jest uważana za strefę docelową powiązaną z architekturą strefy docelowej platformy Azure.
Ważne
Przed aprowizowaniem strefy docelowej danych upewnij się, że wdrożono model operacyjny DevOps i CIĄGŁEj integracji/ciągłego wdrażania oraz wdrożono strefę docelową zarządzania danymi.
Każda strefa docelowa danych ma kilka warstw, które umożliwiają elastyczność integracji danych usługi i produktów danych, które zawiera. Możesz wdrożyć nową strefę docelową danych ze standardowym zestawem usług, które umożliwiają strefie docelowej danych rozpoczęcie pozyskiwania i analizowania danych.
Twoja subskrypcja platformy Azure skojarzona ze strefą docelową danych ma następującą strukturę:
Uwaga
Aplikacja danych tworzy co najmniej jeden produkt danych.
Architektura strefy docelowej danych
Architektura strefy docelowej danych ilustruje warstwy, ich grupy zasobów i usługi, które zawiera każda grupa zasobów. Architektura zawiera również omówienie wszystkich grup i ról skojarzonych ze strefą docelową danych oraz zakres ich dostępu do płaszczyzn kontroli i danych.
Napiwek
Przed wdrożeniem strefy docelowej danych należy wziąć pod uwagę liczbę początkowych stref docelowych danych, które chcesz wdrożyć.
Użyj tej architektury jako punktu wyjścia. Pobierz plik programu Visio i zmodyfikuj go w celu dopasowania do określonych wymagań biznesowych i technicznych podczas planowania implementacji strefy docelowej danych.
Warstwa usług podstawowych
Warstwa usług podstawowych obejmuje wszystkie usługi wymagane do włączenia strefy docelowej danych w kontekście analizy w skali chmury. W poniższej tabeli wymieniono grupy zasobów, które zapewniają standardowy zestaw dostępnych usług w każdej wdrożonej strefie docelowej danych.
Grupa zasobów | Wymagania | opis |
---|---|---|
network-rg |
Tak | Sieć |
databricks-monitoring-rg |
Opcjonalnie | Monitorowanie obszarów roboczych usługi Azure Databricks |
hive-rg |
Opcjonalnie | Magazyn metadanych Hive dla usługi Azure Databricks |
storage-rg |
Tak | Usługi data lake |
external-data-rg |
Tak | Przekazywanie magazynu pozyskiwania |
runtimes-rg |
Tak | Udostępnione środowiska Integration Runtime |
mgmt-rg |
Tak | Agenci ciągłej integracji/ciągłego wdrażania |
metadata-ingestion-rg |
Opcjonalnie | Niezależne pozyskiwanie danych |
databricks-monitoring-rg |
Opcjonalnie | Obszar roboczy usługi Log Analytics dla obszarów roboczych usługi Databricks w strefie docelowej |
shared-synapse-rg |
Opcjonalnie | Udostępniono usługę Azure Synapse |
shared-databricks-rg |
Opcjonalnie | Udostępniony obszar roboczy usługi Azure Databricks |
Sieć
Grupa zasobów sieciowych zawiera podstawowe składniki, w tym usługę Azure Network Watcher, sieciowe grupy zabezpieczeń i sieć wirtualną. Wszystkie te usługi są wdrażane w jednej grupie zasobów.
Sieć wirtualna strefy docelowej danych jest automatycznie równorzędna z siecią wirtualną strefy docelowej zarządzania danymi i siecią wirtualną subskrypcji łączności.
Monitorowanie obszarów roboczych usługi Azure Databricks
Ta grupa zasobów jest opcjonalna i jest wdrażana tylko w usłudze Azure Databricks.
Wzorzec strefy docelowej platformy Azure zaleca wysłanie wszystkich dzienników do centralnego obszaru roboczego usługi Log Analytics. Jednak każda strefa docelowa danych zawiera również grupę zasobów monitorowania do przechwytywania dzienników platformy Spark z usługi Databricks. Każda grupa zasobów zawiera udostępniony obszar roboczy usługi Log Analytics i usługę Azure Key Vault do przechowywania kluczy usługi Log Analytics.
Ważne
Użyj tylko obszaru roboczego usługi Log Analytics w grupie zasobów monitorowania usługi Databricks, aby przechwycić dzienniki platformy Spark usługi Azure Databricks.
Aby uzyskać więcej informacji, zobacz Monitorowanie usługi Azure Databricks.
Magazyn metadanych Hive dla usługi Azure Databricks
Ta grupa zasobów jest opcjonalna i powinna być wdrażana tylko w usłudze Azure Databricks.
Magazyn metadanych Hive dla usługi Azure Databricks aprowizuje bazę danych usługi Azure Database for MySQL i magazyn kluczy. Wszystkie obszary robocze usługi Azure Databricks w strefie docelowej danych używają tego magazynu metadanych jako zewnętrznego magazynu metadanych Apache Hive.
Aby uzyskać więcej informacji, zobacz Zewnętrzny magazyn metadanych Apache Hive.
Usługi Data Lake
Jak pokazano na poprzednim diagramie, trzy konta usługi Azure Data Lake Storage Gen2 są aprowizowane w jednej grupie zasobów usług data lake. Dane przekształcone na różnych etapach są zapisywane w jednym z magazynów danych strefy docelowej danych. Dane są dostępne do użycia przez zespoły analityczne, nauki o danych i wizualizacji.
Warstwy usługi Data Lake używają innej terminologii w zależności od technologii i dostawcy. Ta tabela zawiera wskazówki dotyczące sposobu stosowania terminów do analizy w skali chmury:
Analiza w skali chmury | Delta Lake | Inne terminy | opis |
---|---|---|---|
Nieprzetworzone | Brązowe | Lądowanie i zgodność | Tabele pozyskiwania |
Wzbogacony | Srebrny | Strefa standaryzacji | Uściślione tabele. Przechowywane pełne zestawy rekordów gotowe do użycia z systemów rekordów. |
Pod opieką | Złoty | Strefa produktu | Tabele funkcji lub tabele agregowane. Strefa podstawowa dla aplikacji, zespołów i użytkowników do korzystania z produktów danych. |
Opracowywanie zawartości | -- | Strefa programowania | Lokalizacja dla inżynierów i analityków danych obejmująca zarówno piaskownicę analizy, jak i strefę tworzenia produktu. |
Uwaga
Na poprzednim diagramie każda strefa docelowa danych ma trzy magazyny danych. Jednak w zależności od wymagań możesz skonsolidować nieprzetworzone, wzbogacone i wyselekcjonowane warstwy na jedno konto magazynu i zachować inne konto magazynu o nazwie "programowanie" dla użytkowników danych, aby przynieść inne przydatne produkty danych.
Aby uzyskać więcej informacji, zobacz:
- Omówienie usługi Azure Data Lake Storage na potrzeby analizy w skali chmury
- Standaryzacja danych
- Aprowizuj konta usługi Azure Data Lake Storage Gen2 dla każdej strefy docelowej danych
- Kluczowe zagadnienia dotyczące usługi Azure Data Lake Storage
- Kontrola dostępu i konfiguracje magazynu data lake w usłudze Azure Data Lake Storage
Przekazywanie magazynu pozyskiwania
Wydawcy danych innych firm muszą umieścić dane na platformie, aby zespoły ds. aplikacji danych mogły je ściągnąć do swoich magazynów typu data lake. Jak pokazano na poniższym diagramie, przekazywanie pozyskiwania grupy zasobów magazynu umożliwia aprowizowanie magazynów obiektów blob dla innych firm.
Zespoły ds. aplikacji danych żądają tych obiektów blob magazynu. Ich żądania są następnie zatwierdzane przez zespół operacyjny strefy docelowej danych. Dane powinny zostać usunięte z źródłowego obiektu blob magazynu po ich pobraniu z obiektu blob magazynu do pierwotnego.
Ważne
Ponieważ obiekty blob usługi Azure Storage są aprowidowane zgodnie z potrzebami , należy początkowo wdrożyć pustą grupę zasobów usług magazynu w każdej strefie docelowej danych.
Udostępnione środowiska Integration Runtime
Wdróż maszynę wirtualną z własnymi środowiskami Integration Runtime w strefie docelowej danych. Hostuj go w udostępnionej grupie zasobów integracji. To wdrożenie umożliwia szybkie dołączanie produktów danych do strefy docelowej danych.
Aby włączyć grupę zasobów:
- Utwórz co najmniej jedną usługę Azure Data Factory w udostępnionej grupie zasobów integracji strefy docelowej danych. Używaj go tylko do łączenia współużytkowanego własnego środowiska Integration Runtime, a nie potoków danych.
- Utwórz i skonfiguruj własne środowisko Integration Runtime na maszynie wirtualnej.
- Skojarz własne środowisko Integration Runtime z fabrykami danych platformy Azure w strefach docelowych danych.
- Skonfiguruj usługę Azure Automation, aby okresowo aktualizować własne środowisko Integration Runtime.
Uwaga
Powyższe wdrożenie zapewnia pojedyncze wdrożenie maszyn wirtualnych z własnymi środowiskami Integration Runtime. Możesz skojarzyć własne środowisko Integration Runtime z wieloma maszynami lokalnymi lub maszynami wirtualnymi na platformie Azure. Te maszyny są nazywane węzłami. Z własnym środowiskiem Integration Runtime może być skojarzonych maksymalnie cztery węzły. Korzyści wynikające z posiadania wielu węzłów na maszynach lokalnych, które mają bramę zainstalowaną dla bramy logicznej, to:
- Wyższa dostępność własnego środowiska Integration Runtime, dzięki czemu nie jest to już pojedynczy punkt awarii rozwiązania do obsługi danych big data ani integracja danych w chmurze. Ta dostępność pomaga zapewnić ciągłość korzystania z maksymalnie czterech węzłów.
- Zwiększona wydajność i przepływność podczas przenoszenia danych między magazynami danych lokalnych i w chmurze. Uzyskaj więcej informacji na temat porównań wydajności.
Można skojarzyć wiele węzłów, instalując własne oprogramowanie Integration Runtime z Centrum pobierania. Następnie zarejestruj go przy użyciu jednego z kluczy uwierzytelniania uzyskanych z polecenia cmdlet New-AzDataFactoryV2IntegrationRuntimeKey zgodnie z opisem w samouczku.
Szczegółowe informacje można znaleźć w artykule Azure Datafactory High availability and scalability (Wysoka dostępność i skalowalność w usłudze Azure Datafactory).
Ważne
Wdróż udostępnione środowiska Integration Runtime tak blisko źródła danych, jak to możliwe. Ich wdrożenie nie ogranicza wdrażania środowisk Integration Runtime w strefie docelowej danych lub w chmurach innych firm. Zamiast tego zapewnia rezerwę dla natywnych dla chmury źródeł danych w regionie.
Agenci ciągłej integracji/ciągłego wdrażania
Agenci ciągłej integracji/ciągłego wdrażania ułatwiają wdrażanie aplikacji danych i zmian w strefie docelowej danych.
Aby uzyskać więcej informacji, zobacz Agenci usługi Azure Pipeline.
Niezależne pozyskiwanie danych
Ta grupa zasobów jest opcjonalna i nie uniemożliwia wdrażania strefy docelowej.
Ta grupa zasobów ma zastosowanie, jeśli masz (lub opracowujesz) niezależny aparat pozyskiwania danych do automatycznego pozyskiwania danych na podstawie rejestrowania metadanych (w tym parametry połączenia, ścieżki do kopiowania danych z i do i i harmonogramu pozyskiwania. Grupa zasobów pozyskiwania i przetwarzania ma kluczowe usługi dla tego rodzaju platformy.
Wdróż wystąpienie usługi Azure SQL Database w celu przechowywania metadanych używanych przez usługę Azure Data Factory. Aprowizowanie usługi Azure Key Vault w celu przechowywania wpisów tajnych dotyczących zautomatyzowanych usług pozyskiwania. Te wpisy tajne mogą obejmować:
- Poświadczenia magazynu metadanych usługi Azure Data Factory
- Poświadczenia jednostki usługi dla zautomatyzowanego procesu pozyskiwania
Aby uzyskać więcej informacji, zobacz Jak zautomatyzowane struktury pozyskiwania obsługują analizę w skali chmury na platformie Azure.
Usługi zawarte w tej grupie zasobów obejmują:
Usługa | Wymagania | Wytyczne |
---|---|---|
Azure Data Factory | Tak | Usługa Azure Data Factory to aparat aranżacji na potrzeby niezależnego pozyskiwania danych. |
Azure SQL DB | Tak | Azure SQL DB to magazyn metadanych dla usługi Azure Data Factory. |
Event Hubs lub IoT Hub | Opcjonalnie | Usługa Event Hubs lub usługa IoT Hub umożliwia przesyłanie strumieniowe w czasie rzeczywistym do usługi Event Hubs oraz przetwarzanie wsadowe i strumieniowe za pośrednictwem obszaru roboczego inżynierii usługi Databricks. |
Azure Databricks | Opcjonalnie | Usługę Azure Databricks lub Azure Synapse Spark można wdrożyć do użycia z niezależnym aparatem pozyskiwania danych. |
Azure Synapse | Opcjonalnie | Usługę Azure Databricks lub Azure Synapse Spark można wdrożyć w celu użycia z niezależnym aparatem pozyskiwania danych. |
Udostępnione usługi Databricks
Ta grupa zasobów jest opcjonalna i jest wdrażana tylko w usłudze Azure Databricks. Wszyscy użytkownicy w strefie docelowej danych mogą używać obszaru roboczego usługi Databricks.
Usługa Azure Databricks jest kluczowym użytkownikiem usługi Azure Data Lake Storage. Niepodzielne operacje na plikach są zoptymalizowane pod kątem aparatów analitycznych platformy Spark. Ta optymalizacja przyspiesza ukończenie zadań platformy Spark, które występują w przypadku problemów z usługą Azure Databricks.
Ważne
Obszar roboczy usługi Azure Databricks o nazwie obszar roboczy usługi Azure Databricks (analiza) jest aprowizowany dla wszystkich analityków danych i metodyki DataOps, jak pokazano w udostępnionej grupie zasobów produktów.
Ten obszar roboczy można skonfigurować tak, aby łączył się z usługą Azure Data Lake przy użyciu usługi Microsoft Entra passthrough lub kontroli dostępu do tabel. W zależności od przypadku użycia można skonfigurować dostęp warunkowy jako inny środek zabezpieczeń.
Postępuj zgodnie z najlepszymi rozwiązaniami dotyczącymi analizy w skali chmury, aby zintegrować usługę Azure Databricks:
- Bezpieczny dostęp do usługi Azure Data Lake Gen2 z usługi Azure Databricks
- Najlepsze rozwiązania dotyczące platformy Azure Databricks
Wzorzec strefy docelowej platformy Azure zaleca wysłanie wszystkich dzienników do centralnego obszaru roboczego usługi Log Analytics. Jednak każda strefa docelowa danych zawiera również grupę zasobów monitorowania do przechwytywania dzienników platformy Spark z usługi Databricks.
Udostępniona usługa Azure Synapse Analytics
Ta grupa zasobów jest opcjonalna.
Podczas początkowej konfiguracji strefy docelowej danych jeden obszar roboczy usługi Azure Synapse Analytics jest wdrażany do użytku przez wszystkich analityków danych i analityków w grupie zasobów udostępnionych produktów.
Jeśli wymagane jest zarządzanie kosztami i doładowywanie, możesz skonfigurować więcej obszarów roboczych usługi Synapse dla produktów danych. Zespoły aplikacji danych mogą używać dedykowanych obszarów roboczych usługi Azure Synapse Analytics do tworzenia dedykowanych pul usługi Azure SQL Database jako magazynu danych do odczytu używanego przez warstwę wizualizacji.
Ważne
Zapobiegaj używaniu udostępnionego obszaru roboczego usługi Azure Synapse na potrzeby tworzenia produktu danych przez zablokowanie obszaru roboczego w celu zezwalania tylko na zapytania SQL na żądanie. Jest tam tylko do celów wykorzystania.
Aplikacja danych
Każda strefa docelowa danych może zawierać wiele produktów danych. Te produkty danych można utworzyć, pozyskiwając dane ze źródła. Możesz również tworzyć produkty danych z innych produktów danych w tej samej strefie docelowej danych lub z innych stref docelowych danych. Tworzenie danych produktów danych podlega zatwierdzeniu przez stewarda danych.
Grupa zasobów produktu danych
Produkt grupy zasobów produktu danych zawiera wszystkie usługi wymagane do tworzenia tego produktu danych. Na przykład usługa Azure Database jest wymagana dla bazy danych MySQL, która jest używana przez narzędzie do wizualizacji. Dane muszą być pozyskiwane i przekształcane, zanim zostaną wprowadzone do tej bazy danych MySQL. W takim przypadku możesz wdrożyć usługę Azure Database for MySQL i usługę Azure Data Factory w grupie zasobów produktu danych.
Napiwek
Jeśli zdecydujesz się nie implementować aparatu niezależnego od danych do pozyskiwania raz ze źródeł operacyjnych lub jeśli złożone połączenia nie są ułatwione w agnostyce danych, utwórz źródło dopasowanej aplikacji danych. Aby uzyskać więcej informacji, zobacz Aplikacje danych (wyrównane do źródła)
Aby uzyskać więcej informacji na temat dołączania produktów danych, zobacz Produkty danych analizy w skali chmury na platformie Azure.
Wizualizacja
Pusta grupa zasobów wizualizacji jest tworzona dla każdej strefy docelowej danych. Wypełnij tę grupę zasobów usługami, które należy zaimplementować w rozwiązaniu do wizualizacji. Korzystanie z istniejącej sieci wirtualnej umożliwia rozwiązaniu łączenie się z produktami danych.
Ta grupa zasobów może hostować maszyny wirtualne dla usług wizualizacji innych firm.
Napiwek
Ze względu na koszty licencjonowania wdrożenie produktów wizualizacji innych firm w strefie docelowej zarządzania danymi może być bardziej ekonomiczne, a produkty te mogą łączyć się między strefami docelowymi danych w celu wycofania danych.