Metodologia sukcesu implementacji usługi Synapse: Ocena projektu integracji danych

Artykuł
10/18/2023

Uwaga

Ten artykuł stanowi część sukcesu implementacji usługi Azure Synapse według serii artykułów projektowych. Aby zapoznać się z omówieniem serii, zobacz Sukces implementacji usługi Azure Synapse zgodnie z projektem.

Usługa Azure Synapse Analytics zawiera ten sam aparat integracji danych i środowiska co usługa Azure Data Factory (ADF), umożliwiając tworzenie rozbudowanych potoków ETL na dużą skalę bez opuszczania usługi Azure Synapse Analytics.

Obraz przedstawia składniki usługi Azure Synapse z wyróżnionym składnikiem Integracja danych.

W tym artykule opisano sposób oceniania projektu składników integracji danych. W szczególności pomaga określić, czy potoki usługi Azure Synapse są najlepszym rozwiązaniem dla wymagań dotyczących integracji danych. Czas zainwestowany w ocenę projektu przed opracowaniem rozwiązania może pomóc wyeliminować nieoczekiwane zmiany projektu, które mogą mieć wpływ na oś czasu lub koszt projektu.

Dopasuj analizę luk

Należy przeprowadzić dokładną analizę luk w strategii integracji danych. Jeśli wybierzesz potoki usługi Azure Synapse jako narzędzie do integracji danych, przejrzyj następujące kwestie, aby upewnić się, że są one najlepsze dla wymagań dotyczących integracji danych i aranżacji. Nawet jeśli wybierzesz różne narzędzia do integracji danych, nadal należy przejrzeć następujące kwestie, aby sprawdzić, czy wszystkie kluczowe punkty projektowe zostały uwzględnione i że wybrane narzędzie będzie obsługiwać potrzeby rozwiązania. Te informacje powinny zostać przechwycone podczas oceny wykonanej wcześniej w tej metodologii.

Przejrzyj źródła danych i miejsca docelowe (cele):
- Sprawdź, czy magazyny źródłowe i docelowe są obsługiwane magazyny danych.
- Jeśli nie są obsługiwane, sprawdź, czy możesz użyć opcji rozszerzalnych.
Przejrzyj punkty wyzwalania integracji danych i częstotliwość:
- Potoki usługi Azure Synapse obsługują harmonogram, okno wirowania i wyzwalacze zdarzeń magazynu.
- Zweryfikuj minimalny interwał cyklu i obsługiwane zdarzenia magazynu pod kątem wymagań.
Przejrzyj wymagane tryby integracji danych:
- Zaplanowane, okresowe i wyzwalane przetwarzanie wsadowe można skutecznie zaprojektować w potokach usługi Azure Synapse.
- Aby zaimplementować funkcję przechwytywania zmian danych (CDC), użyj produktów innych firm lub utwórz rozwiązanie niestandardowe.
- Aby obsługiwać przesyłanie strumieniowe w czasie rzeczywistym, użyj usług Azure Event Hubs, Azure Event Hubs z platformy Apache Kafka lub usługi Azure IoT Hub.
- Aby uruchomić pakiety usług Microsoft SQL Server Integration Services (SSIS), możesz przenieść obciążenia usług SSIS i przenieść je do chmury.
Przejrzyj projekt obliczeniowy:
- Czy zasoby obliczeniowe wymagane dla potoków muszą być bezserwerowe lub aprowidowane?
- Potoki usługi Azure Synapse obsługują oba tryby środowiska Integration Runtime (IR): bezserwerowe lub self-hosted na maszynie z systemem Windows.
- Zweryfikuj porty i zapory i ustawienia serwera proxy podczas korzystania z własnego środowiska IR (aprowizowania).
Przejrzyj wymagania dotyczące zabezpieczeń, konfigurację sieci i zapory środowiska oraz porównaj je z projektem konfiguracji zabezpieczeń, sieci i zapory:
- Sprawdź, jak źródła danych są zabezpieczone i połączone z siecią.
- Sprawdź, jak docelowe magazyny danych są zabezpieczone i sieciowe. Potoki usługi Azure Synapse mają różne strategie dostępu do danych, które zapewniają bezpieczny sposób łączenia magazynów danych za pośrednictwem prywatnych punktów końcowych lub sieci wirtualnych.
- Usługa Azure Key Vault umożliwia przechowywanie poświadczeń zawsze, gdy ma to zastosowanie.
- Użyj usługi ADF do szyfrowania poświadczeń klucza zarządzanego przez klienta (CMK) i zapisz je w własnym środowisku IR.
Zapoznaj się z projektem ciągłego monitorowania wszystkich składników integracji danych.

Zagadnienia dotyczące architektury

Podczas przeglądania projektu integracji danych należy wziąć pod uwagę następujące zalecenia i wytyczne, aby upewnić się, że składniki integracji danych rozwiązania zapewnią ciągłą doskonałość operacyjną, wydajność wydajności, niezawodność i bezpieczeństwo.

Doskonałość operacyjna

Aby uzyskać doskonałość operacyjną, oceń następujące kwestie.

Środowisko: podczas planowania środowisk należy je rozdzielić przez programowanie/testowanie, testowanie akceptacyjne użytkowników (UAT) i środowisko produkcyjne. Użyj opcji organizacyjnych folderów, aby zorganizować potoki i zestawy danych według zadań biznesowych/ETL w celu zapewnienia lepszej konserwacji. Użyj adnotacji , aby oznaczyć potoki, aby łatwo je monitorować. Tworzenie potoków wielokrotnego użytku przy użyciu parametrów oraz iteracji i działań warunkowych.
Monitorowanie i alerty: obszary robocze usługi Synapse obejmują centrum monitorów, które zawiera zaawansowane informacje o monitorowaniu każdego i każdego uruchomienia potoku. Integruje się również z usługą Log Analytics w celu dalszej analizy dzienników i alertów. Te funkcje należy zaimplementować w celu zapewnienia proaktywnych powiadomień o błędach. Ponadto użyj ścieżek Po awarii , aby zaimplementować niestandardową obsługę błędów.
Automatyczne wdrażanie i testowanie: potoki usługi Azure Synapse są wbudowane w obszar roboczy usługi Synapse, dzięki czemu można korzystać z automatyzacji i wdrażania obszarów roboczych. Użyj szablonów usługi ARM, aby zminimalizować działania ręczne podczas tworzenia obszarów roboczych usługi Synapse. Ponadto zintegruj obszary robocze usługi Synapse z usługą Azure DevOps, aby tworzyć wersje kodu i automatyzować publikację.

Efektywność wydajności

Aby uzyskać wydajność, należy ocenić następujące kwestie.

Postępuj zgodnie ze wskazówkami dotyczącymi wydajności i funkcjami optymalizacji podczas pracy z działaniem kopiowania.
Wybierz zoptymalizowane łączniki do transferu danych zamiast łączników ogólnych. Na przykład użyj technologii PolyBase zamiast wstawiania zbiorczego podczas przenoszenia danych z usługi Azure Data Lake Storage Gen2 (ALDS Gen2) do dedykowanej puli SQL.
Podczas tworzenia nowego środowiska Azure IR ustaw lokalizację regionu jako automatyczną rozpoznawanie lub wybierz ten sam region co magazyny danych.
W przypadku własnego środowiska IR wybierz rozmiar maszyny wirtualnej platformy Azure na podstawie wymagań dotyczących integracji.
Wybierz stabilne połączenie sieciowe, takie jak Azure ExpressRoute, w celu zapewnienia szybkiej i spójnej przepustowości.

Niezawodność

W przypadku wykonywania potoku przy użyciu środowiska Azure IR jest ona bezserwerowa i zapewnia odporność poza pole. Zarządzanie klientami jest niewielkie. Jednak w przypadku uruchomienia potoku w własnym środowisku IR zalecamy uruchomienie go przy użyciu konfiguracji wysokiej dostępności na maszynach wirtualnych platformy Azure. Ta konfiguracja zapewnia, że potoki integracji nie są uszkodzone nawet wtedy, gdy maszyna wirtualna przejdzie w tryb offline. Ponadto zalecamy używanie usługi Azure ExpressRoute do szybkiego i niezawodnego połączenia sieciowego między środowiskiem lokalnym a platformą Azure.

Zabezpieczenia

Zabezpieczona platforma danych jest jednym z kluczowych wymagań każdej organizacji. Należy dokładnie zaplanować zabezpieczenia całej platformy, a nie poszczególnych składników. Poniżej przedstawiono wskazówki dotyczące zabezpieczeń rozwiązań potoku usługi Azure Synapse.

Zabezpieczanie przenoszenia danych do chmury przy użyciu prywatnych punktów końcowych usługi Azure Synapse.
Użyj tożsamości zarządzanych firmy Microsoft Entra do uwierzytelniania.
Użyj kontroli dostępu opartej na rolach (RBAC) platformy Azure i kontroli dostępu opartej na rolach usługi Synapse na potrzeby autoryzacji.
Przechowuj poświadczenia, wpisy tajne i klucze w usłudze Azure Key Vault, a nie w potoku. Aby uzyskać więcej informacji, zobacz Używanie wpisów tajnych usługi Azure Key Vault w działaniach potoku.
Nawiąż połączenie z zasobami lokalnymi za pośrednictwem usługi Azure ExpressRoute lub sieci VPN za pośrednictwem prywatnych punktów końcowych.
Włącz opcje Bezpieczne dane wyjściowe i Bezpieczne dane wejściowe w działaniach potoku, gdy parametry przechowują wpisy tajne lub hasła.

Następne kroki

W następnym artykule z serii sukcesów usługi Azure Synapse według projektu dowiesz się, jak ocenić projekt dedykowanej puli SQL, aby zidentyfikować problemy i zweryfikować, czy spełnia ona wytyczne i wymagania.

Udostępnij za pośrednictwem