Replikowanie i synchronizowanie danych komputera mainframe z platformą Azure

Azure Data Factory
Azure Databricks

W tej przykładowej architekturze przedstawiono plan implementacji replikacji i synchronizacji danych podczas modernizacji platformy Azure. Omawia on aspekty techniczne, takie jak magazyny danych, narzędzia i usługi.

Architektura

Diagram architektury przedstawiający sposób synchronizowania danych lokalnych i danych baz danych platformy Azure podczas modernizacji komputera mainframe.

Pobierz plik programu Visio z tą architekturą.

Przepływ pracy

Systemy Mainframe i midrange aktualizują lokalne bazy danych aplikacji w regularnych odstępach czasu. Aby zachować spójność, rozwiązanie synchronizuje najnowsze dane z bazami danych platformy Azure. Proces synchronizacji obejmuje następujące kroki:

  1. Dynamiczne potoki usługi Azure Data Factory organizuje działania obejmujące wyodrębnianie danych po ładowanie danych. Możesz zaplanować działania potoku, uruchomić je ręcznie lub wyzwolić je automatycznie.

    Potoki grupuje działania, które wykonują zadania. Aby wyodrębnić dane, usługa Data Factory dynamicznie tworzy jeden potok dla każdej tabeli lokalnej. Następnie można użyć implementacji masowej równoległej podczas replikowania danych na platformie Azure. Możesz również skonfigurować rozwiązanie, aby spełniało wymagania:

    • Pełna replikacja: replikujesz całą bazę danych i wprowadzasz niezbędne modyfikacje typów danych i pól w docelowej bazie danych platformy Azure.
    • Replikacja częściowa, różnicowa lub przyrostowa: kolumny limitu w tabelach źródłowych służą do synchronizowania zaktualizowanych wierszy z bazami danych platformy Azure. Te kolumny zawierają stale zwiększany klucz lub sygnaturę czasową wskazującą ostatnią aktualizację tabeli.

    Usługa Data Factory używa również potoków dla następujących zadań przekształcania:

    • Konwersja typu danych
    • Manipulowanie danymi
    • Formatowanie danych
    • Wyprowadzanie kolumn
    • Spłaszczanie danych
    • Sortowanie danych
    • Filtrowanie danych
  2. Lokalne bazy danych, takie jak Db2 zOS, Db2 for i i Db2, przechowują dane aplikacji.

  3. Własne środowisko Integration Runtime (SHIR) udostępnia środowisko używane przez usługę Data Factory do uruchamiania i wysyłania działań.

  4. Usługi Azure Data Lake Storage Gen2 i Azure Blob Storage zapewniają miejsce do przemieszczania danych. Ten krok jest czasami wymagany do przekształcania i scalania danych z wielu źródeł.

  5. Na potrzeby przygotowywania danych usługa Data Factory używa usługi Azure Databricks, niestandardowych działań i przepływów danych potoku w celu szybkiego i efektywnego przekształcania danych.

  6. Usługa Data Factory ładuje dane do następujących relacyjnych i nierelacyjnych baz danych platformy Azure:

    • Azure SQL
    • Azure Database for PostgreSQL
    • Azure Cosmos DB
    • Azure Data Lake Storage
    • Azure Database for MySQL
  7. SQL Server Integration Services (SSIS): ta platforma może wyodrębniać, przekształcać i ładować dane.

  8. Narzędzia firmy innej niż Microsoft: jeśli rozwiązanie wymaga replikacji niemal w czasie rzeczywistym, możesz użyć narzędzi innych niż Microsoft.

Składniki

W tej sekcji opisano inne narzędzia, których można używać podczas modernizacji, synchronizacji i integracji danych.

Narzędzia

  • Usługa firmy Microsoft dla rozproszonej relacyjnej bazy danych (DRDA) jest składnikiem serwera integracji hostów (HIS). Usługa firmy Microsoft dla drDA to serwer aplikacji używany przez klientów żądających aplikacji DRDA (AR). Przykłady klientów AR DRDA to IBM Db2 for z/OS i Db2 for i5/OS. Ci klienci używają serwera aplikacji do konwertowania instrukcji SQL Db2 i uruchamiania ich w programie SQL Server.

  • Asystent migracji do programu SQL Server (SSMA) dla bazy danych Db2 automatyzuje migrację z bazy danych Db2 do usług baz danych firmy Microsoft. Chociaż działa na maszynie wirtualnej, to narzędzie konwertuje obiekty bazy danych Db2 na obiekty bazy danych programu SQL Server i tworzy te obiekty w programie SQL Server. Usługa SSMA dla bazy danych Db2 następnie migruje dane z bazy danych Db2 do następujących usług:

    • SQL Server 2012
    • SQL Server 2014
    • SQL Server 2016
    • SQL Server 2017 w systemach Windows i Linux
    • PROGRAM SQL Server 2019 w systemach Windows i Linux
    • Azure SQL Database
  • Azure Synapse Analytics to usługa analityczna dla magazynów danych i systemów danych big data. To narzędzie korzysta z technologii Spark i ma głęboką integrację z usługami Power BI, Azure Machine Learning i innymi usługami platformy Azure.

Integratorzy danych

  • Data Factory to hybrydowa usługa integracji danych. To w pełni zarządzane, bezserwerowe rozwiązanie umożliwia tworzenie, planowanie i organizowanie przepływów pracy wyodrębniania, przekształcania i ładowania (ETL) oraz wyodrębniania, ładowania i przekształcania przepływów pracy ELT .

  • Azure Synapse Analytics to usługa do analizy przedsiębiorstwa, która skraca czas wglądu w magazyny danych i systemy danych big data. Usługa Azure Synapse Analytics łączy najlepsze z następujących technologii i usług:

    • Technologie SQL używane w magazynowaniu danych przedsiębiorstwa.
    • Technologie platformy Spark, które są używane na potrzeby danych big data.
    • Usługa Azure Data Explorer, która jest używana do analizy dzienników i szeregów czasowych.
    • Usługa Azure Pipelines, która służy do integracji danych oraz przepływów pracy ETL i ELT.
    • Głęboka integracja z innymi usługami platformy Azure, takimi jak Power BI, Azure Cosmos DB i Machine Learning.
  • SSIS to platforma do tworzenia rozwiązań do integracji i przekształcania danych na poziomie przedsiębiorstwa. Za pomocą usług SSIS można zarządzać, replikować, czyścić i wydobywać dane.

  • Azure Databricks to platforma do analizy danych. Jest ona oparta na rozproszonym systemie przetwarzania open source platformy Apache Spark i jest zoptymalizowana pod kątem platformy Azure w chmurze. W przepływie pracy analizy usługa Azure Databricks odczytuje dane z wielu źródeł i używa platformy Spark do udostępniania szczegółowych informacji.

Magazyn danych

  • Usługa SQL Database jest częścią rodziny usługi Azure SQL i jest tworzona dla chmury. Ta usługa oferuje zalety w pełni zarządzanej i zawszegreen platformy jako usługi (PaaS). Usługa SQL Database udostępnia również zautomatyzowane funkcje oparte na sztucznej inteligencji, które optymalizują wydajność i trwałość. Opcje magazynu bezserwerowego i magazynu w warstwie Hiperskala są automatycznie skalowane na żądanie.

  • Usługa Azure SQL Managed Instance jest częścią portfolio usługi Azure SQL. Ta inteligentna i skalowalna usługa bazy danych w chmurze łączy najszerszą zgodność aparatu programu SQL Server ze wszystkimi zaletami w pełni zarządzanego i evergreen PaaS. Usługa SQL Managed Instance umożliwia modernizację istniejących aplikacji na dużą skalę.

  • Program SQL Server na maszynach wirtualnych platformy Azure umożliwia przenoszenie obciążeń programu SQL Server do chmury z 100% zgodnością kodu. W ramach rodziny usługi Azure SQL program SQL Server w usłudze Azure Virtual Machines oferuje połączoną wydajność, zabezpieczenia i analizę programu SQL Server z elastycznością i łącznością hybrydową platformy Azure. Użyj programu SQL Server w usłudze Azure Virtual Machines, aby migrować istniejące aplikacje lub tworzyć nowe aplikacje. Możesz również uzyskać dostęp do najnowszych aktualizacji i wydań programu SQL Server, w tym programu SQL Server 2019.

  • Azure Database for PostgreSQL to w pełni zarządzana usługa relacyjnej bazy danych oparta na wersji community aparatu bazy danych PostgreSQL typu open source. Użyj tej usługi, aby skupić się na innowacjach w aplikacjach zamiast zarządzania bazami danych. Możesz również szybko i łatwo skalować obciążenie.

  • Azure Cosmos DB to rozproszona globalnie wielomodelowa baza danych. Użyj usługi Azure Cosmos DB, aby upewnić się, że rozwiązania mogą elastycznie i niezależnie skalować przepływność i magazyn w dowolnej liczbie regionów geograficznych. Ta w pełni zarządzana usługa bazy danych NoSQL gwarantuje jednocyfrowe, milisekundowe opóźnienia w dziewięćdziesiątym dziewiątym percentylu w dowolnym miejscu na świecie.

  • Data Lake Storage to repozytorium magazynu, które przechowuje dużą ilość danych w natywnym, nieprzetworzonym formacie. Magazyny data lake są zoptymalizowane pod kątem skalowania do terabajtów i petabajtów danych. Dane zazwyczaj pochodzą z wielu heterogenicznych źródeł i mogą być ustrukturyzowane, częściowo ustrukturyzowane lub nieustrukturyzowane. Usługa Data Lake Storage Gen2 łączy możliwości usługi Data Lake Storage Gen1 z usługą Blob Storage. To rozwiązanie data lake nowej generacji zapewnia semantyka systemu plików, zabezpieczenia na poziomie plików i skalowanie. Oferuje również warstwowy magazyn, wysoką dostępność i odzyskiwanie po awarii usługi Blob Storage.

  • Azure Database for MySQL to w pełni zarządzana usługa relacyjnej bazy danych oparta na wersji community aparatu bazy danych MySQL typu open source.

  • Usługa Blob Storage zapewnia zoptymalizowany magazyn obiektów w chmurze, który zarządza ogromnymi ilościami danych bez struktury.

Szczegóły scenariusza

Dostępność i integralność danych są niezbędne w modernizacji komputera mainframe i średniej. Strategie oparte na danych pomagają zachować nienaruszone i dostępne dane podczas migracji na platformę Azure. Aby zapobiec zakłóceniom podczas modernizacji, czasami trzeba szybko replikować dane lub przechowywać lokalne dane w synchronizacji z bazami danych platformy Azure.

W szczególności to rozwiązanie obejmuje:

  • Wyodrębnianie: nawiązywanie połączenia i wyodrębnianie z źródłowej bazy danych.
  • Przekształcenie:
    • Przemieszczanie: tymczasowo przechowując dane w oryginalnym formacie i przygotowując je do przekształcenia.
    • Przygotowanie: przekształcanie i manipulowanie danymi przy użyciu reguł mapowania spełniających docelowe wymagania bazy danych.
  • Ładowanie: wstawianie danych do docelowej bazy danych.

Potencjalne przypadki użycia

Scenariusze replikacji i synchronizacji danych, które mogą korzystać z tego rozwiązania, obejmują:

  • Architektury podziału odpowiedzialności zapytań poleceń (CQRS), które używają platformy Azure do obsługi wszystkich kanałów zapytań.
  • Środowiska testujące aplikacje lokalne i ponownie hostowane lub ponownie zaprojektowane aplikacje równolegle.
  • Systemy lokalne z ściśle powiązanymi aplikacjami, które wymagają etapowego korygowania lub modernizacji.

Zalecenia

W przypadku wyodrębniania danych przy użyciu usługi Data Factory wykonaj kroki w celu dostosowania wydajności działania kopiowania.

Kwestie wymagające rozważenia

Te zagadnienia implementują filary struktury Azure Well-Architected Framework, która jest zestawem wytycznych, które mogą służyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.

Należy pamiętać o tych kwestiach podczas uwzględnienia tej architektury.

Niezawodność

Niezawodność zapewnia, że aplikacja może spełnić zobowiązania podjęte przez klientów. Aby uzyskać więcej informacji, zobacz Omówienie filaru niezawodności.

  • Zarządzanie infrastrukturą, w tym dostępność, jest zautomatyzowane w bazach danych platformy Azure.

  • Aby uzyskać informacje o usłudze Microsoft Service for DRDA failover protection, zobacz Buforowanie i tryb failover .

  • Możesz klasterować lokalną bramę danych i środowisko Integration Runtime (IR), aby zapewnić większe gwarancje dostępności.

Zabezpieczenia

Zabezpieczenia zapewniają ochronę przed celowymi atakami i nadużyciami cennych danych i systemów. Aby uzyskać więcej informacji, zobacz Omówienie filaru zabezpieczeń.

  • Użyj sieciowych grup zabezpieczeń, aby ograniczyć dostęp tylko do funkcji każdej usługi.

  • Użyj prywatnych punktów końcowych dla usług PaaS. Używaj zapór usług, które są dostępne i nieosiągalne za pośrednictwem Internetu, aby uzupełnić zabezpieczenia usług.

  • Użyj tożsamości zarządzanych dla przepływów danych składnik-składnik.

  • Zobacz Planowanie i tworzenie architektury rozwiązań przy użyciu usługi firmy Microsoft dla drDA , aby dowiedzieć się więcej o typach połączeń klienckich, które obsługuje usługa firmy Microsoft dla drDA. Połączenia klienckie mają wpływ na charakter transakcji, buforowania, trybu failover, uwierzytelniania i szyfrowania w sieci.

Optymalizacja kosztów

Optymalizacja kosztów dotyczy sposobów zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Omówienie filaru optymalizacji kosztów.

  • Modele cenowe różnią się między usługami składników. Przejrzyj modele cenowe dostępnych usług składników, aby upewnić się, że pasują one do budżetu.

  • Skorzystaj z kalkulatora cen platformy Azure, aby oszacować koszt wdrożenia tego rozwiązania.

Doskonałość operacyjna

Doskonałość operacyjna obejmuje procesy operacyjne, które wdrażają aplikację i działają w środowisku produkcyjnym. Aby uzyskać więcej informacji, zobacz Omówienie filaru doskonałości operacyjnej.

  • Zarządzanie infrastrukturą, w tym skalowalność, jest zautomatyzowane w bazach danych platformy Azure.

  • Własne środowisko IR można skalować w poziomie, kojarząc wystąpienie logiczne z wieloma maszynami lokalnymi w trybie aktywny-aktywny.

Efektywność wydajności

Efektywność wydajności to możliwość skalowania obciążenia w celu zaspokojenia zapotrzebowania użytkowników w wydajny sposób. Aby uzyskać więcej informacji, zobacz Omówienie filaru wydajności.

  • Rozważ usługę Azure ExpressRoute jako opcję o dużej skali, jeśli implementacja używa znacznej przepustowości na potrzeby replikacji początkowej lub trwającej zmienionej replikacji danych.

  • Wybierz odpowiednią konfigurację środowiska IR dla danego scenariusza.

Następne kroki