Bearbeiten

Freigeben über


Replizieren und Synchronisieren von Mainframedaten in Azure

Azure Data Factory
Azure Databricks

Diese Beispielarchitektur stellt einen Implementierungsplan für das Replizieren und Synchronisieren von Daten während der Modernisierung in Azure dar. Außerdem werden technische Aspekte wie Datenspeicher, Tools und Dienste erläutert.

Aufbau

Abbildung einer Architektur, die zeigt, wie lokale Daten und Daten in Azure-Datenbanken bei der Mainframemodernisierung synchronisiert werden.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Workflow

Mainframe- und Midrangesysteme aktualisieren lokale Anwendungsdatenbanken regelmäßig. Damit die Konsistenz gewährleistet ist, synchronisiert die Lösung die aktuellen Daten mit Azure-Datenbanken. Der Synchronisierungsprozess beinhaltet die folgenden Schritte:

  1. Dynamische Azure Data Factory-Pipelines orchestrieren Aktivitäten von der Extraktion bis zum Laden von Daten. Sie können Pipelineaktivitäten planen, manuell starten oder automatisch auslösen.

    Pipelines gruppieren die Aktivitäten, die Aufgaben durchführen. Data Factory erstellt dynamisch eine Pipeline pro lokaler Tabelle, um Daten zu extrahieren. Sie können dann per hochgradig paralleler Implementierung Daten in Azure replizieren. Sie können die Lösung auch so konfigurieren, dass sie Ihren Anforderungen entspricht:

    • Vollständige Replikation: Sie replizieren die gesamte Datenbank und nehmen die erforderlichen Änderungen an den Datentypen und -feldern in der Azure-Zieldatenbank vor.
    • Partielle Replikation, Deltareplikation oder inkrementelle Replikation: Sie können Wasserzeichenspalten in Quelltabellen verwenden, um die aktualisierten Zeilen mit Azure-Datenbanken zu synchronisieren. Diese Spalten beinhalten entweder einen Schlüssel, der fortlaufend inkrementiert wird, oder einen Zeitstempel, der auf die letzte Aktualisierung der Tabelle hinweist.

    Data Factory verwendet außerdem Pipelines für die folgenden Transformationsaufgaben:

    • Datentypkonvertierung
    • Datenmanipulation
    • Datenformatierung
    • Spaltenableitung
    • Datenvereinfachung
    • Datensortierung
    • Datenfilterung
  2. Lokale Datenbanken wie Db2 zOS, Db2 für i und Db2 LUW speichern die Anwendungsdaten.

  3. Eine selbstgehostete Integration Runtime (SHIR) bietet die Umgebung, die Data Factory verwendet, um Aktivitäten auszuführen und zu verteilen.

  4. Azure Data Lake Storage Gen2 und Azure Blob Storage können für das Datenstaging verwendet werden. Dieser Schritt ist manchmal erforderlich, um Daten aus mehreren Quellen zu transformieren und zusammenzuführen.

  5. Für die Datenvorbereitung verwendet Data Factory Azure Databricks, benutzerdefinierte Aktivitäten und Pipelinedatenflüsse, um Daten schnell und effektiv zu transformieren.

  6. Data Factory lädt Daten in folgende relationale und nicht relationale Azure-Datenbanken:

    • Azure SQL
    • Azure Database for PostgreSQL
    • Azure Cosmos DB
    • Azure Data Lake Storage
    • Azure Database for MySQL
  7. SQL Server Integration Services (SSIS): Diese Plattform kann Daten extrahieren, transformieren und laden.

  8. Tools, die nicht von Microsoft stammen: Wenn für die Lösung eine Replikation in Quasi-Echtzeit erforderlich ist, können Sie Tools verwenden, die nicht von Microsoft stammen.

Komponenten

In diesem Abschnitt werden weitere Tools beschrieben, die Sie während der Datenmodernisierung, -synchronisierung und -integration verwenden können.

Extras

  • Microsoft-Dienst für die verteilte Architektur relationaler Datenbanken (Distributed Relational Database Architecture, DRDA) ist eine Komponente von Host Integration Server (HIS). Beim Microsoft-Dienst für DRDA handelt es sich um einen Anwendungsserver, den DRDA-Anwendungsanforderungsclients (Application Requester, AR) nutzen. Beispiele für DRDA-AR-Clients sind IBM Db2 for z/OS und Db2 for i5/OS. Diese Clients verwenden den Anwendungsserver, um Db2-SQL-Anweisungen zu konvertieren und in einer SQL Server-Instanz auszuführen.

  • SQL Server Migration Assistant (SSMA) für Db2 automatisiert die Migration von Db2 zu Microsoft-Datenbankdiensten. Während der Ausführung auf einer virtuellen Maschine (VM) konvertiert dieses Tool Db2-Datenbankobjekte in SQL Server-Datenbankobjekte und erstellt diese in SQL Server. SSMA for Db2 migriert anschließend Daten von Db2 zu den folgenden Diensten:

    • SQL Server 2012
    • SQL Server 2014
    • SQL Server 2016
    • SQL Server 2017 unter Windows und Linux
    • SQL Server 2019 unter Windows und Linux
    • Azure SQL-Datenbank
  • Azure Synapse Analytics ist ein Analysedienst für Data Warehouses und Big-Data-Systeme. Dieses Tool verwendet Spark-Technologie und weist eine tiefgreifende Integration mit Power BI, Azure Machine Learning und anderen Azure-Diensten auf.

Datenintegratoren

  • Data Factory ist ein hybrider Datenintegrationsdienst. Sie können diese vollständig verwaltete, serverlose Lösung zum Erstellen, Planen und Orchestrieren von ETL-Workflows (Extract, Transform, Load; Extrahieren, Transformieren, Laden) und ELT-Workflows (Extract, Load, Transform; Extrahieren, Laden, Transformieren) verwenden.

  • Azure Synapse Analytics ist ein Unternehmensanalysedienst zur schnelleren Gewinnung von Erkenntnissen aus Data Warehouse-Datenbanken und Big Data-Systemen. Azure Synapse Analytics vereint die besten der folgenden Technologien und Dienste:

    • SQL-Technologien, die beim Data Warehousing für Unternehmen verwendet werden
    • Spark-Technologien, die für Big Data verwendet werden
    • Azure Data Explorer. Dieser Dienst wird für Protokoll- und Zeitreihenanalysen verwendet.
    • Azure Pipelines. Dieser Dienst wird für Datenintegrations-, ETL- und ELT-Workflows verwendet.
    • Umfassende Integrationen mit anderen Azure-Diensten wie Power BI, Azure Cosmos DB und Machine Learning
  • SSIS ist eine Plattform zum Erstellen von Datenintegrations- und Datentransformationslösungen auf Unternehmensebene. Sie können SSIS verwenden, um Daten zu verwalten, zu replizieren, zu bereinigen und Data Mining durchzuführen.

  • Azure Databricks ist eine Datenanalyseplattform. Der Dienst basiert auf dem verteilten Open-Source-Verarbeitungssystem von Apache Spark und ist für die Azure-Cloudplattform optimiert. In einem Analyseworkflow liest Azure Databricks Daten aus mehreren Quellen und verwendet Spark, um Erkenntnisse abzuleiten.

Datenspeicher

  • SQL-Datenbank ist Teil der Azure SQL-Familie und wurde für die Cloud entwickelt. Dieser Dienst bietet alle Vorteile einer vollständig verwalteten und stets aktuellen Platform-as-a-Service-Lösung (PaaS). SQL-Datenbank bietet außerdem KI-gestützte, automatisierte Features, die Leistung und Dauerhaftigkeit optimieren. Serverloses Computing und Hyperscale-Speicheroptionen skalieren Ressourcen bei Bedarf automatisch.

  • Azure SQL Managed Instance ist Teil des Azure SQL-Dienstportfolios. Dieser intelligente und skalierbare Clouddatenbankdienst kombiniert die breiteste Kompatibilität der SQL Server-Engine mit allen Vorzügen einer vollständig verwalteten und stets aktuellen PaaS-Lösung. Mithilfe von SQL Managed Instance können Sie vorhandene Apps skaliert modernisieren.

  • SQL Server in Azure Virtual Machines bietet eine Möglichkeit zum Migrieren von SQL Server-Workloads zur Cloud per Lift & Shift bei hundertprozentiger Codekompatibilität. Als Teil der Azure SQL-Familie bietet SQL Server in Azure Virtual Machines die kombinierte Leistung, Sicherheit und Analysefunktionen von SQL Server mit der Flexibilität und Hybridkonnektivität von Azure. Mithilfe von SQL Server in Azure Virtual Machines können Sie vorhandene Apps migrieren oder neue Apps erstellen. Sie können auch auf aktuelle SQL Server-Updates und -Releases zugreifen, einschließlich SQL Server 2019.

  • Azure Database for PostgreSQL ist ein vollständig verwalteter relationaler Datenbankdienst, der auf der PostgreSQL-Datenbank-Engine (Community Edition) basiert. Mit diesem Dienst können Sie den Fokus auf Anwendungsinnovation anstatt auf die Datenbankverwaltung legen. Sie können Ihre Workload auch schnell und einfach skalieren.

  • Azure Cosmos DB ist eine global verteilte Multimodelldatenbank. Mit Azure Cosmos DB können Sie Durchsatz und Speicher für Ihre Lösungen elastisch und unabhängig voneinander über eine beliebige Anzahl von geografischen Regionen hinweg skalieren. Dieser vollständig verwaltete NoSQL-Datenbankdienst sorgt überall auf der Welt für Wartezeiten im einstelligen Millisekundenbereich im 99. Perzentil.

  • Data Lake Storage ist ein Repository zur Speicherung großer Datenmengen in ihrem nativen Rohformat. Data Lake-Speicher sind für die Skalierung auf Terabytes und Petabytes von Daten optimiert. Die Daten stammen in der Regel aus mehreren heterogenen Quellen und können strukturiert, teilweise strukturiert oder unstrukturiert sein. Data Lake Storage Gen2 vereint die Funktionen von Azure Blob Storage und Azure Data Lake Storage Gen1. Diese Data-Lake-Lösung der nächsten Generation bietet Dateisystemsemantik, Sicherheit auf Dateiebene und Skalierung. Darüber hinaus stehen der mehrstufige Speicher, die Hochverfügbarkeit und die Notfallwiederherstellung von Blob Storage zur Verfügung.

  • Azure Database for MySQL ist ein vollständig verwalteter relationaler Datenbankdienst, der auf der Open-Source-MySQL-Datenbank-Engine (Community Edition) basiert.

  • Blob Storage bietet einen optimierten Cloudobjektspeicher, der große Mengen nicht strukturierter Daten verwaltet.

Szenariodetails

Datenverfügbarkeit und Datenintegrität spielen eine wesentliche Rolle bei der Mainframe- und Midrangemodernisierung. Strategien, bei denen die Daten an erster Stelle stehen, unterstützen Sie dabei, für die Integrität und Verfügbarkeit Ihrer Daten während der Migration zu Azure zu sorgen. Zum Vermeiden von Unterbrechungen während der Modernisierung müssen Sie Daten gelegentlich schnell replizieren oder für die Synchronität lokaler Daten mit Azure-Datenbanken sorgen.

Konkret deckt diese Lösung Folgendes ab:

  • Extraktion: Hierbei wird eine Verbindung zur Quelldatenbank hergestellt, und Daten werden daraus extrahiert.
  • Transformation:
    • Staging: Hierbei werden Daten temporär in ihrem ursprünglichen Format gespeichert und für die Transformation aufbereitet.
    • Aufbereitung: Hierbei werden Daten transformiert und bearbeitet, indem Zuordnungsregeln verwendet werden, die Anforderungen der Zieldatenbank erfüllen.
  • Laden: Hierbei werden Daten in eine Zieldatenbank eingefügt.

Mögliche Anwendungsfälle

Unten sehen Sie Szenarios für Datenreplikation und Datensynchronisierung, die von dieser Lösung profitieren können:

  • CQRS-Architekturen (Command and Query Responsibility Segregation), die Azure für alle Abfragekanäle verwenden
  • Umgebungen, die lokale Anwendungen und erneut gehostete oder erneut entwickelte Anwendungen parallel testen
  • Lokale Systeme mit eng verzahnten Anwendungen, die eine Wartung oder Modernisierung in Stufen erfordern

Empfehlungen

Wenn Sie Data Factory zum Extrahieren von Daten verwenden, sollten Sie Schritte durchführen, um die Leistung der Kopieraktivität zu optimieren.

Überlegungen

Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Berücksichtigen Sie die folgenden Aspekte, wenn Sie diese Architektur in Erwägung ziehen:

Zuverlässigkeit

Zuverlässigkeit stellt sicher, dass Ihre Anwendung Ihre Verpflichtungen gegenüber den Kunden erfüllen kann. Weitere Informationen finden Sie in der Übersicht über die Säule „Zuverlässigkeit“.

  • Die Infrastrukturverwaltung einschließlich der Verfügbarkeit ist in Azure-Datenbanken automatisiert.

  • Unter Poolerstellung und Failover finden Sie weitere Informationen zum Failoverschutz des Microsoft-Diensts für DRDA.

  • Sie können für das lokale Datengateway und die Integration Runtime (IR) einen Cluster bilden, um eine höhere Verfügbarkeit zu gewährleisten.

Sicherheit

Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.

  • Verwenden Sie Netzwerksicherheitsgruppen, um den Zugriff auf das zu beschränken, was jeder Dienst zum Funktionieren benötigt.

  • Verwenden Sie private Endpunkte für Ihre PaaS-Dienste. Verwenden Sie Dienstfirewalls, die sowohl über das Internet erreichbar als auch nicht erreichbar sind, um die Sicherheit für Ihre Dienste zu erhöhen.

  • Verwenden Sie verwaltete Identitäten für Komponenten-zu-Komponenten-Datenflüsse.

  • Unter Planen und Entwerfen der Architektur mit dem Microsoft-Dienst für DRDA finden Sie Informationen zu den vom Microsoft-Dienst für DRDA unterstützten Arten von Clientverbindungen. Clientverbindungen wirken sich auf die Art von Transaktionen, Pooling, Failover, Authentifizierung und Verschlüsselung in Ihrem Netzwerk aus.

Kostenoptimierung

Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Überblick über die Säule „Kostenoptimierung“.

  • Preismodelle variieren zwischen den Komponentendiensten. Überprüfen Sie die Preismodelle der verfügbaren Komponentendienste, um sicherzustellen, dass sie Ihrem Budget entsprechen.

  • Verwenden Sie den Azure-Preisrechner, um die Kosten für die Implementierung dieser Lösung abschätzen zu können.

Erstklassige Betriebsprozesse

Die Säule „Optimaler Betrieb“ deckt die Betriebsprozesse ab, die für die Bereitstellung einer Anwendung und deren Ausführung in der Produktion sorgen. Weitere Informationen finden Sie unter Überblick über die Säule „Optimaler Betrieb“.

  • Die Infrastrukturverwaltung einschließlich der Skalierbarkeit ist in Azure-Datenbanken automatisiert.

  • Sie können die selbstgehostete IR aufskalieren, indem Sie die logische Instanz mehreren lokalen Computern im Aktiv/Aktiv-Modus zuordnen.

Effiziente Leistung

Leistungseffizienz ist die Fähigkeit Ihrer Workload, auf effiziente Weise eine den Anforderungen der Benutzer entsprechende Skalierung auszuführen. Weitere Informationen finden Sie unter Überblick über die Säule „Leistungseffizienz“.

  • Azure ExpressRoute können Sie als hochskalierbare Option erwägen, wenn Ihre Implementierung eine erhebliche Bandbreite für die erste Replikation oder eine aktuelle geänderte Datenreplikation verwendet.

  • Wählen Sie die richtige IR-Konfiguration für Ihr Szenario.

Nächste Schritte