Freigeben über


Replizieren und Synchronisieren von Mainframedaten mit Azure

Azure Data Factory
Azure Databricks

In dieser Beispielarchitektur wird ein Implementierungsplan zum Replizieren und Synchronisieren von Daten während der Modernisierung in Azure skizziert. Es beschreibt technische Aspekte wie Datenspeicher, Tools und Dienste.

Architektur

Ein Architekturdiagramm, das zeigt, wie lokale Daten und Azure-Datenbankdaten während der Mainframemodernisierung synchronisiert werden.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Arbeitsablauf

Der folgende Workflow entspricht dem vorherigen Diagramm:

Mainframe- und Midrange-Systeme aktualisieren die lokalen Anwendungsdatenbanken in regelmäßigen Abständen. Um die Konsistenz zu wahren, synchronisiert diese Lösung die neuesten Daten mit Azure-Datenbanken. Der Synchronisierungsprozess umfasst die folgenden Schritte.

  1. Dynamische Azure Data Factory-Pipelines orchestrieren Aktivitäten, die von der Datenextraktion bis zum Laden von Daten reichen. Sie können Pipeline-Aktivitäten einplanen, manuell starten oder automatisch auslösen.

    Pipelines gruppieren die Aktivitäten, die Aufgaben ausführen. Zum Extrahieren von Daten erstellt Azure Data Factory dynamisch eine Pipeline für jede lokale Tabelle. Sie können dann eine massiv parallele Implementierung verwenden, wenn Sie Daten in Azure replizieren. Sie können die Lösung auch so konfigurieren, dass sie Ihren Anforderungen entspricht:

    • Vollständige Replikation: Sie replizieren die gesamte Datenbank und nehmen die erforderlichen Änderungen an Datentypen und Feldern in der Azure-Zieldatenbank vor.

    • Teil-, Delta- oder inkrementelle Replikation: Sie verwenden Wasserzeichenspalten in Quelltabellen, um die aktualisierten Zeilen mit Azure-Datenbanken zu synchronisieren. Diese Spalten enthalten entweder einen kontinuierlich inkrementellen Schlüssel oder einen Zeitstempel, der die letzte Aktualisierung der Tabelle angibt.

    Azure Data Factory verwendet Pipelines auch für die folgenden Transformationsaufgaben:

    • Datentyp-Konvertierung
    • Manipulation von Daten
    • Formatierung von Daten
    • Ableitung von Spalten
    • Datenreduzierung
    • Sortierung der Daten
    • Datenfilterung
  2. On-Premises-Datenbanken wie Db2 zOS, Db2 for i und Db2 LUW speichern die Anwendungsdaten.

  3. Eine selbstgehostete Integration Runtime (IR) stellt die Umgebung bereit, die Azure Data Factory zum Ausführen und Verteilen von Aktivitäten verwendet.

  4. Azure Data Lake Storage Gen2 und Azure Blob Storage stellen die Daten bereit. Dieser Schritt ist manchmal erforderlich, um Daten aus mehreren Quellen zu transformieren und zusammenzuführen.

  5. Für die Datenvorbereitung verwendet Azure Data Factory Azure Databricks, benutzerdefinierte Aktivitäten und Pipeline-Dataflows, um Daten schnell und effektiv zu transformieren.

  6. Azure Data Factory lädt Daten in die folgenden relationalen und nicht relationalen Azure-Datenbanken:

    • Azure SQL
    • Azure-Datenbank für PostgreSQL
    • Azure Cosmos DB (ein Microsoft-Datenbankdienst)
    • Azure Data Lake Storage
    • Azure-Datenbank für MySQL
  7. SQL Server Integration Services (SSIS) extrahiert, transformiert und lädt Daten.

  8. Das lokale Datengateway ist eine lokal installierte Windows-Clientanwendung, die als Brücke zwischen Ihren lokalen lokalen Datenquellen und Azure-Diensten fungiert.

  9. Eine Datenpipeline in Microsoft Fabric ist eine logische Gruppierung von Aktivitäten, die die Datenerfassung von Db2 zu Azure-Speicher und -Datenbanken durchführen.

  10. Wenn die Lösung eine Replikation nahezu in Echtzeit erfordert, können Sie Tools verwenden, die nicht von Microsoft stammen.

Komponenten

In diesem Abschnitt werden weitere Tools beschrieben, die Sie bei der Datenmodernisierung, -synchronisierung und -integration verwenden können.

Datenintegratoren

  • Azure Data Factory ist ein hybrider Datenintegrationsdienst. Sie können diese vollständig verwaltete, serverlose Lösung verwenden, um ETL-Workflows (Extrahieren, Transformieren und Laden) und ELT-Workflows (Extrahieren, Laden und Transformieren) zu erstellen, zu planen und zu orchestrieren.

  • Azure Synapse Analytics ist ein Unternehmensanalysedienst zur schnelleren Gewinnung von Erkenntnissen aus Data Warehouse-Datenbanken und Big Data-Systemen. Azure Synapse Analytics kombiniert die besten der folgenden Technologien und Dienste:

    • SQL-Technologien für Data Warehousing in Unternehmen

    • Spark-Technologien für Big Data

    • Azure Data Explorer für Protokoll- und Zeitreihenanalysen

    • Azure Pipelines für die Datenintegration sowie ETL- und ELT-Workflows

    • Umfassende Integration mit anderen Azure-Diensten wie Power BI, Azure Cosmos DB und Azure Machine Learning

  • SSIS ist eine Plattform für die Entwicklung von Datenintegrations- und -transformationslösungen auf Unternehmensebene. Sie können SSIS verwenden, um Daten zu verwalten, zu replizieren, zu bereinigen und zu analysieren.

  • Azure Databricks ist eine Datenanalyseplattform. Es basiert auf dem Open-Source-System für verteilte Verarbeitung von Apache Spark und ist für die Azure-Cloudplattform optimiert. In einem Analyseworkflow liest Azure Databricks Daten aus mehreren Quellen und verwendet Spark, um Erkenntnisse bereitzustellen.

Datenspeicherung

  • Azure SQL-Datenbank ist Teil der Azure SQL-Familie und wurde für die Cloud entwickelt. Dieser Service bietet die Vorteile einer vollständig verwalteten und immergrünen Platform-as-a-Service (PaaS). SQL-Datenbank bietet auch KI-gestützte, automatisierte Features, die die Leistung und Dauerhaftigkeit optimieren. Serverless Compute- und Hyperscale-Speicheroptionen skalieren Ressourcen automatisch bei Bedarf.

  • Azure SQL Managed Instance ist Teil des Azure SQL-Dienstportfolios. Dieser intelligente und skalierbare Cloud-Datenbankdienst kombiniert die umfassendste Kompatibilität mit der SQL Server-Engine mit allen Vorteilen einer vollständig verwalteten und immergrünen PaaS. Verwenden Sie SQL Managed Instance, um vorhandene Apps im großen Stil zu modernisieren.

  • SQL Server auf Azure Virtual Machines bietet eine Möglichkeit, SQL Server-Workloads mit vollständiger Codekompatibilität in die Cloud zu verschieben. Als Teil der Azure SQL-Familie bietet SQL Server auf Azure Virtual Machines die kombinierte Leistung, Sicherheit und Analyse von SQL Server mit der Flexibilität und Hybridkonnektivität von Azure. Verwenden Sie SQL Server auf virtuellen Azure-Computern, um vorhandene Apps zu migrieren oder neue Apps zu erstellen. Sie können auch auf die neuesten SQL Server-Updates und -Versionen zugreifen, einschließlich SQL Server 2019.

  • Azure Database for PostgreSQL ist ein vollständig verwalteter relationaler Datenbankdienst, der auf der Community Edition des Open-Source-Datenbankmoduls PostgreSQL basiert. Nutzen Sie diesen Dienst, um sich auf Anwendungsinnovationen statt auf die Datenbankverwaltung zu konzentrieren. Sie können Ihre Workload auch schnell und einfach skalieren.

  • Azure Cosmos DB ist eine global verteilte Datenbank mit mehreren Modellen . Verwenden Sie Azure Cosmos DB, um sicherzustellen, dass Ihre Lösungen Durchsatz und Speicher über eine beliebige Anzahl geographischer Regionen hinweg elastisch und unabhängig skalieren können. Dieser vollständig verwaltete NoSQL-Datenbankdienst garantiert Latenzen im einstelligen Millisekundenbereich im neunundneunzigsten Perzentil überall auf der Welt.

  • Data Lake Storage ist ein Speicherrepository, das eine große Datenmenge in seinem nativen Rohformat enthält. Data Lake-Speicher sind für die Skalierung auf Terabyte und Petabyte an Daten optimiert. Die Daten stammen in der Regel aus mehreren, heterogenen Quellen und können strukturiert, halbstrukturiert oder unstrukturiert sein. Data Lake Storage Gen2 kombiniert Data Lake Storage Gen1-Funktionen mit Blob Storage. Diese Data-Lake-Lösung der nächsten Generation bietet Dateisystemsemantik, Sicherheit auf Dateiebene und Skalierbarkeit. Darüber hinaus bietet es die mehrstufigen Speicher-, Hochverfügbarkeits- und Notfallwiederherstellungsfunktionen von Blob Storage.

  • Microsoft Fabric ist eine unternehmenstaugliche End-to-End-Analyseplattform. Es vereint Datenbewegung, Datenverarbeitung, Datenaufnahme, Transformation, Echtzeit-Ereignisrouting und Berichtserstellung. Diese Funktionen werden durch die Verwendung integrierter Dienste wie Fabric Data Engineer, Fabric Data Factory, Fabric Data Science, Fabric Real-Time Intelligence, Fabric Data Warehouse und Fabric Databases unterstützt.

  • Azure Database for MySQL ist ein vollständig verwalteter relationaler Datenbankdienst, der auf der Community Edition des Open-Source-MySQL-Datenbankmoduls basiert.

Weitere Tools

  • Microsoft Service for Distributed Relational Database Architecture (DRDA) ist eine Komponente von Host Integration Server. Der Microsoft-Dienst für DRDA ist ein Anwendungsserver, der von DRDA-AR-Clients (Application Requester) verwendet wird. Beispiele für DRDA AR-Clients sind IBM Db2 for z/OS und Db2 for i5/OS. Diese Clients verwenden den Anwendungsserver, um Db2 SQL-Anweisungen zu konvertieren und auf SQL Server auszuführen.

  • SQL Server Migration Assistant for Db2 automatisiert die Migration von Db2 zu Microsoft-Datenbankservices. Dieses Tool wird auf einem virtuellen Computer ausgeführt. Er konvertiert Db2-Datenbankobjekte in SQL Server-Datenbankobjekte und erstellt diese Objekte in SQL.

Szenariodetails

Datenverfügbarkeit und -integrität sind bei der Modernisierung von Mainframes und Midrange von entscheidender Bedeutung. Data-First-Strategien tragen dazu bei, dass die Daten während der Migration zu Azure intakt und verfügbar bleiben. Um Unterbrechungen während der Modernisierung zu vermeiden, müssen Sie manchmal Daten schnell replizieren oder lokale Daten mit Azure-Datenbanken synchronisieren.

Konkret deckt diese Lösung Folgendes ab:

  • Extraktion: Herstellen einer Verbindung mit einer Quelldatenbank und Extrahieren von Daten aus dieser Datenbank.

  • Transformation:

    • Staging: Speichern Sie Daten vorübergehend in ihrem ursprünglichen Format und bereiten Sie sie für die Transformation vor.

    • Vorbereitung: Transformieren und bearbeiten Sie Daten mithilfe von Zuordnungsregeln, die die Anforderungen der Zieldatenbank erfüllen.

  • Laden: Fügen Sie Daten in eine Zieldatenbank ein.

Potenzielle Anwendungsfälle

Zu den Datenreplikations- und Synchronisierungsszenarien, die von dieser Lösung profitieren können, gehören:

  • Befehlsabfrage Verantwortlichkeit Trennungsarchitekturen, die Azure verwenden, um alle Abfragekanäle zu bedienen.

  • Umgebungen, in denen lokale Anwendungen getestet und Anwendungen parallel neu gehostet oder neu entwickelt werden.

  • Lokale Systeme mit eng gekoppelten Anwendungen, die eine schrittweise Wartung oder Modernisierung erfordern.

Empfehlungen

Sie können die folgenden Empfehlungen auf die meisten Szenarien anwenden. Sofern Sie keine besonderen Anforderungen haben, die Vorrang haben, sollten Sie diese Empfehlungen befolgen.

Wenn Sie Azure Data Factory zum Extrahieren von Daten verwenden, führen Sie Schritte aus, um die Leistung der Kopieraktivität zu optimieren.

Überlegungen

Diese Überlegungen bilden die Säulen des Azure Well-Architected Framework, einer Reihe von Leitprinzipien, die Sie zur Verbesserung der Qualität eines Workloads verwenden können. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Zuverlässigkeit

Zuverlässigkeit trägt dazu bei, dass Ihre Anwendung die Verpflichtungen erfüllen kann, die Sie für Ihre Kunden vornehmen. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Zuverlässigkeit.

  • Die Infrastrukturverwaltung, einschließlich der Verfügbarkeit, wird in Azure-Datenbanken automatisiert.

  • Informationen zum Microsoft-Dienst für den DRDA-Failoverschutz finden Sie unter Pooling und Failover.

  • Sie können das lokale Datengateway und die IR clustern, um höhere Verfügbarkeitsgarantien bereitzustellen.

Sicherheit

Sicherheit bietet Sicherheitsmaßnahmen gegen bewusste Angriffe und den Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Sicherheit.

  • Verwenden Sie Netzwerksicherheitsgruppen , um den Zugriff auf die erforderlichen Funktionen für jeden Dienst zu beschränken.

  • Verwenden Sie private Endpunkte für Ihre PaaS-Dienste. Verwenden Sie Service-Firewalls, die über das Internet sowohl erreichbar als auch nicht erreichbar sind, um die Sicherheit Ihrer Services zu erhöhen.

  • Verwenden Sie verwaltete Identitäten für Dataflows von Komponente zu Komponente.

  • Informationen zu den Typen von Clientverbindungen, die von Microsoft Service für DRDA unterstützt werden, finden Sie unter Planen und Entwerfen von Lösungen mithilfe von Microsoft Service for DRDA. Clientverbindungen wirken sich auf die Art der Transaktionen, das Pooling, das Failover, die Authentifizierung und die Verschlüsselung in Ihrem Netzwerk aus.

Kostenoptimierung

Die Kostenoptimierung konzentriert sich auf Möglichkeiten, unnötige Ausgaben zu reduzieren und die betriebliche Effizienz zu verbessern. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Kostenoptimierung.

  • Die Preismodelle variieren je nach Komponentendienst. Überprüfen Sie die Preismodelle der verfügbaren Komponentendienste, um sicherzustellen, dass sie zu Ihrem Budget passen.

  • Verwenden Sie den Azure-Preisrechner, um die Kosten für die Implementierung dieser Lösung abschätzen zu können.

Operative Exzellenz

„Optimaler Betrieb“ deckt die Betriebsprozesse ab, die für die Bereitstellung einer Anwendung und deren Ausführung in der Produktion sorgen. Weitere Informationen finden Sie unter Checkliste für die Designüberprüfung zur betrieblichen Exzellenz.

Leistungseffizienz

Die Leistungseffizienz bezieht sich auf die Fähigkeit Ihrer Workload, die Anforderungen der Benutzer effizient zu erfüllen. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Leistungseffizienz.

  • Ziehen Sie Azure ExpressRoute als Option für hohe Skalierung in Betracht, wenn Ihre Implementierung eine beträchtliche Bandbreite für die erste Replikation oder die fortlaufende Replikation geänderter Daten verwendet.

  • Wählen Sie die richtige IR-Konfiguration für Ihr Szenario.

Nächste Schritte