Mainframe-gegevens repliceren en synchroniseren in Azure

Azure Data Factory

Azure Databricks

Deze referentiearchitectuur bevat een implementatieplan voor het repliceren en synchroniseren van gegevens tijdens de modernisering naar Azure. Hierin worden technische aspecten besproken, zoals gegevensarchieven, hulpprogramma's en services.

Architectuur

Een Visio-bestand van deze architectuur downloaden.

Workflow

Mainframe- en midrangesystemen werken on-premises toepassingsdatabases regelmatig bij. De oplossing synchroniseert de meest recente gegevens met Azure-databases om consistentie te behouden. Het synchronisatieproces omvat de volgende stappen:

Deze acties worden gedurende het hele proces uitgevoerd:
1. Een on-premises gegevensgateway draagt gegevens snel en veilig over tussen on-premises systemen en Azure-services. Met deze configuratie kan de on-premises gegevensgateway instructies ontvangen van Azure en gegevens repliceren zonder dat het on-premises netwerk de lokale gegevensassets rechtstreeks beschikbaar maakt.
2. Azure Data Factory-pijplijnen organiseren activiteiten die variëren van gegevensextractie tot het laden van gegevens. U kunt pijplijnactiviteiten plannen, handmatig starten of automatisch activeren.
On-premises databases zoals Db2 zOS, Db2 for i en Db2 LUW slaan de gegevens op.
Pijplijnen groeperen de activiteiten die taken uitvoeren. Als u gegevens wilt extraheren, maakt Data Factory dynamisch één pijplijn per on-premises tabel. U kunt vervolgens een zeer parallelle implementatie gebruiken wanneer u gegevens repliceert in Azure. Maar u kunt de oplossing ook configureren om te voldoen aan uw vereisten:
- Volledige replicatie: u repliceert de hele database, waarbij u de benodigde wijzigingen aanbrengt in gegevenstypen en velden in de Azure-doeldatabase.
- Gedeeltelijke replicatie, delta of incrementele replicatie: u gebruikt watermerkkolommen in brontabellen om bijgewerkte rijen te synchroniseren met Azure-databases. Deze kolommen bevatten een doorlopende incrementele sleutel of een tijdstempel die de laatste update van de tabel aangeeft.
Data Factory maakt ook gebruik van pijplijnen voor de volgende transformatietaken:
- Conversie van gegevenstype
- Gegevensmanipulatie
- Gegevensopmaak
- Kolomafbreking
- Gegevens platmaken
- Gegevens sorteren
- Gegevens filteren
Een zelf-hostende Integration Runtime (IR) biedt de omgeving die Data Factory gebruikt voor het uitvoeren en verzenden van activiteiten.
Azure Data Lake Storage Gen2 en Azure Blob Storage bieden een locatie voor fasering van gegevens. Deze stap is soms vereist voor het transformeren en samenvoegen van gegevens uit meerdere bronnen.
De gegevensvoorbereiding vindt vervolgens plaats. Data Factory maakt gebruik van Azure Databricks, aangepaste activiteiten en pijplijngegevensstromen om gegevens snel en effectief te transformeren.
Data Factory laadt gegevens in relationele en niet-relationele Azure-databases:
- Azure SQL
- Azure Database for PostgreSQL
- Azure Cosmos DB
- Azure Data Lake Storage
- Azure Database for MariaDB
- Azure Database for MySQL
In bepaalde gebruiksscenario's kunnen andere hulpprogramma's ook gegevens laden.
Andere hulpprogramma's kunnen ook gegevens repliceren en transformeren:
- Microsoft Service for Distributed Relational Database Architecture (DRDA): deze DRDA-services kunnen verbinding maken met de Azure SQL-familie van databases en on-premises databases up-to-date houden. Deze services worden uitgevoerd op een on-premises virtuele machine (VM) of een Azure-VM.
- SQL Server Migration Assistance (SSMA) voor Db2: met dit hulpprogramma worden schema's en gegevens van IBM Db2-databases gemigreerd naar Azure-databases.
- SQL Server Integration Services (SSIS): dit platform kan gegevens extraheren, transformeren en laden.
- Hulpprogramma's van derden: wanneer voor de oplossing bijna realtime replicatie is vereist, kunt u hulpprogramma's van derden gebruiken. Sommige van deze agents zijn beschikbaar in Azure Marketplace.
Azure Synapse Analytics beheert de gegevens en maakt deze beschikbaar voor business intelligence- en machine learning-toepassingen.

Onderdelen

De oplossing maakt gebruik van de volgende onderdelen:

Hulpprogramma's

Microsoft Service voor DRDA is een onderdeel van Host Integration Server (HIS). Microsoft Service voor DRDA is een toepassingsserver die DRDA Application Requester-clients (AR) gebruiken. Voorbeelden van DRDA AR-clients zijn IBM Db2 for z/OS en Db2 for i5/OS. Deze clients gebruiken de toepassingsserver om Db2 SQL-instructies te converteren en uit te voeren op SQL Server.
SSMA voor Db2 automatiseert de migratie van Db2 naar Microsoft-databaseservices. Tijdens het uitvoeren op een virtuele machine converteert dit hulpprogramma Db2-databaseobjecten naar SQL Server-databaseobjecten en maakt u deze objecten in SQL Server. SSMA voor Db2 migreert vervolgens gegevens van Db2 naar de volgende services:
- SQL Server 2012
- SQL Server 2014
- SQL Server 2016
- SQL Server 2017 in Windows en Linux
- SQL Server 2019 in Windows en Linux
- Azure SQL-database
Azure Synapse Analytics is een analyseservice voor datawarehouses en big data-systemen. Dit hulpprogramma maakt gebruik van Spark-technologieën en heeft diepgaande integratie met Power BI, Azure Machine Learning en andere Azure-services.

Gegevensintegrators

Azure Data Factory is een hybride service voor gegevensintegratie. U kunt deze volledig beheerde, serverloze oplossing gebruiken om ETL- en ELT-werkstromen te maken, plannen en organiseren.
Azure Synapse Analytics is een service voor bedrijfsanalyse waarmee u sneller inzicht krijgt in datawarehouses en big data-systemen. Azure Synapse combineert het beste van SQL-technologieën (die worden gebruikt in zakelijke datawarehousing), Spark-technologieën die worden gebruikt voor big data, Data Explorer voor logboek- en tijdreeksanalyse, pijplijnen voor gegevensintegratie en ETL/ELT, en diepgaande integratie met andere Azure-services, zoals Power BI, Azure Cosmos DB en Azure Machine Learning.
SQL Server Integration Services (SSIS) is een platform voor het bouwen van oplossingen voor gegevensintegratie en transformatie op ondernemingsniveau. U kunt SSIS gebruiken om gegevens te beheren, te repliceren, op te schonen en te mijnen.
Azure Databricks is een platform voor gegevensanalyse. Op basis van het opensource-systeem voor gedistribueerde verwerking van Apache Spark is Azure Databricks geoptimaliseerd voor het Azure-cloudplatform. In een analysewerkstroom leest Azure Databricks gegevens uit meerdere bronnen en gebruikt Spark om inzichten te bieden.

Gegevensopslag

Azure SQL Database maakt deel uit van de Azure SQL-serie en is gebouwd voor de cloud. Deze service biedt alle voordelen van een volledig beheerd en groenblijvend platform als een service. SQL Database biedt ook door AI aangedreven, geautomatiseerde functies die de prestaties en duurzaamheid optimaliseren. Serverloze reken- en Hyperscale-opslagopties schalen automatisch resources op aanvraag.
SQL Managed Instance maakt deel uit van het Azure SQL-serviceportfolio. Deze intelligente, schaalbare clouddatabaseservice combineert de breedste compatibiliteit met SQL Server-engine met alle voordelen van een volledig beheerd en groenblijvend platform als een service. Met SQL Managed Instance kunt u bestaande apps op schaal moderniseren.
SQL Server op Azure-VM's biedt een manier om SQL Server-workloads naar de cloud te verplaatsen met 100 procent codecompatibiliteit. Als onderdeel van de Azure SQL-serie biedt SQL Server op Azure-VM's de gecombineerde prestaties, beveiliging en analyse van SQL Server met de flexibiliteit en hybride connectiviteit van Azure. Met SQL Server op azure-VM's kunt u bestaande apps migreren of nieuwe apps bouwen. U kunt ook toegang krijgen tot de nieuwste SQL Server-updates en -releases, waaronder SQL Server 2019.
Azure Database for PostgreSQL is een volledig beheerde relationele databaseservice die is gebaseerd op de community-editie van de opensource PostgreSQL-database-engine . Met deze service kunt u zich richten op toepassingsinnovatie in plaats van databasebeheer. U kunt uw workload ook snel en eenvoudig schalen.
Azure Cosmos DB is een wereldwijd gedistribueerde database met meerdere modellen . Met Azure Cosmos DB kunnen uw oplossingen doorvoer en opslag elastisch en onafhankelijk schalen in een willekeurig aantal geografische regio's. Deze volledig beheerde NoSQL-databaseservice garandeert latenties van één milliseconden op het percentiel van negentig negende overal ter wereld.
Data Lake Storage is een opslagopslagplaats met een grote hoeveelheid gegevens in de oorspronkelijke, onbewerkte indeling. Data Lake Stores zijn geoptimaliseerd voor schalen naar terabytes en petabytes aan gegevens. De gegevens zijn doorgaans afkomstig van meerdere heterogene bronnen en kunnen gestructureerd, semi-gestructureerd of ongestructureerd zijn. Data Lake Storage Gen2 combineert Data Lake Storage Gen1-mogelijkheden met Blob Storage. Deze data lake-oplossing van de volgende generatie biedt semantiek van het bestandssysteem, beveiliging op bestandsniveau en schaal. Maar het biedt ook de gelaagde opslag, hoge beschikbaarheid en mogelijkheden voor herstel na noodgevallen van Blob Storage.
Azure Database for MariaDB is een relationele databaseservice in de cloud. Deze service is gebaseerd op de database-engine van de MariaDB Community Edition.
Azure Database for MySQL is een volledig beheerde relationele databaseservice op basis van de communityversie van de opensource MySQL-database-engine.
Blob Storage biedt geoptimaliseerde cloudobjectopslag waarmee enorme hoeveelheden ongestructureerde gegevens worden beheerd.

Netwerken

Een on-premises gegevensgateway fungeert als een brug die on-premises gegevens verbindt met cloudservices. Normaal gesproken installeert u de gateway op een toegewezen on-premises VM. Cloudservices kunnen vervolgens veilig on-premises gegevens gebruiken.
Een IR is de rekeninfrastructuur die Data Factory gebruikt om gegevens in verschillende netwerkomgevingen te integreren. Data Factory maakt gebruik van zelf-hostende IR's om gegevens te kopiëren tussen cloudgegevensarchieven en gegevensarchieven in on-premises netwerken. U kunt ook Azure Synapse Pipelines gebruiken.

Scenariodetails

Beschikbaarheid en integriteit van gegevens spelen een belangrijke rol in mainframe en midrange modernisering. Met gegevens-eerste strategieën kunt u gegevens intact en beschikbaar houden tijdens de migratie naar Azure. Om te voorkomen dat toepassingen worden beïnvloed tijdens de modernisering, moet u soms snel gegevens repliceren of on-premises gegevens synchroon houden met Azure-databases.

Deze oplossing heeft met name betrekking op:

Extractie: Verbinding maken naar en uit een brondatabase extraheren.
Transformatie:
- Fasering: Gegevens tijdelijk opslaan in de oorspronkelijke indeling en voorbereiden op transformatie.
- Voorbereiding: Gegevens transformeren en bewerken met behulp van toewijzingsregels die voldoen aan de vereisten van de doeldatabase.
Laden: Gegevens invoegen in een doeldatabase.

Potentiële gebruikscases

Scenario's voor gegevensreplicatie en synchronisatie die kunnen profiteren van deze oplossing zijn:

CQRS-architecturen (Command Query Responsibility Segregation) die gebruikmaken van Azure om alle inquire-kanalen te onderhouden.
Omgevingen die on-premises toepassingen testen en opnieuw gehoste of opnieuw ontworpen toepassingen parallel uitvoeren.
On-premises systemen met nauw gekoppelde toepassingen waarvoor gefaseerde herstel of modernisering is vereist.

Aanbevelingen

Wanneer u Data Factory gebruikt om gegevens te extraheren, voert u stappen uit om de prestaties van de kopieeractiviteit af te stemmen.

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

Houd rekening met deze punten bij het overwegen van deze architectuur.

Betrouwbaarheid

Betrouwbaarheid zorgt ervoor dat uw toepassing kan voldoen aan de toezeggingen die u aan uw klanten hebt gedaan. Zie Overzicht van de betrouwbaarheidspijler voor meer informatie.

Infrastructuurbeheer, inclusief beschikbaarheid, wordt geautomatiseerd in Azure-databases.
Zie Pooling en failover voor informatie over de failoverbeveiliging die Microsoft Service voor DRDA biedt.
U kunt de on-premises gegevensgateway en IR clusteren om hogere beschikbaarheidsgaranties te bieden.

Beveiliging

Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie Overzicht van de beveiligingspijler voor meer informatie.

Maak gebruik van netwerkbeveiligingsgroepen om de toegang van services te beperken tot alleen wat ze nodig hebben om te functioneren.
Gebruik privé-eindpunten voor uw PaaS-services (Platform as a Service). Gebruik servicefirewalls om de beveiliging van uw services die bereikbaar en onbereikbaar zijn via internet, aan te vullen.
Houd rekening met de verschillen tussen on-premises clientidentiteiten en clientidentiteiten in Azure. U moet eventuele verschillen compenseren.
Beheerde identiteiten gebruiken voor gegevensstromen tussen onderdelen.
Zie Planning and Architecting Solutions Using Microsoft Service for DRDA (Planning and Architecting Solutions Using Microsoft Service for DRDA ) voor meer informatie over de typen clientverbindingen die door Microsoft Service voor DRDA worden ondersteund. Clientverbindingen zijn van invloed op de aard van transacties, pooling, failover, verificatie en versleuteling in uw netwerk.

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie Overzicht van de pijler kostenoptimalisatie voor meer informatie.

Prijsmodellen verschillen per onderdeelservices. Bekijk de prijsmodellen van de beschikbare onderdeelservices om ervoor te zorgen dat de prijsmodellen passen bij uw budget.
Gebruik de Azure-prijscalculator om de kosten voor het implementeren van deze oplossing te schatten.

Operationele uitmuntendheid

Operationele uitmuntendheid omvat de operationele processen die een toepassing implementeren en deze in productie houden. Zie Overzicht van de operationele uitmuntendheidpijler voor meer informatie.

Infrastructuurbeheer, inclusief schaalbaarheid, wordt geautomatiseerd in Azure-databases.
U kunt de zelf-hostende IR uitschalen door het logische exemplaar te koppelen aan meerdere on-premises machines in de actief-actieve modus.
U kunt de on-premises gegevensgateway en IR clusteren voor schaalbaarheid.

Prestatie-efficiëntie

Prestatie-efficiëntie is de mogelijkheid om op efficiënte wijze uw werkbelasting te schalen om te voldoen aan de vereisten die gebruikers eraan stellen. Zie overzicht van de pijler Prestatie-efficiëntie voor meer informatie.

Wanneer u een on-premises toepassingsgateway gebruikt, moet u rekening houden met de limieten voor lees- en schrijfbewerkingen.
Overweeg Azure ExpressRoute als een grootschalige optie als uw implementatie een aanzienlijke bandbreedte gebruikt voor initiële replicatie of doorlopende gewijzigde gegevensreplicatie.
De zelf-hostende IR kan alleen worden uitgevoerd op een Windows-besturingssysteem.

Volgende stappen

Neem contact op met Azure Data-engineer ing - On-premises Modernisering voor meer informatie.
Lees de migratiehandleiding.

[Handleiding voor azure-gegevensarchitectuur] [Handleiding voor azure-gegevensarchitectuur]
End-to-end azure-gegevensplatform

Delen via

Mainframe-gegevens repliceren en synchroniseren in Azure

Architectuur

Workflow

Onderdelen

Hulpprogramma's

Gegevensintegrators

Gegevensopslag

Netwerken

Scenariodetails

Potentiële gebruikscases

Aanbevelingen

Overwegingen

Betrouwbaarheid

Beveiliging

Kostenoptimalisatie

Operationele uitmuntendheid

Prestatie-efficiëntie

Volgende stappen

Feedback

Feedback

Aanvullende resources

Delen via

Mainframe-gegevens repliceren en synchroniseren in Azure

Architectuur

Workflow

Onderdelen

Hulpprogramma's

Gegevensintegrators

Gegevensopslag

Netwerken

Scenariodetails

Potentiële gebruikscases

Aanbevelingen

Overwegingen

Betrouwbaarheid

Beveiliging

Kostenoptimalisatie

Operationele uitmuntendheid

Prestatie-efficiëntie

Volgende stappen

Verwante resources

Feedback

Feedback

Aanvullende resources