Upravit

Sdílet prostřednictvím


Replikace a synchronizace dat sálového počítače v Azure

Azure Data Factory
Azure Databricks

Tato referenční architektura popisuje plán implementace pro replikaci a synchronizaci dat během modernizace do Azure. Popisuje technické aspekty, jako jsou úložiště dat, nástroje a služby.

Architektura

Diagram architektury znázorňující, jak synchronizovat místní databáze a databáze Azure během modernizace sálových počítačů

Stáhněte si soubor aplikace Visio s touto architekturou.

Workflow

Sálové a střední systémy aktualizují místní aplikační databáze v pravidelných intervalech. Aby se zachovala konzistence, řešení synchronizuje nejnovější data s databázemi Azure. Proces synchronizace zahrnuje následující kroky:

  1. K těmto akcím dochází v průběhu celého procesu:

    1. Místní brána dat přenáší data rychle a bezpečně mezi místními systémy a službami Azure. Díky této konfiguraci může místní brána dat přijímat pokyny z Azure a replikovat data bez přímé zveřejnění místních datových prostředků.
    2. Kanály Azure Data Factory orchestrují aktivity, které se liší od extrakce dat po načítání dat. Můžete plánovat aktivity kanálu, spouštět je ručně nebo je automaticky aktivovat.
  2. Místní databáze, jako je Db2 zOS, Db2 pro i a Db2 LUW, ukládají data.

  3. Kanály seskupují aktivity, které provádějí úlohy. Pro extrakci dat služba Data Factory dynamicky vytvoří jeden kanál pro každou místní tabulku. Při replikaci dat v Azure pak můžete použít masivně paralelní implementaci. Můžete ale také nakonfigurovat řešení tak, aby splňovalo vaše požadavky:

    • Úplná replikace: Replikujete celou databázi a provedete nezbytné úpravy datových typů a polí v cílové databázi Azure.
    • Částečná, rozdílová nebo přírůstková replikace: K synchronizaci aktualizovaných řádků s databázemi Azure používáte sloupce vodoznaků ve zdrojových tabulkách. Tyto sloupce obsahují buď nepřetržitý inkrementační klíč, nebo časové razítko označující poslední aktualizaci tabulky.

    Data Factory také používá kanály pro následující úlohy transformace:

    • Převod datového typu
    • Manipulace s daty
    • Formátování dat
    • Odvození sloupce
    • Zploštění dat
    • Řazení dat
    • Filtrování dat
  4. Místní prostředí Integration Runtime (IR) poskytuje prostředí, které služba Data Factory používá ke spouštění a odesílání aktivit.

  5. Azure Data Lake Storage Gen2 a Azure Blob Storage poskytují místo pro přípravu dat. Tento krok se někdy vyžaduje pro transformaci a sloučení dat z více zdrojů.

  6. Příprava dat probíhá v dalším kroku. Data Factory využívá Azure Databricks, vlastní aktivity a toky dat kanálu k rychlé a efektivní transformaci dat.

  7. Data Factory načítá data do relačních a nerelačních databází Azure:

    • Azure SQL
    • Azure Database for PostgreSQL
    • Azure Cosmos DB
    • Azure Data Lake Storage
    • Azure Database for MariaDB
    • Azure Database for MySQL

    V některých případech použití můžou načítat data i jiné nástroje.

  8. Další nástroje můžou také replikovat a transformovat data:

    • Microsoft Service for Distributed Relational Database Architecture (DRDA): Tyto služby DRDA se můžou připojit k rodině databází Azure SQL a udržovat místní databáze aktuální. Tyto služby běží na místním virtuálním počítači nebo virtuálním počítači Azure.
    • Sql Server Migration Assistance (SSMA) pro Db2: Tento nástroj migruje schémata a data z databází IBM Db2 do databází Azure.
    • SQL Server Integration Services (SSIS): Tato platforma může extrahovat, transformovat a načítat data.
    • Nástroje třetích stran: Pokud řešení vyžaduje téměř replikaci v reálném čase, můžete použít nástroje třetích stran. Někteří z těchto agentů jsou k dispozici na Azure Marketplace.
  9. Azure Synapse Analytics spravuje data a zpřístupňuje je pro aplikace business intelligence a strojového učení.

Komponenty

Řešení používá následující komponenty:

Nástroje

  • Služba Microsoft pro DRDA je součástí systému HOST Integration Server (HIS). Služba Microsoft pro DRDA je aplikační server, který používají klienti žádosti o aplikace DRDA (AR). Mezi příklady klientů DRDA AR patří IBM Db2 pro z/OS a Db2 pro i5/OS. Tito klienti používají aplikační server k převodu příkazů SQL db2 a jejich spuštění na SQL Serveru.

  • SSMA for Db2 automatizuje migraci z Db2 do databázových služeb Microsoftu. Při spuštění na virtuálním počítači tento nástroj převede databázové objekty Db2 na databázové objekty SQL Serveru a vytvoří tyto objekty v SQL Serveru. SSMA pro Db2 pak migruje data z Db2 do následujících služeb:

    • SQL Server 2012
    • SQL Server 2014
    • SQL Server 2016
    • SQL Server 2017 ve Windows a Linuxu
    • SQL Server 2019 ve Windows a Linuxu
    • Azure SQL Database
  • Azure Synapse Analytics je analytická služba pro datové sklady a systémy pro velké objemy dat. Tento nástroj používá technologie Sparku a má hlubokou integraci s Power BI, azure machine Učení a dalšími službami Azure.

Integrátory dat

  • Azure Data Factory je hybridní služba pro integraci dat. Pomocí tohoto plně spravovaného bezserverového řešení můžete vytvářet, plánovat a orchestrovat pracovní postupy ETL a ELT .

  • Azure Synapse Analytics je podniková analytická služba, která zrychluje čas na přehledy napříč datovými sklady a systémy pro velké objemy dat. Azure Synapse spojuje to nejlepší z technologií SQL (které se používají v podnikových datových skladech), technologie Sparku používané pro velké objemy dat, Průzkumník dat pro analýzu protokolů a časových řad, kanály pro integraci dat a ETL/ELT a hloubkovou integraci s dalšími službami Azure, jako jsou Power BI, Azure Cosmos DB a Azure Machine Učení.

  • SQL Server Integration Services (SSIS) je platforma pro vytváření řešení integrace a transformace dat na podnikové úrovni. SSIS můžete použít ke správě, replikaci, čištění a doly dat.

  • Azure Databricks je platforma pro analýzu dat. Azure Databricks je optimalizovaný pro cloudovou platformu Azure na základě opensourcového systému distribuovaného zpracování Apache Sparku. V pracovním postupu analýzy Azure Databricks čte data z více zdrojů a pomocí Sparku poskytuje přehledy.

Úložiště dat

  • Azure SQL Database je součástí řady Azure SQL a je sestavená pro cloud. Tato služba nabízí všechny výhody plně spravované a evergreen platformy jako služby. SQL Database také poskytuje automatizované funkce využívající AI, které optimalizují výkon a odolnost. Bezserverové výpočetní prostředky a možnosti úložiště Hyperscale automaticky škálujte prostředky na vyžádání.

  • SQL Managed Instance je součástí portfolia služeb Azure SQL. Tato inteligentní, škálovatelná cloudová databázová služba kombinuje nejširší kompatibilitu modulu SQL Serveru se všemi výhodami plně spravované a evergreen platformy jako služby. Se službou SQL Managed Instance můžete modernizovat stávající aplikace ve velkém měřítku.

  • SQL Server na virtuálních počítačích Azure poskytuje způsob, jak lift and shiftovat úlohy SQL Serveru do cloudu s 100% kompatibilitou kódu. V rámci rodiny Azure SQL nabízí SQL Server na virtuálních počítačích Azure kombinovaný výkon, zabezpečení a analýzu SQL Serveru s flexibilitou a hybridním připojením Azure. S SQL Serverem na virtuálních počítačích Azure můžete migrovat existující aplikace nebo vytvářet nové aplikace. Můžete také získat přístup k nejnovějším aktualizacím a vydaným verzím SQL Serveru, včetně SQL Serveru 2019.

  • Azure Database for PostgreSQL je plně spravovaná relační databázová služba založená na komunitní edici opensourcového databázového stroje PostgreSQL . S touto službou se můžete soustředit na inovace aplikací místo správy databází. Úlohy můžete také rychle a snadno škálovat.

  • Azure Cosmos DB je globálně distribuovaná vícemodelová databáze. Díky službě Azure Cosmos DB můžou vaše řešení elasticky a nezávisle škálovat propustnost a úložiště napříč libovolným počtem geografických oblastí. Tato plně spravovaná databázová služba NoSQL zaručuje latence jednociferného milisekund na devadesátém percentilu kdekoli na světě.

  • Data Lake Storage je úložiště, které obsahuje velké množství dat v nativním nezpracovaném formátu. Úložiště Data Lake jsou optimalizovaná pro škálování na terabajty a petabajty dat. Data obvykle pocházejí z více heterogenních zdrojů a mohou být strukturovaná, částečně strukturovaná nebo nestrukturovaná. Data Lake Storage Gen2 kombinuje funkce Data Lake Storage Gen1 se službou Blob Storage. Toto řešení Data Lake nové generace poskytuje sémantiku systému souborů, zabezpečení na úrovni souborů a škálování. Nabízí ale také vrstvené úložiště, vysokou dostupnost a možnosti zotavení po havárii služby Blob Storage.

  • Azure Database for MariaDB je cloudová relační databázová služba. Tato služba je založená na databázovém stroji MariaDB Community Edition.

  • Azure Database for MySQL je plně spravovaná relační databázová služba založená na komunitní edici opensourcového databázového stroje MySQL.

  • Blob Storage poskytuje optimalizované cloudové úložiště objektů, které spravuje obrovské objemy nestrukturovaných dat.

Sítě

  • Místní brána dat funguje jako most, který propojuje místní data s cloudovými službami. Bránu obvykle nainstalujete na vyhrazený místní virtuální počítač. Cloudové služby pak můžou bezpečně používat místní data.

  • Ir je výpočetní infrastruktura, kterou služba Data Factory používá k integraci dat v různých síťových prostředích. Data Factory používá k kopírování dat mezi cloudovými úložišti dat a úložišti dat v místních sítích místní úložiště dat místní prostředí. Můžete také použít kanály Azure Synapse.

Podrobnosti scénáře

Dostupnost a integrita dat hrají důležitou roli v mainframové a střední modernizaci. Strategie zaměřené na data pomáhají udržet data nedotčená a dostupná během migrace do Azure. Abyste se vyhnuli dopadu aplikací během modernizace, někdy potřebujete rychle replikovat data nebo udržovat místní data synchronizovaná s databázemi Azure.

Konkrétně se toto řešení týká:

  • Extrakce: Připojení do zdrojové databáze a extrahování z této databáze.
  • Transformace:
    • Příprava: Dočasné ukládání dat v původním formátu a jejich příprava na transformaci.
    • Příprava: Transformace a manipulace s daty pomocí pravidel mapování, která splňují požadavky na cílovou databázi.
  • Načítání: Vkládání dat do cílové databáze

Potenciální případy použití

Mezi scénáře replikace dat a synchronizace, které můžou těžit z tohoto řešení, patří:

  • Architektury CQRS (Command Query Responsibility Segregation), které používají Azure ke službě všech kanálů inquire.
  • Prostředí, která testují místní aplikace a znovu hostují nebo rekonstruují aplikace paralelně.
  • Místní systémy s úzce propojenými aplikacemi, které vyžadují postupné nápravy nebo modernizaci.

Doporučení

Pokud k extrakci dat použijete službu Data Factory, proveďte kroky k vyladění výkonu aktivity kopírování.

Důležité informace

Tyto aspekty implementují pilíře dobře architektuře Azure, což je sada hlavních principů, které je možné použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.

Při zvažování této architektury mějte na paměti tyto body.

Spolehlivost

Spolehlivost zajišťuje, že vaše aplikace může splňovat závazky, které uděláte pro vaše zákazníky. Další informace najdete v tématu Přehled pilíře spolehlivosti.

  • Správa infrastruktury, včetně dostupnosti, je automatizovaná v databázích Azure.

  • Informace o ochraně při selhání, kterou poskytuje služba Microsoft Service for DRDA, najdete v tématu Sdružování a převzetí služeb při selhání .

  • Pokud chcete zajistit vyšší záruky dostupnosti, můžete clusterovat místní bránu dat a prostředí IR.

Zabezpečení

Zabezpečení poskytuje záruky proti záměrným útokům a zneužití cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.

  • Pomocí skupin zabezpečení sítě omezte přístup ke službám jenom na to, co potřebují k fungování.

  • Pro služby PaaS (Platforma jako služba) používejte privátní koncové body . Brány firewall služeb slouží k doplnění zabezpečení vašich služeb, které jsou dostupné i nedostupné přes internet.

  • Mějte na paměti rozdíly mezi místními klientskými identitami a identitami klientů v Azure. Všechny rozdíly budete muset kompenzovat.

  • Použití spravovaných identit pro toky dat komponent-komponent.

  • Informace o typech klientských připojení, která služba Microsoft Service for DRDA podporuje, najdete v tématu Plánování a navrhování řešení pomocí služby Microsoft Service for DRDA . Klientská připojení ovlivňují povahu transakcí, sdružování, převzetí služeb při selhání, ověřování a šifrování ve vaší síti.

Optimalizace nákladů

Optimalizace nákladů se zabývá způsoby, jak snížit zbytečné výdaje a zlepšit efektivitu provozu. Další informace najdete v tématu Přehled pilíře optimalizace nákladů.

Provozní dokonalost

Efektivita provozu zahrnuje provozní procesy, které nasazují aplikaci a udržují ji spuštěnou v produkčním prostředí. Další informace najdete v tématu Přehled pilíře efektivity provozu.

  • Správa infrastruktury, včetně škálovatelnosti, je automatizovaná v databázích Azure.

  • Místní prostředí IR můžete škálovat přidružením logické instance k několika místním počítačům v režimu aktivní-aktivní.

  • Pro zajištění škálovatelnosti můžete clusterovat místní bránu dat a prostředí IR.

Efektivita výkonu

Efektivita výkonu je schopnost úlohy škálovat se tak, aby efektivním způsobem splňovala požadavky, které na ni kladou uživatelé. Další informace najdete v tématu Přehled pilíře efektivity výkonu.

Další kroky