Репликация и синхронизация данных мейнфреймов в Azure

Фабрика данных Azure
Azure Databricks

Эта эталонная архитектура описывает план реализации для реплика реплика и синхронизации данных во время модернизации с Azure. В нем рассматриваются технические аспекты, такие как хранилища данных, инструменты и службы.

Архитектура

Схема архитектуры, показывающая, как синхронизировать локальные и базы данных Azure во время модернизации мейнфрейма.

Скачайте файл Visio для этой архитектуры.

Рабочий процесс

Мейнфреймы и системы среднего порядка обновляют локальные базы данных приложений через регулярный интервал. Чтобы обеспечить согласованность, решение синхронизирует последние данные с базами данных Azure. Процесс синхронизации включает следующие действия.

  1. Эти действия выполняются на протяжении всего процесса:

    1. Локальный шлюз данных быстро и безопасно передает данные между локальными системами и службами Azure. С помощью этой конфигурации локальный шлюз данных может получать инструкции из Azure и реплика te данных без локальной сети напрямую предоставлять локальные ресурсы данных.
    2. Фабрика данных Azure конвейеры оркеструет действия, которые варьируются от извлечения данных до загрузки данных. Вы можете запланировать действия конвейера, запустить их вручную или автоматически активировать их.
  2. Локальные базы данных, такие как Db2 zOS, Db2 для i и Db2 LUW, хранят данные.

  3. Конвейеры группирует действия, выполняющие задачи. Для извлечения данных фабрика данных динамически создает один конвейер на локальную таблицу. Затем можно использовать массовую параллельную реализацию при реплика te данных в Azure. Но вы также можете настроить решение в соответствии с вашими требованиями:

    • Полное реплика tion: вы реплика те всю базу данных, внося необходимые изменения в типы данных и поля в целевой базе данных Azure.
    • Частичное, разностное или добавочное реплика tion: для синхронизации обновленных строк с базами данных Azure используются столбцы подложки в исходных таблицах. Эти столбцы содержат либо непрерывно добавочный ключ, либо метку времени, указывающую последнее обновление таблицы.

    Фабрика данных также использует конвейеры для следующих задач преобразования:

    • Преобразование типов данных
    • Обработка данных
    • Форматирование данных
    • Производный столбец
    • Преобразование данных в плоскую структуру
    • Сортировка данных
    • Фильтрация данных
  4. Локальная среда выполнения интеграции (IR) предоставляет среду, которую фабрика данных использует для выполнения и отправки действий.

  5. Azure Data Lake Storage 2-го поколения и Хранилище BLOB-объектов Azure предоставляют место для промежуточного хранения данных. Этот шаг иногда требуется для преобразования и объединения данных из нескольких источников.

  6. Далее выполняется подготовка данных. Фабрика данных использует Azure Databricks, пользовательские действия и потоки данных конвейера для быстрого и эффективного преобразования данных.

  7. Фабрика данных загружает данные в реляционные и нереляционные базы данных Azure:

    • Azure SQL
    • База данных Azure для PostgreSQL
    • Azure Cosmos DB
    • Azure Data Lake Storage
    • База данных Azure для MariaDB
    • База данных Azure для MySQL

    В некоторых случаях другие средства также могут загружать данные.

  8. Другие средства также могут реплика и преобразовывать данные:

    • Архитектура распределенной реляционной базы данных (DRDA): эти службы DRDA могут подключаться к семейству баз данных SQL Azure и обновлять локальные базы данных. Эти службы выполняются на локальной виртуальной машине или виртуальной машине Azure.
    • Sql Server Migration Assistance (SSMA) for Db2: это средство переносит схемы и данные из баз данных IBM Db2 в базы данных Azure.
    • СЛУЖБЫ SQL Server Integration Services (SSIS): эта платформа может извлекать, преобразовывать и загружать данные.
    • Сторонние средства. Если решение требует почти реплика в реальном времени, можно использовать сторонние средства. Некоторые из этих агентов доступны в Azure Marketplace.
  9. Azure Synapse Analytics управляет данными и делает его доступным для бизнес-аналитики и приложений машинного обучения.

Компоненты

Решение использует следующие компоненты:

Инструменты

  • Служба Майкрософт для DRDA — это компонент сервера интеграции узлов (HIS). Служба Майкрософт для DRDA — это сервер приложений, используемый клиентами DRDA Application Requester (AR). Примеры клиентов DRDA AR включают IBM Db2 для z/OS и Db2 для i5/OS. Эти клиенты используют сервер приложений для преобразования инструкций SQL Db2 и запуска их в SQL Server.

  • SSMA для Db2 автоматизирует миграцию из Db2 в службы баз данных Майкрософт. При запуске на виртуальной машине это средство преобразует объекты базы данных Db2 в объекты базы данных SQL Server и создает эти объекты в SQL Server. SSMA для Db2 затем переносит данные из Db2 в следующие службы:

    • SQL Server 2012
    • SQL Server 2014
    • SQL Server 2016
    • SQL Server 2017 в ОС Windows и Linux
    • SQL Server 2019 в Windows и Linux
    • База данных SQL Azure
  • Azure Synapse Analytics — это служба аналитики для хранилищ данных и систем обработки больших данных. Это средство использует технологии Spark и имеет глубокую интеграцию с Power BI, Машинное обучение Azure и другими службами Azure.

Интеграторы данных

  • Фабрика данных Azure — это гибридная служба интеграции данных. Это полностью управляемое, бессерверное решение можно использовать для создания, планирования и оркестрации рабочих процессов ETL и ELT .

  • Azure Synapse Analytics — это корпоративная служба аналитики, которая ускоряет анализ данных в хранилищах данных и системах больших данных. Azure Synapse объединяет лучшие технологии SQL (которые используются в корпоративном хранилище данных), технологии Spark, используемые для больших данных, данных Обозреватель для аналитики журналов и временных рядов, конвейеры для интеграции данных и ETL/ELT, а также глубокая интеграция с другими службами Azure, такими как Power BI, Azure Cosmos DB и Машинное обучение Azure.

  • SQL Server Integration Services (SSIS) — это платформа для создания решений интеграции данных корпоративного уровня и преобразования. Службы SSIS можно использовать для управления, реплика, очистки и анализа данных.

  • Azure Databricks — это платформа аналитики данных. На основе распределенной системы распределенной обработки Apache Spark с открытым кодом Azure Databricks оптимизирована для облачной платформы Azure. В рабочем процессе аналитики Azure Databricks считывает данные из нескольких источников и использует Spark для предоставления аналитических сведений.

Хранилище данных

  • База данных SQL Azure входит в семейство SQL Azure и создается для облака. Эта служба предоставляет все преимущества полностью управляемой и постоянной платформы как услуги. База данных SQL также предоставляет автоматизированные функции на основе искусственного интеллекта, которые оптимизируют производительность и устойчивость. Параметры бессерверных вычислений и хранилища гипермасштабирования автоматически масштабируйте ресурсы по требованию.

  • Управляемый экземпляр SQL входит в портфель служб SQL Azure. Эта интеллектуальная, масштабируемая облачная служба баз данных объединяет самые широкие возможности подсистемы SQL Server со всеми преимуществами полностью управляемой и постоянной платформы в качестве службы. С помощью Управляемый экземпляр SQL можно модернизировать существующие приложения в масштабе.

  • SQL Server на виртуальных машинах Azure предоставляет способ переноса рабочих нагрузок SQL Server в облако с совместимостью кода на 100 процентов. В рамках семейства SQL Azure SQL Server на виртуальных машинах Azure обеспечивает объединенную производительность, безопасность и аналитику SQL Server с гибкостью и гибридным подключением к Azure. С помощью SQL Server на виртуальных машинах Azure можно перенести существующие приложения или создать новые приложения. Вы также можете получить доступ к последним обновлениям и выпускам SQL Server, включая SQL Server 2019.

  • База данных Azure для PostgreSQL — это полностью управляемая служба реляционных баз данных на основе СУБД PostgreSQL с открытым кодом (Community Edition). С помощью этой службы можно сосредоточиться на инновациях приложений вместо управления базами данных. Вы также можете быстро и легко масштабировать рабочую нагрузку.

  • Azure Cosmos DB — это глобально распределенная многомодельнаябаза данных. С помощью Azure Cosmos DB решения могут эластично и независимо масштабировать пропускную способность и хранилище в любом количестве географических регионов. Эта полностью управляемая служба базы данных NoSQL гарантирует однозначную задержку миллисекунда на девяносто девятом процентиле в любом месте мира.

  • Data Lake служба хранилища — это репозиторий хранилища, в котором хранится большой объем данных в собственном, необработанном формате. Хранилища Data Lake оптимизированы для масштабирования до нескольких терабайт и даже петабайт данных. Данные обычно поступают из нескольких разнородных источников и могут быть структурированными, частично структурированными и неструктурированными. Data Lake Storage 2-го поколения объединяет возможности Data Lake Storage 1-го поколения с служба хранилища BLOB-объектов. Это решение озера данных следующего поколения обеспечивает семантику файловой системы, безопасность на уровне файлов и масштабирование. Но она также предлагает многоуровневые хранилища, высокий уровень доступности и аварийное восстановление больших двоичных объектов служба хранилища.

  • База данных Azure для MariaDB — это облачная служба реляционной базы данных. Эта служба основана на ядре СУБД MariaDB community.

  • База данных Azure для MySQL — это полностью управляемая служба реляционной базы данных, основанная на выпуске сообщества ядра СУБД MySQL с открытым исходным кодом.

  • Большой двоичный объект служба хранилища предоставляет оптимизированное облачное хранилище объектов, которое управляет большим объемом неструктурированных данных.

Сеть

Подробности сценария

Доступность и целостность данных играют важную роль в мейнфрейме и модернизации среднего уровня. Стратегии первого использования данных помогают сохранить данные без изменений и доступности во время миграции в Azure. Чтобы избежать влияния на приложения во время модернизации, иногда необходимо быстро реплика te данные или обеспечить синхронизацию локальных данных с базами данных Azure.

В частности, это решение охватывает следующее:

  • Извлечение: Подключение в базу данных-источник и извлечение из нее.
  • Преобразования:
    • Промежуточное выполнение. Временное хранение данных в исходном формате и подготовка его к преобразованию.
    • Подготовка. Преобразование и управление данными с помощью правил сопоставления, которые соответствуют требованиям целевой базы данных.
  • Загрузка: вставка данных в целевую базу данных.

Потенциальные варианты использования

Сценарии реплика и синхронизации данных, которые могут воспользоваться этим решением:

  • Архитектуры сегрегации ответственности команд (CQRS), использующие Azure для обслуживания всех каналов запроса.
  • Среды, которые тестируют локальные приложения и повторно размещали или перестроили приложения параллельно.
  • Локальные системы с тесно связанных приложений, требующих поэтапной исправления или модернизации.

Рекомендации

При использовании фабрики данных для извлечения данных выполните действия по настройке производительности действия копирования.

Рекомендации

Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая является набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.

Учитывайте приведенные рекомендации при рассмотрении данной архитектуры.

Надежность

Надежность гарантирует, что ваше приложение позволит вам выполнить ваши обязательства перед клиентами. Дополнительные сведения см. в разделе "Обзор основы надежности".

  • Управление инфраструктурой, включая доступность, автоматизировано в базах данных Azure.

  • Сведения о защите от отработки отказа, которую предоставляет служба Майкрософт для DRDA, см . в пуле и отработки отказа.

  • Вы можете кластеризации локального шлюза данных и ir, чтобы обеспечить более высокий уровень доступности.

Безопасность

Безопасность обеспечивает гарантии от преднамеренного нападения и злоупотребления ценными данными и системами. Дополнительные сведения см. в разделе "Общие сведения о компоненте безопасности".

  • Используйте группы безопасности сети, чтобы ограничить доступ служб только к функциям.

  • Используйте частные конечные точки для служб PaaS (платформа как услуга). Используйте брандмауэры служб, чтобы дополнить безопасность служб, которые доступны и недоступны через Интернет.

  • Обратите внимание на различия между локальными удостоверениями клиентов и удостоверениями клиентов в Azure. Вам потребуется компенсировать любые различия.

  • Используйте управляемые удостоверения для потоков данных между компонентами.

  • Сведения о типах клиентских подключений, поддерживаемых службой Майкрософт для DRDA, см. в статье "Планирование и проектирование решений" с помощью службы Майкрософт для DRDA . Клиентские подключения влияют на характер транзакций, пулов, отработки отказа, проверки подлинности и шифрования в сети.

Оптимизация затрат

Оптимизация затрат заключается в поиске способов уменьшения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".

  • Модели ценообразования различаются между службами компонентов. Просмотрите модели ценообразования доступных служб компонентов, чтобы обеспечить соответствие модели ценообразования вашему бюджету.

  • Чтобы оценить затраты на реализацию этого решения, используйте Калькулятор цен Azure.

Эффективность работы

Оперативное превосходство охватывает процессы операций, которые развертывают приложение и продолжают работать в рабочей среде. Дополнительные сведения см. в разделе "Общие сведения о принципах эффективности работы".

  • Управление инфраструктурой, включая масштабируемость, автоматизировано в базах данных Azure.

  • Вы можете масштабировать локальную среду ir , связав логический экземпляр с несколькими локальными компьютерами в активном режиме.

  • Вы можете кластеризации локального шлюза данных и ir для масштабируемости.

Оптимизация производительности

Уровень производительности — это способность вашей рабочей нагрузки эффективно масштабироваться в соответствии с требованиями, предъявляемыми к ней пользователями. Дополнительные сведения см. в разделе "Общие сведения о эффективности производительности".

Следующие шаги