Поделиться через


Использование Фабрика данных Azure для переноса данных из озера данных или хранилища данных в Azure

ПРИМЕНИМО К: Фабрика данных Azure Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Фабрика данных Azure с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

Если вы хотите перенести озеро данных или корпоративное хранилище данных (EDW) в Microsoft Azure, рассмотрите возможность использования Фабрика данных Azure. Фабрика данных Azure хорошо подходит для следующих сценариев:

  • Миграция рабочей нагрузки больших данных из Amazon Simple Storage Service (Amazon S3) или локальной распределенной файловой системы Hadoop (HDFS) на Azure
  • Миграция EDW с Oracle Exadata, Netezza, Teradata или Amazon Redshift на Azure

Фабрика данных Azure может перемещать петабайты (PB) данных при миграции озера данных и десятки терабайт (ТБ) данных при миграции хранилища данных.

Почему Фабрика данных Azure можно использовать для миграции данных

  • Фабрика данных Azure может легко масштабировать объем вычислительных мощностей для перемещения данных бессерверным образом с высокой производительностью, устойчивостью и масштабируемостью. При этом вы платите только за используемые ресурсы. Кроме того, обратите внимание на следующее:
    • Фабрика данных Azure не имеет ограничений на том данных или количество файлов.
    • Фабрика данных Azure может полностью использовать пропускную способность вашей сети и хранилища для достижения максимальной производительности перемещения данных в вашей среде.
    • Фабрика данных Azure использует метод оплаты по мере использования, поэтому вы платите только за время, которое вы фактически используете для выполнения миграции данных в Azure.
  • Фабрика данных Azure может выполнять как однократную историческую нагрузку, так и запланированные добавочные нагрузки.
  • Фабрика данных Azure использует среду выполнения интеграции Azure (IR) для перемещения данных между публично доступными конечными точками озера данных и хранилища данных. Он также может использовать самостоятельно размещаемый IR для перемещения данных в конечные точки озера данных и хранилища в виртуальной сети Azure или за брандмауэром.
  • Фабрика данных Azure имеет безопасность корпоративного уровня: вы можете использовать установщик Windows (MSI) или удостоверение службы для защищенной интеграции между службами или использовать Azure Key Vault для управления учетными данными.
  • Фабрика данных Azure предоставляет интерфейс разработки без кода и встроенную панель мониторинга. 

Перенос данных по сети и в автономном режиме

Фабрика данных Azure — это стандартное средство переноса данных через интернет для передачи данных через сеть (Интернет, ER или VPN). В то время как при автономной миграции данных пользователи физически передают устройства передачи данных из организации в центр обработки данных Azure.

При выборе между подходами к онлайн и офлайн миграции следует учитывать три ключевых фактора.

  • Размер переносимых данных
  • Пропускная способность сети
  • Окно миграции

Например, предположим, что вы планируете использовать Фабрика данных Azure для завершения миграции данных в течение двух недель (окно migration). Обратите внимание на розовую и синюю линию в таблице ниже. В нижней розовой ячейке для любого столбца показана комбинация объема данных и пропускной способности сети, для которой окно миграции ближе всего к целевому значению и при этом меньше двух недель. Для всех комбинаций объема данных и пропускной способности в синих ячейках окно миграции через Интернет будет больше двух недель.

онлайн и оффлайн Эта таблица помогает определить, можно ли выполнить предполагаемое окно миграции через онлайн-миграцию (Фабрика данных Azure) на основе размера данных и доступной пропускной способности сети. Если окно онлайн миграции превышает две недели, вам рекомендуется использовать автономную миграцию.

Примечание.

При миграции по сети вы можете с помощью одного средства реализовать загрузку как основных, так и добавочных данных с одного узла на другой. При таком подходе данные в существующем и новом хранилище можно синхронизировать в течение всего окна миграции. Это означает, что вы сможете перестроить ETL-логику в новом хранилище данных с обновленными данными.