Планирование миграции из Фабрики данных Azure
Microsoft Fabric — это продукт SaaS для аналитики данных Майкрософт, который объединяет все продукты аналитики, ведущие на рынке Майкрософт, в единый пользовательский интерфейс. Фабрика данных Fabric обеспечивает оркестрацию рабочих процессов, перемещение данных, репликацию данных и преобразование данных в масштабе с аналогичными возможностями, которые находятся в фабрике данных Azure (ADF). Если у вас есть инвестиции ADF, которые вы хотите модернизировать в Фабрику данных Fabric, этот документ полезен для понимания аспектов миграции, стратегий и подходов.
Миграция из azure PaaS ETL/DI служб ADF & конвейеров Synapse и потоков данных может обеспечить несколько важных преимуществ:
- Новые интегрированные функции конвейера, включая действия электронной почты и Teams, обеспечивают простую маршрутизацию сообщений во время выполнения конвейера.
- Встроенные функции непрерывной интеграции и доставки (CI/CD) (конвейеры развертывания) не требуют внешней интеграции с репозиториями Git.
- Интеграция рабочей области с платформой данных OneLake позволяет легко управлять аналитикой через единый интерфейс.
- Обновлять модели семантических данных в Fabric легко с помощью полностью интегрированной операции конвейера.
Microsoft Fabric — это интегрированная платформа для корпоративных данных, управляемых самообслуживанием и ИТ-управлением. Благодаря экспоненциальному росту объемов данных и сложности клиенты Fabric требуют корпоративных решений, которые масштабируются, являются безопасными, простыми и доступными для всех пользователей в крупнейших организациях.
В последние годы корпорация Майкрософт инвестировала значительные усилия по доставке масштабируемых облачных возможностей в Premium. В этом случае фабрика данных в Fabric мгновенно предоставляет большую экосистему разработчиков интеграции данных и решений по интеграции данных, созданных на протяжении десятилетий, для применения полного набора функций и возможностей, которые выходят за рамки сопоставимых функциональных возможностей, доступных в предыдущих поколениях.
Естественно, клиенты спрашивают, есть ли возможность консолидироваться, размещая свои решения интеграции данных в Fabric. Распространенные вопросы:
- Все ли функциональные возможности, на которые мы полагаемся, работают в конвейерах Fabric?
- Какие возможности доступны только в конвейерах Fabric?
- Как перенести существующие конвейеры в конвейеры Fabric?
- Что такое стратегия приема корпоративных данных майкрософт?
Различия платформ
При переносе всего экземпляра ADF существует множество важных различий, которые следует учитывать между ADF и фабрикой данных в Fabric, что становится важным при миграции в Fabric. Мы рассмотрим несколько важных различий в этом разделе.
Более подробное представление о функциональном сопоставлении функций между фабрикой данных Azure и фабрикой данных Fabric см. в статье Сравнение данных в Fabric и фабрике данных Azure.
Среды выполнения интеграции
В ADF среды выполнения интеграции (IR) — это объекты конфигурации, представляющие вычислительные ресурсы, используемые ADF для завершения обработки данных. Эти свойства конфигурации включают регион Azure для облачных вычислений и размеры вычислений Spark для потоков данных. Другие типы IR включают в себя автономные IR (SHIR) для подключения к локальным данным, IR для SSIS для запуска пакетов служб SQL Server Integration Services и IR для облака с поддержкой Vnet.
Microsoft Fabric — это программное обеспечение как услуга (SaaS), а ADF — это продукт как платформа (PaaS). Это различие означает, что с точки зрения среды выполнения интеграции вам не нужно ничего настраивать для использования конвейеров или потоков данных в Fabric, так как по умолчанию используется облачные вычисления в регионе, где находятся емкости Fabric. IRs SSIS не существуют в Fabric и для локального подключения к данным используется компонент, известный как локальный шлюз данных (OPDG). Для подключения к защищённым сетям на основе виртуальной сети используется шлюз данных виртуальной сети в Fabric.
При миграции из ADF в Fabric вам не нужно переносить IR в публичной сети Azure. Необходимо повторно создать SHIR как OPDG и включенные в виртуальную сеть Azure IR как шлюзы данных виртуальной сети.
Трубопроводы
Конвейеры являются основным компонентом ADF, который используется для основного рабочего процесса и оркестрации процессов ADF для перемещения данных, преобразования данных и оркестрации процессов. Конвейеры в фабрике данных Fabric почти идентичны ADF, но с дополнительными компонентами, которые хорошо подходят модели SaaS на основе Power BI. Это сходство включает встроенные действия для работы с электронной почтой, Teams и обновления семантической модели.
Определение JSON конвейеров в Data Factory Fabric немного отличается от Azure Data Factory из-за различий в модели приложения между двумя продуктами. Из-за этого различия невозможно скопировать и вставить конвейерный JSON, импортировать или экспортировать конвейеры, или указать на репозиторий ADF Git.
При перестроении конвейеров ADF в формате конвейеров Fabric используются практически те же модели рабочих процессов и умения, которые применялись в ADF. Основное внимание связано с связанными службами и наборами данных, которые являются понятиями в ADF, которые не существуют в Fabric.
Связанные службы
В ADF связанные службы определяют свойства подключения, необходимые для подключения к хранилищам данных для перемещения данных, преобразования данных и действий обработки данных. В Fabric необходимо повторно создать эти определения в качестве подключений, которые являются свойствами для таких действий, как копирование и потоки данных.
Наборы данных
Наборы данных определяют фигуру, расположение и содержимое данных в ADF, но не существуют как сущности в Fabric. Чтобы определить свойства данных, такие как типы данных, столбцы, папки, таблицы и т. д. в конвейерах Фабрики данных Fabric, необходимо определить эти характеристики, встроенные внутри действий конвейера и внутри объекта Connection, на который ссылается ранее в разделе "Связанная служба".
Потоки данных
В Data Factory для Fabric термин dataflows относится к действиям по преобразованию данных без участия кода, в то время как в ADF эта же функция называется data flows. Потоки данных Fabric Data Factory имеют пользовательский интерфейс, построенный на Power Query, который используется в действии Power Query ADF. Вычислительные ресурсы, используемые для выполнения потоков данных в Fabric, — это собственный модуль выполнения, который может масштабироваться для крупномасштабных преобразований данных с помощью нового вычислительного модуля хранилища данных Fabric.
В ADF потоки данных основаны на инфраструктуре Synapse Spark и определяются с помощью пользовательского интерфейса сборки, использующего базовый язык dsL, известный как скрипт потока данных . Этот язык определения значительно отличается от потоков данных на основе Power Query в Fabric, использующих язык определения, известный как M для определения их поведения. Из-за различий в пользовательских интерфейсах, языках и исполнительных системах, потоки данных Fabric и потоки данных ADF несовместимы, и необходимо повторно создать потоки данных ADF как потоки данных Fabric при обновлении ваших решений до Fabric.
Триггеры
Триггеры сигнализируют ADF о выполнении конвейера на основе расписания по текущему времени, интервалов скользящего окна, событий, основанных на файлах, или пользовательских событий. Эти функции похожи в Fabric, хотя базовая реализация отличается.
В Fabric триггеры существуют только как концепция конвейера. Более широкая структура, используемая триггерами конвейера в Fabric, называется Активатор данных , являющаяся подсистемой событий и оповещения возможностей интеллектуального анализа в реальном времени в Fabric.
В активаторе данных Fabric есть оповещений, которые можно использовать для создания триггеров событий для файлов и пользовательских событий. Хотя триггеры расписания являются отдельной сущностью в Fabric, известной как расписания. Эти расписания находятся на уровне платформы в Fabric и не относятся к конвейерам. Они также не упоминаются как триггеры в Fabric.
Чтобы перенести триггеры из ADF в Fabric, рассмотрите возможность преобразования триггеров расписания в простые расписания, которые входят в состав свойств ваших конвейеров Fabric. И для всех других типов триггеров используйте кнопку "Триггеры" в конвейере Fabric или используйте Data Activator в самой среде Fabric.
Отладка
Отладка конвейеров проще в Fabric, чем в ADF. Эта простота обусловлена тем, что конвейеры Fabric Data Factory не имеют отдельной концепции режима отладки , которую можно найти в конвейерах и потоках данных ADF. Вместо этого при сборке конвейера вы всегда находитесь в интерактивном режиме. Для тестирования и отладки конвейеров в цикле разработки необходимо только выбрать кнопку воспроизведения на панели инструментов редактора конвейеров, когда вы будете готовы. Конвейеры в Fabric не включают отладку до пошаговой отладки в интерактивном режиме. Вместо этого в Fabric вы используете состояние активности и задаете как активными только те активности, которые нужно протестировать, а все остальные активности делаете неактивными, чтобы достичь тех же шаблонов тестирования и отладки. См. следующее видео, в которое описано, как достичь этого интерфейса отладки в Fabric.
Отслеживание изменений данных
Функция отслеживания измененных данных (CDC) в ADF — это предварительная версия, которая позволяет легко перемещать данные постепенно, применяя функции CDC на стороне источника в хранилищах данных. Чтобы перенести артефакты CDC в Фабрику данных Fabric, создайте эти артефакты как задания копирования элементов в рабочей области Fabric. Эта функция обеспечивает аналогичные возможности добавочного перемещения данных с простым пользовательским интерфейсом без необходимости конвейера, как и в ADF CDC. Для получения дополнительной информации см. задание копирования для Data Factory в Fabric.
Azure Synapse Link
Хотя он недоступен в ADF, пользователи каналов Synapse часто используют Azure Synapse Link для репликации данных из SQL-баз данных в свое озеро данных в подходе «под ключ». В Fabric вы воссоздаёте артефакты Azure Synapse Link в качестве элементов зеркального отображения в рабочей области. Дополнительные сведения см. по зеркальному отображению базы данных Fabric в.
SQL Server Integration Services (SSIS)
SSIS — это локальное средство интеграции данных и ETL, которое корпорация Майкрософт поставляется с SQL Server. В ADF можно поднять и переместить пакеты служб SSIS в облако с помощью ADF SSIS IR. В Fabric у нас нет концепции IR, поэтому эта функция невозможна сегодня. Однако мы работаем над включением выполнения пакета SSIS непосредственно из Fabric, что мы надеемся скоро интегрировать в продукт. В то же время лучший способ выполнения пакетов SSIS в облаке с помощью Fabric Data Factory — запустить среду выполнения SSIS IR в вашей фабрике ADF, а затем инициировать конвейер ADF для обработки пакетов SSIS. Вы можете удаленно вызвать конвейер ADF из конвейеров Fabric с помощью действия вызываемого конвейера, описанного в следующем разделе.
Вызов действия конвейера
Обычное действие, используемое в конвейерах ADF, — это действие выполнения конвейера, которое позволяет вызывать другой конвейер в фабрике. В Fabric мы улучшили это действие, назвав его действием вызова конвейера. Ознакомьтесь с документацией к действию конвейера Invoke.
Это действие полезно для сценариев миграции, в которых имеется множество конвейеров ADF, использующих специальные функции ADF, такие как сопоставление потоков данных или служб SSIS. Вы можете поддерживать эти конвейеры as-is в ADF или даже в конвейерах Synapse, а затем вызывать этот конвейер встроенно из нового конвейера Fabric Data Factory, используя действие Invoke pipeline и указывая на удалённый конвейер фабрики.
Примеры сценариев миграции
Ниже приведены распространенные сценарии миграции, которые могут возникнуть при миграции из ADF в фабрику данных Fabric.
Сценарий #1: Конвейеры и потоки данных ADF
Основные варианты использования для миграции фабрики основаны на модернизации среды ETL из модели PaaS фабрики ADF в новую модель SaaS Fabric. Основными элементами фабрики для миграции являются конвейеры и потоки данных. Существует несколько основных элементов на фабрике, которые необходимо учитывать при планировании миграции за пределы этих двух элементов верхнего уровня: связанные сервисы, среды выполнения интеграции, наборы данных и триггеры.
- Связанные службы необходимо повторно создать в Fabric, чтобы они выступали в качестве подключений в активности вашего конвейера.
- Наборы данных не существуют в Factory. Свойства наборов данных представлены как свойства внутри действий конвейера, таких как копирование или поиск, а подключения содержат другие свойства набора данных.
- Среды выполнения интеграции не существуют в Fabric. Однако ваши автономно размещённые интеграционные службы (IR) могут быть воссозданы с использованием локальных шлюзов данных (OPDG) в Fabric, а также интеграционных служб виртуальных сетей Azure в качестве управляемых шлюзов виртуальных сетей в Fabric.
- Эти действия конвейера ADF не включены в Data Factory Fabric:
- Data Lake Analytics (U-SQL) — это нерекомендуемая служба Azure.
- Действие проверки . Действие проверки в ADF — это вспомогательное действие, которое можно перестроить в конвейерах Fabric с легкостью с помощью действия Get Metadata, цикла конвейера и действия If.
- Power Query — в Fabric все потоки данных создаются с помощью пользовательского интерфейса Power Query, поэтому можно просто скопировать и вставить код M из действий ADF Power Query и создать их в виде потоков данных в Fabric.
- Если вы используете какие-либо из возможностей конвейера ADF, которые не найдены в Фабрике данных Fabric, используйте действие конвейера Invoke в Fabric для вызова существующих конвейеров в ADF.
- Следующие действия конвейера ADF объединяются в действие с одним назначением:
- Действия Azure Databricks (Записная книжка, Jar, Python)
- Azure HDInsight (Hive, Pig, MapReduce, Spark, Streaming)
На следующем рисунке показана страница конфигурации набора данных ADF с параметрами пути к файлу и сжатия:
На следующем рисунке показана конфигурация действия копирования для службы Data Factory в Fabric, где параметры сжатия и пути к файлам указаны внутри действия.
Сценарий 2. ADF с CDC, SSIS и Airflow
CDC & Airflow в ADF — это предварительные версии функций, а SSIS в ADF — общедоступная функция в течение многих лет. Каждая из этих функций служит различным потребностям интеграции данных, но требует особого внимания при миграции из ADF в Fabric. Запись измененных данных (CDC) — это концепция ADF верхнего уровня, но в Fabric эта возможность отображается как задание копирования.
Airflow — это интегрированная с Azure Data Factory функция Apache Airflow, управляемая из облака, и также доступна в Fabric Data Factory. Вы должны иметь возможность использовать тот же репозиторий исходных кодов Airflow или взять DAGs и скопировать/вставить код в услугу Fabric Airflow с минимальными изменениями или без них.
Сценарий #3. Миграция фабрики данных с поддержкой Git в Fabric
Это обычная практика, хотя и не обязательная, чтобы ваши фабрики и рабочие пространства ADF или Synapse были подключены к вашему собственному внешнему Git-провайдеру, например, в такой системе, как ADO или GitHub. В этом сценарии необходимо перенести элементы фабрики и рабочей области в рабочую область Fabric, а затем настроить интеграцию Git в рабочей области Fabric.
Fabric предоставляет два основных способа включения CI/CD, оба на уровне рабочей области: интеграция с Git, где вы предоставляете собственный репозиторий Git в ADO (Azure DevOps) и подключаетесь к нему из Fabric; и встроенные конвейеры развертывания, где можно перемещать код в более высокие среды без необходимости предоставлять собственный Git.
В обоих случаях существующий репозиторий Git из ADF не работает с Fabric. Вместо этого необходимо указать новый репозиторий или запустить новый конвейер развертывания в Fabric, а затем перестроить свои артефакты конвейера в Fabric.
Подключите существующие экземпляры ADF непосредственно к рабочей области Fabric
Ранее мы говорили об использовании действия Invoke Pipeline из Data Factory как механизма для поддержания существующих вложений в конвейеры ADF и их вызова в режиме замены из Fabric. В Fabric вы можете развить эту концепцию еще на один шаг дальше и подключить всю фабрику целиком внутри рабочей области Fabric как собственный элемент Fabric.
Дополнительные сведения о сценариях использования монтажа см. в сценариях совместной работы и доставки содержимого.
Размещение Azure Data Factory в рабочей области Fabric дает множество преимуществ. Если вы не знакомы с Fabric и хотите держать фабрики рядом в едином интерфейсе, вы можете подключить их к Fabric для управления обеими из них через эту платформу. Полный пользовательский интерфейс ADF теперь доступен из вашей подключенной фабрики, где вы можете полностью отслеживать, управлять и изменять элементы фабрики ADF из рабочей области Fabric. Эта функция значительно упрощает начало переноса этих элементов в Fabric в качестве родных артефактов Fabric. Эта функция в первую очередь предназначена для удобства использования и упрощает просмотр фабрик ADF в рабочей области Fabric. Однако фактическое выполнение конвейеров, активностей, сред выполнения интеграции и т. д. все еще происходит в ваших ресурсах Azure.