Запись измененных данных из Azure Data Lake Storage 2-го поколения на База данных SQL Azure с помощью ресурса отслеживания измененных данных

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этой статье используется пользовательский интерфейс Фабрика данных Azure для создания ресурса записи измененных данных (CDC). Ресурс получает измененные данные из источника Azure Data Lake Storage 2-го поколения и добавляет его в База данных SQL Azure в режиме реального времени.

Вы узнаете, как выполнять следующие задачи:

  • Создайте ресурс CDC.
  • Мониторинг действий CDC.

Вы можете изменить и развернуть шаблон конфигурации в этой статье.

Необходимые компоненты

Прежде чем начать процедуры в этой статье, убедитесь, что у вас есть следующие ресурсы:

  • Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись Azure.
  • База данных SQL. Вы используете База данных SQL Azure в качестве исходного хранилища данных. Если у вас нет базы данных SQL, создайте ее в портал Azure.
  • Учетная запись хранения. Вы используете Delta Lake, хранящиеся в Azure Data Lake Storage 2-го поколения в качестве целевого хранилища данных. Если у вас нет учетной записи хранения, ознакомьтесь с инструкциями по созданию учетной записи хранения.

Создание артефакта CDC

  1. Перейдите в область "Автор" в фабрике данных. Под конвейерами появится новый артефакт верхнего уровня с именем "Запись измененных данных" (предварительная версия).

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Наведите указатель мыши на запись измененных данных (предварительная версия), пока не появится три точки. Затем нажмите кнопку "Изменить запись данных" (предварительная версия).

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Выберите new CDC (preview). На этом шаге откроется всплывающее меню, чтобы начать интерактивный процесс.

    Screenshot of a list of change data capture actions.

  4. Вам будет предложено указать имя ресурса CDC. По умолчанию имя — adfcdc с числом, которое увеличивается на 1. Вы можете заменить это имя по умолчанию на выбранное имя.

    Screenshot of the text box to update the name of a resource.

  5. Используйте раскрывающийся список, чтобы выбрать источник данных. В этой статье выберите "Разделители".

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Вам будет предложено выбрать связанную службу. Создайте связанную службу или выберите существующую.

    Screenshot of the box to choose or create a linked service.

  7. Используйте область параметров источника, чтобы при необходимости задать расширенные конфигурации источника, включая разделители столбцов и строк.

    Screenshot of advanced source settings to set delimiters.

    Если эти параметры источника не редактируются вручную, они задаются по умолчанию.

  8. Нажмите кнопку "Обзор", чтобы выбрать папку исходных данных.

    Screenshot of a folder icon to browse for a folder path.

  9. Выбрав путь к папке, нажмите кнопку "Продолжить ", чтобы задать целевой объект данных.

    Screenshot of the Continue button in the guided process to select data targets.

    Вы можете добавить несколько исходных папок с помощью кнопки "плюс" (+). Другие источники также должны использовать ту же связанную службу, которую вы уже выбрали.

  10. Выберите значение типа target с помощью раскрывающегося списка. В этой статье выберите База данных SQL Azure.

    Screenshot of a dropdown menu of all data target types.

  11. Вам будет предложено выбрать связанную службу. Создайте связанную службу или выберите существующую.

    Screenshot of the box to choose or create a linked service to your data target.

  12. Для целевых таблиц можно создать целевую таблицу или выбрать существующую:

    • Чтобы создать целевую таблицу, перейдите на вкладку "Создать сущности " и нажмите кнопку "Изменить новые таблицы".

      Screenshot of the tab to create new tables for your target.

    • Чтобы выбрать существующую таблицу, перейдите на вкладку "Существующие сущности", а затем используйте поле проверка box для выбора таблицы. Нажмите кнопку "Предварительный просмотр", чтобы просмотреть данные таблицы.

      Screenshot of the tab to choose tables for your target.

    Если существующие таблицы в целевом объекте имеют соответствующие имена, они по умолчанию выбираются в разделе "Существующие сущности". Если нет, в новых сущностях создаются новые таблицы с соответствующими именами. Кроме того, можно изменить новые таблицы с помощью кнопки "Изменить новые таблицы ".

  13. Вы можете использовать проверка boxes для выбора нескольких целевых таблиц из базы данных SQL. После завершения выбора целевых таблиц нажмите кнопку "Продолжить".

    Screenshot of the Continue button in the guided process to proceed to the next step.

  14. Появится новая вкладка для записи измененных данных. Эта вкладка — это студия CDC, где можно настроить новый ресурс.

    Screenshot of the change data capture studio.

    Новое сопоставление создается автоматически. Вы можете обновить выбор исходной таблицы и целевой таблицы для сопоставления с помощью раскрывающихся списков.

    Screenshot of the source-to-target mapping in the change data capture studio.

  15. После выбора таблиц их столбцы сопоставляются по умолчанию с включенным переключателем автоматической карты . Автоматическая карта автоматически сопоставляет столбцы по имени в приемнике, выбирает новые изменения столбцов при изменении исходной схемы и передает эти сведения поддерживаемым типам приемников.

    Если вы хотите использовать автоматическую карту и не изменять сопоставления столбцов, перейдите непосредственно к шагу 18.

    Screenshot of the toggle for automatic mapping turned on.

    Если вы хотите включить сопоставления столбцов, выберите сопоставления и отключите переключатель автоматической карты . Затем нажмите кнопку сопоставления столбцов , чтобы просмотреть сопоставления.

    Screenshot of mapping selection, the toggle for automatic mapping turned off, and the button for column mappings.

    Вы можете вернуться к автоматическому сопоставлению в любое время, включив переключатель автоматической карты .

  16. Просмотр сопоставлений столбцов. Используйте раскрывающийся список для изменения сопоставлений столбцов для метода сопоставления, исходного столбца и целевого столбца.

    Screenshot of the page for editing column mappings.

    На этой странице можно выполнить следующие действия.

    • Добавьте дополнительные сопоставления столбцов с помощью кнопки "Создать сопоставление ". Используйте раскрывающийся список, чтобы выбрать метод сопоставления, исходный столбец и целевой столбец.
    • Выберите столбец "Ключи", если вы хотите отслеживать операцию удаления для поддерживаемых типов приемников.
    • Нажмите кнопку "Обновить" в разделе "Предварительный просмотр данных", чтобы визуализировать, как данные выглядят в целевом объекте.

    Screenshot of the button for adding column mappings, the dropdown list for mapping methods, the Keys column, and the Refresh button.

  17. По завершении сопоставления нажмите кнопку со стрелкой, чтобы вернуться на основной холст CDC.

    Screenshot of the button to go back to the table mapping page.

  18. Можно добавить дополнительные сопоставления источника в целевой объект в одном артефакте CDC. Нажмите кнопку "Изменить", чтобы добавить дополнительные источники данных и целевые объекты. Затем выберите новое сопоставление и используйте раскрывающийся список, чтобы задать новый источник и целевой объект. Вы можете включить или отключить автоматическую карту для каждого из этих сопоставлений независимо.

    Screenshot of the button to add new sources and the button to set a new source-to-target mapping.

  19. После завершения сопоставлений задайте задержку CDC с помощью кнопки "Задать задержку ".

    Screenshot of the Set Latency button at the top of the canvas.

  20. Выберите задержку CDC и нажмите кнопку "Применить ", чтобы внести изменения.

    По умолчанию задержка имеет значение 15 минут. В примере в этой статье используется параметр реального времени для задержки. Задержка в режиме реального времени постоянно выбирает изменения в исходных данных в интервалах менее 1 минуты.

    Для других задержек (например, при выборе 15 минут) запись измененных данных будет обрабатывать исходные данные и получать измененные данные с момента последнего обработки.

    Screenshot of the options for setting latency.

    Примечание.

    Если поддержка расширена для потоковой интеграции данных (Центры событий Azure и источников данных Kafka), задержка будет задана по умолчанию в режиме реального времени.

  21. После завершения настройки CDC выберите "Опубликовать все ", чтобы опубликовать изменения.

    Screenshot of the publish button at the top of the canvas.

    Примечание.

    Если вы не публикуете изменения, вы не сможете запустить ресурс CDC. Кнопка "Пуск" на следующем шаге будет недоступна.

  22. Нажмите кнопку "Пуск" , чтобы начать выполнение записи измененных данных.

    Screenshot of the Start button at the top of the canvas.

Мониторинг отслеживания измененных данных

  1. Откройте панель монитора с помощью одного из следующих методов:

    • Выберите "Монитор" в портал Azure.

      Screenshot of the Monitor button in the Azure portal.

    • Выберите значок мониторинга в конструкторе CDC.

      Screenshot of the monitoring icon at the top of the CDC canvas.

  2. Выберите "Изменить запись данных" (предварительная версия), чтобы просмотреть ресурсы CDC.

    Screenshot of the Change Data Capture button.

    На панели "Запись измененных данных" отображаются сведения о источнике, целевом объекте, состоянии и последней обработке для записи измененных данных.

    Screenshot of an overview of the change data capture monitoring page.

  3. Выберите имя CDC, чтобы просмотреть дополнительные сведения. Вы можете увидеть, сколько изменений (вставка, обновление или удаление) было прочитано и записано вместе с другими диагностическими сведениями.

    Screenshot of the detailed monitoring of a selected change data capture.

    Если в записи измененных данных настроено несколько сопоставлений, каждое сопоставление отображается как другой цвет. Выберите панель, чтобы просмотреть конкретные сведения для каждого сопоставления или использовать сведения диагностика в нижней части области.

    Screenshot of the detailed monitoring information for a change data capture with multiple source-to-target mappings.

    Screenshot of a detailed breakdown of each mapping in a change data capture artifact.