Добавочное копирование новых и измененных файлов на основе LastModifiedDate с помощью средства "Копирование данных"

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этом руководстве вы создадите фабрику данных с помощью портала Azure. Затем вы сможете использовать средство "Копирование данных" для создания конвейера, который постепенно копирует только новые и измененные файлы из Хранилища BLOB-объектов Azure в Хранилище BLOB-объектов Azure. Он определяет, какие файлы следует копировать, с помощью LastModifiedDate.

После выполнения этих действий Фабрика данных Azure проверит все файлы в исходном хранилище, применит фильтр файлов по LastModifiedDate и скопирует в целевое хранилище только те файлы, которые являются новыми или были обновлены с момента последнего обновления. Обратите внимание, что если Фабрика данных сканирует большое количество файлов, то вам следует настроиться на длительное выполнение. Сканирование файлов занимает много времени, даже если объем копируемых данных уменьшится.

Примечание.

Если вы еще не работали с фабрикой данных, ознакомьтесь со статьей Введение в фабрику данных Azure.

При работе с этим руководством вы выполните следующие задачи:

  • Создали фабрику данных.
  • Создание конвейера с помощью средства копирования данных.
  • Мониторинг конвейера и выполнения действий.

Необходимые компоненты

  • Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.
  • Учетная запись хранения Azure. В этом руководстве в качестве исходного и принимающего хранилища данных используется Хранилище BLOB-объектов. Если у вас нет учетной записи хранения Azure, см. инструкции по ее созданию.

Создание двух контейнеров в Хранилище BLOB-объектов

Подготовьте Хранилище BLOB-объектов, которое мы будем использовать при работе с этим учебником, выполнив следующие действия.

  1. Создайте контейнер с именем source. Для выполнения этой задачи можно использовать различные средства, например Обозреватель службы хранилища Azure.

  2. Создайте контейнер с именем destination.

Создание фабрики данных

  1. В области слева выберите Создать ресурс. Выберите Интеграция>Фабрика данных:

    Select Data Factory

  2. На странице Новая фабрика данных в поле Имя введите ADFTutorialDataFactory.

    Имя фабрики данных должно быть глобально уникальным. Может появиться следующее сообщение об ошибке:

    New data factory error message for duplicate name.

    Если вы увидите следующую ошибку касательно значения имени, введите другое имя фабрики данных. Например,ваше_имяADFTutorialDataFactory. Правила именования артефактов службы "Фабрика данных" см. в этой статье.

  3. В разделе Подписка выберите подписку Azure, в которой вы создадите новую фабрику данных.

  4. В разделе Группа ресурсов выполните одно из следующих действий.

    • Выберите Use existing (Использовать имеющуюся) и выберите имеющуюся группу ресурсов в списке.

    • Группа ресурсов. Выберите Создать и введите имя.

    Сведения о группах ресурсов см. в статье Общие сведения об Azure Resource Manager.

  5. В качестве версии выберите V2.

  6. В качестве расположения выберите расположение фабрики данных. В списке отображаются только поддерживаемые расположения. Хранилища данных (например, служба хранилища Azure и База данных Azure SQL) и вычислительные ресурсы (например, Azure HDInsight), используемые фабрикой данных, могут размещаться в других регионах или расположениях.

  7. Нажмите кнопку создания.

  8. После создания фабрики данных появится домашняя страница фабрики данных.

  9. Чтобы запустить пользовательский интерфейс Фабрики данных Azure на отдельной вкладке, нажмите кнопку Открыть на элементе Open Azure Data Factory Studio (Открыть студию Фабрики данных Azure).

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Создание конвейера с помощью средства копирования данных

  1. На домашней странице Фабрики данных Azure выберите плитку Принять, чтобы запустить средство копирования данных.

    Screenshot that shows the ADF home page.

  2. На странице Свойства выполните следующие действия:

    1. В разделе Тип задачи выберите Встроенная задача копирования.

    2. В разделе Периодичность или расписание задач выберите "Переворачивающееся" окно.

    3. В разделе Повторения введите 15 минут.

    4. Выберите Далее.

    Copy data properties page

  3. На странице Хранение исходных данных выполните следующие действия:

    1. Выберите + Создать подключение, чтобы добавить подключение.

    2. В коллекции выберите Хранилище BLOB-объектов Azure и щелкните Продолжить.

      Select Azure Blog Storage

    3. На странице Новое подключение (Хранилище BLOB-объектов Azure) выберите свою подписку Azure в списке Подписка Azure, а также учетную запись хранения в списке Имя учетной записи хранения. Проверьте подключение и нажмите кнопку Создать.

    4. Выберите только что созданное подключение в блоке Подключение.

    5. В разделе Файл или папка выберите Обзор и укажите исходную папку, а затем нажмите ОК.

    6. В разделе Поведение при загрузке файлов выберите Добавочная загрузка: LastModifiedDate и укажите Двоичная копия.

    7. Выберите Далее.

    Screenshot that shows the 'Source data store' page.

  4. На странице Целевое хранилище данных выполните указанные ниже действия.

    1. Выберите только что созданное подключение AzureBlobStorage. Это та же учетная запись хранения, что и для исходного хранилища данных.

    2. В разделе Путь к папке найдите и выберите папку назначения, а затем нажмите кнопку ОК.

    3. Выберите Далее.

    Screenshot that shows the 'Destination data store' page.

  5. На странице Параметры в разделе Имя задачи введите имя DeltaCopyFromBlobPipeline, а затем нажмите кнопку Далее. Фабрика данных создаст конвейер с указанным именем задачи.

    Screenshot that shows the Settings page.

  6. Просмотрите параметры на странице Сводка, а затем нажмите кнопку Далее.

    Summary page

  7. На странице Развертывание выберите Мониторинг, чтобы отслеживать созданный конвейер (задачу).

    Deployment page

  8. Обратите внимание, что слева автоматически выбирается вкладка Мониторинг. Приложение переключится на вкладку Мониторинг. На этой вкладке можно увидеть состояние конвейера. Щелкните Обновить, чтобы обновить список. Щелкните ссылку в разделе Имя конвейера, чтобы просмотреть сведения о выполнении действия или запустить конвейер еще раз.

    Refresh the list and view activity run details

  9. В этом конвейере определено только одно действие (действие копирования), поэтому вы увидите только одну запись. Чтобы увидеть сведения об операции копирования, на странице Выполнения действия щелкните ссылку Сведения (значок очков) в столбце Название действия. Дополнительные сведения о свойствах см. в обзоре действия копирования.

    Copy activity in the pipeline

    Так как в вашей учетной записи Хранилища BLOB-объектов нет файлов в исходном контейнере, вы не увидите файлы, скопированные в целевой контейнер в учетной записи:

    No files in source container or destination container

  10. Создайте пустой текстовый файл и назовите его file1.txt. Отправьте этот текстовый файл в исходный контейнер в вашей учетной записи хранения. Это можно сделать при помощи таких средств, как Обозреватель службы хранилища Azure.

    Create file1.txt and upload it to the source container

  11. Чтобы вернуться к представлению Запуски конвейеров, выберите ссылку Все запуски конвейеров в навигационном меню на странице Выполнения действий и дождитесь автоматического запуска того же конвейера.

  12. По завершении второго выполнения конвейера выполните те же действия, которые упоминались ранее, чтобы ознакомиться с подробными сведениями о выполнении действия.

    Вы увидите, что один файл (file1.txt) скопирован из исходного контейнера в целевой контейнер учетной записи Хранилища BLOB-объектов:

    file1.txt has been copied from the source container to the destination container

  13. Создайте еще один пустой текстовый файл и назовите его file2.txt. Отправьте этот текстовый файл в исходный контейнер в вашей учетной записи Хранилища BLOB-объектов.

  14. Повторите шаги 11 и 12 для второго текстового файла. Вы увидите, что только новый файл (file2.txt) был скопирован из исходного контейнера в целевой контейнер учетной записи хранения во время выполнения этого конвейера.

    Кроме того, можно проверить, скопированы ли файлы только из одного файла, используя Обозреватель службы хранилища Azure для проверки файлов:

    Scan files by using Azure Storage Explorer

Чтобы узнать, как преобразовать данные с помощью кластера Apache Spark в Azure, перейдите к следующему руководству: