Добавочное копирование новых и измененных файлов на основе LastModifiedDate с помощью средства "Копирование данных"

Статья
08/10/2023

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этом руководстве вы создадите фабрику данных с помощью портала Azure. Затем вы сможете использовать средство "Копирование данных" для создания конвейера, который постепенно копирует только новые и измененные файлы из Хранилища BLOB-объектов Azure в Хранилище BLOB-объектов Azure. Он определяет, какие файлы следует копировать, с помощью LastModifiedDate.

После выполнения этих действий Фабрика данных Azure проверит все файлы в исходном хранилище, применит фильтр файлов по LastModifiedDate и скопирует в целевое хранилище только те файлы, которые являются новыми или были обновлены с момента последнего обновления. Обратите внимание, что если Фабрика данных сканирует большое количество файлов, то вам следует настроиться на длительное выполнение. Сканирование файлов занимает много времени, даже если объем копируемых данных уменьшится.

Примечание.

Если вы еще не работали с фабрикой данных, ознакомьтесь со статьей Введение в фабрику данных Azure.

При работе с этим руководством вы выполните следующие задачи:

Создали фабрику данных.
Создание конвейера с помощью средства копирования данных.
Мониторинг конвейера и выполнения действий.

Необходимые компоненты

Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.
Учетная запись хранения Azure. В этом руководстве в качестве исходного и принимающего хранилища данных используется Хранилище BLOB-объектов. Если у вас нет учетной записи хранения Azure, см. инструкции по ее созданию.

Создание двух контейнеров в Хранилище BLOB-объектов

Подготовьте Хранилище BLOB-объектов, которое мы будем использовать при работе с этим учебником, выполнив следующие действия.

Создайте контейнер с именем source. Для выполнения этой задачи можно использовать различные средства, например Обозреватель службы хранилища Azure.
Создайте контейнер с именем destination.

Создание фабрики данных

В области слева выберите Создать ресурс. Выберите Интеграция>Фабрика данных:
На странице Новая фабрика данных в поле Имя введите ADFTutorialDataFactory.

Имя фабрики данных должно быть глобально уникальным. Может появиться следующее сообщение об ошибке:

Если вы увидите следующую ошибку касательно значения имени, введите другое имя фабрики данных. Например,ваше_имяADFTutorialDataFactory. Правила именования артефактов службы "Фабрика данных" см. в этой статье.
В разделе Подписка выберите подписку Azure, в которой вы создадите новую фабрику данных.
В разделе Группа ресурсов выполните одно из следующих действий.
- Выберите Use existing (Использовать имеющуюся) и выберите имеющуюся группу ресурсов в списке.
- Группа ресурсов. Выберите Создать и введите имя.
Сведения о группах ресурсов см. в статье Общие сведения об Azure Resource Manager.
В качестве версии выберите V2.
В качестве расположения выберите расположение фабрики данных. В списке отображаются только поддерживаемые расположения. Хранилища данных (например, служба хранилища Azure и База данных Azure SQL) и вычислительные ресурсы (например, Azure HDInsight), используемые фабрикой данных, могут размещаться в других регионах или расположениях.
Нажмите кнопку создания.
После создания фабрики данных появится домашняя страница фабрики данных.
Чтобы запустить пользовательский интерфейс Фабрики данных Azure на отдельной вкладке, нажмите кнопку Открыть на элементе Open Azure Data Factory Studio (Открыть студию Фабрики данных Azure).

Создание конвейера с помощью средства копирования данных

На домашней странице Фабрики данных Azure выберите плитку Принять, чтобы запустить средство копирования данных.
На странице Свойства выполните следующие действия:
1. В разделе Тип задачи выберите Встроенная задача копирования.
2. В разделе Периодичность или расписание задач выберите "Переворачивающееся" окно.
3. В разделе Повторения введите 15 минут.
4. Выберите Далее.
На странице Хранение исходных данных выполните следующие действия:
1. Выберите + Создать подключение, чтобы добавить подключение.
2. В коллекции выберите Хранилище BLOB-объектов Azure и щелкните Продолжить.
3. На странице Новое подключение (Хранилище BLOB-объектов Azure) выберите свою подписку Azure в списке Подписка Azure, а также учетную запись хранения в списке Имя учетной записи хранения. Проверьте подключение и нажмите кнопку Создать.
4. Выберите только что созданное подключение в блоке Подключение.
5. В разделе Файл или папка выберите Обзор и укажите исходную папку, а затем нажмите ОК.
6. В разделе Поведение при загрузке файлов выберите Добавочная загрузка: LastModifiedDate и укажите Двоичная копия.
7. Выберите Далее.
На странице Целевое хранилище данных выполните указанные ниже действия.
1. Выберите только что созданное подключение AzureBlobStorage. Это та же учетная запись хранения, что и для исходного хранилища данных.
2. В разделе Путь к папке найдите и выберите папку назначения, а затем нажмите кнопку ОК.
3. Выберите Далее.
На странице Параметры в разделе Имя задачи введите имя DeltaCopyFromBlobPipeline, а затем нажмите кнопку Далее. Фабрика данных создаст конвейер с указанным именем задачи.
Просмотрите параметры на странице Сводка, а затем нажмите кнопку Далее.
На странице Развертывание выберите Мониторинг, чтобы отслеживать созданный конвейер (задачу).
Обратите внимание, что слева автоматически выбирается вкладка Мониторинг. Приложение переключится на вкладку Мониторинг. На этой вкладке можно увидеть состояние конвейера. Щелкните Обновить, чтобы обновить список. Щелкните ссылку в разделе Имя конвейера, чтобы просмотреть сведения о выполнении действия или запустить конвейер еще раз.
В этом конвейере определено только одно действие (действие копирования), поэтому вы увидите только одну запись. Чтобы увидеть сведения об операции копирования, на странице Выполнения действия щелкните ссылку Сведения (значок очков) в столбце Название действия. Дополнительные сведения о свойствах см. в обзоре действия копирования.

Так как в вашей учетной записи Хранилища BLOB-объектов нет файлов в исходном контейнере, вы не увидите файлы, скопированные в целевой контейнер в учетной записи:
Создайте пустой текстовый файл и назовите его file1.txt. Отправьте этот текстовый файл в исходный контейнер в вашей учетной записи хранения. Это можно сделать при помощи таких средств, как Обозреватель службы хранилища Azure.
Чтобы вернуться к представлению Запуски конвейеров, выберите ссылку Все запуски конвейеров в навигационном меню на странице Выполнения действий и дождитесь автоматического запуска того же конвейера.
По завершении второго выполнения конвейера выполните те же действия, которые упоминались ранее, чтобы ознакомиться с подробными сведениями о выполнении действия.

Вы увидите, что один файл (file1.txt) скопирован из исходного контейнера в целевой контейнер учетной записи Хранилища BLOB-объектов:
Создайте еще один пустой текстовый файл и назовите его file2.txt. Отправьте этот текстовый файл в исходный контейнер в вашей учетной записи Хранилища BLOB-объектов.
Повторите шаги 11 и 12 для второго текстового файла. Вы увидите, что только новый файл (file2.txt) был скопирован из исходного контейнера в целевой контейнер учетной записи хранения во время выполнения этого конвейера.

Кроме того, можно проверить, скопированы ли файлы только из одного файла, используя Обозреватель службы хранилища Azure для проверки файлов: