Прочитать на английском

Поделиться через


Инструмент "Копирование данных" в Фабрике данных Azure и Synapse Analytics

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Инструмент "Копирование данных" предназначен для оптимизации процесса приема данных в озеро данных, что обычно является первым шагом сценария комплексной интеграции данных. Это позволяет сэкономить время, особенно при использовании службы для принятия данных из источников данных впервые. Ниже приведены некоторые преимущества использования этого средства:

  • При использовании инструмента "Копирование данных" вам требуется понимать определения службы для связанных служб, наборов данных, конвейеров, действий и триггеров.
  • Процедура отправки данных в озеро данных с помощью инструмента копирования данных интуитивно понятна. Этот инструмент автоматически создает все необходимые ресурсы для копирования данных из выбранного исходного хранилища данных в выбранное хранилище данных назначения или хранилище данных-приемник.
  • Инструмент копирования данных позволяет проверить, были ли данные приняты во время авторизации, что позволяет с самого начала избежать потенциальных ошибок.
  • Если необходимо реализовать сложную бизнес-логику для загрузки данных в озеро данных, вы все еще можете изменять ресурсы, созданные инструментом "Копирование данных", используя авторизацию каждого действия в пользовательском интерфейсе.

В следующей таблице предоставлены рекомендации по использованию инструмента "Копирование данных" и авторизации каждого действия в пользовательском интерфейсе:

Средство копирования данных Авторизация каждого действия (действие копирования)
Требуется легко создавать задачи загрузки данных без изучения сущностей, таких как связанные службы, наборы данных, конвейеры и т. д. Требуется реализовать комплексную и гибкую логику для загрузки данных в озеро.
Требуется быстро загрузить большое количество артефактов данных в озеро данных. Необходимо связать действие копирования с последующими действиями для очистки обработки данных.

Чтобы запустить средство копирования данных, щелкните плитку Приема на домашней странице пользовательского интерфейса Фабрики данных или Synapse Studio.

После запуска инструмента копирования данных вы увидите два типа задач: встроенную задачу копирования и задачу копирования на основе метаданных. Встроенная задача копирования приводит к созданию конвейера в течение пяти минут для репликации данных без определения сущностей. Задача копирования на основе метаданных позволяет упростить процесс создания параметризованных конвейеров и внешней таблицы управления, чтобы управлять масштабным копированием большого количества объектов (например, тысяч таблиц). Дополнительные сведения см. в статье Копирование данных на основе метаданных.

Интуитивная процедура загрузки данных в озеро данных

Этот инструмент позволяет легко переместить данные из разнообразных источников в места назначения за считанные минуты с использованием интуитивно понятной процедуры:

  1. Настройте параметры источника.

  2. Настройте параметры назначения.

  3. Настройте дополнительные параметры операции копирования, такие как сопоставление столбцов, параметры производительности и параметры отказоустойчивости.

  4. Укажите расписание задачи загрузки данных.

  5. Просмотрите сводку по сущностям, которые будут созданы.

  6. При необходимости измените конвейер, чтобы обновить параметры действия копирования.

    Инструмент изначально предназначен для работы с большими объемами данных и поддерживает разнообразные данные и типы объектов. Его можно использовать для перемещения сотен папок, файлов или таблиц. Инструмент позволяет выполнять автоматический предварительный просмотр данных, собирать и автоматически сопоставлять схемы, а также фильтровать данные.

Средство копирования данных

Автоматический предварительный просмотр данных

Часть данных можно просмотреть из выбранного исходного хранилища данных, что позволяет проверить копируемые данные. Кроме того, если исходные данные находятся в текстовом файле, инструмент копирования данных анализирует его, чтобы автоматически обнаружить сведения о разделителях строк и столбцов, а также о схемах.

Параметры файла

После обнаружения выберите Предварительный просмотр данных.

Обнаруженные параметры файла и предварительная версия

Сбор и автоматическое сопоставление схем

Схема источника данных во многих случаях может отличаться от схемы назначения данных. В этом случае необходимо сопоставить столбцы в исходной схеме со столбцами в целевой схеме.

Инструмент копирования данных выполняет мониторинг и определяет поведение при сопоставлении столбцов между хранилищами в источнике и назначении. После выбора одного или нескольких столбцов из исходного хранилища данных и сопоставления их со схемой назначений инструмент копирования данных начинает анализировать шаблон для пар столбцов, выбранных из обоих источников. Затем он применяет тот же шаблон для остальных столбцов. Таким образом все столбцы сопоставляются с назначением так, как это необходимо, всего за несколько щелчков. Если вас не устраивает сопоставление столбцов, предоставляемое инструментом копирования данных, его можно проигнорировать и продолжить вручную сопоставлять столбцы. Тем временем инструмент копирования данных постоянно изучает и обновляет шаблон сопоставления столбцов, и в конечном счете он становится таким, как нужно вам.

Примечание

При копировании данных из Базы данных SQL Azure или SQL Server в Synapse Analytics инструмент копирования данных поддерживает автоматическое создание таблицы с использованием исходной схемы, если таблица не существует в целевом хранилище.

Фильтрация данных

Исходные данные можно отфильтровать, чтобы выбрать только те, которые необходимо скопировать в хранилище данных-приемник. Благодаря фильтрации объем данных, которые необходимо скопировать в хранилище данных-приемник, уменьшается, и, таким образом, повышается пропускная способность операции копирования. В инструменте копирования данных предусмотрен гибкий способ фильтрации данных в реляционной базе данных с помощью языка запросов SQL или файлов в папке больших двоичных объектов Azure.

Фильтрация данных в базе данных

На следующем снимке экрана показан SQL-запрос на фильтрацию данных.

Фильтрация данных в базе данных

Фильтрация данных в папке больших двоичных объектов Azure

Вы можете использовать переменные в пути к папке для копирования данных из папки. Поддерживаемые переменные: {year}, {month}, {day}, {hour} и {minute}. Пример: inputfolder/{year}/{month}/{day}.

Предположим, что у вас есть входные каталоги с именами в следующем формате:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Нажмите кнопку Обзор в разделе Файл или папка, перейдите к любой из этих папок, например 2016->03->01->02, и щелкните Выбрать. В текстовом поле появится такое значение: 2016/03/01/02.

Затем измените в нем 2016 на {year}, 03 на {month}, 01 на {day}, 02 на {hour} и нажмите клавишу TAB. При выборе параметра Добавочная загрузка: имена папок или файлов, секционированных по времени в разделе Поведение загрузки файлов и выборе параметров Расписание или Переворачивающееся окно на странице Свойства появятся раскрывающиеся списки для выбора формата следующих четырех переменных.

Фильтрация папки или файла

Инструмент копирования данных создает параметры с выражениями, функциями и системными переменными, которые можно использовать для представления {year}, {month}, {day}, {hour} и {minute} при создании конвейера.

Параметры планирования

Операцию копирования можно выполнить однократно или запускать по расписанию (ежечасно, ежедневно и т. д.). Эти варианты можно использовать с соединителями в различных средах, в том числе в локальных средах или в облаке, а также с копиями на локальном компьютере.

Однократная операция копирования позволяет один раз переместить данные из источника в целевое расположение. Ее можно применять к данным любого размера и любого из поддерживаемых форматов. Запланированное копирование позволяет копировать данные с определенной периодичностью. Для запланированного копирования можно задать широкий набор настроек (повторение, время ожидания, предупреждения и т. д.).

Параметры планирования

Ознакомьтесь с руководствами ниже, при работе с которыми используется инструмент копирования данных: