Быстрое копирование в потоках данных 2-го поколения
В этой статье описывается функция быстрого копирования в Dataflows 2-го поколения для фабрики данных в Microsoft Fabric. Потоки данных помогают в приеме и преобразовании данных. Благодаря внедрению масштабирования потока данных с помощью вычислений хранилища данных SQL можно преобразовать данные в большом масштабе. Однако сначала необходимо принять данные. С помощью быстрого копирования можно получать терабайты данных с простым интерфейсом потоков данных, но с масштабируемой внутренней частью действия копирования конвейера.
После включения этой возможности потоки данных автоматически переключают серверную часть, когда размер данных превышает определенное пороговое значение, не изменяя ничего во время разработки потоков данных. После обновления потока данных можно проверить журнал обновления, чтобы узнать, используется ли быстрая копия во время выполнения, глядя на тип ядра , который отображается там.
Если включен параметр "Требовать быстрое копирование", обновление потока данных отменено, если быстрая копия не используется. Это помогает избежать ожидания времени ожидания времени ожидания обновления. Это поведение также может быть полезно в сеансе отладки для проверки поведения потока данных с данными при сокращении времени ожидания. С помощью индикаторов быстрого копирования в области шагов запроса можно легко проверить, может ли запрос выполняться с быстрой копией.
Необходимые компоненты
- У вас должна быть емкость Fabric.
- Для данных файлов файлы находятся в формате .csv или parquet не менее 100 МБ и хранятся в учетной записи хранения Azure Data Lake Storage (ADLS) 2-го поколения или учетной записи хранения BLOB-объектов.
- Для базы данных, включая базу данных SQL Azure и PostgreSQL, 5 миллионов строк или более данных в источнике данных.
Примечание.
Пороговое значение можно обойти для принудительного быстрого копирования, выбрав параметр "Требовать быструю копию".
Поддержка соединителя
Быстрая копия в настоящее время поддерживается для следующих соединителей потока данных 2-го поколения:
- ADLS 2-го поколения
- Хранилище BLOB-объектов
- Базой данных SQL Azure
- Гибридное решение "хранилище и озеро данных"
- PostgreSQL
- Локальный SQL Server
- Склад
- Oracle
- Снежинка
Действие копирования поддерживает только несколько преобразований при подключении к источнику файла:
- Объединить файлы
- Выбор столбцов
- Изменение типов данных
- Переименование столбца
- Удаление столбца
Вы по-прежнему можете применить другие преобразования, разделив прием и преобразование на отдельные запросы. Первый запрос фактически извлекает данные, а второй запрос ссылается на результаты, чтобы можно было использовать вычисления DW. Для источников SQL поддерживается любое преобразование, которое является частью собственного запроса.
При непосредственной загрузке запроса в выходное назначение поддерживаются только назначения Lakehouse. Если вы хотите использовать другое назначение выходных данных, сначала можно выполнить запрос и ссылаться на него позже.
Как использовать быструю копию
Перейдите к соответствующей конечной точке Fabric.
Перейдите к рабочей области premium и создайте поток данных 2-го поколения.
На вкладке "Главная " нового потока данных выберите "Параметры":
Затем выберите вкладку "Масштаб" в диалоговом окне "Параметры" и установите флажок "Разрешить использование соединителей быстрого копирования", чтобы включить быструю копию. Закройте диалоговое окно "Параметры".
Выберите " Получить данные ", а затем выберите источник ADLS 2-го поколения и укажите сведения о контейнере.
Используйте функцию объединения файлов .
Чтобы обеспечить быструю копию, примените только преобразования, перечисленные в разделе поддержки соединителя этой статьи. Если необходимо применить дополнительные преобразования, сначала выполните этап данных и нанесите ссылку на запрос позже. Выполните другие преобразования в запросе, на который ссылается ссылка.
(Необязательно) Для запроса можно задать параметр "Требовать быструю копию ", щелкнув его правой кнопкой мыши, чтобы выбрать и включить этот параметр.
(Необязательно) В настоящее время в качестве назначения выходных данных можно настроить только Lakehouse. Для любого другого назначения выполните этап запроса и сослаться на него позже в другом запросе, где можно вывести выходные данные в любой источник.
Проверьте индикаторы быстрого копирования, чтобы узнать, может ли ваш запрос выполняться с быстрой копией. В этом случае тип обработчика отображает CopyActivity.
Опубликуйте поток данных.
Проверьте после завершения обновления, чтобы подтвердить использование быстрой копии.
Известные ограничения
- Для поддержки быстрого копирования требуется локальный шлюз данных версии 3000.214.2 или более поздней версии.
- Шлюз виртуальной сети не поддерживается.
- Запись данных в существующую таблицу в Lakehouse не поддерживается.
- Исправленная схема не поддерживается.