Руководство по принятию решений Microsoft Fabric: действие копирования, поток данных или Spark
Используйте это справочное руководство и примеры сценариев, которые помогут вам определить, требуется ли действие копирования, поток данных или Spark для рабочих нагрузок Microsoft Fabric.
свойства действие Copy, потока данных и Spark
Действие копирования конвейера | Поток данных 2-го поколения | Spark | |
---|---|---|---|
Вариант использования | Миграция озера данных и хранилища данных прием данных, упрощенное преобразование |
Прием данных, преобразование данных, обработка данных, профилирование данных |
Прием данных, преобразование данных, обработка данных, профилирование данных |
Основной пользователь разработчика | Инженер данных, интегратор данных |
Инженер данных, интегратор данных, бизнес-аналитик |
Инженер данных, специалист по обработке и анализу данных, разработчик данных |
Основной набор навыков разработчика | ETL SQL JSON |
ETL M, SQL |
Spark (Scala, Python, Spark SQL, R) |
Написанный код | Нет кода, низкий код |
Нет кода, низкий код |
Код |
Том данных | От низкой до высокой | От низкой до высокой | От низкой до высокой |
Интерфейс разработки | Мастер брезент |
Power Query | Ноутбука Определение задания Spark |
Источники | 30+ соединителей | 150+ соединителей | Сотни библиотек Spark |
Назначения | 18+ соединителей | Lakehouse, База данных SQL Azure, Обозреватель данных Azure, Аналитика Azure Synapse |
Сотни библиотек Spark |
Сложность преобразования | Низкий упрощенный — преобразование типов, сопоставление столбцов, слияние и разделение файлов, плоская иерархия |
Низкий и высокий: 300+ функции преобразования |
Низкий и высокий: поддержка собственных библиотек Spark и open-source |
Ознакомьтесь со следующими тремя сценариями, чтобы помочь в выборе способа работы с данными в Fabric.
Сценарий 1
Лео, инженер данных, должен принять большой объем данных из внешних систем, как локальных, так и облачных. К этим внешним системам относятся базы данных, файловые системы и API. Лео не хочет писать и поддерживать код для каждой операции соединителя или перемещения данных. Он хочет следовать за слоями медальона, с бронзовым, серебряным и золотым. Лео не имеет опыта работы с Spark, поэтому он предпочитает перетаскивание пользовательского интерфейса как можно больше, с минимальным кодом. И он также хочет обработать данные по расписанию.
Первым шагом является получение необработанных данных в бронзовом слое lakehouse из ресурсов данных Azure и различных сторонних источников (например, Snowflake Web, REST, AWS S3, GCS и т. д.). Он хочет консолидированного озера, чтобы все данные из различных бизнес-объектов, локальных и облачных источников располагались в одном месте. Лео проверяет параметры и выбирает действие копирования конвейера в качестве подходящего варианта для его необработанной двоичной копии. Этот шаблон применяется как к обновлению исторических, так и добавочных данных. При действии копирования Лео может загружать данные Gold в хранилище данных без кода, если возникает необходимость, а конвейеры обеспечивают прием данных с высоким уровнем масштабирования, которые могут перемещать данные петабайтового масштабирования. действие Copy — это лучший вариант с низким кодом и без кода для перемещения петабайт данных в озерах и хранилищах из разновидностей источников, либо с помощью специального или по расписанию.
Сценарий 2
Мэри является инженером данных с глубокими знаниями о нескольких требованиях к аналитическим отчетам бизнес-аналитики. Команда вышестоящий успешно реализовала решение для переноса исторических и добавочных данных нескольких бизнес-объектов в общее озеро. Мэри была поставлена задача по очистке данных, применению бизнес-логики и загрузке ее в несколько назначений (например, в базу данных SQL Azure, ADX и озеро) в подготовке к соответствующим группам отчетов.
Мэри является опытным пользователем Power Query, и объем данных находится в низком до среднего диапазона для достижения требуемой производительности. Потоки данных предоставляют интерфейсы без кода или низкокода для приема данных из сотен источников данных. С помощью потоков данных можно преобразовать данные с помощью 300+ параметров преобразования данных и записать результаты в несколько назначений с простым визуальным пользовательским интерфейсом. Мэри рассматривает варианты и решает, что имеет смысл использовать поток данных 2-го поколения в качестве ее предпочтительного варианта преобразования.
Сценарий 3
Адам является инженером данных, работающим в крупной розничной компании, которая использует lakehouse для хранения и анализа данных клиента. В рамках своей работы Адам отвечает за создание и обслуживание конвейеров данных, которые извлекают, преобразуют и загружают данные в lakehouse. Одним из бизнес-требований компании является выполнение аналитики проверки клиентов, чтобы получить аналитические сведения о опыте своих клиентов и улучшить свои услуги.
Адам решает, что лучше всего использовать Spark для создания логики извлечения и преобразования. Spark предоставляет распределенную вычислительную платформу, которая может параллельно обрабатывать большие объемы данных. Он пишет приложение Spark с помощью Python или Scala, который считывает структурированные, полуструктурированные и неструктурированные данные из OneLake для отзывов клиентов и отзывов. Приложение очищает, преобразует и записывает данные в таблицы Delta в lakehouse. Затем данные будут готовы к использованию для нисходящей аналитики.