Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Применимо к:✅База данных SQL в Microsoft Fabric
В этой статье описывается, как использовать базу данных SQL в Fabric в качестве цели для обратного ETL в пространстве данных на базе Fabric. Он предоставляет рекомендации по архитектуре, операционные шаблоны и рекомендации по внедрению для перемещения проверенных данных из аналитических источников (таких как хранилище данных Microsoft Fabric или Fabric Lakehouse) в базу данных SQL в Fabric для использования рабочих операций приложениями, API и интерфейсами реального времени.
Что такое обратный ETL в Fabric?
Многие клиенты потратили значительное время и усилия на создание процессов извлечения, преобразования, загрузки (ETL) для преобразования необработанных операционных данных в более подробные аналитические данные, которые можно использовать для бизнес-отчетов. Конечный результат процесса ETL обычно представляет собой аналитическое хранилище данных, такое как склад данных или lakehouse, к которому обращается уровень отчетности, например, Power BI. Эта архитектура хорошо обслуживает бизнес-пользователей, но отчеты относительно статически и аналитические сведения могут быть получены только путем вмешательства человека. С помощью обратного ETL можно передать преобразованные данные обратно в операционные системы, чтобы приложения и агенты могли получать аналитические сведения из этих проанализированных данных в реальном времени. Обратный ETL отправляет данные из фактов и измерений в аналитических хранилищах в обслуживающий слой, где его можно получить с помощью конечных точек, таких как GraphQL или непосредственно через запросы TDS (табличный поток данных).
Хотя операционные приложения можно подключить непосредственно к хранилищу или озеру данных, эти хранилища данных предназначены для аналитических рабочих нагрузок. Операционные хранилища данных, такие как база данных SQL в Fabric, предназначены для поддержки транзакционных запросов, а также обеспечивают более высокую производительность и масштабируемость рабочих нагрузок. Операционные базы данных также предоставляют возможность дополнительного обогащения данных с помощью векторных встраиваний и дополнительных метаданных для облегчения векторного и гибридного поиска, а также для генерации с дополнением (RAG).
- В этом шаблоне склад или озеро остается аналитической системой записи.
- База данных SQL в Fabric служит операционным хранилищем, которое обеспечивает низкую задержку, уточнение индексирования, строгие ограничения данных и связей, а также соглашения об уровне обслуживания, ожидаемые командами приложений.
Общие целевые объекты обратного ETL
Общие целевые объекты обратного ETL обычно представляют курированные срезы данных с высоким уровнем ценности, которые операционные системы могут использовать с минимальным преобразованием. Эти целевые объекты предназначены для обеспечения доступа к доверенным данным с низкой задержкой при сохранении бизнес-логики, применяемой на аналитическом уровне. Вот некоторые примеры.
- Данные клиента и пользователя (например, метрики взаимодействия, такие как активность сеанса, использование функций и взаимодействие)
- Данные о продажах и маркетинге (например, метрики оценки, такие как склонность к покупке, оценки взаимодействия, вероятность конверсии)
- Операционные и транзакционные данные (например, данные заказа и инвентаризации, такие как уровни запасов, состояние заказа и сроки доставки)
- Производные данные ИИ/ML (например, персонализированные рекомендации по продуктам, прогнозные оценки, такие как риск оттока, вероятность дополнительных продаж или анализ тональности)
Механизмы перемещения данных
Процесс начинается с определения исходных данных, задания назначения и выбора механизма перемещения данных. Выберите один или несколько следующих механизмов для перемещения данных из аналитического хранилища в базу данных SQL в Fabric.
Подсказка
В качестве общего правила используйте:
- Каналы для простого копирования и запланированных загрузок.
- Потоки данных 2-го поколения для преобразований с низким кодом.
- Spark для сложной и крупномасштабной обработки (включая машинное обучение).
- Межэлементный T-SQL, где это возможно, чтобы поддерживать операции, ориентированные на SQL, например, объединение таблицы в SQL-базе данных с таблицей в хранилище или конечной точке аналитики SQL.
| Механизм | Используйте, когда | Преимущества | Рекомендации |
|---|---|---|---|
| Fabric Конвейеры Данных | Вам нужны управляемые, повторяемые процессы (пакетные или микропакетные) операций копирования данных | Интеграция высшего уровня; поддерживает водяные знаки и хранимые процедуры | Конкурентность; масштабирование базы данных SQL при высоких нагрузках |
| Поток данных 2-го поколения | Вам нужны преобразования данных с низким кодом и улучшенная логика процесса | Удобное для бизнеса; поддерживает формирование и очистку столбцов | Низкая пропускная способность для больших объемов; планирование разбивки. |
| Spark (записные книжки и задания) | Вам нужны сложные преобразования на основе кода и крупномасштабные изменения | Полный контроль над кодом; эффективное чтение дельта-процессов; поддержка записи JDBC | Проверка подлинности и пакетная обработка; избегайте больших транзакций |
| Запросы T-SQL между элементами | Необходимо перемещение в базе данных SQL между элементами Fabric | Минимальная сантехника; SQL-native; легко запланировать |
Эталонная архитектура: обратный ETL в SQL-базу данных в Fabric
Эталонная архитектура для обратного ETL в Fabric объединяет основные строительные блоки, необходимые для введения в эксплуатацию курированных аналитических данных. В нем показано, как данные из доверенных аналитических источников проходят через слои преобразования и попадают в структурированную базу данных SQL. Операционная база данных служит интерфейсом для подчиненных систем. Этот шаблон гарантирует, что приложения, API и средства создания отчетов могут получать доступ к данным с низкой задержкой и высоким качеством без ущерба для целостности аналитической учётной системы.
Основные компоненты этого потока включают:
- Источник: курируемые наборы данных из хранилища данных Fabric или Lakehouse (Delta).
- Преобразования: обратные преобразования ETL, применяемые с помощью Pipelines, Dataflow Gen2, Spark или кросс-объектного T-SQL.
- Цель: база данных SQL в Fabric с определенными схемами приземления, истории (необязательно), карантина и обслуживания.
- Потребители: приложения с помощью GraphQL или TDS, API и Power BI для панелей мониторинга и отчетов в режиме реального времени.
Components
Следующие компоненты участвуют в общем потоке для использования базы данных SQL в Fabric в качестве обратного целевого объекта ETL.
Обслуживание и посадочные схемы
- Соотнесите исходные данные с соответствующими схемами назначения в SQL базе данных Fabric.
- При желании можно поддерживать
historyсхему для аудита. - Используйте схему
quarantineдля отклонений (проблемы с качеством данных). - Определите схему
servingдля нижнего потребления с соответствующими ограничениями и индексированием.
Оркестрация
- Запланировать передачи в Fabric с помощью конвейеров, потоков данных или заданий Spark.
- Используйте встроенный план планирования для настройки каденции, времени начала и часового пояса.
- Планирование записных книжек Spark с помощью портала Fabric или API.
- Мониторинг сквозных процессов в концентраторе мониторинга системы Fabric.
Consumption
- Выдайте данные через конечные точки GraphQL или T-SQL посредством TDS с использованием клиентских библиотек, таких как ADO.NET (и других).
- Создание панелей мониторинга и визуализаций Power BI непосредственно через базу данных SQL в Fabric.
Управление и безопасность
- Используйте идентификатор Microsoft Entra для проверки подлинности и авторизации.
- Объедините разрешения ролей рабочей области Fabric и разрешения SQL для точного управления.
- При необходимости настройте ключи, управляемые клиентом , для шифрования неактивных данных.
- Производите аудит доступа и защищайте передаваемые данные с помощью Private Link.
Обслуживание приложений
После того, как вы организуете и обновите данные в базе данных SQL, сконцентрируйтесь на обеспечении быстрого и надежного доступа для операционных пользователей. В этом контексте служба приложений означает предоставление доверенных наборов данных через интерфейсы с низкой задержкой, которые соответствуют современным шаблонам приложений.
После приземления и обновления данных в базе данных SQL в Fabric:
- Для обработки операционных рабочих нагрузок предоставьте данные через конечные точки GraphQL или протокол TDS, используемых через ADO.NET и другие клиентские библиотеки. Например, укажите сведения о продукте, цепочке поставок или вариантах использования службы клиентов.
- Сопоставьте набор данных с Power BI, чтобы предоставить панели мониторинга в режиме реального времени и возможности самостоятельной аналитики.
Рекомендации, связанные с структурой
База данных SQL в Fabric использует тот же ядро СУБД SQL, что и База данных SQL Azure , а также управляется, защищается, оплачивается и управляется с помощью портала Fabric. Он также предлагает встроенное зеркальное отображение в файлах Delta/Parquet , хранящихся в Microsoft OneLake, доступ к ним осуществляется через конечную точку аналитики SQL. Так как он находится в среде Microsoft Fabric, существует несколько рекомендаций, которые следует учитывать при создании дизайна:
- Четность функций: база данных SQL в Fabric конвергентируется с базой данных SQL Azure. Проверьте определенные функции , необходимые для обеспечения соответствия и отслеживания обновлений стратегии.
- Модель безопасности: база данных SQL в Fabric использует только проверку подлинности идентификатора Microsoft Entra. Планируйте удостоверения для конвейеров, потоков данных и заданий Spark соответствующим образом.
- Репликация: база данных SQL в Fabric автоматически реплицирует данные только для чтения в OneLake. Эта синхронизация полезна для создания отчетов и анализа, а база данных остается доступной для рабочих нагрузок чтения и записи.