Поделиться через


Использование базы данных SQL в качестве операционного хранилища данных

Применимо к:База данных SQL в Microsoft Fabric

В этой статье описывается реализация операционного хранилища данных (ODS) с помощью базы данных SQL в Fabric. Он предоставляет рекомендации по архитектуре, шаблоны проектирования, характеристики рабочей нагрузки и конкретные рекомендации по созданию безопасного, производительного и управляемого ODS.

Схема варианта использования базы данных SQL в Fabric в качестве операционного хранилища данных (ODS).

Что такое ODS?

Операционное хранилище данных (ODS) — это ориентированное на субъект, интегрированное и почти в режиме реального времени хранилище, которое объединяет данные из нескольких операционных систем в легко курированную, нормализованную модель , как правило, в нормализованных схемах. Она поддерживает операционную отчетность, упрощенную аналитику, обслуживание запросов к API и передачу данных на аналитические слои, такие как хранилище Fabric или Fabric Lakehouse.

ODS не является системой обработки онлайн-транзакций (OLTP) или объемным хранилищем.

Вместо этого он служит "горячей, согласованной правдой" в течение последних N минут, часов или дней, сидя между исходными системами и аналитическими платформами.

Ключевые характеристики ODS

Операционное хранилище данных (ODS) в Microsoft Fabric предназначено для предоставления практически в режиме реального времени представления операционных данных с строгими гарантиями управления и производительности.

  • Он получает данные из нескольких исходных систем с низкой задержкой.
  • Схема обычно нормализована в третьей нормальной форме (3NF), чтобы обеспечить гибкость и возможность трассировки.
  • Качество данных обеспечивается путем дедупликации, разрешения идентификаций и обработки поздних или обратимо удаленных записей, создавая надежную основу для оперативной отчетности и последующей аналитики.
  • К шаблонам обслуживания относятся запросы на основе SQL, операционные панели мониторинга, оповещения и API, а функции управления Fabric обеспечивают соответствие и безопасность в жизненном цикле данных.

База данных SQL в Fabric служит безопасным и эффективным каналом между операционными данными и аналитическими платформами.

Components

Следующие компоненты участвуют в использовании базы данных SQL в Fabric в качестве операционного хранилища данных:

  • Ограничения и ключи: обеспечение бизнес-логики и целостности ссылочных данных (естественные ключи, суррогатные ключи, внешние ключи).
  • Разрешение идентификаторов: дедупликация между источниками; применение правил выживаемости.
  • Предоставление: предоставление конечных точек GraphQL и/или создание панелей мониторинга Power BI.

Рекомендации по приему и рабочей нагрузке

Для создания ODS в базе данных SQL в среде Fabric требуются стратегии загрузки данных, которые балансируют свежесть, надежность и производительность.

  • Пакетные и инкрементные нагрузки обычно оркестрируются с помощью конвейеров данных Fabric и коннекторов с поддержкой механизма Change Data Capture, с водяными знаками и логикой повторных попыток, чтобы обеспечить согласованность.
    • Настройте параллелизм конвейерных процессов, чтобы обеспечить масштабирование базы данных SQL во время пиковых нагрузок с выполнением целевых показателей уровня обслуживания и актуальности данных.
    • Водяной знак является важной концепцией в инкрементальных процессах копирования. Это помогает легко определить, где инкрементная загрузка была остановлена в последний раз.
  • Выполняйте тяжелые преобразования в системе Dataflow Gen2 или в блокнотах Spark. Зарезервируйте уровень SQL для конечных MERGE операций, которые применяют ограничения и поддерживают производительность, похожую на OLTP.
  • Идемпотентные шаблоны проектирования, которые объединяют обнаружение изменений, водяные знаки, T-SQL MERGE и контрольные таблицы для безопасных перезапусков и обеспечения эксплуатационной надежности.

Движок и среда

База данных SQL в Fabric основана на том же ядре СУБД SQL, что и База данных SQL Azure, предоставляя знакомый интерфейс T-SQL с полной совместимостью для стандартных клиентских средств.

С помощью базы данных SQL в Microsoft Fabric можно создавать сквозные рабочие процессы от приема данных до аналитики, используя другие функции Microsoft Fabric:

  • Конвейеры данных
  • Поток данных 2-го поколения
  • Ноутбуки
  • Аналитика в режиме реального времени
  • Power BI
  • Упрощенный DevOps с использованием CI/CD на основе Git