Рекомендации по созданию трехмерной модели с помощью потоков данных

Tip

Power BI Dataflow 1-го поколения теперь находится в устаревшем состоянии и не получит новых инвестиций в функции. Для премиум-клиентов с доступом к Fabric, Dataflow Gen2 является рекомендуемым решением, предлагая улучшения в производительности, масштабируемости, надежности, функциональности и встроенном ИИ. Клиенты Pro/PPU могут продолжать использовать Gen1, так как руководства по Gen2 для этих сценариев всё ещё разрабатываются. См. статью Обновление с Dataflow Gen1 до Dataflow Gen2 для получения инструкций по обновлению.

Проектирование трехмерной модели является одной из наиболее распространенных задач, которые можно выполнить с помощью потока данных. В этой статье рассматриваются некоторые рекомендации по созданию трехмерной модели с помощью потока данных.

Организация потоков данных

Одной из ключевых точек в любой системе интеграции данных является уменьшение количества операций чтения из исходной операционной системы. В традиционной архитектуре интеграции данных это уменьшение выполняется путем создания новой базы данных, называемой промежуточной базы данных. Целью промежуточной базы данных является регулярная загрузка данных as-is из источника в эту базу данных.

Остальная часть интеграции данных затем использует промежуточную базу данных в качестве источника для дальнейшего преобразования и преобразует ее в структуру трехмерной модели.

Рекомендуется следовать тому же подходу, используя потоки данных. Создайте набор потоков данных, которые отвечают за простое загрузку данных as-is из исходной системы (и только для нужных таблиц). Затем результат хранится в структуре хранилища потока данных (Azure Data Lake Storage или Dataverse). Это изменение гарантирует, что операция чтения из исходной системы минимальна.

Затем можно создать другие потоки данных, которые получают свои данные из промежуточных потоков данных. К преимуществам этого подхода относятся:

Сокращение количества операций чтения из исходной системы и снижение нагрузки на исходную систему в результате.
Уменьшение нагрузки на шлюзы данных, если используется локальный источник данных.
Наличие промежуточной копии данных для сверки в случае изменения исходных системных данных.
Создание потоков данных преобразования, независимых от источника.

Схема, показывающая процесс подготовки потоков данных.

Потоки преобразования данных

Если вы отделяете потоки данных преобразования от промежуточных потоков данных, преобразование не зависит от источника. Это разделение помогает при переносе исходной системы в новую систему. Все, что необходимо сделать в этом случае, заключается в изменении промежуточных потоков данных. Потоки данных преобразования, скорее всего, работают без каких-либо проблем, так как они создаются только из промежуточных потоков данных.

Это разделение также помогает в случае медленного подключения к исходной системе. Потоку данных преобразования не нужно долго ждать для получения записей, поступающих через медленное соединение из исходной системы. Промежуточный поток данных уже выполнил эту задачу, и данные готовы к уровню преобразования.

Схема, аналогичная предыдущему изображению, за исключением того, что акцент сделан на преобразования, и данные отправляются в хранилище данных.

Многоуровневая архитектура

Многоуровневая архитектура — это архитектура, в которой выполняются действия в отдельных слоях. Промежуточные и преобразующие потоки данных могут быть двумя уровнями многоуровневой архитектуры данных. Попытки выполнения действий на слоях обеспечивают минимальные затраты на обслуживание. Если вы хотите изменить что-то, просто необходимо изменить его в слое, где он расположен. Остальные слои должны продолжать работать нормально.

На следующем рисунке показана многоуровневая архитектура потоков данных, в которых затем используются их таблицы в семантических моделях Power BI.

Схема, показывающая многоуровневую архитектуру, где промежуточные потоки данных и потоки данных преобразования находятся в отдельных слоях.

Используйте вычисляемую таблицу по возможности чаще

При использовании результата потока данных в другом потоке данных вы используете концепцию вычисляемой таблицы, что означает получение данных из "уже обработанной и хранимой" таблицы. То же самое может произойти внутри потока данных. При ссылке на таблицу из другой таблицы можно использовать вычисляемую таблицу. Этот метод полезен при наличии набора преобразований, которые необходимо выполнить в нескольких таблицах, которые называются общими преобразованиями.

Схема, показывающая вычисляемую таблицу, исходную из источника данных, используемую для обработки общих преобразований.

На предыдущем изображении вычисляемая таблица получает данные непосредственно из источника. Однако в архитектуре потоков данных для промежуточных и преобразующих этапов, скорее всего, вычисляемые таблицы образуются из промежуточных потоков данных.

Схема, показывающая вычисляемую таблицу, полученную из потоков данных, используемых для обработки общих преобразований.

Создание звездочной схемы

Лучшая модель измерения — это модель схемы звезд, которая имеет измерения и таблицы фактов, разработанные таким образом, чтобы свести к минимуму время для запроса данных из модели. Модель схемы звезды также упрощает понимание визуализатора данных.

Не является идеальным перенос данных в том же формате операционной системы в систему бизнес-аналитики. Таблицы данных должны быть перемоделированы. Некоторые таблицы должны принимать форму таблицы измерений, которая сохраняет описательные сведения. Некоторые таблицы должны иметь форму таблицы фактов, чтобы сохранить агрегируемые данные. Лучший способ организации таблиц фактов и измерений — это звездчатая схема. Дополнительные сведения см. в понимании схемы звезды и важности схемы звезды для Power BI.

Использование уникального значения ключа для измерений

При создании таблиц измерений убедитесь, что для каждой из них есть ключ. Этот ключ гарантирует отсутствие связей типа "многие ко многим" (или, другими словами, "слабых") между измерениями. Ключ можно создать, применив некоторое преобразование, чтобы убедиться, что столбец или сочетание столбцов возвращает уникальные строки в измерении. Затем это сочетание столбцов можно пометить как ключ в таблице в потоке данных.

Снимок экрана: вкладка преобразования Power Query с параметром

Выполните инкрементальное обновление для больших таблиц фактов.

Таблицы фактов всегда являются крупнейшими таблицами в трехмерной модели. Рекомендуется уменьшить количество строк, передаваемых для этих таблиц. Если у вас есть очень большая таблица фактов, убедитесь, что для этой таблицы используется добавочное обновление. Добавочное обновление можно выполнить в семантической модели Power BI, а также в таблицах потоков данных.

Добавочное обновление можно использовать для обновления только части данных, измененной части. Существует несколько вариантов выбора части обновляемых данных и сохраняемой части. Дополнительные сведения см. в разделе "Использование добавочного обновления с потоками данных Power BI".

Снимок экрана диалогового окна инкрементального обновления для потоков данных.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-04-22