Поделиться через


Продукты данных аналитики в облаке в Azure

Продукты данных — это данные, используемые как продукт и вычисляемые, сохраненные и обслуживаемые службами сохраняемости polyglot, которые могут потребоваться в определенных случаях использования. Процесс создания и обслуживания продукта данных может требовать служб и технологий, которые не включены в основные службы целевой зоны данных. Примером этого будет отчетность с нишевыми требованиями, такими как соответствие требованиям и налоговые отчеты.

Рекомендации по проектированию

Целевая зона данных может обслуживаться несколькими продуктами данных, созданными путем приема данных из одной целевой зоны данных или из нескольких целевых зон данных. Это показано на следующей схеме.

Схема использования зоны размещения между данными.

В приведенном выше примере показано следующее:

  • Потребление данных внутри зоны:
    • Продукт данных B использует данные из продукта данных A и других продуктов данных или данных, существующих в озере данных в пределах собственной целевой зоны.
    • Продукты данных C и D используют данные только из собственных целевых зон данных.
  • Потребление данных между зонами:
    • Продукт данных B также использует данные из продукта данных C и данных в целевой зоне 3 озера данных.

Внимание

В случае потребления данных между зонами, так как продукт данных B создается путем чтения из целевой зоны данных 3, этот доступ для чтения требует утверждения от операций целевой зоны данных и групп операций интеграции целевой зоны данных 3.

Внимание

Продукт данных B использует данные из продуктов данных A и C. Прежде чем это может произойти, продукт данных B должен зарегистрировать потребление продуктов данных с помощью соглашений об обмене данными. Это соглашение о совместном использовании данных должно обновлять происхождение от продукта данных А до продукта данных B и от продукта данных С до продукта данных B.

Группа ресурсов для продукта данных включает все службы, необходимые для создания и обслуживания. Мы можем вызвать эту группу ресурсов приложением данных. Примеры служб, которые могут быть частью приложения данных, включают Функции Azure, приложение Azure Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Машинное обучение Azure, База данных SQL Azure, База данных Azure для MySQL и Azure Cosmos DB. Дополнительные сведения см . в примерах приложений данных.

Продукты с данными имеют данные из источников данных READ , которые применили некоторые преобразования данных. Примерами могут быть только что курируемый набор данных или отчет бизнес-аналитики.

Рекомендации по проектированию

Создавайте продукты данных в целевой зоне данных, придерживаясь принципов, которые позволяют масштабироваться с помощью управления данными. В следующих разделах приведены рекомендации по проектированию, которые помогут вам спланировать экосистему приложений данных.

Развертывание нескольких групп ресурсов

Каждое приложение данных — это группа ресурсов. Так как приложения данных являются вычислительными службами, службами сохраняемости polyglot или обоими, они могут потребоваться только в зависимости от определенных вариантов использования. Таким образом, они считаются необязательным компонентом целевой зоны данных. В случае, если вам нужны приложения данных, создайте несколько групп ресурсов по приложению данных, как показано на следующей схеме.

Схема групп ресурсов приложения данных.

Установка ограничений

Политика Azure управляет конфигурацией служб по умолчанию в целевой зоне данных. Думайте о операционной аналитике как о нескольких группах ресурсов, которые группа продуктов данных может запрашивать из стандартного каталога служб. С помощью Политика Azure можно настроить границу безопасности и обязательный набор компонентов.

Внимание

Чтобы обеспечить согласованность, настройте один Политика Azure для каждого приложения данных.

Использование данных из нескольких мест

Приложения данных управляют, упорядочивают и используют данные из нескольких ресурсов данных и представляют все полученные аналитические сведения. Продукт данных является результатом данных из одного или нескольких приложений данных в целевых зонах данных. При необходимости разрешите приложениям данных получать доступ к данным из нескольких и различных источников.

Масштабирование по мере необходимости

Службы, составляющие приложения данных, являются добавочными развертываниями в целевой зоне данных. Масштабируйте приложения данных по мере необходимости.

Включение обнаружения данных

Автоматически регистрируйте продукты данных в каталоге данных, например Azure Purview , чтобы разрешить сканирование данных.

Определение своих продуктов данных

При планировании целевой зоны данных определите столько продуктов данных (и приложений данных, которые выводят и поддерживают их), чтобы обеспечить архитектуру приложения продукта данных. Соответствие реализации системы управления платформой должно играть большую роль в ваших решениях.

Сосредоточьтесь на том, как ваши приложения данных являются производителями данных и потребителями для других пользователей. Например, предположим, что вы определили набор продуктов данных (A, B, C и D), которые создаются и используются. Вам требуются продукты данных A и D в качестве источников для данных в приложении данных B для продукта данных B. Продукт данных B создается из данных, которые приложение данных B использует из продуктов данных A и D. Приложение данных B выступает в качестве производителя данных, а также создает данные для продукта данных C.

Схема производителя данных и потребителей.

Управление средой приложения данных с помощью инфраструктуры как кода

Управление и инфраструктура как код должны управлять средой приложения данных в экосистеме продуктов данных, как показано на предыдущей схеме.

Публикация моделей данных

Группы продуктов данных должны публиковать свои модели данных в репозитории моделирования.

Установка ожиданий для пользователей продукта данных

Обновите контракты на предоставление общего доступа к данным с помощью соглашений об уровне обслуживания и сертификации для продуктов данных, чтобы обеспечить точные ожидания для потенциальных пользователей продукта данных.

Сбор информации о происхождении данных

Если продукт данных B создается из данных, поступающих из продуктов данных A и D, данные должны быть записаны из A и D в B. Для продукта данных C также следует записать дальнейшую линию происхождения данных, так как она создается с помощью данных из продукта данных B. Обновленная происхождения должна быть записана в приложении происхождения данных перед каждым выпуском продукта данных.

Примечание.

Использование Azure Pipelines позволяет создавать шлюзы утверждения и вызывать функции, которые могут убедиться, что метаданные, происхождение и соглашения об уровне обслуживания регистрируются в правильной службе управления.

Определение архитектуры приложения данных

Необходимо создать подробную архитектуру для каждого продукта данных, который полностью определяет отношение к другим продуктам данных, его зависимостям и требованиям к доступу.

Пример сценария проектирования

Чтобы понять процесс определения архитектуры, изучите следующий пример финансового учреждения и его продукта данных мониторинга кредитов.

Схема архитектуры продукта define-data-product подробно.

Продукт данных мониторинга кредитов, показанный на этой схеме, использует данные из хранилища данных чтения, которое принимает команда операций интеграции. Он создает продукты данных, которые также используются двумя другими продуктами данных.

Примечание.

Источник данных для чтения или хранилище также называется золотым источником записей. Эти источники данных были очищены, но не были применены к ним преобразования.

Команда разработчиков продуктов по обработке кредитных данных запрашивает доступ на чтение хранилищ данных, необходимых для создания продукта данных. Их запросы направляются владельцам данных для утверждения. Получив утверждение, команда разработчиков может начать создание приложения данных.

Данные из источника данных чтения преобразуются в продукты данных мониторинга кредитов. Все новые продукты данных хранятся в курированном слое озера данных. Эти новые продукты данных и новая линия данных должны быть зарегистрированы в рамках процесса развертывания DevOps. Функция может проверка зарегистрированные метаданные с физической структурой ресурса данных. Он должен зарегистрировать зависимость от ресурсов и продуктов данных для чтения источников данных.

Команда по утверждению кредита имеет зависимость от некоторых продуктов данных мониторинга кредитов. Они могут запрашивать доступ на чтение к продуктам данных мониторинга кредитов, которые они требуют для своих продуктов данных. После выпуска продукта утверждения кредита и его приложения данных все ресурсы продукта данных, происхождения и модели должны быть зарегистрированы в соответствующих службах управления.

Примеры приложений данных

В следующих разделах содержатся примеры приложений данных для дальнейшего иллюстрации сценариев приложения данных.

Аналитика данных и приложение для обработки и анализа данных

Приложение для аналитики данных и обработки и анализа данных может содержать службы, показанные в примере приложения product-analytics-rgданных.

Схема, показывая возможные службы, которые можно выбрать для развертывания приложений для аналитики данных.

Примечание.

В качестве шаблона можно использовать предыдущее приложение данных. Этот шаблон развертывает набор служб, которые можно использовать для анализа данных и обработки и анализа данных. Этот шаблон приложения продукта данных можно использовать для быстрого создания сред для кроссфункционных команд. Необходимо явно отключить все службы, которые не требуются.

Шаблон Аналитики данных содержит все шаблоны для развертывания продукта данных для аналитики и обработки и анализа данных в целевой зоне данных в облачной аналитике.

Артефакты развертывания и кода включают следующие службы:

Приложение пакетных данных

Шаблон приложения пакетных данных содержит все шаблоны для развертывания продукта данных для пакетной обработки данных в целевой зоне данных в облачной аналитике.

Артефакты развертывания и кода включают следующие службы:

Схема, показывая возможные службы, которые можно выбрать для развертывания приложения пакетных данных.

Приложение потоковых данных

Шаблон приложения потоковых данных содержит все шаблоны для развертывания продукта данных в режиме реального времени для обработки данных в целевой зоне данных в масштабе облака.

Артефакты развертывания и кода включают следующие службы:

Схема, показывая возможные службы, которые можно выбрать для развертывания приложения потоковой передачи данных.

Чтобы найти репозитории, содержащие ранее упоминание шаблоны развертывания, см. шаблоны развертывания для облачной аналитики

Следующие шаги

Приложения данных (выровненные по источнику)