Проектирование решения для интеграции и анализа данных с помощью Azure Synapse Analytics

Завершено

Azure Synapse Analytics объединяет функции аналитики больших данных, корпоративного хранилища данных и интеграции данных. Служба позволяет выполнять запросы на бессерверные данные или данные в масштабе. Azure Synapse поддерживает прием данных, изучение, преобразование и управление и поддерживает анализ всех потребностей бизнес-аналитики и машинного обучения.

Сведения о Azure Synapse Analytics

Azure Synapse Analytics реализует архитектуру массовой параллельной обработки (MPP) и имеет следующие характеристики.

  • Архитектура Azure Synapse Analytics включает узел управления и пул вычислительных узлов.

    Схема, демонстрирующая архитектуру Azure Synapse Analytics.

    Узел управления — это мозг архитектуры. Это внешний интерфейс, который взаимодействует со всеми приложениями. Вычислительные узлы обеспечивают вычислительную мощность. Обрабатываемые данные распределяются равномерно по узлам.

  • Вы отправляете запросы в виде инструкций Transact-SQL, и Azure Synapse Analytics выполняет их.

  • Azure Synapse использует технологию PolyBase , которая позволяет извлекать и запрашивать данные из реляционных и нереляционных источников. Данные можно сохранить в виде таблиц SQL в службе Azure Synapse.

Компоненты Azure Synapse Analytics

Azure Synapse Analytics состоит из пяти элементов:

Схема, показывая обзор возможностей Azure Synapse Analytics.

  • Пул SQL Azure Synapse: Synapse SQL предоставляет как бессерверные, так и выделенные модели ресурсов для работы с архитектурой, основанной на узлах. Для прогнозируемой производительности и затрат можно создать выделенные пулы SQL. Для нерегулярных или незапланированных рабочих нагрузок можно использовать всегда доступную конечную точку SQL без сервера.
  • Пул Azure Synapse Spark: этот пул — это кластер серверов, которые запускают Apache Spark для обработки данных. Вы записываете логику обработки данных с помощью одного из четырех поддерживаемых языков: Python, Scala, SQL и C# (через .NET для Apache Spark). Apache Spark для Azure Synapse интегрирует Apache Spark (открытый код обработчик больших данных, используемый для подготовки данных, проектирования данных, ETL и машинного обучения).
  • Azure Synapse Pipelines: Azure Synapse Pipelines применяет возможности фабрики данных Azure. Конвейеры — это облачная служба ETL и службы интеграции данных, которая позволяет создавать управляемые данными рабочие процессы для оркестрации перемещения данных и преобразования данных в масштабе. Можно включить действия, которые преобразуют данные по мере передачи или объединять данные из нескольких источников вместе.
  • Azure Synapse Link: этот компонент позволяет подключаться к Azure Cosmos DB. Вы можете использовать его для выполнения аналитики практически в режиме реального времени по операционным данным, хранящимся в базе данных Azure Cosmos DB.
  • Azure Synapse Studio. Этот элемент является веб-интегрированной средой разработки, которая может использоваться централизованно для работы со всеми возможностями Azure Synapse Analytics. Azure Synapse Studio можно использовать для создания пулов SQL и Spark, определения и запуска конвейеров и настройки ссылок на внешние источники данных.

Аналитические параметры

Azure Synapse Analytics поддерживает ряд аналитических сценариев. При просмотре таблицы рассмотрим, как сценарии применяются к организации Tailwind Traders.

Анализ Сценарий Описание
Описательный Что происходит? Azure Synapse применяет возможности выделенного SQL пула, которые позволяют создавать сохраняемое хранилище данных для анализа вопросов о текущем положении. Вы можете использовать бессерверный пул SQL для подготовки данных из файлов, хранящихся в озере данных, для интерактивного создания хранилища данных.
Диагностика Почему это происходит? Вы можете использовать возможность бессерверного пула SQL в Azure Synapse для интерактивного изучения данных в озере данных. Бессерверные пулы SQL могут быстро разрешить пользователю искать другие данные, которые могут помочь им понять , почему вопросы.
Предсказывающий Что, вероятно, произойдет? Azure Synapse Analytics использует интегрированный модуль Apache Spark и пулы Azure Synapse Spark для прогнозной аналитики. Он объединяет это действие с другими службами, такими как Службы машинного обучения Azure и Azure Databricks, чтобы помочь вам ответить на какие вопросы о будущем.
Предписывающий Что нужно сделать? Вы можете использовать предписывающую аналитику в реальном времени или почти в реальном времени, чтобы помочь вам определить решения для ваших вопросов о том, какие действия предпринять. Azure Synapse Analytics предоставляет эту возможность через Apache Spark и Azure Synapse Link, а также интегрируя технологии потоковой передачи, такие как Azure Stream Analytics.

Бизнес-сценарий

Давайте рассмотрим сценарий, в котором компания обслуживает клиентов с информацией о фондовом рынке. Необходимо предоставить сочетание пакетной и потоковой обработки для поддержки инфраструктуры Tailwind Traders. Данные до секунды могут использоваться для мониторинга в режиме реального времени, когда мгновенное решение требуется для принятия обоснованных решений о покупке или продаже. Исторические данные так же важны для представления тенденций производительности. Какое решение для хранилища данных и интеграции данных рекомендуется предоставить доступ к потокам необработанных данных и подготовленной бизнес-информации, полученной из этих данных? С помощью Azure Synapse Analytics можно принимать данные из внешних источников, а затем преобразовывать и объединять эти данные в формат, подходящий для обработки аналитики.

Рекомендации по выбору Фабрика данных Azure или Azure Synapse Analytics

В следующей таблице сравниваются критерии решения хранилища для использования Фабрика данных Azure и Azure Synapse Analytics. Просмотрите критерии и рассмотрите, какое решение оптимально для Tailwind Traders.

Сравнить Фабрика данных Azure Azure Synapse Analytics
Общий доступ к данным Данные можно совместно использовать в разных фабриках данных Не поддерживается
Шаблоны решений Шаблоны решений предоставляются в коллекции шаблонов Фабрика данных Azure Шаблоны решений предоставляются в Центре знаний рабочей области Synapse
Потоки среды выполнения интеграции через регионы Поддерживаются потоки данных между регионами Не поддерживается
Мониторинг данных Мониторинг данных интегрирован с Azure Monitor Журналы диагностики доступны в Azure Monitor
Мониторинг заданий Spark для потока данных Не поддерживается Задания Spark можно отслеживать для потока данных с помощью пулов Synapse Spark

Azure Synapse Analytics — это идеальное решение для многих других сценариев. Следуйте приведенным ниже рекомендациям.

  • Рассмотрим различные источники данных. Если у вас есть различные источники данных, использующие Azure Synapse Analytics для операций без кода и потока данных.
  • Рассмотрим машинное обучение. При необходимости реализации решений Машинное обучение с помощью Apache Spark можно использовать Azure Synapse Analytics для встроенной поддержки Машинное обучение Azure.
  • Рассмотрите интеграцию хранилища данных. Если у вас есть данные, хранящиеся в озере данных, и требуется интеграция с Azure Data Lake и другими источниками входных данных, Azure Synapse Analytics обеспечивает простую интеграцию между двумя компонентами.
  • Рассмотрим аналитику в режиме реального времени. Если требуется аналитика в режиме реального времени, можно использовать такие функции, как Azure Synapse Link, для анализа данных в режиме реального времени и предоставления аналитических сведений.