Проектирование решения для интеграции и анализа данных с помощью Azure Synapse Analytics
Azure Synapse Analytics объединяет функции аналитики больших данных, корпоративного хранилища данных и интеграции данных. Служба позволяет выполнять запросы на бессерверные данные или данные в масштабе. Azure Synapse поддерживает прием данных, изучение, преобразование и управление и поддерживает анализ всех потребностей бизнес-аналитики и машинного обучения.
Сведения о Azure Synapse Analytics
Azure Synapse Analytics реализует архитектуру массовой параллельной обработки (MPP) и имеет следующие характеристики.
Архитектура Azure Synapse Analytics включает узел управления и пул вычислительных узлов.
Узел управления — это мозг архитектуры. Это внешний интерфейс, который взаимодействует со всеми приложениями. Вычислительные узлы обеспечивают вычислительную мощность. Обрабатываемые данные распределяются равномерно по узлам.
Вы отправляете запросы в виде инструкций Transact-SQL, и Azure Synapse Analytics выполняет их.
Azure Synapse использует технологию PolyBase , которая позволяет извлекать и запрашивать данные из реляционных и нереляционных источников. Данные можно сохранить в виде таблиц SQL в службе Azure Synapse.
Компоненты Azure Synapse Analytics
Azure Synapse Analytics состоит из пяти элементов:
- Пул SQL Azure Synapse: Synapse SQL предоставляет как бессерверные, так и выделенные модели ресурсов для работы с архитектурой, основанной на узлах. Для прогнозируемой производительности и затрат можно создать выделенные пулы SQL. Для нерегулярных или незапланированных рабочих нагрузок можно использовать всегда доступную конечную точку SQL без сервера.
- Пул Azure Synapse Spark: этот пул — это кластер серверов, которые запускают Apache Spark для обработки данных. Вы записываете логику обработки данных с помощью одного из четырех поддерживаемых языков: Python, Scala, SQL и C# (через .NET для Apache Spark). Apache Spark для Azure Synapse интегрирует Apache Spark (открытый код обработчик больших данных, используемый для подготовки данных, проектирования данных, ETL и машинного обучения).
- Azure Synapse Pipelines: Azure Synapse Pipelines применяет возможности фабрики данных Azure. Конвейеры — это облачная служба ETL и службы интеграции данных, которая позволяет создавать управляемые данными рабочие процессы для оркестрации перемещения данных и преобразования данных в масштабе. Можно включить действия, которые преобразуют данные по мере передачи или объединять данные из нескольких источников вместе.
- Azure Synapse Link: этот компонент позволяет подключаться к Azure Cosmos DB. Вы можете использовать его для выполнения аналитики практически в режиме реального времени по операционным данным, хранящимся в базе данных Azure Cosmos DB.
- Azure Synapse Studio. Этот элемент является веб-интегрированной средой разработки, которая может использоваться централизованно для работы со всеми возможностями Azure Synapse Analytics. Azure Synapse Studio можно использовать для создания пулов SQL и Spark, определения и запуска конвейеров и настройки ссылок на внешние источники данных.
Аналитические параметры
Azure Synapse Analytics поддерживает ряд аналитических сценариев. При просмотре таблицы рассмотрим, как сценарии применяются к организации Tailwind Traders.
| Анализ | Сценарий | Описание |
|---|---|---|
| Описательный | Что происходит? | Azure Synapse применяет возможности выделенного SQL пула, которые позволяют создавать сохраняемое хранилище данных для анализа вопросов о текущем положении. Вы можете использовать бессерверный пул SQL для подготовки данных из файлов, хранящихся в озере данных, для интерактивного создания хранилища данных. |
| Диагностика | Почему это происходит? | Вы можете использовать возможность бессерверного пула SQL в Azure Synapse для интерактивного изучения данных в озере данных. Бессерверные пулы SQL могут быстро разрешить пользователю искать другие данные, которые могут помочь им понять , почему вопросы. |
| Предсказывающий | Что, вероятно, произойдет? | Azure Synapse Analytics использует интегрированный модуль Apache Spark и пулы Azure Synapse Spark для прогнозной аналитики. Он объединяет это действие с другими службами, такими как Службы машинного обучения Azure и Azure Databricks, чтобы помочь вам ответить на какие вопросы о будущем. |
| Предписывающий | Что нужно сделать? | Вы можете использовать предписывающую аналитику в реальном времени или почти в реальном времени, чтобы помочь вам определить решения для ваших вопросов о том, какие действия предпринять. Azure Synapse Analytics предоставляет эту возможность через Apache Spark и Azure Synapse Link, а также интегрируя технологии потоковой передачи, такие как Azure Stream Analytics. |
Бизнес-сценарий
Давайте рассмотрим сценарий, в котором компания обслуживает клиентов с информацией о фондовом рынке. Необходимо предоставить сочетание пакетной и потоковой обработки для поддержки инфраструктуры Tailwind Traders. Данные до секунды могут использоваться для мониторинга в режиме реального времени, когда мгновенное решение требуется для принятия обоснованных решений о покупке или продаже. Исторические данные так же важны для представления тенденций производительности. Какое решение для хранилища данных и интеграции данных рекомендуется предоставить доступ к потокам необработанных данных и подготовленной бизнес-информации, полученной из этих данных? С помощью Azure Synapse Analytics можно принимать данные из внешних источников, а затем преобразовывать и объединять эти данные в формат, подходящий для обработки аналитики.
Рекомендации по выбору Фабрика данных Azure или Azure Synapse Analytics
В следующей таблице сравниваются критерии решения хранилища для использования Фабрика данных Azure и Azure Synapse Analytics. Просмотрите критерии и рассмотрите, какое решение оптимально для Tailwind Traders.
| Сравнить | Фабрика данных Azure | Azure Synapse Analytics |
|---|---|---|
| Общий доступ к данным | Данные можно совместно использовать в разных фабриках данных | Не поддерживается |
| Шаблоны решений | Шаблоны решений предоставляются в коллекции шаблонов Фабрика данных Azure | Шаблоны решений предоставляются в Центре знаний рабочей области Synapse |
| Потоки среды выполнения интеграции через регионы | Поддерживаются потоки данных между регионами | Не поддерживается |
| Мониторинг данных | Мониторинг данных интегрирован с Azure Monitor | Журналы диагностики доступны в Azure Monitor |
| Мониторинг заданий Spark для потока данных | Не поддерживается | Задания Spark можно отслеживать для потока данных с помощью пулов Synapse Spark |
Azure Synapse Analytics — это идеальное решение для многих других сценариев. Следуйте приведенным ниже рекомендациям.
- Рассмотрим различные источники данных. Если у вас есть различные источники данных, использующие Azure Synapse Analytics для операций без кода и потока данных.
- Рассмотрим машинное обучение. При необходимости реализации решений Машинное обучение с помощью Apache Spark можно использовать Azure Synapse Analytics для встроенной поддержки Машинное обучение Azure.
- Рассмотрите интеграцию хранилища данных. Если у вас есть данные, хранящиеся в озере данных, и требуется интеграция с Azure Data Lake и другими источниками входных данных, Azure Synapse Analytics обеспечивает простую интеграцию между двумя компонентами.
- Рассмотрим аналитику в режиме реального времени. Если требуется аналитика в режиме реального времени, можно использовать такие функции, как Azure Synapse Link, для анализа данных в режиме реального времени и предоставления аналитических сведений.