Как работает Azure Synapse Analytics

Завершено

Для поддержки потребностей в аналитике в современных организациях в решении Azure Synapse Analytics объединены централизованная служба для хранения и обработки данных и расширяемая архитектура, с помощью которой связанные службы позволяют интегрировать часто используемые хранилища данных, платформы обработки и средства визуализации.

Создание и использование рабочей области Azure Synapse Analytics

Рабочая область Synapse Analytics определяет экземпляр службы Synapse Analytics, в котором можно управлять службами и ресурсами данных, необходимыми для решения аналитики. Рабочую область Synapse Analytics можно создать в подписке Azure в интерактивном режиме с помощью портала Azure или автоматизировать развертывание с помощью Azure PowerShell, интерфейса командной строки Azure (CLI) или шаблона Azure Resource Manager или Bicep.

После создания рабочей области Synapse Analytics в ней можно управлять службами и выполнять задачи по аналитике данных с помощью Synapse Studio (веб-портала для Azure Synapse Analytics).

Screenshot of Azure Synapse Studio.

Работа с файлами в озере данных

Одним из основных ресурсов в рабочей области Synapse Analytics является озеро данных, в котором могут храниться файлы данных и обрабатываться в большом масштабе. Обычно рабочая область содержит озеро данных по умолчанию, которое реализовано в виде связанной службы для контейнера Azure Data Lake Storage 2-го поколения. По мере необходимости связанные службы можно добавить для нескольких озер данных, основанных на разных платформах хранения.

Screenshot of a data lake linked service in Azure Studio.

Прием и преобразование данных с помощью конвейеров

В большинстве корпоративных решений аналитики данных данные извлекаются из нескольких операционных источников и передаются в центральное озеро данных или хранилище данных для последующего анализа. Azure Synapse Analytics обеспечивает встроенную поддержку для создания, запуска и управления конвейерами, которые оркестрируют действия, необходимые для получения данных из различных источников, преобразования данных по мере необходимости и загрузки преобразованных данных в хранилище аналитических данных.

Screenshot of a pipeline in Azure Synapse Studio.

Примечание.

Конвейеры в Azure Synapse Analytics основаны на той же базовой технологии, что и Фабрика данных Azure. Если вы уже знакомы с Фабрикой данных Azure, вы можете использовать имеющиеся навыки для создания решений для приема и преобразования данных в Azure Synapse Analytics.

Запрос и обработка данных с помощью SQL

Язык SQL (SQL) — это единый язык для запроса и обработки данных, который является основой для реляционных баз данных, включая популярную платформу баз данных Microsoft SQL Server. Azure Synapse Analytics поддерживает запрос и обработку данных на основе SQL с помощью пула SQL двух типов, которые основанных на ядре реляционных СУБД SQL Server.

  • Встроенный бессерверный пул, оптимизированный для использования семантики реляционных баз данных SQL для запроса данных на основе файлов в озере данных.
  • Настраиваемые выделенные пулы SQL, в которых размещаются реляционные хранилища данных.

В системе SQL Azure Synapse используется модель обработки распределенных запросов для параллелизации операций SQL, что позволяет создать высокомасштабируемое решение для обработки реляционных данных. Встроенный бессерверный пул можно использовать для экономически эффективного анализа и обработки файловых данных в озере данных, а для создания реляционных хранилищ данных для моделирования и корпоративных данных создания отчетов на их основе можно применять выделенные пулы SQL.

Screenshot of a SQL query and databases in Azure Synapse Studio.

Обработка и анализ данных с помощью Apache Spark

Apache Spark — это платформа с открытым кодом для аналитики больших данных. Spark обеспечивает распределенную обработку файлов в озере данных путем выполнения заданий, которые можно реализовать с помощью любого из поддерживаемых языков программирования. В Spark поддерживаются такие языки как Python, Scala, Java, SQL и C#.

В Azure Synapse Analytics можно создать один или несколько пулов Spark и использовать интерактивные записные книжки для объединения кода и заметок при создании решений для аналитики данных, машинного обучения и визуализации данных.

Screenshot of a Spark notebook in Azure Synapse Studio.

Изучение данных с помощью Data Explorer

Azure Synapse Data Explorer — это модуль обработки данных в Azure Synapse Analytics, основанный на службе Azure Data Explorer. В Data Explorer используется интуитивно понятный синтаксис запросов, называемый языком запросов Kusto (KQL), который обеспечивает высокую производительность, анализ с низкой задержкой пакетных и потоковых данных.

Screenshot of a Kusto Query Language script in Azure Synapse Studio.

Интеграция с другими службами данных Azure

Azure Synapse Analytics можно интегрировать с другими службами данных Azure для создания комплексных решений аналитики. К интегрированным относятся следующие решения.

  • Azure Synapse Link обеспечивает синхронизацию в режиме почти реального времени между операционными данными в Azure Cosmos DB, базой данных Azure SQL, SQL Server и Microsoft Power Platform, Dataverse хранилищем аналитических данных, которые можно запрашивать в Azure Synapse Analytics.
  • Интеграция Microsoft Power BI позволяет аналитикам данных интегрировать рабочую область Power BI в рабочую область Synapse и выполнять интерактивную визуализацию данных в Azure Synapse Studio.
  • Интеграция Microsoft Purview позволяет организациям каталогизировать ресурсы данных в Azure Synapse Analytics и упрощает инженерам данных поиск ресурсов данных и отслеживание происхождения данных при реализации конвейеров данных, которые обеспечивают прием данных в Azure Synapse Analytics.
  • Интеграция Машинного обучения Azure позволяет аналитикам данных и специалистам по обработке и анализу данных интегрировать обучение прогнозной модели и ее применение в рамках решений аналитики.