Процесс приема с помощью аналитики в масштабе облака в Azure

Статья
07/11/2023

Azure предоставляет несколько служб для приема и выпуска данных в собственных и сторонних платформах. В зависимости от объема, скорости, разнообразия и направления можно использовать различные службы. Некоторые из этих служб:

Фабрика данных Azure — это служба, созданная для всех потребностей и уровней навыков приложения данных (с выравниванием по источнику). Напишите собственный код или конструкцию, извлеките, загрузите и преобразуйте процессы в интуитивно понятной визуальной среде и без кода. С помощью более 90 собственных встроенных соединителей без обслуживания визуально интегрируйте источники данных без дополнительных затрат. Инженеры могут использовать частные конечные точки и связывать службы для безопасного подключения к ресурсу «Платформа как услуга» (PaaS) Azure без использования общедоступных конечных точек ресурса PaaS. Инженеры могут использовать среды выполнения интеграции для расширения конвейеров в сторонние среды, такие как локальные источники данных и другие облака.

Некоторые из этих соединителей поддерживаются как источник данных (чтение) или как приемник данных (запись). Собственные службы Azure, Oracle, SAP и другие можно использовать в качестве источника или приемника, но не все соединители поддерживают это. В таких случаях можно использовать универсальные соединители, такие как ODBC, файловая система или соединители FTP SSH (SFTP).

Azure Databricks — это быстрая и удобная служба аналитики на основе Apache Spark с возможностью совместной работы. Для конвейера больших данных можно принять данные (необработанные или структурированные) в Azure с помощью Фабрики данных пакетами или потоковой передачей в режиме реального времени с использованием Apache Kafka, Центров событий Azure или Центра Интернета вещей. Эти данные попадают в озеро данных для долгосрочного постоянного хранения в Azure Data Lake Storage. Служба Azure Databricks может считывать данные из нескольких источников данных в рамках рабочего процесса.
Платформа Microsoft Power Platform предоставляет соединители для сотен служб, которые могут быть событиями, расписаниями или управляемыми данными. Служба Microsoft Power Automate может действовать с событиями и запускать рабочие процессы, оптимизированные для отдельных записей или небольших объемов данных.

Запатентованные собственные и сторонние инструменты предоставляют специальные возможности для интеграции со специализированными системами и репликации практически в реальном времени.

Служба Azure Data Share обеспечивает организациям безопасное совместное использование данных с несколькими внешними клиентами и партнерами. После создания учетной записи общего ресурса данных и добавления продуктов данных клиенты и партнеры могут быть приглашены в общую папку данных. Поставщики данных всегда контролируют данные, которыми они делятся. Служба Azure Data Share упрощает управление и мониторинг того, какие данные передаются в общий доступ, когда они передаются, и кто их передает.

Важно!

Каждая целевая зона данных имеет группу ресурсов приема метаданных , которая существует для предприятий с механизмом приема данных, не зависящим от данных. Если у вас нет этого механизма платформы, единственным рекомендуемым ресурсом является развертывание рабочей области аналитики Azure Databricks, которая будет использоваться интеграцией данных для выполнения сложного приема. Потенциальные шаблоны автоматизации см. в статье Подсистема приема данных, не зависящая от данных .

Вопросы приема для Фабрики данных Azure

Если у вас есть подсистема приема данных, не зависящая от данных, следует развернуть одну фабрику данных для каждой целевой зоны данных в группе ресурсов приема и обработки. Рабочая область Фабрики данных должна быть заблокирована для пользователей, и только управляемое удостоверение и субъекты-службы будут иметь доступ к развертыванию. Операции с целевой зоны данных должны иметь доступ на чтение, чтобы разрешить отладку конвейера.

Приложение данных может иметь собственную фабрику данных для перемещения данных. Наличие Фабрики данных в каждой группе ресурсов приложений данных поддерживает полную непрерывную интеграцию (CI) и непрерывное развертывание (CD), позволяя развертывать конвейеры только из Azure DevOps или GitHub.

Все рабочие области Фабрики данных, в основном, будут использовать функцию управляемой виртуальной сети (VNet) в Фабрике данных или в локальной среде выполнения интеграции для их целевой зоны данных в целевой зоне управления данными. Инженерам рекомендуется использовать функцию управляемой виртуальной сети для безопасного подключения к ресурсу PaaS Azure.

Тем не менее, можно создать дополнительные среды выполнения интеграции для приема из локальных, сторонних облаков и сторонних источников данных «Программа как услуга» (SaaS).

Прием потоков

Организациям может потребоваться поддержка сценариев, в которых издатели создают потоки событий с высокой скоростью. Для этого шаблона рекомендуется использовать очередь сообщений, например Центры событий или Центр Интернета вещей, для приема этих потоков.

Центры событий и Центр Интернета вещей — это масштабируемые службы обработки событий, которые могут принимать и обрабатывать большие объемы событий и данных с низкой задержкой и высокой надежностью. Центры событий разрабатываются как служба с потоковой передачей больших данных и приема событий. Центр Интернета вещей — управляемая служба, которая действует в качестве центрального концентратора сообщений для двусторонней связи между приложением Интернета вещей и устройствами, которыми оно управляет. После этого данные могут экспортироваться в озеро данных через регулярные интервалы (пакетная передача), и обрабатываться с помощью службы Azure Databricks в режиме реального времени посредством потоковой передачи Apache Spark, Azure Data Explorer, Stream Analytics или Аналитики временных рядов.

Последняя целевая зона Центров событий или Целевая зона Apache Kafka в конкретной целевой зоне сценария использования должна отправлять свои агрегированные данные в необработанный слой озера данных в одной из целевых зон данных и в Центры событий, связанные с группой ресурсов приложения данных (выровненного по источнику) в целевой зоне данных.

Мониторинг приема

Встроенный мониторинг конвейера Фабрики данных Azure можно использовать для отслеживания и устранения неполадок в исключениях конвейеров Фабрики данных. Это сокращает усилия на разработке пользовательского решения по мониторингу и созданию отчетов.

Встроенный мониторинг — одна из основных причин использования Фабрики данных Azure в качестве основного средства оркестрации, а Политика Azure помогает автоматизировать эту настройку.

Сопоставление источников данных в службы

Рекомендации в этом разделе сопоставляют службы приема и обработки с источниками, которые обычно требуется принять или передать из Azure.

Службы приема:

ID	Механизм	Примечание
Объект	Фабрика данных	Встроенные и универсальные соединители (ODBC, SFTP и REST)
B	Azure Databricks	Пользовательский код (JDBC, JAR и другие)
C	Сторонний производитель	WANdisco, Qlik и Oracle GoldenGate
D	Другое	Например, собственные возможности
E	Microsoft Power Platform и Azure Logic Apps	Соединители Microsoft Power Automate

Сопоставление источников данных со службами:

Поставщик	Тип	Размещенные*	Категория	Примечания	Прием полной загрузки	Прием добавочной загрузки	Прием в режиме реального времени	Передача полной загрузки	Передача добавочной загрузки	Передача в режиме реального времени
Oracle;	Таблица	IaaS	База данных	GoldenGate к Azure Data Lake Storage	A, B	A, B	C	A, B	A, B	C
Microsoft SQL Server	Таблица	IaaS	База данных	Преобразование «Ландшафт SAP» и Qlik	A, B	A, B	C, D2	A, B	A, B	C, D2
MySQL	Таблица	IaaS	База данных	Преобразование «Ландшафт SAP» и Qlik	A, B	A, B	C, D2	A, B	A, B	C, D2
SAP BW/4 HANA	Таблица	IaaS	База данных	Преобразование «Ландшафт SAP» и Qlik	A, B, C, D	A, B, C, D	C	-	-	-
SAP HANA	Таблица	IaaS	База данных	Преобразование «Ландшафт SAP» и Qlik	A, B, C, D	A, B, C, D	C	A, B	A, B	-
Apache Impala	Таблица	IaaS	База данных	-	A, B	A, B	-	B	B	-
Microsoft SharePoint	Список	SaaS	Хранилище записей	-	A, E	A, E	E	A, E	A, E	E
REST	REST	Различные	REST	XML, JSON, CSV	A, B, E	A, B, E	A, B, E	A, B, E	A, B, E	A, B, E
Microsoft Outlook	Email	SaaS	REST	XML, JSON, CSV	E	E	E	E	E	E

В зависимости от места назначения служба Azure Database Migration Service может выполнять репликацию из локальных и сторонних баз данных, таких как Microsoft SQL Server, PostgreSQL, MySQL или Oracle, в хранилище данных на основе Azure.

Дальнейшие действия

Прием SAP с помощью аналитики в масштабе облака в Azure