Процесс приема с помощью аналитики в масштабе облака в Azure

Azure предоставляет несколько служб для приема и выпуска данных в собственных и сторонних платформах. В зависимости от объема, скорости, разнообразия и направления можно использовать различные службы. Некоторые из этих служб:

  • Фабрика данных Azure — это служба, созданная для всех потребностей и уровней навыков приложения данных (с выравниванием по источнику). Напишите собственный код или конструкцию, извлеките, загрузите и преобразуйте процессы в интуитивно понятной визуальной среде и без кода. С помощью более 90 собственных встроенных соединителей без обслуживания визуально интегрируйте источники данных без дополнительных затрат. Инженеры могут использовать частные конечные точки и связывать службы для безопасного подключения к ресурсу «Платформа как услуга» (PaaS) Azure без использования общедоступных конечных точек ресурса PaaS. Инженеры могут использовать среды выполнения интеграции для расширения конвейеров в сторонние среды, такие как локальные источники данных и другие облака.

Некоторые из этих соединителей поддерживаются как источник данных (чтение) или как приемник данных (запись). Собственные службы Azure, Oracle, SAP и другие можно использовать в качестве источника или приемника, но не все соединители поддерживают это. В таких случаях можно использовать универсальные соединители, такие как ODBC, файловая система или соединители FTP SSH (SFTP).

  • Azure Databricks — это быстрая и удобная служба аналитики на основе Apache Spark с возможностью совместной работы. Для конвейера больших данных можно принять данные (необработанные или структурированные) в Azure с помощью Фабрики данных пакетами или потоковой передачей в режиме реального времени с использованием Apache Kafka, Центров событий Azure или Центра Интернета вещей. Эти данные попадают в озеро данных для долгосрочного постоянного хранения в Azure Data Lake Storage. Служба Azure Databricks может считывать данные из нескольких источников данных в рамках рабочего процесса.

  • Платформа Microsoft Power Platform предоставляет соединители для сотен служб, которые могут быть событиями, расписаниями или управляемыми данными. Служба Microsoft Power Automate может действовать с событиями и запускать рабочие процессы, оптимизированные для отдельных записей или небольших объемов данных.

Запатентованные собственные и сторонние инструменты предоставляют специальные возможности для интеграции со специализированными системами и репликации практически в реальном времени.

  • Служба Azure Data Share обеспечивает организациям безопасное совместное использование данных с несколькими внешними клиентами и партнерами. После создания учетной записи общего ресурса данных и добавления продуктов данных клиенты и партнеры могут быть приглашены в общую папку данных. Поставщики данных всегда контролируют данные, которыми они делятся. Служба Azure Data Share упрощает управление и мониторинг того, какие данные передаются в общий доступ, когда они передаются, и кто их передает.

Важно!

Каждая целевая зона данных имеет группу ресурсов приема метаданных , которая существует для предприятий с механизмом приема данных, не зависящим от данных. Если у вас нет этого механизма платформы, единственным рекомендуемым ресурсом является развертывание рабочей области аналитики Azure Databricks, которая будет использоваться интеграцией данных для выполнения сложного приема. Потенциальные шаблоны автоматизации см. в статье Подсистема приема данных, не зависящая от данных .

Вопросы приема для Фабрики данных Azure

Если у вас есть подсистема приема данных, не зависящая от данных, следует развернуть одну фабрику данных для каждой целевой зоны данных в группе ресурсов приема и обработки. Рабочая область Фабрики данных должна быть заблокирована для пользователей, и только управляемое удостоверение и субъекты-службы будут иметь доступ к развертыванию. Операции с целевой зоны данных должны иметь доступ на чтение, чтобы разрешить отладку конвейера.

Приложение данных может иметь собственную фабрику данных для перемещения данных. Наличие Фабрики данных в каждой группе ресурсов приложений данных поддерживает полную непрерывную интеграцию (CI) и непрерывное развертывание (CD), позволяя развертывать конвейеры только из Azure DevOps или GitHub.

Все рабочие области Фабрики данных, в основном, будут использовать функцию управляемой виртуальной сети (VNet) в Фабрике данных или в локальной среде выполнения интеграции для их целевой зоны данных в целевой зоне управления данными. Инженерам рекомендуется использовать функцию управляемой виртуальной сети для безопасного подключения к ресурсу PaaS Azure.

Тем не менее, можно создать дополнительные среды выполнения интеграции для приема из локальных, сторонних облаков и сторонних источников данных «Программа как услуга» (SaaS).

Рекомендации по приему для службы Azure Databrickse

В настоящем руководстве рассматривается следующая информация:

  • Защита доступа к Azure Data Lake 2-ого поколения из Azure Databricks

  • Рекомендации по Azure Databricks

  • Использование Azure Databricks в облачной аналитике в Azure

  • Операции интеграции для разработки должны содержать собственные среды Azure Databricks, прежде чем возвращать код для развертывания в единую рабочую область Azure Databricks во время тестирования и производства.

  • Фабрика данных в группе ресурсов приложения данных (с выравниванием по источнику) должна предоставлять платформу для вызова заданий Azure Databricks.

  • Субъекты-службы могут помочь в подключении озер данных к этой рабочей области. Дополнительные сведения см. в статье Шаблон 1. доступ через субъект-службу.

  • Команды по приложениям данных могут развертывать короткие автоматизированные задания в Azure Databricks и ожидать, что их кластеры будут быстро запускаться, выполнять задания и завершать работу. Рекомендуется настроить пулы Azure Databricks, чтобы сократить время, затрачиваемое на запуск кластеров для заданий.

  • Для реализации платформы развертывания для новых конвейеров организациям рекомендуется использовать Azure DevOps. Платформа будет использоваться для создания папок набора данных, назначения списков управления доступом и создания таблицы с применением или без применения элементов управления доступом к таблицам Databricks.

Прием потоков

Организациям может потребоваться поддержка сценариев, в которых издатели создают потоки событий с высокой скоростью. Для этого шаблона рекомендуется использовать очередь сообщений, например Центры событий или Центр Интернета вещей, для приема этих потоков.

Центры событий и Центр Интернета вещей — это масштабируемые службы обработки событий, которые могут принимать и обрабатывать большие объемы событий и данных с низкой задержкой и высокой надежностью. Центры событий разрабатываются как служба с потоковой передачей больших данных и приема событий. Центр Интернета вещей — управляемая служба, которая действует в качестве центрального концентратора сообщений для двусторонней связи между приложением Интернета вещей и устройствами, которыми оно управляет. После этого данные могут экспортироваться в озеро данных через регулярные интервалы (пакетная передача), и обрабатываться с помощью службы Azure Databricks в режиме реального времени посредством потоковой передачи Apache Spark, Azure Data Explorer, Stream Analytics или Аналитики временных рядов.

Последняя целевая зона Центров событий или Целевая зона Apache Kafka в конкретной целевой зоне сценария использования должна отправлять свои агрегированные данные в необработанный слой озера данных в одной из целевых зон данных и в Центры событий, связанные с группой ресурсов приложения данных (выровненного по источнику) в целевой зоне данных.

Мониторинг приема

Встроенный мониторинг конвейера Фабрики данных Azure можно использовать для отслеживания и устранения неполадок в исключениях конвейеров Фабрики данных. Это сокращает усилия на разработке пользовательского решения по мониторингу и созданию отчетов.

Встроенный мониторинг — одна из основных причин использования Фабрики данных Azure в качестве основного средства оркестрации, а Политика Azure помогает автоматизировать эту настройку.

Сопоставление источников данных в службы

Рекомендации в этом разделе сопоставляют службы приема и обработки с источниками, которые обычно требуется принять или передать из Azure.

Службы приема:

ID Механизм Примечание
Объект Фабрика данных Встроенные и универсальные соединители (ODBC, SFTP и REST)
B Azure Databricks Пользовательский код (JDBC, JAR и другие)
C Сторонний производитель WANdisco, Qlik и Oracle GoldenGate
D Другое Например, собственные возможности
E Microsoft Power Platform и Azure Logic Apps Соединители Microsoft Power Automate

Сопоставление источников данных со службами:

Поставщик Тип Размещенные* Категория Примечания Прием полной загрузки Прием добавочной загрузки Прием в режиме реального времени Передача полной загрузки Передача добавочной загрузки Передача в режиме реального времени
Oracle; Таблица IaaS База данных GoldenGate к Azure Data Lake Storage A, B A, B C A, B A, B C
Microsoft SQL Server Таблица IaaS База данных Преобразование «Ландшафт SAP» и Qlik A, B A, B C, D2 A, B A, B C, D2
MySQL Таблица IaaS База данных Преобразование «Ландшафт SAP» и Qlik A, B A, B C, D2 A, B A, B C, D2
SAP BW/4 HANA Таблица IaaS База данных Преобразование «Ландшафт SAP» и Qlik A, B, C, D A, B, C, D C - - -
SAP HANA Таблица IaaS База данных Преобразование «Ландшафт SAP» и Qlik A, B, C, D A, B, C, D C A, B A, B -
Apache Impala Таблица IaaS База данных - A, B A, B - B B -
Microsoft SharePoint Список SaaS Хранилище записей - A, E A, E E A, E A, E E
REST REST Различные REST XML, JSON, CSV A, B, E A, B, E A, B, E A, B, E A, B, E A, B, E
Microsoft Outlook Email SaaS REST XML, JSON, CSV E E E E E E

В зависимости от места назначения служба Azure Database Migration Service может выполнять репликацию из локальных и сторонних баз данных, таких как Microsoft SQL Server, PostgreSQL, MySQL или Oracle, в хранилище данных на основе Azure.

Дальнейшие действия

Прием SAP с помощью аналитики в масштабе облака в Azure