Процесс приема с помощью аналитики в масштабе облака в Azure
Azure предоставляет несколько служб для приема и выпуска данных в собственных и сторонних платформах. В зависимости от объема, скорости, разнообразия и направления можно использовать различные службы. Некоторые из этих служб:
- Фабрика данных Azure — это служба, созданная для всех потребностей и уровней навыков приложения данных (с выравниванием по источнику). Напишите собственный код или конструкцию, извлеките, загрузите и преобразуйте процессы в интуитивно понятной визуальной среде и без кода. С помощью более 90 собственных встроенных соединителей без обслуживания визуально интегрируйте источники данных без дополнительных затрат. Инженеры могут использовать частные конечные точки и связывать службы для безопасного подключения к ресурсу «Платформа как услуга» (PaaS) Azure без использования общедоступных конечных точек ресурса PaaS. Инженеры могут использовать среды выполнения интеграции для расширения конвейеров в сторонние среды, такие как локальные источники данных и другие облака.
Некоторые из этих соединителей поддерживаются как источник данных (чтение) или как приемник данных (запись). Собственные службы Azure, Oracle, SAP и другие можно использовать в качестве источника или приемника, но не все соединители поддерживают это. В таких случаях можно использовать универсальные соединители, такие как ODBC, файловая система или соединители FTP SSH (SFTP).
Azure Databricks — это быстрая и удобная служба аналитики на основе Apache Spark с возможностью совместной работы. Для конвейера больших данных можно принять данные (необработанные или структурированные) в Azure с помощью Фабрики данных пакетами или потоковой передачей в режиме реального времени с использованием Apache Kafka, Центров событий Azure или Центра Интернета вещей. Эти данные попадают в озеро данных для долгосрочного постоянного хранения в Azure Data Lake Storage. Служба Azure Databricks может считывать данные из нескольких источников данных в рамках рабочего процесса.
Платформа Microsoft Power Platform предоставляет соединители для сотен служб, которые могут быть событиями, расписаниями или управляемыми данными. Служба Microsoft Power Automate может действовать с событиями и запускать рабочие процессы, оптимизированные для отдельных записей или небольших объемов данных.
Запатентованные собственные и сторонние инструменты предоставляют специальные возможности для интеграции со специализированными системами и репликации практически в реальном времени.
- Служба Azure Data Share обеспечивает организациям безопасное совместное использование данных с несколькими внешними клиентами и партнерами. После создания учетной записи общего ресурса данных и добавления продуктов данных клиенты и партнеры могут быть приглашены в общую папку данных. Поставщики данных всегда контролируют данные, которыми они делятся. Служба Azure Data Share упрощает управление и мониторинг того, какие данные передаются в общий доступ, когда они передаются, и кто их передает.
Важно!
Каждая целевая зона данных имеет группу ресурсов приема метаданных , которая существует для предприятий с механизмом приема данных, не зависящим от данных. Если у вас нет этого механизма платформы, единственным рекомендуемым ресурсом является развертывание рабочей области аналитики Azure Databricks, которая будет использоваться интеграцией данных для выполнения сложного приема. Потенциальные шаблоны автоматизации см. в статье Подсистема приема данных, не зависящая от данных .
Вопросы приема для Фабрики данных Azure
Если у вас есть подсистема приема данных, не зависящая от данных, следует развернуть одну фабрику данных для каждой целевой зоны данных в группе ресурсов приема и обработки. Рабочая область Фабрики данных должна быть заблокирована для пользователей, и только управляемое удостоверение и субъекты-службы будут иметь доступ к развертыванию. Операции с целевой зоны данных должны иметь доступ на чтение, чтобы разрешить отладку конвейера.
Приложение данных может иметь собственную фабрику данных для перемещения данных. Наличие Фабрики данных в каждой группе ресурсов приложений данных поддерживает полную непрерывную интеграцию (CI) и непрерывное развертывание (CD), позволяя развертывать конвейеры только из Azure DevOps или GitHub.
Все рабочие области Фабрики данных, в основном, будут использовать функцию управляемой виртуальной сети (VNet) в Фабрике данных или в локальной среде выполнения интеграции для их целевой зоны данных в целевой зоне управления данными. Инженерам рекомендуется использовать функцию управляемой виртуальной сети для безопасного подключения к ресурсу PaaS Azure.
Тем не менее, можно создать дополнительные среды выполнения интеграции для приема из локальных, сторонних облаков и сторонних источников данных «Программа как услуга» (SaaS).
Рекомендации по приему для службы Azure Databrickse
В настоящем руководстве рассматривается следующая информация:
Защита доступа к Azure Data Lake 2-ого поколения из Azure Databricks
Операции интеграции для разработки должны содержать собственные среды Azure Databricks, прежде чем возвращать код для развертывания в единую рабочую область Azure Databricks во время тестирования и производства.
Фабрика данных в группе ресурсов приложения данных (с выравниванием по источнику) должна предоставлять платформу для вызова заданий Azure Databricks.
Субъекты-службы могут помочь в подключении озер данных к этой рабочей области. Дополнительные сведения см. в статье Шаблон 1. доступ через субъект-службу.
Команды по приложениям данных могут развертывать короткие автоматизированные задания в Azure Databricks и ожидать, что их кластеры будут быстро запускаться, выполнять задания и завершать работу. Рекомендуется настроить пулы Azure Databricks, чтобы сократить время, затрачиваемое на запуск кластеров для заданий.
Для реализации платформы развертывания для новых конвейеров организациям рекомендуется использовать Azure DevOps. Платформа будет использоваться для создания папок набора данных, назначения списков управления доступом и создания таблицы с применением или без применения элементов управления доступом к таблицам Databricks.
Прием потоков
Организациям может потребоваться поддержка сценариев, в которых издатели создают потоки событий с высокой скоростью. Для этого шаблона рекомендуется использовать очередь сообщений, например Центры событий или Центр Интернета вещей, для приема этих потоков.
Центры событий и Центр Интернета вещей — это масштабируемые службы обработки событий, которые могут принимать и обрабатывать большие объемы событий и данных с низкой задержкой и высокой надежностью. Центры событий разрабатываются как служба с потоковой передачей больших данных и приема событий. Центр Интернета вещей — управляемая служба, которая действует в качестве центрального концентратора сообщений для двусторонней связи между приложением Интернета вещей и устройствами, которыми оно управляет. После этого данные могут экспортироваться в озеро данных через регулярные интервалы (пакетная передача), и обрабатываться с помощью службы Azure Databricks в режиме реального времени посредством потоковой передачи Apache Spark, Azure Data Explorer, Stream Analytics или Аналитики временных рядов.
Последняя целевая зона Центров событий или Целевая зона Apache Kafka в конкретной целевой зоне сценария использования должна отправлять свои агрегированные данные в необработанный слой озера данных в одной из целевых зон данных и в Центры событий, связанные с группой ресурсов приложения данных (выровненного по источнику) в целевой зоне данных.
Мониторинг приема
Встроенный мониторинг конвейера Фабрики данных Azure можно использовать для отслеживания и устранения неполадок в исключениях конвейеров Фабрики данных. Это сокращает усилия на разработке пользовательского решения по мониторингу и созданию отчетов.
Встроенный мониторинг — одна из основных причин использования Фабрики данных Azure в качестве основного средства оркестрации, а Политика Azure помогает автоматизировать эту настройку.
Сопоставление источников данных в службы
Рекомендации в этом разделе сопоставляют службы приема и обработки с источниками, которые обычно требуется принять или передать из Azure.
Службы приема:
ID | Механизм | Примечание |
---|---|---|
Объект | Фабрика данных | Встроенные и универсальные соединители (ODBC, SFTP и REST) |
B | Azure Databricks | Пользовательский код (JDBC, JAR и другие) |
C | Сторонний производитель | WANdisco, Qlik и Oracle GoldenGate |
D | Другое | Например, собственные возможности |
E | Microsoft Power Platform и Azure Logic Apps | Соединители Microsoft Power Automate |
Сопоставление источников данных со службами:
Поставщик | Тип | Размещенные* | Категория | Примечания | Прием полной загрузки | Прием добавочной загрузки | Прием в режиме реального времени | Передача полной загрузки | Передача добавочной загрузки | Передача в режиме реального времени |
---|---|---|---|---|---|---|---|---|---|---|
Oracle; | Таблица | IaaS | База данных | GoldenGate к Azure Data Lake Storage | A, B | A, B | C | A, B | A, B | C |
Microsoft SQL Server | Таблица | IaaS | База данных | Преобразование «Ландшафт SAP» и Qlik | A, B | A, B | C, D2 | A, B | A, B | C, D2 |
MySQL | Таблица | IaaS | База данных | Преобразование «Ландшафт SAP» и Qlik | A, B | A, B | C, D2 | A, B | A, B | C, D2 |
SAP BW/4 HANA | Таблица | IaaS | База данных | Преобразование «Ландшафт SAP» и Qlik | A, B, C, D | A, B, C, D | C | - | - | - |
SAP HANA | Таблица | IaaS | База данных | Преобразование «Ландшафт SAP» и Qlik | A, B, C, D | A, B, C, D | C | A, B | A, B | - |
Apache Impala | Таблица | IaaS | База данных | - | A, B | A, B | - | B | B | - |
Microsoft SharePoint | Список | SaaS | Хранилище записей | - | A, E | A, E | E | A, E | A, E | E |
REST | REST | Различные | REST | XML, JSON, CSV | A, B, E | A, B, E | A, B, E | A, B, E | A, B, E | A, B, E |
Microsoft Outlook | SaaS | REST | XML, JSON, CSV | E | E | E | E | E | E |
В зависимости от места назначения служба Azure Database Migration Service может выполнять репликацию из локальных и сторонних баз данных, таких как Microsoft SQL Server, PostgreSQL, MySQL или Oracle, в хранилище данных на основе Azure.