Проектирование решения для интеграции и анализа данных с помощью Azure Databricks

8 мин

Azure Databricks — это полностью управляемая облачная платформа больших данных и Машинного обучения, которая позволяет разработчикам ускорить внедрение искусственного интеллекта и инноваций. Azure Databricks предоставляет команды по обработке и проектированию данных с одной платформой для обработки больших данных и Машинное обучение. Платформа Apache Spark под управлением Azure Databricks упрощает выполнение крупномасштабных рабочих нагрузок Spark.

Сведения о Azure Databricks

Azure Databricks полностью основан на Apache Spark, и это отличный инструмент для пользователей, которые уже знакомы с платформой кластерных вычислений с открытым исходным кодом. Databricks предназначен специально для обработки больших данных. Специалисты по обработке и анализу данных могут воспользоваться встроенным базовым API для основных языков, таких как SQL, Java, Python, R и Scala.

Azure Databricks имеет плоскость управления и плоскость данных:

Плоскость управления: размещает задания Databricks, записные книжки с результатами запроса и диспетчер кластера. Плоскость управления также содержит веб-приложение, хранилище метаданных hive и списки управления доступом безопасности (ACL) и сеансы пользователей. Корпорация Майкрософт управляет этими компонентами в сотрудничестве с Azure Databricks.
Плоскость данных: содержит все кластеры среды выполнения Azure Databricks, размещенные в рабочей области. Вся обработка и хранение данных осуществляется в рамках клиентской подписки. Обработка данных никогда не выполняется в управляемой корпорацией Майкрософт или Databricks подписке.

Azure Databricks предлагает три среды для разработки приложений с интенсивными данными.

Databricks SQL: Sql Azure Databricks предоставляет простую платформу для аналитиков, которые хотят выполнять запросы SQL в их озере данных. Вы можете создать несколько типов визуализаций для изучения результатов запроса с разных перспектив, а также создания и совместного использования панелей мониторинга.
Databricks Обработка и анализ данных и инженеров: Azure Databricks Обработка и анализ данных & Engineering — это интерактивная рабочая область, которая обеспечивает совместную работу между инженерами данных, специалистами по обработке и анализу данных и инженерами машинного обучения. Для конвейера больших данных данные (необработанные или структурированные) передаются в Azure через Фабрика данных Azure в пакетах или передаются практически в режиме реального времени с помощью Apache Kafka, Центры событий Azure или Центр Интернета вещей Azure. Данные приземляется в озере данных для долгосрочного хранения в Хранилище BLOB-объектов Azure или Azure Data Lake Storage. В рамках рабочего процесса аналитики используйте Azure Databricks для чтения данных из нескольких источников данных и превратите их в прорывные аналитические сведения с помощью Spark.
Databricks Машинное обучение: Azure Databricks Машинное обучение — это интегрированная сквозная среда машинного обучения. Она включает управляемые службы для отслеживания экспериментов, обучения моделей, разработки функций и управления, а также обслуживания функций и моделей.

Бизнес-сценарий

Давайте проанализируем сценарий для Tailwind Traders в подразделении по производству тяжелых машин. Tailwind Traders использует облачные службы Azure для своих потребностей в больших данных. Они работают как с пакетными данными, так и с потоковыми данными. В отделе используются инженеры по обработке данных, специалисты по обработке и анализу данных, которые совместно работают над тем, чтобы создавать быстрые аналитические отчеты для многих заинтересованных лиц. Чтобы выполнить требования к большим данным, вы планируете рекомендовать Azure Databricks и реализовать среду Обработка и анализ данных и инженерии.

Давайте рассмотрим, почему Azure Databricks может быть правильным выбором для удовлетворения этих требований.

Azure Databricks предоставляет интегрированную рабочую область Аналитики на основе Apache Spark, которая позволяет совместно использовать совместную работу между разными пользователями.
С помощью компонентов Spark, таких как Spark SQL и кадры данных, Azure Databricks может обрабатывать структурированные данные. Он интегрируется с средствами приема данных в режиме реального времени, такими как Kafka и Flume для обработки потоковых данных.
Безопасные возможности интеграции данных, созданные на основе Spark, позволяют объединить данные без централизации. Специалисты по обработке и анализу данных могут визуализировать данные в нескольких шагах и использовать знакомые инструменты, такие как Matplotlib, ggplot или d3.
Среда выполнения Azure Databricks абстрагирует сложность инфраструктуры и потребность в специализированном опыте по настройке и настройке инфраструктуры данных. Пользователи могут использовать существующие навыки языков для Python, Scala и R, а также просматривать данные.
Azure Databricks глубоко интегрируется с базами данных Azure и хранит такие хранилища, как Azure Synapse Analytics, Azure Cosmos DB, Azure Data Lake Storage и Хранилище BLOB-объектов Azure. Она поддерживает различные платформы хранения данных, которые удовлетворяют потребностям хранилища больших данных Tailwind Traders.
Интеграция с Power BI позволяет быстро и понятно получать аналитические сведения, которые являются обязательными для Tailwind Traders.
Azure Databricks SQL не является правильным выбором, так как он не может обрабатывать неструктурированные данные.
Azure Databricks Машинное обучение также не является правильным выбором среды, так как машинное обучение не является обязательным в этом сценарии.

Что следует учитывать при использовании Azure Databricks

Azure Databricks можно использовать в качестве решения для нескольких сценариев. Рассмотрим, как служба может воспользоваться решением интеграции данных для Tailwind Traders.

Рассмотрим подготовку данных для обработки и анализа данных. Создание, клонирование и изменение кластеров сложных, неструктурированных данных. Преобразуйте кластеры данных в определенные задания. Доставите результаты специалистам по обработке и анализу данных.
Рассмотрим аналитические сведения в данных. Реализуйте Azure Databricks для создания подсистем рекомендаций, анализа оттока и обнаружения вторжений.
Учитывайте производительность в группах данных и аналитики. Создайте среду совместной работы и общие рабочие области для инженеров данных, аналитиков и ученых. Teams могут работать вместе в жизненном цикле обработки и анализа данных с общими рабочими областями, что помогает сэкономить ценное время и ресурсы.
Рассмотрим рабочие нагрузки больших данных. Выполните azure Data Lake и подсистему, чтобы получить лучшую производительность и надежность для рабочих нагрузок больших данных. Создание конвейеров данных с несколькими шагами без суеты.
Рассмотрим программы машинного обучения. Воспользуйтесь преимуществами интегрированной комплексной среды машинного обучения. Она включает управляемые службы для отслеживания экспериментов, обучения моделей, разработки функций и управления, а также обслуживания функций и моделей.

Обратная связь

Были ли сведения на этой странице полезными?