Проектирование решения для интеграции и анализа данных с помощью Azure Databricks

Завершено

Azure Databricks — это полностью управляемая облачная платформа больших данных и Машинного обучения, которая позволяет разработчикам ускорить внедрение искусственного интеллекта и инноваций. Azure Databricks предоставляет команды по обработке и проектированию данных с одной платформой для обработки больших данных и Машинное обучение. Платформа Apache Spark под управлением Azure Databricks упрощает выполнение крупномасштабных рабочих нагрузок Spark.

Сведения о Azure Databricks

Azure Databricks полностью основан на Apache Spark, и это отличный инструмент для пользователей, которые уже знакомы с платформой кластерных вычислений с открытым исходным кодом. Databricks предназначен специально для обработки больших данных. Специалисты по обработке и анализу данных могут воспользоваться встроенным базовым API для основных языков, таких как SQL, Java, Python, R и Scala.

Azure Databricks имеет плоскость управления и плоскость данных:

  • Плоскость управления: размещает задания Databricks, записные книжки с результатами запроса и диспетчер кластера. Плоскость управления также содержит веб-приложение, хранилище метаданных hive и списки управления доступом безопасности (ACL) и сеансы пользователей. Корпорация Майкрософт управляет этими компонентами в сотрудничестве с Azure Databricks.
  • Плоскость данных: содержит все кластеры среды выполнения Azure Databricks, размещенные в рабочей области. Вся обработка и хранение данных осуществляется в рамках клиентской подписки. Обработка данных никогда не выполняется в управляемой корпорацией Майкрософт или Databricks подписке.

Azure Databricks предлагает три среды для разработки приложений с интенсивными данными.

  • Databricks SQL: Sql Azure Databricks предоставляет простую платформу для аналитиков, которые хотят выполнять запросы SQL в их озере данных. Вы можете создать несколько типов визуализаций для изучения результатов запроса с разных перспектив, а также создания и совместного использования панелей мониторинга.
  • Databricks Обработка и анализ данных и инженеров: Azure Databricks Обработка и анализ данных & Engineering — это интерактивная рабочая область, которая обеспечивает совместную работу между инженерами данных, специалистами по обработке и анализу данных и инженерами машинного обучения. Для конвейера больших данных данные (необработанные или структурированные) передаются в Azure через Фабрика данных Azure в пакетах или передаются практически в режиме реального времени с помощью Apache Kafka, Центры событий Azure или Центр Интернета вещей Azure. Данные приземляется в озере данных для долгосрочного хранения в Хранилище BLOB-объектов Azure или Azure Data Lake Storage. В рамках рабочего процесса аналитики используйте Azure Databricks для чтения данных из нескольких источников данных и превратите их в прорывные аналитические сведения с помощью Spark.
  • Databricks Машинное обучение: Azure Databricks Машинное обучение — это интегрированная сквозная среда машинного обучения. Она включает управляемые службы для отслеживания экспериментов, обучения моделей, разработки функций и управления, а также обслуживания функций и моделей.

Бизнес-сценарий

Давайте проанализируем сценарий для Tailwind Traders в подразделении по производству тяжелых машин. Tailwind Traders использует облачные службы Azure для своих потребностей в больших данных. Они работают как с пакетными данными, так и с потоковыми данными. В отделе используются инженеры по обработке данных, специалисты по обработке и анализу данных, которые совместно работают над тем, чтобы создавать быстрые аналитические отчеты для многих заинтересованных лиц. Чтобы выполнить требования к большим данным, вы планируете рекомендовать Azure Databricks и реализовать среду Обработка и анализ данных и инженерии.

Давайте рассмотрим, почему Azure Databricks может быть правильным выбором для удовлетворения этих требований.

  • Azure Databricks предоставляет интегрированную рабочую область Аналитики на основе Apache Spark, которая позволяет совместно использовать совместную работу между разными пользователями.
  • С помощью компонентов Spark, таких как Spark SQL и кадры данных, Azure Databricks может обрабатывать структурированные данные. Он интегрируется с средствами приема данных в режиме реального времени, такими как Kafka и Flume для обработки потоковых данных.
  • Безопасные возможности интеграции данных, созданные на основе Spark, позволяют объединить данные без централизации. Специалисты по обработке и анализу данных могут визуализировать данные в нескольких шагах и использовать знакомые инструменты, такие как Matplotlib, ggplot или d3.
  • Среда выполнения Azure Databricks абстрагирует сложность инфраструктуры и потребность в специализированном опыте по настройке и настройке инфраструктуры данных. Пользователи могут использовать существующие навыки языков для Python, Scala и R, а также просматривать данные.
  • Azure Databricks глубоко интегрируется с базами данных Azure и хранит такие хранилища, как Azure Synapse Analytics, Azure Cosmos DB, Azure Data Lake Storage и Хранилище BLOB-объектов Azure. Она поддерживает различные платформы хранения данных, которые удовлетворяют потребностям хранилища больших данных Tailwind Traders.
  • Интеграция с Power BI позволяет быстро и понятно получать аналитические сведения, которые являются обязательными для Tailwind Traders.
  • Azure Databricks SQL не является правильным выбором, так как он не может обрабатывать неструктурированные данные.
  • Azure Databricks Машинное обучение также не является правильным выбором среды, так как машинное обучение не является обязательным в этом сценарии.

Что следует учитывать при использовании Azure Databricks

Azure Databricks можно использовать в качестве решения для нескольких сценариев. Рассмотрим, как служба может воспользоваться решением интеграции данных для Tailwind Traders.

  • Рассмотрим подготовку данных для обработки и анализа данных. Создание, клонирование и изменение кластеров сложных, неструктурированных данных. Преобразуйте кластеры данных в определенные задания. Доставите результаты специалистам по обработке и анализу данных.
  • Рассмотрим аналитические сведения в данных. Реализуйте Azure Databricks для создания подсистем рекомендаций, анализа оттока и обнаружения вторжений.
  • Учитывайте производительность в группах данных и аналитики. Создайте среду совместной работы и общие рабочие области для инженеров данных, аналитиков и ученых. Teams могут работать вместе в жизненном цикле обработки и анализа данных с общими рабочими областями, что помогает сэкономить ценное время и ресурсы.
  • Рассмотрим рабочие нагрузки больших данных. Выполните azure Data Lake и подсистему, чтобы получить лучшую производительность и надежность для рабочих нагрузок больших данных. Создание конвейеров данных с несколькими шагами без суеты.
  • Рассмотрим программы машинного обучения. Воспользуйтесь преимуществами интегрированной комплексной среды машинного обучения. Она включает управляемые службы для отслеживания экспериментов, обучения моделей, разработки функций и управления, а также обслуживания функций и моделей.