Проектирование решения для интеграции и анализа данных с помощью Azure Databricks
Azure Databricks — это полностью управляемая облачная платформа больших данных и Машинного обучения, которая позволяет разработчикам ускорить внедрение искусственного интеллекта и инноваций. Azure Databricks предоставляет команды по обработке и проектированию данных с одной платформой для обработки больших данных и Машинное обучение. Платформа Apache Spark под управлением Azure Databricks упрощает выполнение крупномасштабных рабочих нагрузок Spark.
Сведения о Azure Databricks
Azure Databricks полностью основан на Apache Spark, и это отличный инструмент для пользователей, которые уже знакомы с платформой кластерных вычислений с открытым исходным кодом. Databricks предназначен специально для обработки больших данных. Специалисты по обработке и анализу данных могут воспользоваться встроенным базовым API для основных языков, таких как SQL, Java, Python, R и Scala.
Azure Databricks имеет плоскость управления и плоскость данных:
- Плоскость управления: размещает задания Databricks, записные книжки с результатами запроса и диспетчер кластера. Плоскость управления также содержит веб-приложение, хранилище метаданных hive и списки управления доступом безопасности (ACL) и сеансы пользователей. Корпорация Майкрософт управляет этими компонентами в сотрудничестве с Azure Databricks.
- Плоскость данных: содержит все кластеры среды выполнения Azure Databricks, размещенные в рабочей области. Вся обработка и хранение данных осуществляется в рамках клиентской подписки. Обработка данных никогда не выполняется в управляемой корпорацией Майкрософт или Databricks подписке.
Azure Databricks предлагает три среды для разработки приложений с интенсивными данными.
- Databricks SQL: Sql Azure Databricks предоставляет простую платформу для аналитиков, которые хотят выполнять запросы SQL в их озере данных. Вы можете создать несколько типов визуализаций для изучения результатов запроса с разных перспектив, а также создания и совместного использования панелей мониторинга.
- Databricks Обработка и анализ данных и инженеров: Azure Databricks Обработка и анализ данных & Engineering — это интерактивная рабочая область, которая обеспечивает совместную работу между инженерами данных, специалистами по обработке и анализу данных и инженерами машинного обучения. Для конвейера больших данных данные (необработанные или структурированные) передаются в Azure через Фабрика данных Azure в пакетах или передаются практически в режиме реального времени с помощью Apache Kafka, Центры событий Azure или Центр Интернета вещей Azure. Данные приземляется в озере данных для долгосрочного хранения в Хранилище BLOB-объектов Azure или Azure Data Lake Storage. В рамках рабочего процесса аналитики используйте Azure Databricks для чтения данных из нескольких источников данных и превратите их в прорывные аналитические сведения с помощью Spark.
- Databricks Машинное обучение: Azure Databricks Машинное обучение — это интегрированная сквозная среда машинного обучения. Она включает управляемые службы для отслеживания экспериментов, обучения моделей, разработки функций и управления, а также обслуживания функций и моделей.
Бизнес-сценарий
Давайте проанализируем сценарий для Tailwind Traders в подразделении по производству тяжелых машин. Tailwind Traders использует облачные службы Azure для своих потребностей в больших данных. Они работают как с пакетными данными, так и с потоковыми данными. В отделе используются инженеры по обработке данных, специалисты по обработке и анализу данных, которые совместно работают над тем, чтобы создавать быстрые аналитические отчеты для многих заинтересованных лиц. Чтобы выполнить требования к большим данным, вы планируете рекомендовать Azure Databricks и реализовать среду Обработка и анализ данных и инженерии.
Давайте рассмотрим, почему Azure Databricks может быть правильным выбором для удовлетворения этих требований.
- Azure Databricks предоставляет интегрированную рабочую область Аналитики на основе Apache Spark, которая позволяет совместно использовать совместную работу между разными пользователями.
- С помощью компонентов Spark, таких как Spark SQL и кадры данных, Azure Databricks может обрабатывать структурированные данные. Он интегрируется с средствами приема данных в режиме реального времени, такими как Kafka и Flume для обработки потоковых данных.
- Безопасные возможности интеграции данных, созданные на основе Spark, позволяют объединить данные без централизации. Специалисты по обработке и анализу данных могут визуализировать данные в нескольких шагах и использовать знакомые инструменты, такие как Matplotlib, ggplot или d3.
- Среда выполнения Azure Databricks абстрагирует сложность инфраструктуры и потребность в специализированном опыте по настройке и настройке инфраструктуры данных. Пользователи могут использовать существующие навыки языков для Python, Scala и R, а также просматривать данные.
- Azure Databricks глубоко интегрируется с базами данных Azure и хранит такие хранилища, как Azure Synapse Analytics, Azure Cosmos DB, Azure Data Lake Storage и Хранилище BLOB-объектов Azure. Она поддерживает различные платформы хранения данных, которые удовлетворяют потребностям хранилища больших данных Tailwind Traders.
- Интеграция с Power BI позволяет быстро и понятно получать аналитические сведения, которые являются обязательными для Tailwind Traders.
- Azure Databricks SQL не является правильным выбором, так как он не может обрабатывать неструктурированные данные.
- Azure Databricks Машинное обучение также не является правильным выбором среды, так как машинное обучение не является обязательным в этом сценарии.
Что следует учитывать при использовании Azure Databricks
Azure Databricks можно использовать в качестве решения для нескольких сценариев. Рассмотрим, как служба может воспользоваться решением интеграции данных для Tailwind Traders.
- Рассмотрим подготовку данных для обработки и анализа данных. Создание, клонирование и изменение кластеров сложных, неструктурированных данных. Преобразуйте кластеры данных в определенные задания. Доставите результаты специалистам по обработке и анализу данных.
- Рассмотрим аналитические сведения в данных. Реализуйте Azure Databricks для создания подсистем рекомендаций, анализа оттока и обнаружения вторжений.
- Учитывайте производительность в группах данных и аналитики. Создайте среду совместной работы и общие рабочие области для инженеров данных, аналитиков и ученых. Teams могут работать вместе в жизненном цикле обработки и анализа данных с общими рабочими областями, что помогает сэкономить ценное время и ресурсы.
- Рассмотрим рабочие нагрузки больших данных. Выполните azure Data Lake и подсистему, чтобы получить лучшую производительность и надежность для рабочих нагрузок больших данных. Создание конвейеров данных с несколькими шагами без суеты.
- Рассмотрим программы машинного обучения. Воспользуйтесь преимуществами интегрированной комплексной среды машинного обучения. Она включает управляемые службы для отслеживания экспериментов, обучения моделей, разработки функций и управления, а также обслуживания функций и моделей.