Введение

Завершено

Azure Databricks — это облачная платформа данных, которая объединяет лучшие возможности проектирования данных, обработки и анализа данных и машинного обучения в единой единой рабочей области. Созданная на основе Apache Spark, позволяет организациям легко обрабатывать, анализировать и визуализировать большие объемы данных в реальном времени.

Схема, на которой показан обзор Azure Databricks.

Благодаря подключению к широкому спектру источников данных — от поставщиков облачных служб, таких как База данных SQL Azure, Amazon S3 и Google Cloud Storage, к корпоративным системам, таким как SAP и Oracle— Azure Databricks, позволяет легко интегрировать и преобразовать данные из любого места.

После приема данных команды по продажам, маркетингу, операциям, финансам, персоналу и устойчивости могут использовать Databricks для расширенной аналитики, машинного обучения, бизнес-аналитики и аналитики на основе искусственного интеллекта.

В основном Azure Databricks помогает организациям:

  • Интеграция данных из нескольких источников
  • Инженер преобразует необработанные данные в пригодные для использования форматы
  • Эффективное хранение данных и управление ими с помощью системы управления и безопасности
  • Применение аналитики в режиме реального времени, машинного обучения и моделей ИИ
  • Повышение качества бизнес-решений и результатов

Data Lakehouse

Озеро данных — это подход к управлению данными, который объединяет сильные стороны как озер данных, так и хранилищ данных. Она предлагает масштабируемое хранилище и обработку, позволяя организациям обрабатывать различные рабочие нагрузки, такие как машинное обучение и бизнес-аналитика, без использования отдельных, отключенных систем. Благодаря централизации данных, архитектура lakehouse поддерживает единый источник истины, сокращает повторяющиеся затраты и гарантирует, что информация остается актуальной.

Многие лейкхаусы следуют многоуровневой схеме проектирования, где данные постепенно улучшаются, обогащены и уточнены по мере перехода через различные этапы обработки. Этот слоёный подход, часто называемый архитектурой медальона, организует данные в последовательные этапы, которые основываются друг на друге, что облегчает управление и эффективное использование.

Databricks lakehouse использует две ключевые технологии:

  • Delta Lake: оптимизированный уровень хранения, поддерживающий транзакции ACID и принудительное применение схемы.
  • Каталог Unity: унифицированное, точное решение для управления данными и искусственным интеллектом.