Введение
Azure Databricks — это облачная платформа данных, которая объединяет лучшие возможности проектирования данных, обработки и анализа данных и машинного обучения в единой единой рабочей области. Созданная на основе Apache Spark, позволяет организациям легко обрабатывать, анализировать и визуализировать большие объемы данных в реальном времени.
Благодаря подключению к широкому спектру источников данных — от поставщиков облачных служб, таких как База данных SQL Azure, Amazon S3 и Google Cloud Storage, к корпоративным системам, таким как SAP и Oracle— Azure Databricks, позволяет легко интегрировать и преобразовать данные из любого места.
После приема данных команды по продажам, маркетингу, операциям, финансам, персоналу и устойчивости могут использовать Databricks для расширенной аналитики, машинного обучения, бизнес-аналитики и аналитики на основе искусственного интеллекта.
В основном Azure Databricks помогает организациям:
- Интеграция данных из нескольких источников
- Инженер преобразует необработанные данные в пригодные для использования форматы
- Эффективное хранение данных и управление ими с помощью системы управления и безопасности
- Применение аналитики в режиме реального времени, машинного обучения и моделей ИИ
- Повышение качества бизнес-решений и результатов
Data Lakehouse
Озеро данных — это подход к управлению данными, который объединяет сильные стороны как озер данных, так и хранилищ данных. Она предлагает масштабируемое хранилище и обработку, позволяя организациям обрабатывать различные рабочие нагрузки, такие как машинное обучение и бизнес-аналитика, без использования отдельных, отключенных систем. Благодаря централизации данных, архитектура lakehouse поддерживает единый источник истины, сокращает повторяющиеся затраты и гарантирует, что информация остается актуальной.
Многие лейкхаусы следуют многоуровневой схеме проектирования, где данные постепенно улучшаются, обогащены и уточнены по мере перехода через различные этапы обработки. Этот слоёный подход, часто называемый архитектурой медальона, организует данные в последовательные этапы, которые основываются друг на друге, что облегчает управление и эффективное использование.
Databricks lakehouse использует две ключевые технологии:
- Delta Lake: оптимизированный уровень хранения, поддерживающий транзакции ACID и принудительное применение схемы.
- Каталог Unity: унифицированное, точное решение для управления данными и искусственным интеллектом.