Что такое хранилище данных в Azure Databricks?
Хранение данных относится к сбору и хранению данных из нескольких источников, что позволяет быстро получать доступ к бизнес-аналитике и отчетности. В этой статье содержатся основные понятия для создания хранилища данных в озере данных.
Хранение данных в озерном доме
Архитектура lakehouse и Databricks SQL позволяют создавать облачные хранилища данных в озера данных. Используя знакомые структуры данных, отношения и средства управления, вы можете моделировать высокопроизводительное, экономичное хранилище данных, которое работает непосредственно в озере данных. Дополнительные сведения см. в разделе "Что такое озера данных"?
Как и в случае с традиционным хранилищем данных, вы моделиируете данные в соответствии с бизнес-требованиями, а затем обслуживаете их конечным пользователям для аналитики и отчетов. В отличие от традиционного хранилища данных, можно избежать разведения данных бизнес-аналитики или создания избыточных копий, которые быстро становятся устаревшими.
Создание хранилища данных в lakehouse позволяет перенести все данные в одну систему и воспользоваться преимуществами таких функций, как каталог Unity и Delta Lake.
Каталог Unity добавляет единую модель управления, чтобы обеспечить безопасность и аудит доступа к данным и предоставить сведения о происхождении в подчиненных таблицах. Delta Lake добавляет транзакции ACID и эволюцию схемы, среди других мощных средств для обеспечения надежности, масштабирования и высокого качества данных.
Что такое Databricks SQL?
Примечание.
Databricks SQL Serverless недоступна в Azure Для Китая. Databricks SQL недоступна в Azure для государственных организаций регионах.
Databricks SQL — это коллекция служб, которые приносят возможности хранения данных и производительность в существующие озера данных. Databricks SQL поддерживает открытые форматы и стандартный SQL ANSI. Редактор SQL на платформе и средства мониторинга позволяют участникам команды сотрудничать с другими пользователями Databricks непосредственно в рабочей области. Databricks SQL также интегрируется с различными инструментами, чтобы аналитики могли создавать запросы и панели мониторинга в своих любимых средах без настройки новой платформы.
Databricks SQL предоставляет общие вычислительные ресурсы, выполняемые в таблицах в lakehouse. Databricks SQL поддерживается хранилищами SQL, ранее называемыми конечными точками SQL, предлагая масштабируемые вычислительные ресурсы SQL, отложенные от хранилища.
Дополнительные сведения о параметрах и параметрах хранилища SQL см. в статье "Подключение к хранилищу SQL".
Databricks SQL интегрируется с каталогом Unity, чтобы можно было обнаруживать, проверять и управлять ресурсами данных из одного места. Дополнительные сведения см. в разделе "Что такое каталог Unity"
Моделирование данных в Azure Databricks
Lakehouse поддерживает различные стили моделирования. На следующем рисунке показано, как данные курируются и моделироваются по мере перемещения по разным слоям озера.
Архитектура медальона
Архитектура медальона — это шаблон проектирования данных, описывающий ряд добавочных слоев данных, которые обеспечивают базовую структуру в lakehouse. Бронзовые, серебряные и золотые слои свидетельствуют о повышении качества данных на каждом уровне с золотом, представляющим наивысшее качество. Дополнительные сведения см. в разделе "Что такое архитектура medallion lakehouse?".
В озерном доме каждый слой может содержать одну или несколько таблиц. Хранилище данных моделиируется на серебряном слое и передает специализированные киоски данных на золотом слое.
Бронзовый слой
Данные могут входить в озеро в любом формате и с помощью любого сочетания пакетных или паровых транзакций. Бронзовый слой предоставляет целевое пространство для всех необработанных данных в исходном формате. Эти данные преобразуются в таблицы Delta.
Серебряный слой
Серебряный слой объединяет данные из разных источников. В рамках бизнеса, в котором основное внимание уделяется приложениям для обработки и машинного обучения и обработки и анализа данных, вы начинаете курировать значимые ресурсы данных. Этот процесс часто отмечается акцентом на скорости и гибкости.
Серебряный слой также позволяет тщательно интегрировать данные из разных источников для создания хранилища данных в соответствии с существующими бизнес-процессами. Часто эти данные соответствуют модели третьего нормального типа (3NF) или Data Vault. Указание ограничений первичного и внешнего ключа позволяет конечным пользователям понимать связи таблиц при использовании каталога Unity. Хранилище данных должно служить единственным источником истины для ваших киосков данных.
Само хранилище данных — это схема по записи и атомарная. Он оптимизирован для изменения, поэтому вы можете быстро изменить хранилище данных в соответствии с текущими потребностями при изменении или развитии бизнес-процессов.
Золотой слой
Золотой слой — это слой презентации, который может содержать один или несколько мартов данных. Часто метрики данных представляют собой трехмерные модели в виде набора связанных таблиц, которые фиксируют определенную бизнес-перспективу.
Золотой слой также содержит песочницы отдела и обработки и анализа данных, чтобы обеспечить самостоятельную аналитику и обработку и обработку данных на предприятии. Предоставление этих песочниц и собственных отдельных вычислительных кластеров запрещает группам бизнеса создавать копии данных за пределами lakehouse.
Следующий шаг
Дополнительные сведения о принципах и рекомендациях по реализации и эксплуатации lakehouse с помощью Databricks см. в статье "Общие сведения о хорошо спроектированном озере данных".