Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье приведены общие сведения о технологиях с фирменной фирменной символией Delta в Azure Databricks. Delta относится к технологиям, связанным с проектом с открытым исходным кодом Delta Lake.
В этой статье приведены ответы:
- Что такое технологии Delta в Azure Databricks?
- Что они делают? Или для чего они используются?
- Как они связаны друг с другом и отличаются друг от друга?
Для чего используются дельта-объекты?
Delta — это термин, введённый вместе с Delta Lake, основой для хранения данных и таблиц в Databricks Lakehouse. Delta Lake была задумана как единая система управления данными для обработки транзакционных транзакций в реальном времени и пакетных больших данных, расширяя файлы данных Parquet с помощью файлового журнала транзакций для транзакций ACID и масштабируемой обработки метаданных.
Delta Lake: управление данными ОС для lakehouse
Delta Lake — это хранилище с открытым исходным кодом, которое обеспечивает надежность озер данных, добавляя уровень транзакционного хранения поверх данных, хранящихся в облачном хранилище (в AWS S3, Azure Storage и GCS). Он поддерживает транзакции ACID, управление версиями данных и возможности отката. Он позволяет обрабатывать как пакетные, так и потоковые данные унифицированным способом.
Delta-таблицы основаны на этом уровне хранилища и обеспечивают абстракцию таблиц, что упрощает работу с крупномасштабными структурированными данными с использованием SQL и API DataFrame.
Разностные таблицы: архитектура таблицы данных по умолчанию
Delta table является форматом таблицы данных по умолчанию в Azure Databricks и функцией платформы с открытым исходным кодом Delta Lake. Delta таблицы обычно используются для озер данных, где данные поглощаются через стриминг либо поступают большими партиями.
См.
- Быстрый старт Delta Lake: Создание таблицы
- Обновление и изменение таблиц Delta Lake.
- Класс DeltaTable: основной класс для программного взаимодействия с таблицами Delta.
Декларативные конвейеры Lakeflow: конвейеры данных
Декларативные конвейеры Lakeflow управляют потоком данных между многими таблицами Delta, значительно упрощая работу инженеров данных по разработке и управлению ETL-процессами. Конвейер — это основная единица выполнения для декларативных конвейеров Lakeflow. Декларативные конвейеры Lakeflow предлагают декларативную разработку конвейеров, улучшенную надежность данных и производственные операции в облаке. Пользователи могут выполнять как пакетные, так и потоковые операции в одной таблице, а данные сразу же доступны для запроса. Вы определяете преобразования для выполнения данных, а декларативные конвейеры Lakeflow управляют оркестрацией задач, управлением кластерами, мониторингом, качеством данных и обработкой ошибок. Расширенные функции автомасштабирования декларативных конвейеров Lakeflow могут обрабатывать потоковые рабочие нагрузки, которые являются спайковыми и непредсказуемыми.
Ознакомьтесь с руководством по декларативным конвейерам Lakeflow.
Разностные таблицы и декларативные конвейеры Lakeflow
Разностная таблица (Delta table) — это метод хранения данных в таблицах, тогда как конвейеры Lakeflow позволяют декларативно описывать, как данные перемещаются между этими таблицами. Lakeflow Declarative Pipelines — это декларативный фреймворк, который управляет множеством таблиц дельта, создавая их и поддерживая в актуальном состоянии. Короче говоря, таблицы Delta — это архитектура таблиц данных, а Lakeflow Declarative Pipelines — это платформа для создания конвейеров данных.
Delta: Open Source или собственный?
Преимущество платформы Azure Databricks заключается в том, что она не ограничивает клиентов в использовании собственных инструментов: большая часть технологии поддерживается проектами с открытым исходным кодом, к развитию которых Azure Databricks вносит вклад.
Примеры проектов Delta OSS:
- Проект Delta Lake: хранилище с открытым кодом для lakehouse.
- Протокол Delta Sharing: открытый протокол для безопасного обмена данными.
Декларативные конвейеры Lakeflow — это частный фреймворк в Azure Databricks.
Какие другие элементы Delta есть в Azure Databricks?
Ниже приведены описания других функций, которые включают Delta в их имя.
Delta обмен
Открытый стандарт для безопасного общего доступа к данным, Delta Sharing позволяет совместно использовать данные между организациями независимо от их вычислительной платформы.
Движок delta
Оптимизатор запросов для больших данных, использующий технологию Delta Lake открытый код, включенную в Databricks. Движок Delta повышает производительность Spark SQL, Databricks SQL и операций с DataFrame, перенося вычисления к данным.
Журнал транзакций Delta Lake (AKA DeltaLogs)
Единый источник истины, отслеживающий все изменения, которые пользователи вносят в таблицу, и механизм, посредством которого Delta Lake гарантирует атомарность. См. протокол журнала транзакций Delta на сайте GitHub.
Журнал транзакций является ключевым для понимания Delta Lake, так как это общий поток, который проходит через многие из наиболее важных функций:
- Транзакции ACID
- Обработка масштабируемых метаданных
- Переход по времени
- И многое другое.