Что такое разностные вещи в Azure Databricks?

В этой статье приведены общие сведения о технологиях с фирменной фирменной символией Delta в Azure Databricks. Delta относится к технологиям, связанным с проектом Delta Lake открытый код или в ней.

В этой статье приведены ответы:

  • Что такое технологии Delta в Azure Databricks?
  • Что они делают? Или что они используют для?
  • Как они связаны друг с другом и отличаются друг от друга?

Для чего используются разностные вещи?

Delta — это термин, представленный с Delta Lake, основой для хранения данных и таблиц в databricks lakehouse. Delta Lake была задумана как единая система управления данными для обработки транзакционных транзакций в реальном времени и пакетных больших данных, расширяя файлы данных Parquet с помощью файлового журнала транзакций для транзакций ACID и масштабируемой обработки метаданных.

Delta Lake: управление данными ОС для lakehouse

Delta Lake — это уровень хранения с открытым исходным кодом, который обеспечивает надежность к озерам данных путем добавления уровня хранилища транзакций на основе данных, хранящихся в облачном хранилище (в AWS S3, служба хранилища Azure и GCS). Он позволяет использовать транзакции ACID, управление версиями данных и возможности отката. Он позволяет обрабатывать как пакетные, так и потоковые данные унифицированным способом.

Разностные таблицы основаны на этом уровне хранилища и предоставляют абстракцию таблиц, что упрощает работу с крупномасштабными структурированными данными с помощью SQL и API кадра данных.

Разностные таблицы: архитектура таблицы данных по умолчанию

Разностная таблица — это формат таблицы данных по умолчанию в Azure Databricks и является функцией платформы данных Delta Lake открытый код. Разностные таблицы обычно используются для озер данных, где данные передаются через потоковую передачу или в больших пакетах.

См.

Разностные динамические таблицы: конвейеры данных

Разностные динамические таблицы управляют потоком данных между многими таблицами Delta, что упрощает работу инженеров по обработке и управлению данными. Конвейер — это основная единица выполнения для разностных динамических таблиц. Delta Live Tables предлагает декларативную разработку конвейеров, улучшенную надежность данных и производственные операции в облаке. Пользователи могут выполнять как пакетные, так и потоковые операции в одной таблице, а данные сразу же доступны для запроса. Вы определяете преобразования, выполняемые с данными, а платформа "Разностные динамические таблицы" управляет оркестрацией задач, администрированием кластеров, мониторингом, качеством данных и обработкой ошибок. Расширенные автомасштабирование таблиц Delta Live могут обрабатывать рабочие нагрузки потоковой передачи, которые являются острыми и непредсказуемыми.

Ознакомьтесь с руководством по разностным динамическим таблицам.

Разностные таблицы и разностные динамические таблицы

Разностная таблица — это способ хранения данных в таблицах, а разностные динамические таблицы позволяют описать, как потоки данных между этими таблицами декларативно. Разностные динамические таблицы — это декларативная платформа, которая управляет множеством разностных таблиц, создавая их и сохраняя их в актуальном состоянии. Короче говоря, разностные таблицы — это архитектура таблицы данных, а Delta Live Table — это платформа конвейера данных.

Delta: Open Source или собственный?

Преимущество платформы Azure Databricks заключается в том, что она не блокирует клиентов в собственные инструменты: большая часть технологии работает с помощью открытый код проектов, в которых Azure Databricks участвует.

Примеры проектов Delta OSS:

  • Проект Delta Lake: хранилище с открытым кодом для lakehouse.
  • Протокол разностного общего доступа: открытый протокол для безопасного общего доступа к данным.

Delta Live Tables — это собственная платформа в Azure Databricks.

Что такое другие функции Delta в Azure Databricks?

Ниже приведены описания других функций, которые включают Delta в их имя.

Разностный общий доступ

Открытый стандарт для безопасного общего доступа к данным, Delta Sharing позволяет совместно использовать данные между организациями независимо от их вычислительной платформы.

Подсистема delta

Оптимизатор запросов для больших данных, использующий технологию Delta Lake открытый код, включенную в Databricks. Подсистема delta оптимизирует производительность операций Spark SQL, Databricks SQL и DataFrame путем отправки вычислений в данные.

Журнал транзакций Delta Lake (AKA DeltaLogs)

Один источник истины отслеживания всех изменений, которые пользователи вносят в таблицу и механизм, с помощью которого Delta Lake гарантирует атомарность. См. протокол журнала транзакций Delta на сайте GitHub.

Журнал транзакций является ключевым для понимания Delta Lake, так как это общий поток, который проходит через многие из наиболее важных функций:

  • Транзакции ACID
  • Обработка масштабируемых метаданных
  • Переход по времени
  • И многое другое.