Введение
Delta Lake — это разработанный Linux Foundation уровень хранения с открытым исходным кодом для Spark, который обеспечивает возможности реляционной базы данных для данных пакетной и потоковой передачи. С помощью Delta Lake можно реализовать архитектуру data lakehouse в Spark, что позволяет использовать основанную на SQL семантику обработки данных с поддержкой применения транзакций и схем. Результатом является аналитическое хранилище данных, которое предлагает множество преимуществ системы реляционной базы данных в сочетании с гибкостью хранилища файлов данных в озере данных.
В этом модуле рассматриваются следующие задачи:
- Описать основные функции и возможности Delta Lake.
- Создавать и использовать таблицы Delta Lake в пуле Spark Synapse Analytics.
- Создавать таблицы каталога Spark для данных Delta Lake.
- Использовать таблицы Delta Lake для потоковой передачи данных.
- Запрашивать таблицы Delta Lake из пула SQLSynapse Analytics.
Примечание.
Версия Delta Lake, доступная в пуле Azure Synapse Analytics, зависит от версии Spark, указанной в конфигурации пула. Сведения в этом модуле соответствуют Delta Lake версии 1.0, которая устанавливается вместе с Spark 3.1.