Поделиться через


Чтение таблиц Databricks с помощью клиентов Delta

На этой странице представлен обзор использования REST API Unity для доступа к управляемым и внешним таблицам каталога Unity из внешних клиентов Delta. Сведения о создании внешних таблиц Delta из внешних клиентов см. в разделе "Создание внешних таблиц Delta" из внешних клиентов.

Используйте каталог REST Iceberg для чтения таблиц, зарегистрированных в каталоге Unity в Azure Databricks, из поддерживаемых клиентов Iceberg, включая Apache Spark и DuckDB.

Полный список поддерживаемых интеграции см. в разделе "Интеграция каталога Unity".

Совет

Сведения о чтении данных Azure Databricks с помощью Microsoft Fabric см. в статье Использование Microsoft Fabric для чтения данных, зарегистрированных в каталоге Unity.

Чтение и запись с помощью REST API Unity

REST API Unity предоставляет внешним клиентам доступ на чтение к таблицам, зарегистрированным в каталоге Unity. Некоторые клиенты также поддерживают создание таблиц и запись в существующие таблицы.

Настройте доступ с помощью конечной точки /api/2.1/unity-catalog.

Требования

Azure Databricks поддерживает доступ REST API Unity к таблицам в рамках каталога Unity. Для использования этих конечных точек необходимо включить каталог Unity в рабочей области. Для чтения REST API Unity доступны следующие типы таблиц:

  • Таблицы, управляемые каталогом Unity.
  • Внешние таблицы каталога Unity.

Чтобы настроить доступ для чтения объектов Databricks из клиентов Delta с использованием Unity REST API, следует выполнить следующие шаги.

Чтение таблиц Delta с помощью Apache Spark

Для чтения управляемых и внешних таблиц Delta каталога Unity с помощью Apache Spark требуется следующая конфигурация:

"spark.sql.extensions": "io.delta.sql.DeltaSparkSessionExtension",
"spark.sql.catalog.spark_catalog": "io.unitycatalog.spark.UCSingleCatalog",
"spark.sql.catalog.<uc-catalog-name>": "io.unitycatalog.spark.UCSingleCatalog",
"spark.sql.catalog.<uc-catalog-name>.uri": "<workspace-url>/api/2.1/unity-catalog",
"spark.sql.catalog.<uc-catalog-name>.token": "<token>",
"spark.sql.defaultCatalog": "<uc-catalog-name>",
"spark.jars.packages": "io.delta:delta-spark_2.12:3.2.1,io.unitycatalog:unitycatalog-spark_2.12:0.2.0,org.apache.hadoop:hadoop-azure:3.3.6"

Замените следующие переменные:

  • <uc-catalog-name>: имя каталога в каталоге Unity, содержащего таблицы.
  • <workspace-url>: URL-адрес рабочей области Azure Databricks.
  • <token>: маркер PAT для субъекта, настраивающего интеграцию.

Замечание

Приведенные выше версии пакета являются текущими по состоянию на последнее обновление этой страницы. Более новые версии могут быть доступны. Убедитесь, что версии пакетов совместимы с версией среды выполнения Databricks и версией Spark.

Дополнительные сведения о настройке Apache Spark для облачного хранилища объектов см. в документации Unity Catalog OSS.