Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
На этой странице описывается, как считывать данные, которыми вы поделились с помощью протокола общего доступа Delta Sharing с маркерами носителя. В ней содержатся инструкции по чтению общих данных с помощью следующих средств:
- Databricks
- Apache Spark
- Панды
- Power BI
- Табло
В этой модели открытого доступа вы используете файл учетных данных, который поставщик данных делится с членом вашей команды, чтобы получить безопасный доступ на чтение к общим данным. Доступ сохраняется до тех пор, пока учетные данные действительны, и поставщик продолжает предоставлять общий доступ к данным. Поставщики управляют истечением срока действия учетных данных и процессом их обновления. Обновления данных доступны практически в режиме реального времени. Вы можете считывать и создавать копии общих данных, но изменить исходные данные нельзя.
Примечание.
Если вам предоставили доступ к данным с помощью Databricks-to-Databricks Delta Sharing, вам не нужен файл учетных данных для доступа к данным, и эта статья не применяется к вам. Инструкции см. в разделе «Чтение данных с помощью Databricks-to-Databricks Delta Sharing (для получателей)».
В следующих разделах описывается, как использовать Azure Databricks, Apache Spark, pandas и Power BI для доступа к общим данным и считывания общих данных с помощью файла учетных данных. Полный список соединителей Delta Sharing и сведения об их использовании см. в документации открытого исходного кода Delta Sharing. При возникновении проблем с доступом к общим данным обратитесь к поставщику данных.
Прежде чем начать
Член вашей команды должен скачать файл учетных данных, к которым предоставлен доступ поставщику данных. См. Получите доступ в модели открытого обмена.
Они должны использовать безопасный канал, чтобы поделиться с вами этим файлом или его местоположением.
Azure Databricks: чтение данных из общего доступа с помощью открытых коннекторов для совместного использования
В этом разделе описывается, как импортировать провайдера и как запрашивать общие данные в обозревателе каталогов или в записной книжке Python.
Если рабочая область Azure Databricks включена для каталога Unity, используйте пользовательский интерфейс поставщика импорта в обозревателе каталогов. Вы можете выполнить следующие действия, не сохраняя или указав файл учетных данных:
- Создайте каталоги из общих папок с помощью кнопки.
- Используйте элементы управления доступом к каталогу Unity, чтобы предоставить доступ к общим таблицам.
- Запрос общих данных с помощью стандартного синтаксиса каталога Unity.
Если рабочая область Azure Databricks не активирована для Unity Catalog, используйте инструкции в блокноте Python как образец.
Обозреватель каталогов
разрешения, необходимые: администратор хранилища метаданных или пользователь, имеющий права CREATE PROVIDER
и USE PROVIDER
для хранилища метаданных каталога Unity.
В рабочей области Azure Databricks щелкните
Каталог , чтобы открыть обозреватель каталогов.
В верхней части области каталога щелкните
шестеренки и выберите Delta Sharing.
Кроме того, на странице Быстрый доступ нажмите кнопку Delta Sharing>.
На вкладке "Общий доступ со мной" нажмите кнопку "Импорт данных".
Введите имя поставщика.
Имя не может содержать пробелы.
Загрузите файл учетных данных, который поставщик поделился с вами.
Многие поставщики имеют собственные сети Delta Sharing, от которых можно получать доли. Дополнительные сведения см. в разделе конфигурации для конкретного поставщика.
(Необязательно) Введите комментарий.
Нажмите кнопку Импорт.
Создайте каталоги из общих данных.
На вкладке Акции щелкните Создать каталог в строке Акции.
Сведения об использовании SQL или интерфейса командной строки Databricks для создания каталога из общего ресурса см. в статье Создание каталога изобщего ресурса.
Предоставьте доступ к каталогам.
См. Как сделать общие данные доступными для моей команды? и Управлять разрешениями для схем, таблиц и томов в каталоге Delta Sharing.
Считывайте данные из совместно используемых объектов точно так же, как и из любых объектов данных, зарегистрированных в каталоге Unity.
Дополнительные сведения и примеры см. в разделе Доступ к данным в общей таблице или томе.
Питон
В этом разделе описывается, как использовать открытый соединитель общего доступа для доступа к общим данным с помощью записной книжки в рабочей области Azure Databricks. Вы или другой член вашей команды храните файл учетных данных в Azure Databricks, а затем используете его для проверки подлинности в учетной записи Azure Databricks поставщика данных и считываете данные, к которым предоставлен доступ поставщику данных.
Примечание.
В этих инструкциях предполагается, что рабочая область Azure Databricks не поддерживает Unity Catalog. Если вы используете Unity Catalog, вам не нужно указывать на файл учетных данных при чтении из объекта обмена. Вы можете читать из общих таблиц так же, как и из любой таблицы, зарегистрированной в каталоге Unity. Databricks рекомендует использовать пользовательский интерфейс поставщика импорта в обозревателе каталогов вместо приведенных здесь инструкций.
Сначала используйте записную книжку Python в Azure Databricks для хранения файла учетных данных, чтобы пользователи в вашей команде могли получить доступ к общим данным.
В текстовом редакторе откройте файл учетных данных.
В вашей рабочей области Azure Databricks нажмите кнопку
"Создать новую записную книжку". - Введите имя.
- Задайте язык по умолчанию для записной книжки в Python.
- Выберите кластер для добавления к блокноту.
- Нажмите кнопку Создать.
Записная книжка откроется в редакторе записных книжек.
Чтобы с помощью Python или pandas получить доступ к общим данным, установите Python-коннектор для Delta Sharing. В редакторе записной книжки вставьте следующую команду:
%sh pip install delta-sharing
Запустите ячейку.
Библиотека
delta-sharing
Python устанавливается в кластере, если она еще не установлена.В новой ячейке вставьте следующую команду, которая передает содержимое файла учетных данных в папку в DBFS.
Замените переменные следующим образом:
<dbfs-path>
: указывает путь к папке, в которую следует сохранить файл учетных данных.<credential-file-contents>
: содержимое файла учетных данных. Это не путь к файлу, а скопированное содержимое файла.Файл учетных данных содержит JSON, определяющий три поля:
shareCredentialsVersion
,endpoint
иbearerToken
.%scala dbutils.fs.put("<dbfs-path>/config.share",""" <credential-file-contents> """)
Запустите ячейку.
После отправки файла учетных данных эту ячейку можно удалить. Все пользователи рабочей области могут считывать файл учетных данных из DBFS, а файл учетных данных доступен в DBFS во всех кластерах и хранилищах SQL в рабочей области. Чтобы удалить ячейку, щелкните x в меню
, расположенном справа.
Теперь, когда файл учетных данных хранится, можно использовать записную книжку для перечисления и чтения общих таблиц.
С помощью Python получите список таблиц в общем доступе.
В новой ячейке вставьте следующую команду. Замените
<dbfs-path>
на созданный выше путь.При выполнении кода Python считывает файл учетных данных из DBFS в кластере. Доступ к данным, хранящимся в DBFS в пути
/dbfs/
.import delta_sharing client = delta_sharing.SharingClient(f"/dbfs/<dbfs-path>/config.share") client.list_all_tables()
Запустите ячейку.
Результатом является массив таблиц, а также метаданные для каждой таблицы. В следующих выходных данных показаны две таблицы:
Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]
Если выходные данные пусты или не содержат ожидаемые таблицы, обратитесь к поставщику данных.
Сделать запрос к общей таблице.
Использование Scala:
В новой ячейке вставьте следующую команду. При выполнении кода файл учетных данных считывается из DBFS через виртуальную машину Java.
Замените переменные следующим образом:
-
<profile-path>
: путь к файлу учетных данных в DBFS. Например,/<dbfs-path>/config.share
. -
<share-name>
: значениеshare=
для таблицы. -
<schema-name>
: значениеschema=
для таблицы. -
<table-name>
: значениеname=
для таблицы.
%scala spark.read.format("deltaSharing") .load("<profile-path>#<share-name>.<schema-name>.<table-name>").limit(10);
Запустите ячейку. Каждый раз при загрузке общей таблицы отображаются новые данные из источника.
-
Использование SQL:
Чтобы запросить данные с помощью SQL, создайте локальную таблицу в рабочей области из общей таблицы, а затем запросите локальную таблицу. Общие данные не хранятся и не кэшируются в локальной таблице. Каждый раз при запросе локальной таблицы отображается текущее состояние общих данных.
В новой ячейке вставьте следующую команду.
Замените переменные следующим образом:
-
<local-table-name>
: имя локальной таблицы. -
<profile-path>
: расположение файла учетных данных. -
<share-name>
: значениеshare=
для таблицы. -
<schema-name>
: значениеschema=
для таблицы. -
<table-name>
: значениеname=
для таблицы.
%sql DROP TABLE IF EXISTS table_name; CREATE TABLE <local-table-name> USING deltaSharing LOCATION "<profile-path>#<share-name>.<schema-name>.<table-name>"; SELECT * FROM <local-table-name> LIMIT 10;
При выполнении команды запрос к общим данным осуществляется напрямую. В качестве теста выполняется запрос к таблице и возвращаются первые 10 результатов.
-
Если выходные данные пусты или не содержат ожидаемые данные, обратитесь к поставщику данных.
Apache Spark: чтение общих данных
Выполните следующие действия, чтобы получить доступ к общим данным с помощью Spark 3.x или более поздней версии.
В этих инструкциях предполагается, что у вас есть доступ к файлу учетных данных, который был предоставлен поставщиком данных. См. Получите доступ в модели открытого обмена.
Примечание.
Если вы используете Spark в рабочей области Azure Databricks, где активирован Unity Catalog, и использовали пользовательский интерфейс импорта для импорта поставщика и передачи, инструкции в этом разделе не применяются к вам. Доступ к общим таблицам можно получить так же, как и к любой другой таблице, зарегистрированной в каталоге Unity. Не нужно устанавливать соединитель Python delta-sharing
или указать путь к файлу учетных данных. См. Azure Databricks: чтение общих данных с использованием открытых коннекторов для совместного доступа.
Установите коннекторы Delta Sharing для Python и Spark.
Чтобы получить доступ к метаданным, связанным с общими данными, например списком таблиц, которыми вы поделились, выполните указанные ниже действия. В этом примере используется Python.
Установите коннектор Python для delta-sharing:
pip install delta-sharing
Установите соединитель Apache Spark.
Список совместно используемых таблиц с помощью Spark
Перечислите таблицы в общем доступе. В следующем примере замените <profile-path>
на расположение файла учетных данных.
import delta_sharing
client = delta_sharing.SharingClient(f"<profile-path>/config.share")
client.list_all_tables()
Результатом является массив таблиц, а также метаданные для каждой таблицы. В следующих выходных данных показаны две таблицы:
Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]
Если выходные данные пусты или не содержат ожидаемые таблицы, обратитесь к поставщику данных.
Доступ к общим данным с помощью Spark
Выполните следующие действия, заменив эти переменные:
-
<profile-path>
: расположение файла учетных данных. -
<share-name>
: значениеshare=
для таблицы. -
<schema-name>
: значениеschema=
для таблицы. -
<table-name>
: значениеname=
для таблицы. -
<version-as-of>
: необязательно. Версия таблицы для загрузки данных. Работает только в том случае, если поставщик данных предоставляет общий доступ к журналу таблицы. Требуетсяdelta-sharing-spark
0.5.0 или более поздней версии. -
<timestamp-as-of>
: необязательно. Загрузите данные из версии, существующей до заданной отметки времени или на момент этой отметки. Работает только в том случае, если поставщик данных предоставляет общий доступ к журналу таблицы. Требуетсяdelta-sharing-spark
0.6.0 или более поздней версии.
Питон
delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", version=<version-as-of>)
spark.read.format("deltaSharing")\
.option("versionAsOf", <version-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))
delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", timestamp=<timestamp-as-of>)
spark.read.format("deltaSharing")\
.option("timestampAsOf", <timestamp-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))
язык программирования Scala
Выполните следующие действия, заменив эти переменные:
-
<profile-path>
: расположение файла учетных данных. -
<share-name>
: значениеshare=
для таблицы. -
<schema-name>
: значениеschema=
для таблицы. -
<table-name>
: значениеname=
для таблицы. -
<version-as-of>
: необязательно. Версия таблицы для загрузки данных. Работает только в том случае, если поставщик данных предоставляет общий доступ к журналу таблицы. Требуетсяdelta-sharing-spark
0.5.0 или более поздней версии. -
<timestamp-as-of>
: необязательно. Загрузите данные из версии, существующей до заданной отметки времени или на момент этой отметки. Работает только в том случае, если поставщик данных предоставляет общий доступ к журналу таблицы. Требуетсяdelta-sharing-spark
0.6.0 или более поздней версии.
spark.read.format("deltaSharing")
.option("versionAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)
spark.read.format("deltaSharing")
.option("timestampAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)
Доступ к общему потоку данных об изменениях с помощью Spark
Если история таблицы предоставлена вам, и канал изменения данных (CDF) включен для исходной таблицы, вы можете получить доступ к каналу изменения данных, выполнив следующие действия, заменив эти переменные. Требуется delta-sharing-spark
0.5.0 или более поздней версии.
Необходимо указать только один и только один начальный параметр.
-
<profile-path>
: расположение файла учетных данных. -
<share-name>
: значениеshare=
для таблицы. -
<schema-name>
: значениеschema=
для таблицы. -
<table-name>
: значениеname=
для таблицы. -
<starting-version>
: необязательно. Начальная версия запроса включительно. Укажите значение long. -
<ending-version>
: необязательно. Конечная версия запроса включительно. Если конечная версия не указана, API использует последнюю версию таблицы. -
<starting-timestamp>
: необязательно. Начальная метка времени запроса преобразуется в версию, созданную на момент, равный этой метке времени или позже. Укажите строку в форматеyyyy-mm-dd hh:mm:ss[.fffffffff]
. -
<ending-timestamp>
: необязательно. Конечная метка времени запроса преобразуется в версию, созданную ранее или равной этой метке времени. Укажите строку в форматеyyyy-mm-dd hh:mm:ss[.fffffffff]
Питон
delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
starting_version=<starting-version>,
ending_version=<ending-version>)
delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
starting_timestamp=<starting-timestamp>,
ending_timestamp=<ending-timestamp>)
spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("statingVersion", <starting-version>)\
.option("endingVersion", <ending-version>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("startingTimestamp", <starting-timestamp>)\
.option("endingTimestamp", <ending-timestamp>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
язык программирования Scala
spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("statingVersion", <starting-version>)
.option("endingVersion", <ending-version>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("startingTimestamp", <starting-timestamp>)
.option("endingTimestamp", <ending-timestamp>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
Если выходные данные пусты или не содержат ожидаемые данные, обратитесь к поставщику данных.
Доступ к общей таблице с помощью структурированной потоковой передачи Spark
Если вам предоставили доступ к истории таблицы, вы можете напрямую читать общие данные. Требуется delta-sharing-spark
0.6.0 или более поздней версии.
Поддерживаемые параметры:
-
ignoreDeletes
: игнорировать транзакции, которые удаляют данные. -
ignoreChanges
: повторно обработать обновления, если файлы были перезаписаны в исходной таблице из-за операции изменения данных, напримерUPDATE
, (в разделахMERGE INTO
,DELETE
) илиOVERWRITE
. Неизменённые строки по-прежнему можно выдавать. Таким образом, нижестоящие потребители должны иметь возможность обрабатывать дубликаты. Удаления не распространяются вниз по потоку.ignoreChanges
включаетignoreDeletes
. Поэтому, если используетсяignoreChanges
, поток не будет нарушаться удалением или обновлением исходной таблицы. -
startingVersion
: версия разделяемой таблицы для начала. Все изменения таблицы, начиная с этой версии (включительно), будут считываться источником потоковой передачи. -
startingTimestamp
: Метка времени, с которой начать. Все изменения в таблице, зафиксированные в момент или после метки времени (включительно), считываются источником потоковой передачи. Пример:"2023-01-01 00:00:00.0"
. -
maxFilesPerTrigger
: количество новых файлов, которые следует учитывать в каждом микропакете. -
maxBytesPerTrigger
: объем данных, обрабатываемых в каждом микропакете. Этот параметр задает значение "мягкого максимума", то есть пакет обрабатывает приблизительно такой объем данных и может обработать больше, чтобы потоковый запрос продолжился в случаях, когда наименьший входной блок превышает это ограничение. -
readChangeFeed
: поток считывания читает канал обновления данных общей таблицы.
Неподдерживаемые параметры:
Trigger.availableNow
Примеры структурированных запросов потоковой передачи
язык программирования Scala
spark.readStream.format("deltaSharing")
.option("startingVersion", 0)
.option("ignoreChanges", true)
.option("maxFilesPerTrigger", 10)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
Питон
spark.readStream.format("deltaSharing")\
.option("startingVersion", 0)\
.option("ignoreDeletes", true)\
.option("maxBytesPerTrigger", 10000)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
См. также основные понятия структурированной потоковой передачи.
Чтение таблиц с включенными векторами удаления или сопоставлением столбцов
Внимание
Эта функция предоставляется в режиме общедоступной предварительной версии.
Векторы удаления — это функция оптимизации хранилища, которую поставщик может включить в общих таблицах Delta. См. раздел " Что такое векторы удаления?".
Azure Databricks также поддерживает сопоставление столбцов для таблиц Delta. См. раздел "Переименование и удаление столбцов" с сопоставлением столбцов Delta Lake.
Если ваш поставщик предоставил таблицу, в которой включены векторы удаления или сопоставление столбцов, вы можете прочитать её, используя вычислительные мощности версии delta-sharing-spark
3.1 или выше. Если вы используете кластеры Databricks, вы можете выполнять пакетные операции чтения с помощью кластера под управлением Databricks Runtime 14.1 или более поздней версии. Для запросов CDF и потоковой передачи требуется Среда выполнения Databricks 14.2 или более поздней версии.
Пакетные запросы можно выполнять в исходном виде, так как они могут автоматически разрешаться responseFormat
на основе функций общей таблицы.
Чтобы считывать поток данных об изменениях (CDF) или выполнять потоковые запросы к общим таблицам с включенными векторами удаления или сопоставлением столбцов, необходимо задать дополнительный параметр responseFormat=delta
.
В следующих примерах показаны пакетные запросы, запросы CDF и потоковые запросы.
import org.apache.spark.sql.SparkSession
val spark = SparkSession
.builder()
.appName("...")
.master("...")
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
.getOrCreate()
val tablePath = "<profile-file-path>#<share-name>.<schema-name>.<table-name>"
// Batch query
spark.read.format("deltaSharing").load(tablePath)
// CDF query
spark.read.format("deltaSharing")
.option("readChangeFeed", "true")
.option("responseFormat", "delta")
.option("startingVersion", 1)
.load(tablePath)
// Streaming query
spark.readStream.format("deltaSharing").option("responseFormat", "delta").load(tablePath)
Pandas: чтение данных из общего доступа
Чтобы получить доступ к общим данным в pandas 0.25.3 или более поздней версии, выполните указанные ниже действия.
В этих инструкциях предполагается, что у вас есть доступ к файлу учетных данных, который был предоставлен поставщиком данных. См. Получите доступ в модели открытого обмена.
Примечание.
Если вы используете pandas в рабочей области Azure Databricks, настроенной для Unity Catalog, и использовали пользовательский интерфейс импорта для добавления поставщика и ресурса, то инструкции в этом разделе к вам не применяются. Доступ к общим таблицам можно получить так же, как и к любой другой таблице, зарегистрированной в каталоге Unity. Не нужно устанавливать соединитель Python delta-sharing
или указать путь к файлу учетных данных. См. Azure Databricks: чтение общих данных с использованием открытых коннекторов для совместного доступа.
Установите коннектор Delta Sharing для Python
Чтобы получить доступ к метаданным, связанным с общими данными, например списком таблиц, которые с вами поделились, необходимо установить коннектор delta-sharing для Python.
pip install delta-sharing
Вывод общих таблиц с помощью pandas
Чтобы перечислить таблицы в общем ресурсе, выполните следующую команду, заменив <profile-path>/config.share
на расположение файла учетных данных.
import delta_sharing
client = delta_sharing.SharingClient(f"<profile-path>/config.share")
client.list_all_tables()
Если выходные данные пусты или не содержат ожидаемые таблицы, обратитесь к поставщику данных.
Доступ к общим данным с помощью пакета pandas
Чтобы получить доступ к общим данным в pandas с помощью Python, выполните следующие действия, заменив переменные следующим образом:
-
<profile-path>
: расположение файла учетных данных. -
<share-name>
: значениеshare=
для таблицы. -
<schema-name>
: значениеschema=
для таблицы. -
<table-name>
: значениеname=
для таблицы.
import delta_sharing
delta_sharing.load_as_pandas(f"<profile-path>#<share-name>.<schema-name>.<table-name>")
Доступ к общему потоку данных об изменениях с использованием pandas
Чтобы получить доступ к каналу измененных данных для общей таблицы в pandas с помощью Python, выполните следующие шаги, заменив переменные следующим образом. Поток данных об изменениях может отсутствовать в зависимости от того, предоставил ли поставщик данных доступ к потоку изменений на таблицу.
-
<starting-version>
: необязательно. Начальная версия запроса включительно. -
<ending-version>
: необязательно. Конечная версия запроса включительно. -
<starting-timestamp>
: необязательно. Начальная метка времени запроса. Это преобразуется в версию, созданную в момент времени, который больше или равен этой метке времени. -
<ending-timestamp>
: необязательно. Конечная метка времени запроса. Это преобразуется в версию, созданную ранее или равной этой метке времени.
import delta_sharing
delta_sharing.load_table_changes_as_pandas(
f"<profile-path>#<share-name>.<schema-name>.<table-name>",
starting_version=<starting-version>,
ending_version=<starting-version>)
delta_sharing.load_table_changes_as_pandas(
f"<profile-path>#<share-name>.<schema-name>.<table-name>",
starting_timestamp=<starting-timestamp>,
ending_timestamp=<ending-timestamp>)
Если выходные данные пусты или не содержат ожидаемые данные, обратитесь к поставщику данных.
Power BI: просмотр общих данных
Соединитель Delta Sharing Power BI позволяет обнаруживать, анализировать и визуализировать наборы данных, которыми вы поделились с помощью открытого протокола Delta Sharing.
Требования
- Power BI Desktop 2.99.621.0 или более поздняя версия.
- Доступ к файлу учетных данных, который был предоставлен поставщиком данных. См. Получите доступ в модели открытого обмена.
Подключение к Databricks
Чтобы подключиться к Azure Databricks с помощью соединителя Delta Sharing, сделайте следующее:
- Откройте общий файл учетных данных с текстовым редактором, чтобы получить URL-адрес конечной точки и маркер.
- Запустите Power BI Desktop.
- В меню Получение данных выполните поиск Delta Sharing.
- Выберите соединитель и щелкните Подключиться.
- Введите URL-адрес конечной точки, скопированный из файла учетных данных, в поле Delta Sharing Server URL.
- При необходимости на вкладке Дополнительные параметры задайте максимальное число строк которое можно скачать. По умолчанию задано значение в 1 000 000 строк.
- Щелкните OK.
- В разделе Проверка подлинности скопируйте токен, полученный из файла учетных данных, в поле Маркер носителя.
- Щелкните Подключить.
Ограничения соединителя Delta Sharing в Power BI
Соединитель Power BI Delta Sharing имеет следующие ограничения:
- Данные, которые загружает соединитель, должны соответствовать памяти компьютера. Чтобы управлять этим требованием, соединитель ограничивает количество импортированных строк ограничением строк, заданным на вкладке "Дополнительные параметры" в Power BI Desktop.
Tableau: чтение данных общего доступа
Соединитель Tableau Delta Sharing позволяет обнаруживать, анализировать и визуализировать наборы данных, которые совместно используются через открытый протокол Delta Sharing.
Требования
- Tableau Desktop и Tableau Server 2024.1 или новее
- Доступ к файлу учетных данных, который был предоставлен поставщиком данных. См. Получите доступ в модели открытого обмена.
Подключение к Azure Databricks
Чтобы подключиться к Azure Databricks с помощью соединителя Delta Sharing, сделайте следующее:
- Перейдите в Tableau Exchange, следуйте инструкциям, чтобы скачать соединитель Delta Sharing и поместить его в соответствующую папку рабочего стола.
- Откройте Tableau Desktop.
- На странице "Соединители" найдите "Delta Sharing by Databricks".
- Выберите Загрузить файл для общего доступа, и выберите файл учетных данных, который был предоставлен поставщиком.
- Щелкните Получить данные.
- В обозревателе данных выберите таблицу.
- При необходимости добавьте фильтры SQL или ограничения строк.
- Нажмите кнопку "Получить данные таблицы".
Ограничения соединителя Tableau Delta Sharing
Соединитель Delta Sharing Tableau имеет следующие ограничения:
- Данные, которые загружает соединитель, должны соответствовать памяти компьютера. Для управления этим требованием соединитель ограничивает количество импортированных строк ограничением строки, заданным в Tableau.
- Все столбцы возвращаются в виде типа
String
. - Фильтр SQL работает только в том случае, если сервер Delta Sharing поддерживает предикатHint.
- Векторы удаления не поддерживаются.
Запрос новых учетных данных
Если URL-адрес активации учетных данных или скачанные учетные данные потеряны, повреждены или скомпрометированы, или срок действия учетных данных истекает без отправки нового поставщика, обратитесь к поставщику, чтобы запросить новые учетные данные.