Мониторинг затрат на исходящий трафик и управление ими (для поставщиков)

В этой статье описаны средства, которые можно использовать для мониторинга затрат поставщика облачных служб и управления ими при совместном использовании данных и ресурсов ИИ с помощью Delta Share.

В отличие от других платформ общего доступа к данным, разностный общий доступ не требует реплика данных. Эта модель имеет множество преимуществ, но это означает, что поставщик облачных служб может взимать плату за исходящие данные при совместном использовании данных в облаках или регионах. Если вы используете разностный общий доступ для совместного использования данных и ресурсов ИИ в регионе, вы не несете затраты на исходящий трафик.

Для отслеживания расходов на исходящий трафик и управления ими databricks предоставляется:

Репликация данных, чтобы избежать затрат на исходящий трафик

Одним из способов предотвращения затрат на исходящий трафик является создание и синхронизация локальных реплика общих данных в регионах, которые используют их получатели. Другим подходом является клонирование общих данных в локальные регионы для активного запроса, настройка синхронизации между общей таблицей и локальным клоном. В этом разделе рассматривается ряд шаблонов реплика tion.

Использование разностного глубокого клонирования для добавочного реплика tion

Поставщики могут использовать DEEP CLONE для реплика таблиц Delta в внешние расположения между регионами, которыми они совместно используются. Глубокие клоны копируют данные исходной таблицы и метаданные в целевой объект клонирования. Глубокие клоны также обеспечивают добавочные обновления, определяя новые данные в исходной таблице и обновляя целевой объект соответствующим образом.

CREATE TABLE [IF NOT EXISTS] table_name DEEP CLONE source_table_name
   [TBLPROPERTIES clause] [LOCATION path];

Задание Databricks Workflows можно запланировать для обновления целевых данных таблицы постепенно с последними обновлениями в общей таблице с помощью следующей команды:

CREATE OR REPLACE TABLE table_name DEEP CLONE source_table_name;

См . статью "Клонирование таблицы" в Azure Databricks и введение в рабочие процессы Azure Databricks.

Включение веб-канала изменений (CDF) в общих таблицах для добавочного реплика

При совместном использовании таблицы с CDF получатель может получить доступ к изменениям и объединить их в локальную копию таблицы, где пользователи выполняют запросы. В этом сценарии доступ получателя к данным не пересекает границы региона, а исходящий трафик ограничен обновлением локальной копии. Если получатель находится в Databricks, он может использовать задание рабочего процесса Databricks для распространения изменений в локальном реплика.

Чтобы предоставить общий доступ к таблице с CDF, необходимо включить CDF в таблице и предоставить ей WITH HISTORYобщий доступ.

Дополнительные сведения об использовании CDF см. в разделе "Использование веб-канала изменений Delta Lake" в Azure Databricks и добавление таблиц в общую папку.

Использование cloudflare R2 реплика или перенос хранилища в R2

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Хранилище объектов Cloudflare R2 не несет платы за исходящий трафик. Репликация или перенос общих данных в R2 позволяет предоставлять общий доступ к данным с помощью разностного общего доступа, не вызывая сборы исходящего трафика. В этом разделе описывается, как реплика te данные в расположение R2 и включить добавочные обновления из исходных таблиц.

Требования

  • Рабочая область Databricks включена для каталога Unity.
  • Databricks Runtime 14.3 или более поздней версии или хранилище SQL 2024.15 или более поздней версии.
  • Учетная запись Cloudflare. См. раздел https://dash.cloudflare.com/sign-up.
  • Роль cloudflare R2 Администратор. См. документацию по ролям Cloudflare.
  • CREATE STORAGE CREDENTIAL привилегии в хранилище метаданных каталога Unity, подключенном к рабочей области. Администраторы учетных записей и администраторы хранилища метаданных имеют эту привилегию по умолчанию.
  • CREATE EXTERNAL LOCATION привилегии для хранилища метаданных и учетных данных хранилища, на которые ссылается внешнее расположение. Администраторы хранилища метаданных имеют эту привилегию по умолчанию.
  • CREATE MANAGED STORAGE привилегии во внешнем расположении.
  • CREATE CATALOG в хранилище метаданных. Администраторы хранилища метаданных имеют эту привилегию по умолчанию.

Подключение контейнера R2 в качестве внешнего расположения в Azure Databricks

  1. Создайте контейнер Cloudflare R2.

    См. раздел "Настройка контейнера R2".

  2. Создайте учетные данные хранения в каталоге Unity, который предоставляет доступ к контейнеру R2.

    См. статью "Создание учетных данных хранилища".

  3. Используйте учетные данные хранилища для создания внешнего расположения в каталоге Unity.

    См. статью "Создание внешнего расположения для подключения облачного хранилища к Azure Databricks".

Создание нового каталога с помощью внешнего расположения

Создайте каталог, использующий новое внешнее расположение в качестве управляемого расположения хранилища.

См. статью Создание каталогов и управление ими.

При создании каталога выполните следующие действия.

Обозреватель каталогов

  • Выберите тип каталога "Стандартный".
  • В разделе служба хранилища расположении выберите расположение хранилища и введите путь к контейнеру R2, который вы определили как внешнее расположение. Например: r2://mybucket@my-account-id.r2.cloudflarestorage.com

SQL

Используйте путь к контейнеру R2, определенному как внешнее расположение. Например:

  CREATE CATALOG IF NOT EXISTS my-r2-catalog
    MANAGED LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com'
    COMMENT 'Location for managed tables and volumes to share using Delta Sharing';

Клонирование данных, к которым вы хотите предоставить общий доступ к таблице в новом каталоге

Используется DEEP CLONE для реплика таблиц в Azure Data Lake Storage 2-го поколения в новый каталог, использующий R2 для управляемого хранилища. Глубокие клоны копируют данные исходной таблицы и метаданные в целевой объект клонирования. Глубокие клоны также обеспечивают добавочные обновления, определяя новые данные в исходной таблице и обновляя целевой объект соответствующим образом.

CREATE TABLE IF NOT EXISTS new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table
  LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com';

Задание Databricks Workflows можно запланировать для обновления данных целевой таблицы постепенно с последними обновлениями в исходной таблице с помощью следующей команды:

CREATE OR REPLACE TABLE new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table;

См . статью "Клонирование таблицы" в Azure Databricks и введение в рабочие процессы Azure Databricks.

Общий доступ к новой таблице

При создании общей папки добавьте таблицы, хранящиеся в новом каталоге, хранящиеся в R2. Процесс совпадает с добавлением любой таблицы в общую папку.

См. статью "Создание общих папок" и управление ими для разностного общего доступа.