Мониторинг затрат на исходящий трафик и управление ими (для поставщиков)

Статья
03/01/2024

В этой статье описаны средства, которые можно использовать для мониторинга затрат поставщика облачных служб и управления ими при совместном использовании данных и ресурсов ИИ с помощью Delta Share.

В отличие от других платформ общего доступа к данным, разностный общий доступ не требует реплика данных. Эта модель имеет множество преимуществ, но это означает, что поставщик облачных служб может взимать плату за исходящие данные при совместном использовании данных в облаках или регионах. Если вы используете разностный общий доступ для совместного использования данных и ресурсов ИИ в регионе, вы не несете затраты на исходящий трафик.

Для отслеживания расходов на исходящий трафик и управления ими databricks предоставляется:

Инструкции по реплика реплика данных между регионами, чтобы избежать исходящих сборов.
Поддержка хранилища Cloudflare R2, чтобы избежать исходящих сборов.

Репликация данных, чтобы избежать затрат на исходящий трафик

Одним из способов предотвращения затрат на исходящий трафик является создание и синхронизация локальных реплика общих данных в регионах, которые используют их получатели. Другим подходом является клонирование общих данных в локальные регионы для активного запроса, настройка синхронизации между общей таблицей и локальным клоном. В этом разделе рассматривается ряд шаблонов реплика tion.

Использование разностного глубокого клонирования для добавочного реплика tion

Поставщики могут использовать DEEP CLONE для реплика таблиц Delta в внешние расположения между регионами, которыми они совместно используются. Глубокие клоны копируют данные исходной таблицы и метаданные в целевой объект клонирования. Глубокие клоны также обеспечивают добавочные обновления, определяя новые данные в исходной таблице и обновляя целевой объект соответствующим образом.

CREATE TABLE [IF NOT EXISTS] table_name DEEP CLONE source_table_name
   [TBLPROPERTIES clause] [LOCATION path];

Задание Databricks Workflows можно запланировать для обновления целевых данных таблицы постепенно с последними обновлениями в общей таблице с помощью следующей команды:

CREATE OR REPLACE TABLE table_name DEEP CLONE source_table_name;

См . статью "Клонирование таблицы" в Azure Databricks и введение в рабочие процессы Azure Databricks.

Включение веб-канала изменений (CDF) в общих таблицах для добавочного реплика

При совместном использовании таблицы с CDF получатель может получить доступ к изменениям и объединить их в локальную копию таблицы, где пользователи выполняют запросы. В этом сценарии доступ получателя к данным не пересекает границы региона, а исходящий трафик ограничен обновлением локальной копии. Если получатель находится в Databricks, он может использовать задание рабочего процесса Databricks для распространения изменений в локальном реплика.

Чтобы предоставить общий доступ к таблице с CDF, необходимо включить CDF в таблице и предоставить ей WITH HISTORYобщий доступ.

Дополнительные сведения об использовании CDF см. в разделе "Использование веб-канала изменений Delta Lake" в Azure Databricks и добавление таблиц в общую папку.

Использование cloudflare R2 реплика или перенос хранилища в R2

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Хранилище объектов Cloudflare R2 не несет платы за исходящий трафик. Репликация или перенос общих данных в R2 позволяет предоставлять общий доступ к данным с помощью разностного общего доступа, не вызывая сборы исходящего трафика. В этом разделе описывается, как реплика te данные в расположение R2 и включить добавочные обновления из исходных таблиц.

Требования

Рабочая область Databricks включена для каталога Unity.
Databricks Runtime 14.3 или более поздней версии или хранилище SQL 2024.15 или более поздней версии.
Учетная запись Cloudflare. См. раздел https://dash.cloudflare.com/sign-up.
Роль cloudflare R2 Администратор. См. документацию по ролям Cloudflare.
CREATE STORAGE CREDENTIAL привилегии в хранилище метаданных каталога Unity, подключенном к рабочей области. Администраторы учетных записей и администраторы хранилища метаданных имеют эту привилегию по умолчанию.
CREATE EXTERNAL LOCATION привилегии для хранилища метаданных и учетных данных хранилища, на которые ссылается внешнее расположение. Администраторы хранилища метаданных имеют эту привилегию по умолчанию.
CREATE MANAGED STORAGE привилегии во внешнем расположении.
CREATE CATALOG в хранилище метаданных. Администраторы хранилища метаданных имеют эту привилегию по умолчанию.

Подключение контейнера R2 в качестве внешнего расположения в Azure Databricks

Создайте контейнер Cloudflare R2.

См. раздел "Настройка контейнера R2".
Создайте учетные данные хранения в каталоге Unity, который предоставляет доступ к контейнеру R2.

См. статью "Создание учетных данных хранилища".
Используйте учетные данные хранилища для создания внешнего расположения в каталоге Unity.

См. статью "Создание внешнего расположения для подключения облачного хранилища к Azure Databricks".

Создание нового каталога с помощью внешнего расположения

Создайте каталог, использующий новое внешнее расположение в качестве управляемого расположения хранилища.

См. статью Создание каталогов и управление ими.

При создании каталога выполните следующие действия.

Обозреватель каталогов

Выберите тип каталога "Стандартный".
В разделе служба хранилища расположении выберите расположение хранилища и введите путь к контейнеру R2, который вы определили как внешнее расположение. Например: r2://mybucket@my-account-id.r2.cloudflarestorage.com

SQL

Используйте путь к контейнеру R2, определенному как внешнее расположение. Например:

  CREATE CATALOG IF NOT EXISTS my-r2-catalog
    MANAGED LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com'
    COMMENT 'Location for managed tables and volumes to share using Delta Sharing';

Используется DEEP CLONE для реплика таблиц в Azure Data Lake Storage 2-го поколения в новый каталог, использующий R2 для управляемого хранилища. Глубокие клоны копируют данные исходной таблицы и метаданные в целевой объект клонирования. Глубокие клоны также обеспечивают добавочные обновления, определяя новые данные в исходной таблице и обновляя целевой объект соответствующим образом.

CREATE TABLE IF NOT EXISTS new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table
  LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com';

Задание Databricks Workflows можно запланировать для обновления данных целевой таблицы постепенно с последними обновлениями в исходной таблице с помощью следующей команды:

CREATE OR REPLACE TABLE new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table;

См . статью "Клонирование таблицы" в Azure Databricks и введение в рабочие процессы Azure Databricks.

При создании общей папки добавьте таблицы, хранящиеся в новом каталоге, хранящиеся в R2. Процесс совпадает с добавлением любой таблицы в общую папку.

См. статью "Создание общих папок" и управление ими для разностного общего доступа.

Share via

Репликация данных, чтобы избежать затрат на исходящий трафик

Использование разностного глубокого клонирования для добавочного реплика tion

Включение веб-канала изменений (CDF) в общих таблицах для добавочного реплика

Использование cloudflare R2 реплика или перенос хранилища в R2

Требования

Подключение контейнера R2 в качестве внешнего расположения в Azure Databricks

Создание нового каталога с помощью внешнего расположения

Обозреватель каталогов

SQL

Дополнительные ресурсы

Share via

Репликация данных, чтобы избежать затрат на исходящий трафик

Использование разностного глубокого клонирования для добавочного реплика tion

Включение веб-канала изменений (CDF) в общих таблицах для добавочного реплика

Использование cloudflare R2 реплика или перенос хранилища в R2

Требования

Подключение контейнера R2 в качестве внешнего расположения в Azure Databricks

Создание нового каталога с помощью внешнего расположения

Обозреватель каталогов

SQL

Клонирование данных, к которым вы хотите предоставить общий доступ к таблице в новом каталоге

Общий доступ к новой таблице

Дополнительные ресурсы