Мониторинг затрат на исходящий трафик и управление ими (для поставщиков)
В этой статье описаны средства, которые можно использовать для мониторинга затрат поставщика облачных служб и управления ими при совместном использовании данных и ресурсов ИИ с помощью Delta Share.
В отличие от других платформ общего доступа к данным, разностный общий доступ не требует реплика данных. Эта модель имеет множество преимуществ, но это означает, что поставщик облачных служб может взимать плату за исходящие данные при совместном использовании данных в облаках или регионах. Если вы используете разностный общий доступ для совместного использования данных и ресурсов ИИ в регионе, вы не несете затраты на исходящий трафик.
Для отслеживания расходов на исходящий трафик и управления ими databricks предоставляется:
- Инструкции по реплика реплика данных между регионами, чтобы избежать исходящих сборов.
- Поддержка хранилища Cloudflare R2, чтобы избежать исходящих сборов.
Репликация данных, чтобы избежать затрат на исходящий трафик
Одним из способов предотвращения затрат на исходящий трафик является создание и синхронизация локальных реплика общих данных в регионах, которые используют их получатели. Другим подходом является клонирование общих данных в локальные регионы для активного запроса, настройка синхронизации между общей таблицей и локальным клоном. В этом разделе рассматривается ряд шаблонов реплика tion.
Использование разностного глубокого клонирования для добавочного реплика tion
Поставщики могут использовать DEEP CLONE
для реплика таблиц Delta в внешние расположения между регионами, которыми они совместно используются. Глубокие клоны копируют данные исходной таблицы и метаданные в целевой объект клонирования. Глубокие клоны также обеспечивают добавочные обновления, определяя новые данные в исходной таблице и обновляя целевой объект соответствующим образом.
CREATE TABLE [IF NOT EXISTS] table_name DEEP CLONE source_table_name
[TBLPROPERTIES clause] [LOCATION path];
Задание Databricks Workflows можно запланировать для обновления целевых данных таблицы постепенно с последними обновлениями в общей таблице с помощью следующей команды:
CREATE OR REPLACE TABLE table_name DEEP CLONE source_table_name;
См . статью "Клонирование таблицы" в Azure Databricks и введение в рабочие процессы Azure Databricks.
Включение веб-канала изменений (CDF) в общих таблицах для добавочного реплика
При совместном использовании таблицы с CDF получатель может получить доступ к изменениям и объединить их в локальную копию таблицы, где пользователи выполняют запросы. В этом сценарии доступ получателя к данным не пересекает границы региона, а исходящий трафик ограничен обновлением локальной копии. Если получатель находится в Databricks, он может использовать задание рабочего процесса Databricks для распространения изменений в локальном реплика.
Чтобы предоставить общий доступ к таблице с CDF, необходимо включить CDF в таблице и предоставить ей WITH HISTORY
общий доступ.
Дополнительные сведения об использовании CDF см. в разделе "Использование веб-канала изменений Delta Lake" в Azure Databricks и добавление таблиц в общую папку.
Использование cloudflare R2 реплика или перенос хранилища в R2
Внимание
Эта функция предоставляется в режиме общедоступной предварительной версии.
Хранилище объектов Cloudflare R2 не несет платы за исходящий трафик. Репликация или перенос общих данных в R2 позволяет предоставлять общий доступ к данным с помощью разностного общего доступа, не вызывая сборы исходящего трафика. В этом разделе описывается, как реплика te данные в расположение R2 и включить добавочные обновления из исходных таблиц.
Требования
- Рабочая область Databricks включена для каталога Unity.
- Databricks Runtime 14.3 или более поздней версии или хранилище SQL 2024.15 или более поздней версии.
- Учетная запись Cloudflare. См. раздел https://dash.cloudflare.com/sign-up.
- Роль cloudflare R2 Администратор. См. документацию по ролям Cloudflare.
CREATE STORAGE CREDENTIAL
привилегии в хранилище метаданных каталога Unity, подключенном к рабочей области. Администраторы учетных записей и администраторы хранилища метаданных имеют эту привилегию по умолчанию.CREATE EXTERNAL LOCATION
привилегии для хранилища метаданных и учетных данных хранилища, на которые ссылается внешнее расположение. Администраторы хранилища метаданных имеют эту привилегию по умолчанию.CREATE MANAGED STORAGE
привилегии во внешнем расположении.CREATE CATALOG
в хранилище метаданных. Администраторы хранилища метаданных имеют эту привилегию по умолчанию.
Подключение контейнера R2 в качестве внешнего расположения в Azure Databricks
Создайте контейнер Cloudflare R2.
См. раздел "Настройка контейнера R2".
Создайте учетные данные хранения в каталоге Unity, который предоставляет доступ к контейнеру R2.
См. статью "Создание учетных данных хранилища".
Используйте учетные данные хранилища для создания внешнего расположения в каталоге Unity.
См. статью "Создание внешнего расположения для подключения облачного хранилища к Azure Databricks".
Создание нового каталога с помощью внешнего расположения
Создайте каталог, использующий новое внешнее расположение в качестве управляемого расположения хранилища.
См. статью Создание каталогов и управление ими.
При создании каталога выполните следующие действия.
Обозреватель каталогов
- Выберите тип каталога "Стандартный".
- В разделе служба хранилища расположении выберите расположение хранилища и введите путь к контейнеру R2, который вы определили как внешнее расположение. Например:
r2://mybucket@my-account-id.r2.cloudflarestorage.com
SQL
Используйте путь к контейнеру R2, определенному как внешнее расположение. Например:
CREATE CATALOG IF NOT EXISTS my-r2-catalog
MANAGED LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com'
COMMENT 'Location for managed tables and volumes to share using Delta Sharing';
Клонирование данных, к которым вы хотите предоставить общий доступ к таблице в новом каталоге
Используется DEEP CLONE
для реплика таблиц в Azure Data Lake Storage 2-го поколения в новый каталог, использующий R2 для управляемого хранилища. Глубокие клоны копируют данные исходной таблицы и метаданные в целевой объект клонирования. Глубокие клоны также обеспечивают добавочные обновления, определяя новые данные в исходной таблице и обновляя целевой объект соответствующим образом.
CREATE TABLE IF NOT EXISTS new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table
LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com';
Задание Databricks Workflows можно запланировать для обновления данных целевой таблицы постепенно с последними обновлениями в исходной таблице с помощью следующей команды:
CREATE OR REPLACE TABLE new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table;
См . статью "Клонирование таблицы" в Azure Databricks и введение в рабочие процессы Azure Databricks.
Общий доступ к новой таблице
При создании общей папки добавьте таблицы, хранящиеся в новом каталоге, хранящиеся в R2. Процесс совпадает с добавлением любой таблицы в общую папку.
См. статью "Создание общих папок" и управление ими для разностного общего доступа.