مراقبة وإدارة تكاليف خروج مشاركة دلتا (للموفرين)

توضح هذه المقالة الأدوات التي يمكنك استخدامها لمراقبة تكاليف خروج مورد السحابة وإدارتها عند مشاركة البيانات الذكاء الاصطناعي الأصول باستخدام Delta Sharing.

على عكس الأنظمة الأساسية الأخرى لمشاركة البيانات، لا تتطلب Delta Sharing النسخ المتماثل للبيانات. يتمتع هذا النموذج بالعديد من المزايا، ولكنه يعني أن مورد السحابة الخاص بك قد يفرض رسوم خروج البيانات عند مشاركة البيانات عبر السحب أو المناطق. إذا كنت تستخدم Delta Sharing لمشاركة البيانات والأصول الذكاء الاصطناعي داخل منطقة ما، فلن تتحمل أي تكلفة خروج.

لمراقبة رسوم الخروج وإدارتها، يوفر Databricks ما يلي:

نسخ البيانات نسخا متماثلا لتجنب تكاليف الخروج

أحد النهج لتجنب تكاليف الخروج هو أن يقوم الموفر بإنشاء نسخ متماثلة محلية من البيانات المشتركة ومزامنتها في المناطق التي يستخدمها المستلمون. نهج آخر هو أن يقوم المستلمون باستنساخ البيانات المشتركة إلى المناطق المحلية للاستعلام النشط، وإعداد المزامنة بين الجدول المشترك والنسخة المحلية. يناقش هذا القسم عددا من أنماط النسخ المتماثل.

استخدام نسخة Delta العميقة للنسخ المتماثل المتزايد

يمكن للموفرين استخدام DEEP CLONE لنسخ جداول Delta نسخا متماثلا إلى مواقع خارجية عبر المناطق التي يشاركونها. تنسخ النسخ العميقة بيانات الجدول المصدر وبيانات التعريف إلى هدف النسخ. تمكن النسخ العميقة أيضا التحديثات المتزايدة من خلال تحديد البيانات الجديدة في الجدول المصدر وتحديث الهدف وفقا لذلك.

CREATE TABLE [IF NOT EXISTS] table_name DEEP CLONE source_table_name
   [TBLPROPERTIES clause] [LOCATION path];

يمكنك جدولة مهمة Databricks لتحديث بيانات الجدول الهدف بشكل متزايد مع التحديثات الأخيرة في الجدول المشترك، باستخدام الأمر التالي:

CREATE OR REPLACE TABLE table_name DEEP CLONE source_table_name;

راجع استنساخ جدول على Azure Databricks وجدولة وتنسيق مهام سير العمل.

تمكين موجز بيانات التغيير (CDF) على الجداول المشتركة للنسخ المتماثل المتزايد

عند مشاركة جدول مع CDF الخاص به، يمكن للمستلم الوصول إلى التغييرات ودمجها في نسخة محلية من الجدول، حيث يقوم المستخدمون بإجراء الاستعلامات. في هذا السيناريو، لا يعبر وصول المستلم إلى البيانات حدود المنطقة، ويقتصر الخروج على تحديث نسخة محلية. إذا كان المستلم على Databricks، يمكنه استخدام مهمة سير عمل Databricks لنشر التغييرات إلى نسخة متماثلة محلية.

لمشاركة جدول مع CDF، يجب تمكين CDF على الجدول ومشاركته WITH HISTORY.

لمزيد من المعلومات حول استخدام CDF، راجع استخدام موجز بيانات تغيير Delta Lake على Azure Databricks وإضافة جداول إلى مشاركة.

استخدام النسخ المتماثلة Cloudflare R2 أو ترحيل التخزين إلى R2

لا يتحمل تخزين كائن Cloudflare R2 أي رسوم خروج. يمكنك النسخ المتماثل للبيانات التي تشاركها إلى R2 أو ترحيلها من مشاركة البيانات باستخدام Delta Sharing دون تكبد رسوم خروج. يصف هذا القسم كيفية نسخ البيانات نسخا متماثلا إلى موقع R2 وتمكين التحديثات المتزايدة من جداول المصدر.

المتطلبات

  • مساحة عمل Databricks ممكنة ل Unity Catalog.
  • Databricks Runtime 14.3 أو أعلى، أو مستودع SQL 2024.15 أو أعلى.
  • حساب Cloudflare. راجع https://dash.cloudflare.com/sign-up.
  • دور مسؤول Cloudflare R2. راجع وثائق أدوار Cloudflare.
  • CREATE STORAGE CREDENTIAL امتياز على مخزن بيانات تعريف كتالوج Unity المرفق بمساحة العمل. يتمتع مسؤولو الحساب ومسؤولو metastore بهذا الامتياز بشكل افتراضي.
  • CREATE EXTERNAL LOCATION امتياز على كل من metastore وبيانات اعتماد التخزين المشار إليها في الموقع الخارجي. يتمتع مسؤولو Metastore بهذا الامتياز بشكل افتراضي.
  • CREATE MANAGED STORAGE امتياز على الموقع الخارجي.
  • CREATE CATALOG على metastore. يتمتع مسؤولو Metastore بهذا الامتياز بشكل افتراضي.

تحميل مستودع R2 كموقع خارجي في Azure Databricks

  1. إنشاء مستودع Cloudflare R2.

    راجع تكوين مستودع R2.

  2. إنشاء بيانات اعتماد تخزين في كتالوج Unity الذي يمنح حق الوصول إلى مستودع R2.

    راجع إنشاء بيانات اعتماد التخزين.

  3. استخدم بيانات اعتماد التخزين لإنشاء موقع خارجي في كتالوج Unity.

    راجع إنشاء موقع خارجي لتوصيل التخزين السحابي ب Azure Databricks.

إنشاء كتالوج جديد باستخدام الموقع الخارجي

إنشاء كتالوج يستخدم الموقع الخارجي الجديد كموقع تخزين مدار.

راجع إنشاء كتالوجات.

عند إنشاء الكتالوج، قم بما يلي:

مستكشف الكتالوج

  • حدد نوع كتالوج قياسي .
  • ضمن موقع التخزين، حدد تحديد موقع تخزين وأدخل المسار إلى مستودع R2 الذي حددته كموقع خارجي. على سبيل المثال، r2://mybucket@my-account-id.r2.cloudflarestorage.com

SQL

استخدم المسار إلى مستودع R2 الذي حددته كموقع خارجي. على سبيل المثال:

  CREATE CATALOG IF NOT EXISTS my-r2-catalog
    MANAGED LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com'
    COMMENT 'Location for managed tables and volumes to share using Delta Sharing';

استنساخ البيانات التي تريد مشاركتها إلى جدول في الكتالوج الجديد

يستخدم DEEP CLONE لنسخ الجداول في Azure Data Lake Storage Gen2 إلى الكتالوج الجديد الذي يستخدم R2 للتخزين المدار. تنسخ النسخ العميقة بيانات الجدول المصدر وبيانات التعريف إلى هدف النسخ. تمكن النسخ العميقة أيضا التحديثات المتزايدة من خلال تحديد البيانات الجديدة في الجدول المصدر وتحديث الهدف وفقا لذلك.

CREATE TABLE IF NOT EXISTS new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table
  LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com';

يمكنك جدولة مهمة Databricks لتحديث بيانات الجدول الهدف بشكل متزايد مع التحديثات الأخيرة في الجدول المصدر، باستخدام الأمر التالي:

CREATE OR REPLACE TABLE new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table;

راجع استنساخ جدول على Azure Databricks وجدولة وتنسيق مهام سير العمل.

مشاركة الجدول الجديد

عند إنشاء المشاركة، أضف الجداول الموجودة في الكتالوج الجديد، المخزنة في R2. العملية هي نفسها إضافة أي جدول إلى مشاركة.

راجع إنشاء مشاركات وإدارتها لمشاركة دلتا.