Memantau dan mengelola biaya keluar Berbagi Delta (untuk penyedia)

Artikel ini menjelaskan alat yang dapat Anda gunakan untuk memantau dan mengelola biaya keluar vendor cloud saat Anda berbagi data dan aset AI menggunakan Berbagi Delta.

Tidak seperti platform berbagi data lainnya, Berbagi Delta tidak memerlukan replikasi data. Model ini memiliki banyak keuntungan, tetapi artinya vendor cloud Anda dapat membebankan biaya keluar data saat Anda berbagi data di seluruh cloud atau wilayah. Jika Anda menggunakan Berbagi Delta untuk berbagi data dan aset AI dalam suatu wilayah, Anda tidak dikenakan biaya keluar.

Untuk memantau dan mengelola biaya keluar, Databricks menyediakan:

Mereplikasi data untuk menghindari biaya keluar

Salah satu pendekatan untuk menghindari biaya keluar adalah agar penyedia membuat dan menyinkronkan replika lokal data bersama di wilayah yang digunakan penerimanya. Pendekatan lain adalah agar penerima mengkloning data bersama ke wilayah lokal untuk kueri aktif, menyiapkan sinkronisasi antara tabel bersama dan kloning lokal. Bagian ini membahas sejumlah pola replikasi.

Menggunakan klon mendalam Delta untuk replikasi inkremental

Penyedia dapat menggunakan DEEP CLONE untuk mereplikasi tabel Delta ke lokasi eksternal di seluruh wilayah tempat mereka berbagi. Klon mendalam menyalin data tabel sumber dan metadata ke target kloning. Klon mendalam juga memungkinkan pembaruan bertambah bertahap dengan mengidentifikasi data baru dalam tabel sumber dan me-refresh target yang sesuai.

CREATE TABLE [IF NOT EXISTS] table_name DEEP CLONE source_table_name
   [TBLPROPERTIES clause] [LOCATION path];

Anda dapat menjadwalkan pekerjaan Alur Kerja Databricks untuk menyegarkan data tabel target secara bertahap dengan pembaruan terbaru dalam tabel bersama, menggunakan perintah berikut:

CREATE OR REPLACE TABLE table_name DEEP CLONE source_table_name;

Lihat Mengkloning tabel di Azure Databricks dan Pengantar Alur Kerja Azure Databricks.

Aktifkan ubah umpan data (CDF) pada tabel bersama untuk replikasi bertahap

Saat tabel dibagikan dengan CDF-nya, penerima dapat mengakses perubahan dan menggabungkannya ke dalam salinan lokal tabel, di mana pengguna melakukan kueri. Dalam skenario ini, akses penerima ke data tidak melintasi batas wilayah, dan egress terbatas pada refresh salinan lokal. Jika penerima berada di Databricks, mereka dapat menggunakan pekerjaan alur kerja Databricks untuk menyebarkan perubahan pada replika lokal.

Untuk berbagi tabel dengan CDF, Anda harus mengaktifkan CDF pada tabel dan membagikannya WITH HISTORY.

Untuk informasi selengkapnya tentang menggunakan CDF, lihat Menggunakan umpan data perubahan Delta Lake di Azure Databricks dan Menambahkan tabel ke berbagi.

Menggunakan replika Cloudflare R2 atau memigrasikan penyimpanan ke R2

Penting

Fitur ini ada di Pratinjau Publik.

Penyimpanan objek Cloudflare R2 tidak dikenakan biaya keluar. Mereplikasi atau memigrasikan data yang Anda bagikan ke R2 memungkinkan Anda berbagi data menggunakan Berbagi Delta tanpa dikenakan biaya keluar. Bagian ini menjelaskan cara mereplikasi data ke lokasi R2 dan mengaktifkan pembaruan bertahap dari tabel sumber.

Persyaratan

  • Ruang kerja Databricks diaktifkan untuk Unity Catalog.
  • Databricks Runtime 14.3 atau lebih tinggi, atau gudang SQL 2024.15 atau lebih tinggi.
  • Akun Cloudflare. Lihat https://dash.cloudflare.com/sign-up.
  • Peran Admin Cloudflare R2. Lihat dokumentasi peran Cloudflare.
  • CREATE STORAGE CREDENTIAL hak istimewa pada metastore Unity Catalog yang dilampirkan ke ruang kerja. Admin akun dan admin metastore memiliki hak istimewa ini secara default.
  • CREATE EXTERNAL LOCATION hak istimewa pada metastore dan kredensial penyimpanan yang direferensikan di lokasi eksternal. Admin Metastore memiliki hak istimewa ini secara default.
  • CREATE MANAGED STORAGE hak istimewa pada lokasi eksternal.
  • CREATE CATALOG di metastore. Admin Metastore memiliki hak istimewa ini secara default.

Memasang wadah R2 sebagai lokasi eksternal di Azure Databricks

  1. Buat wadah Cloudflare R2.

    Lihat Mengonfigurasi wadah R2.

  2. Buat kredensial penyimpanan di Katalog Unity yang memberikan akses ke wadah R2.

    Lihat Membuat kredensial penyimpanan.

  3. Gunakan kredensial penyimpanan untuk membuat lokasi eksternal di Unity Catalog.

    Lihat Membuat lokasi eksternal untuk menyambungkan penyimpanan cloud ke Azure Databricks.

Membuat katalog baru menggunakan lokasi eksternal

Buat katalog yang menggunakan lokasi eksternal baru sebagai lokasi penyimpanan terkelolanya.

Lihat Membuat dan mengelola katalog.

Saat Anda membuat katalog, lakukan hal berikut:

Penjelajah katalog

  • Pilih jenis katalog Standar.
  • Di bawah Lokasi penyimpanan, pilih Pilih lokasi penyimpanan dan masukkan jalur ke wadah R2 yang Anda tentukan sebagai lokasi eksternal. Misalnya: r2://mybucket@my-account-id.r2.cloudflarestorage.com

Sql

Gunakan jalur ke wadah R2 yang Anda tentukan sebagai lokasi eksternal. Misalnya:

  CREATE CATALOG IF NOT EXISTS my-r2-catalog
    MANAGED LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com'
    COMMENT 'Location for managed tables and volumes to share using Delta Sharing';

Mengkloning data yang ingin Anda bagikan ke tabel di katalog baru

Gunakan DEEP CLONE untuk mereplikasi tabel di Azure Data Lake Storage Gen2 ke katalog baru yang menggunakan R2 untuk penyimpanan terkelola. Klon mendalam menyalin data tabel sumber dan metadata ke target kloning. Klon mendalam juga memungkinkan pembaruan bertambah bertahap dengan mengidentifikasi data baru dalam tabel sumber dan me-refresh target yang sesuai.

CREATE TABLE IF NOT EXISTS new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table
  LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com';

Anda dapat menjadwalkan pekerjaan Alur Kerja Databricks untuk menyegarkan data tabel target secara bertahap dengan pembaruan terbaru dalam tabel sumber, menggunakan perintah berikut:

CREATE OR REPLACE TABLE new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table;

Lihat Mengkloning tabel di Azure Databricks dan Pengantar Alur Kerja Azure Databricks.

Bagikan tabel baru

Saat Anda membuat berbagi, tambahkan tabel yang ada di katalog baru, yang disimpan di R2. Prosesnya sama dengan menambahkan tabel apa pun ke berbagi.

Lihat Membuat dan mengelola berbagi untuk Berbagi Delta.