Megosztás a következőn keresztül:


A Delta Sharing kimenő költségeinek monitorozása és kezelése (szolgáltatók esetén)

Ez a cikk azokat az eszközöket ismerteti, amelyekkel figyelheti és kezelheti a felhő szállítói kimenő költségeit, amikor adatokat és AI-eszközöket oszt meg a Delta Sharing használatával.

Más adatmegosztási platformoktól eltérően a Delta-megosztás nem igényel adatreplikációt. Ennek a modellnek számos előnye van, de ez azt jelenti, hogy az Ön felhőszolgáltatója kimenő adatforgalmi díjakat számíthat fel, ha Ön adatokat oszt meg felhők vagy régiók között. Ha a Delta Sharing használatával adatokat és AI-eszközöket oszt meg egy régión belül, akkor nincs kimenő költség.

A kimenő forgalom díjainak monitorozásához és kezeléséhez a Databricks a következő lehetőségeket nyújtja:

Adatok replikálás a kimenő költségek elkerülése érdekében

A kimenő forgalom költségeinek elkerülésének egyik módja, hogy a szolgáltató helyi replikákat hoz létre és szinkronizál a megosztott adatokról a címzettek által használt régiókban. Egy másik módszer, hogy a címzettek klónozzák a megosztott adatokat a helyi régiókba aktív lekérdezés céljából, és beállítják a szinkronizálást a megosztott tábla és a helyi klón között. Ez a szakasz számos replikációs mintát tárgyal.

Delta mély klón használata növekményes replikációhoz

A szolgáltatók a Delta-táblákat replikálhatják DEEP CLONE külső helyekre az általuk megosztott régiók között. A mély klónok a forrástábla adatait és metaadatait a klónozási célba másolja. A mély klónok növekményes frissítéseket is lehetővé tesznek a forrástábla új adatainak azonosításával és a cél ennek megfelelően történő frissítésével.

CREATE TABLE [IF NOT EXISTS] table_name DEEP CLONE source_table_name
   [TBLPROPERTIES clause] [LOCATION path];

A Databricks-feladatokat ütemezheti a céltáblák adatainak növekményes frissítésére a megosztott tábla legutóbbi frissítéseivel a következő paranccsal:

CREATE OR REPLACE TABLE table_name DEEP CLONE source_table_name;

Lásd: Tábla klónozása az Azure Databricksben, munkafolyamatok ütemezése és vezénylálása.

Változásadatcsatorna (CDF) engedélyezése megosztott táblákon növekményes replikációhoz

Amikor egy táblát megosztanak a CDF-jével, a címzett hozzáférhet a módosításokhoz, és egyesítheti őket a tábla helyi példányával, ahol a felhasználók lekérdezéseket hajtanak végre. Ebben az esetben az adatok címzettjeinek hozzáférése nem lépi át a régiók határait, és a kimenő forgalom csak egy helyi példány frissítésére korlátozódik. Ha a címzett a Databricksben van, egy Databricks-munkafolyamat-feladat használatával propagálja a módosításokat egy helyi replikára.

Ha meg szeretne osztani egy táblát a CDF-vel, engedélyeznie kell a CDF-et a táblában, és meg kell osztania.WITH HISTORY

A CDF használatáról további információt az Azure Databricks Delta Lake-változási adatcsatornájának használata és a Táblák hozzáadása megosztáshoz című témakörben talál.

Cloudflare R2-replikák használata vagy tároló áttelepítése R2-re

A Cloudflare R2 objektumtároló nem jár kimenő költségekkel. Az R2-be megosztott adatok replikálása vagy migrálása lehetővé teszi az adatok megosztását a Delta Sharing használatával kimenő díjak nélkül. Ez a szakasz azt ismerteti, hogyan replikálhat adatokat R2-helyre, és hogyan engedélyezheti a forrástáblák növekményes frissítéseit.

Követelmények

  • A Databricks-munkaterület engedélyezve van a Unity Cataloghoz.
  • Databricks Runtime 14.3 vagy újabb, vagy SQL Warehouse 2024.15 vagy újabb.
  • Cloudflare-fiók. Lásd: https://dash.cloudflare.com/sign-up.
  • Cloudflare R2 rendszergazdai szerepkör. Tekintse meg a Cloudflare-szerepkörök dokumentációját.
  • CREATE STORAGE CREDENTIAL jogosultságot a munkaterülethez csatolt Unity Catalog metaadattárban. A fiókadminisztrátor és a metaadattár-rendszergazdák alapértelmezés szerint rendelkeznek ezzel a jogosultsággal.
  • CREATE EXTERNAL LOCATION a metaadattár és a külső helyen hivatkozott tárolási hitelesítő adatok jogosultsága. A metaadattár-rendszergazdák alapértelmezés szerint rendelkeznek ezzel a jogosultsággal.
  • CREATE MANAGED STORAGE jogosultságot a külső helyen.
  • CREATE CATALOG a metaadattárban. A metaadattár-rendszergazdák alapértelmezés szerint rendelkeznek ezzel a jogosultsággal.

R2-gyűjtő csatlakoztatása külső helyként az Azure Databricksben

  1. Hozzon létre egy Cloudflare R2-gyűjtőt.

    Lásd: R2-gyűjtő konfigurálása.

  2. Hozzon létre egy tárolási hitelesítő adatot a Unity Katalógusban, amely hozzáférést biztosít az R2-gyűjtőhöz.

    Lásd : A tároló hitelesítő adatainak létrehozása.

  3. A tárolási hitelesítő adatok használatával hozzon létre egy külső helyet a Unity Katalógusban.

    Lásd: Külső hely létrehozása a felhőbeli tároló Azure Databrickshez való csatlakoztatásához.

Új katalógus létrehozása a külső hely használatával

Hozzon létre egy katalógust, amely az új külső helyet használja felügyelt tárolóhelyként.

Lásd: Katalógusok létrehozása.

A katalógus létrehozásakor tegye a következőket:

Katalóguskezelő

  • Válasszon egy Standard katalógustípust.
  • A Tárolási hely területen válassza a Tárolási hely kiválasztása lehetőséget, és adja meg a külső helyként definiált R2-gyűjtő elérési útját. Például: r2://mybucket@my-account-id.r2.cloudflarestorage.com

SQL

Használja a külső helyként definiált R2-gyűjtő elérési útját. Példa:

  CREATE CATALOG IF NOT EXISTS my-r2-catalog
    MANAGED LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com'
    COMMENT 'Location for managed tables and volumes to share using Delta Sharing';

Klónozza azokat az adatokat, amelyeket meg szeretne osztani egy táblával az új katalógusban

Az Azure Data Lake Storage Gen2-ben lévő táblák replikálására használható DEEP CLONE az új katalógusba, amely az R2-t használja a felügyelt tároláshoz. A mély klónok a forrástábla adatait és metaadatait a klónozási célba másolja. A mély klónok növekményes frissítéseket is lehetővé tesznek a forrástábla új adatainak azonosításával és a cél ennek megfelelően történő frissítésével.

CREATE TABLE IF NOT EXISTS new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table
  LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com';

A Databricks-feladatokat úgy ütemezheti, hogy a céltábla adatait növekményesen frissítse a forrástábla legutóbbi frissítéseivel, a következő paranccsal:

CREATE OR REPLACE TABLE new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table;

Lásd: Tábla klónozása az Azure Databricksben, munkafolyamatok ütemezése és vezénylálása.

Az új tábla megosztása

A megosztás létrehozásakor vegye fel az R2-ben tárolt új katalógusban lévő táblákat. A folyamat ugyanaz, mint bármely tábla hozzáadása egy megosztáshoz.

Lásd: Megosztások létrehozása és kezelése a Delta-megosztáshoz.