A Delta Sharing kimenő költségeinek monitorozása és kezelése (szolgáltatók esetén)
Ez a cikk azokat az eszközöket ismerteti, amelyekkel figyelheti és kezelheti a felhő szállítói kimenő költségeit, amikor adatokat és AI-eszközöket oszt meg a Delta Sharing használatával.
Más adatmegosztási platformoktól eltérően a Delta-megosztás nem igényel adatreplikációt. Ennek a modellnek számos előnye van, de ez azt jelenti, hogy az Ön felhőszolgáltatója kimenő adatforgalmi díjakat számíthat fel, ha Ön adatokat oszt meg felhők vagy régiók között. Ha a Delta Sharing használatával adatokat és AI-eszközöket oszt meg egy régión belül, akkor nincs kimenő költség.
A kimenő forgalom díjainak monitorozásához és kezeléséhez a Databricks a következő lehetőségeket nyújtja:
- Utasítások az adatok régiók közötti replikálásához a kimenő díjak elkerülése érdekében.
- A Cloudflare R2 Storage támogatása a kimenő díjak elkerülése érdekében.
Adatok replikálás a kimenő költségek elkerülése érdekében
A kimenő forgalom költségeinek elkerülésének egyik módja, hogy a szolgáltató helyi replikákat hoz létre és szinkronizál a megosztott adatokról a címzettek által használt régiókban. Egy másik módszer, hogy a címzettek klónozzák a megosztott adatokat a helyi régiókba aktív lekérdezés céljából, és beállítják a szinkronizálást a megosztott tábla és a helyi klón között. Ez a szakasz számos replikációs mintát tárgyal.
Delta mély klón használata növekményes replikációhoz
A szolgáltatók a Delta-táblákat replikálhatják DEEP CLONE
külső helyekre az általuk megosztott régiók között. A mély klónok a forrástábla adatait és metaadatait a klónozási célba másolja. A mély klónok növekményes frissítéseket is lehetővé tesznek a forrástábla új adatainak azonosításával és a cél ennek megfelelően történő frissítésével.
CREATE TABLE [IF NOT EXISTS] table_name DEEP CLONE source_table_name
[TBLPROPERTIES clause] [LOCATION path];
A Databricks-feladatokat ütemezheti a céltáblák adatainak növekményes frissítésére a megosztott tábla legutóbbi frissítéseivel a következő paranccsal:
CREATE OR REPLACE TABLE table_name DEEP CLONE source_table_name;
Lásd: Tábla klónozása az Azure Databricksben, munkafolyamatok ütemezése és vezénylálása.
Változásadatcsatorna (CDF) engedélyezése megosztott táblákon növekményes replikációhoz
Amikor egy táblát megosztanak a CDF-jével, a címzett hozzáférhet a módosításokhoz, és egyesítheti őket a tábla helyi példányával, ahol a felhasználók lekérdezéseket hajtanak végre. Ebben az esetben az adatok címzettjeinek hozzáférése nem lépi át a régiók határait, és a kimenő forgalom csak egy helyi példány frissítésére korlátozódik. Ha a címzett a Databricksben van, egy Databricks-munkafolyamat-feladat használatával propagálja a módosításokat egy helyi replikára.
Ha meg szeretne osztani egy táblát a CDF-vel, engedélyeznie kell a CDF-et a táblában, és meg kell osztania.WITH HISTORY
A CDF használatáról további információt az Azure Databricks Delta Lake-változási adatcsatornájának használata és a Táblák hozzáadása megosztáshoz című témakörben talál.
Cloudflare R2-replikák használata vagy tároló áttelepítése R2-re
A Cloudflare R2 objektumtároló nem jár kimenő költségekkel. Az R2-be megosztott adatok replikálása vagy migrálása lehetővé teszi az adatok megosztását a Delta Sharing használatával kimenő díjak nélkül. Ez a szakasz azt ismerteti, hogyan replikálhat adatokat R2-helyre, és hogyan engedélyezheti a forrástáblák növekményes frissítéseit.
Követelmények
- A Databricks-munkaterület engedélyezve van a Unity Cataloghoz.
- Databricks Runtime 14.3 vagy újabb, vagy SQL Warehouse 2024.15 vagy újabb.
- Cloudflare-fiók. Lásd: https://dash.cloudflare.com/sign-up.
- Cloudflare R2 rendszergazdai szerepkör. Tekintse meg a Cloudflare-szerepkörök dokumentációját.
CREATE STORAGE CREDENTIAL
jogosultságot a munkaterülethez csatolt Unity Catalog metaadattárban. A fiókadminisztrátor és a metaadattár-rendszergazdák alapértelmezés szerint rendelkeznek ezzel a jogosultsággal.CREATE EXTERNAL LOCATION
a metaadattár és a külső helyen hivatkozott tárolási hitelesítő adatok jogosultsága. A metaadattár-rendszergazdák alapértelmezés szerint rendelkeznek ezzel a jogosultsággal.CREATE MANAGED STORAGE
jogosultságot a külső helyen.CREATE CATALOG
a metaadattárban. A metaadattár-rendszergazdák alapértelmezés szerint rendelkeznek ezzel a jogosultsággal.
R2-gyűjtő csatlakoztatása külső helyként az Azure Databricksben
Hozzon létre egy Cloudflare R2-gyűjtőt.
Lásd: R2-gyűjtő konfigurálása.
Hozzon létre egy tárolási hitelesítő adatot a Unity Katalógusban, amely hozzáférést biztosít az R2-gyűjtőhöz.
Lásd : A tároló hitelesítő adatainak létrehozása.
A tárolási hitelesítő adatok használatával hozzon létre egy külső helyet a Unity Katalógusban.
Lásd: Külső hely létrehozása a felhőbeli tároló Azure Databrickshez való csatlakoztatásához.
Új katalógus létrehozása a külső hely használatával
Hozzon létre egy katalógust, amely az új külső helyet használja felügyelt tárolóhelyként.
Lásd: Katalógusok létrehozása.
A katalógus létrehozásakor tegye a következőket:
Katalóguskezelő
- Válasszon egy Standard katalógustípust.
- A Tárolási hely területen válassza a Tárolási hely kiválasztása lehetőséget, és adja meg a külső helyként definiált R2-gyűjtő elérési útját. Például:
r2://mybucket@my-account-id.r2.cloudflarestorage.com
SQL
Használja a külső helyként definiált R2-gyűjtő elérési útját. Példa:
CREATE CATALOG IF NOT EXISTS my-r2-catalog
MANAGED LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com'
COMMENT 'Location for managed tables and volumes to share using Delta Sharing';
Klónozza azokat az adatokat, amelyeket meg szeretne osztani egy táblával az új katalógusban
Az Azure Data Lake Storage Gen2-ben lévő táblák replikálására használható DEEP CLONE
az új katalógusba, amely az R2-t használja a felügyelt tároláshoz. A mély klónok a forrástábla adatait és metaadatait a klónozási célba másolja. A mély klónok növekményes frissítéseket is lehetővé tesznek a forrástábla új adatainak azonosításával és a cél ennek megfelelően történő frissítésével.
CREATE TABLE IF NOT EXISTS new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table
LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com';
A Databricks-feladatokat úgy ütemezheti, hogy a céltábla adatait növekményesen frissítse a forrástábla legutóbbi frissítéseivel, a következő paranccsal:
CREATE OR REPLACE TABLE new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table;
Lásd: Tábla klónozása az Azure Databricksben, munkafolyamatok ütemezése és vezénylálása.
Az új tábla megosztása
A megosztás létrehozásakor vegye fel az R2-ben tárolt új katalógusban lévő táblákat. A folyamat ugyanaz, mint bármely tábla hozzáadása egy megosztáshoz.
Lásd: Megosztások létrehozása és kezelése a Delta-megosztáshoz.