Monitorování a správa nákladů na výchozí přenos dat rozdílového sdílení (pro poskytovatele)

Článek
11/07/2024

Tento článek popisuje nástroje, které můžete použít k monitorování a správě nákladů na výchozí přenos dat dodavatele cloudu při sdílení dat a prostředků AI pomocí rozdílového sdílení.

Sdílení Delta Sharing, na rozdíl od jiných platforem sdílení dat, nevyžaduje replikaci dat. Tento model má mnoho výhod, ale znamená to, že dodavatel cloudu může účtovat poplatky za výchozí přenos dat při sdílení dat mezi cloudy nebo oblastmi. Pokud ke sdílení dat a prostředků AI v rámci oblasti použijete rozdílové sdílení, nebudou vám účtovány žádné náklady na výchozí přenos dat.

Databricks poskytuje k monitorování a správě poplatků za výchozí přenos dat:

Pokyny pro replikaci dat mezi oblastmi, aby se zabránilo poplatkům za výchozí přenos dat.
Podpora úložiště Cloudflare R2, abyste se vyhnuli poplatkům za výchozí přenos dat.

Replikace dat, aby se zabránilo nákladům na výchozí přenos dat

Jedním z přístupů, jak se vyhnout nákladům na výchozí přenos dat, je, aby poskytovatel vytvořil a synchronizoval místní repliky sdílených dat v oblastech, které používají jejich příjemci. Další možností je, aby příjemci mohli naklonovat sdílená data do místních oblastí pro aktivní dotazování a nastavit synchronizaci mezi sdílenou tabulkou a místním klonem. Tato část popisuje řadu vzorů replikace.

Použití hloubkového klonování Delta pro přírůstkovou replikaci

Poskytovatelé můžou replikovat DEEP CLONE tabulky Delta do externích umístění napříč oblastmi, do kterých se sdílejí. Hloubkové klony zkopírují data zdrojové tabulky a metadata do cíle klonování. Hluboké klony také umožňují přírůstkové aktualizace tím, že identifikují nová data ve zdrojové tabulce a odpovídajícím způsobem aktualizují cíl.

CREATE TABLE [IF NOT EXISTS] table_name DEEP CLONE source_table_name
   [TBLPROPERTIES clause] [LOCATION path];

Pomocí následujícího příkazu můžete naplánovat úlohu Databricks tak, aby aktualizovala data cílové tabulky přírůstkově s nedávnými aktualizacemi ve sdílené tabulce:

CREATE OR REPLACE TABLE table_name DEEP CLONE source_table_name;

Viz Klonování tabulky v Azure Databricks a plánování a orchestraci pracovních postupů.

Povolení kanálu dat změn (CDF) u sdílených tabulek pro přírůstkovou replikaci

Když je tabulka sdílena s cdF, příjemce má přístup ke změnám a sloučit je do místní kopie tabulky, kde uživatelé provádějí dotazy. V tomto scénáři přístup příjemce k datům nepřekračuje hranice oblastí a výchozí přenos dat je omezen na aktualizaci místní kopie. Pokud je příjemce v Databricks, může pomocí úlohy pracovního postupu Databricks rozšířit změny do místní repliky.

Chcete-li sdílet tabulku s CDF, musíte povolit CDF v tabulce a sdílet ji WITH HISTORY.

Další informace o používání CDF najdete v tématu Použití kanálu změn Delta Lake v Azure Databricks a přidání tabulek do sdílené složky.

Použití replik Cloudflare R2 nebo migrace úložiště do R2

Za úložiště objektů Cloudflare R2 se neúčtují žádné poplatky za výchozí přenos dat. Replikace nebo migrace dat, která sdílíte do R2, umožňuje sdílet data pomocí rozdílového sdílení bez poplatků za výchozí přenos dat. Tato část popisuje, jak replikovat data do umístění R2 a jak povolit přírůstkové aktualizace ze zdrojových tabulek.

Požadavky

Pracovní prostor Databricks povolený pro katalog Unity
Databricks Runtime 14.3 nebo novější nebo SQL Warehouse 2024.15 nebo vyšší
Účet Cloudflare. Viz třída https://dash.cloudflare.com/sign-up.
Role správce Cloudflare R2 Prohlédnou si dokumentaci k rolím Cloudflare.
CREATE STORAGE CREDENTIAL oprávnění k metastoru katalogu Unity připojenému k pracovnímu prostoru. Správci účtů a správci metastoru mají ve výchozím nastavení toto oprávnění.
CREATE EXTERNAL LOCATION oprávnění k metastoru i přihlašovacím údajům úložiště, na které odkazuje externí umístění. Správci metastoru mají ve výchozím nastavení toto oprávnění.
CREATE MANAGED STORAGE oprávnění k externímu umístění.
CREATE CATALOG na metastoru. Správci metastoru mají ve výchozím nastavení toto oprávnění.

Připojení kontejneru R2 jako externího umístění v Azure Databricks

Vytvořte kontejner Cloudflare R2.

Viz Konfigurace kontejneru R2.
Vytvořte přihlašovací údaje úložiště v katalogu Unity, které poskytují přístup k kbelíku R2.

Viz Vytvoření přihlašovacích údajů úložiště.
Pomocí přihlašovacích údajů úložiště vytvořte externí umístění v katalogu Unity.

Viz Vytvoření externího umístění pro připojení cloudového úložiště k Azure Databricks.

Vytvoření nového katalogu pomocí externího umístění

Vytvořte katalog, který jako spravované umístění úložiště používá nové externí umístění.

Viz Vytváření katalogů.

Při vytváření katalogu postupujte takto:

Průzkumník katalogu

Vyberte typ standardního katalogu.
V části Umístění úložiště vyberte Vybrat umístění úložiště a zadejte cestu k kontejneru R2, který jste definovali jako externí umístění. Například r2://mybucket@my-account-id.r2.cloudflarestorage.com

SQL

Použijte cestu k kontejneru R2, který jste definovali jako externí umístění. Příklad:

  CREATE CATALOG IF NOT EXISTS my-r2-catalog
    MANAGED LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com'
    COMMENT 'Location for managed tables and volumes to share using Delta Sharing';

Slouží DEEP CLONE k replikaci tabulek v Azure Data Lake Storage Gen2 do nového katalogu, který používá R2 pro spravované úložiště. Hloubkové klony zkopírují data zdrojové tabulky a metadata do cíle klonování. Hluboké klony také umožňují přírůstkové aktualizace tím, že identifikují nová data ve zdrojové tabulce a odpovídajícím způsobem aktualizují cíl.

CREATE TABLE IF NOT EXISTS new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table
  LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com';

Pomocí následujícího příkazu můžete naplánovat úlohu Databricks tak, aby aktualizovala data cílové tabulky přírůstkově s nedávnými aktualizacemi ve zdrojové tabulce:

CREATE OR REPLACE TABLE new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table;

Viz Klonování tabulky v Azure Databricks a plánování a orchestraci pracovních postupů.

Při vytváření sdílené složky přidejte tabulky, které jsou v novém katalogu uložené v jazyce R2. Proces je stejný jako přidání libovolné tabulky do sdílené složky.

Viz Vytvoření a správa sdílených složek pro rozdílové sdílení.

Sdílet prostřednictvím

Replikace dat, aby se zabránilo nákladům na výchozí přenos dat

Použití hloubkového klonování Delta pro přírůstkovou replikaci

Povolení kanálu dat změn (CDF) u sdílených tabulek pro přírůstkovou replikaci

Použití replik Cloudflare R2 nebo migrace úložiště do R2

Požadavky

Připojení kontejneru R2 jako externího umístění v Azure Databricks

Vytvoření nového katalogu pomocí externího umístění

Průzkumník katalogu

SQL

Váš názor

Další materiály

Sdílet prostřednictvím

Replikace dat, aby se zabránilo nákladům na výchozí přenos dat

Použití hloubkového klonování Delta pro přírůstkovou replikaci

Povolení kanálu dat změn (CDF) u sdílených tabulek pro přírůstkovou replikaci

Použití replik Cloudflare R2 nebo migrace úložiště do R2

Požadavky

Připojení kontejneru R2 jako externího umístění v Azure Databricks

Vytvoření nového katalogu pomocí externího umístění

Průzkumník katalogu

SQL

Naklonujte data, která chcete sdílet, do tabulky v novém katalogu.

Sdílení nové tabulky

Váš názor

Další materiály