Co je to sdílení Delta?

Tato stránka představuje Delta Sharing v Azure Databricks, zabezpečenou platformu pro sdílení dat, která umožňuje sdílet data a prostředky umělé inteligence v Azure Databricks s uživateli mimo vaši organizaci, bez ohledu na to, zda používají Azure Databricks. Delta Sharing je také základem pro Databricks Marketplace, otevřené fórum pro výměnu datových produktů, a Clean Rooms, zabezpečené prostředí chránící soukromí, kde může na citlivých podnikových datech spolupracovat více stran.

Delta Sharing je k dispozici také jako projekt s otevřeným zdrojovým kódem , který můžete použít ke sdílení tabulek Delta z jiných platforem.

Jak funguje Delta Sharing?

Delta Sharing je otevřený protokol vyvinutý Službou Databricks pro zabezpečené sdílení dat s jinými organizacemi bez ohledu na výpočetní platformy, které používají.

Existuje několik způsobů, jak sdílet data pomocí Delta Sharingu.

  1. Protokol sdílení Databricks-to-Databricks, který umožňuje sdílet data a prostředky AI z pracovního prostoru s podporou katalogu Unity s uživateli, kteří mají také přístup k pracovnímu prostoru Databricks s podporou katalogu Unity.

    Tento přístup používá Delta Sharing server, který je integrovaný do Azure Databricks. Podporuje některé funkce sdílení Delta, které nejsou podporovány v jiných protokolech, včetně sdílení poznámkových bloků, sdílení svazků Katalogu Unity, sdílení AI modelů Katalogu Unity, správy dat Katalogu Unity, auditu a sledování využití pro poskytovatele i příjemce. Integrace s katalogem Unity zjednodušuje nastavení a zásady správného řízení pro poskytovatele i příjemce a zlepšuje výkon.

    Viz Sdílení dat pomocí protokolu Delta Sharing Databricks-to-Databricks (pro poskytovatele).

  2. Otevřený protokol sdílení Databricks, který umožňuje sdílet tabulková data, která spravujete v pracovním prostoru Databricks s podporou katalogu Unity, s uživateli na libovolné výpočetní platformě.

    Tento přístup používá server Delta Sharing, který je integrovaný do Azure Databricks a je užitečný při správě dat pomocí katalogu Unity a chcete je sdílet s uživateli, kteří databricks nepoužívají nebo nemají přístup k pracovnímu prostoru Databricks s podporou katalogu Unity. Integrace s katalogem Unity na straně poskytovatele zjednodušuje nastavení a zásady správného řízení pro poskytovatele.

    Viz Sdílení dat pomocí protokolu Delta Sharing pro otevřené sdílení (pro poskytovatele).

  3. Implementace serveru Delta Sharing s otevřeným zdrojovým kódem, spravovaná zákazníkem, která umožňuje sdílení mezi jakýmikoli platformami, ať už je to Databricks nebo ne.

    Dokumentace k Azure Databricks nepokrývá pokyny pro nastavení vlastního serveru pro sdílení delta. Viz github.com/delta-io/delta-sharing.

  4. Konektor SAP Business Data Cloud (BDC) pro Azure Databricks, který umožňuje sdílení dat mezi pracovním prostorem s aktivovaným Unity Catalogem a účtem SAP BDC.

    Tento přístup používá konektor SAP BDC, který využívá Delta Sharing pro živý přístup bez potřeby kopírování k datovým produktům SAP BDC.

    Viz Co je konektor SAP BDC pro Azure Databricks?.

Architektura přístupu k datům Delta Sharing

Podíly, poskytovatelé a příjemci

Primárními koncepty Delta Sharing v Azure Databricks jsou sdílení, poskytovatelé a příjemci.

Co je sdílená složka?

V Delta Sharing je podíl kolekcí pouze pro čtení, obsahující tabulky a oddíly tabulek, které chce poskytovatel sdílet s jedním nebo více příjemci. Pokud příjemce používá pracovní prostor Databricks s podporou katalogu Unity, můžete do sdílené složky zahrnout také soubory poznámkových bloků, zobrazení (včetně dynamických zobrazení, která omezují přístup na úrovni řádků a sloupců), svazků katalogu Unity a modelů katalogu Unity.

Můžete přidávat nebo odebírat tabulky, streamované tabulky, spravované tabulky Iceberg, zobrazení, materializovaná zobrazení, svazky, modely a soubory poznámkových bloků ze sdílené složky kdykoli a kdykoli můžete ke sdílené složce přiřadit nebo odvolat přístup příjemce dat.

V pracovním prostoru Azure Databricks s podporou katalogu Unity je sdílení zabezpečitelným objektem zaregistrovaným v katalogu Unity. Pokud odeberete sdílenou složku z metastoru katalogu Unity, všichni příjemci této sdílené složky ztratí možnost k ní získat přístup.

Viz Vytvoření a správa sdílení pro Delta Sharing.

Co je poskytovatel?

Poskytovatel je entita, která sdílí data s příjemcem. Pokud jste poskytovatel a chcete využít integrovaného serveru pro sdílení Databricks Delta a spravovat sdílené složky a příjemce pomocí katalogu Unity, potřebujete alespoň jeden Azure Databricks pracovní prostor, který je povolený pro Katalog Unity. Nemusíte migrovat všechny existující pracovní prostory do katalogu Unity. Jednoduše můžete vytvořit nový pracovní prostor s podporou katalogu Unity pro potřeby Delta Sharing.

Pokud je příjemce v pracovním prostoru Databricks s podporou Unity Catalog, poskytovatel je také spravovatelným objektem Unity Catalog, který představuje organizaci poskytovatele a spojuje tuto organizaci se sadou sdílených složek.

Co je to příjemce?

Příjemce je entita, která přijímá podíly od poskytovatele. V katalogu Unity je sdílená složka zabezpečitelným objektem, který představuje organizaci a přidruží ho k přihlašovacím údajům nebo zabezpečenému identifikátoru sdílení, který organizaci umožňuje přístup k jedné nebo více sdíleným složkám.

Jako zprostředkovatel dat (sdílející) můžete definovat více příjemců pro libovolný metastore katalogu Unity, ale pokud chcete sdílet data z více metastorů s konkrétním uživatelem nebo skupinou uživatelů, musíte pro každý metastor definovat příjemce samostatně. Příjemce může mít přístup k více sdílením.

Pokud poskytovatel odstraní příjemce z metastoru katalogu Unity, ztratí tento příjemce přístup ke všem sdíleným složkám, ke kterým by mohl dříve přistupovat.

Podívejte se na Vytváření a správu příjemců dat pro Delta sdílení (sdílení Databricks-to-Databricks).

Otevřené sdílení versus sdílení Databricks-to-Databricks

Tato část popisuje dva protokoly pro sdílení z pracovního prostoru Databricks, který je povolený pro Katalog Unity.

Note

V této části se předpokládá, že poskytovatel je v pracovním prostoru s podporou katalogu Unity Azure Databricks. Další informace o nastavení serveru s otevřeným zdrojovým kódem pro Delta Sharing pro sdílení z jiné platformy než Databricks nebo z pracovního prostoru, který není Unity Catalog, najdete v github.com/delta-io/delta-sharing.

Způsob, jakým poskytovatel používá rozdílové sdílení v Azure Databricks závisí na tom, s kým sdílí data:

  • Otevření sdílení umožňuje sdílet data s libovolným uživatelem bez ohledu na to, jestli má přístup k Azure Databricks.
  • sdílení Databricks-to-Databricks umožňuje sdílet data s Azure Databricks uživateli, jejichž pracovní prostor je připojený k metastoru katalogu Unity, který se liší od vašeho. Databricks-to-Databricks také podporuje sdílení poznámkových bloků, svazků a modelů, které není dostupné v rámci otevřeného sdílení.

Co znamená open Delta Sharing?

Pokud chcete sdílet data s uživateli mimo pracovní prostor Azure Databricks bez ohledu na to, jestli Databricks používají, můžete k bezpečnému sdílení dat použít open Delta Sharing. Jako poskytovatel dat spravujete ověřování u příjemce sdílení pomocí některé z následujících metod:

  • Vygenerujete dlouhodobý nosný token a bezpečně ho nasdílíte s příjemcem. Tento token používají k ověření a získání přístupu pro čtení k tabulkám, které jste zahrnuli do sdílených složek, ke kterým jste jim udělili přístup.
  • Použijete federaci Open ID Connect (OIDC) a udělíte příjemci krátkodobé tokeny OAuth pro Databricks výměnou za tokeny JWT, které IdP příjemce předává Databricks.

Příjemci můžou ke sdíleným datům přistupovat pomocí mnoha výpočetních nástrojů a platforem, mezi které patří:

  • Azure Databricks
  • Apache Spark
  • Pandas
  • Power BI

Úplný seznam konektorů Delta Sharing a informace o tom, jak je používat, najdete v dokumentaci k Delta Sharing.

Viz také Sdílení dat pomocí protokolu Delta Sharing open sharing (pro poskytovatele).

Co je Databricks-to-Databricks Delta Sharing?

Pokud chcete sdílet data s uživateli, kteří mají pracovní prostor Databricks s povoleným Unity Catalogem, můžete použít sdílení Databricks-to-Databricks Delta. Sdílení Databricks-to-Databricks umožňuje sdílet data s uživateli v jiných účtech Databricks, ať už jsou na AWS, Azure nebo GCP. Je to také skvělý způsob, jak bezpečně sdílet data napříč různými metastory katalogu Unity ve vašem vlastním účtu Databricks. Všimněte si, že pro sdílení dat mezi pracovními prostory připojenými ke stejnému metastoru Unity Catalog není potřeba používat Delta Sharing, protože v tomto případě můžete k řízení přístupu k datům napříč pracovními prostory využít samotný Unity Catalog.

Jednou z výhod sdílení Databricks-to-Databricks je, že příjemce sdílené složky nepotřebuje token pro přístup ke sdílené složce a poskytovatel nemusí spravovat tokeny příjemců. Zabezpečení připojení ke sdílení, včetně veškerého ověřování identity, autentizace a auditování, je spravováno výhradně prostřednictvím Delta Sharing a platformy Databricks. Další výhodou je možnost sdílet soubory poznámkových bloků Databricks, svazky katalogu Unity a modely katalogu Unity.

Viz také Sdílení dat pomocí protokolu Delta Sharing Databricks-to-Databricks (pro poskytovatele).

Jak správci poskytovatele nastavují Delta Sharing?

Tato část obsahuje přehled o tom, jak můžou poskytovatelé povolit Delta Sharing a zahájit sdílení z pracovního prostoru Azure Databricks s podporou katalogu Unity. Delta Sharing projektu open-source najdete na github.com/delta-io/delta-sharing.

Sdílení Databricks-to-Databricks mezi metastory katalogu Unity ve stejném účtu je vždy zapnuto. Pokud jste poskytovatel, který chce povolit sdílení dat s pracovními prostory Databricks v jiných účtech nebo jiných klientech než Databricks, správce účtu Azure Databricks nebo správce metastoru provede následující kroky nastavení (na vysoké úrovni):

  1. Povolte sdílení Delta pro metastore Unity Catalog, který spravuje data, která chcete sdílet.

    Note

    Pokud máte v úmyslu používat funkci Delta Sharing ke sdílení dat pouze s uživateli v jiných metastorech katalogu Unity ve vašem účtu, nemusíte u svého metastoru povolit funkci Sdílení Delta. Sdílení metastoru na metastor v rámci jednoho účtu Azure Databricks je ve výchozím nastavení povolené.

    Viz Povolení rozdílového sdílení v metastoru.

  2. Vytvořte sdílení, které zahrnuje datové prostředky registrované v metapkatalogu Unity Catalog.

    Pokud sdílíte s příjemcem, který není databricks (označovaný jako otevřené sdílení), můžete zahrnout tabulky ve formátu Delta. Pokud plánujete použít sdílení Databricks-to-Databricks, můžete do sdílené složky přidat také zobrazení či pohledy, svazky katalogu Unity, modely katalogu Unity a soubory poznámkových bloků.

    Viz Vytvoření a správa sdílení pro Delta Sharing.

  3. Vytvořte příjemce.

    Podívejte se na Vytváření a správu příjemců dat pro Delta sdílení (sdílení Databricks-to-Databricks).

    Pokud příjemce není uživatelem Databricks nebo nemá přístup k pracovnímu prostoru Databricks, který je povolený pro Katalog Unity, musíte použít otevřené sdílení. Pro daného příjemce můžete buď vygenerovat přihlašovací údaje založené na nosných tokenech, nebo použít federaci OIDC.

    Pokud má váš příjemce přístup k pracovnímu prostoru Databricks, který je povolený pro Unity Catalog, můžete použít sdílení mezi platformami Databricks a nejsou vyžadovány žádné přihlašovací údaje založené na tokenech. Požádáte o identifikátor sdílení od příjemce a použijete ho k navázání zabezpečeného připojení.

    Tip

    Vyzkoušejte si proces nastavení sami sebe jako testovacího příjemce.

  4. Udělte příjemci přístup k jedné nebo více sdíleným složkám.

    Viz Správa přístupu ke sdíleným složkám dat Delta (pro poskytovatele).

    Note

    Tento krok může také provést uživatel, který není správce, s oprávněními USE SHARE, USE RECIPIENT a SET SHARE PERMISSION. Viz referenční informace k oprávněním katalogu Unity.

  5. Pošlete příjemci informace, které potřebují pro připojení ke sdílené složce (jenom otevřené sdílení).

    Pokud chcete otevřít sdílení pomocí nosných tokenů, použijte zabezpečený kanál k odeslání aktivačního odkazu příjemce, který mu umožňuje stáhnout přihlašovací údaje založené na tokenech. Viz Odeslání informací o připojení příjemce.

    Pro otevřené sdílení pomocí federace tokenů OIDC odešlete vygenerovanou adresu URL portálu. Podívejte se na Použití federace Open ID Connect (OIDC) k povolení ověřování na sdíleních Delta Sharing (otevřené sdílení).

    Pro sdílení Databricks do Databricks se data zahrnutá do sdílené složky zpřístupní v pracovním prostoru Databricks příjemce hned po udělení přístupu ke sdílené složce.

Příjemce teď má přístup ke sdíleným datům.

Jak příjemci přistupují ke sdíleným datům?

Příjemci přistupují ke sdíleným datovým prostředkům ve formátu jen pro čtení. Sdílené soubory poznámkového bloku jsou jen pro čtení, ale dají se naklonovat a pak upravit a spustit v pracovním prostoru příjemce stejně jako jakýkoli jiný poznámkový blok.

Zabezpečený přístup závisí na modelu sdílení:

Kdykoli poskytovatel dat aktualizuje tabulky dat nebo svazky ve svém vlastním účtu Databricks, aktualizace se zobrazí téměř v reálném čase v systému příjemce. Informace o přístupu k datům sdíleným s vámi pomocí rozdílového sdílení najdete v tématu Přístup k datům sdíleným s vámi pomocí rozdílového sdílení (pro příjemce).

Jak sledujete, kdo sdílí sdílená data a přistupuje k němu?

Poskytovatelé dat v pracovních prostorech s Azure Databricks podporou katalogu Unity můžou pomocí Azure Databricks protokolování auditu a systémových tabulek monitorovat vytváření a úpravy sdílených složek a příjemců a můžou monitorovat aktivity příjemců ve sdílených složkách. Viz Audit a monitorování sdílení dat.

Příjemci dat, kteří používají sdílená data v pracovním prostoru Databricks, můžou pomocí protokolování auditu Databricks a systémových tabulek zjistit, kdo k jakým datům přistupuje. Viz Audit a monitorování sdílení dat.

Sdílení svazků

Svazky můžete sdílet pomocí procesu sdílení mezi instancemi Databricks. Viz Přidání svazků do sdílené složky (pro poskytovatele) a čtení dat sdílených pomocí Databricks-to-Databricks Delta Sharing (pro příjemce) (pro příjemce).

Sdílení modelů

Modely můžete sdílet pomocí procesu sdílení Databricks-to-Databricks. Viz Přidání modelů do sdílené složky (pro poskytovatele) a čtení dat sdílených pomocí Databricks-to-Databricks Delta Sharing (pro příjemce) (pro příjemce).

Sdílení poznámkových bloků

Pomocí Delta Sharing můžete sdílet soubory poznámkových bloků pomocí sdílení Databricks-to-Databricks. Viz Přidání souborů poznámkového bloku do sdílené složky (pro poskytovatele) a čtení sdílených poznámkových bloků (pro příjemce).

Omezení přístupu na úrovni řádků a sloupců při sdílení zobrazení

Můžete sdílet dynamická zobrazení, která omezují přístup k určitým datům tabulky na základě vlastností příjemce. Viz Přidání dynamických zobrazení do sdílené složky pro filtrování řádků a sloupců.

Delta Sharing a streamování

Delta Sharing podporuje strukturované streamování v Apache Spark. Poskytovatel může sdílet tabulku s historií nebo streamovanou tabulkou, aby ji příjemce mohl používat jako zdroj strukturovaného streamování, zpracovávat sdílená data přírůstkově s nízkou latencí. Příjemci můžou také provádět časové dotazy Delta Lake na tabulkách sdílených s historií.

Informace o sdílení tabulek s historií najdete v tématu Přidání tabulek do sdílené složky. Informace o použití sdílených tabulek jako zdrojů streamování najdete v tématu Dotazování tabulky pomocí strukturovaného streamování Apache Sparku (pro příjemce sdílení Databricks-to-Databricks) nebo Přístup ke sdílené tabulce pomocí strukturovaného streamování Sparku (pro příjemce otevřených dat sdílení).

Informace o sdílení streamovaných tabulek najdete v tématu Přidání streamovaných tabulek do sdílené složky.

Viz také koncepty strukturovaného streamování.

Matice podpory funkcí Delta Lake

Delta Sharing podporuje většinu funkcí Delta Lake při sdílení tabulky. Tato matice podpory uvádí:

  • Funkce Delta, které vyžadují konkrétní verze Databricks Runtime, opensourcový konektor Delta Sharing Spark nebo opensourcový konektor Delta Sharing Python.
  • Částečně podporované funkce.
Feature Provider Příjemce Databricks Příjemce otevřeného zdroje
Vektory odstranění
  • Sdílení tabulek s touto funkcí je ve verzi Public Preview.
  • Tabulky musí být sdíleny s historií.
  • Databricks Runtime 14.1 a vyšší pro dávkové dotazy
  • Databricks Runtime 14.2 nebo novější pro dotazy CDF a streamování
  • Konektor Delta Sharing Spark 3.1 nebo novější
  • Delta Sharing Python Connector 1.1.0+
  • Power BI verze 2.132.908.0+
Mapování sloupců
  • Sdílení tabulek s touto funkcí je ve verzi Public Preview.
  • Tabulky musí být sdíleny s historií.
  • Databricks Runtime 14.1 a vyšší pro dávkové dotazy
  • Databricks Runtime 14.2 nebo novější pro dotazy CDF a streamování
  • Konektor Delta Sharing Spark 3.1 nebo novější
  • Podporované v konektoru limitations v konektoru Delta Sharing Python
  • Power BI verze 2.132.908.0+
Jednotný formát
  • Sdílení tabulek s touto funkcí je ve verzi Public Preview.
  • Tabulky musí být sdíleny s historií.
  • Databricks Runtime 14.1 a vyšší pro dávkové dotazy
  • Databricks Runtime 14.2 nebo novější pro dotazy CDF a streamování
  • Konektor Delta Sharing Spark 3.1 nebo novější
  • Delta Sharing Python Connector 1.1.0+
  • Power BI verze 2.132.908.0+
Kontrolní bod V2 Podporováno s omezeními Podporováno s omezeními Podporováno s omezeními
TimestampNTZ Supported Databricks Runtime 14.1 nebo novější Konektor Delta Sharing Spark 3.3 nebo novější
Shlukování kapalin Podporováno s omezeními Podporováno s omezeními Podporováno s omezeními

Nejčastější dotazy ke sdílení Delta

Nejčastější dotazy týkající se Delta Sharingu.

Potřebuji katalog Unity k používání Delta Sharing?

Ne, ke sdílení (jako poskytovatel) nebo ke využívání sdílených dat (jako příjemce) nepotřebujete katalog Unity. Katalog Unity však poskytuje výhody, jako je podpora pro sdílení netabulárních prostředků a AI, integrované zásady správy, jednoduchost a efektivní výkon dotazů.

Poskytovatelé můžou sdílet data dvěma způsoby:

  • Prostředky, které chcete sdílet, umístěte do správy katalogu Unity a sdílejte je pomocí integrovaného serveru pro sdílení Azure Databricks Delta.

    Nemusíte migrovat veškeré prostředky do katalogu Unity. Ke správě prostředků, které chcete sdílet, potřebujete jenom jeden pracovní prostor Azure Databricks, který je povolený pro katalog Unity. V některých účtech jsou nové pracovní prostory pro Unity Catalog povolené automaticky. Viz Automatické zapnutí katalogu Unity.

  • Implementujte server open Delta Sharing ke sdílení dat, aniž byste museli používat váš účet Azure Databricks.

Příjemci můžou data využívat dvěma způsoby:

  • Bez pracovního prostoru Databricks. Použijte konektory pro open source Delta Sharing, které jsou k dispozici pro mnoho datových platforem, včetně Power BI, pandas a open source Apache Sparku. Viz Číst data sdílená pomocí Delta Sharing otevřeného sdílení s bearer tokeny a projekt Delta Sharing open source.

  • V pracovním prostoru Databricks. Pracovní prostory příjemců nemusí být povoleny pro Unity katalog, ale pokud ano, přináší to výhody v oblasti správy, jednoduchosti a výkonu.

    Organizace, které chtějí tyto výhody, nemusí migrovat všechny prostředky do Unity Catalogu. Ke správě prostředků sdílených s vámi potřebujete jenom jeden pracovní prostor Azure Databricks, který je povolený pro katalog Unity. V některých účtech jsou nové pracovní prostory pro Unity Catalog povolené automaticky. Viz Automatické zapnutí katalogu Unity.

Viz Čtení dat sdílených pomocí Delta Sharing s otevřeným sdílením pomocí nosných tokenů a Čtení dat sdílených pomocí Databricks-to-Databricks Delta Sharing (pro příjemce).

Musím být zákazníkem Databricks, aby bylo možné používat funkci Delta Sharing?

Ne, Delta Sharing je otevřený protokol. Data, která nejsou data Databricks, můžete sdílet s příjemci na libovolné datové platformě. Poskytovatelé mohou nakonfigurovat otevřený server Delta Sharing pro sdílení na základě libovolné výpočetní platformy. Příjemci můžou využívat sdílená data pomocí konektorů open source Delta Sharing pro mnoho datových produktů, včetně Power BI, knihovny pandas a open source Sparku.

Použití rozdílového sdílení na Azure Databricks, zejména sdílení z pracovního prostoru s podporou katalogu Unity, má ale mnoho výhod.

Podrobnosti najdete v první otázce v tomto nejčastějším dotazu.

Jak mohu zjistit a kontrolovat náklady na Delta Sharing?

Náklady na Delta Sharing vznikají při sdílení a přístupu k zobrazením, materializovaným pohledům a streamovaným tabulkám. Toto jsou potenciální zdroje nákladů pro sdílení:

  • Náklady na výpočetní prostředky účtované Azure Databricks
  • Náklady na úložiště a přenos sítě (výchozí přenos dat) účtované dodavatelem úložiště.
  • Náklady na cizí zdroj výpočetních prostředků při sdílení cizích schémat a tabulek

Metoda, pomocí které se výpočty provádějí a kdo za ni platí, závisí na několika faktorech:

  • Typ výpočetního prostředí příjemce
  • Jestli se sdílení vyskytuje ve stejném Azure Databricks účtu nebo napříč účty

Následující tabulka popisuje způsob fakturace pro sdílení a přístup k zobrazením pomocí Delta Sharing:

Výpočetní kapacita příjemce Vztah účtu Kdo platí Skladová položka použitá pro fakturaci Metoda přístupu
Databricks Serverless Any Recipient* Bezserverová služba příjemce Příjemce obdrží přímý přístup k podkladovým datům.
Databricks Classic Stejný účet Recipient* Klasický příjemce Příjemce obdrží přímý přístup k podkladovým datům.
Databricks Classic Jiný účet Recipient Interaktivní bezserverová aplikace poskytovatele Zprostředkovatel provádí filtrování.
Konektory pro sdílení Delta Any Provider Interaktivní bezserverová aplikace poskytovatele Zprostředkovatel provádí filtrování.

* Pokud používáte Delta Sharing s příjemcem používajícím bezserverový výpočet v jiném účtu nebo s příjemcem ve stejném účtu, žádné přírůstkové poplatky se neúčtují. To znamená, že neexistuje žádné další náklady na materializaci datového assetu.

Při sdílení cizích tabulek (Beta) se materializace vždy provádí a ukládá na straně poskytovatele. U cizích tabulek Iceberg se materializace provádí na straně poskytovatele při sdílení s otevřeným příjemcem, který nepoužívá klienta Icebergu. Poskytovatelé mohou narazit na další poplatky související s výchozím úložištěm používaným pro materializaci dat. Během beta verze nejsou žádné náklady na výpočetní prostředky pro cizí tabulky.

Přisuzování fakturace je také možné dotazovat pomocí odkazu na systémovou tabulku fakturovatelného využití a odkazu na systémovou tabulku historie materializace Delta Sharing. Pokud příjemce zaplatí za přisuzování, uvidí v systémové tabulce přidružený záznam pouze příjemce. Například dotazy najdete v části Ukázkové dotazy.

Vznikají při používání Delta Sharing poplatky za odchozí přenos dat?

Při používání funkce Delta Sharing v rámci oblasti nevznikají žádné náklady na výstup dat. Na rozdíl od jiných platforem pro sdílení dat Delta Sharing nevyžaduje replikaci dat. Tento model má mnoho výhod, ale znamená to, že dodavatel cloudu může účtovat poplatky za výchozí přenos dat při sdílení dat mezi cloudy nebo oblastmi. Azure Databricks podporuje sdílení z Cloudflare R2, které neúčtují žádné poplatky za výchozí přenos dat, a poskytuje další nástroje a doporučení pro monitorování a zabránění poplatkům za výchozí přenos dat. Viz Sledování a řízení nákladů na odchozí přenos dat Delta Sharing (pro poskytovatele).

Mají příjemci přímý přístup k podkladovým datům ve sdílených zobrazeních, materializovaných zobrazeních a streamovaných tabulkách?

U sdílených zobrazení, materializovaných zobrazení a streamovaných tabulek má příjemce dat přímý přístup, pokud platí jedna z následujících možností:

  • Příjemce používá bezserverové výpočetní prostředky nebo ne vyhrazené klasické výpočetní prostředky na stejném Azure Databricks účtu.
  • Příjemce používá bezserverové výpočetní prostředky na jiném Azure Databricks účtu.

V opačném případě se data materializují a filtrují na straně poskytovatele.

Materializovaná data jsou uložena v umístění hlavního úložiště sdíleného datového objektu.

Při sdílení materializovaných prostředků výpočetní procesy zpracují požadavek použitím nezbytných filtrů a vytvořením dočasného materializování uloženého v úložišti poskytovatele. Tato filtrovaná data se doručují příjemcům pomocí předem podepsaných krátkodobých adres URL a zajišťují zabezpečený přístup při zachování řízení přístupu mezi zprostředkovateli a příjemcem.

Architektura materializovaného přístupu k datům

Můžou poskytovatelé odvolat přístup příjemce?

Ano, přístup příjemce může být odvolán na vyžádání a na zadaných úrovních podrobností. Můžete odepřít přístup příjemců ke konkrétním sdíleným složkám a konkrétním IP adresám, filtrovat tabulková data pro příjemce, odvolat tokeny příjemců a zcela odstranit příjemce. Viz Zrušit přístup příjemce ke sdílení a Vytváření a správa příjemců dat pro Delta Sharing (pro sdílení Databricks-to-Databricks).

Není nezabezpečené používat předem podepsané adresy URL?

Delta Sharing používá předem podepsané adresy URL k poskytování dočasného přístupu k souboru v úložišti objektů. Dostanou se jenom příjemcům, kteří už mají přístup ke sdíleným datům. Jsou zabezpečené, protože jsou krátkodobé a nezvětšují úroveň přístupu nad rámec toho, co už mají příjemci udělené.

Jsou tokeny používané v protokolu pro otevřené sdílení Delta Sharing zabezpečené?

Protože Delta Sharing umožňuje sdílení mezi platformami – na rozdíl od jiných dostupných platforem pro sdílení dat – protokol sdílení vyžaduje otevřený token. Poskytovatelé můžou zajistit zabezpečení tokenů konfigurací doby života tokenu, nastavením síťových ovládacích prvků a odvoláním přístupu na vyžádání. Token navíc nezvětší úroveň přístupu nad rámec toho, co příjemci už mají udělené. Viz Aspekty zabezpečení pro tokeny.

Pokud nechcete používat tokeny ke správě přístupu ke sdíleným složkám příjemců, měli byste použít sdílení Databricks k Databricks nebo kontaktovat tým účtu Databricks pro alternativy.

Jaký je rozdíl mezi Lakeflow Connect a Delta Sharing?

Delta Sharing umožňuje bezpečně sdílet aktuální data v rámci různých platforem, cloudů a oblastí. Databricks doporučuje příjem dat pomocí spravovaných konektorů, protože se škálují tak, aby vyhovovaly vysokým objemům dat, dotazům s nízkou latencí a omezením rozhraní API třetích stran. Možná se budete chtít dotazovat na data, aniž byste je museli přesouvat.

Pokud máte na výběr mezi spravovanými konektory a Delta Sharing, zvolte Delta Sharing pro následující scénáře:

  • Omezení duplikace dat
  • Získávání nejnovějších možných dat

omezení

Podpora formátu tabulky a funkcí

Požadavky na formát:

Nepodporované tabulky:

  • Poskytovatelé nemůžou sdílet tabulky, které používají tekuté klastrování s filtrováním oddílů.
  • Zprostředkovatelé nemůžou sdílet tabulky R2 s kontrolním bodem V2.
  • Zprostředkovatelé nemůžou sdílet tabulky s povolenými kolacemi.
  • Zprostředkovatelé nemůžou sdílet tabulky s filtry řádků nebo maskami sloupců.
  • Zprostředkovatelé nemůžou sdílet SHALLOW CLONE tabulky. Azure Databricks nepodporuje adresy URL předběžného přiřazení pro protokoly Delta, které odkazují na absolutní cesty.
  • Poskytovatelé nemůžou sdílet spravované tabulky Iceberg s externími klienty Icebergu. Viz Přidání spravovaných tabulek Iceberg do sdílené složky a povolení sdílení externím klientům Icebergu.
  • Omezení cizího klíče nejsou ve sdílených tabulkách k dispozici.

Sdílení mezi Databricks a Databricks

Následující prostředky je možné sdílet pouze pomocí toku sdílení Databricks-to-Databricks:

Views

Streamování

  • Delta Sharing nepodporuje změnu responseFormat, když je zdroj streamování spuštěn nebo během restartů streamování.

Metadata příjemce

  • Tabulky ze information_schema sdíleného katalogu odrážejí metadata uložená v katalogu Unity. Tato metadata se aktualizují od zprostředkovatele pouze v případě, že dotazujete sdílenou tabulku přímo nebo spustíte příkaz, například DESCRIBE nebo REFRESH FOREIGN. Do té doby information_schema může být ve srovnání s daty poskytovatele zastaralá.

Omezení prostředků a technických omezení

  • Existuje omezení počtu souborů v metadatech povolených pro sdílenou tabulku. Další informace najdete v tématu Chyby překročení limitu prostředků.
  • Schémata pojmenovaná information_schema nelze importovat do metastoru katalogu Unity, protože tento název schématu je vyhrazen v katalogu Unity.

Viz také matice podpory funkcí Delta Lake.

Kaskádové odstranění obejití ochrany sdílených složek

Odstranění nadřazeného objektu, jako je katalog nebo schéma, aktivuje kaskádové odstranění podřízených objektů, i když jsou tyto podřízené objekty zahrnuty do aktivních sdílených složek. Po kaskádovém odstranění se aktivum nedá znovu přidat do sdílení se stejným názvem.

Abyste se tomuto problému vyhnuli, před odstraněním nadřazených objektů odeberte prostředky ze všech sdílených složek.

Kvóty prostředků

Azure Databricks vynucuje kvóty prostředků pro všechny zabezpečitelné objekty Delta Sharing. Tyto kvóty jsou uvedené v omezeních prostředků. Pokud očekáváte, že tyto limity prostředků překročíte, obraťte se na tým Azure Databricks účtu.

Využití kvóty můžete monitorovat pomocí rozhraní API kvót katalogu Unity. Viz Monitorování využití kvót prostředků katalogu Unity.

Další kroky