Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Na této stránce najdete přehled funkcí a doporučení pro zpřístupnění dat spravovaných a spravovaných službou Azure Databricks pro jiné systémy.
Tyto vzory se zaměřují na scénáře, ve kterých vaše organizace potřebuje integrovat důvěryhodné nástroje nebo systémy do dat Azure Databricks. Pokud hledáte pokyny ke sdílení dat mimo vaši organizaci, přečtěte si téma Bezpečné sdílení dat a prostředků AI s uživateli v jiných organizacích.
Jaký externí přístup Azure Databricks podporuje?
Azure Databricks doporučuje použití katalogu Unity k řízení všech datových prostředků. Katalog Unity poskytuje integrace klientů Delta Lake pomocí rozhraní Unity REST API a klientů Apache Iceberg pomocí katalogu Iceberg REST. Úplný seznam podporovaných integrací najdete v tématu Integrace katalogu Unity.
Následující tabulka obsahuje přehled formátů podpory a vzorů přístupu pro objekty katalogu Unity.
| Objekt katalogu Unity | Podporované formáty | Vzory přístupu |
|---|---|---|
| Spravované tabulky | Delta Lake, Iceberg | Unity REST API, Iceberg REST katalog, Delta Sharing |
| Externí tabulky | Delta Lake | Unity REST API, katalog Iceberg REST, Delta Sharing, cloudové URI |
| Externí tabulky | CSV, JSON, Avro, Parquet, ORC, textový soubor | Unity REST API, cloudové identifikátory URI |
| Externí svazky | Všechny datové typy | Identifikátory URI cloudu |
| Cizí tabulky | Delta Lake, Iceberg | Unity REST API, katalog Iceberg REST (Preview), Delta Sharing |
| Cizí tabulky | CSV, JSON, Avro, Parquet, ORC, textový soubor | Unity REST API, cloudové identifikátory URI |
* Podporují se pouze cizí tabulky federované pomocí federace katalogu . Aby zákazníci zajistili aktuální čtení z externích enginů na cizích tabulkách, můžou pravidelně aktualizovat metadata pomocí úloh Lakeflow.
Poznámka
Podpora Iceberg popisuje tabulky, které byly v Azure Databricks vytvořeny pomocí Delta Lake, ale s povolením čtení technologií Iceberg (UniForm).
Další podrobnosti o těchto objektech katalogu Unity najdete v následujících tématech:
- Spravované tabulky katalogu Unity v Azure Databricks pro Delta Lake a Apache Iceberg
- Práce s externími tabulkami
- Co jsou svazky katalogu Unity?
Vydávání přihlašovacích údajů katalogu Unity
Přihlašovací údaje katalogu Unity umožňují uživatelům nakonfigurovat externí klienty tak, aby dědily oprávnění k datům, která se řídí službou Azure Databricks. Klienti Iceberg i Delta mohou podporovat zprostředkování přihlašovacích údajů. Podívejte se na poskytování přihlašovacích údajů v katalogu Unity pro přístup k externím systémům.
Čtení tabulek pomocí klientů Delta
Pomocí rozhraní Unity REST API můžete číst spravované a externí tabulky Unity Catalog podporované Delta Lake z podporovaných klientů Delta. Viz Čtení tabulek Databricks z klientů Delta.
Čtení tabulek pomocí klientů Icebergu
Azure Databricks poskytuje klientům Iceberg podporu jen pro čtení pro tabulky zaregistrované ve službě Unity Catalog. Mezi podporované klienty patří Apache Spark, Apache Flink, Trino a Snowflake. Viz Přístup k tabulkám Azure Databricks z klientů Apache Iceberg.
Sdílení tabulek jen pro čtení napříč doménami
S pomocí Delta Sharing můžete poskytnout přístup pouze pro čtení ke spravovaným nebo externím tabulkám Delta v různých doménách a podporovaných systémech. Mezi softwarové systémy, které podporují čtení tabulek Delta Sharing bez kopírování, patří SAP, Amperity a Oracle. Viz Bezpečné sdílení dat a prostředků AI s uživateli v jiných organizacích.
Poznámka
Pomocí Delta Sharing můžete také zákazníkům nebo partnerům udělit přístup jen pro čtení. Delta Sharing také zálohuje data sdílená pomocí Databricks Marketplace.
Vytváření, čtení a zápis externích tabulek Delta
Důležité
Vytváření externích tabulek katalogu Unity z externích klientů Delta Lake je ve verzi Public Preview.
Externí tabulky Katalogu Unity můžete vytvářet, číst a zapisovat z externích klientů Delta Lake pomocí identifikátorů URI a přihlašovacích údajů cloudového úložiště objektů. Pokud chcete vytvořit tabulky, přečtěte si téma Vytvoření externích tabulek Delta z externích klientů.
Katalog Unity neřídí čtení a zápisy prováděné přímo proti cloudovému úložišti objektů z externích systémů, takže musíte nakonfigurovat další zásady a přihlašovací údaje ve vašem cloudovém účtu, abyste zajistili, že zásady správného řízení dat se respektují mimo Azure Databricks.
Poznámka
Dokumentace k Azure Databricks uvádí omezení a aspekty kompatibility na základě verzí a funkcí platformy Databricks Runtime. Musíte potvrdit, jaké protokoly a funkce tabulek čtenáře a zápisu váš klient podporuje. Viz delta.io.
Přístup k tabulkovým datům mimo Delta Lake s externími tabulkami
Externí tabulky Katalogu Unity podporují mnoho jiných formátů než Delta Lake, včetně Parquet, ORC, CSV a JSON. Externí tabulky ukládají všechny datové soubory do adresářů v umístění cloudového úložiště objektů určeném identifikátorem URI cloudu poskytnutého během vytváření tabulky. Jiné systémy k těmto datovým souborům přistupují přímo z cloudového úložiště objektů.
Katalog Unity neřídí čtení a zápisy prováděné přímo proti cloudovému úložišti objektů z externích systémů, takže musíte nakonfigurovat další zásady a přihlašovací údaje ve vašem cloudovém účtu, abyste zajistili, že zásady správného řízení dat se respektují mimo Azure Databricks.
Čtení a zápis do externích tabulek z více systémů může vést k problémům s konzistencí a poškození dat, protože pro jiné formáty než Delta Lake nejsou poskytovány žádné transakční záruky.
Katalog Unity nemusí zaznamenat nové oddíly zapsané do externích tabulek, které jsou zálohovány formáty jinými než Delta Lake. Databricks doporučuje pravidelně spouštět MSCK REPAIR TABLE table_name, aby se zajistilo, že katalog Unity zaregistroval všechny datové soubory zapsané externími systémy.
Přístup k netabulárním datům s externími svazky
Databricks doporučuje používat externí svazky k ukládání ne tabulkových datových souborů, které se čtou nebo zapisují externími systémy, kromě Azure Databricks. Viz Co jsou svazky katalogu Unity?.
Katalog Unity neřídí čtení a zápisy prováděné přímo proti cloudovému úložišti objektů z externích systémů, takže musíte nakonfigurovat další zásady a přihlašovací údaje ve vašem cloudovém účtu, abyste zajistili, že zásady správného řízení dat se respektují mimo Azure Databricks.
Svazky poskytují rozhraní API, sady SDK a další nástroje pro vkládání souborů do svazků a jejich získávání ze svazků. Viz Práce se soubory ve svazcích katalogu Unity.
Poznámka
Delta Sharing umožňuje sdílet data s jinými účty Azure Databricks, ale neintegruje se s externími systémy.