Sdílet prostřednictvím


Výchozí úložiště v Databricks

Tato stránka vysvětluje, jak funguje výchozí úložiště v Azure Databricks a jak vytvořit katalogy a datové objekty, které ho používají.

Co je výchozí úložiště?

Výchozí úložiště je plně spravovaná platforma úložiště objektů, která poskytuje úložiště připravené k použití ve vašem účtu Azure Databricks. Některé funkce Azure Databricks používají výchozí úložiště jako alternativu k externímu úložišti.

Bezserverové pracovní prostory používají výchozí úložiště pro interní úložiště a úložiště pracovních prostorů a pro výchozí katalog, který se vytvoří s pracovním prostorem. V bezserverových pracovních prostorech můžete vytvořit další katalogy buď ve výchozím úložišti, nebo ve vlastním cloudovém úložišti objektů.

V klasických pracovních prostorech i bezserverových pracovních prostorech se výchozí úložiště používá k ukládání věcí, jako jsou metadata řídicí roviny, odvozená data, modely a další artefakty. Například Čisté místnosti, Klasifikace dat, Detekce anomálií a Agent Bricks používají výchozí úložiště pracovního prostoru. Podrobnosti o tom, co jednotlivé funkce ukládají ve výchozím úložišti, najdete v dokumentaci k jednotlivým funkcím.

Požadavky

  • Vytváření katalogů ve výchozím úložišti je dostupné jenom v bezserverových pracovních prostorech (Public Preview).
  • Ve výchozím nastavení jsou katalogy, které používají výchozí úložiště, přístupné pouze z pracovního prostoru, ve kterém jsou vytvořeny. Jiným pracovním prostorům můžete udělit přístup, včetně klasických pracovních prostorů, ale pro přístup k datům v katalogu musí používat bezserverové výpočetní prostředky. Viz Omezení přístupu katalogu ke konkrétním pracovním prostorům.
  • Abyste mohli vytvořit katalog s výchozím úložištěm, musíte mít CREATE CATALOG oprávnění. Viz oprávnění katalogu Unity a zabezpečitelné objekty.
  • Pokud váš klient používá ovladač ODBC Azure Databricks pro přístup k výchozímu katalogu úložiště za bránou firewall, musíte bránu firewall nakonfigurovat tak, aby umožňovala přístup k bránám regionálního úložiště Azure Databricks. Podrobnosti o IP adrese a názvu domény pro výchozí úložiště najdete v tématu IP adresy a domény pro služby a prostředky Azure Databricks.

Vytvoření nového katalogu

Pomocí následujících kroků vytvořte nový katalog pomocí výchozího úložiště:

  1. Klikněte na ikonu Data.Katalog na bočním panelu Zobrazí se Průzkumník katalogu.
  2. Klikněte na Vytvořit katalog. Zobrazí se dialogové okno Vytvořit nový katalog .
  3. Zadejte název katalogu , který je ve vašem účtu jedinečný.
  4. Vyberte možnost Použít výchozí úložiště.
  5. Klikněte na Vytvořit.

V bezserverových pracovních prostorech můžete k vytvoření nového katalogu ve výchozím úložišti použít také následující příkaz SQL. Nemusíte zadávat umístění katalogu.

CREATE CATALOG [ IF NOT EXISTS ] catalog_name
    [ COMMENT comment ]

Práce s výchozím úložištěm

Všechny interakce s výchozím úložištěm vyžadují výpočetní prostředky s podporou katalogu Unity bez serveru.

Prostředky zálohované ve výchozím nastavení používají stejný model oprávnění jako jiné objekty v katalogu Unity. Musíte mít dostatečná oprávnění k vytvoření, zobrazení, dotazování nebo úpravě datových objektů. Viz oprávnění katalogu Unity a zabezpečitelné objekty.

S výchozím úložištěm pracujete tak, že vytváříte spravované tabulky a spravované svazky a pracujete s nimi ve výchozím nastavení. Podívejte se na tabulky spravované službou Unity Catalog v Azure Databricks pro Delta Lake a Apache Iceberg a co jsou svazky katalogu Unity?

K interakci s datovými objekty uloženými ve výchozím úložišti můžete použít Průzkumníka katalogu, poznámkové bloky, editor SQL a řídicí panely.

Ukázkové úkoly

Tady jsou příklady úloh, které můžete dokončit s výchozím úložištěm:

Omezení

Platí následující omezení:

  • Klasické výpočetní prostředky (jakékoli výpočetní prostředky, které nejsou bez serveru) nemůžou pracovat s datovými prostředky ve výchozím úložišti.
  • Rozdílové sdílení podporuje sdílení tabulek s libovolným příjemcem – otevřeným nebo Azure Databricks – a příjemci můžou pro přístup ke sdíleným tabulkám používat klasické výpočetní prostředky (beta verze). Povolte funkci Rozdílové sdílení pro výchozí úložiště – rozšíření přístupu v konzole účtu.
    • Tato funkce není podporována v následujících oblastech: southcentralus, uksoutha westus2.
    • Všechny ostatní sdíletelné prostředky se dají sdílet jenom s příjemci Azure Databricks ve stejném cloudu. Příjemci musí používat bezserverové výpočetní prostředky.
  • Tabulky s povoleným dělením nelze sdílet.
  • Externí klienti Iceberg a Delta nemají přímý přístup k podkladovým metadatům, seznamu manifestů a datovým souborům pro tabulky UC ve výchozím úložišti (přístup FileIO se nepodporuje). Nástroje BI, jako jsou Power BI a Tableau, ale mají přístup k tabulkám katalogu Unity ve výchozím úložišti pomocí ovladačů ODBC a JDBC. Externí klienti mají také přístup ke svazkům katalogu Unity ve výchozím úložišti pomocí rozhraní Files API.
  • Výchozí úložiště podporuje externí přístup prostřednictvím ovladačů ODBC a JDBC Azure Databricks, včetně optimalizace výkonu Cloud Fetch ovladače ODBC pro dotazy nad většími datovými sadami. Pokud ale přistupujete k výchozí tabulce úložiště z pracovního prostoru s povoleným front-endovým privátním propojením, dotazy klienta ODBC větší než 100 MB selžou, protože optimalizace načítání cloudu pro výchozí tabulky úložiště aktuálně nepodporuje front-end Private Link.