Sdílet prostřednictvím


Komponenty Azure Databricks

Tento článek představuje základní komponenty, kterým potřebujete porozumět, aby bylo možné efektivně používat Azure Databricks.

Účty a pracovní prostory

V Azure Databricks je pracovní prostor nasazením Azure Databricks v cloudu, které funguje jako prostředí pro váš tým pro přístup k prostředkům Databricks. Vaše organizace se může rozhodnout, že bude mít v závislosti na svých potřebách více pracovních prostorů nebo jenom jeden pracovní prostor.

Účet Azure Databricks představuje jednu entitu, která může obsahovat více pracovních prostorů. Účty povolené pro Katalog Unity je možné použít ke správě uživatelů a jejich přístupu k datům centrálně ve všech pracovních prostorech v účtu.

Fakturace: Jednotky Databricks (DBU)

Azure Databricks účtuje faktury na základě jednotek Databricks (DBU), což jsou jednotky schopností zpracování za hodinu na základě typu instance virtuálního počítače.

Podívejte se na stránku s cenami Azure Databricks.

Ověřování a autorizace

Tato část popisuje koncepty, které potřebujete vědět, když spravujete identity Azure Databricks a jejich přístup k prostředkům Azure Databricks.

Uživatel

Jedinečný jednotlivec, který má přístup k systému. Identity uživatelů jsou reprezentovány e-mailovými adresami. Viz Správa uživatelů.

Principál služby

Identita služby pro použití s úlohami, automatizovanými nástroji a systémy, jako jsou skripty, aplikace a platformy CI/CD. Principálové služeb jsou reprezentováni identifikátorem aplikace. Viz principály služeb.

Skupina

Kolekce identit. Skupiny zjednodušují správu identit, což usnadňuje přiřazování přístupu k pracovním prostorům, datům a dalším zabezpečitelným objektům. Všechny identity Databricks je možné přiřadit jako členy skupin. Viz Skupiny.

Seznam řízení přístupu (ACL)

Seznam oprávnění připojených k pracovnímu prostoru, clusteru, úloze, tabulce nebo experimentu ACL určuje, kteří uživatelé nebo systémové procesy mají udělený přístup k objektům a jaké operace jsou na těchto předmětech povoleny. Každá položka v typickém seznamu ACL určuje předmět a operaci. Viz seznamy řízení přístupu.

Osobní přístupový token (PAT)

Osobní přístupový token je řetězec používaný pro ověřování volání rozhraní REST API, připojení technologických partnerů a dalších nástrojů. Viz Ověřování pomocí osobních přístupových tokenů Azure Databricks (dřívější systém).

Tokeny ID Microsoft Entra je možné použít také k ověření v rozhraní REST API.

Rozhraní Azure Databricks

Tato část popisuje rozhraní pro přístup k prostředkům v Azure Databricks.

uživatelské rozhraní

Uživatelské rozhraní Azure Databricks je grafické rozhraní pro interakci s funkcemi, jako jsou složky pracovního prostoru a jejich obsažené objekty, datové objekty a výpočetní prostředky.

REST API

Rozhraní Databricks REST API poskytuje koncové body pro úpravy nebo vyžádání informací o účtu Azure Databricks a objektech pracovního prostoru. Viz referenční informace k účtu a referenční informace k pracovnímu prostoru.

SQL REST API

Rozhraní SQL REST API umožňuje automatizovat úlohy u objektů SQL. Viz rozhraní SQL API.

CLI

Rozhraní příkazového řádku Databricks je hostované na GitHubu. Rozhraní příkazového řádku je postavené na rozhraní REST API Databricks.

Správa dat

Tato část popisuje nástroje a logické objekty používané k uspořádání a řízení dat v Azure Databricks. Viz Databázové objekty v Azure Databricks.

Katalog Unity

Unity Catalog je jednotné řešení zásad správného řízení pro data a prostředky AI v Azure Databricks, které poskytuje centralizované řízení přístupu, auditování, rodokmen a možnosti zjišťování dat napříč pracovními prostory Databricks. Podívejte se na Co je Unity Catalog?

Katalog

Katalogy jsou kontejner nejvyšší úrovně pro uspořádání a izolování dat v Azure Databricks. Katalogy můžete sdílet mezi pracovními prostory v rámci stejné oblasti a účtu. Podívejte se na to, co jsou katalogy v Azure Databricks?

Schéma

Schémata, označovaná také jako databáze, jsou obsažená v katalogu a poskytují podrobnější úroveň organizace. Obsahují databázové objekty a prostředky AI, jako jsou svazky, tabulky, funkce a modely. Podívejte se, co jsou schémata v Azure Databricks?

Stůl

Tabulky uspořádají a řídí přístup k strukturovaným datům. Dotazujete tabulky pomocí Apache Spark SQL a rozhraní Apache Spark API. Viz tabulky Azure Databricks.

Zobrazit

Zobrazení je objekt jen pro čtení odvozený z jedné nebo více tabulek a zobrazení. Zobrazení ukládají dotazy, které jsou definovány pro tabulky. Viz co je zobrazení?.

Objem

Svazky představují logický svazek úložiště v cloudovém objektovém úložišti a organizují a řídí přístup k netabulkovým datům. Databricks doporučuje používat svazky pro správu veškerého přístupu k ne tabulkovým datům v cloudovém úložišti objektů. Podívejte se, co jsou svazky katalogu Unity?

Tabulky Delta

Ve výchozím nastavení jsou všechny tabulky vytvořené v Azure Databricks tabulky Delta. Tabulky Delta jsou založené na opensourcovém projektu Delta Lake. Jde o architekturu pro vysoce výkonné úložiště tabulek ACID v cloudových úložištích objektů. Tabulka Delta ukládá data jako adresář souborů v cloudovém úložišti objektů a registruje metadata tabulek do metastoru v rámci katalogu a schématu.

Metastore

Katalog Unity poskytuje metastore na úrovni účtu, který registruje metadata o datech, umělé inteligenci a oprávněních k katalogům, schématům a tabulkám. Viz Metastore.

Azure Databricks poskytuje starší verzi úložiště Hive pro zákazníky, kteří ještě nepřijali katalog Unity. Viz Kontrola přístupu k tabulce Hive metastore (starší verze).

Průzkumník katalogu

Průzkumník katalogu umožňuje zkoumat a spravovat data a prostředky AI, včetně schémat (databází), tabulek, modelů, svazků (ne tabulkových dat), funkcí a registrovaných modelů ML. Můžete ho použít k vyhledání datových objektů a vlastníků, porozumění relacím dat mezi tabulkami a správě oprávnění a sdílení. Podívejte se, co je Průzkumník katalogu?

Kořen DBFS

Důležité

Ukládání a přístup k datům pomocí kořenového adresáře DBFS nebo připojení DBFS je zastaralý vzor, který databricks nedoporučuje. Místo toho databricks doporučuje ke správě přístupu ke všem datům používat katalog Unity. Podívejte se na Co je Unity Catalog?

Kořen DBFS je standardně úložiště dostupné všem uživatelům. Podívejte se na Co je DBFS?

Správa výpočtů

Tato část popisuje koncepty, které potřebujete vědět, abyste mohli spouštět výpočty v Azure Databricks.

Klastr

Sada výpočetních prostředků a konfigurací, na kterých spouštíte poznámkové bloky a úlohy. Existují dva typy clusterů: všestranné a pracovní. Viz Výpočty.

  • Cluster pro všechny účely vytvoříte pomocí uživatelského rozhraní, rozhraní příkazového řádku nebo rozhraní REST API. Cluster pro obecné účely můžete ručně ukončit a restartovat. Takové clustery mohou být sdíleny mezi několika uživateli, kteří spolupracují na interaktivní analýze.
  • Plánovač úloh Azure Databricks vytvoří cluster úloh při spuštění úlohy v novém clusteru úloh a po dokončení úlohy cluster ukončí. Cluster úloh nelze restartovat.

Bazén

Sada nečinných instancí připravených k použití, které snižují dobu spuštění a automatického škálování clusteru. Když je cluster připojený k fondu, přidělí své ovladače a pracovní uzly z tohoto fondu. Viz referenční informace o konfiguraci fondu.

Pokud fond nemá dostatek nečinných prostředků k vyhovění požadavku clusteru, fond se rozšíří přidělením nových instancí od poskytovatele instancí. Po ukončení připojeného clusteru se instance, které používá, vrátí do fondu a dají se znovu použít jiným clusterem.

Runtime Databricks

Sada základních komponent, které běží na clusterech spravovaných službou Azure Databricks. Viz Výpočty. Azure Databricks má následující běhová prostředí:

  • Databricks Runtime zahrnuje Apache Spark, ale také přidává řadu komponent a aktualizací, které podstatně zlepšují použitelnost, výkon a zabezpečení analýz velkých objemů dat.
  • Databricks Runtime pro Machine Learning je založen na databricks Runtime a poskytuje předem připravenou infrastrukturu strojového učení, která je integrovaná se všemi funkcemi pracovního prostoru Azure Databricks. Obsahuje několik oblíbených knihoven, včetně TensorFlow, Keras, PyTorch a XGBoost.

Uživatelské rozhraní úloh a toků

Uživatelské rozhraní pracovního prostoru Úlohy a Kanály poskytuje přístup k rozhraním Úlohy, Lakeflow Spark Deklarativní Kanály a Lakeflow Connect, což jsou nástroje umožňující orchestraci a plánování pracovních postupů.

Úlohy

Neinteraktivní mechanismus pro orchestraci a plánování poznámkových bloků, knihoven a dalších úloh. Podívejte se na úlohy Lakeflow

Pipelines

Deklarativní kanály Sparku pro Lakeflow poskytují deklarativní architekturu pro vytváření spolehlivých, udržovatelných a testovatelných kanálů zpracování dat. Viz deklarativní kanály Sparku Lakeflow.

Pracovní zátěž

Úloha je množství schopností zpracování potřebných k provedení úlohy nebo skupiny úkolů. Azure Databricks identifikuje dva typy pracovních zátěží: datové inženýrství (job) a datovou analytiku (všeobecný účel).

  • Příprava dat Úloha (automatizovaná) běží v clusteru úloh , který pro každou úlohu vytvoří plánovač úloh Azure Databricks.
  • Analýza dat Úloha (interaktivní) běží v clusteru pro všechny účely. Interaktivní úlohy obvykle spouštějí příkazy v poznámkovém bloku Azure Databricks. Spuštění úlohy v existujícím clusteru pro všechny účely se ale považuje za interaktivní úlohu.

Kontext spuštění

Stav prostředí REPL (Read-Eval-Print loop) pro každý podporovaný programovací jazyk. Podporované jazyky jsou Python, R, Scala a SQL.

Příprava dat

Nástroje pro přípravu dat pomáhají spolupráci mezi datovými vědci, datovými inženýry, datovými analytiky a inženýry strojového učení.

Pracovní prostor

Pracovní prostor je prostředí pro přístup ke všem vašim prostředkům Azure Databricks. Pracovní prostor organizuje objekty (poznámkové bloky, knihovny, řídicí panely a experimenty) do složek a poskytuje přístup k datovým objektům a výpočetním prostředkům.

Zápisník

Webové rozhraní pro vytváření pracovních postupů datových věd a strojového učení, které může obsahovat spouštěné příkazy, vizualizace a text vyprávění. Viz poznámkové bloky Databricks.

Knihovna

Balíček kódu dostupný pro poznámkový blok nebo úlohu spuštěnou v clusteru. Runtime Databricks obsahují mnoho knihoven a můžete také nahrát vlastní. Viz Instalace knihoven.

Složka Git (dříve Repos)

Složka, jejíž obsah je společně spolu verzován pomocí synchronizace do vzdálenému Git repozitáři. Složky Gitu Databricks se integrují s Gitem, aby poskytovaly správu zdrojového kódu a správy verzí pro vaše projekty.

AI a strojové učení

Databricks poskytuje integrované komplexní prostředí se spravovanými službami pro vývoj a nasazování aplikací umělé inteligence a strojového učení.

Mozaika AI

Název značky produktů a služeb od společnosti Databricks Mosaic AI Research, což je tým výzkumných pracovníků a techniků zodpovědných za největší převraty v oblasti generativní umělé inteligence. Produkty Mosaic AI zahrnují funkce ML a AI v Databricks. Viz Mosaic Research.

Výpočetní prostředí strojového učení

Databricks poskytuje prostředí Databricks Runtime pro Machine Learning, které automatizuje vytváření výpočetních prostředků pomocí předem vytvořené infrastruktury strojového učení a hlubokého učení, včetně nejběžnějších knihoven ML a DL. Má také integrovanou předem nakonfigurovanou podporu GPU, včetně ovladačů a podpůrných knihoven. Projděte si informace o nejnovějších verzích s poznámkami k vydání a kompatibilitě Databricks Runtime.

Pokus

Kolekce běhů MLflow pro trénink modelu strojového učení. Viz Uspořádání trénovacích běhů pomocí experimentů MLflow.

Funkce

Funkce jsou důležitou součástí modelů ML. Úložiště funkcí umožňuje sdílení a zjišťování funkcí ve vaší organizaci a také zajišťuje, aby se pro trénování a odvozování modelů používal stejný výpočetní kód funkcí. Viz úložiště funkcí Databricks.

Modely generativní AI

Databricks podporuje zkoumání, vývoj a nasazení modelů generující umělé inteligence, včetně těchto:

Rejstřík modelů

Databricks poskytuje hostované verze registru modelů MLflow v katalogu Unity. Modely zaregistrované v katalogu Unity dědí centralizované řízení přístupu, dohled nad původem a vyhledávání a přístup mezi pracovními prostory. Viz Správa životního cyklu modelu v katalogu Unity.

Služba pro modely

Mosaic AI Model Serving poskytuje jednotné rozhraní pro nasazování, správu a dotazování modelů AI. Každý model, který používáte, je k dispozici jako rozhraní REST API, které můžete integrovat do webové nebo klientské aplikace. Díky službě Rozhraní AI Pro obsluhu modelů systému Mosaic můžete nasadit vlastní modely, základní modely nebo modely třetích stran hostované mimo Databricks. Viz Nasazení modelů pomocí služby pro modelování Mosaic AI.

Datové sklady

Datové sklady odkazují na shromažďování a ukládání dat z více zdrojů, aby k němu bylo možné rychle přistupovat pro obchodní přehledy a vytváření sestav. Databricks SQL je soubor služeb, které přinášejí funkcionalitu a výkon datových skladů do vašich stávajících datových jezer. Viz Architektura datových skladů.

Dotaz

Dotaz je platný příkaz SQL, který umožňuje pracovat s daty. Dotazy můžete vytvářet pomocí editoru SQL na platformě nebo se připojit pomocí konektoru SQL, ovladače nebo rozhraní API. Další informace o práci s dotazy najdete v Accessu a správě uložených dotazů .

SQL Warehouse

Výpočetní prostředek, na kterém spouštíte dotazy SQL. Existují tři typy SQL Warehouse: Classic, Pro a Bezserverové. Azure Databricks doporučuje používat bezserverové sklady, pokud jsou k dispozici. Porovnání dostupných funkcí pro jednotlivé typy skladů najdete v tématu Typy SQL Warehouse .

Historie dotazů

Seznam spuštěných dotazů a jejich charakteristik výkonu Historie dotazů umožňuje monitorovat výkon dotazů, pomáhá identifikovat úzká místa a optimalizovat časy běhu dotazů. Viz historie dotazů.

Vizualizace

Grafická prezentace výsledku spuštění dotazu. Viz Vizualizace v poznámkových blocích Databricks a editoru SQL.

Řídicí panel

Prezentace vizualizací dat a komentáře Řídicí panely můžete použít k automatickému odesílání sestav komukoli ve vašem účtu Azure Databricks. Pomocí Nástroje Databricks Assistant můžete vytvářet vizualizace na základě výzev v přirozeném jazyce. Viz řídicí panely. Řídicí panel můžete vytvořit také z poznámkového bloku. Zobrazení řídicích panelů v poznámkových blocích

Starší řídicí panely najdete v tématu Starší řídicí panely.

Důležité

Databricks doporučuje používat řídicí panely AI/BI (dříve řídicí panely Lakeview). Dřívější verze řídicích panelů, dříve označované jako řídicí panely SQL Databricks, se teď označují jako starší řídicí panely.

Časová osa ukončení podpory:

  • 12. ledna 2026: Starší řídicí panely a rozhraní API už nejsou přímo přístupné. Přesto je ale můžete převést na řídicí panely AI/BI. Stránka migrace je dostupná do 2. března 2026.

Převeďte starší řídicí panely pomocí nástroje pro migraci nebo rozhraní REST API. Pokyny k použití integrovaného nástroje pro migraci najdete v tématu Klonování staršího řídicího panelu na řídicí panel AI/BI . Informace o vytváření a správě řídicích panelů pomocí rozhraní REST API najdete v tématu Použití rozhraní API Azure Databricks ke správě řídicích panelů.