Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tento článek poskytuje základní přehled architektury Azure Databricks, včetně její podnikové architektury, v kombinaci s Azure.
Objekty Databricks
Účet Azure Databricks je konstrukce nejvyšší úrovně, kterou používáte ke správě Azure Databricks ve vaší organizaci. Na úrovni účtu spravujete:
- Identita a přístup: Uživatelé, skupiny, služební zástupci a zřizování uživatelů.
Správa pracovních prostorů: Vytváření, aktualizace a odstraňování pracovních prostorů napříč několika oblastmi
Správa metastoru katalogu Unity: Vytvoření a připojení metastoru k pracovním prostorům
Správa využití: Fakturace, dodržování předpisů a zásady.
Účet může obsahovat více pracovních prostorů a metasory katalogu Unity.
Pracovní prostory jsou prostředí pro spolupráci, ve kterém uživatelé spouštějí výpočetní úlohy, jako je příjem dat, interaktivní zkoumání, naplánované úlohy a trénování ML.
Metastore katalogu Unity jsou centrálním systémem správy datových aktiv, jako jsou tabulky a modely strojového učení. Data můžete uspořádat v metastoru pod tříúrovňovým oborem názvů:
<catalog-name>.<schema-name>.<object-name>
Metastory jsou připojené k pracovním prostorům. Jeden metastor můžete propojit s několika pracovními prostory Azure Databricks ve stejné oblasti a poskytnout tak každému pracovnímu prostoru stejné zobrazení dat. Řízení přístupu k datům je možné spravovat ve všech propojených pracovních prostorech.
Architektura pracovního prostoru
Azure Databricks pracuje mimo řídicí rovinu a výpočetní rovinu.
Řídicí rovina zahrnuje back-endové služby, které Azure Databricks spravuje ve vašem účtu Azure Databricks. Řídicí rovina se nachází v účtu Azure Databricks, nikoliv ve vašem cloudovém účtu. Webová aplikace je v řídicí rovině.
Výpočetní rovina je místo, kde se zpracovávají vaše data. Existují dva typy výpočetních rovin v závislosti na výpočetních prostředcích, které používáte.
- Pro bezserverovou výpočetní rovinu ve vašem účtu Azure Databricks běží bezserverové výpočetní zdroje.
- U klasických výpočetních prostředků Azure Databricks jsou výpočetní prostředky ve vašem předplatném Azure v tom, co se nazývá klasická výpočetní rovina. To se týká sítě ve vašem předplatném Azure a jejích prostředků.
Další informace o klasických výpočetních a bezserverových výpočetních prostředcích najdete v tématu Výpočty.
Architektura klasického pracovního prostoru
Poznámka:
Klasické pracovní prostory se na webu Azure Portal označují jako hybridní pracovní prostory .
Klasické pracovní prostory Azure Databricks mají přidružený účet úložiště označovaný jako účet úložiště pracovního prostoru. Úložiště pracovního prostoru je součástí vašeho Azure předplatného.
Následující diagram popisuje obecnou architekturu Azure Databricks pro klasické pracovní prostory.
Architektura bezserverového pracovního prostoru
Úložiště pracovního prostoru v bezserverových pracovních prostorech je uloženo ve výchozím úložišti pracovního prostoru. Pro přístup k datům se můžete připojit také ke svému účtu cloudového úložiště. Následující diagram popisuje obecnou architekturu pro bezserverové pracovní prostory.
Bezserverová výpočetní rovina
V bezserverové výpočetní rovině běží výpočetní prostředky Azure Databricks ve výpočetní vrstvě v rámci vašeho účtu Azure Databricks. Azure Databricks vytvoří bezserverovou výpočetní rovinu ve stejné oblasti Azure jako klasická výpočetní rovina vašeho pracovního prostoru. Tuto oblast vyberete při vytváření pracovního prostoru.
Kvůli ochraně zákaznických dat v bezserverové výpočetní rovině běží bezserverové výpočetní prostředí v rámci síťové hranice pracovního prostoru s různými vrstvami zabezpečení, které izolují různé zákaznické pracovní prostory Azure Databricks a další síťové ovládací prvky mezi clustery stejného zákazníka.
Další informace o sítích v bezserverové výpočetní rovině Sítě bezserverové výpočetní roviny.
Klasická výpočetní rovina
V klasické výpočetní rovině běží výpočetní prostředky Azure Databricks ve vašem předplatném Azure. Nové výpočetní prostředky se vytvářejí ve virtuální síti každého pracovního prostoru v rámci předplatného zákazníka na Azure.
Klasická výpočetní rovina má přirozenou izolaci, protože běží ve vlastním předplatném Azure každého zákazníka. Další informace o sítích v klasické výpočetní rovině najdete v tématu Klasické sítě výpočetní roviny.
Regionální podporu najdete v oblastech Azure Databricks.
Úložiště pracovního prostoru
Úložiště v pracovním prostoru se liší podle jeho typu. Další informace o typech pracovních prostorů najdete v tématu Vytvoření pracovního prostoru.
Úložiště pracovního prostoru obsahuje dvě kategorie dat: data systému souborů pracovního prostoru a systémová data pracovního prostoru. Oba objekty jsou oddělené od vlastních datových objektů (například tabulek a svazků katalogu Unity).
Data systému souborů pracovního prostoru
Systém souborů pracovního prostoru ukládá prostředky, které uživatelé vytvářejí a spravují prostřednictvím uživatelského rozhraní Azure Databricks. Tady jsou některé z nich:
- Notebooks
- Dotazy a řídicí panely SQL
- Výstrahy
- Repozitáře (složky připojené k repozitářům Git)
- Knihovny (
.whl,.jar) - Soubory Pythonu, konfigurační soubory YAML a další malé soubory
Další informace o souborech pracovního prostoru najdete v tématu Co jsou soubory pracovního prostoru?. Úplný seznam prostředků pracovního prostoru najdete v tématu Úvod k objektům pracovního prostoru.
Systémová data pracovního prostoru
Každý pracovní prostor Azure Databricks také ukládá systémová data generovaná interně funkcemi Azure Databricks. Tato data jsou příliš velká, aby se ukládaly do paměti nebo databází, nebo je potřeba zachovat po celou dobu životnosti jednoho výpočetního prostředku. Mezi příklady systémových dat pracovního prostoru patří:
- Výsledky dotazů SQL a výsledky dotazů uložených v mezipaměti
- Výsledky spuštění úlohy
- Revize poznámkového bloku
- Plány dotazů SQL používané pro pozorovatelnost
- Protokoly clusteru
Podrobnosti o konfiguraci úložiště pracovního prostoru pro jednotlivé typy pracovních prostorů najdete v následujících částech.
Bezserverové pracovní prostory
Bezserverové pracovní prostory využívají výchozí úložné umístění, které je plně spravovaným prostorem pro interní systémová data pracovního prostoru a datové prostředky v Katalogu Unity. Bezserverové pracovní prostory také podporují schopnost připojit se k vašim umístěním cloudového úložiště pro vaše katalogy, tabulky a další datová aktiva. Viz Výchozí úložiště v Databricks.
Klasické pracovní prostory
Důležité
Neodstraňovat ani neupravovat úložiště pracovního prostoru ve vašem cloudovém účtu. Pracovní prostor Azure Databricks závisí na databázích řídicí roviny i na úložišti pracovního prostoru pro správnou operaci. Pokud dojde k odstranění úložiště pracovního prostoru, pracovní prostor nelze obnovit.
V klasických pracovních prostorech se systémová data pracovního prostoru liší od toho, co je DBFS?. I když se oba můžou nacházet ve stejném účtu cloudového úložiště v klasických pracovních prostorech, slouží různým účelům. Kořen DBFS je systém souborů přístupný uživatelem, zatímco systémová data pracovního prostoru se používají interně funkcemi Azure Databricks.
Účet úložiště pracovního prostoru obsahuje:
- Systémová data pracovního prostoru: Interní data generovaná funkcemi Azure Databricks
- Katalog pracovních prostorů Unity: Pokud byl váš pracovní prostor pro Katalog Unity povolen automaticky, účet úložiště pracovního prostoru obsahuje výchozí katalog pracovních prostorů. Všichni uživatelé ve vašem pracovním prostoru mohou vytvářet položky ve výchozím schématu v tomto katalogu. Viz Začínáme s katalogem Unity.
- DBFS (zastaralé): Kořen DBFS a připojení DBFS jsou zastaralé a mohou být ve vašem pracovním prostoru zakázány. DBFS (Databricks File System) je distribuovaný systém souborů v prostředích Azure Databricks přístupný v rámci
dbfs:/oboru názvů. Kořenový adresář DBFS a připojení DBFS jsou oba v oboru názvůdbfs:/. Ukládání a přístup k datům pomocí kořenového adresáře DBFS nebo připojení DBFS je zastaralý vzor, který databricks nedoporučuje. Další informace naleznete v tématu Co je DBFS?.
Pokud chcete omezit přístup k účtu úložiště pracovního prostoru jenom z autorizovaných prostředků a sítí, přečtěte si téma Povolení podpory brány firewall pro účet úložiště pracovního prostoru.