Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tento článek popisuje základní konfiguraci potrubí pomocí uživatelského rozhraní pracovního prostředí.
Databricks doporučuje vyvíjet nové kanály pomocí bezserverové architektury. Pokyny ke konfiguraci pro bezserverové kanály najdete v tématu Konfigurace bezserverového kanálu.
Pokyny ke konfiguraci v tomto článku používají Katalog Unity. Pokyny ke konfiguraci kanálů se starší verzí metastoru Hive najdete v tématu Použití deklarativních kanálů Sparku Lakeflow se starším metastorem Hive.
Tento článek popisuje funkčnost pro aktuální výchozí režim publikování pro pipeliny. Pipeliny vytvořené před 5. únorem 2025 mohou používat starší režim publikování a virtuální schéma LIVE. Viz LIVE schema (starší verze).
Poznámka:
Uživatelské rozhraní má možnost zobrazit a upravit nastavení ve formátu JSON. Většinu nastavení můžete nakonfigurovat pomocí uživatelského rozhraní nebo specifikace JSON. Některé pokročilé možnosti jsou k dispozici pouze pomocí konfigurace JSON.
Konfigurační soubory JSON jsou také užitečné při nasazování pipelinů do nových prostředí nebo při použití rozhraní příkazového řádku nebo rozhraní REST API.
Úplný přehled nastavení JSON konfigurace pipeline najdete v tématu Konfigurace pipeline.
Konfigurace nového kanálu
Pokud chcete nakonfigurovat nový kanál, postupujte takto:
V horní části bočního panelu klikněte na
Nový a pak vyberte
Kanál ETL.
Nahoře dejte kanálu jedinečný název.
Pod názvem můžete zobrazit výchozí katalog a schéma, které jste zvolili za vás. Změňte je, abyste nastavili různé výchozí hodnoty pro váš pipeline.
Výchozí katalog a výchozí schéma jsou místo, kde se datové sady čtou nebo zapisují, když nekvalifikujete datové sady s katalogem nebo schématem ve vašem kódu. Další informace najdete v tématu Databázové objekty v Azure Databricks .
Vyberte upřednostňovanou možnost vytvoření kanálu:
- Začněte vzorovým kódem v SQL a vytvořte novou strukturu kanálů a složek, včetně ukázkového kódu v SQL.
- Začněte vzorovým kódem v Pythonu a vytvořte novou strukturu kanálů a složek, včetně ukázkového kódu v Pythonu.
- Začněte jednou transformací a vytvořte novou strukturu kanálů a složek s novým prázdným souborem kódu.
- Přidejte existující prostředky ke vytvoření pipeline, kterou můžete přidružit k existujícím souborům kódu ve vašem pracovním prostoru.
- Vytvořte projekt řízený zdrojem pro vytvoření kanálu s novým projektem Sady prostředků Databricks nebo přidáním kanálu do existující sady prostředků.
V kanálu ETL můžete mít soubory zdrojového kódu SQL i Pythonu. Při vytváření nového kanálu a výběru jazyka pro vzorový kód je jazyk ve výchozím nastavení určen pouze pro ukázkový kód, který je součástí kanálu.
Když provedete výběr, budete přesměrováni na nově vytvořený kanál.
Kanál ETL se vytvoří s následujícím výchozím nastavením:
- Katalog Unity
- Aktuální kanál
- Výpočetní prostředí bez serveru
- Režim vývoje je vypnutý. Toto nastavení má vliv jenom na naplánovaná spuštění kanálu. Spuštění procesu z editoru vždy používá vývojový režim.
Tato konfigurace se doporučuje pro mnoho případů použití, včetně vývoje a testování, a je vhodná pro produkční úlohy, které by se měly spouštět podle plánu. Podrobnosti o plánování kanálů najdete v tématu Úloha kanálu pro úlohy.
Tato nastavení můžete upravit z panelu nástrojů potrubí.
Případně můžete vytvořit kanál ETL z prohlížeče pracovního prostoru:
- Na levém bočním panelu klikněte na Pracovní prostor .
- Vyberte libovolnou složku, včetně složek Gitu.
- V pravém horním rohu klikněte na Vytvořit a klikněte na kanál ETL.
Kanál ETL můžete vytvořit také ze stránky úloh a kanálů:
- V pracovním prostoru klikněte na
Úlohy a kanály na bočním panelu
- V části Nový klikněte na kanál ETL.
možnosti konfigurace Compute
Databricks doporučuje vždy používat rozšířené automatické škálování. Výchozí hodnoty pro jiné konfigurace výpočetních prostředků fungují dobře pro mnoho datových toků.
Bezserverové kanály odeberou možnosti konfigurace výpočetních prostředků. Pokyny ke konfiguraci pro bezserverové kanály najdete v tématu Konfigurace bezserverového kanálu.
K přizpůsobení konfigurací výpočetních prostředků použijte následující nastavení:
- Správci pracovního prostoru můžou nakonfigurovat zásad clusteru. Zásady výpočetních prostředků umožňují správcům řídit, jaké výpočetní možnosti jsou uživatelům k dispozici. Viz Výběr zásad výpočetních prostředků.
- Volitelně můžete nakonfigurovat režim clusteru tak, aby běžel s pevnou velikostí nebo s automatickým škálováním staršího typu . Viz Optimalizace využití clusteru deklarativních kanálů Sparku Lakeflow pomocí automatického škálování.
- U úloh s povoleným automatickým škálováním nastavte limity pro škálování pomocí Minimální počet pracovníků a Maximální počet pracovníků. Viz Konfigurace klasického výpočtu pro pipeliny.
- Volitelně můžete vypnout akceleraci Photon. Podívejte se na co je Photon?
- Pomocí značek clusteru můžete monitorovat náklady spojené s kanály. Viz Konfigurace výpočetních značek.
- Nakonfigurujte typy instancí k určení typu virtuálních počítačů, které se používají ke spuštění pipelinu. Podívejte se na Výběr typů instancí pro spuštění kanálu.
- Vyberte typ pracovníka optimalizovaný pro úlohy nakonfigurované ve vaší pipelině.
- Volitelně můžete vybrat typ ovladače , který se liší od typu pracovního procesu. To může být užitečné pro snížení nákladů v potrubí s velkými typy pracovníků a nízkým využitím výpočetních prostředků řídicí jednotky nebo pro volbu většího typu řídicí jednotky, aby nedocházelo k problémům s nedostatkem paměti v úlohách s mnoha malými pracovníky.
Nastavte uživatele pro spuštění jako
Uživatel Run-As umožňuje změnit identitu, kterou pipeline používá k běhu, a vlastnictví tabulek, které vytváří nebo aktualizuje. To je užitečné v situacích, kdy byl původní uživatel, který kanál vytvořil, deaktivován – například pokud opustil společnost. V takových případech může pipeline přestat fungovat a tabulky, které publikoval, můžou být pro ostatní nepřístupné. Když kanál aktualizujete tak, aby běžel jako jiná identita , například instanční objekt, a opětovným přiřazením vlastnictví publikovaných tabulek, můžete obnovit přístup a zajistit, aby kanál dál fungoval. Spouštění kanálů jako instanční objekty služby se považuje za osvědčený postup, protože nejsou svázané s jednotlivými uživateli, což je činí bezpečnějšími, stabilnějšími a spolehlivějšími pro automatizované úlohy.
Požadovaná oprávnění
Pro uživatele, který změnu provede:
- CAN_MANAGE oprávnění k potrubí
- CAN_USE role instančního objektu (pokud nastavení spuštění jako instančního objektu)
Pro uživatele nebo instanční objekt spustit jako:
Přístup k pracovnímu prostoru:
- Oprávnění k přístupu do pracovního prostoru pro provozování v jeho rámci
- Může použít oprávnění k zásadám skupin, které používá pipeline.
- Oprávnění k vytvoření výpočetních prostředků v pracovním prostoru
Přístup ke zdrojovému kódu:
- Může číst oprávnění pro všechny poznámkové bloky zahrnuté ve zdrojovém kódu pipeline.
- Může číst oprávnění k souborům pracovního prostoru, pokud je kanál používá.
Oprávnění katalogu Unity (pro kanály využívající katalog Unity):
-
USE CATALOGv cílovém katalogu -
USE SCHEMAaCREATE TABLEna cílovém schématu -
MODIFYoprávnění k existujícím tabulkám, které datový tok aktualizuje -
CREATE SCHEMAoprávnění, pokud kanál vytváří nová schémata
-
Starší verze oprávnění metastoru Hive (pro kanály používající metastore Hive):
-
SELECTaMODIFYoprávnění k cílovým databázím a tabulkám
-
Další přístup ke cloudovému úložišti (pokud je k dispozici):
- Oprávnění ke čtení ze zdrojových umístění úložiště
- Oprávnění pro zápis do cílových úložních umístění
Jak nastavit uživatele pro funkci „Spustit jako“
Uživatele můžete nastavit run-as prostřednictvím nastavení potrubí z monitorovací stránky potrubí nebo pomocí editoru potrubí. Změna uživatele ze stránky monitorování datového toku:
- Kliknutím na Úlohy a Kanály otevřete seznam kanálů a vyberte název kanálu, který chcete upravit.
- Na stránce pro monitorování pipeline klikněte na Nastavení.
- Na bočním panelu nastavení Pipeline klikněte na
Upravit vedle Spustit jako.
- Ve widgetu pro úpravy vyberte jednu z následujících možností:
- Vlastní uživatelský účet
- Principál služby, pro který máte oprávnění CAN_USE
- Kliknutím na Uložit změny použijete.
Po úspěšném nastavení uživatele režimu spuštění:
- Identita kanálu se změní tak, aby používala nového uživatele nebo instanční objekt pro všechna budoucí spuštění.
- V kanálech katalogu Unity je vlastník tabulek publikovaných kanálem aktualizován tak, aby odpovídal nové identitě pro spuštění.
- Budoucí aktualizace datového potrubí budou používat oprávnění a přihlašovací údaje identity nové spouštěné jako.
- Průběžné potrubí se automaticky restartuje s novou identitou. Aktivované pipeliny se nerestartují automaticky a změna modulu spuštění jako může přerušit aktivní aktualizaci.
Poznámka:
Pokud se aktualizace funkce 'spustit jako' nezdaří, zobrazí se chybová zpráva s vysvětlením důvodu selhání. Mezi běžné problémy patří nedostatečná oprávnění k služebnímu objektu.
Další aspekty konfigurace
Pro kanály jsou k dispozici také následující možnosti konfigurace:
- Edice produktu Advanced poskytuje přístup ke všem funkcím deklarativních kanálů Sparku Lakeflow. Kanály můžete volitelně spouštět pomocí edic produktů Pro nebo Core. Podívejte se na Zvolení edice produktu.
- Při provozu v produkčním prostředí můžete zvolit použití režimu pipeline Continuous. Viz Aktivovaný vs. průběžný režim potrubí.
- Pokud váš pracovní prostor není nakonfigurovaný pro katalog Unity nebo vaše úloha potřebuje používat starší metastore Hive, přečtěte si téma Použití deklarativních kanálů Sparku Lakeflow se starším metastorem Hive.
- Přidejte Oznámení pro e-mailové aktualizace podle podmínek úspěchu nebo selhání. Viz Přidejte e-mailová oznámení o událostech pipeline.
- Pomocí pole Konfigurace nastavte páry klíč-hodnota pro pipelinu. Tyto konfigurace slouží ke dvěma účelům:
- Nastavte libovolné parametry, na které můžete odkazovat ve zdrojovém kódu. Viz Použití parametrů v pipelinech.
- Nakonfigurujte nastavení datového toku a konfigurace Spark. Viz referenční informace o vlastnostech kanálu.
- Nakonfigurujte značky. Značky jsou páry klíč-hodnota pro potrubí, které jsou viditelné v seznamu pracovních postupů. Značky potrubí nejsou spojené s fakturací.
- Pomocí kanálu Preview otestujte svou pipeline proti čekajícím změnám v runtime Lakeflow Spark Declarative Pipelines a vyzkoušejte nové funkce.
Vybrat edici produktu
Vyberte produktovou edici deklarativních kanálů Lakeflow s nejlepšími funkcemi pro vaše požadavky na kanál. K dispozici jsou následující edice produktů:
-
Corepro spouštění úloh zpracování datového proudu.CoreTuto edici zvolte, pokud váš pipeline nevyžaduje pokročilé funkce, jako je například change data capture (CDC) nebo očekávání v deklarativních pipelinech Lakeflow Spark. -
Proke spouštění úloh ingestování, streamování a CDC. Edice produktuPropodporuje všechny funkceCorea podporu úloh, které vyžadují aktualizaci tabulek na základě změn ve zdrojových datech. -
Advancedke spouštění úloh streamového zpracování dat, úloh CDC a úloh, které vyžadují splnění podmínek. ProduktováAdvancededice podporuje funkceCoreedice aProedice a zahrnuje omezení ohledně kvality dat s očekáváními deklarativních kanálů Lakeflow Spark.
Při vytváření nebo úpravě pipeliny můžete vybrat edici produktu. Pro každý kanál můžete zvolit jinou edici. Podívejte se na stránku produktu Lakeflow Spark Declarative Pipelines.
Poznámka: Pokud datový řetězec obsahuje funkce, které vybraná edice produktu nepodporuje, například očekávání, zobrazí se chybová zpráva s vysvětlením důvodu chyby. Potrubí poté můžete upravit a vybrat příslušnou edici.
Konfigurace zdrojového kódu
Prohlížeč prostředků v editoru pipeline Lakeflow můžete použít ke konfiguraci zdrojového kódu, který definuje váš pipeline. Zdrojový kód kanálu je definován ve skriptech SQL nebo Pythonu uložených v souborech pracovního prostoru. Když kanál vytvoříte nebo upravíte, můžete přidat jeden nebo více souborů. Ve výchozím nastavení se zdrojový kód kanálu nachází ve transformations složce v kořenové složce kanálu.
Protože deklarativní kanály Sparku Lakeflow automaticky analyzují závislosti datových sad za účelem vytvoření grafu zpracování pro váš kanál, můžete prostředky zdrojového kódu přidat v libovolném pořadí.
Další podrobnosti o používání Editoru kanálů Lakeflow najdete v tématu Vývoj a ladění kanálů ETL pomocí Editoru kanálů Lakeflow.
Správa externích závislostí pro kanály, které používají Python
Kanály podporují používání externích závislostí ve vašich kanálech, jako jsou balíčky a knihovny Python. Další informace o možnostech a doporučeních pro používání závislostí najdete v tématu Správa závislostí Pythonu pro kanály.
Použití modulů Pythonu uložených v pracovním prostoru Azure Databricks
Kromě implementace kódu Pythonu do souborů zdrojového kódu kanálu můžete pomocí složek Gitu nebo souborů pracovního prostoru Databricks uložit kód jako moduly Pythonu. Ukládání kódu jako modulů Pythonu je užitečné hlavně v případech, kdy máte společné funkce, které chcete použít v několika kanálech nebo poznámkových blocích ve stejném kanálu. Informace o tom, jak používat moduly Pythonu ve vašich kanálech, najdete v tématu Import modulů Pythonu ze složek Git nebo souborů pracovních prostorů.