Sdílet prostřednictvím


Konfigurace kanálů

Tento článek popisuje základní konfiguraci potrubí pomocí uživatelského rozhraní pracovního prostředí.

Databricks doporučuje vyvíjet nové kanály pomocí bezserverové architektury. Pokyny ke konfiguraci pro bezserverové kanály najdete v tématu Konfigurace bezserverového kanálu.

Pokyny ke konfiguraci v tomto článku používají Katalog Unity. Pokyny ke konfiguraci kanálů se starší verzí metastoru Hive najdete v tématu Použití deklarativních kanálů Sparku Lakeflow se starším metastorem Hive.

Tento článek popisuje funkčnost pro aktuální výchozí režim publikování pro pipeliny. Pipeliny vytvořené před 5. únorem 2025 mohou používat starší režim publikování a virtuální schéma LIVE. Viz LIVE schema (starší verze).

Poznámka:

Uživatelské rozhraní má možnost zobrazit a upravit nastavení ve formátu JSON. Většinu nastavení můžete nakonfigurovat pomocí uživatelského rozhraní nebo specifikace JSON. Některé pokročilé možnosti jsou k dispozici pouze pomocí konfigurace JSON.

Konfigurační soubory JSON jsou také užitečné při nasazování pipelinů do nových prostředí nebo při použití rozhraní příkazového řádku nebo rozhraní REST API.

Úplný přehled nastavení JSON konfigurace pipeline najdete v tématu Konfigurace pipeline.

Konfigurace nového kanálu

Pokud chcete nakonfigurovat nový kanál, postupujte takto:

  1. V horní části bočního panelu klikněte na ikonu Plus.Nový a pak vyberte ikonu kanálu.Kanál ETL.

  2. Nahoře dejte kanálu jedinečný název.

  3. Pod názvem můžete zobrazit výchozí katalog a schéma, které jste zvolili za vás. Změňte je, abyste nastavili různé výchozí hodnoty pro váš pipeline.

    Výchozí katalog a výchozí schéma jsou místo, kde se datové sady čtou nebo zapisují, když nekvalifikujete datové sady s katalogem nebo schématem ve vašem kódu. Další informace najdete v tématu Databázové objekty v Azure Databricks .

  4. Vyberte upřednostňovanou možnost vytvoření kanálu:

    • Začněte vzorovým kódem v SQL a vytvořte novou strukturu kanálů a složek, včetně ukázkového kódu v SQL.
    • Začněte vzorovým kódem v Pythonu a vytvořte novou strukturu kanálů a složek, včetně ukázkového kódu v Pythonu.
    • Začněte jednou transformací a vytvořte novou strukturu kanálů a složek s novým prázdným souborem kódu.
    • Přidejte existující prostředky ke vytvoření pipeline, kterou můžete přidružit k existujícím souborům kódu ve vašem pracovním prostoru.
    • Vytvořte projekt řízený zdrojem pro vytvoření kanálu s novým projektem Sady prostředků Databricks nebo přidáním kanálu do existující sady prostředků.

    V kanálu ETL můžete mít soubory zdrojového kódu SQL i Pythonu. Při vytváření nového kanálu a výběru jazyka pro vzorový kód je jazyk ve výchozím nastavení určen pouze pro ukázkový kód, který je součástí kanálu.

  5. Když provedete výběr, budete přesměrováni na nově vytvořený kanál.

    Kanál ETL se vytvoří s následujícím výchozím nastavením:

    Tato konfigurace se doporučuje pro mnoho případů použití, včetně vývoje a testování, a je vhodná pro produkční úlohy, které by se měly spouštět podle plánu. Podrobnosti o plánování kanálů najdete v tématu Úloha kanálu pro úlohy.

    Tato nastavení můžete upravit z panelu nástrojů potrubí.

Případně můžete vytvořit kanál ETL z prohlížeče pracovního prostoru:

  1. Na levém bočním panelu klikněte na Pracovní prostor .
  2. Vyberte libovolnou složku, včetně složek Gitu.
  3. V pravém horním rohu klikněte na Vytvořit a klikněte na kanál ETL.

Kanál ETL můžete vytvořit také ze stránky úloh a kanálů:

  1. V pracovním prostoru klikněte na ikonu Pracovní postupy.Úlohy a kanály na bočním panelu
  2. V části Nový klikněte na kanál ETL.

možnosti konfigurace Compute

Databricks doporučuje vždy používat rozšířené automatické škálování. Výchozí hodnoty pro jiné konfigurace výpočetních prostředků fungují dobře pro mnoho datových toků.

Bezserverové kanály odeberou možnosti konfigurace výpočetních prostředků. Pokyny ke konfiguraci pro bezserverové kanály najdete v tématu Konfigurace bezserverového kanálu.

K přizpůsobení konfigurací výpočetních prostředků použijte následující nastavení:

  • Pomocí značek clusteru můžete monitorovat náklady spojené s kanály. Viz Konfigurace výpočetních značek.
  • Nakonfigurujte typy instancí k určení typu virtuálních počítačů, které se používají ke spuštění pipelinu. Podívejte se na Výběr typů instancí pro spuštění kanálu.
    • Vyberte typ pracovníka optimalizovaný pro úlohy nakonfigurované ve vaší pipelině.
    • Volitelně můžete vybrat typ ovladače , který se liší od typu pracovního procesu. To může být užitečné pro snížení nákladů v potrubí s velkými typy pracovníků a nízkým využitím výpočetních prostředků řídicí jednotky nebo pro volbu většího typu řídicí jednotky, aby nedocházelo k problémům s nedostatkem paměti v úlohách s mnoha malými pracovníky.

Nastavte uživatele pro spuštění jako

Uživatel Run-As umožňuje změnit identitu, kterou pipeline používá k běhu, a vlastnictví tabulek, které vytváří nebo aktualizuje. To je užitečné v situacích, kdy byl původní uživatel, který kanál vytvořil, deaktivován – například pokud opustil společnost. V takových případech může pipeline přestat fungovat a tabulky, které publikoval, můžou být pro ostatní nepřístupné. Když kanál aktualizujete tak, aby běžel jako jiná identita , například instanční objekt, a opětovným přiřazením vlastnictví publikovaných tabulek, můžete obnovit přístup a zajistit, aby kanál dál fungoval. Spouštění kanálů jako instanční objekty služby se považuje za osvědčený postup, protože nejsou svázané s jednotlivými uživateli, což je činí bezpečnějšími, stabilnějšími a spolehlivějšími pro automatizované úlohy.

Požadovaná oprávnění

Pro uživatele, který změnu provede:

  • CAN_MANAGE oprávnění k potrubí
  • CAN_USE role instančního objektu (pokud nastavení spuštění jako instančního objektu)

Pro uživatele nebo instanční objekt spustit jako:

  • Přístup k pracovnímu prostoru:

    • Oprávnění k přístupu do pracovního prostoru pro provozování v jeho rámci
    • Může použít oprávnění k zásadám skupin, které používá pipeline.
    • Oprávnění k vytvoření výpočetních prostředků v pracovním prostoru
  • Přístup ke zdrojovému kódu:

    • Může číst oprávnění pro všechny poznámkové bloky zahrnuté ve zdrojovém kódu pipeline.
    • Může číst oprávnění k souborům pracovního prostoru, pokud je kanál používá.
  • Oprávnění katalogu Unity (pro kanály využívající katalog Unity):

    • USE CATALOG v cílovém katalogu
    • USE SCHEMA a CREATE TABLE na cílovém schématu
    • MODIFY oprávnění k existujícím tabulkám, které datový tok aktualizuje
    • CREATE SCHEMA oprávnění, pokud kanál vytváří nová schémata
  • Starší verze oprávnění metastoru Hive (pro kanály používající metastore Hive):

    • SELECT a MODIFY oprávnění k cílovým databázím a tabulkám
  • Další přístup ke cloudovému úložišti (pokud je k dispozici):

    • Oprávnění ke čtení ze zdrojových umístění úložiště
    • Oprávnění pro zápis do cílových úložních umístění

Jak nastavit uživatele pro funkci „Spustit jako“

Uživatele můžete nastavit run-as prostřednictvím nastavení potrubí z monitorovací stránky potrubí nebo pomocí editoru potrubí. Změna uživatele ze stránky monitorování datového toku:

  1. Kliknutím na Úlohy a Kanály otevřete seznam kanálů a vyberte název kanálu, který chcete upravit.
  2. Na stránce pro monitorování pipeline klikněte na Nastavení.
  3. Na bočním panelu nastavení Pipeline klikněte na ikonu tužky. Upravit vedle Spustit jako.
  4. Ve widgetu pro úpravy vyberte jednu z následujících možností:
    • Vlastní uživatelský účet
    • Principál služby, pro který máte oprávnění CAN_USE
  5. Kliknutím na Uložit změny použijete.

Po úspěšném nastavení uživatele režimu spuštění:

  • Identita kanálu se změní tak, aby používala nového uživatele nebo instanční objekt pro všechna budoucí spuštění.
  • V kanálech katalogu Unity je vlastník tabulek publikovaných kanálem aktualizován tak, aby odpovídal nové identitě pro spuštění.
  • Budoucí aktualizace datového potrubí budou používat oprávnění a přihlašovací údaje identity nové spouštěné jako.
  • Průběžné potrubí se automaticky restartuje s novou identitou. Aktivované pipeliny se nerestartují automaticky a změna modulu spuštění jako může přerušit aktivní aktualizaci.

Poznámka:

Pokud se aktualizace funkce 'spustit jako' nezdaří, zobrazí se chybová zpráva s vysvětlením důvodu selhání. Mezi běžné problémy patří nedostatečná oprávnění k služebnímu objektu.

Další aspekty konfigurace

Pro kanály jsou k dispozici také následující možnosti konfigurace:

Vybrat edici produktu

Vyberte produktovou edici deklarativních kanálů Lakeflow s nejlepšími funkcemi pro vaše požadavky na kanál. K dispozici jsou následující edice produktů:

  • Core pro spouštění úloh zpracování datového proudu. Core Tuto edici zvolte, pokud váš pipeline nevyžaduje pokročilé funkce, jako je například change data capture (CDC) nebo očekávání v deklarativních pipelinech Lakeflow Spark.
  • Pro ke spouštění úloh ingestování, streamování a CDC. Edice produktu Pro podporuje všechny funkce Core a podporu úloh, které vyžadují aktualizaci tabulek na základě změn ve zdrojových datech.
  • Advanced ke spouštění úloh streamového zpracování dat, úloh CDC a úloh, které vyžadují splnění podmínek. Produktová Advanced edice podporuje funkce Core edice a Pro edice a zahrnuje omezení ohledně kvality dat s očekáváními deklarativních kanálů Lakeflow Spark.

Při vytváření nebo úpravě pipeliny můžete vybrat edici produktu. Pro každý kanál můžete zvolit jinou edici. Podívejte se na stránku produktu Lakeflow Spark Declarative Pipelines.

Poznámka: Pokud datový řetězec obsahuje funkce, které vybraná edice produktu nepodporuje, například očekávání, zobrazí se chybová zpráva s vysvětlením důvodu chyby. Potrubí poté můžete upravit a vybrat příslušnou edici.

Konfigurace zdrojového kódu

Prohlížeč prostředků v editoru pipeline Lakeflow můžete použít ke konfiguraci zdrojového kódu, který definuje váš pipeline. Zdrojový kód kanálu je definován ve skriptech SQL nebo Pythonu uložených v souborech pracovního prostoru. Když kanál vytvoříte nebo upravíte, můžete přidat jeden nebo více souborů. Ve výchozím nastavení se zdrojový kód kanálu nachází ve transformations složce v kořenové složce kanálu.

Protože deklarativní kanály Sparku Lakeflow automaticky analyzují závislosti datových sad za účelem vytvoření grafu zpracování pro váš kanál, můžete prostředky zdrojového kódu přidat v libovolném pořadí.

Další podrobnosti o používání Editoru kanálů Lakeflow najdete v tématu Vývoj a ladění kanálů ETL pomocí Editoru kanálů Lakeflow.

Správa externích závislostí pro kanály, které používají Python

Kanály podporují používání externích závislostí ve vašich kanálech, jako jsou balíčky a knihovny Python. Další informace o možnostech a doporučeních pro používání závislostí najdete v tématu Správa závislostí Pythonu pro kanály.

Použití modulů Pythonu uložených v pracovním prostoru Azure Databricks

Kromě implementace kódu Pythonu do souborů zdrojového kódu kanálu můžete pomocí složek Gitu nebo souborů pracovního prostoru Databricks uložit kód jako moduly Pythonu. Ukládání kódu jako modulů Pythonu je užitečné hlavně v případech, kdy máte společné funkce, které chcete použít v několika kanálech nebo poznámkových blocích ve stejném kanálu. Informace o tom, jak používat moduly Pythonu ve vašich kanálech, najdete v tématu Import modulů Pythonu ze složek Git nebo souborů pracovních prostorů.