Sdílet prostřednictvím


Vytvoření kanálu řízeného zdrojem

Důležité

Editor kanálů Lakeflow je ve verzi Public Preview.

V Azure Databricks můžete spravovat verzování pipeline a veškerého s ním spojeného kódu. Při používání systému správy verzí pro všechny soubory spojené s vaším pipeline, změny ve vašem transformačním kódu, kódu pro analýzu a konfiguraci pipeline jsou verzeovány v Gitu a můžete je testovat ve vývoji a s jistotou nasadit do produkce.

Kanál řízený zdrojem nabízí následující výhody:

  • Sledovatelnost: Zachytávání všech změn v historii Gitu
  • Testování: Před povýšením do sdíleného produkčního pracovního prostoru ověřte změny datového kanálu ve vývojovém prostředí. Každý vývojář má vlastní vývojový kanál ve své vlastní větvi kódu ve složce Git a ve vlastním schématu.
  • Spolupráce: Po dokončení individuálního vývoje a testování se změny kódu odeslány do hlavní produkční fáze.
  • Zásady správného řízení: Sladění s podnikovými standardy CI/CD a nasazením

Azure Databricks umožňuje, aby kanály a jejich zdrojové soubory byly řízeny společně pomocí sad prostředků Databricks. Díky balíčkům je konfigurace kanálu řízená zdrojem ve formě konfiguračních souborů YAML spolu se zdrojovými soubory Pythonu nebo SQL kanálu. Jedna sada může obsahovat jeden nebo více potrubí, stejně jako další typy zdrojů, například pracovní úlohy.

Tato stránka ukazuje, jak nastavit kanál řízený zdrojem pomocí sad prostředků Databricks. Další informace o balíčcích najdete v tématu Co jsou sady prostředků Databricks?.

Požadavky

Pokud chcete vytvořit kanál řízený zdrojem, musíte už mít:

Vytvořte nový zpracovatelský řetězec v balíčku

Poznámka:

Databricks doporučuje vytvořit kanál, který je řízen zdrojem od začátku. Můžete také přidat existující kanál do sady, která je již řízena zdrojem. Viz Migrace existujících prostředků do sady.

Vytvoření nového kanálu řízeného zdrojem:

  1. V pracovním prostoru přejděte na ikonu Plus.Nový>Ikona kanáluKanál ETL.

  2. Vyberte ikonu souboru datová krychle.Nastavit jako projekt řízený verzemi:

    Nový kanál řízený zdrojem

  3. Klikněte na Vytvořit nový projekt a vyberte složku Gitu, do které chcete vložit kód a konfiguraci:

    Nový projekt

  4. Klikněte na tlačítko Další.

  5. V dialogovém okně Vytvořit sadu prostředků zadejte následující:

    • Název sady: Jméno sady.
    • Počáteční katalog: Název katalogu, který obsahuje schéma, které se má použít.
    • Použít osobní schéma: Toto políčko ponechte zaškrtnuté, pokud chcete izolovat úpravy do osobního schématu, aby při spolupráci uživatelů ve vaší organizaci na stejném projektu nedocházelo k přepisování změn během vývoje.
    • Počáteční jazyk: Počáteční jazyk, který se má použít pro ukázkové soubory kanálu projektu, pythonu nebo SQL.

    Nový balíček

  6. Klikněte na Vytvořit a nasadit. Ve složce Git se vytvoří sada s pipeline.

Prozkoumat balíček potrubí

Dále prozkoumejte vytvořený balíček pipeline.

Sada, která je ve složce Git, obsahuje systémové soubory sady a databricks.yml soubor, který definuje proměnné, adresy URL a oprávnění cílového pracovního prostoru a další nastavení sady. Složka resources sady obsahuje definice prostředků, jako jsou kanály.

Svazek v Git složce

resources Otevřete složku a kliknutím na tlačítko editoru kanálů zobrazte kanál řízený zdrojem:

Otevření editoru kanálů

Balíček se stromem potrubí

Sada ukázkových balíčků řetězců obsahuje následující soubory:

  • Ukázkový průzkumný poznámkový blok

  • Dva ukázkové soubory kódu, které v tabulkách dělají transformace

  • Ukázkový soubor kódu, který obsahuje funkci nástroje

  • Soubor YAML konfigurace úlohy, který definuje úlohu v balíčku, jenž spouští pipeline.

  • Soubor YAML konfigurace kanálu, který definuje kanál

    Důležité

    Musíte upravit tento soubor, aby se trvale zachovaly všechny změny konfigurace pipeline, včetně těch, které byly provedeny prostřednictvím uživatelského rozhraní, jinak budou při opětovném nasazení balíčku změny provedené prostřednictvím uživatelského rozhraní přepsány. Pokud chcete například nastavit jiný výchozí katalog kanálu, upravte catalog pole v tomto konfiguračním souboru.

  • Soubor README s dalšími podrobnostmi o sadě ukázkových kanálů a pokyny ke spuštění kanálu

Informace o souborech pipeline najdete v prohlížeči prvků pipeline.

Další informace o vytváření a nasazování změn v rámci pipeline bundle najdete v části Vytváření bundlů v pracovním prostoru a nasazení bundlů a spouštění workflow z pracovního prostoru.

Spustit potrubí

Můžete spustit jednotlivé transformace nebo celý kanál řízený zdrojem:

  • Pokud chcete spustit a zobrazit náhled jedné transformace v datovém kanálu, vyberte transformační soubor ve stromu prohlížeče pracovního prostoru a otevřete ho v editoru souborů. V horní části souboru v editoru klikněte na tlačítko Spustit přehrávání souboru .
  • Pokud chcete spustit všechny transformace v kanálu, klikněte v pravém horním rohu pracovního prostoru Databricks na tlačítko Spustit kanál .

Další informace o spouštění kanálů najdete v tématu Spuštění kódu kanálu.

Aktualizace kanálu

Artefakty v potrubí můžete aktualizovat nebo přidat další průzkumy a transformace, které pak budete chtít odeslat na GitHub. Klikněte na ikonu Fork. Klikněte na ikonu Git přidruženou k balíčku pipeline nebo na nabídku pro složku a pak na Git... a vyberte změny, které se mají odeslat. Viz Potvrzení a nasdílení změn.

Pushnout změny do Gitu

Pokud navíc aktualizujete konfigurační soubory kanálu nebo přidáte nebo odeberete soubory ze sady, nebudou se tyto změny šířit do cílového pracovního prostoru, dokud sadu explicitně nenasadíte. Viz Nasazení sad a spouštění pracovních postupů z pracovního prostoru.

Poznámka:

Databricks doporučuje zachovat výchozí nastavení pro kanály řízené zdrojem. Výchozí nastavení je nakonfigurované tak, abyste při přidání dalších souborů prostřednictvím uživatelského rozhraní nemuseli upravovat konfiguraci YAML sady kanálů.

Aktualizace kanálu

Přidání existujícího kanálu do sady

Pokud chcete do sady přidat existující kanál, nejprve vytvořte v pracovním prostoru sadu a pak do sady přidejte definici YAML kanálu, jak je popsáno na následujících stránkách:

Informace o migraci prostředků do sady pomocí rozhraní příkazového řádku Databricks najdete v tématu Migrace existujících prostředků do sady.

Dodatečné zdroje

Další kurzy a referenční materiály pro kanály najdete v tématu Deklarativní kanály Sparku Lakeflow.