Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Editor kanálů Lakeflow je ve verzi Public Preview.
V Azure Databricks můžete spravovat verzování pipeline a veškerého s ním spojeného kódu. Při používání systému správy verzí pro všechny soubory spojené s vaším pipeline, změny ve vašem transformačním kódu, kódu pro analýzu a konfiguraci pipeline jsou verzeovány v Gitu a můžete je testovat ve vývoji a s jistotou nasadit do produkce.
Kanál řízený zdrojem nabízí následující výhody:
- Sledovatelnost: Zachytávání všech změn v historii Gitu
- Testování: Před povýšením do sdíleného produkčního pracovního prostoru ověřte změny datového kanálu ve vývojovém prostředí. Každý vývojář má vlastní vývojový kanál ve své vlastní větvi kódu ve složce Git a ve vlastním schématu.
- Spolupráce: Po dokončení individuálního vývoje a testování se změny kódu odeslány do hlavní produkční fáze.
- Zásady správného řízení: Sladění s podnikovými standardy CI/CD a nasazením
Azure Databricks umožňuje, aby kanály a jejich zdrojové soubory byly řízeny společně pomocí sad prostředků Databricks. Díky balíčkům je konfigurace kanálu řízená zdrojem ve formě konfiguračních souborů YAML spolu se zdrojovými soubory Pythonu nebo SQL kanálu. Jedna sada může obsahovat jeden nebo více potrubí, stejně jako další typy zdrojů, například pracovní úlohy.
Tato stránka ukazuje, jak nastavit kanál řízený zdrojem pomocí sad prostředků Databricks. Další informace o balíčcích najdete v tématu Co jsou sady prostředků Databricks?.
Požadavky
Pokud chcete vytvořit kanál řízený zdrojem, musíte už mít:
- Složka Git vytvořená ve vašem pracovním prostoru a nakonfigurovaná. Složka Git umožňuje jednotlivým uživatelům vytvářet a testovat změny předtím, než je potvrdí do úložiště Git. Viz složky Git v Azure Databricks.
- Editor kanálů Lakeflow je povolený. Uživatelské rozhraní popsané v tomto kurzu je k dispozici pouze v tomto prostředí editoru. Viz Vývoj a ladění kanálů ETL pomocí Editoru kanálů Lakeflow.
Vytvořte nový zpracovatelský řetězec v balíčku
Poznámka:
Databricks doporučuje vytvořit kanál, který je řízen zdrojem od začátku. Můžete také přidat existující kanál do sady, která je již řízena zdrojem. Viz Migrace existujících prostředků do sady.
Vytvoření nového kanálu řízeného zdrojem:
V pracovním prostoru přejděte na
Nový>
Kanál ETL.
Vyberte
Nastavit jako projekt řízený verzemi:
Klikněte na Vytvořit nový projekt a vyberte složku Gitu, do které chcete vložit kód a konfiguraci:
Klikněte na tlačítko Další.
V dialogovém okně Vytvořit sadu prostředků zadejte následující:
- Název sady: Jméno sady.
- Počáteční katalog: Název katalogu, který obsahuje schéma, které se má použít.
- Použít osobní schéma: Toto políčko ponechte zaškrtnuté, pokud chcete izolovat úpravy do osobního schématu, aby při spolupráci uživatelů ve vaší organizaci na stejném projektu nedocházelo k přepisování změn během vývoje.
- Počáteční jazyk: Počáteční jazyk, který se má použít pro ukázkové soubory kanálu projektu, pythonu nebo SQL.
Klikněte na Vytvořit a nasadit. Ve složce Git se vytvoří sada s pipeline.
Prozkoumat balíček potrubí
Dále prozkoumejte vytvořený balíček pipeline.
Sada, která je ve složce Git, obsahuje systémové soubory sady a databricks.yml soubor, který definuje proměnné, adresy URL a oprávnění cílového pracovního prostoru a další nastavení sady. Složka resources sady obsahuje definice prostředků, jako jsou kanály.
resources Otevřete složku a kliknutím na tlačítko editoru kanálů zobrazte kanál řízený zdrojem:
Sada ukázkových balíčků řetězců obsahuje následující soubory:
Ukázkový průzkumný poznámkový blok
Dva ukázkové soubory kódu, které v tabulkách dělají transformace
Ukázkový soubor kódu, který obsahuje funkci nástroje
Soubor YAML konfigurace úlohy, který definuje úlohu v balíčku, jenž spouští pipeline.
Soubor YAML konfigurace kanálu, který definuje kanál
Důležité
Musíte upravit tento soubor, aby se trvale zachovaly všechny změny konfigurace pipeline, včetně těch, které byly provedeny prostřednictvím uživatelského rozhraní, jinak budou při opětovném nasazení balíčku změny provedené prostřednictvím uživatelského rozhraní přepsány. Pokud chcete například nastavit jiný výchozí katalog kanálu, upravte
catalogpole v tomto konfiguračním souboru.Soubor README s dalšími podrobnostmi o sadě ukázkových kanálů a pokyny ke spuštění kanálu
Informace o souborech pipeline najdete v prohlížeči prvků pipeline.
Další informace o vytváření a nasazování změn v rámci pipeline bundle najdete v části Vytváření bundlů v pracovním prostoru a nasazení bundlů a spouštění workflow z pracovního prostoru.
Spustit potrubí
Můžete spustit jednotlivé transformace nebo celý kanál řízený zdrojem:
- Pokud chcete spustit a zobrazit náhled jedné transformace v datovém kanálu, vyberte transformační soubor ve stromu prohlížeče pracovního prostoru a otevřete ho v editoru souborů. V horní části souboru v editoru klikněte na tlačítko Spustit přehrávání souboru .
- Pokud chcete spustit všechny transformace v kanálu, klikněte v pravém horním rohu pracovního prostoru Databricks na tlačítko Spustit kanál .
Další informace o spouštění kanálů najdete v tématu Spuštění kódu kanálu.
Aktualizace kanálu
Artefakty v potrubí můžete aktualizovat nebo přidat další průzkumy a transformace, které pak budete chtít odeslat na GitHub. Klikněte na Klikněte na ikonu Git přidruženou k balíčku pipeline nebo na nabídku pro složku a pak na Git... a vyberte změny, které se mají odeslat. Viz Potvrzení a nasdílení změn.
Pokud navíc aktualizujete konfigurační soubory kanálu nebo přidáte nebo odeberete soubory ze sady, nebudou se tyto změny šířit do cílového pracovního prostoru, dokud sadu explicitně nenasadíte. Viz Nasazení sad a spouštění pracovních postupů z pracovního prostoru.
Poznámka:
Databricks doporučuje zachovat výchozí nastavení pro kanály řízené zdrojem. Výchozí nastavení je nakonfigurované tak, abyste při přidání dalších souborů prostřednictvím uživatelského rozhraní nemuseli upravovat konfiguraci YAML sady kanálů.
Přidání existujícího kanálu do sady
Pokud chcete do sady přidat existující kanál, nejprve vytvořte v pracovním prostoru sadu a pak do sady přidejte definici YAML kanálu, jak je popsáno na následujících stránkách:
Informace o migraci prostředků do sady pomocí rozhraní příkazového řádku Databricks najdete v tématu Migrace existujících prostředků do sady.
Dodatečné zdroje
Další kurzy a referenční materiály pro kanály najdete v tématu Deklarativní kanály Sparku Lakeflow.