Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Tato funkce je ve verzi Public Preview.
Tento článek popisuje použití Editoru kanálů Lakeflow k vývoji a ladění kanálů ETL (extrakce, transformace a načítání) v Deklarativních kanálech Sparku (SDP).
Poznámka:
Editor kanálů Lakeflow je ve výchozím nastavení povolený. Můžete ho vypnout nebo ho znovu povolit, pokud je vypnutý. Viz Povolení editoru kanálů Lakeflow a aktualizovaného monitorování.
Co je editor kanálů Lakeflow?
Editor kanálů Lakeflow je integrované vývojové prostředí (IDE) pro vývoj kanálů. Kombinuje všechny úlohy vývoje pipeline na jednom povrchu, podporujíce pracovní postupy zaměřené na kód, organizaci kódu založenou na složkách, selektivní spuštění, náhledy dat a grafy pipeline. Integrovaná s platformou Azure Databricks umožňuje také správu verzí, revize kódu a naplánovaná spuštění.
Přehled uživatelského rozhraní Editoru kanálů Lakeflow
Následující obrázek znázorňuje editor kanálů Lakeflow:
Na obrázku jsou uvedené následující funkce:
- Prohlížeč prostředků pipeline: Vytváření, odstraňování, přejmenování a uspořádání prostředků pipeline Zahrnuje také zástupce konfigurace pipeliny.
- Vícesouborový editor kódu s kartami: Práce s více soubory kódu přidruženými k potrubí.
- Panel nástrojů specifický pro kanál: Zahrnuje možnosti konfigurace kanálu a obsahuje akce spuštění na úrovni kanálu.
- Interaktivní acyklický graf (DAG): Získejte přehled tabulek, otevřete dolní panel náhledů dat a proveďte další akce související s tabulkami.
- Náhled dat: Zkontrolujte data streamovaných tabulek a materializovaných zobrazení.
- Přehledy provádění na úrovni tabulky: Získejte přehledy provádění pro všechny tabulky nebo jednu tabulku v potrubí. Poznatky odkazují na nejnovější spuštění pipeline.
- Panel Problémy: Tato funkce shrnuje chyby ve všech souborech v kanálu a můžete přejít na místo, kde došlo k chybě uvnitř konkrétního souboru. Doplňuje indikátory chyb připevněné kódem.
- Selektivní spuštění: Editor kódu obsahuje funkce pro podrobný vývoj, například možnost aktualizovat tabulky pouze v aktuálním souboru pomocí akce Spustit soubor nebo jedné tabulky.
- Výchozí struktura složek kanálu: Nové kanály obsahují předdefinovanou strukturu složek a ukázkový kód, který můžete použít jako výchozí bod pro váš kanál.
- Zjednodušené vytvoření kanálu: Zadejte název, katalog a schéma, ve kterém by se ve výchozím nastavení měly vytvořit tabulky a kanál se vytvoří pomocí výchozího nastavení. Nastavení můžete později upravit z panelu nástrojů editoru kanálů.
Vytvoření nového kanálu ETL
Pokud chcete vytvořit nový kanál ETL pomocí Editoru kanálů Lakeflow, postupujte takto:
V horní části bočního panelu klikněte na
Nový a pak vyberte
Kanál ETL.
V horní části můžete kanálu dát jedinečný název.
Přímo pod názvem můžete zobrazit výchozí katalog a schéma, které jste zvolili za vás. Změňte je, abyste nastavili různé výchozí hodnoty pro váš pipeline.
Výchozí katalog a výchozí schéma jsou místo, kde se datové sady čtou nebo zapisují, když nekvalifikujete datové sady s katalogem nebo schématem ve vašem kódu. Další informace najdete v tématu Databázové objekty v Azure Databricks .
Vyberte upřednostňovanou možnost vytvoření kanálu tak, že zvolíte jednu z následujících možností:
- Začněte vzorovým kódem v SQL a vytvořte novou strukturu kanálů a složek, včetně ukázkového kódu v SQL.
- Začněte vzorovým kódem v Pythonu a vytvořte novou strukturu kanálů a složek, včetně ukázkového kódu v Pythonu.
- Začněte jednou transformací a vytvořte novou strukturu kanálů a složek s novým prázdným souborem kódu.
- Přidejte existující prostředky a vytvořte datový tok, který můžete přidružit k existujícím souborům kódu ve vašem pracovním prostoru.
V kanálu ETL můžete mít soubory zdrojového kódu SQL i Pythonu. Při vytváření nového kanálu a výběru jazyka pro vzorový kód je jazyk ve výchozím nastavení určen pouze pro ukázkový kód, který je součástí kanálu.
Když provedete výběr, budete přesměrováni na nově vytvořený kanál.
Kanál ETL se vytvoří s následujícím výchozím nastavením:
- Katalog Unity
- Aktuální kanál
- Výpočetní prostředí bez serveru
- Režim vývoje je vypnutý. Toto nastavení má vliv jenom na naplánovaná spuštění kanálu. Spuštění procesu z editoru vždy používá vývojový režim.
Tato nastavení můžete upravit z panelu nástrojů potrubí.
Případně můžete vytvořit kanál ETL z prohlížeče pracovního prostoru:
- Na levém bočním panelu klikněte na Pracovní prostor .
- Vyberte libovolnou složku, včetně složek Gitu.
- V pravém horním rohu klikněte na Vytvořit a klikněte na kanál ETL.
Kanál ETL můžete vytvořit také ze stránky úloh a kanálů:
- V pracovním prostoru klikněte na
Úlohy a kanály na bočním panelu
- V části Nový klikněte na kanál ETL.
Otevření existujícího kanálu ETL
V editoru kanálů Lakeflow můžete otevřít existující kanál ETL několika způsoby:
Otevřete libovolný zdrojový soubor přidružený ke kanálu:
- Na bočním panelu klikněte na Pracovní prostor .
- Přejděte do složky se soubory zdrojového kódu pro váš kanál.
- Kliknutím na soubor zdrojového kódu otevřete kanál v editoru.
Otevřete nedávno upravený kanál:
- V editoru můžete přejít na další kanály, které jste nedávno upravili, kliknutím na název kanálu v horní části prohlížeče prostředků a výběrem jiného kanálu ze seznamu posledních položek, který se zobrazí.
- Mimo editoru, na levém bočním panelu na stránce Nedávné, otevřete pipeline nebo soubor nakonfigurovaný jako zdrojový kód pro pipeline.
Při prohlížení pipeline v rámci produktu můžete pipeline upravit:
- Na stránce monitorování kanálu klikněte na
Upravit kanál
- V sekci Spuštění úloh na levém bočním panelu klikněte na kartu Úlohy a potrubí a potom klikněte na
a Upravit potrubí.
- Když upravíte úlohu a přidáte úlohu kanálu, můžete při výběru kanálu v části
open in new tab iconKanál kliknout na tlačítko .
- Na stránce monitorování kanálu klikněte na
Pokud procházíte všechny soubory v prohlížeči prostředků a otevřete soubor zdrojového kódu z jiného kanálu, zobrazí se v horní části editoru banner s výzvou k otevření příslušného kanálu.
Prohlížeč prostředků potrubí
Při úpravách pipeline používá levý boční panel pracovního prostoru speciální režim zvaný prohlížeč prostředků pipeline. Ve výchozím nastavení se prohlížeč prostředků pipeline zaměřuje na kořen pipeline a složky a soubory v rámci tohoto kořene. Můžete se také rozhodnout zobrazit všechny soubory a zobrazit soubory mimo kořen kanálu. Karty otevřené v editoru potrubí během úprav konkrétního potrubí se zapamatují, a když přepnete na jiné potrubí, obnoví se karty otevřené při poslední úpravě tohoto potrubí.
Poznámka:
Editor také obsahuje kontexty pro úpravy souborů SQL (označovaných jako Databricks SQL Editor) a obecný kontext pro úpravy souborů pracovního prostoru, které nejsou soubory SQL ani soubory pipeline. Každý z těchto kontextů si pamatuje a obnoví karty, které jste otevřeli při posledním použití tohoto kontextu. Kontext můžete přepnout z horní části levého bočního panelu. Kliknutím na záhlaví si můžete vybrat mezi pracovním prostorem, editorem SQL nebo nedávno upravenými kanály.
Když otevřete soubor ze stránky prohlížeče pracovního prostoru, otevře se v odpovídajícím editoru daného souboru. Pokud je soubor přidružený ke kanálu, jedná se o Editor kanálů Lakeflow.
Pokud chcete otevřít soubor, který není součástí kanálu, ale zachovat kontext kanálu, otevřete soubor na kartě Všechny soubory prohlížeče prostředků.
Prohlížeč prostředků v potrubí má dvě karty:
- Kanál: Tady najdete všechny soubory přidružené k kanálu. Můžete je vytvářet, odstraňovat, přejmenovat a uspořádat do složek. Tato karta také obsahuje zkratky pro konfiguraci pipeline a grafický pohled na nedávná spuštění.
- Všechny soubory: Všechny ostatní prostředky pracovního prostoru jsou k dispozici tady. To může být užitečné pro vyhledání souborů pro přidání do kanálu nebo zobrazení jiných souborů souvisejících s kanálem, jako je soubor YAML, který definuje sady prostředků Databricks.
V datovém toku můžete mít tyto typy souborů:
- Soubory zdrojového kódu: Tyto soubory jsou součástí definice zdrojového kódu kanálu, kterou můžete vidět v Nastavení. Databricks doporučuje vždy ukládat soubory zdrojového kódu do kořenové složky kanálu; v opačném případě se zobrazí v části externího souboru v dolní části prohlížeče a mají méně bohatou sadu funkcí.
- Jiné než zdrojové soubory kódu: Tyto soubory jsou uložené v kořenové složce kanálu, ale nejsou součástí definice zdrojového kódu kanálu.
Důležité
Pro správu souborů a složek vašeho pipeline musíte použít prohlížeč prostředků pipeline na kartě Pipeline. Tím se správně aktualizuje nastavení potrubí. Přesunutí nebo přejmenování souborů a složek z prohlížeče pracovního prostoru nebo z karty Všechny soubory přeruší konfiguraci sestavovacího procesu a je třeba to ručně vyřešit v Nastavení.
Kořenová složka
Prohlížeč prostředků kanálu je ukotvený v kořenové složce kanálu. Když vytvoříte nový kanál, vytvoří se kořenová složka kanálu ve vaší domovské složce uživatele a bude pojmenovaná stejně jako název kanálu.
Kořenovou složku můžete změnit v prohlížeči prostředků pipeline. To je užitečné, pokud jste vytvořili kanál ve složce a později chcete přesunout všechno do jiné složky. Kanál jste například vytvořili v normální složce a chcete zdrojový kód přesunout do složky Gitu pro správu verzí.
- Klikněte na
Otevřete přetékající nabídku pro kořenovou složku.
- Klikněte na Konfigurovat novou kořenovou složku.
- V části Kořenová složka kanálu klikněte na
a zvolte jinou složku jako kořenovou složku kanálu. - Klikněte na Uložit.
V U kořenové složky můžete také kliknout na Přejmenovat kořenovou složku a přejmenovat název složky. Tady můžete také kliknout na Přesunout kořenovou složku a přesunout kořenovou složku, například do složky Git.
Kořenovou složku kanálu můžete také změnit v nastavení:
- Klikněte na Nastavení.
- V části Prostředky kódu klikněte na Konfigurovat cesty.
- Klikněte na
pro změnu složky v rámci kořenové složky kanálu. - Klikněte na Uložit.
Poznámka:
Pokud změníte kořenovou složku kanálu, ovlivní se seznam souborů zobrazený prohlížečem prostředků kanálu, protože soubory v předchozí kořenové složce se zobrazí jako externí soubory.
Existující kanál bez kořenové složky
Existující kanál vytvořený pomocí starší verze prostředí pro úpravy poznámkového bloku nebude mít nakonfigurovanou kořenovou složku. Když otevřete kanál, který nemá nakonfigurovanou kořenovou složku, zobrazí se výzva k vytvoření kořenové složky a uspořádání zdrojových souborů v ní.
Můžete to zavřít a pokračovat v úpravách kanálu bez nastavení kořenové složky.
Pokud později chcete pro svůj kanál nakonfigurovat kořenovou složku, postupujte takto:
- V prohlížeči prostředků kanálu klikněte na Konfigurovat.
- Kliknutím na
vyberte kořenovou složku v rámci kořenové složky pipeline. - Klikněte na Uložit.
Výchozí struktura složek
Když vytvoříte novou pipeline, vytvoří se výchozí struktura složek. Toto je doporučená struktura pro uspořádání souborů zdrojového kódu a souborů nesouvisících se zdrojovým kódem, jak je popsáno níže.
V této struktuře složek se vytvoří malý počet ukázkových souborů kódu.
| Název složky | Doporučené umístění pro tyto typy souborů |
|---|---|
<pipeline_root_folder> |
Kořenová složka, která obsahuje všechny složky a soubory pro váš kanál |
transformations |
Soubory zdrojového kódu, jako jsou soubory kódu Python nebo SQL s definicemi tabulek. |
explorations |
Soubory bez zdrojového kódu, jako jsou poznámkové bloky, dotazy a soubory kódu používané k průzkumné analýze dat. |
utilities |
Soubory bez zdrojového kódu s moduly Pythonu, které je možné importovat z jiných souborů kódu. Pokud jako jazyk pro vzorový kód zvolíte SQL, tato složka se nevytvořila. |
Názvy složek můžete přejmenovat nebo změnit strukturu tak, aby vyhovovala vašemu pracovnímu postupu. Pokud chcete přidat novou složku zdrojového kódu, postupujte takto:
- Klikněte na Přidat v prohlížeči prostředků pipeline.
- Klikněte na Vytvořit složku zdrojového kódu pipeline.
- Zadejte název složky a klikněte na Vytvořit.
Soubory zdrojového kódu
Soubory zdrojového kódu jsou součástí definice zdrojového kódu potrubí. Při spuštění datového kanálu se tyto soubory vyhodnocují. Soubory a složky, které jsou součástí definice zdrojového kódu, mají speciální ikonu s mini ikonou „Pipeline“ překrytou.
Pokud chcete přidat nový soubor zdrojového kódu, postupujte takto:
- Klikněte na Přidat v prohlížeči prostředků pipeline.
- Klikněte na Transformace.
- Zadejte název souboru a jako jazyk vyberte Python nebo SQL.
- Klikněte na Vytvořit.
Můžete také kliknout na pro libovolnou složku v prohlížeči prostředků kanálu a přidat soubor zdrojového kódu.
transformations Při vytváření nového kanálu se ve výchozím nastavení vytvoří složka pro zdrojový kód. Tato složka je doporučeným umístěním pro zdrojový kód kanálu, jako jsou soubory kódu Pythonu nebo SQL s definicemi tabulek kanálů.
Soubory bez zdrojového kódu
Soubory bez zdrojového kódu se ukládají do kořenové složky kanálu, ale nejsou součástí definice zdrojového kódu kanálu. Tyto soubory se při spuštění procesu nevyhodnocují. Soubory bez zdrojového kódu nemohou být externími soubory.
Můžete toto použít pro soubory související s prací na pipeline, které chcete ukládat společně se zdrojovým kódem. Například:
- Poznámkové bloky určené pro ad hoc průzkumy, které jsou prováděny na deklarativních kanálech Spark (Lakeflow) bez použití Lakeflow, běží mimo životní cyklus kanálu.
- Moduly Pythonu, které se nemají vyhodnotit pomocí zdrojového kódu, pokud tyto moduly explicitně neimportujete do souborů zdrojového kódu.
Pokud chcete přidat nový soubor jiného než zdrojového kódu, postupujte takto:
- Klikněte na Přidat v prohlížeči prostředků pipeline.
- Klikněte na Průzkum nebo Nástroj.
- Zadejte název souboru.
- Klikněte na Vytvořit.
Můžete také kliknout na To platí pro kořenovou složku kanálu nebo soubor bez zdrojového kódu a umožňuje přidat soubory bez zdrojového kódu do složky.
Při vytváření nového kanálu se ve výchozím nastavení vytvoří následující složky pro soubory bez zdrojového kódu:
| Název složky | Description |
|---|---|
explorations |
Tato složka je doporučeným umístěním pro poznámkové bloky, dotazy, řídicí panely a další soubory a poté je spouštět na výpočetních prostředcích, které nejsou součástí deklarativních kanálů Spark Lakeflow, jak to obvykle děláte mimo životní cyklus provádění kanálu. |
utilities |
Tato složka je doporučeným umístěním pro moduly Pythonu, které lze importovat z jiných souborů prostřednictvím přímých importů vyjádřených jako from <filename> import, pokud je jejich nadřazená složka hierarchicky pod kořenovou složkou. |
Můžete také importovat moduly Pythonu umístěné mimo kořenovou složku, ale v takovém případě musíte do kódu Pythonu připojit cestu ke sys.path složce:
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*
Externí soubory
Oddíl Externí soubory prohlížeče kanálu zobrazuje soubory zdrojového kódu mimo kořenovou složku.
Pokud chcete přesunout externí soubor do kořenové složky, například složky transformations, postupujte takto:
- Klikněte na
U souboru v prohlížeči prostředků klikněte na Přesunout.
- Zvolte složku, do které chcete soubor přesunout, a klikněte na Přesunout.
Soubory přidružené k více pipelinám
Pokud je soubor přidružený k více kanálům, zobrazí se v záhlaví souboru odznáček. Má počet přidružených potrubí a umožňuje přepnutí na jiná.
Oddíl Všechny soubory
Kromě oddílu Kanál je k dispozici oddíl Všechny soubory , kde můžete otevřít libovolný soubor v pracovním prostoru. Tady můžete:
- Soubory lze otevřít mimo kořenovou složku na kartě bez opuštění Editoru Pipeline Lakeflow.
- Přejděte do souborů zdrojového kódu jiného pipeline a otevřete je. Tím se soubor otevře v editoru a zobrazí se banner s možností přepnout fokus v editoru na tento druhý kanál.
- Přesuňte soubory do kořenové složky kanálu.
- Do definice zdrojového kódu kanálu zahrňte soubory mimo kořenovou složku.
Úprava zdrojových souborů datového potrubí
Když otevřete zdrojový soubor pipeline z prohlížeče pracovního prostoru nebo z prohlížeče prostředků pipeline, otevře se na kartě editoru v Lakeflow Pipelines Editoru. Otevření dalších souborů otevře samostatné karty, které vám umožní upravovat více souborů najednou.
Poznámka:
Otevření souboru, který není přidružený k pipeline z prohlížeče pracovního prostoru, otevře editor v jiném kontextu (obecný editor pracovního prostoru nebo v případě souborů SQL SQL Editor).
Při otevření souboru, který není součástí pipeline, na kartě Všechny soubory v prohlížeči prostředků pipeline, se otevře na nové kartě v kontextu pipeline.
Zdrojový kód pipeliny obsahuje více souborů. Ve výchozím nastavení jsou zdrojové soubory ve složce transformací v prohlížeči prostředků pipeline. Soubory zdrojového kódu můžou být soubory Pythonu (*.py) nebo SQL (*.sql). Zdroj může obsahovat kombinaci souborů Pythonu i SQL v jednom kanálu a kód v jednom souboru může odkazovat na tabulku nebo zobrazení definované v jiném souboru.
Soubory markdownu (*.md) můžete také zahrnout do složky tranformací . Soubory ve formátu Markdown lze použít pro dokumentaci nebo poznámky, ale při spuštění aktualizace potrubí se ignorují.
Následující funkce jsou specifické pro Editor kanálů Lakeflow:
Connect - Připojte se k bezserverovým nebo klasickým výpočetním prostředkům pro spuštění potrubí. Všechny soubory přidružené ke kanálu používají stejné výpočetní připojení, takže jakmile se připojíte, nemusíte se připojovat k jiným souborům ve stejném kanálu. Další informace o výpočetních možnostech naleznete v Konfiguraci výpočetních možností.
U souborů, které nejsou součástí kanálu, jako je například průzkumný sešit, je dostupná možnost připojení, ale vztahuje se pouze na tento jednotlivý soubor.
Spustit soubor – Spuštěním kódu aktualizujte tabulky definované v tomto zdrojovém souboru. Další část popisuje různé způsoby, jak spustit kód pipeline.
Úpravy – Pomocí Pomocníka pro Databricks můžete upravovat nebo přidávat kód do souboru.
Rychlá oprava – Pokud v kódu dojde k chybě, opravte chybu pomocí Pomocníka.
Dolní panel se rovněž přizpůsobí podle aktuální karty. Zobrazení informací o pipeline v dolním panelu je vždy dostupné. Soubory, které nejsou přidružené k pipeline, například soubory editoru SQL, také zobrazují výstup na dolním panelu na samostatné kartě. Následující obrázek znázorňuje svislý selektor karet pro přepínání dolního panelu mezi zobrazením informací o pipeline nebo informacemi pro vybraný notebook.
Spustit kód pipeline
Máte čtyři možnosti provádění kódu pipeliny:
Spusťte všechny soubory zdrojového kódu v procesu
Kliknutím na Spustit kanál nebo Spustit kanál s úplnou aktualizací tabulky spustíte všechny definice tabulky ve všech souborech definovaných jako zdrojový kód kanálu. Podrobnosti o typech aktualizací najdete v tématu Sémantika aktualizace pipeline.
Můžete také kliknout na Testovací režim a ověřit kanál bez aktualizace dat.
Spuštění kódu v jednom souboru
Kliknutím na Spustit soubor nebo Spustit soubor s úplnou aktualizací tabulky spustíte všechny definice tabulky v aktuálním souboru. Ostatní soubory v procesu se nevyhodnocují.
Tato možnost je užitečná pro ladění při rychlé úpravě a iterování souboru. Při spuštění kódu pouze v jednom souboru se objevují vedlejší účinky.
- Pokud se nevyhodnocují jiné soubory, chyby v těchto souborech se nenašly.
- Tabulky materializované v jiných souborech používají nejnovější materializaci tabulky, i když existují novější zdrojová data.
- Pokud odkazovaná tabulka ještě nebyla materializována, můžete narazit na chyby.
- DaG může být nesprávný nebo nesouvislý pro tabulky v jiných souborech, které nebyly materializovány. Azure Databricks se snaží graf udržovat správně, ale nevyhodnocuje jiné soubory.
Po dokončení ladění a úprav souboru doporučuje Databricks spustit všechny soubory zdrojového kódu v rámci pipeline, aby se před zařazením do produkce ověřilo, že celý datový proces (pipeline) funguje jako celek.
Spusťte kód pro jednu tabulku
Vedle definice tabulky v souboru zdrojového kódu klikněte na ikonu Spustit tabulku
a pak v rozevíracím seznamu zvolte Aktualizovat tabulku nebo Úplnou aktualizaci tabulky. Spuštění kódu pro jednu tabulku má podobné vedlejší účinky jako spuštění kódu v jednom souboru.
Poznámka:
Spuštění kódu pro jednu tabulku je k dispozici pro streamované tabulky a materializovaná zobrazení. Jímky a zobrazení nejsou podporovány.
Spuštění kódu pro sadu tabulek
Můžete vybrat tabulky z DAG a vytvořit seznam tabulek, které se mají spustit. Najeďte myší na tabulku v DAG, klikněte na
zvolte Vybrat tabulku pro aktualizaci. Po výběru tabulek, které se mají aktualizovat, zvolte v dolní části dag možnost Spustit nebo Spustit s úplnou aktualizací .
Graf kanálu, orientovaný acyklický graf (DAG)
Po spuštění nebo ověření všech souborů zdrojového kódu v kanálu se zobrazí směrovaný acyklický graf (DAG), který se nazývá graf kanálu. Graf zobrazuje graf závislostí tabulky. Každý uzel má v životním cyklu kanálu různé stavy, jako je ověření, spuštění nebo chyba.
Graf můžete zapnout nebo vypnout kliknutím na ikonu grafu na pravém bočním panelu. Graf můžete také maximalizovat. V pravém dolním rohu jsou další možnosti, včetně možností přiblížení a Další možnosti zobrazení grafu ve svislém nebo vodorovném rozložení
Když najedete myší na uzel, zobrazí se panel nástrojů s možnostmi, včetně aktualizace dotazu. Kliknutím pravým tlačítkem myši na uzel se vám zobrazí tytéž možnosti v kontextové nabídce.
Kliknutím na uzel zobrazíte náhled dat a definici tabulky. Při úpravě souboru se tabulky definované v daném souboru zvýrazní v grafu.
Náhledy dat
Část náhledu dat zobrazuje ukázková data pro vybranou tabulku.
Náhled dat tabulky se zobrazí po kliknutí na uzel v řízeném acyklickém grafu (DAG).
Pokud nebyla vybrána žádná tabulka, přejděte do části Tabulky a klikněte na Zobrazit náhled dat LDP
. Pokud jste vybrali tabulku, kliknutím na Všechny tabulky se vraťte do všech tabulek.
Když si zobrazíte náhled dat tabulky, můžete data filtrovat nebo řadit na místě. Pokud chcete provést složitější analýzu, můžete použít nebo vytvořit poznámkový blok ve složce Explorations (za předpokladu, že jste zachovali výchozí strukturu složek). Ve výchozím nastavení se zdrojový kód v této složce nespustí během aktualizace kanálu, takže můžete vytvářet dotazy bez ovlivnění výstupu kanálu.
Přehledy spouštění
Podrobnosti o provádění tabulek týkající se nejnovější aktualizace pipeline najdete na panelech v dolní části editoru.
| Panel | Description |
|---|---|
| Tables | Zobrazí seznam všech tabulek se stavy a metrikami. Pokud vyberete jednu tabulku, zobrazí se metriky a výkon dané tabulky a karta náhledu dat. |
| Performance | Historie a profily dotazů pro všechny toky v tomto kanálu K metrikám spouštění a podrobným plánům dotazů můžete přistupovat během a po spuštění. Další informace najdete v historii dotazů Accessu pro kanály . |
| Panel Problémy | Kliknutím na panel zobrazíte zjednodušené zobrazení chyb a upozornění pro potrubí. Kliknutím na položku můžete zobrazit další podrobnosti a pak přejít na místo v kódu, kde došlo k chybě. Pokud se chyba nachází v jiném souboru než v aktuálně zobrazeném souboru, přesměruje vás na soubor, ve kterém je chyba. Kliknutím na Zobrazit podrobnosti zobrazíte odpovídající položku protokolu událostí pro úplné podrobnosti. Kliknutím na Zobrazit protokoly zobrazíte úplný protokol událostí. Indikátory chyb připevněné kódem se zobrazují u chyb spojených s konkrétní částí kódu. Pokud chcete získat další podrobnosti, klikněte na ikonu chyby nebo najeďte myší na červenou čáru. Zobrazí se automaticky otevírané okno s dalšími informacemi. Potom můžete kliknout na Rychlá oprava a zobrazit sadu akcí pro řešení chyby. |
| Protokol událostí | Všechny události aktivované během posledního spuštění procesní linky. Klikněte na Zobrazit protokoly nebo jakýkoli záznam v sekci problémů. |
Konfigurace kanálu
Kanál můžete nakonfigurovat v editoru kanálů. Můžete provádět změny nastavení potrubí/datového toku, plánu nebo oprávnění.
Ke každému z nich můžete přistupovat z tlačítka v záhlaví editoru nebo z ikon v prohlížeči prostředků (na levém bočním panelu).
Nastavení (nebo zvolte
v prohlížeči assetů):
Nastavení kanálu můžete upravit z panelu nastavení, včetně obecných informací, kořenové složky a konfigurace zdrojového kódu, konfigurace výpočetních prostředků, oznámení, upřesňujících nastavení a dalších možností.
Plán (nebo zvolte
v prohlížeči assetů):
V dialogovém okně plánování můžete vytvořit jeden nebo více plánů pro vaše potrubí. Pokud ho například chcete spustit každý den, můžete ho nastavit tady. Vytvoří úlohu pro spuštění pipeline podle vámi zvoleného plánu. Můžete přidat nový plán nebo odebrat existující plán z dialogového okna plán.
Nasdílejte (nebo z
v prohlížeči prostředků zvolte
):
Oprávnění v kanálu můžete spravovat pro uživatele a skupiny v dialogovém okně oprávnění kanálu.
Protokol událostí
Protokol událostí kanálu můžete publikovat do katalogu Unity. Ve výchozím nastavení se protokol událostí pro váš kanál zobrazuje v uživatelském rozhraní a je přístupný pro dotazování vlastníkem.
- Otevřete nastavení.
- Klikněte na
Šipka vedle Upřesnit nastavení.
- Klikněte na Upravit upřesňující nastavení.
- V části Protokoly událostí klikněte na publikovat do katalogu.
- Zadejte název, katalog a schéma pro protokol událostí.
- Klikněte na Uložit.
Události vašeho datového toku jsou publikovány do vámi zadané tabulky.
Další informace o používání protokolu událostí kanálu najdete v tématu Dotazování protokolu událostí.
Prostředí kanálu
Prostředí pro zdrojový kód můžete vytvořit přidáním závislostí v Nastavení.
- Otevřete nastavení.
- V části Prostředí klikněte na Upravit prostředí.
- Vyberte
Přidejte závislost pro přidání závislosti, jako byste ji přidali do
requirements.txtsouboru. Další informace o závislostech najdete v tématu Přidání závislostí do poznámkového bloku.
Databricks doporučuje zadat verzi pomocí ==. Viz balíček PyPI.
Prostředí platí pro všechny soubory zdrojového kódu ve vašem řetězci.
Upozornění
Oznámení můžete přidat pomocí nastavení kanálu.
- Otevřete nastavení.
- V části Oznámení klikněte na Přidat oznámení.
- Přidejte jednu nebo více e-mailových adres a události, které chcete odeslat.
- Klikněte na Přidat oznámení.
Poznámka:
Vytvářejte vlastní odpovědi na události, včetně oznámení nebo vlastního zpracování, pomocí hooků událostí Pythonu.
Monitorování kanálů
Azure Databricks také poskytuje funkce pro monitorování spuštěných datových linek. Editor zobrazuje výsledky a přehledy o posledním spuštění. Je optimalizován tak, aby vám pomohl efektivně iterovat během interaktivního vývoje vašeho pipeline.
Stránka monitorování pipeline umožňuje zobrazit historická spuštění, což je užitečné v případě, že pipeline běží v naplánovaném režimu pomocí Úlohy.
Poznámka:
K dispozici je výchozí prostředí pro monitorování a aktualizované prostředí pro monitorování ve verzi Preview. Následující část popisuje, jak povolit nebo zakázat prostředí monitorování ve verzi Preview. Informace o obou prostředích najdete v tématu Monitorování kanálů v uživatelském rozhraní.
Prostředí monitorování je dostupné z tlačítka Úlohy a Kanály na levé straně pracovního prostoru. Můžete také přejít přímo na stránku monitorování z editoru kliknutím na výsledky spuštění v prohlížeči prostředků kanálu.
Další informace o stránce monitorování najdete v tématu Monitorování kanálů v uživatelském rozhraní. Uživatelské rozhraní monitorování zahrnuje možnost vrátit se do Editoru kanálů Lakeflow tak, že v záhlaví uživatelského rozhraní vyberete Upravit kanál .
Povolení editoru kanálů Lakeflow a aktualizovaného monitorování
Ve výchozím nastavení je povolen editor kanálů Lakeflow. Můžete ho zakázat nebo ho znovu povolit pomocí následujících pokynů. Pokud je povolený Editor kanálů Lakeflow ve verzi Preview, můžete také povolit aktualizované prostředí monitorování (Preview).
Náhled musí být povolený nastavením možnosti Editoru kanálů Lakeflow pro váš pracovní prostor. Další informace na téma, jak upravit možnosti, najdete v Správa náhledů Azure Databricks.
Jakmile je verze Preview povolená, můžete editor kanálů Lakeflow povolit několika způsoby:
Když vytvoříte nový kanál ETL, povolte editor v deklarativních kanálech Lakeflow Spark pomocí přepínače Editor kanálu Lakeflow.
Stránka upřesňujícího nastavení kanálu se použije při prvním povolení editoru. Zjednodušené okno pro vytvoření kanálu se použije při příštím vytvoření nového kanálu.
V případě existujícího kanálu otevřete poznámkový blok použitý v kanálu a povolte přepínač Editoru kanálů Lakeflow v záhlaví. Můžete také přejít na stránku monitorování kanálu a kliknutím na Nastavení povolit Editor kanálů Lakeflow.
Editor kanálů Lakeflow můžete povolit z uživatelských nastavení:
- Klikněte na odznáček uživatele v pravé horní části pracovního prostoru a potom klikněte na Nastavení a Vývojář.
- Povolte Editor kanálů Lakeflow.
Jakmile povolíte přepínač Editor kanálů Lakeflow , všechny kanály ETL ve výchozím nastavení používají Editor kanálů Lakeflow. Editor kanálů Lakeflow můžete v editoru zapnout a vypnout.
Poznámka:
Pokud nový editor kanálů zakážete, je užitečné nechat zpětnou vazbu popisující, proč jste ho vypnuli. Na přepínači je tlačítko Odeslat zpětnou vazbu pro všechny názory, které máte v novém editoru.
Povolení nové stránky monitorování kanálu
Důležité
Tato funkce je ve verzi Public Preview.
V rámci editoru Kanálů Lakeflow ve verzi Preview můžete pro kanál také povolit novou stránku monitorování kanálu. Aby bylo možné povolit stránku monitorování kanálu, musí být povolená verze Preview editoru Kanálů Lakeflow. Když je povolená verze Preview editoru, je ve výchozím nastavení povolená také nová stránka monitorování.
Klikněte na Úlohy a kanály.
Kliknutím na název libovolného kanálu zobrazíte podrobnosti kanálu.
V horní části stránky povolte aktualizované uživatelské rozhraní monitorování pomocí přepínače Nová stránka kanálu .
Omezení a známé problémy
Podívejte se na následující omezení a známé problémy pro editor ETL v deklarativních potrubích Spark Lakeflow:
Boční panel prohlížeče pracovního prostoru se nezaměří na kanál, pokud začnete otevřením souboru ve
explorationssložce nebo poznámkovém bloku, protože tyto soubory nebo poznámkové bloky nejsou součástí definice zdrojového kódu kanálu.Pokud chcete přejít do režimu zaměření na datový tok v prohlížeči pracovního prostoru, otevřete soubor přidružený k datovému toku.
Náhledy dat nejsou podporovány pro běžná zobrazení.
Moduly Pythonu se nenašly uvnitř UDF, i když jsou ve vaší kořenové složce nebo na vaší
sys.path. Přístup k těmto modulům získáte připojením cesty ksys.pathuvnitř UDF, například:sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))%pip installnepodporuje soubory (výchozí typ assetu v novém editoru). V nastavení můžete přidat závislosti. Viz prostředí kanálu.Alternativně můžete pokračovat v používání
%pip installz poznámkového bloku, který je přidružený k datovému toku, v definici zdrojového kódu.
časté otázky
Proč používat soubory a ne poznámkové bloky pro zdrojový kód?
Spouštění poznámkových bloků založené na buňkách není kompatibilní se zpracovatelskými řetězci. Standardní funkce poznámkových bloků jsou při práci s pipeline zakázané nebo změněné, což vede k nejasnostem u uživatelů, kteří jsou obeznámeni s chováním poznámkového bloku.
V Editoru kanálů Lakeflow se editor souborů používá jako základ pro prvotřídní editor kanálů. Funkce jsou cíleny explicitně na kanály, jako je , místo aby přetížily známé funkce s různými chováními.Run Table Icon
Můžu dál používat poznámkové bloky jako zdrojový kód?
Ano, můžete. Některé funkce, jako je Spustit tabulku
Ikona Spustit tabulku nebo Spustit soubor, nejsou k dispozici.
Pokud máte existující kanál, který používá poznámkové bloky, funguje i v novém editoru. Databricks ale doporučuje přepnout na soubory pro nové kanály.
Jak můžu do nově vytvořeného kanálu přidat existující kód?
Do nového kanálu můžete přidat existující soubory zdrojového kódu. Pokud chcete přidat složku se stávajícími soubory, postupujte takto:
- Klikněte na Nastavení.
- V části Zdrojový kód klikněte na Konfigurovat cesty.
- Klikněte na Přidat cestu a zvolte složku pro existující soubory.
- Klikněte na Uložit.
Můžete také přidat jednotlivé soubory:
- Klikněte na Všechny soubory v prohlížeči zdrojů pipeline.
- Přejděte k vašemu souboru, klikněte na
a klikněte na Zahrnout do pipeline.
Zvažte přesunutí těchto souborů do kořenové složky kanálu. Pokud je mimo kořenovou složku kanálu, zobrazí se v části Externí soubory .
Můžu spravovat zdrojový kód kanálu v Gitu?
Zdroj kanálu můžete spravovat v Gitu tak, že při počátečním vytvoření kanálu zvolíte složku Git.
Poznámka:
Správa zdroje ve složce Git přidává správu verzí pro zdrojový kód. Pro správu verzí ale Databricks doporučuje používat sady prostředků Databricks k definování konfigurace kanálu v konfiguračních souborech sady prostředků, které je možné uložit v Gitu (nebo jiném systému správy verzí). Další informace najdete v tématu Co jsou sady prostředků Databricks?
Pokud jste kanál původně nevytvořili ve složce Gitu, můžete zdroj přesunout do složky Git. Databricks doporučuje přesunout celou kořenovou složku do složky Git pomocí akce editoru. Tím se odpovídajícím způsobem aktualizují všechna nastavení. Viz Kořenová složka.
Přesunutí kořenové složky do složky Git v prohlížeči prostředků pipeline:
- Klikněte na
pro kořenovou složku.
- Klikněte na Přesunout kořenovou složku.
- Zvolte nové umístění kořenové složky a klikněte na Přesunout.
Další informace najdete v části Kořenová složka .
Po přesunutí se vedle názvu kořenové složky zobrazí známá ikona Gitu.
Důležité
Pokud chcete přesunout kořenovou složku kanálu, použijte prohlížeč prostředků kanálu a výše uvedené kroky. Přesunutí jiným způsobem naruší konfigurace pipeline a ve Nastavení musíte ručně nakonfigurovat správnou cestu ke složce.
- Klikněte na
Můžu mít ve stejné kořenové složce více kanálů?
Můžete, ale Databricks doporučuje mít pouze jedno potrubí pro každou kořenovou složku.
Kdy mám spustit suchý běh?
Kliknutím na tlačítko Dry run (Sucho) zkontrolujte kód bez aktualizace tabulek.
Kdy mám používat dočasná zobrazení a kdy mám v kódu používat materializovaná zobrazení?
Dočasná zobrazení použijte v případech, kdy nechcete materializovat data. Jedná se například o krok v posloupnosti kroků pro přípravu dat před tím, než je připraven materializovat pomocí streamované tabulky nebo materializovaného zobrazení registrovaného v katalogu.