Sdílet prostřednictvím


Správa závislostí Pythonu pro kanály

Deklarativní kanály Sparku Lakeflow podporují externí závislosti ve vašich kanálech. Databricks doporučuje k instalaci balíčků Pythonu použít jeden ze dvou vzorů:

  1. Pomocí nastavení prostředí přidejte balíčky do prostředí kanálu pro všechny zdrojové soubory v kanálu.
  2. Importujte moduly nebo knihovny ze zdrojového kódu uloženého v souborech pracovního prostoru. Viz Import modulů Pythonu ze složek Gitu nebo souborů pracovního prostoru.

Kanály také podporují použití globálních inicializačních skriptů a inicializačních skriptů vymezených clusterem. Tyto externí závislosti, zejména inicializační skripty, ale zvyšují riziko problémů s upgrady modulu runtime. Pokud chcete tato rizika zmírnit, minimalizujte používání inicializačních skriptů ve vašich kanálech. Pokud vaše zpracování vyžaduje inicializační skripty, automatizujte testování kanálu, abyste včas zjistili problémy. Pokud používáte inicializační skripty, databricks doporučuje zvýšit frekvenci testování.

Důležité

Vzhledem k tomu, že knihovny JVM nejsou v kanálech podporované, nepoužívejte inicializační skript k instalaci knihoven JVM. Pomocí inicializačního skriptu ale můžete nainstalovat další typy knihoven, jako jsou knihovny Pythonu.

Pythonové knihovny

Pokud chcete zadat externí knihovny Pythonu, upravte prostředí pro váš pipeline.

  1. V editoru kanálů klikněte na Nastavení.
  2. V části Pipeline prostředí vyberte ikonu tužky.Upravit prostředí.
  3. Klikněte na ikonu Plus.Přidání závislosti
  4. Zadejte název závislosti. Databricks doporučuje zafixovat verzi knihovny. Pokud chcete například přidat závislost na simplejson verzi 3.19, zadejte simplejson==3.19.*.

Balíček ve formátu wheel pro Python můžete také nainstalovat ze svazku katalogu Unity tím, že uvedete jeho cestu, například /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.

Můžu v datových tocích používat knihovny Scala nebo Java?

Ne, kanály podporují pouze SQL a Python. V pipeline nelze použít knihovny JVM. Instalace knihoven JVM způsobí nepředvídatelné chování a může narušit funkčnost u budoucích verzí deklarativních kanálů Lakeflow Spark. Pokud váš kanál používá inicializační skript, musíte také zajistit, aby skript nenainstaloval knihovny JVM.