Správa knihoven pro fondy Apache Sparku v Azure Synapse Analytics

Článek
06/01/2023

Jakmile identifikujete balíčky Scala, Java, R (Preview) nebo Python, které chcete použít nebo aktualizovat pro svou aplikaci Spark, můžete je nainstalovat nebo odebrat do fondu Sparku. Knihovny na úrovni fondu jsou dostupné pro všechny poznámkové bloky a úlohy spuštěné ve fondu.

Existují dva primární způsoby instalace knihovny do fondu Sparku:

Nainstalujte knihovnu pracovních prostorů, která se nahrála jako balíček pracovního prostoru.
Pro aktualizaci knihoven Pythonu poskytněte specifikaci prostředírequirements.txt nebo Conda environment.yml pro instalaci balíčků z úložišť, jako jsou PyPI, Conda-Forge a další. Další informace najdete v části o specifikaci prostředí .

Po uložení změn úloha Sparku spustí instalaci a uloží výsledné prostředí do mezipaměti pro pozdější opakované použití. Po dokončení úlohy budou nové úlohy Sparku nebo relace poznámkových bloků používat aktualizované knihovny fondu.

Důležité

Pokud je balíček, který instalujete, velký nebo instalace trvá dlouho, má to vliv na čas spuštění instance Sparku.
Změna verze PySpark, Python, Scala/Java, .NET, R nebo Spark se nepodporuje.
V pracovních prostorech s povolenou ochranou před exfiltrací dat není podporována instalace balíčků z externích úložišť, jako jsou PyPI, Conda-Forge nebo výchozí kanály Conda.

Správa balíčků z Synapse Studio nebo Azure Portal

Knihovny fondu Sparku je možné spravovat z Synapse Studio nebo Azure Portal.

Aktualizace nebo přidání knihoven do fondu Sparku:

Z Azure Portal přejděte do pracovního prostoru Azure Synapse Analytics.

Pokud aktualizujete z Azure Portal:
- V části Prostředky Synapse vyberte kartu Fondy Apache Sparku a v seznamu vyberte fond Sparku.
- V části Nastavení fondu Sparku vyberte Balíčky.
Pokud aktualizujete z Synapse Studio:
- Na hlavním navigačním panelu vyberte Spravovat a pak vyberte Fondy Apache Sparku.
- Vyberte část Balíčky pro konkrétní fond Sparku.
V případě knihoven informačních kanálů Pythonu nahrajte konfigurační soubor prostředí pomocí selektoru souborů v části Balíčky na stránce.
Můžete také vybrat další balíčky pracovních prostorů a přidat do fondu soubory Jar, Wheel nebo Tar.gz.
Zastaralé balíčky můžete také odebrat z oddílu Balíčky pracovních prostorů . Váš fond už tyto balíčky nepřipojí.
Po uložení změn se aktivuje systémová úloha pro instalaci a ukládání zadaných knihoven do mezipaměti. Tento proces pomáhá zkrátit celkovou dobu spuštění relace.
Jakmile se úloha úspěšně dokončí, všechny nové relace převezmou aktualizované knihovny fondu.

Důležité

Výběrem možnosti Vynutit nové nastavení ukončíte všechny aktuální relace pro vybraný fond Sparku. Po ukončení relací budete muset počkat na restartování fondu.

Pokud toto nastavení není zaškrtnuto, budete muset počkat, až se aktuální relace Sparku ukončí nebo zastaví ručně. Po skončení relace budete muset nechat fond restartovat.

Sledování průběhu instalace

Úloha Sparku rezervovaná systémem se zahájí pokaždé, když se fond aktualizuje novou sadou knihoven. Tato úloha Sparku pomáhá monitorovat stav instalace knihovny. Pokud instalace selže kvůli konfliktům knihoven nebo jiným problémům, fond Sparku se vrátí do předchozího nebo výchozího stavu.

Kromě toho můžou uživatelé také zkontrolovat protokoly instalace a identifikovat konflikty závislostí nebo zjistit, které knihovny byly nainstalovány během aktualizace fondu.

Zobrazení těchto protokolů:

Na kartě Monitorování přejděte do seznamu aplikací Spark.
Vyberte úlohu systémové aplikace Spark, která odpovídá aktualizaci fondu. Tyto systémové úlohy se spouští pod názvem SystemReservedJob-LibraryManagement .
Přepnutím zobrazíte protokoly ovladače a stdout .
Ve výsledcích uvidíte protokoly související s instalací závislostí.

Formáty specifikace prostředí

pip requirements.txt

K upgradu prostředí je možné použít souborrequirements.txt (výstup z pip freeze příkazu). Po aktualizaci fondu se balíčky uvedené v tomto souboru stáhnou z PyPI. Úplné závislosti se pak uloží do mezipaměti a uloží pro pozdější opakované použití fondu.

Následující fragment kódu ukazuje formát souboru požadavků. Název balíčku PyPI je uvedený spolu s přesnou verzí. Tento soubor má formát popsaný v referenční dokumentaci k ukotvení pipu .

Tento příklad připne konkrétní verzi.

absl-py==0.7.0
adal==1.2.1
alabaster==0.7.10

Formát YML

Kromě toho můžete také poskytnout soubor environment.yml pro aktualizaci prostředí fondu. Balíčky uvedené v tomto souboru se stahují z výchozích kanálů Conda, Conda-Forge a PyPI. Pomocí možností konfigurace můžete zadat jiné kanály nebo odebrat výchozí kanály.

Tento příklad určuje kanály a závislosti Conda/PyPI.

name: stats2
channels:
- defaults
dependencies:
- bokeh
- numpy
- pip:
  - matplotlib
  - koalas==1.7.0

Podrobnosti o vytvoření prostředí z tohoto souboru environment.yml najdete v tématu Vytvoření prostředí ze souboru environment.yml.

Další kroky

Zobrazení výchozích knihoven: Podpora verzí Apache Sparku
Řešení chyb instalace knihovny: Řešení chyb knihovny

Sdílet prostřednictvím