Instalace knihoven z úložiště balíčků

Azure Databricks poskytuje nástroje pro instalaci knihoven z úložišť balíčků PyPI, Maven a CRAN. Úplné podrobnosti o kompatibilitě knihoven najdete v knihovnách s oborem clusteru.

Důležité

Knihovny je možné nainstalovat z DBFS při použití Databricks Runtime 14.3 LTS a níže. Každý uživatel pracovního prostoru ale může upravovat soubory knihovny uložené v DBFS. Aby se zlepšilo zabezpečení knihoven v pracovním prostoru Azure Databricks, ukládání souborů knihovny v kořenovém adresáři DBFS je ve výchozím nastavení v Databricks Runtime 15.0 a novějších zakázaných. Viz Ukládání knihoven v kořenovém adresáři DBFS je ve výchozím nastavení zastaralé a zakázané.

Místo toho databricks doporučuje nahrát všechny knihovny, včetně knihoven Pythonu, souborů JAR a konektorů Spark, do souborů pracovních prostorů nebo svazků katalogu Unity nebo pomocí úložišť balíčků knihoven. Pokud vaše úloha tyto vzory nepodporuje, můžete také použít knihovny uložené v cloudovém úložišti objektů.

Balíček PyPI

  1. V seznamu tlačítek Zdroj knihovny vyberte PyPI.

  2. Zadejte název balíčku PyPI. Chcete-li nainstalovat konkrétní verzi knihovny, použijte tento formát knihovny: <library>==<version>. Například scikit-learn==0.19.1.

    Poznámka:

    Pro úlohy doporučuje Databricks zadat verzi knihovny, aby se zajistilo reprodukovatelné prostředí. Pokud není verze knihovny plně zadaná, databricks používá nejnovější odpovídající verzi. To znamená, že různá spuštění stejné úlohy můžou používat různé verze knihovny, protože se publikují nové verze. Zadáním verze knihovny zabráníte novým zásadním změnám v knihovnách, aby vaše úlohy přerušily.

  3. (Volitelné) Do pole Adresa URL indexu zadejte adresu URL indexu PyPI.

  4. Klikněte na Install (Nainstalovat).

Balíček Maven nebo Spark

Důležité

Pokud chcete nainstalovat knihovny Mavenu na výpočetní prostředky nakonfigurované pomocí režimu sdíleného přístupu, musíte do seznamu povolených přidat souřadnice. Viz Knihovny allowlist a inicializační skripty pro sdílené výpočetní prostředky.

Důležité

Pro DBR 14.3 LTS a novější používá Databricks k překladu balíčků Maven Apache Ivy 2.4.0. Pro DBR 15.0 a novější používá Databricks Ivy 2.5.1 nebo vyšší a konkrétní verze Ivy je uvedená ve verzích a kompatibilitě databricks Runtime.

Pořadí instalace balíčků Maven může mít vliv na konečný strom závislostí, který může ovlivnit pořadí načtení knihoven.

  1. V seznamu tlačítek Zdroj knihovny vyberte Maven.

  2. Zadejte souřadnici Mavenu. Proveďte některou z následujících akcí:

    • Do pole Souřadnice zadejte souřadnici Maven knihovny, která se má nainstalovat. Souřadnice Mavenu jsou ve tvaru groupId:artifactId:version, například com.databricks:spark-avro_2.10:1.0.0.
    • Pokud neznáte přesnou souřadnici, zadejte název knihovny a klikněte na Hledat balíčky. Zobrazí se seznam odpovídajících balíčků. Pokud chcete zobrazit podrobnosti o balíčku, klikněte na jeho název. Balíčky můžete řadit podle názvu, organizace a hodnocení. Výsledky můžete filtrovat také tak, že na panelu hledání napíšete dotaz. Výsledky se aktualizují automaticky.
      1. V rozevíracím seznamu vlevo nahoře vyberte Balíčky Maven Central nebo Spark Packages .
      2. Volitelně vyberte verzi balíčku ve sloupci Vydané verze.
      3. Klikněte na +Vybrat vedle balíčku. Pole Souřadnice se vyplní vybraným balíčkem a verzí.
  3. (Volitelné) Do pole Úložiště můžete zadat adresu URL úložiště Maven.

    Poznámka:

    Interní úložiště Maven se nepodporují.

  4. V poli Vyloučení volitelně zadejte groupIdartifactId závislosti, které chcete vyloučit (napříkladlog4j:log4j).

    Poznámka:

    Maven funguje s použitím nejbližší kořenové verze a v případě dvou balíčků, které se používají pro verze s různými závislostmi, záleží na pořadí, takže může selhat, když se nejprve načte balíček se starší závislostí.

    Pokud chcete tento problém obejít, vylučte konfliktní knihovnu. Například při instalaci balíčku se souřadnicí com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22nastavte pole Vyloučení tak, aby com.nimbusds:oauth2-oidc-sdk:RELEASE se načetla nejnovější verze eventhubs z MSAL4J a eventhubs závislost je splněna.

  5. Klikněte na Install (Nainstalovat).

Balíček CRAN

  1. V seznamu tlačítek Zdroj knihovny vyberte CRAN.
  2. Do pole Balíček zadejte název balíčku.
  3. (Volitelné) Do pole Úložiště můžete zadat adresu URL úložiště CRAN.
  4. Klikněte na Install (Nainstalovat).

Poznámka:

Zrcadla CRAN slouží k nejnovější verzi knihovny. V důsledku toho můžete skončit s různými verzemi balíčku R, pokud knihovnu připojíte k různým clusterům v různých časech. Informace o správě a opravě verzí balíčků R v Databricks najdete ve znalostní bázi Knowledge Base.