Dela via


Installera bibliotek från en paketlagringsplats

Azure Databricks innehåller verktyg för att installera bibliotek från PyPI-, Maven- och CRAN-paketlagringsplatser. Se Bibliotek med klusteromfattning för fullständig bibliotekskompatibilitetsinformation .

Viktigt!

Bibliotek kan installeras från DBFS när du använder Databricks Runtime 14.3 LTS och nedan. Alla arbetsyteanvändare kan dock ändra biblioteksfiler som lagras i DBFS. För att förbättra säkerheten för bibliotek på en Azure Databricks-arbetsyta är lagring av biblioteksfiler i DBFS-roten inaktuell och inaktiverad som standard i Databricks Runtime 15.1 och senare. Se Lagra bibliotek i DBFS-roten är inaktuell och inaktiverad som standard.

I stället rekommenderar Databricks att du laddar upp alla bibliotek, inklusive Python-bibliotek, JAR-filer och Spark-anslutningsappar, till arbetsytefiler eller Unity Catalog-volymer eller använder bibliotekspaketdatabaser. Om din arbetsbelastning inte stöder dessa mönster kan du även använda bibliotek som lagras i molnobjektlagring.

PyPI-paket

  1. Välj PyPI i listan Bibliotekskälla.

  2. Ange ett PyPI-paketnamn. Om du vill installera en specifik version av ett bibliotek använder du det här formatet för biblioteket: <library>==<version>. Exempel: scikit-learn==0.19.1

    Kommentar

    För jobb rekommenderar Databricks att du anger en biblioteksversion för att säkerställa en reproducerbar miljö. Om biblioteksversionen inte är helt angiven använder Databricks den senaste matchande versionen. Det innebär att olika körningar av samma jobb kan använda olika biblioteksversioner när nya versioner publiceras. Om du anger biblioteksversionen förhindras nya, icke-bakåtkompatibla ändringar i bibliotek från att bryta dina jobb.

  3. (Valfritt) I fältet Index-URL anger du en Url för PyPI-index.

  4. Klicka på Installera.

Maven- eller Spark-paket

Viktigt!

Om du vill installera Maven-bibliotek på beräkning som konfigurerats med läget för delad åtkomst måste du lägga till koordinaterna i listan över tillåtna. Se Tillåtlista bibliotek och init-skript för delad beräkning.

Viktigt!

För DBR 14.3 LTS och nedan använder Databricks Apache Ivy 2.4.0 för att lösa Maven-paket. För DBR 15.0 och senare använder Databricks Ivy 2.5.1 eller senare och den specifika Ivy-versionen visas i Databricks Runtime versionsanteckningar och kompatibilitet.

Installationsordningen för Maven-paket kan påverka det slutliga beroendeträdet, vilket kan påverka i vilken ordning bibliotek läses in.

  1. Välj Maven i listan Bibliotekskälla.

  2. Ange en Maven-koordinat. Gör något av följande:

    • I fältet Koordinat anger du Maven-koordinaten för biblioteket som ska installeras. Maven-koordinaterna finns i formuläret groupId:artifactId:version, till exempel com.databricks:spark-avro_2.10:1.0.0.
    • Om du inte känner till den exakta koordinaten anger du biblioteksnamnet och klickar på Sökpaket. En lista över matchande paket visas. Om du vill visa information om ett paket klickar du på dess namn. Du kan sortera paket efter namn, organisation och klassificering. Du kan också filtrera resultaten genom att skriva en fråga i sökfältet. Resultatet uppdateras automatiskt.
      1. Välj Maven Central eller Spark-paket i listrutan längst upp till vänster.
      2. Du kan också välja paketversionen i kolumnen Versioner.
      3. Klicka på + Välj bredvid ett paket. Fältet Koordinat fylls i med det valda paketet och versionen.
  3. (Valfritt) I fältet Lagringsplats kan du ange en URL för Maven-lagringsplatsen.

    Kommentar

    Interna Maven-lagringsplatser stöds inte.

  4. I fältet Undantag kan du ange groupId och för de artifactId beroenden som du vill exkludera (till exempel log4j:log4j).

    Kommentar

    Maven fungerar med hjälp av den närmast rotversion, och om två paket tävlar om versioner med olika beroenden är ordningen viktig, så den kan misslyckas när paketet med ett äldre beroende läses in först.

    Du kan kringgå detta genom att undanta det bibliotek som står i konflikt. När du till exempel installerar paketet med koordinaten com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22anger du fältet Undantag så att com.nimbusds:oauth2-oidc-sdk:RELEASE den senaste versionen av eventhubs från MSAL4J läses in och eventhubs beroendet är uppfyllt.

  5. Klicka på Installera.

CRAN-paket

  1. Välj CRAN i listan Bibliotekskälla.
  2. I fältet Paket anger du namnet på paketet.
  3. (Valfritt) I fältet Lagringsplats kan du ange CRAN-lagringsplatsens URL.
  4. Klicka på Installera.

Kommentar

CRAN-speglar har den senaste versionen av ett bibliotek. Därför kan du få olika versioner av ett R-paket om du kopplar biblioteket till olika kluster vid olika tidpunkter. Information om hur du hanterar och åtgärdar R-paketversioner på Databricks finns i Kunskapsbasen.