Megosztás a következőn keresztül:


Kódtárak telepítése csomagtárból

Az Azure Databricks eszközöket biztosít a kódtárak PyPI-, Maven- és CRAN-csomagtárakból való telepítéséhez. A teljes kódtárkompatibilitást a fürt hatókörű kódtárai között találja.

Fontos

A kódtárak a Databricks Runtime 14.3 LTS és az alábbi Databricks Runtime használatakor telepíthetők a DBFS-ből. A munkaterület bármely felhasználója módosíthatja azonban a DBFS-ben tárolt kódtárfájlokat. Az Azure Databricks-munkaterületen lévő kódtárak biztonságának javítása érdekében a tárfájlok dbFS-gyökérben való tárolása alapértelmezés szerint elavult és le van tiltva a Databricks Runtime 15.1-ben és újabb verzióiban. Lásd: A tárak tárolása a DBFS-gyökérben alapértelmezés szerint elavult és le van tiltva.

Ehelyett a Databricks azt javasolja , hogy töltse fel az összes tárat, beleértve a Python-kódtárakat, a JAR-fájlokat és a Spark-összekötőket, a munkaterületi fájlokba vagy a Unity Catalog-kötetekbe, vagy tárcsomag-adattárak használatával. Ha a számítási feladat nem támogatja ezeket a mintákat, a felhőobjektum-tárolóban tárolt kódtárakat is használhatja.

PyPI-csomag

  1. Az Erőforrástár forrása gomblistában válassza a PyPI lehetőséget.

  2. Adja meg a PyPI-csomag nevét. A tár egy adott verziójának telepítéséhez használja a következő formátumot a tárhoz: <library>==<version>. Például: scikit-learn==0.19.1.

    Feljegyzés

    Feladatok esetén a Databricks azt javasolja, hogy adjon meg egy kódtárverziót a reprodukálható környezet biztosítása érdekében. Ha a kódtár verziója nincs teljesen megadva, a Databricks a legújabb egyező verziót használja. Ez azt jelenti, hogy ugyanazon feladat különböző futtatásai különböző kódtárverziókat használhatnak az új verziók közzétételekor. A kódtár verziószámának megadása megakadályozza, hogy a kódtárak új, feltört változásai feltörik a feladatokat.

  3. (Nem kötelező) Az Index URL-cím mezőjében adjon meg egy PyPI-index URL-címét.

  4. Kattintson az Install (Telepítés) gombra.

Maven- vagy Spark-csomag

Fontos

Ha a Maven-kódtárakat megosztott hozzáférési móddal konfigurált számításra szeretné telepíteni, hozzá kell adnia a koordinátákat az engedélyezési listához. Lásd: Allowlist-kódtárak és init-szkriptek megosztott számításon.

Fontos

A DBR 14.3 LTS és újabb verziók esetében a Databricks az Apache Ivy 2.4.0-s verziót használja a Maven-csomagok feloldásához. A DBR 15.0-s és újabb verzióihoz a Databricks a Ivy 2.5.1-es vagy újabb verzióját használja, és az adott Ivy-verzió szerepel a Databricks Runtime kibocsátási megjegyzéseinek verzióiban és kompatibilitásában.

A Maven-csomagok telepítési sorrendje befolyásolhatja a végleges függőségi fát, ami befolyásolhatja a kódtárak betöltésének sorrendjét.

  1. A Forrástár gomblistában válassza a Maven lehetőséget.

  2. Adjon meg egy Maven-koordinátát. Hajtsa végre a megfelelő műveletet:

    • A Koordináta mezőben adja meg a telepíteni kívánt kódtár Maven-koordinátáját. A Maven-koordináták formájukban groupId:artifactId:versionvannak, com.databricks:spark-avro_2.10:1.0.0például.
    • Ha nem tudja a pontos koordinátát, adja meg az erőforrástár nevét, és kattintson a Csomagok keresése gombra. Megjelenik az egyező csomagok listája. A csomag részleteinek megjelenítéséhez kattintson a nevére. A csomagokat név, szervezet és minősítés szerint rendezheti. Az eredményeket úgy is szűrheti, hogy egy lekérdezést ír a keresősávba. Az eredmények automatikusan frissülnek.
      1. A bal felső legördülő listában válassza a Maven Central vagy a Spark Packages elemet.
      2. Igény szerint válassza ki a csomagverziót a Kiadások oszlopban.
      3. Kattintson a + Kijelölés gombra egy csomag mellett. A Koordináta mező ki van töltve a kijelölt csomaggal és verzióval.
  3. (Nem kötelező) Az Adattár mezőben megadhatja a Maven-adattár URL-címét.

    Feljegyzés

    A belső Maven-adattárak nem támogatottak.

  4. A Kizárások mezőben adja meg groupId a kizárni kívánt függőségeket és artifactId függőségeket (példáullog4j:log4j).

    Feljegyzés

    A Maven a gyökérhez legközelebbi verzióval működik, és ha két csomag különböző függőségekkel rendelkező verziókra vying, a sorrend számít, ezért sikertelen lehet, ha a régebbi függőséggel rendelkező csomag először betöltődik.

    Ennek megkerüléséhez zárja ki az ütköző kódtárat. Ha például a csomagot a koordinátával com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22telepíti, állítsa a Kizárások mezőt úgy, hogy com.nimbusds:oauth2-oidc-sdk:RELEASE az MSAL4J legújabb verziója eventhubs be legyen töltve, és a eventhubs függőség teljesüljön.

  5. Kattintson az Install (Telepítés) gombra.

CRAN-csomag

  1. Az Erőforrástár forrása gomblistában válassza a CRAN elemet.
  2. A Csomag mezőbe írja be a csomag nevét.
  3. (Nem kötelező) Az Adattár mezőben megadhatja a CRAN-adattár URL-címét.
  4. Kattintson az Install (Telepítés) gombra.

Feljegyzés

A CRAN-tükrözések a tár legújabb verzióját szolgálják ki. Ennek eredményeképpen előfordulhat, hogy az R-csomag különböző verziói lesznek a végén, ha a tárat különböző fürtökhöz csatolja különböző időpontokban. A Databricks R-csomagverzióinak kezeléséhez és javításához tekintse meg a Tudásbázist.