Megosztás:


Könyvtárak telepítése

Ha külső vagy egyéni kódot szeretne elérhetővé tenni a számítási erőforrásokon futó jegyzetfüzetek és feladatok számára, telepíthet egy tárat. A kódtárak Python, Java, Scala és R nyelven írhatók. Python-, Java- és Scala-kódtárakat tölthet fel, és a PyPI, a Maven és a CRAN-adattárakban külső csomagokra mutathat.

Az Azure Databricks számos közös kódtárat tartalmaz a Databricks Runtime-ban. Ha meg szeretné tekinteni, hogy mely kódtárakat tartalmazza a Databricks Runtime, azt az adott Databricks Runtime-verzió Databricks Runtime kiadási megjegyzéseinekRendszerkörnyezet alszakaszában teheti meg.

Megjegyzés

A Microsoft ügyfélszolgálata segít az Azure Databricks által telepített és fenntartott kódtárakkal kapcsolatos problémák elkülönítésében és megoldásában. A külső gyártótól származó összetevők esetén (a kódtárakat is beleértve) a Microsoft üzletileg észszerű támogatást nyújt a problémák elhárításához. A Microsoft ügyfélszolgálata a képességeihez mérten segít, és nem biztos, hogy meg tudja oldani a problémákat. A Githubon üzemeltetett nyílt forráskódú összekötők és projektek esetében javasoljuk, hogy jelentse a problémákat a Githubon, és kövesse nyomon azokat. A standard támogatási eset-beküldési folyamat nem támogatja a fejlesztési erőfeszítéseket (például JAR-ok árnyékolása vagy Python-könyvtárak létrehozása): a gyorsabb megoldás érdekében tanácsadási együttműködésre van szükség. A támogatás kérheti, hogy más csatornákat is bevonjon a nyílt forráskódú technológiákba, ahol mély szakértelemmel rendelkezik ehhez a technológiához. Több közösségi webhely is létezik, például az Azure Databricks Microsoft Q&A webhelye és a Stack Overflow.

Számítási hatókörű könyvtárak

A kódtárakat telepítheti egy számítási erőforrásra, hogy a számításon futó összes jegyzetfüzet és feladat használni tudja őket. A Databricks támogatja a Python-, JAR- és R-kódtárakat. Lásd Számítási hatókörű könyvtárak.

A számítási hatókörű kódtárakat közvetlenül a következő forrásokból telepítheti:

Nem minden hely támogatott minden típusú kódtárhoz vagy számítási konfigurációhoz. A konfigurációs javaslatokhoz tekintse meg a kódtárak feltöltésére vonatkozó javaslatokat.

Fontos

A kódtárak a DBFS-ből telepíthetők a Databricks Runtime 14.3 LTS és korábbi verziói használatakor. A munkaterület bármely felhasználója módosíthatja azonban a DBFS-ben tárolt kódtárfájlokat. Az Azure Databricks-munkaterületen lévő kódtárak biztonságának javítása érdekében a tárfájlok dbFS-gyökérben való tárolása alapértelmezés szerint elavult és le van tiltva a Databricks Runtime 15.1-ben és újabb verzióiban. Lásd: A tárak tárolása a DBFS-gyökérben alapértelmezés szerint elavult és le van tiltva.

Ehelyett a Databricks azt javasolja, töltse fel az összes tárat, beleértve a Python-kódtárakat, a JAR-fájlokat és a Spark-összekötőket, munkaterület-fájlokba vagy Unity Catalog-kötetekbe, vagy tárcsomag-adattárak használatával. Ha a számítási feladat nem támogatja ezeket a mintákat, a felhőobjektum-tárolóban tárolt kódtárakat is használhatja.

A teljes kódtár-támogatási információkért tekintse meg a Python-kódtár támogatását, a Java és a Scala-kódtár támogatását, valamint az R-kódtárak támogatását.

Javaslatok tárak feltöltéséhez

A Databricks támogatja a Python-, JAR- és R-kódtárak legtöbb konfigurációs telepítését, de vannak nem támogatott forgatókönyvek. Javasoljuk, hogy tárakat töltsön fel olyan forráshelyekre, amelyek támogatják a számításra való telepítést standard hozzáférési móddal (korábban megosztott hozzáférési móddal), mivel ez az ajánlott mód az összes számítási feladathoz. Lásd: Hozzáférési módok. Amikor standard hozzáférési módban ütemezi a feladatokat, futtassa a feladatot egy szolgáltatásazonosítóval.

Fontos

Csak akkor használja a számítást dedikált hozzáférési móddal (korábban egyfelhasználós hozzáférési mód), ha a standard hozzáférési mód nem támogatja a szükséges funkciókat. Az elkülönítés nélküli megosztott hozzáférési mód egy elavult konfiguráció a Databricksen, amely nem ajánlott.

Az alábbi táblázat a Databricks Runtime-verziók és a Unity Catalog engedélyezése szerinti javaslatokat tartalmazza.

Konfiguráció Ajánlás
Databricks Runtime 13.3 LTS és újabb verzió a Unity Catalog használatával Telepítse a könyvtárakat a számítón, a standard hozzáférési móddal a Unity Katalógus meghajtóiról, biztosítva az OLVASÁST a szükséges felhasználóknak.
Ha lehetséges, a Maven-koordinátákat és a JAR-kódtár elérési útjait hozzá kell adni az engedélyezési listához.
Databricks Runtime 11.3 LTS és újabb verzió Unity Catalog nélkül Könyvtárak telepítése munkaterületfájlokból. (A fájlméret korlátja 500 MB.)
Databricks Runtime 10.4 LTS és korábbi Könyvtárak telepítése a felhőtárhelyből.

Python-kódtár támogatása

Az alábbi táblázat a Databricks Runtime verziókompatibilitását jelzi a Python-kerékfájlokhoz a kódtár forráshelyétől függően különböző számítási hozzáférési módokhoz. Lásd a Databricks Runtime kibocsátási megjegyzéseinek verzióit, valamint a kompatibilitási és hozzáférési módokat.

A Databricks Runtime 15.0-s és újabb verziókban requirements.txt fájlokkal kezelheti Python-függőségeit. Ezek a fájlok bármely támogatott forráshelyre feltölthetők.

Megjegyzés

A Python egg fájlok telepítése csak a Databricks Runtime 13.3 LTS-en és az alatti verziókon támogatott, és csak dedikált vagy izoláció nélküli megosztott hozzáférési mód esetén. Emellett nem telepíthet Python-tojásfájlokat kötetekre vagy munkaterületfájlokra. Használjon Python-kerekes fájlokat, vagy telepítse a csomagokat a PyPI-ból.

Standard hozzáférési mód Dedikált hozzáférési mód Nincs elkülönített megosztott hozzáférési mód (Örökölt)
PyPI 13.3 LTS és újabb Minden támogatott Databricks-runtime verzió Minden támogatott Databricks-runtime verzió
Munkaterület fájljai 13.3 LTS és újabb 13.3 LTS és újabb 14.1 vagy újabb
kötetek 13.3 LTS és újabb 13.3 LTS és újabb Nem támogatott
Felhőtárhely 13.3 LTS és újabb Minden támogatott Databricks-runtime verzió Minden támogatott Databricks-runtime verzió
DBFS (Nem ajánlott) Nem támogatott 14.3 és korábbi 14.3 és korábbi

Java- és Scala-kódtár támogatása

Az alábbi táblázat a JAR-fájlok Databricks Runtime-verziókompatibilitását jelzi a tár forráshelyétől függően különböző számítási hozzáférési módokhoz. Lásd a Databricks Runtime kibocsátási megjegyzéseinek verzióit, valamint a kompatibilitási és hozzáférési módokat.

A Scala JAR-fájlok unitykatalógus-kompatibilis fürtökön standard hozzáférési módban való üzembe helyezéséről az oktatóanyagban talál további információt : Scala-kód futtatása kiszolgáló nélküli számításon. Vegye figyelembe, hogy a Unity Catalog standard fürtjeiben a JAR könyvtárak osztályainak nevesített csomagban kell lenniük, például com.databricks.MyClass, különben a könyvtár importálása során hibák léphetnek fel.

Megjegyzés

A standard hozzáférési mód megköveteli, hogy a rendszergazda Maven-koordinátákat és elérési utakat adjon hozzá a JAR-kódtárakhoz egy #B0. Lásd a standard hozzáférési módú (korábban megosztott hozzáférési módú) számítógép engedélyezési könyvtárakat és initszkripteket.

Standard hozzáférési mód Dedikált hozzáférési mód Nincs elkülönített megosztott hozzáférési mód (Örökölt)
Maven 13.3 LTS és újabb Minden támogatott Databricks-runtime verzió Minden támogatott Databricks-runtime verzió
Munkaterület fájljai Nem támogatott Nem támogatott 14.1 vagy újabb
kötetek 13.3 LTS és újabb 13.3 LTS és újabb Nem támogatott
Felhőtárhely 13.3 LTS és újabb Minden támogatott Databricks-runtime verzió Minden támogatott Databricks-runtime verzió
DBFS (Nem ajánlott) Nem támogatott 14.3 és korábbi 14.3 és korábbi

R-kódtár támogatása

Az alábbi táblázat a Databricks Runtime verziókompatibilitását jelzi a CRAN-csomagokhoz különböző számítási hozzáférési módokhoz. Lásd a Databricks Runtime kibocsátási megjegyzéseinek verzióit, valamint a kompatibilitási és hozzáférési módokat.

Standard hozzáférési mód Dedikált hozzáférési mód Nincs elkülönített megosztott hozzáférési mód (Örökölt)
CRAN Nem támogatott Minden támogatott Databricks-runtime verzió Minden támogatott Databricks-runtime verzió

Telepítő identitása

Amikor munkaterületfájlokból vagy Unity-katalóguskötetekből telepít tárat, a számítási hozzáférési módtól függően identitás társítható a telepítéshez. Az identitásnak olvasási hozzáféréssel kell rendelkeznie a tárolófájlhoz.

Standard hozzáférési mód Dedikált hozzáférési mód Nincs elkülönített megosztott hozzáférési mód (Örökölt)
A tárat telepítő felhasználó identitása A dedikált igazgató identitása Nincs identitás

Jegyzetfüzet-hatókörű könyvtárak

A Pythonhoz és az R-hez elérhető jegyzetfüzet-hatókörű kódtárak lehetővé teszik a tárak telepítését és egy jegyzetfüzet-munkamenetre hatókörrel rendelkező környezet létrehozását. Ezek a könyvtárak nem érintik az ugyanazon a számítási erőforráson futó többi jegyzetfüzetet. A jegyzetfüzet-hatókörű kódtárak nem maradnak fenn, és minden munkamenethez újra kell őket telepíteni. Jegyzetfüzet-hatókörű könyvtárakat akkor használjon, ha egyéni környezetre van szüksége egy adott jegyzetfüzethez.

Megjegyzés

A JAR-ek nem telepíthetők a jegyzetfüzet szintjén.

Fontos

A munkaterületi könyvtárak elavultak és nem szabad őket használni. Lásd: Munkaterület-könyvtárak (régi típusú). A tárak munkaterületfájlokként való tárolása azonban eltér a munkaterület-táraktól, és továbbra is teljes mértékben támogatott. A munkaterületfájlként tárolt kódtárakat közvetlenül a számítási vagy feladatfeladatok végrehajtásához telepítheti.

Python-környezetkezelés

Az alábbi táblázat áttekintést nyújt a Python-kódtárak Azure Databricksben való telepítéséhez használható lehetőségekről.

Megjegyzés

  • Conda-alapú környezetet használó egyéni tárolók nem kompatibilisek a jegyzetfüzet-hatókörű és számítási kódtárakkal a Databricks Runtime 10.4 LTS-ben és felette. Ehelyett az Azure Databricks azt javasolja, hogy a kódtárakat közvetlenül a lemezképre telepítse, vagy használjon init-szkripteket. Ha továbbra is szeretné használni a számítási könyvtárakat ezekben a forgatókönyvekben, beállíthatja a Spark konfigurációját spark.databricks.driverNfs.clusterWidePythonLibsEnabled. A Spark-konfiguráció támogatása 2021. december 31-én vagy azt követően megszűnik.
Python-csomag forrása Jegyzetfüzetre korlátozott könyvtárak a %pip segítségével Jegyzetfüzet-hatókörű könyvtárak YAML-fájllal az alapkörnyezethez Számítási hatókörű kódtárak Feladattárak a Jobs API-val
PyPI Használja az %pip install parancsot. Lásd ezt a példát. PyPI-csomagnév hozzáadása alapkörnyezeti YAML-fájlhoz. Lásd ezt a példát. Válassza PyPI-t forrásként. Adjon hozzá egy új pypi objektumot a feladatkódtárakhoz, majd adja meg a package mezőt.
Privát PyPI-tükör, például Nexus vagy Artifactory Használja a %pip install parancsot az --index-url kapcsolóval. A Titkos kód kezelése elérhető. Lásd ezt a példát. Adja hozzá a -–index-url fájlt egy alapkörnyezeti YAML-fájlhoz. A Titkos kód kezelése elérhető. Lásd ezt a példát. Nem támogatott. Nem támogatott.
VCS, például a GitHub, nyers forrással Használja a %pip install parancsot, és adja meg az adattár URL-címét a csomag neveként. Lásd ezt a példát. Adjon hozzá egy adattár URL-címét csomagnévként egy alapkörnyezeti YAML-fájlhoz. Lásd ezt a példát. Válassza PyPI-t forrásként, és adja meg az adattár URL-címét csomagnévként. Adjon hozzá egy új pypi objektumot a feladatkódtárakhoz, és adja meg az adattár URL-címét a package mezőként.
Privát VCS nyers forrással Használja a %pip install parancsot, és adja meg az adattár URL-címét alapszintű hitelesítéssel a csomag neveként. A Titkos kód kezelése elérhető. Lásd ezt a példát. Adjon hozzá egy alapszintű hitelesítéssel rendelkező adattárat csomagnévként egy alapkörnyezeti YAML-fájlhoz. Lásd ezt a példát. Nem támogatott. Nem támogatott.
Fájl elérési útja Használja az %pip install parancsot. Lásd ezt a példát. Adjon hozzá egy fájl elérési útját csomagnévként egy alapkörnyezeti YAML-fájlhoz. Lásd ezt a példát. Válassza ki a Fájl elérési útját/ADLS forrásként. Adjon hozzá egy új egg vagy whl objektumot a feladattárakhoz, és adja meg a fájl elérési útját mezőként package .
Azure Data Lake Storage Használja %pip install együtt egy előre aláírt URL-címmel. Az Azure Data Lake Storage protokoll abfss:// elérési útjai nem támogatottak. Adjon hozzá egy előre aláírt URL-címet csomagnévként egy alapkörnyezeti YAML-fájlhoz. Az Azure Data Lake Storage protokoll abfss:// elérési útjai nem támogatottak. Válassza ki a Fájl elérési útját/ADLS forrásként. Adjon hozzá egy új egg vagy whl objektumot a feladattárakhoz, és adja meg mezőként az package Azure Data Lake Storage elérési útját.

Python-kódtár elsőbbsége

Előfordulhat, hogy felül kell bírálnia egy beépített kódtár verzióját, vagy olyan egyéni kódtárat kell létrehoznia, amely névben ütközik egy másik, a számítási erőforrásra telepített tárral. Amikor lefuttatod a import <library>-t, a nagy prioritású könyvtár importálásra kerül.

Fontos

A munkaterületfájlokban tárolt kódtárak eltérő elsőbbséget élveznek attól függően, hogy hogyan lettek hozzáadva a Pythonhoz sys.path. A Databricks Git-mappa hozzáadja az aktuális munkakönyvtárat az összes többi tár előtti elérési úthoz, míg a Git-mappákon kívüli jegyzetfüzetek a többi tár telepítése után hozzáadják az aktuális munkakönyvtárat. Ha manuálisan fűzi hozzá a munkaterület-könyvtárakat az elérési úthoz, ezek mindig a legalacsonyabb elsőbbséget élvezik.

Az alábbi lista a legmagasabbtól a legalacsonyabbig sorolja a prioritást. Ebben a listában az alacsonyabb szám nagyobb elsőbbséget jelent.

  1. Az aktuális munkakönyvtár könyvtárai (csak Git-mappák).
  2. A Git-mappa gyökérkönyvtárában lévő kódtárak (csak Git-mappák).
  3. A jegyzetfüzet-hatókörű kódtárak (%pip install jegyzetfüzetekben).
  4. Számítási hatókörű könyvtárak (a felhasználói felület, a parancssori felület vagy az API használatával).
  5. A Databricks Runtime-ban található könyvtárak.
    • Az init-szkriptekkel telepített kódtárak a beépített kódtárak előtt vagy után megoldódhatnak a telepítésük módjától függően. A Databricks nem javasolja a kódtárak init-szkriptekkel való telepítését.
  6. A jelenlegi munkakönyvtár könyvtárai (nem a Git mappákban).
  7. A munkaterület fájljai hozzáfűzve a sys.path.