Könyvtárak telepítése objektumtárolóból
Ez a cikk végigvezeti az Azure Databricks felhőbeli objektumtárolóból származó kódtárak telepítéséhez szükséges lépéseken.
Feljegyzés
Ez a cikk általános fogalomként hivatkozik a felhőalapú objektumtárolásra, és feltételezi, hogy az objektumtárolóban tárolt adatokkal közvetlenül URI-kat használ. A Databricks a Unity Catalog-kötetek használatát javasolja a felhőobjektum-tárolóban lévő fájlokhoz való hozzáférés konfigurálásához. Lásd: Mik azok a Unity Catalog-kötetek?.
Az egyéni JAR- és Python Whl-kódtárakat a felhőobjektum-tárolóban tárolhatja ahelyett, hogy a DBFS-gyökérben tárolna. A teljes kódtárkompatibilitást a fürt hatókörű kódtárai között találja.
Fontos
A kódtárak a Databricks Runtime 14.3 LTS és az alábbi Databricks Runtime használatakor telepíthetők a DBFS-ből. A munkaterület bármely felhasználója módosíthatja azonban a DBFS-ben tárolt kódtárfájlokat. Az Azure Databricks-munkaterületen lévő kódtárak biztonságának javítása érdekében a tárfájlok dbFS-gyökérben való tárolása alapértelmezés szerint elavult és le van tiltva a Databricks Runtime 15.1-ben és újabb verzióiban. Lásd: A tárak tárolása a DBFS-gyökérben alapértelmezés szerint elavult és le van tiltva.
Ehelyett a Databricks azt javasolja , hogy töltse fel az összes tárat, beleértve a Python-kódtárakat, a JAR-fájlokat és a Spark-összekötőket, a munkaterületi fájlokba vagy a Unity Catalog-kötetekbe, vagy tárcsomag-adattárak használatával. Ha a számítási feladat nem támogatja ezeket a mintákat, a felhőobjektum-tárolóban tárolt kódtárakat is használhatja.
Tárak betöltése objektumtárolóba
A tárakat ugyanúgy töltheti be az objektumtárolóba, mint a többi fájlt. A felhőszolgáltatóban megfelelő engedélyekkel kell rendelkeznie új objektumtárolók létrehozásához vagy fájlok felhőbeli objektumtárolóba való betöltéséhez.
Írásvédett engedélyek megadása az objektumtárolóhoz
A Databricks azt javasolja, hogy írásvédett engedélyekkel konfigurálja a tár telepítésével kapcsolatos összes jogosultságot.
Az Azure Databricks lehetővé teszi biztonsági engedélyek hozzárendelését olyan egyes fürtökhöz, amelyek szabályozzák az adatokhoz való hozzáférést a felhőobjektum-tárolóban. Ezek a szabályzatok bővíthetők, így írásvédett hozzáférést adhatnak a tárakat tartalmazó felhőalapú objektumtárhoz.
Feljegyzés
A Databricks Runtime 12.2 LTS és újabb verziókban nem tölthet be JAR-kódtárakat megosztott hozzáférési módú fürtök használatakor. A Databricks Runtime 13.3 LTS-ben és újabb verziókban JAR-kódtárakat kell hozzáadnia a Unity Catalog engedélyezési listájához. Lásd: Allowlist-kódtárak és init-szkriptek megosztott számításon.
A Databricks a Microsoft Entra ID szolgáltatásnevek használatát javasolja az Azure Data Lake Storage Gen2-ben tárolt kódtárakhoz való hozzáférés kezeléséhez. A beállítás elvégzéséhez használja a következő csatolt dokumentációt:
Hozzon létre egy egyszerű szolgáltatást olvasási és listaengedélyekkel a kívánt blobokon. Lásd: Access Storage szolgáltatásnévvel > Microsoft Entra ID (Azure Active Directory).
Mentse a hitelesítő adatait titkos kulcsok használatával. Lásd a titkos kulcsokat.
Állítsa be a tulajdonságokat a Spark-konfigurációban és a környezeti változókban fürt létrehozásakor, ahogyan az alábbi példában látható:
Spark-konfiguráció:
spark.hadoop.fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net OAuth spark.hadoop.fs.azure.account.oauth.provider.type.<storage-account>.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider spark.hadoop.fs.azure.account.oauth2.client.id.<storage-account>.dfs.core.windows.net <application-id> spark.hadoop.fs.azure.account.oauth2.client.secret.<storage-account>.dfs.core.windows.net {{secrets/<secret-scope>/<service-credential-key>}} spark.hadoop.fs.azure.account.oauth2.client.endpoint.<storage-account>.dfs.core.windows.net https://login.microsoftonline.com/<tenant-id>/oauth2/token
Környezeti változók:
SERVICE_CREDENTIAL={{secrets/<secret-scope>/<service-credential-key>}}
(Nem kötelező) Init-szkriptek újrabontása az azcopy vagy az Azure CLI használatával.
Hivatkozhat a fürtkonfiguráció során beállított környezeti változókra az init-szkripteken belül, hogy átadja az ellenőrzés titkos kulcsaként tárolt hitelesítő adatokat.
Kódtárak telepítése fürtökre
Ha felhőbeli objektumtárolóban tárolt kódtárat szeretne telepíteni egy fürtre, hajtsa végre az alábbi lépéseket:
- Válasszon ki egy fürtöt a fürtök felhasználói felületén található listából.
- Válassza a Tárak lapot.
- Válassza a Fájl elérési útja/ADLS lehetőséget.
- Adja meg a tárobjektum teljes URI-elérési útját (például
abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl
). - Kattintson az Install (Telepítés) gombra.
A kódtárakat a REST API-val vagy a parancssori felülettel is telepítheti.
Tárak telepítése jegyzetfüzetekbe
A jegyzetfüzet által izolált SparkSession-ra hatókörrel rendelkező objektumtárolóban tárolt egyéni Python-kerekes fájlok telepítésére is használható %pip
. A módszer használatához vagy nyilvánosan olvasható objektumtárban kell tárolnia a kódtárakat, vagy előre aláírt URL-címet kell használnia.
Lásd: Jegyzetfüzet-hatókörön belüli Python-kódtárak.
Feljegyzés
A JAR-kódtárak nem telepíthetők a jegyzetfüzetbe. A JAR-kódtárakat fürtszinten kell telepítenie.