Könyvtárak telepítése objektumtárolóból

Ez a cikk végigvezeti az Azure Databricks felhőbeli objektumtárolóból származó kódtárak telepítéséhez szükséges lépéseken.

Feljegyzés

Ez a cikk általános fogalomként hivatkozik a felhőalapú objektumtárolásra, és feltételezi, hogy az objektumtárolóban tárolt adatokkal közvetlenül URI-kat használ. A Databricks a Unity Catalog-kötetek használatát javasolja a felhőobjektum-tárolóban lévő fájlokhoz való hozzáférés konfigurálásához. Lásd: Kötetek létrehozása és létrehozása.

Az egyéni JAR- és Python Whl-kódtárakat a felhőobjektum-tárolóban tárolhatja ahelyett, hogy a DBFS-gyökérben tárolna. A teljes kódtárkompatibilitást a fürt hatókörű kódtárai között találja.

Fontos

A kódtárak a Databricks Runtime 14.3 LTS és az alábbi Databricks Runtime használatakor telepíthetők a DBFS-ből. A munkaterület bármely felhasználója módosíthatja azonban a DBFS-ben tárolt kódtárfájlokat. Az Azure Databricks-munkaterületen lévő kódtárak biztonságának javítása érdekében a tárfájlok dbFS-gyökérben való tárolása alapértelmezés szerint elavult és le van tiltva a Databricks Runtime 15.0-s és újabb verzióiban. Lásd: A tárak tárolása a DBFS-gyökérben alapértelmezés szerint elavult és le van tiltva.

Ehelyett a Databricks azt javasolja , hogy töltse fel az összes tárat, beleértve a Python-kódtárakat, a JAR-fájlokat és a Spark-összekötőket, a munkaterületi fájlokba vagy a Unity Catalog-kötetekbe, vagy tárcsomag-adattárak használatával. Ha a számítási feladat nem támogatja ezeket a mintákat, a felhőobjektum-tárolóban tárolt kódtárakat is használhatja.

Tárak betöltése objektumtárolóba

A tárakat ugyanúgy töltheti be az objektumtárolóba, mint a többi fájlt. A felhőszolgáltatóban megfelelő engedélyekkel kell rendelkeznie új objektumtárolók létrehozásához vagy fájlok felhőbeli objektumtárolóba való betöltéséhez.

Írásvédett engedélyek megadása az objektumtárolóhoz

A Databricks azt javasolja, hogy írásvédett engedélyekkel konfigurálja a tár telepítésével kapcsolatos összes jogosultságot.

Az Azure Databricks lehetővé teszi biztonsági engedélyek hozzárendelését olyan egyes fürtökhöz, amelyek szabályozzák az adatokhoz való hozzáférést a felhőobjektum-tárolóban. Ezek a szabályzatok bővíthetők, így írásvédett hozzáférést adhatnak a tárakat tartalmazó felhőalapú objektumtárhoz.

Feljegyzés

A Databricks Runtime 12.2 LTS és újabb verziókban nem tölthet be JAR-kódtárakat megosztott hozzáférési módú fürtök használatakor. A Databricks Runtime 13.3 LTS-ben és újabb verziókban JAR-kódtárakat kell hozzáadnia a Unity Catalog engedélyezési listájához. Lásd: Allowlist-kódtárak és init-szkriptek megosztott számításon.

A Databricks a Microsoft Entra ID szolgáltatásnevek használatát javasolja az Azure Data Lake Storage Gen2-ben tárolt kódtárakhoz való hozzáférés kezeléséhez. A beállítás elvégzéséhez használja a következő csatolt dokumentációt:

  1. Hozzon létre egy egyszerű szolgáltatást olvasási és listaengedélyekkel a kívánt blobokon. Lásd: Access Storage egy szolgáltatás elvével > Microsoft Entra ID (Azure Active Directory).

  2. Mentse a hitelesítő adatait titkos kulcsok használatával. Lásd a titkos kulcsokat.

  3. Állítsa be a tulajdonságokat a Spark-konfigurációban és a környezeti változókban fürt létrehozásakor, ahogyan az alábbi példában látható:

    Spark-konfiguráció:

    spark.hadoop.fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net OAuth
    spark.hadoop.fs.azure.account.oauth.provider.type.<storage-account>.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider
    spark.hadoop.fs.azure.account.oauth2.client.id.<storage-account>.dfs.core.windows.net <application-id>
    spark.hadoop.fs.azure.account.oauth2.client.secret.<storage-account>.dfs.core.windows.net {{secrets/<secret-scope>/<service-credential-key>}}
    spark.hadoop.fs.azure.account.oauth2.client.endpoint.<storage-account>.dfs.core.windows.net https://login.microsoftonline.com/<tenant-id>/oauth2/token
    

    Környezeti változók:

    SERVICE_CREDENTIAL={{secrets/<secret-scope>/<service-credential-key>}}
    
  4. (Nem kötelező) Init-szkriptek újrabontása az azcopy vagy az Azure CLI használatával.

    Hivatkozhat a fürtkonfiguráció során beállított környezeti változókra az init-szkripteken belül, hogy átadja az ellenőrzés titkos kulcsaként tárolt hitelesítő adatokat.

Kódtárak telepítése fürtökre

Ha felhőbeli objektumtárolóban tárolt kódtárat szeretne telepíteni egy fürtre, hajtsa végre az alábbi lépéseket:

  1. Válasszon ki egy fürtöt a fürtök felhasználói felületén található listából.
  2. Válassza a Tárak lapot.
  3. Válassza a Fájl elérési útja/ADLS lehetőséget.
  4. Adja meg a tárobjektum teljes URI-elérési útját (például abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl).
  5. Kattintson az Install (Telepítés) gombra.

A kódtárakat a REST API-val vagy a parancssori felülettel is telepítheti.

Tárak telepítése jegyzetfüzetekbe

A jegyzetfüzet által izolált SparkSession-ra hatókörrel rendelkező objektumtárolóban tárolt egyéni Python-kerekes fájlok telepítésére is használható %pip . A módszer használatához vagy nyilvánosan olvasható objektumtárban kell tárolnia a kódtárakat, vagy előre aláírt URL-címet kell használnia.

Lásd: Jegyzetfüzet-hatókörön belüli Python-kódtárak.

Feljegyzés

A JAR-kódtárak nem telepíthetők a jegyzetfüzetbe. A JAR-kódtárakat fürtszinten kell telepítenie.