Instalace knihoven z úložiště objektů

Článek
08/29/2024

Tento článek vás provede kroky potřebnými k instalaci knihoven z cloudového úložiště objektů v Azure Databricks.

Poznámka:

Tento článek se týká cloudového úložiště objektů jako obecný koncept a předpokládá, že přímo komunikujete s daty uloženými v úložišti objektů pomocí identifikátorů URI. Databricks doporučuje použít svazky katalogu Unity ke konfiguraci přístupu k souborům v cloudovém úložišti objektů. Podívejte se, co jsou svazky katalogu Unity?

Vlastní knihovny JAR a Python Whl můžete ukládat do cloudového úložiště objektů místo jejich uložení do kořenového adresáře DBFS. Úplné podrobnosti o kompatibilitě knihoven najdete v knihovnách s oborem clusteru.

Důležité

Knihovny je možné nainstalovat z DBFS při použití Databricks Runtime 14.3 LTS a níže. Každý uživatel pracovního prostoru ale může upravovat soubory knihovny uložené v DBFS. Aby se zlepšilo zabezpečení knihoven v pracovním prostoru Azure Databricks, ukládání souborů knihovny v kořenovém adresáři DBFS je ve výchozím nastavení v Databricks Runtime 15.1 a novějších zakázaných. Viz Ukládání knihoven v kořenovém adresáři DBFS je ve výchozím nastavení zastaralé a zakázané.

Místo toho databricks doporučuje nahrát všechny knihovny, včetně knihoven Pythonu, souborů JAR a konektorů Spark, do souborů pracovních prostorů nebo svazků katalogu Unity nebo pomocí úložišť balíčků knihoven. Pokud vaše úloha tyto vzory nepodporuje, můžete také použít knihovny uložené v cloudovém úložišti objektů.

Načtení knihoven do úložiště objektů

Knihovny můžete načíst do úložiště objektů stejným způsobem jako ostatní soubory. Abyste mohli vytvářet nové kontejnery úložiště objektů nebo načítat soubory do cloudového úložiště objektů, musíte mít ve svém poskytovateli cloudu správná oprávnění.

Udělení oprávnění jen pro čtení úložišti objektů

Databricks doporučuje konfigurovat všechna oprávnění související s instalací knihovny s oprávněními jen pro čtení.

Azure Databricks umožňuje přiřadit oprávnění zabezpečení jednotlivým clusterům, které řídí přístup k datům v cloudovém úložišti objektů. Tyto zásady je možné rozšířit a přidat přístup jen pro čtení do cloudového úložiště objektů, které obsahuje knihovny.

Poznámka:

V Databricks Runtime 12.2 LTS a níže nemůžete načíst knihovny JAR při použití clusterů s režimy sdíleného přístupu. Ve službě Databricks Runtime 13.3 LTS a vyšší je nutné přidat knihovny JAR do seznamu povolených seznamů katalogu Unity. Viz Knihovny allowlist a inicializační skripty pro sdílené výpočetní prostředky.

Databricks doporučuje používat instanční objekty Microsoft Entra ID ke správě přístupu k knihovnám uloženým v Azure Data Lake Storage Gen2. K dokončení tohoto nastavení použijte následující propojenou dokumentaci:

Vytvořte instanční objekt s oprávněními ke čtení a výpisu požadovaných objektů blob. Viz Access storage using a service principal & Microsoft Entra ID(Azure Active Directory).
Uložte přihlašovací údaje pomocí tajných kódů. Podívejte se na tajné kódy.

Při vytváření clusteru nastavte vlastnosti v konfiguraci Sparku a proměnných prostředí, jak je znázorněno v následujícím příkladu:

Konfigurace Sparku:

spark.hadoop.fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net OAuth
spark.hadoop.fs.azure.account.oauth.provider.type.<storage-account>.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider
spark.hadoop.fs.azure.account.oauth2.client.id.<storage-account>.dfs.core.windows.net <application-id>
spark.hadoop.fs.azure.account.oauth2.client.secret.<storage-account>.dfs.core.windows.net {{secrets/<secret-scope>/<service-credential-key>}}
spark.hadoop.fs.azure.account.oauth2.client.endpoint.<storage-account>.dfs.core.windows.net https://login.microsoftonline.com/<tenant-id>/oauth2/token

Proměnné prostředí:

SERVICE_CREDENTIAL={{secrets/<secret-scope>/<service-credential-key>}}

(Volitelné) Refaktoring inicializačních skriptů pomocí azcopy nebo Azure CLI

Proměnné prostředí nastavené během konfigurace clusteru v inicializačních skriptech můžete odkazovat na přihlašovací údaje uložené jako tajné kódy pro ověření.

Instalace knihoven do clusterů

Pokud chcete nainstalovat knihovnu uloženou v cloudovém úložišti objektů do clusteru, proveďte následující kroky:

V uživatelském rozhraní clusterů vyberte cluster ze seznamu.
Vyberte kartu Knihovny.
Vyberte možnost Cesta k souboru nebo ADLS.
Zadejte úplnou cestu URI k objektu knihovny (například abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl).
Klikněte na Install (Nainstalovat).

Knihovny můžete nainstalovat také pomocí rozhraní REST API nebo rozhraní příkazového řádku.

Instalace knihoven do poznámkových bloků

Můžete použít %pip k instalaci vlastních souborů kol Pythonu uložených v úložišti objektů s vymezeným na sparkSession v izolovaném poznámkovém bloku. Chcete-li použít tuto metodu, musíte buď ukládat knihovny do veřejně čitelného úložiště objektů, nebo použít předem podepsanou adresu URL.

Další informace najdete v tématu Knihovny Pythonu v rámci poznámkových bloků

Poznámka:

Knihovny JAR nelze v poznámkovém bloku nainstalovat. Knihovny JAR musíte nainstalovat na úrovni clusteru.

Sdílet prostřednictvím

Instalace knihoven z úložiště objektů

Načtení knihoven do úložiště objektů

Udělení oprávnění jen pro čtení úložišti objektů

Instalace knihoven do clusterů

Instalace knihoven do poznámkových bloků

Váš názor

Další materiály