Installare librerie da un repository di pacchetti

Azure Databricks offre strumenti per installare librerie da repository di pacchetti PyPI, Maven e CRAN. Per informazioni dettagliate sulla compatibilità della libreria, vedere Librerie con ambito cluster.

Importante

Le librerie possono essere installate da DBFS quando si usa Databricks Runtime 14.3 LTS e versioni successive. Tuttavia, qualsiasi utente dell'area di lavoro può modificare i file di libreria archiviati in DBFS. Per migliorare la sicurezza delle librerie in un'area di lavoro di Azure Databricks, l'archiviazione dei file di libreria nella radice DBFS è deprecata e disabilitata per impostazione predefinita in Databricks Runtime 15.0 e versioni successive. Per impostazione predefinita, vedere Archiviazione di librerie nella radice DBFS deprecata e disabilitata.

Databricks consiglia invece di caricare tutte le librerie, incluse le librerie Python, i file JAR e i connettori Spark, nei file dell'area di lavoro o nei volumi del catalogo Unity o usando i repository dei pacchetti di libreria. Se il carico di lavoro non supporta questi modelli, è anche possibile usare le librerie archiviate nell'archiviazione di oggetti cloud.

Pacchetto PyPI

  1. Nell'elenco del pulsante Origine libreria selezionare PyPI.

  2. Immettere un nome di pacchetto PyPI. Per installare una versione specifica di una libreria, usare questo formato per la libreria: <library>==<version>. Ad esempio: scikit-learn==0.19.1.

    Nota

    Per i processi, Databricks consiglia di specificare una versione della libreria per garantire un ambiente riproducibile. Se la versione della libreria non è specificata completamente, Databricks usa la versione corrispondente più recente. Ciò significa che esecuzioni diverse dello stesso processo potrebbero usare versioni diverse della libreria quando vengono pubblicate nuove versioni. Se si specifica la versione della libreria, le modifiche di rilievo apportate alle librerie non causano interruzioni dei processi.

  3. (Facoltativo) Nel campo URL indice immettere un URL di indice PyPI.

  4. Fare clic su Installa.

Pacchetto Maven o Spark

Importante

Per installare le librerie Maven nel calcolo configurato con la modalità di accesso condiviso, è necessario aggiungere le coordinate all'elenco consenti. Vedere Allowlist libraries and init scripts on shared compute .See Allowlist libraries and init scripts on shared compute.See Allowlist libraries and init scripts on shared compute.

Importante

Per DBR 14.3 LTS e versioni successive, Databricks usa Apache Ivy 2.4.0 per risolvere i pacchetti Maven. Per DBR 15.0 e versioni successive, Databricks usa Ivy 2.5.1 o versione successiva e la versione specifica di Ivy è elencata in Versioni e compatibilità delle note sulla versione di Databricks Runtime.

L'ordine di installazione dei pacchetti Maven può influire sull'albero delle dipendenze finale, che può influire sull'ordine in cui vengono caricate le librerie.

  1. Nell'elenco del pulsante Origine libreria selezionare Maven.

  2. Specificare una coordinata Maven. Esegui una delle operazioni seguenti:

    • Nel campo Coordinate immettere la coordinata Maven della libreria da installare. Le coordinate Maven sono nel formato groupId:artifactId:version, ad esempio com.databricks:spark-avro_2.10:1.0.0.
    • Se non si conosce la coordinata esatta, immettere il nome della libreria e fare clic su Cerca pacchetti. Viene visualizzato un elenco di pacchetti corrispondenti. Per visualizzare i dettagli relativi a un pacchetto, fare clic sul nome. È possibile ordinare i pacchetti in base al nome, all'organizzazione e alla classificazione. È anche possibile filtrare i risultati scrivendo una query nella barra di ricerca. I risultati vengono aggiornati automaticamente.
      1. Selezionare Maven Central o Spark Packages nell'elenco a discesa in alto a sinistra.
      2. Facoltativamente, selezionare la versione del pacchetto nella colonna Versioni.
      3. Fare clic su + Seleziona accanto a un pacchetto. Il campo Coordinate viene compilato con il pacchetto e la versione selezionati.
  3. (Facoltativo) Nel campo Repository è possibile immettere un URL del repository Maven.

    Nota

    I repository Maven interni non sono supportati.

  4. Nel campo Esclusioni specificare facoltativamente groupId e le artifactId dipendenze da escludere, log4j:log4jad esempio .

    Nota

    Maven funziona usando la versione più vicina alla radice e nel caso di due pacchetti che si usano versioni con dipendenze diverse, l'ordine è importante, quindi potrebbe non riuscire quando il pacchetto con una dipendenza precedente viene caricato per primo.

    Per risolvere questo problema, escludere la libreria in conflitto. Ad esempio, quando si installa il pacchetto con la coordinata com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22, impostare il campo Esclusioni su com.nimbusds:oauth2-oidc-sdk:RELEASE in modo che venga caricata la versione più recente di eventhubs da MSAL4J e che la eventhubs dipendenza sia soddisfatta.

  5. Fare clic su Installa.

Pacchetto CRAN

  1. Nell'elenco del pulsante Origine libreria selezionare CRAN.
  2. Nel campo Pacchetto immettere il nome del pacchetto.
  3. (Facoltativo) Nel campo Repository è possibile immettere l'URL del repository CRAN.
  4. Fare clic su Installa.

Nota

I mirror CRAN servono la versione più recente di una libreria. Di conseguenza, è possibile che si verifichino versioni diverse di un pacchetto R se si collega la libreria a cluster diversi in momenti diversi. Per informazioni su come gestire e correggere le versioni dei pacchetti R in Databricks, vedere la Knowledge Base.