Condividi tramite


Configurazione dell'ambiente

Importante

Il runtime di intelligenza artificiale per le attività a nodo singolo è disponibile in anteprima pubblica. L'API di training distribuita per i carichi di lavoro con più GPU rimane in beta.

Questa pagina descrive come scegliere e configurare un ambiente Python per il runtime di intelligenza artificiale, inclusi il comportamento di memorizzazione nella cache dell'ambiente, le importazioni di moduli personalizzati e le limitazioni note.

Quale ambiente usare

Il runtime di intelligenza artificiale offre due ambienti Python gestiti, l'ambiente di base predefinito e l'ambiente di intelligenza artificiale di Databricks.

Ambiente Caratteristiche chiave Quando utilizzare
Ambiente di base predefinito Minimo, include solo torch, cuda, e torchvision Si vuole il controllo completo sullo stack di dipendenze e si preferisce installare solo ciò che è necessario
Ambiente di intelligenza artificiale di Databricks Precaricata con framework di Machine Learning più diffusi (PyTorch, Transformers e altro ancora) Si vuole un ambiente completo per il training, l'ottimizzazione e la sperimentazione senza gestione manuale delle dipendenze

Annotazioni

Gli ambienti di base dell'area di lavoro non sono supportati per il runtime di intelligenza artificiale. Usare invece l'ambiente predefinito o di intelligenza artificiale e specificare dipendenze aggiuntive direttamente nel pannello laterale Ambienti o pip install in esse.

Ambiente di base predefinito (ambiente minimo)

Un ambiente minimo e stabile contenente solo i pacchetti necessari per l'operazione di runtime di intelligenza artificiale. L'ambiente include torch, cuda e torchvision, ottimizzati per la compatibilità. Per versioni specifiche del pacchetto, usare pip install o aggiungere le versioni necessarie in base alle esigenze.

Ideale per: gli utenti che vogliono il controllo completo sullo stack di dipendenze e preferiscono installare solo ciò di cui hanno bisogno.

Si tratta dell'ambiente predefinito quando ci si connette a una GPU serverless tramite il runtime di intelligenza artificiale.

Per ulteriori dettagli sulle versioni dei pacchetti installate nelle diverse versioni, consultare le note sulla versione:

Ambiente di intelligenza artificiale di Databricks

Disponibile nell'ambiente 4 e versioni successive. L'ambiente di intelligenza artificiale si basa sull'ambiente di base predefinito con pacchetti comuni di runtime e pacchetti specifici per il machine learning sulle GPU. I pacchetti preinstallati includono:

  • PyTorch (con supporto CUDA)
  • Transformers (Hugging Face)
  • E dipendenze aggiuntive di ML/DL

Ideale per: professionisti di Machine Learning che vogliono un ambiente completo per i carichi di lavoro di training, l'ottimizzazione e la sperimentazione senza la gestione manuale delle dipendenze.

Per selezionare: nel pannello laterale Ambiente scegliere Intelligenza artificiale v4 come ambiente di base.

Per ulteriori dettagli sulle versioni dei pacchetti installate nelle diverse versioni, consultare le note sulla versione:

Ambienti di base dell'area di lavoro

Gli ambienti di base dell'area di lavoro non sono supportati per il runtime di intelligenza artificiale. Non è possibile usare configurazioni di ambiente personalizzate a livello di area di lavoro.

Per configurare l'ambiente di Deep Learning per un progetto, usare uno dei due ambienti di base forniti (impostazione predefinita o Intelligenza artificiale di Databricks) e installare pacchetti aggiuntivi a livello di codice usando %pip install all'interno del notebook o all'inizio dello script di training:

%pip install datasets accelerate peft bitsandbytes

È possibile installare librerie aggiuntive nell'ambiente di runtime di intelligenza artificiale. Vedere Aggiungere dipendenze al notebook.

Comportamento

Quando vengono memorizzati nella cache gli ambienti?

Gli ambienti vengono memorizzati nella cache tra le sessioni per velocizzare i tempi di avvio. Quando si riconnette al runtime di intelligenza artificiale con la stessa configurazione dell'ambiente, i pacchetti installati in precedenza potrebbero essere disponibili dalla cache, riducendo il tempo di installazione.

Tuttavia, il comportamento della cache non è garantito. Assicurarsi sempre che il notebook includa i comandi necessari %pip install per la riproducibilità.

Come si importano moduli personalizzati?

È possibile importare moduli personalizzati inserendoli in /Workspace/Shared e aggiungendo il percorso a sys.path:

import sys
sys.path.append("/Workspace/Shared/my-project/src")
from my_module import my_function

È anche possibile caricare i file di modulo come file dell'area di lavoro e importarli direttamente. Per la collaborazione multiutente, archiviare il codice condiviso in /Workspace/Shared piuttosto che in cartelle specifiche dell'utente. Per lo sviluppo attivo, usare cartelle specifiche dell'utente e eseguire il push in un repository Git remoto per il controllo della versione.

Limitazioni

Le funzionalità seguenti non sono disponibili nel runtime di intelligenza artificiale:

  • Funzioni Spark : non è possibile importare o usare direttamente le funzioni PySpark. Il runtime di intelligenza artificiale è un ambiente solo Python; Spark non è disponibile come runtime locale. Spark Connect è tuttavia disponibile per il caricamento dei dati. Consulta Caricamento dei dati su AI Runtime.
  • Librerie di Machine Learning di Databricks Runtime : i pacchetti preinstallati non sostituiscono Databricks Runtime ML. Alcune librerie di Machine Learning disponibili in Databricks Runtime ML potrebbero non essere preinstallate nel runtime di intelligenza artificiale.
  • Ambienti di base dell'area di lavoro: le configurazioni dell'ambiente a livello di area di lavoro personalizzate non sono supportate.
  • Artefatti privati : il runtime di intelligenza artificiale supporta gli artefatti privati in determinati casi. Per ulteriori dettagli, contatta il team del tuo account.