Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa pagina descrive il runtime di Databricks per Machine Learning e fornisce indicazioni su come creare una risorsa di calcolo classica che la usa.
Che cos'è Databricks Runtime per Machine Learning?
Databricks Runtime per Machine Learning (Databricks Runtime ML) automatizza la creazione di una risorsa di calcolo con l'infrastruttura di Machine Learning e Deep Learning predefinita, incluse le librerie ML e DL più comuni.
Librerie incluse in Databricks Runtime ML
Databricks Runtime ML include un'ampia gamma di librerie di Machine Learning più diffuse. Le librerie vengono aggiornate con ogni versione per includere nuove funzionalità e correzioni.
Databricks ha designato un subset delle librerie supportate come librerie di livello superiore. Per queste librerie, Databricks offre una cadenza di aggiornamento più veloce, aggiornando alle versioni più recenti dei pacchetti con ogni versione di runtime, tranne in caso di conflitti di dipendenza. Databricks offre anche supporto avanzato, test e ottimizzazioni incorporate per le librerie di livello superiore. Le librerie di livello superiore vengono aggiunte o rimosse solo con le versioni principali.
- Per un elenco completo delle librerie di livello superiore e di altre librerie fornite, vedere le note sulla versione per Databricks Runtime ML.
- Per informazioni sulla frequenza con cui le librerie vengono aggiornate e quando le librerie sono deprecate, vedere politica di manutenzione di Databricks Runtime ML.
È possibile installare librerie aggiuntive per creare un ambiente personalizzato per il notebook o la risorsa di calcolo.
- Per rendere disponibile una libreria per tutti i notebook che eseguono su una risorsa di elaborazione, creare una libreria con ambito di elaborazione. È anche possibile usare uno script init per installare le librerie durante la creazione del calcolo.
- Per installare una libreria disponibile solo per una sessione di notebook specifica, usare librerie Python con ambito notebook.
Creare una risorsa di calcolo con Databricks Runtime per ML
Per creare una risorsa di calcolo che usa Databricks Runtime per ML, selezionare la casella di controllo Machine Learning nell'interfaccia utente di calcolo crea. In questo modo la modalità di accesso viene impostata automaticamente su Dedicated con l'account come utente dedicato. È possibile assegnare manualmente la risorsa di calcolo a un altro utente o gruppo nella sezione Avanzato dell'interfaccia di creazione delle risorse di calcolo.
Per il calcolo basato su GPU, selezionare un tipo di istanza abilitato per GPU nel menu a discesa Tipo di lavoro . Per l'elenco completo dei tipi di GPU supportati, vedere Tipi di istanza supportati.
Photon e Databricks Runtime ML
Quando si crea una risorsa di calcolo che esegue Databricks Runtime 15.2 ML o versione successiva, è possibile scegliere di abilitare Photon. Photon migliora le prestazioni per le applicazioni che usano Spark SQL, DataFrame Spark, progettazione di funzionalità, GraphFrame e xgboost4j. Non è previsto un miglioramento delle prestazioni nelle applicazioni che usano RDD Spark, UDF Pandas, e linguaggi non JVM quali Python. Di conseguenza, i pacchetti Python come XGBoost, PyTorch e TensorFlow non vedranno un miglioramento con Photon.
Le API RDD Spark e Spark MLlib hanno una compatibilità limitata con Photon. Quando si elaborano set di dati di grandi dimensioni usando Spark RDD o Spark MLlib, è possibile che si verifichino problemi di memoria Spark. Vedi problemi di memoria Spark.
Modalità di accesso di calcolo per Databricks Runtime ML
Per accedere ai dati in Unity Catalog in una risorsa di calcolo che esegue Databricks Runtime ML, è necessario impostare la modalità di accesso su Dedicato. La modalità di accesso viene impostata automaticamente nell'interfaccia utente di creazione del calcolo quando si seleziona la casella di controllo Machine Learning.
Quando una risorsa di calcolo ha la modalità di accesso dedicato , la risorsa può essere assegnata a un singolo utente o a un gruppo. Quando un utente viene assegnato a un gruppo, le sue autorizzazioni vengono automaticamente ridotte al livello delle autorizzazioni del gruppo, consentendo all'utente di condividere la risorsa in modo sicuro con altri membri del gruppo.
Quando si usa la modalità di accesso dedicato, le funzionalità seguenti sono disponibili solo in Databricks Runtime 15.4 LTS ML e versioni successive:
- controllo di accesso con granularità fine.
- Esecuzione di query su tabelle create usando le pipeline dichiarative di Lakeflow Spark, incluse le tabelle di streaming e le viste materializzate.
Eseguire il training dei modelli
Le risorse seguenti illustrano come eseguire il training di modelli di Machine Learning e intelligenza artificiale in Mosaic AI e Databricks Runtime per Machine Learning.
Il sistema di training del Modello Mosaic di Intelligenza Artificiale semplifica e unifica il processo di formazione e distribuzione di modelli di Machine Learning tradizionali tramite carichi di lavoro di AutoML e di ottimizzazione di modelli di base.
AutoML
AutoML semplifica il processo di applicazione di Machine Learning ai set di dati individuando automaticamente l'algoritmo e la configurazione degli iperparametri migliori. AutoML offre un'interfaccia utente senza codice e un'API Python.
Ottimizzazione del modello di base
L'ottimizzazione del modello di base (ora parte di Mosaic AI Model Training) in Azure Databricks consente di personalizzare modelli di linguaggio di grandi dimensioni usando i propri dati. Questo processo comporta l'ottimizzazione del training di un modello di base preesistente, riducendo significativamente i dati, il tempo e le risorse di calcolo necessarie rispetto al training di un modello da zero. Le funzionalità principali includono:
- Perfezionamento tramite istruzioni: Adatta il tuo modello alle nuove attività eseguendo l'addestramento su dati strutturati di prompt-response.
- Pre-training continuo: Migliora il tuo modello con dati di testo aggiuntivi per integrare nuove conoscenze o concentrarti su un dominio specifico.
- Completamento della chat: addestrare il modello sui log delle conversazioni per migliorare le capacità conversazionali.
Esempi di libreria open source
Si veda esempi di training di apprendimento automatico da un'ampia gamma di librerie di Machine Learning open source, tra cui esempi di ottimizzazione degli iperparametri usando Optuna e Hyperopt.
Apprendimento Profondo
Vedere esempi e procedure consigliate per il training di Deep Learning distribuito per sviluppare e ottimizzare i modelli di Deep Learning in Azure Databricks.
Raccomandanti
Informazioni su come eseguire il training di modelli di raccomandazione basati su Deep Learning in Azure Databricks. Rispetto ai modelli di raccomandazione tradizionali, i modelli di Deep Learning possono ottenere risultati di qualità superiore e adattarsi a grandi quantità di dati.