Modelli di linguaggio di grandi dimensioni in Databricks
Azure Databricks semplifica l'accesso e la compilazione di modelli linguistici di grandi dimensioni disponibili pubblicamente.
Databricks Runtime per Machine Learning include librerie come Hugging Face Transformers e LangChain che consentono di integrare modelli con training preliminare esistenti o altre librerie open source nel flusso di lavoro. Da qui è possibile sfruttare le funzionalità della piattaforma Azure Databricks per ottimizzare i moduli APM usando i propri dati per migliorare le prestazioni del dominio.
Inoltre, Azure Databricks offre funzionalità predefinite per gli utenti SQL per accedere e sperimentare con llms come Azure OpenAI e OpenAI usando le funzioni di intelligenza artificiale.
Mosaic AI Model Training
Importante
Questa funzionalità è disponibile in anteprima pubblica. Contattare il team dell'account Databricks per iscriversi all'anteprima pubblica.
Mosaic AI Model Training (in precedenza Foundation Model Training) è un'interfaccia semplice per lo stack di training di Databricks per eseguire l'ottimizzazione completa del modello.
È possibile eseguire le operazioni seguenti usando Il training del modello di intelligenza artificiale mosaico:
- Ottimizzare un modello con i dati personalizzati, con i checkpoint salvati in MLflow. Si mantiene il controllo completo del modello ottimizzato.
- Registrare automaticamente il modello in Unity Catalog, consentendo una distribuzione semplice con la gestione dei modelli.
- Ottimizzare un modello completo proprietario caricando i pesi di un modello ottimizzato in precedenza.
Vedere Mosaic AI Model Training per modelli di base.
Hugging Face Transformers
Con Hugging Face Transformers in Databricks è possibile aumentare le istanze delle applicazioni batch di elaborazione del linguaggio naturale (NLP) e ottimizzare i modelli per applicazioni di modelli linguistici di grandi dimensioni.
La libreria Hugging Face transformers
è preinstallata in Databricks Runtime 10.4 LTS ML e versioni successive. Molti dei modelli NLP più diffusi funzionano meglio sull'hardware GPU, quindi è possibile ottenere le migliori prestazioni usando hardware GPU recente, a meno che non si usi un modello appositamente ottimizzato per l'uso nelle CPU.
DSPy
DSPy automatizza l'ottimizzazione delle richieste convertendo le firme del linguaggio naturale definite dall'utente in istruzioni complete ed esempi con pochi scatti.
Per esempi su come usare DSPy, vedere Creare app genAI con DSPy in Azure Databricks .
LangChain
LangChain è disponibile come una versione sperimentale di MLflow, il quale consente ai clienti di LangChain di sfruttare gli strumenti robusti e sperimentare le capacità di tracciamento di MLflow direttamente dall'ambiente Azure Databricks.
LangChain è un framework software progettato per creare applicazioni che usano modelli di linguaggio di grandi dimensioni e combinarli con dati esterni per offrire un contesto di training maggiore per i moduli APM.
Databricks Runtime ML include langchain
in Databricks Runtime 13.1 ML e versioni successive.
Informazioni sulle integrazioni LangChain specifiche di Databricks.
Funzioni di intelligenza artificiale
Importante
Questa funzionalità è disponibile in anteprima pubblica.
Le funzioni di intelligenza artificiale sono funzioni SQL predefinite che consentono agli utenti SQL di:
- Usare le API del modello di Databricks Foundation per completare varie attività sui dati dell'azienda.
- Accedere a modelli esterni come GPT-4 da OpenAI ed eseguirne l'esperimento.
- Eseguire query sui modelli ospitati da Mosaic AI Model Serve gli endpoint dalle query SQL.