Condividi tramite


Modelli di linguaggio di grandi dimensioni in Databricks

Azure Databricks semplifica l'accesso e la compilazione di modelli linguistici di grandi dimensioni disponibili pubblicamente.

Databricks Runtime per Machine Learning include librerie come Hugging Face Transformers e LangChain che consentono di integrare modelli con training preliminare esistenti o altre librerie open source nel flusso di lavoro. Da qui è possibile sfruttare le funzionalità della piattaforma Azure Databricks per ottimizzare i moduli APM usando i propri dati per migliorare le prestazioni del dominio.

Inoltre, Azure Databricks offre funzionalità predefinite per gli utenti SQL per accedere e sperimentare con llms come Azure OpenAI e OpenAI usando le funzioni di intelligenza artificiale.

Training del modello di base

Importante

Questa funzionalità è disponibile in anteprima pubblica. Contattare il team dell'account Databricks per registrarsi all'anteprima pubblica.

Foundation Model Training è un'interfaccia semplice per lo stack di training di Databricks per eseguire l'ottimizzazione completa del modello.

È possibile eseguire le operazioni seguenti usando Foundation Model Training:

  • Ottimizzare un modello con i dati personalizzati, con i checkpoint salvati in MLflow. Si mantiene il controllo completo del modello ottimizzato.
  • Registrare automaticamente il modello in Unity Catalog, consentendo una distribuzione semplice con la gestione dei modelli.
  • Ottimizzare un modello completo proprietario caricando i pesi di un modello ottimizzato in precedenza.

Vedere Training del modello di base.

Hugging Face Transformers

Con Hugging Face Transformers in Databricks è possibile aumentare le istanze delle applicazioni batch di elaborazione del linguaggio naturale (NLP) e ottimizzare i modelli per applicazioni di modelli linguistici di grandi dimensioni.

La libreria Hugging Face transformers è preinstallata in Databricks Runtime 10.4 LTS ML e versioni successive. Molti dei modelli NLP più diffusi funzionano meglio sull'hardware GPU, quindi è possibile ottenere le migliori prestazioni usando hardware GPU recente, a meno che non si usi un modello appositamente ottimizzato per l'uso nelle CPU.

LangChain

LangChain è disponibile come versione sperimentale di MLflow che consente ai clienti di LangChain di sfruttare gli strumenti affidabili e le funzionalità di rilevamento degli esperimenti di MLflow direttamente dall'ambiente Azure Databricks.

LangChain è un framework software progettato per creare applicazioni che usano modelli di linguaggio di grandi dimensioni e combinarli con dati esterni per offrire un contesto di training maggiore per i moduli APM.

Databricks Runtime ML include langchain in Databricks Runtime 13.1 ML e versioni successive.

Informazioni sulle integrazioni LangChain specifiche di Databricks.

Funzioni di intelligenza artificiale

Importante

Questa funzionalità è disponibile in anteprima pubblica.

Le funzioni di intelligenza artificiale sono funzioni SQL predefinite che consentono agli utenti SQL di:

  • Usare le API del modello di Databricks Foundation per completare varie attività sui dati dell'azienda.
  • Accedere a modelli esterni come GPT-4 da OpenAI ed eseguirne l'esperimento.
  • Eseguire query sui modelli ospitati dal modello databricks che gestisce gli endpoint dalle query SQL.