Condividi tramite


Introduzione all'esecuzione di query su LLMs in Databricks

Questo articolo descrive come iniziare a usare le API del modello di base per gestire ed eseguire query su LLMs in Databricks.

Il modo più semplice per iniziare a gestire ed eseguire query sui modelli LLM in Databricks consiste nell'usare le API del modello di base in base al pagamento per token. Le API forniscono l'accesso ai modelli di base più diffusi dagli endpoint con pagamento in base al token disponibili automaticamente nell'interfaccia utente di gestione dell'area di lavoro di Databricks. Vedere Modelli supportati per il pagamento per token.

È anche possibile testare e chattare con modelli con pagamento in base al token usando AI Playground. Vedere Chat con le app di LLMs e di GenAI prototipo usando AI Playground.

Per i carichi di lavoro di produzione, in particolare quelli con un modello ottimizzato o che richiedono garanzie di prestazioni, Databricks consiglia di usare le API del modello di base in un endpoint di velocità effettiva con provisioning.

Requisiti

Importante

Come buona prassi di sicurezza per scenari di produzione, Databricks consiglia di utilizzare token OAuth da macchina a macchina per l'autenticazione durante la produzione.

Per il test e lo sviluppo, Databricks consiglia di usare un token di accesso personale appartenente alle entità servizio anziché agli utenti dell'area di lavoro. Per creare token per le entità servizio, vedere Gestire i token per un'entità servizio.

Introduzione all'uso delle API del modello foundation

L'esempio seguente deve essere eseguito in un notebook di Databricks. L'esempio di codice esegue una query sul modello Meta Llama 3.1 405B Instruct fornito sull'endpoint databricks-meta-llama-3-1-405b-instructcon pagamento per token.

In questo esempio si usa il client OpenAI per eseguire query sul modello popolando il campo model con il nome dell'endpoint del modello che gestisce l'endpoint che ospita il modello su cui eseguire la query. Usare il token di accesso personale per popolare l'istanza DATABRICKS_TOKEN e l'area di lavoro di Databricks per connettere il client OpenAI a Databricks.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Nota

Se viene visualizzato il messaggio ImportError: cannot import name 'OpenAI' from 'openai' seguente, aggiornare la versione openai usando !pip install -U openai. Dopo aver installato il pacchetto, eseguire dbutils.library.restartPython().

Output previsto:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Passaggi successivi