Kom igång med frågor mot LLM:er på Databricks

Den här artikeln beskriver hur du kommer igång med foundation model-API:er för att hantera och köra frågor mot LLM:er på Databricks.

Det enklaste sättet att komma igång med att hantera och köra frågor mot LLM-modeller på Databricks är att använda Foundation Model-API:er med betalning per token . API:erna ger åtkomst till populära grundmodeller från pay-per-token-slutpunkter som automatiskt är tillgängliga i serveringsgränssnittet för din Databricks-arbetsyta. Se Modeller som stöds för betala per token.

Du kan också testa och chatta med modeller med betala per token med hjälp av AI Playground. Se Chatta med LLM:er som stöds med AI Playground.

För produktionsarbetsbelastningar, särskilt om du har en finjusterad modell eller en arbetsbelastning som kräver prestandagarantier, rekommenderar Databricks att du uppgraderar till att använda Foundation Model-API:er på en etablerad dataflödesslutpunkt .

Krav

  • Databricks-arbetsytan i en region som stöds för Foundation Model-API:er betalar per token.
  • Databricks personliga åtkomsttoken för att fråga och komma åt Databricks-modellen som betjänar slutpunkter med hjälp av OpenAI-klienten.

Viktigt!

Som bästa säkerhet för produktionsscenarier rekommenderar Databricks att du använder OAuth-token från dator till dator för autentisering under produktion.

För testning och utveckling rekommenderar Databricks att du använder en personlig åtkomsttoken som tillhör tjänstens huvudnamn i stället för arbetsyteanvändare. Information om hur du skapar token för tjänstens huvudnamn finns i Hantera token för tjänstens huvudnamn.

Kom igång med Foundation Model-API:er

I följande exempel efterfrågas modellen databricks-dbrx-instruct som hanteras på slutpunktendatabricks-dbrx-instruct betala per token. Läs mer om DBRX Instruct-modellen.

I det här exemplet använder du OpenAI-klienten för att fråga modellen genom att fylla i model fältet med namnet på den modell som betjänar slutpunkten som är värd för den modell som du vill köra frågor mot. Använd din personliga åtkomsttoken för att fylla i databricks-arbetsyteinstansen DATABRICKS_TOKEN och för att ansluta OpenAI-klienten till Databricks.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-dbrx-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Förväntad utdata:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-dbrx-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Nästa steg