Kom igång köra frågor mot LLM:er på Databricks
Den här artikeln beskriver hur du kommer igång med foundation model-API:er för att hantera och köra frågor mot LLM:er på Databricks.
Det enklaste sättet att komma igång med att hantera och köra frågor mot LLM-modeller på Databricks är att använda Foundation Model-API:er med betalning per token . API:erna ger åtkomst till populära grundmodeller från pay-per-token-slutpunkter som automatiskt är tillgängliga i serveringsgränssnittet för din Databricks-arbetsyta. Se Modeller som stöds för betala per token.
Du kan också testa och chatta med modeller med betala per token med hjälp av AI Playground. Se Chatta med LLM:er och prototyper av GenAI-appar med AI Playground.
För produktionsarbetsbelastningar, särskilt de med en finjusterad modell eller som kräver prestandagarantier, rekommenderar Databricks att du använder Foundation Model-API:er på en etablerad dataflödesslutpunkt .
Krav
- En Databricks-arbetsyta i en region som stöds för FOUNDATION Model API:er betala per token.
- En personlig Databricks-åtkomsttoken för att fråga och få åtkomst till Mosaic AI Model Serving-slutpunkter med hjälp av OpenAI-klienten.
Viktigt!
Som bästa säkerhet för produktionsscenarier rekommenderar Databricks att du använder OAuth-token från dator till dator för autentisering under produktion.
För testning och utveckling rekommenderar Databricks att du använder en personlig åtkomsttoken som tillhör tjänstens huvudnamn i stället för arbetsyteanvändare. Information om hur du skapar token för tjänstens huvudnamn finns i Hantera token för tjänstens huvudnamn.
Kom igång med api:er för Foundation Model
Följande exempel är avsett att köras i en Databricks-notebook-fil. Kodexemplet frågar modellen Meta Llama 3.1 405B Instruct som hanteras på slutpunkten databricks-meta-llama-3-1-405b-instruct
betala per token .
I det här exemplet använder du OpenAI-klienten för att fråga modellen genom att fylla i model
fältet med namnet på den modell som betjänar slutpunkten som är värd för den modell som du vill köra frågor mot. Använd din personliga åtkomsttoken för att fylla i databricks-arbetsyteinstansen DATABRICKS_TOKEN
och för att ansluta OpenAI-klienten till Databricks.
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")
client = OpenAI(
api_key=DATABRICKS_TOKEN, # your personal access token
base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)
chat_completion = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are an AI assistant",
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
model="databricks-meta-llama-3-1-405b-instruct",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
Kommentar
Om du får följande meddelande ImportError: cannot import name 'OpenAI' from 'openai'
uppgraderar du din openai
version med .!pip install -U openai
När du har installerat paketet kör du dbutils.library.restartPython()
.
Förväntad utdata:
{
"id": "xxxxxxxxxxxxx",
"object": "chat.completion",
"created": "xxxxxxxxx",
"model": "databricks-meta-llama-3-1-405b-instruct",
"choices": [
{
"index": 0,
"message":
{
"role": "assistant",
"content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
},
"finish_reason": "stop"
}
],
"usage":
{
"prompt_tokens": 123,
"completion_tokens": 23,
"total_tokens": 146
}
}
Nästa steg
- Använd AI Playground för att prova olika modeller i ett välbekant chattgränssnitt.
- Fråga generativa AI-modeller.
- Åtkomstmodeller som finns utanför Databricks med hjälp av externa modeller.
- Lär dig hur du distribuerar finjusterade modeller med hjälp av etablerade dataflödesslutpunkter.
- Utforska metoder för att övervaka modellkvalitet och slutpunktshälsa.