Udostępnij za pośrednictwem


Wprowadzenie do wykonywania zapytań dotyczących usługi LLMs w usłudze Databricks

W tym artykule opisano, jak rozpocząć korzystanie z interfejsów API modelu foundation w celu obsługi maszyn LLM w usłudze Databricks i wykonywania zapytań o nie.

Najprostszym sposobem rozpoczęcia obsługi modeli LLM i wykonywania zapytań względem modeli LLM w usłudze Databricks jest użycie interfejsów API modelu foundation na podstawie tokenu płatności za token. Interfejsy API zapewniają dostęp do popularnych modeli podstawowych z punktów końcowych płatności za token, które są automatycznie dostępne w interfejsie użytkownika obsługującego obszar roboczy usługi Databricks. Zobacz Obsługiwane modele dotyczące płatności za token.

Możesz również przetestować modele płatności za token i porozmawiać z nimi przy użyciu narzędzia AI Playground. Zobacz Chat with supported LLMs using AI Playground (Czat z obsługiwanymi maszynami LLM przy użyciu środowiska zabaw dla sztucznej inteligencji).

W przypadku obciążeń produkcyjnych, szczególnie jeśli masz dostosowany model lub obciążenie wymagające gwarancji wydajności, usługa Databricks zaleca uaktualnienie do używania interfejsów API modelu foundation na aprowizowanym punkcie końcowym przepływności .

Wymagania

  • Obszar roboczy usługi Databricks w obsługiwanym regionie dla interfejsów API modelu foundation pay-per-token.
  • Osobisty token dostępu usługi Databricks umożliwiający wykonywanie zapytań i uzyskiwanie dostępu do modelu usługi Databricks obsługującego punkty końcowe przy użyciu klienta OpenAI.

Ważne

Najlepszym rozwiązaniem w zakresie zabezpieczeń w scenariuszach produkcyjnych usługa Databricks zaleca używanie tokenów OAuth maszyny do maszyny podczas uwierzytelniania w środowisku produkcyjnym.

W przypadku testowania i programowania usługa Databricks zaleca używanie osobistego tokenu dostępu należącego do jednostek usługi zamiast użytkowników obszaru roboczego. Aby utworzyć tokeny dla jednostek usługi, zobacz Zarządzanie tokenami dla jednostki usługi.

Wprowadzenie do korzystania z interfejsów API modelu foundation

Poniższy przykład wykonuje zapytanie dotyczące databricks-dbrx-instruct modelu obsługiwanego w punkcie końcowymdatabricks-dbrx-instruct płatności za token. Dowiedz się więcej o modelu DBRX Poinstruuj.

W tym przykładzie używasz klienta OpenAI do wykonywania zapytań dotyczących modelu, wypełniając model pole nazwą punktu końcowego obsługującego model, który hostuje model, którego chcesz wykonać zapytanie. Użyj osobistego tokenu dostępu, aby wypełnić DATABRICKS_TOKEN wystąpienie obszaru roboczego usługi Databricks i połączyć klienta openAI z usługą Databricks.

Uwaga

Jeśli wystąpi następujący komunikat, ImportError: cannot import name 'OpenAI' from 'openai' uaktualnij openai wersję przy użyciu polecenia !pip install -U openai.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-dbrx-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Oczekiwane dane wyjściowe:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-dbrx-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Następne kroki