Поделиться через


Начало запроса LLM в Databricks

В этой статье описывается, как приступить к использованию API модели Foundation для обслуживания и запроса LLM в Databricks.

Самый простой способ начать работу с обслуживанием и запросом моделей LLM в Databricks — использовать API модели Foundation на основе оплаты за токен. API предоставляют доступ к популярным базовым моделям из конечных точек с оплатой за токен, которые автоматически доступны в пользовательском интерфейсе обслуживания рабочей области Databricks. См. сведения о поддерживаемых моделях для оплаты за токен.

Кроме того, вы можете протестировать и общаться с моделями с оплатой за токен с помощью игровой площадки ИИ. Ознакомьтесь с чатом с LLMs и прототипом приложений GenAI с помощью ИИ-площадки.

Для рабочих нагрузок, особенно для рабочих нагрузок с точно настроенной моделью или для которых требуются гарантии производительности, Databricks рекомендует использовать API модели Foundation в подготовленной конечной точке пропускной способности .

Требования

  • Рабочая область Databricks в поддерживаемом регионе для API-интерфейсов модели Foundation платить за токен.
  • Личный маркер доступа Databricks для запроса и доступа к конечным точкам службы модели ИИ Мозаики с помощью клиента OpenAI.

Внимание

В качестве рекомендации по обеспечению безопасности для рабочих сценариев Databricks рекомендует использовать маркеры OAuth на компьютере для проверки подлинности во время рабочей среды.

Для тестирования и разработки Databricks рекомендует использовать личный маркер доступа, принадлежащий субъектам-службам , а не пользователям рабочей области. Сведения о создании маркеров для субъектов-служб см. в разделе "Управление маркерами" для субъекта-службы.

Начало работы с API-интерфейсами модели Foundation

Следующий пример предназначен для запуска в записной книжке Databricks. Пример кода запрашивает модель инструкции Meta Llama 3.1 405B, которая обслуживается в конечной точке databricks-meta-llama-3-1-405b-instructоплаты за токен.

В этом примере клиент OpenAI используется для запроса модели, заполняя model поле именем конечной точки обслуживания модели, в которой размещена модель, которую требуется запрашивать. Используйте личный маркер доступа для заполнения DATABRICKS_TOKEN экземпляра рабочей области Databricks для подключения клиента OpenAI к Databricks.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Примечание.

Если вы столкнулись со следующим сообщением ImportError: cannot import name 'OpenAI' from 'openai', обновите openai версию с помощью !pip install -U openai. После установки пакета запустите .dbutils.library.restartPython()

Ожидаемые выходные данные:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Следующие шаги