Compartilhar via


Consultar um modelo de chat

Neste artigo, você aprenderá a escrever solicitações de consulta para modelos de base otimizados para tarefas de chat e uso geral e enviá-las para o ponto de extremidade de serviço do modelo.

Os exemplos neste artigo se aplicam à consulta de modelos de base que são disponibilizados usando:

Requisitos

Exemplos de consulta

Os exemplos nesta seção mostram como consultar o modelo Anthropic Claude Sonnet 4.5 disponibilizado pelo endpoint de pagamento por token das APIs do Foundation Model, databricks-claude-sonnet-4-5*usando as diferentes opções de cliente.

Conclusões de chat do OpenAI

Para usar o cliente do OpenAI, especifique o nome do ponto de extremidade de serviço do modelo como a entrada model. O exemplo a seguir pressupõe que você tenha um token de API do Databricks e openai instalado em sua computação. Você também precisa de sua instância do workspace do Databricks para conectar o cliente OpenAI ao Databricks.


import os
import openai
from openai import OpenAI

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

response = client.chat.completions.create(
    model="databricks-claude-sonnet-4-5",
    messages=[
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "What is a mixture of experts model?",
      }
    ],
    max_tokens=256
)

Respostas OpenAI

Importante

A API de Respostas só é compatível com modelos OpenAI.

Para usar a API de Respostas OpenAI, especifique o nome do ponto de extremidade de serviço do modelo como a model entrada. O exemplo a seguir pressupõe que você tenha um token de API do Azure Databricks e openai instalado em sua computação. Você também precisa da instância do workspace do Azure Databricks para conectar o cliente OpenAI ao Azure Databricks.


import os
import openai
from openai import OpenAI

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

response = client.responses.create(
    model="databricks-gpt-5",
    input=[
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "What is a mixture of experts model?",
      }
    ],
    max_output_tokens=256
)

API REST

Importante

O exemplo a seguir usa parâmetros da API REST para consultar pontos de extremidade de serviço que atendem modelos externos. Esses parâmetros estão na Visualização Pública e a definição pode ser alterada. Consulte POST /serving-endpoints/{name}/invocations.

curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": " What is a mixture of experts model?"
    }
  ]
}' \
https://<workspace_host>.databricks.com/serving-endpoints/<your-external-model-endpoint>/invocations \

SDK de Implantações do MLflow

Importante

O exemplo a seguir usa a API predict() do SDK de Implantações do MLflow..


import mlflow.deployments

# Only required when running this example outside of a Databricks Notebook
export DATABRICKS_HOST="https://<workspace_host>.databricks.com"
export DATABRICKS_TOKEN="dapi-your-databricks-token"

client = mlflow.deployments.get_deploy_client("databricks")

chat_response = client.predict(
    endpoint="databricks-claude-sonnet-4-5",
    inputs={
        "messages": [
            {
              "role": "user",
              "content": "Hello!"
            },
            {
              "role": "assistant",
              "content": "Hello! How can I assist you today?"
            },
            {
              "role": "user",
              "content": "What is a mixture of experts model??"
            }
        ],
        "temperature": 0.1,
        "max_tokens": 20
    }
)

SDK do Databricks do Python

Esse código deve ser executado em um notebook em seu espaço de trabalho. Consulte Usar o SDK do Databricks para Python de um notebook do Azure Databricks.

from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import ChatMessage, ChatMessageRole

w = WorkspaceClient()
response = w.serving_endpoints.query(
    name="databricks-claude-sonnet-4-5",
    messages=[
        ChatMessage(
            role=ChatMessageRole.SYSTEM, content="You are a helpful assistant."
        ),
        ChatMessage(
            role=ChatMessageRole.USER, content="What is a mixture of experts model?"
        ),
    ],
    max_tokens=128,
)
print(f"RESPONSE:\n{response.choices[0].message.content}")

Como exemplo, a seguir está o formato de solicitação esperado para um modelo de chat ao usar a API REST. Para modelos externos, você pode incluir parâmetros adicionais que são válidos para um determinado provedor e configuração de ponto de extremidade. Consulte parâmetros de consulta adicionais.

{
  "messages": [
    {
      "role": "user",
      "content": "What is a mixture of experts model?"
    }
  ],
  "max_tokens": 100,
  "temperature": 0.1
}

O formato de resposta esperado para uma solicitação feita usando a API REST é o seguinte:

{
  "model": "databricks-claude-sonnet-4-5",
  "choices": [
    {
      "message": {},
      "index": 0,
      "finish_reason": null
    }
  ],
  "usage": {
    "prompt_tokens": 7,
    "completion_tokens": 74,
    "total_tokens": 81
  },
  "object": "chat.completion",
  "id": null,
  "created": 1698824353
}

Modelos com suporte

Consulte os tipos de modelo do Foundation para modelos de chat com suporte.

Recursos adicionais