Consultar pontos de extremidade do Gateway de IA do Unity

Importante

Esse recurso está em Beta. Os administradores de conta podem controlar o acesso a esse recurso na página Visualizações do console da conta. Consulte Gerenciar prévias do Azure Databricks.

Esta página descreve como consultar os endpoints do Gateway de IA do Unity usando APIs compatíveis.

Requirements

A versão prévia do Gateway de Inteligência Artificial do Unity foi habilitada para a sua conta. Consulte Gerenciar prévias do Azure Databricks.
Um workspace do Azure Databricks em uma região com suporte ao Gateway de IA Unity.
Catálogo do Unity habilitado para seu ambiente de trabalho. Consulte Habilitar um espaço de trabalho no Catálogo do Unity.

APIs e integrações com suporte

O Gateway de IA do Unity dá suporte às seguintes APIs e integrações:

Unified APIs: interfaces compatíveis com OpenAI para consultar modelos no Azure Databricks. Alterne perfeitamente entre modelos de diferentes provedores sem alterar a forma como você consulta cada modelo.
APIs nativas: interfaces específicas do provedor para acessar o modelo mais recente e recursos específicos do provedor.
Agentes de codificação: integre seus agentes de codificação ao Gateway de IA do Unity para adicionar governança centralizada e monitoramento aos fluxos de trabalho de desenvolvimento assistidos por IA. Consulte Integrar com agentes de codificação.
Agentes em Aplicativos do Databricks: Criar e autorar agentes de IA nos Aplicativos do Databricks que roteiam o tráfego de LLM por meio do Gateway de IA do Unity. Consulte a Etapa 4. Governe o uso de LLM de seus agentes nos Aplicativos do Databricks com o Gateway de IA do Unity.
ai_query: Use ai_query para consultar endpoints do Gateway de IA do Unity fornecidos pelo Azure Databricks usando SQL ou Python para inferência em lote. Consulte pontos de extremidade de consulta com ai_query.

Consultar pontos de extremidade com `ai_query`

Você pode usar a função ai_query para consultar diretamente do SQL ou do Python os endpoints do Unity AI Gateway fornecidos pelo Azure Databricks. Isso permite que você capture informações de acompanhamento de uso para suas cargas de trabalho de inferência em lote.

Note

ai_query o suporte ao Unity AI Gateway está disponível apenas para endpoints fornecidos pelo Azure Databricks (por exemplo, databricks-gpt-5-4 ou databricks-claude-sonnet-4). Os endpoints que você cria no Unity AI Gateway ainda não são compatíveis.
Apenas o rastreamento de uso se aplica a cargas de trabalho de inferência em lote ai_query. Outros recursos do Unity AI Gateway, como limites de taxa de requisições, proteções, tabelas de inferência e alternativas de contingência, não se aplicam.

Para começar:

Habilite a versão prévia do Gateway de IA da Unity para sua conta. Consulte Gerenciar prévias do Azure Databricks.
Consultar um endpoint do Azure Databricks usando ai_query:

SELECT ai_query(
  'databricks-gpt-5-4',
  'Summarize the following text: ' || text_column
) AS summary
FROM my_table
LIMIT 10

As solicitações feitas por meio de ai_query para endpoints fornecidos pelo Azure Databricks são capturadas na tabela do sistema de rastreamento de uso (system.ai_gateway.usage). Essas solicitações também aparecem no painel de uso interno.

Para obter a sintaxe completa ai_query e a referência de parâmetros, consulte função ai_query. Para obter práticas recomendadas e modelos com suporte, consulte Use ai_query.

Consultar pontos de extremidade com APIs unificadas

As APIs unificadas oferecem uma interface compatível com OpenAI para consultar modelos no Azure Databricks. Use APIs unificadas para alternar perfeitamente entre modelos de provedores diferentes sem alterar seu código.

API de Conclusões de Chat do MLflow

API de Conclusões de Chat do MLflow

Python

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
  api_key=DATABRICKS_TOKEN,
  base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)

chat_completion = client.chat.completions.create(
  messages=[
    {"role": "user", "content": "Hello!"},
    {"role": "assistant", "content": "Hello! How can I assist you today?"},
    {"role": "user", "content": "What is Databricks?"},
  ],
  model="<ai-gateway-endpoint>",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

API REST

curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<ai-gateway-endpoint>",
    "max_tokens": 256,
    "messages": [
      {"role": "user", "content": "Hello!"},
      {"role": "assistant", "content": "Hello! How can I assist you today?"},
      {"role": "user", "content": "What is Databricks?"}
    ]
  }' \
  https://<workspace-url>/ai-gateway/mlflow/v1/chat/completions

Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.

MLflow Embeddings API

MLflow Embeddings API

Python

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
  api_key=DATABRICKS_TOKEN,
  base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)

embeddings = client.embeddings.create(
  input="What is Databricks?",
  model="<ai-gateway-endpoint>"
)

print(embeddings.data[0].embedding)

API REST

curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<ai-gateway-endpoint>",
    "input": "What is Databricks?"
  }' \
  https://<workspace-url>/ai-gateway/mlflow/v1/embeddings

Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.

Supervisor API

Supervisor API

A API do Supervisor (/mlflow/v1/responses) é uma API compatível com OpenResponses e independente do provedor para criar agentes na Versão Beta. Os administradores de conta podem habilitar o acesso na página Visualizações . Consulte Gerenciar prévias do Azure Databricks. Escolha o melhor modelo para o caso de uso do agente entre provedores, sem alterar seu código.

Python

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
  api_key=DATABRICKS_TOKEN,
  base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)

response = client.responses.create(
  model="<ai-gateway-endpoint>",
  input=[{"role": "user", "content": "What is Databricks?"}]
)

print(response.output_text)

API REST

curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<ai-gateway-endpoint>",
    "input": [
      {"role": "user", "content": "What is Databricks?"}
    ]
  }' \
  https://<workspace-url>/ai-gateway/mlflow/v1/responses

Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.

Consultar pontos de extremidade com APIs nativas

As APIs nativas oferecem interfaces específicas do provedor para consultar modelos no Azure Databricks. Use APIs nativas para acessar os recursos mais recentes específicos do provedor.

API de respostas do OpenAI

API de respostas OpenAI

Python

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
  api_key=DATABRICKS_TOKEN,
  base_url="https://<workspace-url>/ai-gateway/openai/v1"
)

response = client.responses.create(
  model="<ai-gateway-endpoint>",
  max_output_tokens=256,
  input=[
    {
      "role": "user",
      "content": [{"type": "input_text", "text": "Hello!"}]
    },
    {
      "role": "assistant",
      "content": [{"type": "output_text", "text": "Hello! How can I assist you today?"}]
    },
    {
      "role": "user",
      "content": [{"type": "input_text", "text": "What is Databricks?"}]
    }
  ]
)

print(response.output)

API REST

curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<ai-gateway-endpoint>",
    "max_output_tokens": 256,
    "input": [
      {
        "role": "user",
        "content": [{"type": "input_text", "text": "Hello!"}]
      },
      {
        "role": "assistant",
        "content": [{"type": "output_text", "text": "Hello! How can I assist you today?"}]
      },
      {
        "role": "user",
        "content": [{"type": "input_text", "text": "What is Databricks?"}]
      }
    ]
  }' \
  https://<workspace-url>/ai-gateway/openai/v1/responses

Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.

Anthropic Messages API

API de Mensagens Antropáticas

Python

import anthropic
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = anthropic.Anthropic(
  api_key="unused",
  base_url="https://<workspace-url>/ai-gateway/anthropic",
  default_headers={
    "Authorization": f"Bearer {DATABRICKS_TOKEN}",
  },
)

message = client.messages.create(
  model="<ai-gateway-endpoint>",
  max_tokens=256,
  messages=[
    {"role": "user", "content": "Hello!"},
    {"role": "assistant", "content": "Hello! How can I assist you today?"},
    {"role": "user", "content": "What is Databricks?"},
  ],
)

print(message.content[0].text)

API REST

curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "model": "<ai-gateway-endpoint>",
    "max_tokens": 256,
    "messages": [
      {"role": "user", "content": "Hello!"},
      {"role": "assistant", "content": "Hello! How can I assist you today?"},
      {"role": "user", "content": "What is Databricks?"}
    ]
  }' \
  https://<workspace-url>/ai-gateway/anthropic/v1/messages

Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.

Google Gemini API

Google Gemini API

Python

from google import genai
from google.genai import types
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = genai.Client(
  api_key="databricks",
  http_options=types.HttpOptions(
    base_url="https://<workspace-url>/ai-gateway/gemini",
    headers={
      "Authorization": f"Bearer {DATABRICKS_TOKEN}",
    },
  ),
)

response = client.models.generate_content(
  model="<ai-gateway-endpoint>",
  contents=[
    types.Content(
      role="user",
      parts=[types.Part(text="Hello!")],
    ),
    types.Content(
      role="model",
      parts=[types.Part(text="Hello! How can I assist you today?")],
    ),
    types.Content(
      role="user",
      parts=[types.Part(text="What is Databricks?")],
    ),
  ],
  config=types.GenerateContentConfig(
    max_output_tokens=256,
  ),
)

print(response.text)

API REST

curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [{"text": "Hello!"}]
      },
      {
        "role": "model",
        "parts": [{"text": "Hello! How can I assist you today?"}]
      },
      {
        "role": "user",
        "parts": [{"text": "What is Databricks?"}]
      }
    ],
    "generationConfig": {
      "maxOutputTokens": 256
    }
  }' \
  https://<workspace-url>/ai-gateway/gemini/v1beta/models/<ai-gateway-endpoint>:generateContent

Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.

Marcar solicitações para rastreamento de uso

Você pode anexar marcas de chave-valor personalizadas a solicitações individuais usando o Databricks-Ai-Gateway-Request-Tags cabeçalho HTTP. As tags de solicitação são registradas na coluna request_tags tanto na tabela de sistema de acompanhamento de uso quanto nas tabelas de inferência, permitindo que você acompanhe os custos, atribua o uso e filtre as análises por projeto, equipe, ambiente ou qualquer outra dimensão.

O valor do cabeçalho deve ser um objeto JSON que mapeia chaves string para valores string. Por exemplo:

{ "project": "chatbot", "team": "ml-platform", "environment": "production" }

Use o parâmetro extra_headers (Python) ou passe o cabeçalho diretamente (API REST) para anexar marcas a uma solicitação:

Python (SDK do OpenAI)

from openai import OpenAI
import json
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
  api_key=DATABRICKS_TOKEN,
  base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)

request_tags = {"project": "chatbot", "team": "ml-platform"}

chat_completion = client.chat.completions.create(
  messages=[
    {"role": "user", "content": "What is Databricks?"},
  ],
  model="<ai-gateway-endpoint>",
  max_tokens=256,
  extra_headers={
    "Databricks-Ai-Gateway-Request-Tags": json.dumps(request_tags)
  }
)

Python (SDK do Anthropic)

import anthropic
import json
import os

DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

request_tags = {"project": "chatbot", "team": "ml-platform"}

client = anthropic.Anthropic(
  api_key="unused",
  base_url="https://<workspace-url>/ai-gateway/anthropic",
  default_headers={
    "Authorization": f"Bearer {DATABRICKS_TOKEN}",
    "Databricks-Ai-Gateway-Request-Tags": json.dumps(request_tags),
  },
)

message = client.messages.create(
  model="<ai-gateway-endpoint>",
  max_tokens=256,
  messages=[
    {"role": "user", "content": "What is Databricks?"},
  ],
)

API REST

curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -H 'Databricks-Ai-Gateway-Request-Tags: {"project": "chatbot", "team": "ml-platform"}' \
  -d '{
    "model": "<ai-gateway-endpoint>",
    "max_tokens": 256,
    "messages": [
      {"role": "user", "content": "What is Databricks?"}
    ]
  }' \
  https://<workspace-url>/ai-gateway/mlflow/v1/chat/completions

Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.

Próximas etapas

API do Supervisor (Beta) – executar fluxos de trabalho de múltiplas etapas do agente com ferramentas hospedadas por meio de /mlflow/v1/responses

Etapa 4. Gerenciar o uso de LLM de seus agentes nos aplicativos Databricks com o Unity AI Gateway — encaminhar chamadas LLM de agentes em Aplicativos do Databricks por meio do Gateway de IA do Unity
Monitorar o uso de endpoints do Gateway de IA do Unity
Monitorar modelos usando tabelas de inferência
Configurar limitações de taxa para os endpoints do Gateway de IA do Unity

Comentários

Esta página foi útil?

Last updated on 2026-06-01

Consultar pontos de extremidade do Gateway de IA do Unity

Requirements

APIs e integrações com suporte

Consultar pontos de extremidade com ai_query

Consultar pontos de extremidade com APIs unificadas

API de Conclusões de Chat do MLflow

Python

API REST

MLflow Embeddings API

Python

API REST

Supervisor API

Python

API REST

Consultar pontos de extremidade com APIs nativas

API de respostas OpenAI

Python

API REST

API de Mensagens Antropáticas

Python

API REST

Google Gemini API

Python

API REST

Marcar solicitações para rastreamento de uso

Python (SDK do OpenAI)

Python (SDK do Anthropic)

API REST

Próximas etapas

Comentários

Recursos adicionais

Consultar pontos de extremidade com `ai_query`