Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Esse recurso está em Beta. Os administradores de conta podem controlar o acesso a esse recurso na página Visualizações do console da conta. Consulte Gerenciar prévias do Azure Databricks.
Esta página descreve como consultar os endpoints do Gateway de IA do Unity usando APIs compatíveis.
Requirements
- A versão prévia do Gateway de Inteligência Artificial do Unity foi habilitada para a sua conta. Consulte Gerenciar prévias do Azure Databricks.
- Um workspace do Azure Databricks em uma região com suporte ao Gateway de IA Unity.
- Catálogo do Unity habilitado para seu ambiente de trabalho. Consulte Habilitar um espaço de trabalho no Catálogo do Unity.
APIs e integrações com suporte
O Gateway de IA do Unity dá suporte às seguintes APIs e integrações:
- Unified APIs: interfaces compatíveis com OpenAI para consultar modelos no Azure Databricks. Alterne perfeitamente entre modelos de diferentes provedores sem alterar a forma como você consulta cada modelo.
- APIs nativas: interfaces específicas do provedor para acessar o modelo mais recente e recursos específicos do provedor.
- Agentes de codificação: integre seus agentes de codificação ao Gateway de IA do Unity para adicionar governança centralizada e monitoramento aos fluxos de trabalho de desenvolvimento assistidos por IA. Consulte Integrar com agentes de codificação.
- Agentes em Aplicativos do Databricks: Criar e autorar agentes de IA nos Aplicativos do Databricks que roteiam o tráfego de LLM por meio do Gateway de IA do Unity. Consulte a Etapa 4. Governe o uso de LLM de seus agentes nos Aplicativos do Databricks com o Gateway de IA do Unity.
-
ai_query: Useai_querypara consultar endpoints do Gateway de IA do Unity fornecidos pelo Azure Databricks usando SQL ou Python para inferência em lote. Consulte pontos de extremidade de consulta comai_query.
Consultar pontos de extremidade com ai_query
Você pode usar a função ai_query para consultar diretamente do SQL ou do Python os endpoints do Unity AI Gateway fornecidos pelo Azure Databricks. Isso permite que você capture informações de acompanhamento de uso para suas cargas de trabalho de inferência em lote.
Note
-
ai_queryo suporte ao Unity AI Gateway está disponível apenas para endpoints fornecidos pelo Azure Databricks (por exemplo,databricks-gpt-5-4oudatabricks-claude-sonnet-4). Os endpoints que você cria no Unity AI Gateway ainda não são compatíveis. - Apenas o rastreamento de uso se aplica a cargas de trabalho de inferência em lote
ai_query. Outros recursos do Unity AI Gateway, como limites de taxa de requisições, proteções, tabelas de inferência e alternativas de contingência, não se aplicam.
Para começar:
- Habilite a versão prévia do Gateway de IA da Unity para sua conta. Consulte Gerenciar prévias do Azure Databricks.
- Consultar um endpoint do Azure Databricks usando
ai_query:
SELECT ai_query(
'databricks-gpt-5-4',
'Summarize the following text: ' || text_column
) AS summary
FROM my_table
LIMIT 10
As solicitações feitas por meio de ai_query para endpoints fornecidos pelo Azure Databricks são capturadas na tabela do sistema de rastreamento de uso (system.ai_gateway.usage). Essas solicitações também aparecem no painel de uso interno.
Para obter a sintaxe completa ai_query e a referência de parâmetros, consulte função ai_query. Para obter práticas recomendadas e modelos com suporte, consulte Use ai_query.
Consultar pontos de extremidade com APIs unificadas
As APIs unificadas oferecem uma interface compatível com OpenAI para consultar modelos no Azure Databricks. Use APIs unificadas para alternar perfeitamente entre modelos de provedores diferentes sem alterar seu código.
API de Conclusões de Chat do MLflow
API de Conclusões de Chat do MLflow
Python
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = OpenAI(
api_key=DATABRICKS_TOKEN,
base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)
chat_completion = client.chat.completions.create(
messages=[
{"role": "user", "content": "Hello!"},
{"role": "assistant", "content": "Hello! How can I assist you today?"},
{"role": "user", "content": "What is Databricks?"},
],
model="<ai-gateway-endpoint>",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
API REST
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
"model": "<ai-gateway-endpoint>",
"max_tokens": 256,
"messages": [
{"role": "user", "content": "Hello!"},
{"role": "assistant", "content": "Hello! How can I assist you today?"},
{"role": "user", "content": "What is Databricks?"}
]
}' \
https://<workspace-url>/ai-gateway/mlflow/v1/chat/completions
Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.
MLflow Embeddings API
MLflow Embeddings API
Python
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = OpenAI(
api_key=DATABRICKS_TOKEN,
base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)
embeddings = client.embeddings.create(
input="What is Databricks?",
model="<ai-gateway-endpoint>"
)
print(embeddings.data[0].embedding)
API REST
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
"model": "<ai-gateway-endpoint>",
"input": "What is Databricks?"
}' \
https://<workspace-url>/ai-gateway/mlflow/v1/embeddings
Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.
Supervisor API
Supervisor API
A API do Supervisor (/mlflow/v1/responses) é uma API compatível com OpenResponses e independente do provedor para criar agentes na Versão Beta. Os administradores de conta podem habilitar o acesso na página Visualizações . Consulte Gerenciar prévias do Azure Databricks. Escolha o melhor modelo para o caso de uso do agente entre provedores, sem alterar seu código.
Python
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = OpenAI(
api_key=DATABRICKS_TOKEN,
base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)
response = client.responses.create(
model="<ai-gateway-endpoint>",
input=[{"role": "user", "content": "What is Databricks?"}]
)
print(response.output_text)
API REST
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
"model": "<ai-gateway-endpoint>",
"input": [
{"role": "user", "content": "What is Databricks?"}
]
}' \
https://<workspace-url>/ai-gateway/mlflow/v1/responses
Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.
Consultar pontos de extremidade com APIs nativas
As APIs nativas oferecem interfaces específicas do provedor para consultar modelos no Azure Databricks. Use APIs nativas para acessar os recursos mais recentes específicos do provedor.
API de respostas do OpenAI
API de respostas OpenAI
Python
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = OpenAI(
api_key=DATABRICKS_TOKEN,
base_url="https://<workspace-url>/ai-gateway/openai/v1"
)
response = client.responses.create(
model="<ai-gateway-endpoint>",
max_output_tokens=256,
input=[
{
"role": "user",
"content": [{"type": "input_text", "text": "Hello!"}]
},
{
"role": "assistant",
"content": [{"type": "output_text", "text": "Hello! How can I assist you today?"}]
},
{
"role": "user",
"content": [{"type": "input_text", "text": "What is Databricks?"}]
}
]
)
print(response.output)
API REST
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
"model": "<ai-gateway-endpoint>",
"max_output_tokens": 256,
"input": [
{
"role": "user",
"content": [{"type": "input_text", "text": "Hello!"}]
},
{
"role": "assistant",
"content": [{"type": "output_text", "text": "Hello! How can I assist you today?"}]
},
{
"role": "user",
"content": [{"type": "input_text", "text": "What is Databricks?"}]
}
]
}' \
https://<workspace-url>/ai-gateway/openai/v1/responses
Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.
Anthropic Messages API
API de Mensagens Antropáticas
Python
import anthropic
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = anthropic.Anthropic(
api_key="unused",
base_url="https://<workspace-url>/ai-gateway/anthropic",
default_headers={
"Authorization": f"Bearer {DATABRICKS_TOKEN}",
},
)
message = client.messages.create(
model="<ai-gateway-endpoint>",
max_tokens=256,
messages=[
{"role": "user", "content": "Hello!"},
{"role": "assistant", "content": "Hello! How can I assist you today?"},
{"role": "user", "content": "What is Databricks?"},
],
)
print(message.content[0].text)
API REST
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
"model": "<ai-gateway-endpoint>",
"max_tokens": 256,
"messages": [
{"role": "user", "content": "Hello!"},
{"role": "assistant", "content": "Hello! How can I assist you today?"},
{"role": "user", "content": "What is Databricks?"}
]
}' \
https://<workspace-url>/ai-gateway/anthropic/v1/messages
Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.
Google Gemini API
Google Gemini API
Python
from google import genai
from google.genai import types
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = genai.Client(
api_key="databricks",
http_options=types.HttpOptions(
base_url="https://<workspace-url>/ai-gateway/gemini",
headers={
"Authorization": f"Bearer {DATABRICKS_TOKEN}",
},
),
)
response = client.models.generate_content(
model="<ai-gateway-endpoint>",
contents=[
types.Content(
role="user",
parts=[types.Part(text="Hello!")],
),
types.Content(
role="model",
parts=[types.Part(text="Hello! How can I assist you today?")],
),
types.Content(
role="user",
parts=[types.Part(text="What is Databricks?")],
),
],
config=types.GenerateContentConfig(
max_output_tokens=256,
),
)
print(response.text)
API REST
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-d '{
"contents": [
{
"role": "user",
"parts": [{"text": "Hello!"}]
},
{
"role": "model",
"parts": [{"text": "Hello! How can I assist you today?"}]
},
{
"role": "user",
"parts": [{"text": "What is Databricks?"}]
}
],
"generationConfig": {
"maxOutputTokens": 256
}
}' \
https://<workspace-url>/ai-gateway/gemini/v1beta/models/<ai-gateway-endpoint>:generateContent
Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.
Marcar solicitações para rastreamento de uso
Você pode anexar marcas de chave-valor personalizadas a solicitações individuais usando o Databricks-Ai-Gateway-Request-Tags cabeçalho HTTP. As tags de solicitação são registradas na coluna request_tags tanto na tabela de sistema de acompanhamento de uso quanto nas tabelas de inferência, permitindo que você acompanhe os custos, atribua o uso e filtre as análises por projeto, equipe, ambiente ou qualquer outra dimensão.
O valor do cabeçalho deve ser um objeto JSON que mapeia chaves string para valores string. Por exemplo:
{ "project": "chatbot", "team": "ml-platform", "environment": "production" }
Use o parâmetro extra_headers (Python) ou passe o cabeçalho diretamente (API REST) para anexar marcas a uma solicitação:
Python (SDK do OpenAI)
from openai import OpenAI
import json
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = OpenAI(
api_key=DATABRICKS_TOKEN,
base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)
request_tags = {"project": "chatbot", "team": "ml-platform"}
chat_completion = client.chat.completions.create(
messages=[
{"role": "user", "content": "What is Databricks?"},
],
model="<ai-gateway-endpoint>",
max_tokens=256,
extra_headers={
"Databricks-Ai-Gateway-Request-Tags": json.dumps(request_tags)
}
)
Python (SDK do Anthropic)
import anthropic
import json
import os
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
request_tags = {"project": "chatbot", "team": "ml-platform"}
client = anthropic.Anthropic(
api_key="unused",
base_url="https://<workspace-url>/ai-gateway/anthropic",
default_headers={
"Authorization": f"Bearer {DATABRICKS_TOKEN}",
"Databricks-Ai-Gateway-Request-Tags": json.dumps(request_tags),
},
)
message = client.messages.create(
model="<ai-gateway-endpoint>",
max_tokens=256,
messages=[
{"role": "user", "content": "What is Databricks?"},
],
)
API REST
curl \
-u token:$DATABRICKS_TOKEN \
-X POST \
-H "Content-Type: application/json" \
-H 'Databricks-Ai-Gateway-Request-Tags: {"project": "chatbot", "team": "ml-platform"}' \
-d '{
"model": "<ai-gateway-endpoint>",
"max_tokens": 256,
"messages": [
{"role": "user", "content": "What is Databricks?"}
]
}' \
https://<workspace-url>/ai-gateway/mlflow/v1/chat/completions
Substitua <workspace-url> pela URL do workspace do Azure Databricks e <ai-gateway-endpoint> pelo nome do endpoint do Unity AI Gateway.
Próximas etapas
- Gateway de IA do Unity para agentes e LLMs
- Configurar pontos de entrada do Unity AI Gateway
- Integrar com agentes de codificação
-
API do Supervisor (Beta) – executar fluxos de trabalho de múltiplas etapas do agente com ferramentas hospedadas por meio de
/mlflow/v1/responses
Etapa 4. Gerenciar o uso de LLM de seus agentes nos aplicativos Databricks com o Unity AI Gateway — encaminhar chamadas LLM de agentes em Aplicativos do Databricks por meio do Gateway de IA do Unity
Configurar limitações de taxa para os endpoints do Gateway de IA do Unity