Compartir a través de


Referencia de la API REST del modelo fundacional

En este artículo se proporciona información general sobre la API de Databricks Foundation Model y los modelos que admiten. Las API de Foundation Model están diseñadas para ser similares a la API REST de OpenAI para facilitar la migración de proyectos existentes. Los puntos de conexión de rendimiento de pago por token y aprovisionados aceptan el mismo formato de solicitud de API de REST.

Puntos de conexión

Las APIs de Foundation Model admiten puntos de conexión de pago por token y puntos de conexión de rendimiento estipulado.

Un punto de conexión preconfigurado está disponible en el área de trabajo para cada modelo admitido de pago por token y los usuarios pueden interactuar con estos puntos de conexión mediante solicitudes HTTP POST. Consulte Modelos de base admitidos en Mosaic AI Model Serving para ver los modelos admitidos.

Los puntos de conexión de rendimiento aprovisionados se pueden crear mediante la API o la interfaz de usuario de servicio. Estos puntos de conexión admiten varios modelos por punto de conexión para las pruebas A/B, siempre y cuando ambos modelos servidos expongan el mismo formato de API. Por ejemplo, ambos modelos son modelos de chat. Consulte POST /api/2.0/serving-endpoints para ver los parámetros de configuración del punto de conexión.

Las solicitudes y respuestas usan JSON, la estructura JSON exacta depende del tipo de tarea de un punto de conexión. Los puntos de conexión de chat y finalización admiten respuestas de streaming.

Uso

Las respuestas incluyen un submensaje usage que informa sobre el número de tokens en la solicitud y la respuesta. El formato de este submensaje es el mismo en todos los tipos de tareas.

Campo Tipo Descripción
completion_tokens Entero Número de tokens generados. No se incluye en las respuestas de inserción.
prompt_tokens Entero Número de tokens del símbolo del sistema de entrada.
total_tokens Entero Número de tokens totales.
reasoning_tokens Entero Número de tokens de pensamiento. Solo es aplicable a los modelos de razonamiento.

Para los modelos como databricks-meta-llama-3-3-70b-instruct, una solicitud de usuario se transforma mediante una plantilla de aviso antes de pasarse al modelo. En el caso de los terminales de pago por token, también se puede agregar un mensaje del sistema. prompt_tokens incluye todo el texto agregado por nuestro servidor.

API de respuestas

Importante

La API de respuestas solo es compatible con los modelos openAI.

La API de respuestas permite llevar a cabo conversaciones de múltiples vueltas utilizando un modelo. A diferencia de las finalizaciones de chat, la API de respuestas usa input en lugar de messages.

Solicitud de respuestas de la API

Campo Predeterminado Tipo Descripción
model Cuerda Obligatoria. Id. de modelo usado para generar la respuesta.
input String o List[ResponsesInput] Obligatoria. Entradas de texto, imagen o archivo al modelo, usadas para generar una respuesta. A diferencia de messages, este campo usa input para especificar el contenido de la conversación.
instructions null Cuerda Mensaje del sistema (o desarrollador) insertado en el contexto del modelo.
max_output_tokens null null, lo que significa que no hay límite o un entero mayor que cero Límite superior para el número de tokens que se pueden generar para una respuesta, incluidos los tokens de salida visibles y los tokens de razonamiento.
temperature 1.0 Flotar en [0,2] Temperatura de muestreo. 0 es determinista y los valores superiores introducen más aleatoriedad.
top_p 1.0 Flotar en (0,1] Umbral de probabilidad utilizado para el muestreo de núcleos.
stream false Booleano Si se establece en true, los datos de respuesta del modelo se transmitirán al cliente a medida que se generan mediante eventos enviados por el servidor.
stream_options null StreamOptions Opciones para las respuestas de streaming. Establezca este valor solo cuando defina stream: true.
text null TextConfig Opciones de configuración para una respuesta de texto del modelo. Puede ser texto sin formato o datos JSON estructurados.
reasoning null RazonamientoConfig Configuración de razonamiento para modelos gpt-5 y serie o.
tool_choice "auto" Cadena o ToolChoiceObject Cómo debe seleccionar el modelo qué herramienta (o herramientas) se van a usar al generar una respuesta. Consulte el tools parámetro para ver cómo especificar las herramientas a las que puede llamar el modelo.
tools null List[ToolObject] Una matriz de herramientas que el modelo puede llamar al generar una respuesta. Nota: Databricks no admite el intérprete de código ni las herramientas de búsqueda web.
parallel_tool_calls true Booleano Si se permite que el modelo ejecute llamadas de herramienta en paralelo.
max_tool_calls null Entero mayor que cero Número máximo de llamadas totales a herramientas integradas que se pueden procesar en una respuesta.
metadata null Objeto Conjunto de 16 pares clave-valor que se pueden adjuntar a un objeto.
prompt_cache_key null Cuerda Se usa para almacenar en caché las respuestas de solicitudes similares para optimizar las tasas de aciertos de caché. Reemplaza el user campo.
prompt_cache_retention null Cuerda La directiva de retención de la memoria caché temporal. Establézcalo en "24h" para habilitar el almacenamiento en caché de mensajes extendido, que mantiene activos los prefijos almacenados en caché durante más tiempo, hasta un máximo de 24 horas.
safety_identifier null Cuerda Identificador estable que se usa para ayudar a detectar usuarios de la aplicación que pueden estar infringiendo las directivas de uso.
user null Cuerda En desuso. Utilice safety_identifier y prompt_cache_key en su lugar.
truncation null Cuerda Estrategia de truncamiento que se va a usar para la respuesta del modelo.
top_logprobs null Entero Entero entre 0 y 20 que especifica el número de tokens más probables que se devolverán en cada posición del token, cada uno con una probabilidad de registro asociada.
include null Lista[String] Especifique datos de salida adicionales que se incluirán en la respuesta del modelo.
prompt null Objeto Referencia a una plantilla de solicitud y sus variables.

Parámetros no admitidos: Databricks no admite los parámetros siguientes y devolverá un error 400 si se especifica:

  • background - No se admite el procesamiento en segundo plano
  • store - No se admiten las respuestas almacenadas.
  • conversation - La API de conversación no se admite
  • service_tier - Databricks administra la selección del nivel de servicio.

ResponsesInput

El input campo acepta una cadena o una lista de objetos de mensaje de entrada con el rol y el contenido.

Campo Tipo Descripción
role Cuerda Obligatoria. El rol del autor del mensaje. Puede ser "user" o "assistant".
content Cadena o Lista[ResponsesContentBlock] Obligatoria. El contenido del mensaje, ya sea como una cadena o matriz de bloques de contenido.

ResponsesContentBlock

Los bloques de contenido definen el tipo de contenido en los mensajes de entrada y salida. El tipo de bloque de contenido está determinado por el campo type.

InputText
Campo Tipo Descripción
type Cuerda Obligatoria. Debe ser "input_text".
text Cuerda Obligatoria. Contenido de texto.
OutputText
Campo Tipo Descripción
type Cuerda Obligatoria. Debe ser "output_text".
text Cuerda Obligatoria. Contenido de texto.
annotations List[Object] Anotaciones opcionales para el contenido de texto.
InputImage
Campo Tipo Descripción
type Cuerda Obligatoria. Debe ser "input_image".
image_url Cuerda Obligatoria. Dirección URL o URI de datos codificados en base64 de la imagen.
InputFile
Campo Tipo Descripción
type Cuerda Obligatoria. Debe ser "input_file".
file_id Cuerda Identificador de archivo si se usan archivos cargados.
filename Cuerda El nombre del archivo.
file_data Cuerda URI de datos codificados en Base64 con prefijo de formato. Por ejemplo, los archivos PDF usan el formato data:application/pdf;base64,<base64 data>.
FunctionCall
Campo Tipo Descripción
type Cuerda Obligatoria. Debe ser "function_call".
id Cuerda Obligatoria. Identificador único de la llamada de función.
call_id Cuerda Obligatoria. Identificador de llamada.
name Cuerda Obligatoria. Nombre de la función a la que se llama.
arguments Object/String Obligatoria. Argumentos de función como objeto JSON o cadena.
FunctionCallOutput
Campo Tipo Descripción
type Cuerda Obligatoria. Debe ser "function_call_output".
call_id Cuerda Obligatoria. Identificador de llamada al que corresponde esta salida.
output String/Object Obligatoria. Salida de la función como cadena o objeto JSON.

StreamOptions

Configuración de las respuestas de streaming. Solo se usa con stream: true.

Campo Tipo Descripción
include_usage Booleano Si es verdadero, incluya información sobre el uso de tokens en la secuencia. El valor predeterminado es false.

TextConfig

Configuración para la salida de texto, incluidas las salidas estructuradas.

Campo Tipo Descripción
format ResponsesFormatObject Especificación de formato para la salida de texto.

ResponsesFormatObject

Especifica el formato de salida para las respuestas de texto.

Campo Tipo Descripción
type Cuerda Obligatoria. Tipo de formato: "text" para texto sin formato, "json_object" para JSON o "json_schema" para JSON estructurado.
json_schema Objeto Obligatorio cuando type es "json_schema". Objeto de esquema JSON que define la estructura de la salida.

El json_schema objeto tiene la misma estructura que JsonSchemaObject documentado en la API de finalizaciones de chat.

ReasoningConfig

Configuración para el comportamiento de razonamiento en modelos de razonamiento (modelos de serie o y gpt-5).

Campo Tipo Descripción
effort Cuerda Nivel de esfuerzo de razonamiento: "low", "medium"o "high". El valor predeterminado es "medium".
encrypted_content Cuerda Contenido de razonamiento cifrado para el modo sin estado. Proporcionado por el modelo en respuestas anteriores.

ToolObject

Consulte Llamada a funciones en Azure Databricks.

Campo Tipo Descripción
type Cuerda Obligatoria. Tipo de la herramienta. Actualmente, solo se admite function.
function FunctionObject Obligatoria. Definición de función asociada a la herramienta.

FunctionObject

Campo Tipo Descripción
name Cuerda Obligatoria. El nombre de la función que se llamará.
description Objeto Obligatoria. Descripción detallada de la función. El modelo usa esta descripción para comprender la relevancia de la función en el símbolo del sistema y generar las llamadas a la herramienta con mayor precisión.
parameters Objeto Los parámetros que acepta la función, que se describen como un objeto de esquema JSON válido. Si se llama a la herramienta, la llamada a la herramienta se ajusta al esquema JSON proporcionado. La omisión de parámetros define una función sin parámetros. El número de properties está limitado a 15 claves.
strict Booleano Indica si se debe habilitar el cumplimiento estricto del esquema al generar la llamada a la función. Si se establece en true, el modelo sigue el esquema exacto definido en el campo de esquema. Solo se admite un subconjunto del esquema JSON cuando strict es true.

ToolChoiceObject

Consulte Llamada a funciones en Azure Databricks.

Campo Tipo Descripción
type Cuerda Obligatoria. Tipo de la herramienta. Actualmente, solo se admite "function".
function Objeto Obligatoria. Objeto que define qué herramienta invocar en el formato {"type": "function", "function": {"name": "my_function"}} donde "my_function es el nombre de un FunctionObject dentro del campo tools.

Respuesta de la API de respuesta

En el caso de las solicitudes que no son de streaming, la respuesta es un único objeto de respuesta. En el caso de las solicitudes de streaming, la respuesta es un text/event-stream en el que cada evento es un fragmento de respuesta.

Campo Tipo Descripción
id Cuerda Identificador único de la respuesta. Nota: Databricks cifra este identificador para la seguridad.
object Cuerda Tipo de objeto. Igual a "response".
created_at Entero Marca de tiempo de Unix (en segundos) cuando se creó la respuesta.
status Cuerda Estado de la respuesta. Uno de: completed, failed, in_progress, cancelled, queuedo incomplete.
model Cuerda Versión del modelo utilizada para generar la respuesta.
output Lista[ResponsesMessage] Salida generada por el modelo, que normalmente contiene objetos de mensaje.
usage Uso Metadatos de uso de tokens.
error Error Información de error si se produjo un error en la respuesta.
incomplete_details IncompleteDetails Detalles sobre por qué la respuesta está incompleta, si procede.
instructions Cuerda Las instrucciones proporcionadas en la solicitud.
max_output_tokens Entero Los tokens de salida máximos especificados en la solicitud.
temperature Float Temperatura usada para la generación.
top_p Float Valor de top_p usado para la generación.
tools List[ToolObject] Herramientas especificadas en la solicitud.
tool_choice Cadena o ToolChoiceObject El parámetro tool_choice de la solicitud.
parallel_tool_calls Booleano Indica si se habilitaron las llamadas a herramientas paralelas.
store Booleano Si se almacenó la respuesta.
metadata Objeto Metadatos adjuntos a la respuesta.

ResponsesMessage

Objetos de mensaje en el output campo que contiene el contenido de respuesta del modelo.

Campo Tipo Descripción
id Cuerda Obligatoria. Identificador único del mensaje.
role Cuerda Obligatoria. Rol del mensaje. "user" o "assistant".
content Lista[ResponsesContentBlock] Obligatoria. Los bloques de contenido en el mensaje.
status Cuerda Estado del procesamiento del mensaje.
type Cuerda Obligatoria. Tipo de objeto. Igual a "message".

Error

Información de error cuando se produce un error en una respuesta.

Campo Tipo Descripción
code Cuerda Obligatoria. Código de error.
message Cuerda Obligatoria. Mensaje de error legible.
param Cuerda Parámetro que provocó el error, si procede.
type Cuerda Obligatoria. Tipo de error.

IncompleteDetails

Detalles sobre por qué una respuesta está incompleta.

Campo Tipo Descripción
reason Cuerda Obligatoria. La razón por la que la respuesta está incompleta.

API de finalizaciones de chat

La API de finalizaciones de chat permite mantener conversaciones de múltiples interacciones con un modelo. La respuesta del modelo proporciona el siguiente mensaje assistant en la conversación. Consulte POST /serving-endpoints/{name}/invocations para consultar los parámetros del punto de conexión.

Solicitud de chat

Campo Predeterminado Tipo Descripción
messages Lista ChatMessage Obligatoria. Lista de mensajes que representan la conversación actual.
max_tokens null null, lo que significa que no hay límite o un entero mayor que cero Número máximo de tokens que se van a generar.
stream true Booleano Transmita las respuestas a un cliente para permitir resultados parciales para las solicitudes. Si este parámetro se incluye en la solicitud, las respuestas se envían mediante el estándar de eventos enviados por el servidor.
temperature 1.0 Flotar en [0,2] Temperatura de muestreo. 0 es determinista y los valores superiores introducen más aleatoriedad.
top_p 1.0 Flotar en (0,1] Umbral de probabilidad utilizado para el muestreo de núcleos.
top_k null null, lo que significa que no hay límite o un entero mayor que cero Define el número de tokens más probables que se usen para el filtrado top-k. Establezca este valor en 1 para que las salidas sean deterministas.
stop [] Cadena o Lista[String] El modelo deja de generar más tokens cuando se encuentra cualquiera de las secuencias de stop.
n 1 Entero mayor que cero La API devuelve n finalizaciones de chat independientes cuando se especifica n. Se recomienda para cargas de trabajo que generen varias finalizaciones en la misma entrada para obtener una eficiencia de inferencia adicional y ahorro de costos. Solo está disponible para los puntos de conexión de rendimiento aprovisionados.
tool_choice none Cadena o ToolChoiceObject Solo se usa junto con el campo tools. tool_choice admite una variedad de cadenas de palabras clave, como auto, requiredy none. auto significa que permite que el modelo decida qué herramienta (si existe) es relevante para su uso. Con auto si el modelo no cree que ninguna de las herramientas de tools son relevantes, el modelo genera un mensaje de asistente estándar en lugar de una llamada a herramienta. required significa que el modelo selecciona la herramienta más relevante en tools y debe generar una llamada de herramienta. none significa que el modelo no genera ninguna llamada de herramienta y, en su lugar, debe generar un mensaje de asistente estándar. Para forzar una llamada de herramienta con una herramienta específica definida en tools, use un ToolChoiceObject. De manera predeterminada, si el campo tools está relleno tool_choice = "auto". En caso contrario, el campo tools tiene como valor predeterminado tool_choice = "none"
tools null ToolObject Lista de tools que el modelo puede llamar. Actualmente, function es el único tipo de tool admitido y se admite un máximo de 32 funciones.
response_format null ResponseFormatObject Objeto que especifica el formato que debe generar el modelo. Los tipos aceptados son text, json_schema o json_object
Al establecer en { "type": "json_schema", "json_schema": {...} } se habilitan salidas estructuradas que garantizan que el modelo siga el esquema JSON proporcionado.
Establecer en { "type": "json_object" } garantiza que las respuestas que genera el modelo sean JSON válidas, pero no garantiza que las respuestas sigan un esquema específico.
logprobs false Booleano Este parámetro indica si se debe proporcionar la probabilidad logarítmica de un token al ser muestreado.
top_logprobs null Entero Este parámetro controla el número de candidatos de token más probables para los cuales devolver probabilidades logarítmicas en cada paso de muestreo. Puede ser de 0 a 20. logprobs debe ser true si se usa este campo.
reasoning_effort "medium" Cuerda Controla el nivel de esfuerzo de razonamiento que el modelo debe aplicar al generar respuestas. Los valores aceptados son "low", "medium"o "high". Un mayor esfuerzo de razonamiento puede dar lugar a respuestas más cuidadosas y precisas, pero puede aumentar la latencia y el uso de tokens. Este parámetro solo es aceptado por un conjunto limitado de modelos, incluidos databricks-gpt-oss-120b y databricks-gpt-oss-20b.

ChatMessage

Campo Tipo Descripción
role Cuerda Obligatoria. Rol del autor del mensaje. Puede ser "system", "user", "assistant" o "tool".
content Cuerda Contenido del mensaje. Necesario para las tareas de chat que no implican llamadas a una herramienta.
tool_calls Lista de ToolCall La lista de tool_calls que generó el modelo. Debe tener role como "assistant" y ninguna especificación para el campo content.
tool_call_id Cuerda Cuando role es "tool", el identificador asociado al ToolCall al cual el mensaje está respondiendo. Debe estar vacío para otras opciones role.

El rol system solo se puede usar una vez, como primer mensaje de una conversación. Invalida el mensaje del sistema predeterminado del modelo.

ToolCall

Sugerencia de acción de llamada a una herramienta por el modelo. Consulte Llamada a funciones en Azure Databricks.

Campo Tipo Descripción
id Cuerda Obligatoria. Identificador único para esta sugerencia de llamada a una herramienta.
type Cuerda Obligatoria. Solo "function" es compatible.
function FinalizaciónDeLlamadaDeFunción Obligatoria. Una llamada a una función sugerida por el modelo.
cache_control Cuerda Habilita el almacenamiento en caché para tu solicitud. Los modelos de Claude hospedados en Databricks solo aceptan este parámetro. Consulte Almacenamiento en caché de mensajes para obtener un ejemplo.

FunctionCallCompletion

Campo Tipo Descripción
name Cuerda Obligatorio. Nombre de la función recomendada por el modelo.
arguments Objeto Obligatorio. Argumentos para la función como un diccionario JSON serializado.

Nota: ToolChoiceObject, ToolObjecty FunctionObject se definen en la sección Api de respuestas y se comparten entre ambas API.

ResponseFormatObject

Consulte Resultados estructurados en Azure Databricks.

Campo Tipo Descripción
type Cuerda Obligatoria. Tipo de formato de respuesta que se va a definir. Ya sea text para texto no estructurado, json_object para objetos JSON no estructurados o json_schema para objetos JSON que se adhieren a un esquema específico.
json_schema JsonSchemaObject Obligatoria. El esquema JSON al que se debe cumplir si type está establecido en json_schema

JsonSchemaObject

Consulte Resultados estructurados en Azure Databricks.

Campo Tipo Descripción
name Cuerda Obligatoria. Nombre del formato de respuesta.
description Cuerda Descripción del formato de respuesta que usa el modelo para determinar cómo responder en el formato.
schema Objeto Obligatoria. Esquema para el formato de respuesta, descrito como un objeto de esquema JSON.
strict Booleano Indica si se debe habilitar la adhesión estricta al esquema al generar la salida. Si se establece en true, el modelo sigue el esquema exacto definido en el campo de esquema. Solo se admite un subconjunto del esquema JSON cuando strict es true.

Respuesta de chat

En el caso de las solicitudes que no son de streaming, la respuesta es un único objeto de finalización de chat. En el caso de las solicitudes de streaming, la respuesta es un text/event-stream objeto donde cada evento es un objeto de fragmento de finalización. La estructura de nivel superior de los objetos de finalización y fragmento es casi idéntica: solo choices tiene un tipo diferente.

Campo Tipo Descripción
id Cuerda Identificador único para la finalización del chat.
choices List[ChatCompletionChoice] o List[ChatCompletionChunk] (streaming) Lista de textos de finalización de chat. Se devuelven opciones n si se especifica el parámetro n.
object Cuerda Tipo de objeto. Igual a "chat.completions" para no streaming o "chat.completion.chunk" para streaming.
created Entero Hora UTC en la que se generó la finalización del chat en segundos.
model Cuerda Versión del modelo utilizada para generar la respuesta.
usage Uso Metadatos de uso de tokens. Es posible que no esté presente en las respuestas de streaming.

ChatCompletionChoice

Campo Tipo Descripción
index Entero Índice de la elección en la lista de opciones generadas.
message ChatMessage Mensaje de finalización del chat devuelto por el modelo. El rol será assistant.
finish_reason Cuerda Motivo por el que el modelo dejó de generar tokens.
extra_fields Cuerda Al usar modelos propietarios de proveedores de modelos externos, las API del proveedor pueden incluir metadatos adicionales en las respuestas. Databricks filtra estas respuestas y devuelve solo un subconjunto de los campos originales del proveedor. safetyRating es el único campo adicional admitido en este momento, consulte la documentación de Gemini para obtener más detalles.

ChatCompletionChunk

Campo Tipo Descripción
index Entero Índice de la elección en la lista de opciones generadas.
delta ChatMessage Una parte del mensaje de finalización del chat de las respuestas generadas transmitidos desde el modelo. Solo se garantiza que el primer fragmento se haya role rellenado.
finish_reason Cuerda Motivo por el que el modelo dejó de generar tokens. Solo el último fragmento se rellenará.

API de inserción

Las tareas de incrustación asignan cadenas de entrada en vectores de inserción. Se pueden agrupar muchas entradas en cada solicitud. Consulte POST /serving-endpoints/{name}/invocations para consultar los parámetros del punto de conexión.

Inserción de la solicitud

Campo Tipo Descripción
input Cadena o Lista[String] Obligatoria. Texto de entrada que se va a insertar. Puede ser una cadena o una lista de cadenas.
instruction Cuerda Una instrucción opcional para pasar al modelo de embedding.

Las instrucciones son opcionales y muy específicas del modelo. Por ejemplo, los autores de BGE no recomiendan ninguna instrucción al indexar fragmentos y recomendar el uso de la instrucción "Represent this sentence for searching relevant passages:" para las consultas de recuperación. Otros modelos como Instructor-XL admiten una amplia gama de cadenas de instrucción.

Respuesta de inserción

Campo Tipo Descripción
id Cuerda Identificador único para la inserción.
object Cuerda Tipo de objeto. Igual a "list".
model Cuerda Nombre del modelo de inserción que se usa para crear la inserción.
data ObjetoDeIncrustación Objeto de inserción.
usage Uso Metadatos de uso de tokens.

EmbeddingObject

Campo Tipo Descripción
object Cuerda Tipo de objeto. Igual a "embedding".
index Entero Índice de la inserción en la lista de incrustaciones generadas por el modelo.
embedding Lista[Flotante] Vector de inserción. Cada modelo devolverá un vector de tamaño fijo (1024 para BGE-Large)

API de finalizaciones

Las tareas de finalización de texto son para generar respuestas a un único mensaje. A diferencia de Chat, esta tarea admite entradas por lotes: se pueden enviar varias solicitudes independientes en una solicitud. Consulte POST /serving-endpoints/{name}/invocations para consultar los parámetros del punto de conexión.

Solicitud de finalización

Campo Predeterminado Tipo Descripción
prompt Cadena o Lista[String] Obligatoria. Las indicaciones para el modelo.
max_tokens null null, lo que significa que no hay límite o un entero mayor que cero Número máximo de tokens que se van a generar.
stream true Booleano Transmita las respuestas a un cliente para permitir resultados parciales para las solicitudes. Si este parámetro se incluye en la solicitud, las respuestas se envían mediante el estándar de eventos enviados por el servidor.
temperature 1.0 Flotar en [0,2] Temperatura de muestreo. 0 es determinista y los valores superiores introducen más aleatoriedad.
top_p 1.0 Flotar en (0,1] Umbral de probabilidad utilizado para el muestreo de núcleos.
top_k null null, lo que significa que no hay límite o un entero mayor que cero Define el número de tokens más probables que se usen para el filtrado top-k. Establezca este valor en 1 para que las salidas sean deterministas.
error_behavior "error" "truncate" o "error" En el caso de los tiempos de espera y los errores superados por la longitud del contexto. Uno de: "truncate" (devolver tantos tokens como sea posible) y "error" (devolver un error). Este parámetro solo lo aceptan los puntos de conexión de pago por token.
n 1 Entero mayor que cero La API devuelve n finalizaciones de chat independientes cuando se especifica n. Se recomienda para cargas de trabajo que generen varias finalizaciones en la misma entrada para obtener una eficiencia de inferencia adicional y ahorro de costos. Solo está disponible para los puntos de conexión de rendimiento aprovisionados.
stop [] Cadena o Lista[String] El modelo deja de generar más tokens cuando se encuentra cualquiera de las secuencias de stop.
suffix "" Cuerda Cadena que se anexa al final de cada finalización.
echo false Booleano Devuelve el símbolo del sistema junto con la finalización.
use_raw_prompt false Booleano Si true, pase el prompt directamente al modelo sin ninguna transformación.

Respuesta completa

Campo Tipo Descripción
id Cuerda Identificador único para la finalización del texto.
choices Opción de Finalización Lista de completaciones de texto. Para cada mensaje pasado, se generan opciones n si se especifica n. El n predeterminado es 1.
object Cuerda Tipo de objeto. Igual a "text_completion"
created Entero Hora en la que se generó la finalización en segundos.
usage Uso Metadatos de uso de tokens.

CompletionChoice

Campo Tipo Descripción
index Entero Índice de la indicación en la solicitud.
text Cuerda Finalización generada.
finish_reason Cuerda Motivo por el que el modelo dejó de generar tokens.

Recursos adicionales