Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se proporciona información general sobre la API de Databricks Foundation Model y los modelos que admiten. Las API de Foundation Model están diseñadas para ser similares a la API REST de OpenAI para facilitar la migración de proyectos existentes. Los puntos de conexión de rendimiento de pago por token y aprovisionados aceptan el mismo formato de solicitud de API de REST.
Puntos de conexión
Las APIs de Foundation Model admiten puntos de conexión de pago por token y puntos de conexión de rendimiento estipulado.
Un punto de conexión preconfigurado está disponible en el área de trabajo para cada modelo admitido de pago por token y los usuarios pueden interactuar con estos puntos de conexión mediante solicitudes HTTP POST. Consulte Modelos de base admitidos en Mosaic AI Model Serving para ver los modelos admitidos.
Los puntos de conexión de rendimiento aprovisionados se pueden crear mediante la API o la interfaz de usuario de servicio. Estos puntos de conexión admiten varios modelos por punto de conexión para las pruebas A/B, siempre y cuando ambos modelos servidos expongan el mismo formato de API. Por ejemplo, ambos modelos son modelos de chat. Consulte POST /api/2.0/serving-endpoints para ver los parámetros de configuración del punto de conexión.
Las solicitudes y respuestas usan JSON, la estructura JSON exacta depende del tipo de tarea de un punto de conexión. Los puntos de conexión de chat y finalización admiten respuestas de streaming.
Uso
Las respuestas incluyen un submensaje usage que informa sobre el número de tokens en la solicitud y la respuesta. El formato de este submensaje es el mismo en todos los tipos de tareas.
| Campo | Tipo | Descripción |
|---|---|---|
completion_tokens |
Entero | Número de tokens generados. No se incluye en las respuestas de inserción. |
prompt_tokens |
Entero | Número de tokens del símbolo del sistema de entrada. |
total_tokens |
Entero | Número de tokens totales. |
reasoning_tokens |
Entero | Número de tokens de pensamiento. Solo es aplicable a los modelos de razonamiento. |
Para los modelos como databricks-meta-llama-3-3-70b-instruct, una solicitud de usuario se transforma mediante una plantilla de aviso antes de pasarse al modelo. En el caso de los terminales de pago por token, también se puede agregar un mensaje del sistema.
prompt_tokens incluye todo el texto agregado por nuestro servidor.
API de respuestas
Importante
La API de respuestas solo es compatible con los modelos openAI.
La API de respuestas permite llevar a cabo conversaciones de múltiples vueltas utilizando un modelo. A diferencia de las finalizaciones de chat, la API de respuestas usa input en lugar de messages.
Solicitud de respuestas de la API
| Campo | Predeterminado | Tipo | Descripción |
|---|---|---|---|
model |
Cuerda | Obligatoria. Id. de modelo usado para generar la respuesta. | |
input |
String o List[ResponsesInput] |
Obligatoria. Entradas de texto, imagen o archivo al modelo, usadas para generar una respuesta. A diferencia de messages, este campo usa input para especificar el contenido de la conversación. |
|
instructions |
null |
Cuerda | Mensaje del sistema (o desarrollador) insertado en el contexto del modelo. |
max_output_tokens |
null |
null, lo que significa que no hay límite o un entero mayor que cero |
Límite superior para el número de tokens que se pueden generar para una respuesta, incluidos los tokens de salida visibles y los tokens de razonamiento. |
temperature |
1.0 |
Flotar en [0,2] | Temperatura de muestreo. 0 es determinista y los valores superiores introducen más aleatoriedad. |
top_p |
1.0 |
Flotar en (0,1] | Umbral de probabilidad utilizado para el muestreo de núcleos. |
stream |
false |
Booleano | Si se establece en true, los datos de respuesta del modelo se transmitirán al cliente a medida que se generan mediante eventos enviados por el servidor. |
stream_options |
null |
StreamOptions | Opciones para las respuestas de streaming. Establezca este valor solo cuando defina stream: true. |
text |
null |
TextConfig | Opciones de configuración para una respuesta de texto del modelo. Puede ser texto sin formato o datos JSON estructurados. |
reasoning |
null |
RazonamientoConfig | Configuración de razonamiento para modelos gpt-5 y serie o. |
tool_choice |
"auto" |
Cadena o ToolChoiceObject | Cómo debe seleccionar el modelo qué herramienta (o herramientas) se van a usar al generar una respuesta. Consulte el tools parámetro para ver cómo especificar las herramientas a las que puede llamar el modelo. |
tools |
null |
List[ToolObject] | Una matriz de herramientas que el modelo puede llamar al generar una respuesta. Nota: Databricks no admite el intérprete de código ni las herramientas de búsqueda web. |
parallel_tool_calls |
true |
Booleano | Si se permite que el modelo ejecute llamadas de herramienta en paralelo. |
max_tool_calls |
null |
Entero mayor que cero | Número máximo de llamadas totales a herramientas integradas que se pueden procesar en una respuesta. |
metadata |
null |
Objeto | Conjunto de 16 pares clave-valor que se pueden adjuntar a un objeto. |
prompt_cache_key |
null |
Cuerda | Se usa para almacenar en caché las respuestas de solicitudes similares para optimizar las tasas de aciertos de caché. Reemplaza el user campo. |
prompt_cache_retention |
null |
Cuerda | La directiva de retención de la memoria caché temporal. Establézcalo en "24h" para habilitar el almacenamiento en caché de mensajes extendido, que mantiene activos los prefijos almacenados en caché durante más tiempo, hasta un máximo de 24 horas. |
safety_identifier |
null |
Cuerda | Identificador estable que se usa para ayudar a detectar usuarios de la aplicación que pueden estar infringiendo las directivas de uso. |
user |
null |
Cuerda |
En desuso. Utilice safety_identifier y prompt_cache_key en su lugar. |
truncation |
null |
Cuerda | Estrategia de truncamiento que se va a usar para la respuesta del modelo. |
top_logprobs |
null |
Entero | Entero entre 0 y 20 que especifica el número de tokens más probables que se devolverán en cada posición del token, cada uno con una probabilidad de registro asociada. |
include |
null |
Lista[String] | Especifique datos de salida adicionales que se incluirán en la respuesta del modelo. |
prompt |
null |
Objeto | Referencia a una plantilla de solicitud y sus variables. |
Parámetros no admitidos: Databricks no admite los parámetros siguientes y devolverá un error 400 si se especifica:
-
background- No se admite el procesamiento en segundo plano -
store- No se admiten las respuestas almacenadas. -
conversation- La API de conversación no se admite -
service_tier- Databricks administra la selección del nivel de servicio.
ResponsesInput
El input campo acepta una cadena o una lista de objetos de mensaje de entrada con el rol y el contenido.
| Campo | Tipo | Descripción |
|---|---|---|
role |
Cuerda |
Obligatoria. El rol del autor del mensaje. Puede ser "user" o "assistant". |
content |
Cadena o Lista[ResponsesContentBlock] | Obligatoria. El contenido del mensaje, ya sea como una cadena o matriz de bloques de contenido. |
ResponsesContentBlock
Los bloques de contenido definen el tipo de contenido en los mensajes de entrada y salida. El tipo de bloque de contenido está determinado por el campo type.
InputText
| Campo | Tipo | Descripción |
|---|---|---|
type |
Cuerda |
Obligatoria. Debe ser "input_text". |
text |
Cuerda | Obligatoria. Contenido de texto. |
OutputText
| Campo | Tipo | Descripción |
|---|---|---|
type |
Cuerda |
Obligatoria. Debe ser "output_text". |
text |
Cuerda | Obligatoria. Contenido de texto. |
annotations |
List[Object] | Anotaciones opcionales para el contenido de texto. |
InputImage
| Campo | Tipo | Descripción |
|---|---|---|
type |
Cuerda |
Obligatoria. Debe ser "input_image". |
image_url |
Cuerda | Obligatoria. Dirección URL o URI de datos codificados en base64 de la imagen. |
InputFile
| Campo | Tipo | Descripción |
|---|---|---|
type |
Cuerda |
Obligatoria. Debe ser "input_file". |
file_id |
Cuerda | Identificador de archivo si se usan archivos cargados. |
filename |
Cuerda | El nombre del archivo. |
file_data |
Cuerda | URI de datos codificados en Base64 con prefijo de formato. Por ejemplo, los archivos PDF usan el formato data:application/pdf;base64,<base64 data>. |
FunctionCall
| Campo | Tipo | Descripción |
|---|---|---|
type |
Cuerda |
Obligatoria. Debe ser "function_call". |
id |
Cuerda | Obligatoria. Identificador único de la llamada de función. |
call_id |
Cuerda | Obligatoria. Identificador de llamada. |
name |
Cuerda | Obligatoria. Nombre de la función a la que se llama. |
arguments |
Object/String | Obligatoria. Argumentos de función como objeto JSON o cadena. |
FunctionCallOutput
| Campo | Tipo | Descripción |
|---|---|---|
type |
Cuerda |
Obligatoria. Debe ser "function_call_output". |
call_id |
Cuerda | Obligatoria. Identificador de llamada al que corresponde esta salida. |
output |
String/Object | Obligatoria. Salida de la función como cadena o objeto JSON. |
StreamOptions
Configuración de las respuestas de streaming. Solo se usa con stream: true.
| Campo | Tipo | Descripción |
|---|---|---|
include_usage |
Booleano | Si es verdadero, incluya información sobre el uso de tokens en la secuencia. El valor predeterminado es false. |
TextConfig
Configuración para la salida de texto, incluidas las salidas estructuradas.
| Campo | Tipo | Descripción |
|---|---|---|
format |
ResponsesFormatObject | Especificación de formato para la salida de texto. |
ResponsesFormatObject
Especifica el formato de salida para las respuestas de texto.
| Campo | Tipo | Descripción |
|---|---|---|
type |
Cuerda |
Obligatoria. Tipo de formato: "text" para texto sin formato, "json_object" para JSON o "json_schema" para JSON estructurado. |
json_schema |
Objeto |
Obligatorio cuando type es "json_schema". Objeto de esquema JSON que define la estructura de la salida. |
El json_schema objeto tiene la misma estructura que JsonSchemaObject documentado en la API de finalizaciones de chat.
ReasoningConfig
Configuración para el comportamiento de razonamiento en modelos de razonamiento (modelos de serie o y gpt-5).
| Campo | Tipo | Descripción |
|---|---|---|
effort |
Cuerda | Nivel de esfuerzo de razonamiento: "low", "medium"o "high". El valor predeterminado es "medium". |
encrypted_content |
Cuerda | Contenido de razonamiento cifrado para el modo sin estado. Proporcionado por el modelo en respuestas anteriores. |
ToolObject
Consulte Llamada a funciones en Azure Databricks.
| Campo | Tipo | Descripción |
|---|---|---|
type |
Cuerda |
Obligatoria. Tipo de la herramienta. Actualmente, solo se admite function. |
function |
FunctionObject | Obligatoria. Definición de función asociada a la herramienta. |
FunctionObject
| Campo | Tipo | Descripción |
|---|---|---|
name |
Cuerda | Obligatoria. El nombre de la función que se llamará. |
description |
Objeto | Obligatoria. Descripción detallada de la función. El modelo usa esta descripción para comprender la relevancia de la función en el símbolo del sistema y generar las llamadas a la herramienta con mayor precisión. |
parameters |
Objeto | Los parámetros que acepta la función, que se describen como un objeto de esquema JSON válido. Si se llama a la herramienta, la llamada a la herramienta se ajusta al esquema JSON proporcionado. La omisión de parámetros define una función sin parámetros. El número de properties está limitado a 15 claves. |
strict |
Booleano | Indica si se debe habilitar el cumplimiento estricto del esquema al generar la llamada a la función. Si se establece en true, el modelo sigue el esquema exacto definido en el campo de esquema. Solo se admite un subconjunto del esquema JSON cuando strict es true. |
ToolChoiceObject
Consulte Llamada a funciones en Azure Databricks.
| Campo | Tipo | Descripción |
|---|---|---|
type |
Cuerda |
Obligatoria. Tipo de la herramienta. Actualmente, solo se admite "function". |
function |
Objeto |
Obligatoria. Objeto que define qué herramienta invocar en el formato {"type": "function", "function": {"name": "my_function"}} donde "my_function es el nombre de un FunctionObject dentro del campo tools. |
Respuesta de la API de respuesta
En el caso de las solicitudes que no son de streaming, la respuesta es un único objeto de respuesta. En el caso de las solicitudes de streaming, la respuesta es un text/event-stream en el que cada evento es un fragmento de respuesta.
| Campo | Tipo | Descripción |
|---|---|---|
id |
Cuerda | Identificador único de la respuesta. Nota: Databricks cifra este identificador para la seguridad. |
object |
Cuerda | Tipo de objeto. Igual a "response". |
created_at |
Entero | Marca de tiempo de Unix (en segundos) cuando se creó la respuesta. |
status |
Cuerda | Estado de la respuesta. Uno de: completed, failed, in_progress, cancelled, queuedo incomplete. |
model |
Cuerda | Versión del modelo utilizada para generar la respuesta. |
output |
Lista[ResponsesMessage] | Salida generada por el modelo, que normalmente contiene objetos de mensaje. |
usage |
Uso | Metadatos de uso de tokens. |
error |
Error | Información de error si se produjo un error en la respuesta. |
incomplete_details |
IncompleteDetails | Detalles sobre por qué la respuesta está incompleta, si procede. |
instructions |
Cuerda | Las instrucciones proporcionadas en la solicitud. |
max_output_tokens |
Entero | Los tokens de salida máximos especificados en la solicitud. |
temperature |
Float | Temperatura usada para la generación. |
top_p |
Float | Valor de top_p usado para la generación. |
tools |
List[ToolObject] | Herramientas especificadas en la solicitud. |
tool_choice |
Cadena o ToolChoiceObject | El parámetro tool_choice de la solicitud. |
parallel_tool_calls |
Booleano | Indica si se habilitaron las llamadas a herramientas paralelas. |
store |
Booleano | Si se almacenó la respuesta. |
metadata |
Objeto | Metadatos adjuntos a la respuesta. |
ResponsesMessage
Objetos de mensaje en el output campo que contiene el contenido de respuesta del modelo.
| Campo | Tipo | Descripción |
|---|---|---|
id |
Cuerda | Obligatoria. Identificador único del mensaje. |
role |
Cuerda |
Obligatoria. Rol del mensaje.
"user" o "assistant". |
content |
Lista[ResponsesContentBlock] | Obligatoria. Los bloques de contenido en el mensaje. |
status |
Cuerda | Estado del procesamiento del mensaje. |
type |
Cuerda |
Obligatoria. Tipo de objeto. Igual a "message". |
Error
Información de error cuando se produce un error en una respuesta.
| Campo | Tipo | Descripción |
|---|---|---|
code |
Cuerda | Obligatoria. Código de error. |
message |
Cuerda | Obligatoria. Mensaje de error legible. |
param |
Cuerda | Parámetro que provocó el error, si procede. |
type |
Cuerda | Obligatoria. Tipo de error. |
IncompleteDetails
Detalles sobre por qué una respuesta está incompleta.
| Campo | Tipo | Descripción |
|---|---|---|
reason |
Cuerda | Obligatoria. La razón por la que la respuesta está incompleta. |
API de finalizaciones de chat
La API de finalizaciones de chat permite mantener conversaciones de múltiples interacciones con un modelo. La respuesta del modelo proporciona el siguiente mensaje assistant en la conversación. Consulte POST /serving-endpoints/{name}/invocations para consultar los parámetros del punto de conexión.
Solicitud de chat
| Campo | Predeterminado | Tipo | Descripción |
|---|---|---|---|
messages |
Lista ChatMessage | Obligatoria. Lista de mensajes que representan la conversación actual. | |
max_tokens |
null |
null, lo que significa que no hay límite o un entero mayor que cero |
Número máximo de tokens que se van a generar. |
stream |
true |
Booleano | Transmita las respuestas a un cliente para permitir resultados parciales para las solicitudes. Si este parámetro se incluye en la solicitud, las respuestas se envían mediante el estándar de eventos enviados por el servidor. |
temperature |
1.0 |
Flotar en [0,2] | Temperatura de muestreo. 0 es determinista y los valores superiores introducen más aleatoriedad. |
top_p |
1.0 |
Flotar en (0,1] | Umbral de probabilidad utilizado para el muestreo de núcleos. |
top_k |
null |
null, lo que significa que no hay límite o un entero mayor que cero |
Define el número de tokens más probables que se usen para el filtrado top-k. Establezca este valor en 1 para que las salidas sean deterministas. |
stop |
[] | Cadena o Lista[String] | El modelo deja de generar más tokens cuando se encuentra cualquiera de las secuencias de stop. |
n |
1 | Entero mayor que cero | La API devuelve n finalizaciones de chat independientes cuando se especifica n. Se recomienda para cargas de trabajo que generen varias finalizaciones en la misma entrada para obtener una eficiencia de inferencia adicional y ahorro de costos. Solo está disponible para los puntos de conexión de rendimiento aprovisionados. |
tool_choice |
none |
Cadena o ToolChoiceObject | Solo se usa junto con el campo tools.
tool_choice admite una variedad de cadenas de palabras clave, como auto, requiredy none.
auto significa que permite que el modelo decida qué herramienta (si existe) es relevante para su uso. Con auto si el modelo no cree que ninguna de las herramientas de tools son relevantes, el modelo genera un mensaje de asistente estándar en lugar de una llamada a herramienta.
required significa que el modelo selecciona la herramienta más relevante en tools y debe generar una llamada de herramienta.
none significa que el modelo no genera ninguna llamada de herramienta y, en su lugar, debe generar un mensaje de asistente estándar. Para forzar una llamada de herramienta con una herramienta específica definida en tools, use un ToolChoiceObject. De manera predeterminada, si el campo tools está relleno tool_choice = "auto". En caso contrario, el campo tools tiene como valor predeterminado tool_choice = "none" |
tools |
null |
ToolObject | Lista de tools que el modelo puede llamar. Actualmente, function es el único tipo de tool admitido y se admite un máximo de 32 funciones. |
response_format |
null |
ResponseFormatObject | Objeto que especifica el formato que debe generar el modelo. Los tipos aceptados son text, json_schema o json_objectAl establecer en { "type": "json_schema", "json_schema": {...} } se habilitan salidas estructuradas que garantizan que el modelo siga el esquema JSON proporcionado.Establecer en { "type": "json_object" } garantiza que las respuestas que genera el modelo sean JSON válidas, pero no garantiza que las respuestas sigan un esquema específico. |
logprobs |
false |
Booleano | Este parámetro indica si se debe proporcionar la probabilidad logarítmica de un token al ser muestreado. |
top_logprobs |
null |
Entero | Este parámetro controla el número de candidatos de token más probables para los cuales devolver probabilidades logarítmicas en cada paso de muestreo. Puede ser de 0 a 20.
logprobs debe ser true si se usa este campo. |
reasoning_effort |
"medium" |
Cuerda | Controla el nivel de esfuerzo de razonamiento que el modelo debe aplicar al generar respuestas. Los valores aceptados son "low", "medium"o "high". Un mayor esfuerzo de razonamiento puede dar lugar a respuestas más cuidadosas y precisas, pero puede aumentar la latencia y el uso de tokens. Este parámetro solo es aceptado por un conjunto limitado de modelos, incluidos databricks-gpt-oss-120b y databricks-gpt-oss-20b. |
ChatMessage
| Campo | Tipo | Descripción |
|---|---|---|
role |
Cuerda |
Obligatoria. Rol del autor del mensaje. Puede ser "system", "user", "assistant" o "tool". |
content |
Cuerda | Contenido del mensaje. Necesario para las tareas de chat que no implican llamadas a una herramienta. |
tool_calls |
Lista de ToolCall | La lista de tool_calls que generó el modelo. Debe tener role como "assistant" y ninguna especificación para el campo content. |
tool_call_id |
Cuerda | Cuando role es "tool", el identificador asociado al ToolCall al cual el mensaje está respondiendo. Debe estar vacío para otras opciones role. |
El rol system solo se puede usar una vez, como primer mensaje de una conversación. Invalida el mensaje del sistema predeterminado del modelo.
ToolCall
Sugerencia de acción de llamada a una herramienta por el modelo. Consulte Llamada a funciones en Azure Databricks.
| Campo | Tipo | Descripción |
|---|---|---|
id |
Cuerda | Obligatoria. Identificador único para esta sugerencia de llamada a una herramienta. |
type |
Cuerda |
Obligatoria. Solo "function" es compatible. |
function |
FinalizaciónDeLlamadaDeFunción | Obligatoria. Una llamada a una función sugerida por el modelo. |
cache_control |
Cuerda | Habilita el almacenamiento en caché para tu solicitud. Los modelos de Claude hospedados en Databricks solo aceptan este parámetro. Consulte Almacenamiento en caché de mensajes para obtener un ejemplo. |
FunctionCallCompletion
| Campo | Tipo | Descripción |
|---|---|---|
name |
Cuerda | Obligatorio. Nombre de la función recomendada por el modelo. |
arguments |
Objeto | Obligatorio. Argumentos para la función como un diccionario JSON serializado. |
Nota: ToolChoiceObject, ToolObjecty FunctionObject se definen en la sección Api de respuestas y se comparten entre ambas API.
ResponseFormatObject
Consulte Resultados estructurados en Azure Databricks.
| Campo | Tipo | Descripción |
|---|---|---|
type |
Cuerda |
Obligatoria. Tipo de formato de respuesta que se va a definir. Ya sea text para texto no estructurado, json_object para objetos JSON no estructurados o json_schema para objetos JSON que se adhieren a un esquema específico. |
json_schema |
JsonSchemaObject |
Obligatoria. El esquema JSON al que se debe cumplir si type está establecido en json_schema |
JsonSchemaObject
Consulte Resultados estructurados en Azure Databricks.
| Campo | Tipo | Descripción |
|---|---|---|
name |
Cuerda | Obligatoria. Nombre del formato de respuesta. |
description |
Cuerda | Descripción del formato de respuesta que usa el modelo para determinar cómo responder en el formato. |
schema |
Objeto | Obligatoria. Esquema para el formato de respuesta, descrito como un objeto de esquema JSON. |
strict |
Booleano | Indica si se debe habilitar la adhesión estricta al esquema al generar la salida. Si se establece en true, el modelo sigue el esquema exacto definido en el campo de esquema. Solo se admite un subconjunto del esquema JSON cuando strict es true. |
Respuesta de chat
En el caso de las solicitudes que no son de streaming, la respuesta es un único objeto de finalización de chat. En el caso de las solicitudes de streaming, la respuesta es un text/event-stream objeto donde cada evento es un objeto de fragmento de finalización. La estructura de nivel superior de los objetos de finalización y fragmento es casi idéntica: solo choices tiene un tipo diferente.
| Campo | Tipo | Descripción |
|---|---|---|
id |
Cuerda | Identificador único para la finalización del chat. |
choices |
List[ChatCompletionChoice] o List[ChatCompletionChunk] (streaming) | Lista de textos de finalización de chat. Se devuelven opciones n si se especifica el parámetro n. |
object |
Cuerda | Tipo de objeto. Igual a "chat.completions" para no streaming o "chat.completion.chunk" para streaming. |
created |
Entero | Hora UTC en la que se generó la finalización del chat en segundos. |
model |
Cuerda | Versión del modelo utilizada para generar la respuesta. |
usage |
Uso | Metadatos de uso de tokens. Es posible que no esté presente en las respuestas de streaming. |
ChatCompletionChoice
| Campo | Tipo | Descripción |
|---|---|---|
index |
Entero | Índice de la elección en la lista de opciones generadas. |
message |
ChatMessage | Mensaje de finalización del chat devuelto por el modelo. El rol será assistant. |
finish_reason |
Cuerda | Motivo por el que el modelo dejó de generar tokens. |
extra_fields |
Cuerda | Al usar modelos propietarios de proveedores de modelos externos, las API del proveedor pueden incluir metadatos adicionales en las respuestas. Databricks filtra estas respuestas y devuelve solo un subconjunto de los campos originales del proveedor.
safetyRating es el único campo adicional admitido en este momento, consulte la documentación de Gemini para obtener más detalles. |
ChatCompletionChunk
| Campo | Tipo | Descripción |
|---|---|---|
index |
Entero | Índice de la elección en la lista de opciones generadas. |
delta |
ChatMessage | Una parte del mensaje de finalización del chat de las respuestas generadas transmitidos desde el modelo. Solo se garantiza que el primer fragmento se haya role rellenado. |
finish_reason |
Cuerda | Motivo por el que el modelo dejó de generar tokens. Solo el último fragmento se rellenará. |
API de inserción
Las tareas de incrustación asignan cadenas de entrada en vectores de inserción. Se pueden agrupar muchas entradas en cada solicitud. Consulte POST /serving-endpoints/{name}/invocations para consultar los parámetros del punto de conexión.
Inserción de la solicitud
| Campo | Tipo | Descripción |
|---|---|---|
input |
Cadena o Lista[String] | Obligatoria. Texto de entrada que se va a insertar. Puede ser una cadena o una lista de cadenas. |
instruction |
Cuerda | Una instrucción opcional para pasar al modelo de embedding. |
Las instrucciones son opcionales y muy específicas del modelo. Por ejemplo, los autores de BGE no recomiendan ninguna instrucción al indexar fragmentos y recomendar el uso de la instrucción "Represent this sentence for searching relevant passages:" para las consultas de recuperación. Otros modelos como Instructor-XL admiten una amplia gama de cadenas de instrucción.
Respuesta de inserción
| Campo | Tipo | Descripción |
|---|---|---|
id |
Cuerda | Identificador único para la inserción. |
object |
Cuerda | Tipo de objeto. Igual a "list". |
model |
Cuerda | Nombre del modelo de inserción que se usa para crear la inserción. |
data |
ObjetoDeIncrustación | Objeto de inserción. |
usage |
Uso | Metadatos de uso de tokens. |
EmbeddingObject
| Campo | Tipo | Descripción |
|---|---|---|
object |
Cuerda | Tipo de objeto. Igual a "embedding". |
index |
Entero | Índice de la inserción en la lista de incrustaciones generadas por el modelo. |
embedding |
Lista[Flotante] | Vector de inserción. Cada modelo devolverá un vector de tamaño fijo (1024 para BGE-Large) |
API de finalizaciones
Las tareas de finalización de texto son para generar respuestas a un único mensaje. A diferencia de Chat, esta tarea admite entradas por lotes: se pueden enviar varias solicitudes independientes en una solicitud. Consulte POST /serving-endpoints/{name}/invocations para consultar los parámetros del punto de conexión.
Solicitud de finalización
| Campo | Predeterminado | Tipo | Descripción |
|---|---|---|---|
prompt |
Cadena o Lista[String] | Obligatoria. Las indicaciones para el modelo. | |
max_tokens |
null |
null, lo que significa que no hay límite o un entero mayor que cero |
Número máximo de tokens que se van a generar. |
stream |
true |
Booleano | Transmita las respuestas a un cliente para permitir resultados parciales para las solicitudes. Si este parámetro se incluye en la solicitud, las respuestas se envían mediante el estándar de eventos enviados por el servidor. |
temperature |
1.0 |
Flotar en [0,2] | Temperatura de muestreo. 0 es determinista y los valores superiores introducen más aleatoriedad. |
top_p |
1.0 |
Flotar en (0,1] | Umbral de probabilidad utilizado para el muestreo de núcleos. |
top_k |
null |
null, lo que significa que no hay límite o un entero mayor que cero |
Define el número de tokens más probables que se usen para el filtrado top-k. Establezca este valor en 1 para que las salidas sean deterministas. |
error_behavior |
"error" |
"truncate" o "error" |
En el caso de los tiempos de espera y los errores superados por la longitud del contexto. Uno de: "truncate" (devolver tantos tokens como sea posible) y "error" (devolver un error). Este parámetro solo lo aceptan los puntos de conexión de pago por token. |
n |
1 | Entero mayor que cero | La API devuelve n finalizaciones de chat independientes cuando se especifica n. Se recomienda para cargas de trabajo que generen varias finalizaciones en la misma entrada para obtener una eficiencia de inferencia adicional y ahorro de costos. Solo está disponible para los puntos de conexión de rendimiento aprovisionados. |
stop |
[] | Cadena o Lista[String] | El modelo deja de generar más tokens cuando se encuentra cualquiera de las secuencias de stop. |
suffix |
"" |
Cuerda | Cadena que se anexa al final de cada finalización. |
echo |
false |
Booleano | Devuelve el símbolo del sistema junto con la finalización. |
use_raw_prompt |
false |
Booleano | Si true, pase el prompt directamente al modelo sin ninguna transformación. |
Respuesta completa
| Campo | Tipo | Descripción |
|---|---|---|
id |
Cuerda | Identificador único para la finalización del texto. |
choices |
Opción de Finalización | Lista de completaciones de texto. Para cada mensaje pasado, se generan opciones n si se especifica n. El n predeterminado es 1. |
object |
Cuerda | Tipo de objeto. Igual a "text_completion" |
created |
Entero | Hora en la que se generó la finalización en segundos. |
usage |
Uso | Metadatos de uso de tokens. |
CompletionChoice
| Campo | Tipo | Descripción |
|---|---|---|
index |
Entero | Índice de la indicación en la solicitud. |
text |
Cuerda | Finalización generada. |
finish_reason |
Cuerda | Motivo por el que el modelo dejó de generar tokens. |