Condividi tramite


Informazioni di riferimento sull'API REST del modello fondamentale

Questo articolo fornisce informazioni generali sulle API per le API di Databricks Foundation Model e i modelli supportati. Le API del modello foundation sono progettate per essere simili all'API REST di OpenAI per semplificare la migrazione di progetti esistenti. Gli endpoint con pagamento in base al token e attraverso il throughput riservato accettano lo stesso formato di richiesta dell'API REST.

Endpoint

L'API del modello di base supporta gli endpoint con pagamento per token e gli endpoint con velocità effettiva provisionata.

Un endpoint preconfigurato è disponibile nell'area di lavoro per ogni modello supportato con pagamento in base al token e gli utenti possono interagire con questi endpoint usando richieste HTTP POST. Vedere Modelli di base supportati in Mosaic AI Model Serving per i modelli supportati.

Gli endpoint con throughput preconfigurato possono essere creati utilizzando l'API o l'interfaccia utente di gestione. Questi endpoint supportano più modelli per endpoint per i test A/B, purché entrambi i modelli serviti espongono lo stesso formato API. Ad esempio, entrambi i modelli sono modelli di chat. Vedere post /api/2.0/serving-endpoints per i parametri di configurazione degli endpoint.

Le richieste e le risposte usano JSON, la struttura JSON esatta dipende dal tipo di attività di un endpoint. Gli endpoint di chat e completamento supportano le risposte in streaming.

Uso

Le risposte includono un usage sottomessaggio che segnala il numero di gettoni nella richiesta e nella risposta. Il formato di questo sotto-messaggio è lo stesso in tutti i tipi di attività.

Campo Digitare Descrizione
completion_tokens Numero intero Numero di token generati. Non incluso nelle risposte di incorporamento.
prompt_tokens Numero intero Numero di token dei prompt di input.
total_tokens Numero intero Numero totale di token.
reasoning_tokens Numero intero Numero di token di pensiero. È applicabile solo ai modelli di ragionamento.

Per modelli come databricks-meta-llama-3-3-70b-instruct, un prompt dell'utente viene convertito usando un template del prompt prima di essere passato al modello. Per gli endpoint con pagamento in base al token, potrebbe essere aggiunta anche una richiesta di sistema. prompt_tokens include tutto il testo aggiunto dal nostro server.

API delle Risposte

Importante

L'API Risposte è compatibile solo con i modelli OpenAI.

L'API Risposte consente conversazioni a più turni con un modello. A differenza dei completamenti della chat, l'API Risposte usa input invece di messages.

Richiesta di risposte API

Campo Impostazione Predefinita Digitare Descrizione
model Stringa Obbligatorio. ID modello usato per generare la risposta.
input String o List[ResponsesInput] Obbligatorio. Input di testo, immagine o file nel modello, usato per generare una risposta. A differenza di messages, questo campo usa input per specificare il contenuto della conversazione.
instructions null Stringa Messaggio di sistema (o sviluppatore) inserito nel contesto del modello.
max_output_tokens null null, ovvero nessun limite o un numero intero maggiore di zero Limite superiore per il numero di token che possono essere generati per una risposta, inclusi i token di output visibili e i token di ragionamento.
temperature 1.0 Valore mobile in [0, 2] Temperatura di campionamento. 0 è deterministico e valori più elevati introducono maggiore casualità.
top_p 1.0 Numero reale in (0,1] Soglia di probabilità utilizzata per il campionamento del nucleo.
stream false Booleano Se impostato su true, i dati di risposta del modello verranno trasmessi al client durante la generazione tramite eventi inviati dal server.
stream_options null StreamOptions Opzioni per le risposte in streaming. Impostare questa opzione solo quando si imposta stream: true.
text null TextConfig Opzioni di configurazione per una risposta di testo dal modello. Può essere un testo normale o dati JSON strutturati.
reasoning null ReasoningConfig Configurazione di ragionamento per i modelli gpt-5 e serie O.
tool_choice "auto" Stringa o ToolChoiceObject Come il modello deve selezionare quale strumento (o strumenti) usare durante la generazione di una risposta. Vedere il tools parametro per informazioni su come specificare gli strumenti che il modello può chiamare.
tools null List[ToolObject] Una matrice di strumenti che il modello può chiamare durante la generazione di una risposta. Nota: l'interprete del codice e gli strumenti di ricerca Web non sono supportati da Databricks.
parallel_tool_calls true Booleano Indica se consentire al modello di eseguire chiamate degli strumenti in parallelo.
max_tool_calls null Intero maggiore di zero Numero massimo di chiamate totali agli strumenti predefiniti che possono essere elaborati in una risposta.
metadata null Oggetto Set di 16 coppie chiave-valore che possono essere collegate a un oggetto.
prompt_cache_key null Stringa Usato per memorizzare nella cache le risposte per richieste simili per ottimizzare la frequenza di riscontri nella cache. Sostituisce il user campo.
prompt_cache_retention null Stringa Criteri di conservazione per la cache dei prompt. Impostare su "24h" per abilitare la memorizzazione estesa dei prompt nella cache, che mantiene attivi i prefissi memorizzati nella cache per più a lungo, fino a un massimo di 24 ore.
safety_identifier null Stringa Identificatore stabile usato per rilevare gli utenti dell'applicazione che potrebbero violare i criteri di utilizzo.
user null Stringa deprecato. In alternativa, usare safety_identifier e prompt_cache_key.
truncation null Stringa Strategia di troncamento da usare per la risposta del modello.
top_logprobs null Numero intero Un numero intero compreso tra 0 e 20 che specifica il numero di token più probabili da restituire in ogni posizione del token, ognuno con una probabilità di log associata.
include null List[String] Specificare dati di output aggiuntivi da includere nella risposta del modello.
prompt null Oggetto Riferimento a un modello di richiesta e alle relative variabili.

Parametri non supportati: i parametri seguenti non sono supportati da Databricks e restituiranno un errore 400 se specificato:

  • background - L'elaborazione in background non è supportata
  • store - Le risposte archiviate non sono supportate
  • conversation - L'API di conversazione non è supportata
  • service_tier - La selezione del livello di servizio è gestita da Databricks

ResponsesInput

Il input campo accetta una stringa o un elenco di oggetti messaggio di input con ruolo e contenuto.

Campo Digitare Descrizione
role Stringa Obbligatorio. Ruolo dell'autore del messaggio. Può essere "user" o "assistant".
content Stringa o Lista[ResponsesContentBlock] Obbligatorio. Contenuto del messaggio, come stringa o matrice di blocchi di contenuto.

ResponsesContentBlock

I blocchi di contenuto definiscono il tipo di contenuto nei messaggi di input e output. Il tipo di blocco di contenuto è determinato dal type campo .

InputText
Campo Digitare Descrizione
type Stringa Obbligatorio. Deve essere "input_text".
text Stringa Obbligatorio. Contenuto del testo.
OutputText
Campo Digitare Descrizione
type Stringa Obbligatorio. Deve essere "output_text".
text Stringa Obbligatorio. Contenuto del testo.
annotations Elenco[Oggetto] Annotazioni facoltative per il contenuto di testo.
InputImage
Campo Digitare Descrizione
type Stringa Obbligatorio. Deve essere "input_image".
image_url Stringa Obbligatorio. URL o URI dati con codifica base64 dell'immagine.
InputFile
Campo Digitare Descrizione
type Stringa Obbligatorio. Deve essere "input_file".
file_id Stringa Identificatore del file se si utilizzano file caricati.
filename Stringa Nome del file.
file_data Stringa URI dei dati con codifica Base64 con prefisso di formato. Ad esempio, i file PDF usano il formato data:application/pdf;base64,<base64 data>.
FunctionCall
Campo Digitare Descrizione
type Stringa Obbligatorio. Deve essere "function_call".
id Stringa Obbligatorio. Identificatore univoco per la chiamata di funzione.
call_id Stringa Obbligatorio. Identificatore di chiamata.
name Stringa Obbligatorio. Nome della funzione chiamata.
arguments Oggetto/Stringa Obbligatorio. Gli argomenti della funzione come oggetto JSON o stringa.
FunctionCallOutput
Campo Digitare Descrizione
type Stringa Obbligatorio. Deve essere "function_call_output".
call_id Stringa Obbligatorio. L'identificatore di chiamata a cui corrisponde l'output.
output Stringa/Oggetto Obbligatorio. Output della funzione in formato di stringa o di oggetto JSON.
CustomToolCall

Restituito nella matrice di risposta output quando viene chiamato uno strumento personalizzato. A differenza delle chiamate di funzione, le chiamate personalizzate degli strumenti restituiscono testo input normale anziché JSON arguments.

Campo Digitare Descrizione
type Stringa Obbligatorio. Deve essere "custom_tool_call".
id Stringa Obbligatorio. Identificatore univoco per questa chiamata personalizzata dello strumento.
call_id Stringa Obbligatorio. Identificatore di chiamata.
name Stringa Obbligatorio. Nome dello strumento personalizzato chiamato.
input Stringa Obbligatorio. Input dello strumento come testo normale (non JSON).
status Stringa Stato della chiamata allo strumento. Uno di: completed, in_progress.
CustomToolCallOutput

Usare questo tipo di input per fornire il risultato di una chiamata personalizzata dello strumento al modello in una conversazione a più turni.

Campo Digitare Descrizione
type Stringa Obbligatorio. Deve essere "custom_tool_call_output".
call_id Stringa Obbligatorio. L'identificatore di chiamata a cui corrisponde l'output.
output Stringa Obbligatorio. L'output dello strumento personalizzato come stringa.

StreamOptions

Configurazione per le risposte di streaming. Si usa soltanto quando stream: true.

Campo Digitare Descrizione
include_usage Booleano Se true, includere le informazioni sull'utilizzo dei token nel flusso. Il valore predefinito è false.

TextConfig

Configurazione per l'output di testo, inclusi gli output strutturati.

Campo Digitare Descrizione
format ResponsesFormatObject Specifica del formato per l'output di testo.

ResponsesFormatObject

Specifica il formato di output per le risposte di testo.

Campo Digitare Descrizione
type Stringa Obbligatorio. Tipo di formato: "text" per testo normale, "json_object" per JSON o "json_schema" per JSON strutturato.
json_schema Oggetto Obbligatorio quando type è "json_schema". Oggetto schema JSON che definisce la struttura dell'output.

L'oggetto json_schema ha la stessa struttura di JsonSchemaObject documentata nell'API Completamento chat.

ReasoningConfig

Configurazione per il comportamento di ragionamento nei modelli di ragionamento (serie o e modelli gpt-5).

Campo Digitare Descrizione
effort Stringa Livello di sforzo di ragionamento: "low", "medium"o "high". Il valore predefinito è "medium".
encrypted_content Stringa Contenuto di ragionamento crittografato per la modalità senza stato. Fornito dal modello nelle risposte precedenti.

ToolObject

Vedi Chiamata di funzioni in Azure Databricks.

Annotazioni

L'API Risposte supporta i tipi di strumenti seguenti: function, custom, mcp, image_generation, shell. Gli strumenti personalizzati e i formati di output basati su grammatica sono disponibili solo con i modelli serie GPT-5 (gpt-5, gpt-5.1, gpt-5.2).

Campo Digitare Descrizione
type Stringa Obbligatorio. Tipo dello strumento. Vedere la nota precedente per i valori supportati.
function FunctionObject Obbligatorio quando type è function. Definizione della funzione associata allo strumento.
name Stringa Obbligatorio quando type è custom. Nome dello strumento personalizzato.
description Stringa Obbligatorio quando type è custom. Descrizione delle operazioni dello strumento personalizzato.
format Customformat Optional. Quando type è custom, specifica il formato di output. Il valore predefinito è {"type": "text"}. Si può usare anche {"type": "grammar", "definition": "<grammar>", "syntax": "lark"} per l'output strutturato. Supportato solo con i modelli serie GPT-5.

CustomToolObject

Gli strumenti personalizzati consentono al modello di restituire output arbitrario di stringhe anziché argomenti di funzione in formato JSON. Ciò è utile per la generazione di codice, l'applicazione di patch o altri casi d'uso in cui json strutturato non è necessario.

Annotazioni

Gli strumenti personalizzati sono supportati solo con i modelli serie GPT-5 (gpt-5, gpt-5.1, gpt-5.2) tramite l'API Risposte.

Esempio di strumento personalizzato:

{
  "type": "custom",
  "name": "code_exec",
  "description": "Executes arbitrary Python code. Return only valid Python code."
}

Esempio di strumento personalizzato con grammatica:

{
  "type": "custom",
  "name": "apply_patch",
  "description": "Apply a patch to create or modify files.",
  "format": {
    "type": "grammar",
    "definition": "start: begin_patch hunk end_patch\nbegin_patch: \"*** Begin Patch\" LF\n...",
    "syntax": "lark"
  }
}

Quando viene chiamato uno strumento personalizzato, la risposta contiene un custom_tool_call elemento di output con testo input normale anziché JSON arguments.

CustomFormat

I formati di output basati sulla grammatica sono supportati solo con i modelli serie GPT-5.

Campo Digitare Descrizione
type Stringa Obbligatorio. Scegli "text" per l'output di testo normale o "grammar" per l'output vincolato alla grammatica.
definition Stringa Obbligatorio quando type è "grammar". Stringa di definizione della grammatica che usa la sintassi Lark.
syntax Stringa Obbligatorio quando type è "grammar". Sintassi grammaticale. Attualmente è supportato solo "lark".

FunctionObject

Campo Digitare Descrizione
name Stringa Obbligatorio. Nome della funzione da chiamare.
description Oggetto Obbligatorio. Descrizione dettagliata della funzione. Il modello usa questa descrizione per comprendere la pertinenza della funzione al prompt e generare le chiamate degli strumenti con un'accuratezza maggiore.
parameters Oggetto I parametri accettati dalla funzione, descritti come uno schema JSON valido oggetto. Se lo strumento viene chiamato, la chiamata allo strumento è adatta allo schema JSON fornito. L'omissione di parametri definisce una funzione senza parametri. Il numero di properties è limitato a 15 chiavi.
strict Booleano Indica se abilitare una rigorosa conformità allo schema durante la generazione della chiamata di funzione. Se impostato su true, il modello segue lo schema esatto definito nel campo dello schema. Solo un subset di schema JSON è supportato quando strict è true

ToolChoiceObject

Vedi Chiamata di funzioni in Azure Databricks.

Campo Digitare Descrizione
type Stringa Obbligatorio. Tipo del strumento da usare per forzare. I valori supportati corrispondono ai tipi di strumento in ToolObject: "function", e "custom"così via.
function Oggetto Obbligatorio quando type è "function". Oggetto del modulo {"name": "my_function"} in cui "my_function" è il nome di un FunctionObject nel tools campo .
name Stringa Obbligatorio quando type è "custom". Nome dello strumento personalizzato da forzare. Supportato solo con i modelli serie GPT-5.

Risposte dell'API di risposta

Per le richieste non in streaming, la risposta è un singolo oggetto risposta. Per le richieste di streaming, la risposta è un text/event-stream, dove ogni evento è un frammento di risposta.

Campo Digitare Descrizione
id Stringa Identificatore univoco per la risposta. Nota: Databricks crittografa questo ID per la sicurezza.
object Stringa Tipo di oggetto. Uguale a "response".
created_at Numero intero Il timestamp Unix (in secondi) quando è stata creata la risposta.
status Stringa Stato della risposta. Uno di: completed, failed, in_progresscancelled, , queuedo incomplete.
model Stringa Versione del modello usata per generare la risposta.
output Lista[ResponsesMessage] Output generato dal modello, che in genere contiene oggetti di messaggio.
usage utilizzo Metadati di utilizzo dei token.
error Error Informazioni sull'errore se la risposta non è riuscita.
incomplete_details DettagliIncompleti Informazioni dettagliate sul motivo per cui la risposta è incompleta, se applicabile.
instructions Stringa Le istruzioni fornite nella richiesta.
max_output_tokens Numero intero Numero massimo di token di output specificato nella richiesta.
temperature Galleggiare Temperatura utilizzata per la generazione.
top_p Galleggiare Valore top_p utilizzato per la generazione.
tools List[ToolObject] Strumenti specificati nella richiesta.
tool_choice Stringa o ToolChoiceObject Impostazione tool_choice dalla richiesta.
parallel_tool_calls Booleano Indica se le chiamate degli strumenti parallele sono state abilitate.
store Booleano Indica se la risposta è stata archiviata.
metadata Oggetto Metadati associati alla risposta.

ResponsesMessage

Oggetti messaggio nel output campo contenente il contenuto della risposta del modello.

Campo Digitare Descrizione
id Stringa Obbligatorio. Identificatore univoco per il messaggio.
role Stringa Obbligatorio. Ruolo del messaggio. "user" o "assistant".
content Lista[ResponsesContentBlock] Obbligatorio. Il contenuto si blocca nel messaggio.
status Stringa Stato dell'elaborazione del messaggio.
type Stringa Obbligatorio. Tipo di oggetto. Uguale a "message".

Error

Informazioni sull'errore in caso di esito negativo di una risposta.

Campo Digitare Descrizione
code Stringa Obbligatorio. Codice di errore.
message Stringa Obbligatorio. Messaggio di errore leggibile.
param Stringa Parametro che ha causato l'errore, se applicabile.
type Stringa Obbligatorio. Tipo di errore.

IncompleteDetails

Dettagli sul motivo per cui una risposta è incompleta.

Campo Digitare Descrizione
reason Stringa Obbligatorio. Motivo per cui la risposta è incompleta.

API di Completamento della Chat

L'API di completamento della chat consente conversazioni a più turni con un modello. La risposta del modello fornisce il prossimo messaggio assistant nella conversazione. Consulta POST /serving-endpoints/{name}/invocazioni per consultare i parametri dell'endpoint.

Richiesta di chat

Campo Impostazione Predefinita Digitare Descrizione
messages elenco di ChatMessage Obbligatorio. Elenco di messaggi che rappresentano la conversazione corrente.
max_tokens null null, ovvero nessun limite o un numero intero maggiore di zero Numero massimo di token da generare.
stream true Booleano Inviare in streaming le risposte a un client per consentire risultati parziali per le richieste. Se questo parametro è incluso nella richiesta, le risposte vengono inviate usando gli eventi inviati dal server standard.
temperature 1.0 Valore mobile in [0, 2] Temperatura di campionamento. 0 è deterministico e valori più elevati introducono maggiore casualità.
top_p 1.0 Numero reale in (0,1] Soglia di probabilità utilizzata per il campionamento del nucleo.
top_k null null, ovvero nessun limite o un numero intero maggiore di zero Definisce il numero di k token più probabili da usare per il filtro top-k. Impostare questo valore su 1 per rendere deterministici gli output.
stop [] Stringa o Lista[String] Il modello smette di generare altri token quando viene rilevata una delle sequenze in stop.
n 1 Intero maggiore di zero L'API restituisce n completamenti di chat indipendenti quando n è specificato. Consigliato per i carichi di lavoro che generano più completamenti sullo stesso input per un'ulteriore efficienza di inferenza e risparmi sui costi. Disponibile solo per gli endpoint a throughput fornito.
tool_choice none Stringa o ToolChoiceObject Utilizzato solo in combinazione con il campo tools. tool_choice supporta un'ampia gamma di stringhe di parole chiave, ad esempio auto, requirede none. auto significa che si consente al modello di decidere quale strumento (se presente) è rilevante per l'uso. Se auto il modello non ritiene che nessuno degli strumenti in tools sia rilevante, il modello genera un messaggio di assistente standard anziché una chiamata allo strumento. required significa che il modello seleziona lo strumento più rilevante in tools e deve generare una chiamata allo strumento. none significa che il modello non genera chiamate agli strumenti e deve invece generare un messaggio di assistente standard. Per forzare una chiamata di strumento con uno strumento specifico definito in tools, usare un ToolChoiceObject. Per impostazione predefinita, se il campo tools è popolato tool_choice = "auto". In caso contrario, il campo tools viene impostato su tool_choice = "none" per impostazione predefinita.
tools null ToolObject Elenco di tools che il modello può chiamare. Attualmente, function è l'unico tipo di tool supportato e sono supportate al massimo 32 funzioni.
response_format null ResponseFormatObject Oggetto che specifica il formato che il modello deve restituire. I tipi accettati sono text, json_schema o json_object
L'impostazione su { "type": "json_schema", "json_schema": {...} } abilita output strutturati che garantisce che il modello segua lo schema JSON fornito.
L'impostazione su { "type": "json_object" } garantisce che le risposte generate dal modello siano JSON valide, ma non garantisce che le risposte seguano uno schema specifico.
logprobs false Booleano Questo parametro indica se fornire il logaritmo della probabilità che un token sia campionato.
top_logprobs null Numero intero Questo parametro controlla il numero di candidati token più probabili per restituire le probabilità logaritmiche a ciascun passaggio di campionamento. Può essere 0-20. logprobs deve essere true se si usa questo campo.
reasoning_effort "medium" Stringa Controlla il livello di ragionamento che il modello deve applicare durante la generazione di risposte. I valori accettati sono "low", "medium"o "high". Un maggiore sforzo di ragionamento può comportare risposte più ponderate e accurate, ma può aumentare la latenza e l'utilizzo dei token. Questo parametro viene accettato solo da un set limitato di modelli, inclusi databricks-gpt-oss-120b e databricks-gpt-oss-20b.

ChatMessage

Campo Digitare Descrizione
role Stringa Obbligatorio. Ruolo dell'autore del messaggio. Può essere "system", "user", "assistant" o "tool".
content Stringa Contenuto del messaggio. Necessario per le attività di chat che non comportano chiamate agli strumenti.
tool_calls Elenco ToolCall Elenco di tool_calls generato dal modello. Deve avere role come "assistant" e nessuna specificazione per il campo content.
tool_call_id Stringa Quando role è "tool", l'ID associato al ToolCall a cui il messaggio risponde. Deve essere vuoto per le altre opzioni di role.

Il ruolo system può essere usato una sola volta, come primo messaggio in una conversazione. Sostituisce il prompt di sistema predefinito del modello.

ToolCall

Suggerimento di un'azione relativa all'uso di uno strumento da parte del modello. Vedi Chiamata di funzioni in Azure Databricks.

Campo Digitare Descrizione
id Stringa Obbligatorio. Identificatore univoco per questo suggerimento di chiamata dello strumento.
type Stringa Obbligatorio. È supportato solo "function".
function FunctionCallCompletion Obbligatorio. Chiamata di funzione suggerita dal modello.
cache_control Stringa Abilita la memorizzazione nella cache per la richiesta. Questo parametro viene accettato solo dai modelli Claude ospitati da Databricks. Per un esempio, vedere Richiedere la memorizzazione nella cache .

FunctionCallCompletion

Campo Digitare Descrizione
name Stringa Obbligatorio. Nome della funzione consigliata dal modello.
arguments Oggetto Obbligatorio. Argomenti per la funzione come dizionario JSON serializzato.

Nota: ToolChoiceObject, ToolObjecte FunctionObject sono definiti nella sezione API Risposte e vengono condivisi tra entrambe le API.

ResponseFormatObject

Vedere output strutturati in Azure Databricks.

Campo Digitare Descrizione
type Stringa Obbligatorio. Tipo di formato di risposta definito. text per il testo non strutturato, json_object per gli oggetti JSON non strutturati o json_schema per gli oggetti JSON aderendo a uno schema specifico.
json_schema JsonSchemaObject Obbligatorio. Schema JSON da rispettare se type è impostato su json_schema

JsonSchemaObject

Vedere output strutturati in Azure Databricks.

Campo Digitare Descrizione
name Stringa Obbligatorio. Nome del formato della risposta.
description Stringa Una descrizione dell'utilizzo del formato di risposta, usata dal modello per determinare come rispondere nel formato.
schema Oggetto Obbligatorio. Schema per il formato di risposta, descritto come oggetto schema JSON.
strict Booleano Indica se abilitare una rigorosa conformità allo schema durante la generazione dell'output. Se impostato su true, il modello segue lo schema esatto definito nel campo dello schema. Solo un subset di schema JSON è supportato quando strict è true

Risposta di chat

Per le richieste non in streaming, la risposta è un singolo oggetto per completare la chat. Per le richieste di streaming, la risposta è un text/event-stream in cui ogni evento è un oggetto blocco di completamento. La struttura di primo livello degli oggetti di completamento e frammenti è quasi identica: l'unica differenza è che choices ha un tipo diverso.

Campo Digitare Descrizione
id Stringa Identificatore univoco per il completamento della chat.
choices Lista[ChatCompletionChoice] o Lista[ChatCompletionChunk] (in streaming) Elenco dei testi di completamento della chat. Vengono restituite le scelte n se il parametro n è specificato.
object Stringa Tipo di oggetto. Uguale a "chat.completions" per non in diretta oppure a "chat.completion.chunk" per lo streaming.
created Numero intero Il tempo in cui è stato generato il completamento della chat, misurato in secondi.
model Stringa Versione del modello usata per generare la risposta.
usage utilizzo Metadati di utilizzo dei token. Potrebbe non essere presente nelle risposte in streaming.

ChatCompletionChoice

Campo Digitare Descrizione
index Numero intero Indice della scelta nell'elenco delle scelte generate.
message MessaggioDiChat Messaggio di completamento della chat restituito dal modello. Il ruolo sarà assistant.
finish_reason Stringa Motivo per cui il modello ha interrotto la generazione di token.
extra_fields Stringa Quando si usano modelli proprietari di provider di modelli esterni, le API del provider possono includere metadati aggiuntivi nelle risposte. Databricks filtra queste risposte e restituisce solo un subset dei campi originali del provider. È safetyRating l'unico campo aggiuntivo supportato in questo momento, vedere la documentazione di Gemini per altri dettagli.

ChatCompletionChunk

Campo Digitare Descrizione
index Numero intero Indice della scelta nell'elenco delle scelte generate.
delta MessaggioDiChat Una parte del messaggio di completamento della chat, facente parte delle risposte generate in streaming dal modello. È garantito che solo il primo blocco sarà popolato con role.
finish_reason Stringa Motivo per cui il modello ha interrotto la generazione di token. Solo l'ultimo blocco sarà popolato.

Embeddings API

Le attività di embedding eseguono il mapping delle stringhe di input in vettori di embedding. Molti input possono essere raggruppati in batch in ogni richiesta. Consulta POST /serving-endpoints/{name}/invocazioni per consultare i parametri dell'endpoint.

Richiesta di incorporamento

Campo Digitare Descrizione
input Stringa o Lista[String] Obbligatorio. Testo di input da incorporare. Può essere una stringa o un elenco di stringhe.
instruction Stringa Istruzione facoltativa da trasmettere al modello di embedding.

Le istruzioni sono facoltative ed estremamente specifiche del modello. Ad esempio, gli autori BGE non consigliano alcuna istruzione durante l'indicizzazione dei blocchi e consigliano l'uso dell'istruzione "Represent this sentence for searching relevant passages:" per le query di recupero. Altri modelli come Instructor-XL supportano un'ampia gamma di stringhe di istruzioni.

Risposta di incorporamento

Campo Digitare Descrizione
id Stringa Identificatore univoco per l'incorporamento.
object Stringa Tipo di oggetto. Uguale a "list".
model Stringa Nome del modello di incorporamento utilizzato per creare l'incorporamento.
data EmbeddingObject Oggetto incorporato.
usage utilizzo Metadati di utilizzo dei token.

EmbeddingObject

Campo Digitare Descrizione
object Stringa Tipo di oggetto. Uguale a "embedding".
index Numero intero Indice dell'incorporamento nell'elenco di incorporamenti generati dal modello.
embedding Lista[Float] Vettore di incorporamento. Ogni modello restituirà un vettore a dimensione fissa (1024 per BGE-Large)

API Completamenti

Le attività di completamento del testo sono per generare risposte a un singolo prompt. A differenza di Chat, questa attività supporta input in batch: più richieste indipendenti possono essere inviate in una sola richiesta. Consulta POST /serving-endpoints/{name}/invocazioni per consultare i parametri dell'endpoint.

Richiesta di completamento

Campo Impostazione Predefinita Digitare Descrizione
prompt Stringa o Lista[String] Obbligatorio. I suggerimenti per il modello.
max_tokens null null, ovvero nessun limite o un numero intero maggiore di zero Numero massimo di token da generare.
stream true Booleano Inviare in streaming le risposte a un client per consentire risultati parziali per le richieste. Se questo parametro è incluso nella richiesta, le risposte vengono inviate usando gli eventi inviati dal server standard.
temperature 1.0 Valore mobile in [0, 2] Temperatura di campionamento. 0 è deterministico e valori più elevati introducono maggiore casualità.
top_p 1.0 Numero reale in (0,1] Soglia di probabilità utilizzata per il campionamento del nucleo.
top_k null null, ovvero nessun limite o un numero intero maggiore di zero Definisce il numero di k token più probabili da usare per il filtro top-k. Impostare questo valore su 1 per rendere deterministici gli output.
error_behavior "error" "truncate" o "error" Per i timeout e gli errori di superamento della lunghezza del contesto. Uno dei seguenti: "truncate" (restituire il maggior numero possibile di token) e "error" (restituisce un errore). Questo parametro viene accettato solo dagli endpoint a pagamento per token.
n 1 Intero maggiore di zero L'API restituisce n completamenti di chat indipendenti quando n è specificato. Consigliato per i carichi di lavoro che generano più completamenti sullo stesso input per un'ulteriore efficienza di inferenza e risparmi sui costi. Disponibile solo per gli endpoint a throughput fornito.
stop [] Stringa o Lista[String] Il modello smette di generare altri token quando viene rilevata una delle sequenze in stop.
suffix "" Stringa Una stringa che viene aggiunta alla fine di ogni completamento.
echo false Booleano Restituisce il prompt insieme al completamento.
use_raw_prompt false Booleano Se true, passa il prompt direttamente nel modello senza alcuna trasformazione.

Risposta di completamento

Campo Digitare Descrizione
id Stringa Identificatore univoco per il completamento del testo.
choices Scelta Completamento Elenco di completamenti di testo. Per ogni richiesta passata, vengono generate n scelte se viene specificato n. Il n predefinito è 1.
object Stringa Tipo di oggetto. Uguale a "text_completion"
created Numero intero Ora di generazione del completamento in secondi.
usage utilizzo Metadati di utilizzo dei token.

CompletionChoice

Campo Digitare Descrizione
index Numero intero Indice del prompt nella richiesta.
text Stringa Completamento generato.
finish_reason Stringa Motivo per cui il modello ha interrotto la generazione di token.

Risorse aggiuntive