Condividi tramite


Riferimento: Completamenti della chat | Azure Machine Learning

Crea una risposta del modello per la conversazione di chat specificata.

POST /chat/completions?api-version=2024-04-01-preview

Parametri dell'URI

Nome Tra Richiesto Type Descrizione
api-version query Vero string Versione dell'API nel formato "AAAA-MM-GG" o "AAAA-MM-GG-preview".

Intestazione richiesta

Nome Obbligatorio Type Descrizione
parametri aggiuntivi string Il comportamento dell'API quando vengono indicati parametri extra nel payload. L'utilizzo di pass-through consente all'API di passare il parametro al modello sottostante. Usare questo valore quando si desidera passare i parametri che è noto che il modello sottostante possa supportare. L'utilizzo di ignore fa in modo che l'API elimini qualsiasi parametro non supportato. Usare questo valore quando è necessario usare lo stesso payload in modelli diversi, ma uno dei parametri extra può restituire un errore per un modello, se non supportato. L'utilizzo di error fa in modo che l'API rifiuti qualsiasi parametro extra nel payload. Possono essere indicati solo i parametri specificati in questa API. In caso contrario, verrà restituito un errore 400.
azureml-model-deployment string Nome della distribuzione a cui si desidera instradare la richiesta. Supportato per gli endpoint che supportano più distribuzioni.

Corpo della richiesta

Nome Obbligatorio Type Descrizione
messages Vero ChatCompletionRequestMessage Elenco di messaggi che comprendono la conversazione effettuata finora. Restituisce un errore 422 se almeno alcuni dei messaggi non possono essere riconosciuti dal modello.
frequency_penalty number Consente di evitare ripetizioni di parole riducendo la possibilità di selezionare una parola se è già stata usata. Maggiore è la penalità della frequenza, minore è la probabilità che il modello ripeta le stesse parole nell'output. Restituisce un errore 422 se il valore o il parametro non è supportato dal modello.
max_tokens integer Numero massimo di token che possono essere generati al momento del completamento della chat.

La lunghezza totale dei token di input e dei token generati è limitata dalla lunghezza del contesto del modello. Se si passa Null, il modello usa la lunghezza massima del contesto.
presence_penalty number Aiuta a impedire che vengano ripetuti gli stessi argomenti penalizzando una parola se esiste già nel completamento, anche una sola volta. Restituisce un errore 422 se il valore o il parametro non è supportato dal modello.
response_format ChatCompletionResponseFormat
seed integer Se specificato, il sistema effettuerà tutti i tentativi possibili per eseguire il campionamento in modo deterministico, in modo che le richieste ripetute con gli stessi seed e parametri restituiscano lo stesso risultato. Il determinismo non è garantito ed è necessario fare riferimento al parametro di risposta system_fingerprint per monitorare le modifiche nel back-end.
stop Sequenze in cui l'API smetterà di generare altri token.
stream boolean Se impostato, verranno inviati delta di messaggi parziali. I token verranno inviati come eventi inviati dal server di soli dati man mano che diventano disponibili, con il flusso terminato da un messaggio data: [DONE].
temperatura number Numero non negativo. Restituisce 422 se il valore non è supportato dal modello.
tool_choice ChatCompletionToolChoiceOption Controlla quale funzione (se presente) viene chiamata dal modello. none indica che il modello non chiamerà una funzione e genererà invece un messaggio. auto indica che il modello può scegliere tra la generazione di un messaggio o la chiamata di una funzione. Se si specifica una funzione specifica tramite {"type": "function", "function": {"name": "my_function"}}, impone al modello a chiamare tale funzione.

none è l'impostazione predefinita quando non sono presenti funzioni. auto è l'impostazione predefinita se sono presenti funzioni. Restituisce un errore 422 se lo strumento non è supportato dal modello.
tools ChatCompletionTool[] Elenco di strumenti che il modello può chiamare. Attualmente, solo le funzioni sono supportate come strumento. Usare questa opzione per fornire un elenco di funzioni per cui il modello può generare input JSON. Restituisce un errore 422 se lo strumento non è supportato dal modello.
top_p number Un'alternativa al campionamento con temperatura, denominata campionamento del nucleo, in cui il modello considera i risultati dei token con massa di probabilità top_p. Quindi 0,1 significa che vengono considerati solo i token che comprendono la massa di probabilità superiore del 10%.

In genere si consiglia di modificare questo valore o temperature ma non entrambi.

Risposte

Nome Tipo Descrizione
200 OK CreateChatCompletionResponse Ok
401 - Non autorizzato UnauthorizedError Token di accesso mancante o non valido

Intestazioni

x-ms-error-code: string
404 Not Found NotFoundError Modalità non supportata dal modello. Controllare la documentazione del modello per verificare quali route sono disponibili.

Intestazioni

x-ms-error-code: string
422 - Entità non elaborabile UnprocessableContentError La richiesta contiene contenuto non elaborabile

Intestazioni

x-ms-error-code: string
429 Troppe richieste TooManyRequestsError È stato raggiunto il limite di frequenza assegnato e la richiesta deve essere gestita.

Intestazioni

x-ms-error-code: string
Altri codici di stato ContentFilterError Richiesta non valida

Intestazioni

x-ms-error-code: string

Sicurezza

Autorizzazione

Token con il prefisso Bearer:, ad esempio Bearer abcde12345

Tipo: apiKey
In: intestazione

AADToken

Autenticazione OAuth2 di Azure Active Directory

Tipo: oauth2
Flusso: applicazione
URL del token: https://login.microsoftonline.com/common/oauth2/v2.0/token

Esempi

Crea una risposta del modello per la conversazione chat specificata

Richiesta di esempio

POST /chat/completions?api-version=2024-04-01-preview

{
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant"
    },
    {
      "role": "user",
      "content": "Explain Riemann's conjecture"
    },
    {
      "role": "assistant",
      "content": "The Riemann Conjecture is a deep mathematical conjecture around prime numbers and how they can be predicted. It was first published in Riemann's groundbreaking 1859 paper. The conjecture states that the Riemann zeta function has its zeros only at the negative even integers and complex numbers with real part 1/21. Many consider it to be the most important unsolved problem in pure mathematics. The Riemann hypothesis is a way to predict the probability that numbers in a certain range are prime that was also devised by German mathematician Bernhard Riemann in 18594."
    },
    {
      "role": "user",
      "content": "Ist it proved?"
    }
  ],
  "frequency_penalty": 0,
  "presence_penalty": 0,
  "max_tokens": 256,
  "seed": 42,
  "stop": "<|endoftext|>",
  "stream": false,
  "temperature": 0,
  "top_p": 1,
  "response_format": { "type": "text" }
}

Risposta di esempio

Codice di stato: 200

{
  "id": "1234567890",
  "model": "llama2-70b-chat",
  "choices": [
    {
      "index": 0,
      "finish_reason": "stop",
      "message": {
        "role": "assistant",
        "content": "No, it has never been proved"
      }
    }
  ],
  "created": 1234567890,
  "object": "chat.completion",
  "usage": {
    "prompt_tokens": 205,
    "completion_tokens": 5,
    "total_tokens": 210
  }
}

Definizioni

Nome Descrizione
ChatCompletionRequestMessage
ChatCompletionMessageContentPart
ChatCompletionMessageContentPartType
ChatCompletionToolChoiceOption Controlla quale funzione (se presente) viene chiamata dal modello. none indica che il modello non chiamerà una funzione e genererà invece un messaggio. auto indica che il modello può scegliere tra la generazione di un messaggio o la chiamata di una funzione. Se si specifica una funzione specifica tramite {"type": "function", "function": {"name": "my_function"}}, impone al modello a chiamare tale funzione.

none è l'impostazione predefinita quando non sono presenti funzioni. auto è l'impostazione predefinita se sono presenti funzioni. Restituisce un errore 422 se lo strumento non è supportato dal modello.
ChatCompletionFinishReason Motivo per cui il modello ha interrotto la generazione di token. Sarà stop se il modello raggiunge un punto di arresto naturale o la sequenza di arresto specificata, length se è stato raggiunto il numero massimo di token specificati nella richiesta, content_filter se il contenuto è stato omesso a causa di un flag dai filtri del contenuto, tool_calls se il modello ha chiamato uno strumento.
ChatCompletionMessageToolCall
ChatCompletionObject Il tipo di oggetto, che è sempre chat.completion.
ChatCompletionResponseFormat Formato di risposta per la risposta del modello. L'impostazione su json_object abilita la modalità JSON, che garantisce che il messaggio generato dal modello sia JSON valido. Quando si usa la modalità JSON, è necessario anche indicare al modello di produrre JSON manualmente tramite un messaggio di sistema o utente. Si noti anche che il contenuto del messaggio può essere parzialmente tagliato se finish_reason="length", che indica che la generazione ha superato max_tokens o la conversazione ha superato la lunghezza massima del contesto.
ChatCompletionResponseFormatType Tipo di formato della risposta.
ChatCompletionResponseMessage Messaggio di completamento della chat generato dal modello.
ChatCompletionTool
ChatMessageRole Ruolo dell'autore del messaggio.
Choices Elenco di scelte di completamento della chat.
CompletionUsage Statistiche di utilizzo per la richiesta di completamento.
ContentFilterError La chiamata API ha esito negativo quando la richiesta attiva un filtro di contenuto come configurato. Modificare il prompt e riprovare.
CreateChatCompletionRequest
CreateChatCompletionResponse Rappresenta una risposta di completamento della chat restituita dal modello, in base all'input fornito.
Detail Dettagli dell'errore UnprocessableContentError.
Funzione Funzione chiamata dal modello.
FunctionObject Definizione di una funzione a cui il modello ha accesso.
ImageDetail Specifica il livello di dettaglio dell'immagine.
NotFoundError Il percorso non è valido per il modello distribuito.
ToolType Tipo dello strumento. Attualmente è supportato solo function.
TooManyRequestsError È stato raggiunto il limite di frequenza assegnato e le richieste devono essere gestite.
UnauthorizedError Autenticazione mancante o non valida.
UnprocessableContentError La richiesta presenta contenuti non elaborabili. L'errore viene restituito quando il payload indicato è valido in base a questa specifica. Tuttavia, alcune istruzioni indicate nel payload non sono supportate dal modello sottostante. Usare la sezione details per comprendere il parametro all'origine dell'errore.

ChatCompletionFinishReason

Motivo per cui il modello ha interrotto la generazione di token. Sarà stop se il modello raggiunge un punto di arresto naturale o la sequenza di arresto specificata, length se è stato raggiunto il numero massimo di token specificati nella richiesta, content_filter se il contenuto è stato omesso a causa di un flag dai filtri del contenuto, tool_calls se il modello ha chiamato uno strumento.

Nome Tipo Descrizione
content_filter string
length string
stop string
tool_calls string

ChatCompletionMessageToolCall

Nome Tipo Descrizione
function Funzione Funzione chiamata dal modello.
ID string ID della chiamata allo strumento.
type ToolType Tipo dello strumento. Attualmente è supportato solo function.

ChatCompletionObject

Il tipo di oggetto, che è sempre chat.completion.

Nome Tipo Descrizione
chat.completion string

ChatCompletionResponseFormat

Formato di risposta per la risposta del modello. L'impostazione su json_object abilita la modalità JSON, che garantisce che il messaggio generato dal modello sia JSON valido. Quando si usa la modalità JSON, è necessario anche indicare al modello di produrre JSON manualmente tramite un messaggio di sistema o utente. Si noti anche che il contenuto del messaggio può essere parzialmente tagliato se finish_reason="length", che indica che la generazione ha superato max_tokens o la conversazione ha superato la lunghezza massima del contesto.

Nome Tipo Descrizione
type ChatCompletionResponseFormatType Tipo di formato della risposta.

ChatCompletionResponseFormatType

Tipo di formato della risposta.

Nome Tipo Descrizione
json_object string
Testo string

ChatCompletionResponseMessage

Messaggio di completamento della chat generato dal modello.

Nome Tipo Descrizione
content string Contenuto del messaggio.
ruolo ChatMessageRole Ruolo dell'autore del messaggio.
tool_calls ChatCompletionMessageToolCall[] Le chiamate degli strumenti generate dal modello, ad esempio le chiamate di funzioni.

ChatCompletionTool

Nome Tipo Descrizione
function FunctionObject
type ToolType Tipo dello strumento. Attualmente è supportato solo function.

ChatMessageRole

Ruolo dell'autore del messaggio.

Nome Tipo Descrizione
assistant string
operativo string
strumento string
utente string

Scelte

Elenco di scelte di completamento della chat. Può essere maggiore di uno se n è maggiore di 1.

Nome Tipo Descrizione
finish_reason ChatCompletionFinishReason Motivo per cui il modello ha interrotto la generazione di token. Sarà stop se il modello raggiunge un punto di arresto naturale o la sequenza di arresto specificata, length se è stato raggiunto il numero massimo di token specificati nella richiesta, content_filter se il contenuto è stato omesso a causa di un flag dai filtri del contenuto, tool_calls se il modello ha chiamato uno strumento.
index integer Indice della scelta nell'elenco di scelte.
messaggio ChatCompletionResponseMessage Messaggio di completamento della chat generato dal modello.

CompletionUsage

Statistiche di utilizzo per la richiesta di completamento.

Nome Tipo Descrizione
completion_tokens integer Numero di token nel completamento generato.
prompt_tokens integer Numero di token nel prompt.
total_tokens integer Numero totale di token usati nella richiesta (prompt + completamento).

ContentFilterError

La chiamata API ha esito negativo quando la richiesta attiva un filtro di contenuto come configurato. Modificare il prompt e riprovare.

Nome Tipo Descrizione
codice string Codice errore.
Errore string Descrizione dell'errore.
messaggio string Messaggio di errore.
param string Il parametro che ha attivato il filtro contenuto.
stato integer Codice di stato HTTP.

CreateChatCompletionRequest

Nome Type Valore predefinito Descrizione
frequency_penalty number 0 Consente di evitare ripetizioni di parole riducendo la possibilità di selezionare una parola se è già stata usata. Maggiore è la penalità della frequenza, minore è la probabilità che il modello ripeta le stesse parole nell'output. Restituisce un errore 422 se il valore o il parametro non è supportato dal modello.
max_tokens integer Numero massimo di token che possono essere generati al momento del completamento della chat.

La lunghezza totale dei token di input e dei token generati è limitata dalla lunghezza del contesto del modello. Se si passa Null, il modello usa la lunghezza massima del contesto.
messages ChatCompletionRequestMessage[] Elenco di messaggi che comprendono la conversazione effettuata finora. Restituisce un errore 422 se almeno alcuni dei messaggi non possono essere riconosciuti dal modello.
presence_penalty number 0 Aiuta a impedire che vengano ripetuti gli stessi argomenti penalizzando una parola se esiste già nel completamento, anche una sola volta. Restituisce un errore 422 se il valore o il parametro non è supportato dal modello.
response_format ChatCompletionResponseFormat Testo
seed integer Se specificato, il sistema effettuerà tutti i tentativi possibili per eseguire il campionamento in modo deterministico, in modo che le richieste ripetute con gli stessi seed e parametri restituiscano lo stesso risultato. Il determinismo non è garantito ed è necessario fare riferimento al parametro di risposta system_fingerprint per monitorare le modifiche nel back-end.
stop Sequenze in cui l'API smetterà di generare altri token.
stream boolean Falso Se impostato, verranno inviati delta di messaggi parziali. I token verranno inviati come eventi inviati dal server di soli dati man mano che diventano disponibili, con il flusso terminato da un messaggio data: [DONE].
temperatura number 1 Numero non negativo. Restituisce 422 se il valore non è supportato dal modello.
tool_choice ChatCompletionToolChoiceOption Controlla quale funzione (se presente) viene chiamata dal modello. none indica che il modello non chiamerà una funzione e genererà invece un messaggio. auto indica che il modello può scegliere tra la generazione di un messaggio o la chiamata di una funzione. Se si specifica una funzione specifica tramite {"type": "function", "function": {"name": "my_function"}}, impone al modello a chiamare tale funzione.

none è l'impostazione predefinita quando non sono presenti funzioni. auto è l'impostazione predefinita se sono presenti funzioni. Restituisce un errore 422 se lo strumento non è supportato dal modello.
tools ChatCompletionTool[] Elenco di strumenti che il modello può chiamare. Attualmente, solo le funzioni sono supportate come strumento. Usare questa opzione per fornire un elenco di funzioni per cui il modello può generare input JSON. Restituisce un errore 422 se lo strumento non è supportato dal modello.
top_p number 1 Un'alternativa al campionamento con temperatura, denominata campionamento del nucleo, in cui il modello considera i risultati dei token con massa di probabilità top_p. Quindi 0,1 significa che vengono considerati solo i token che comprendono la massa di probabilità superiore del 10%.

In genere si consiglia di modificare questo valore o temperature ma non entrambi.

ChatCompletionRequestMessage

Nome Tipo Descrizione
content stringa o ChatCompletionMessageContentPart[] Contenuto del messaggio.
ruolo ChatMessageRole Ruolo dell'autore del messaggio.
tool_calls ChatCompletionMessageToolCall[] Le chiamate degli strumenti generate dal modello, ad esempio le chiamate di funzioni.

ChatCompletionMessageContentPart

Nome Tipo Descrizione
content string URL dell'immagine o dati dell'immagine con codifica base64.
detail ImageDetail Specifica il livello di dettaglio dell'immagine.
type ChatCompletionMessageContentPartType Tipo della parte di contenuto.

ChatCompletionMessageContentPartType

Nome Tipo Descrizione
Testo string
image string
image_url string

ChatCompletionToolChoiceOption

Controlla quale strumento (se presente) viene chiamato dal modello.

Nome Tipo Descrizione
Nessuno string Il modello non chiamerà alcuno strumento e genererà invece un messaggio.
auto string Il modello può scegliere tra la generazione di un messaggio o la chiamata di uno o più strumenti.
Obbligatorio string Il modello deve chiamare uno o più strumenti.
string Se si specifica uno strumento specifico tramite {"type": "function", "function": {"name": "my_function"}} impone al modello di chiamare tale strumento.

ImageDetail

Specifica il livello di dettaglio dell'immagine.

Nome Tipo Descrizione
auto string
low string
high string

CreateChatCompletionResponse

Rappresenta una risposta di completamento della chat restituita dal modello, in base all'input fornito.

Nome Tipo Descrizione
choices Scelte[] Elenco di scelte di completamento della chat. Può essere maggiore di uno se n è maggiore di 1.
created integer Timestamp Unix (in secondi) di quando è stato creato il completamento della chat.
ID string Identificatore univoco per il completamento della chat.
modello string Modello usato per il completamento della chat.
oggetto ChatCompletionObject Il tipo di oggetto, che è sempre chat.completion.
system_fingerprint string Questa impronta digitale rappresenta la configurazione back-end con cui viene eseguito il modello.

Può essere usata insieme al parametro di richiesta seed per comprendere quando sono state apportate modifiche back-end che potrebbero influire sul determinismo.
attivamente CompletionUsage Statistiche di utilizzo per la richiesta di completamento.

Dettagli

Dettagli dell'errore UnprocessableContentError.

Nome Tipo Descrizione
loc string[] Parametro che causa il problema
value string Il valore passato al parametro che causa problemi.

Funzione

Funzione chiamata dal modello.

Nome Tipo Descrizione
argomenti string Argomenti con cui chiamare la funzione, come generato dal modello in formato JSON. Si noti che il modello non genera sempre codice JSON valido e può generare parametri non corretti non definiti nello schema della funzione. Convalidare gli argomenti nel codice prima di chiamare la funzione.
name string Nome della funzione da chiamare.

FunctionObject

Definizione di una funzione a cui il modello ha accesso.

Nome Tipo Descrizione
description stringa Descrizione delle operazioni della funzione, usate dal modello per scegliere quando e come chiamare la funzione.
name string Nome della funzione che deve essere chiamata. Deve essere a-z, A-Z, 0-9 o contenere caratteri di sottolineatura e trattini, con una lunghezza massima di 64 caratteri.
parameters oggetto I parametri accettati dalle funzioni, descritti come oggetto Schema JSON. L'omissione di parameters definisce una funzione con un elenco di parametri vuoto.

NotFoundError

Nome Tipo Descrizione
Errore string Descrizione dell'errore.
messaggio string Messaggio di errore.
stato integer Codice di stato HTTP.

ToolType

Tipo dello strumento. Attualmente è supportato solo function.

Nome Tipo Descrizione
function string

TooManyRequestsError

Nome Tipo Descrizione
Errore string Descrizione dell'errore.
messaggio string Messaggio di errore.
stato integer Codice di stato HTTP.

UnauthorizedError

Nome Tipo Descrizione
Errore string Descrizione dell'errore.
messaggio string Messaggio di errore.
stato integer Codice di stato HTTP.

UnprocessableContentError

La richiesta presenta contenuti non elaborabili. L'errore viene restituito quando il payload indicato è valido in base a questa specifica. Tuttavia, alcune istruzioni indicate nel payload non sono supportate dal modello sottostante. Usare la sezione details per comprendere il parametro all'origine dell'errore.

Nome Tipo Descrizione
codice string Codice errore.
detail Detail
Errore string Descrizione dell'errore.
messaggio string Messaggio di errore.
stato integer Codice di stato HTTP.