Riferimento: Completamenti della chat | Azure Machine Learning

Articolo
09/04/2024

Crea una risposta del modello per la conversazione di chat specificata.

POST /chat/completions?api-version=2024-04-01-preview

Parametri dell'URI

Nome	Tra	Richiesto	Type	Descrizione
api-version	query	Vero	string	Versione dell'API nel formato "AAAA-MM-GG" o "AAAA-MM-GG-preview".

Intestazione richiesta

Nome	Obbligatorio	Type	Descrizione
parametri aggiuntivi		string	Il comportamento dell'API quando vengono indicati parametri extra nel payload. L'utilizzo di `pass-through` consente all'API di passare il parametro al modello sottostante. Usare questo valore quando si desidera passare i parametri che è noto che il modello sottostante possa supportare. L'utilizzo di `ignore` fa in modo che l'API elimini qualsiasi parametro non supportato. Usare questo valore quando è necessario usare lo stesso payload in modelli diversi, ma uno dei parametri extra può restituire un errore per un modello, se non supportato. L'utilizzo di `error` fa in modo che l'API rifiuti qualsiasi parametro extra nel payload. Possono essere indicati solo i parametri specificati in questa API. In caso contrario, verrà restituito un errore 400.
azureml-model-deployment		string	Nome della distribuzione a cui si desidera instradare la richiesta. Supportato per gli endpoint che supportano più distribuzioni.

Corpo della richiesta

Nome	Obbligatorio	Type	Descrizione
messages	Vero	ChatCompletionRequestMessage	Elenco di messaggi che comprendono la conversazione effettuata finora. Restituisce un errore 422 se almeno alcuni dei messaggi non possono essere riconosciuti dal modello.
frequency_penalty		number	Consente di evitare ripetizioni di parole riducendo la possibilità di selezionare una parola se è già stata usata. Maggiore è la penalità della frequenza, minore è la probabilità che il modello ripeta le stesse parole nell'output. Restituisce un errore 422 se il valore o il parametro non è supportato dal modello.
max_tokens		integer	Numero massimo di token che possono essere generati al momento del completamento della chat. La lunghezza totale dei token di input e dei token generati è limitata dalla lunghezza del contesto del modello. Se si passa Null, il modello usa la lunghezza massima del contesto.
presence_penalty		number	Aiuta a impedire che vengano ripetuti gli stessi argomenti penalizzando una parola se esiste già nel completamento, anche una sola volta. Restituisce un errore 422 se il valore o il parametro non è supportato dal modello.
response_format		ChatCompletionResponseFormat
seed		integer	Se specificato, il sistema effettuerà tutti i tentativi possibili per eseguire il campionamento in modo deterministico, in modo che le richieste ripetute con gli stessi `seed` e parametri restituiscano lo stesso risultato. Il determinismo non è garantito ed è necessario fare riferimento al parametro di risposta `system_fingerprint` per monitorare le modifiche nel back-end.
stop			Sequenze in cui l'API smetterà di generare altri token.
stream		boolean	Se impostato, verranno inviati delta di messaggi parziali. I token verranno inviati come eventi inviati dal server di soli dati man mano che diventano disponibili, con il flusso terminato da un messaggio `data: [DONE]`.
temperatura		number	Numero non negativo. Restituisce 422 se il valore non è supportato dal modello.
tool_choice		ChatCompletionToolChoiceOption	Controlla quale funzione (se presente) viene chiamata dal modello. `none` indica che il modello non chiamerà una funzione e genererà invece un messaggio. `auto` indica che il modello può scegliere tra la generazione di un messaggio o la chiamata di una funzione. Se si specifica una funzione specifica tramite `{"type": "function", "function": {"name": "my_function"}}`, impone al modello a chiamare tale funzione. `none` è l'impostazione predefinita quando non sono presenti funzioni. `auto` è l'impostazione predefinita se sono presenti funzioni. Restituisce un errore 422 se lo strumento non è supportato dal modello.
tools		ChatCompletionTool[]	Elenco di strumenti che il modello può chiamare. Attualmente, solo le funzioni sono supportate come strumento. Usare questa opzione per fornire un elenco di funzioni per cui il modello può generare input JSON. Restituisce un errore 422 se lo strumento non è supportato dal modello.
top_p		number	Un'alternativa al campionamento con temperatura, denominata campionamento del nucleo, in cui il modello considera i risultati dei token con massa di probabilità top_p. Quindi 0,1 significa che vengono considerati solo i token che comprendono la massa di probabilità superiore del 10%. In genere si consiglia di modificare questo valore o `temperature` ma non entrambi.

Risposte

Nome	Tipo	Descrizione
200 OK	CreateChatCompletionResponse	Ok
401 - Non autorizzato	UnauthorizedError	Token di accesso mancante o non valido Intestazioni x-ms-error-code: string
404 Not Found	NotFoundError	Modalità non supportata dal modello. Controllare la documentazione del modello per verificare quali route sono disponibili. Intestazioni x-ms-error-code: string
422 - Entità non elaborabile	UnprocessableContentError	La richiesta contiene contenuto non elaborabile Intestazioni x-ms-error-code: string
429 Troppe richieste	TooManyRequestsError	È stato raggiunto il limite di frequenza assegnato e la richiesta deve essere gestita. Intestazioni x-ms-error-code: string
Altri codici di stato	ContentFilterError	Richiesta non valida Intestazioni x-ms-error-code: string

Sicurezza

Autorizzazione

Token con il prefisso Bearer:, ad esempio Bearer abcde12345

Tipo: apiKey
In: intestazione

AADToken

Autenticazione OAuth2 di Azure Active Directory

Tipo: oauth2
Flusso: applicazione
URL del token: https://login.microsoftonline.com/common/oauth2/v2.0/token

Esempi

Crea una risposta del modello per la conversazione chat specificata

Richiesta di esempio

POST /chat/completions?api-version=2024-04-01-preview

{
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant"
    },
    {
      "role": "user",
      "content": "Explain Riemann's conjecture"
    },
    {
      "role": "assistant",
      "content": "The Riemann Conjecture is a deep mathematical conjecture around prime numbers and how they can be predicted. It was first published in Riemann's groundbreaking 1859 paper. The conjecture states that the Riemann zeta function has its zeros only at the negative even integers and complex numbers with real part 1/21. Many consider it to be the most important unsolved problem in pure mathematics. The Riemann hypothesis is a way to predict the probability that numbers in a certain range are prime that was also devised by German mathematician Bernhard Riemann in 18594."
    },
    {
      "role": "user",
      "content": "Ist it proved?"
    }
  ],
  "frequency_penalty": 0,
  "presence_penalty": 0,
  "max_tokens": 256,
  "seed": 42,
  "stop": "<|endoftext|>",
  "stream": false,
  "temperature": 0,
  "top_p": 1,
  "response_format": { "type": "text" }
}

Risposta di esempio

Codice di stato: 200

{
  "id": "1234567890",
  "model": "llama2-70b-chat",
  "choices": [
    {
      "index": 0,
      "finish_reason": "stop",
      "message": {
        "role": "assistant",
        "content": "No, it has never been proved"
      }
    }
  ],
  "created": 1234567890,
  "object": "chat.completion",
  "usage": {
    "prompt_tokens": 205,
    "completion_tokens": 5,
    "total_tokens": 210
  }
}

Definizioni

Nome	Descrizione
ChatCompletionRequestMessage
ChatCompletionMessageContentPart
ChatCompletionMessageContentPartType
ChatCompletionToolChoiceOption	Controlla quale funzione (se presente) viene chiamata dal modello. `none` indica che il modello non chiamerà una funzione e genererà invece un messaggio. `auto` indica che il modello può scegliere tra la generazione di un messaggio o la chiamata di una funzione. Se si specifica una funzione specifica tramite `{"type": "function", "function": {"name": "my_function"}}`, impone al modello a chiamare tale funzione. `none` è l'impostazione predefinita quando non sono presenti funzioni. `auto` è l'impostazione predefinita se sono presenti funzioni. Restituisce un errore 422 se lo strumento non è supportato dal modello.
ChatCompletionFinishReason	Motivo per cui il modello ha interrotto la generazione di token. Sarà `stop` se il modello raggiunge un punto di arresto naturale o la sequenza di arresto specificata, `length` se è stato raggiunto il numero massimo di token specificati nella richiesta, `content_filter` se il contenuto è stato omesso a causa di un flag dai filtri del contenuto, `tool_calls` se il modello ha chiamato uno strumento.
ChatCompletionMessageToolCall
ChatCompletionObject	Il tipo di oggetto, che è sempre `chat.completion`.
ChatCompletionResponseFormat	Formato di risposta per la risposta del modello. L'impostazione su `json_object` abilita la modalità JSON, che garantisce che il messaggio generato dal modello sia JSON valido. Quando si usa la modalità JSON, è necessario anche indicare al modello di produrre JSON manualmente tramite un messaggio di sistema o utente. Si noti anche che il contenuto del messaggio può essere parzialmente tagliato se `finish_reason="length"`, che indica che la generazione ha superato `max_tokens` o la conversazione ha superato la lunghezza massima del contesto.
ChatCompletionResponseFormatType	Tipo di formato della risposta.
ChatCompletionResponseMessage	Messaggio di completamento della chat generato dal modello.
ChatCompletionTool
ChatMessageRole	Ruolo dell'autore del messaggio.
Choices	Elenco di scelte di completamento della chat.
CompletionUsage	Statistiche di utilizzo per la richiesta di completamento.
ContentFilterError	La chiamata API ha esito negativo quando la richiesta attiva un filtro di contenuto come configurato. Modificare il prompt e riprovare.
CreateChatCompletionRequest
CreateChatCompletionResponse	Rappresenta una risposta di completamento della chat restituita dal modello, in base all'input fornito.
Detail	Dettagli dell'errore UnprocessableContentError.
Funzione	Funzione chiamata dal modello.
FunctionObject	Definizione di una funzione a cui il modello ha accesso.
ImageDetail	Specifica il livello di dettaglio dell'immagine.
NotFoundError	Il percorso non è valido per il modello distribuito.
ToolType	Tipo dello strumento. Attualmente è supportato solo `function`.
TooManyRequestsError	È stato raggiunto il limite di frequenza assegnato e le richieste devono essere gestite.
UnauthorizedError	Autenticazione mancante o non valida.
UnprocessableContentError	La richiesta presenta contenuti non elaborabili. L'errore viene restituito quando il payload indicato è valido in base a questa specifica. Tuttavia, alcune istruzioni indicate nel payload non sono supportate dal modello sottostante. Usare la sezione `details` per comprendere il parametro all'origine dell'errore.

ChatCompletionFinishReason

Motivo per cui il modello ha interrotto la generazione di token. Sarà stop se il modello raggiunge un punto di arresto naturale o la sequenza di arresto specificata, length se è stato raggiunto il numero massimo di token specificati nella richiesta, content_filter se il contenuto è stato omesso a causa di un flag dai filtri del contenuto, tool_calls se il modello ha chiamato uno strumento.

Nome	Tipo	Descrizione
content_filter	string
length	string
stop	string
tool_calls	string

ChatCompletionMessageToolCall

Nome	Tipo	Descrizione
function	Funzione	Funzione chiamata dal modello.
ID	string	ID della chiamata allo strumento.
type	ToolType	Tipo dello strumento. Attualmente è supportato solo `function`.

ChatCompletionObject

Il tipo di oggetto, che è sempre chat.completion.

Nome	Tipo	Descrizione
chat.completion	string

ChatCompletionResponseFormat

Formato di risposta per la risposta del modello. L'impostazione su json_object abilita la modalità JSON, che garantisce che il messaggio generato dal modello sia JSON valido. Quando si usa la modalità JSON, è necessario anche indicare al modello di produrre JSON manualmente tramite un messaggio di sistema o utente. Si noti anche che il contenuto del messaggio può essere parzialmente tagliato se finish_reason="length", che indica che la generazione ha superato max_tokens o la conversazione ha superato la lunghezza massima del contesto.

Nome	Tipo	Descrizione
type	ChatCompletionResponseFormatType	Tipo di formato della risposta.

ChatCompletionResponseFormatType

Tipo di formato della risposta.

Nome	Tipo	Descrizione
json_object	string
Testo	string

ChatCompletionResponseMessage

Messaggio di completamento della chat generato dal modello.

Nome	Tipo	Descrizione
content	string	Contenuto del messaggio.
ruolo	ChatMessageRole	Ruolo dell'autore del messaggio.
tool_calls	ChatCompletionMessageToolCall[]	Le chiamate degli strumenti generate dal modello, ad esempio le chiamate di funzioni.

ChatCompletionTool

Nome	Tipo	Descrizione
function	FunctionObject
type	ToolType	Tipo dello strumento. Attualmente è supportato solo `function`.

ChatMessageRole

Ruolo dell'autore del messaggio.

Nome	Tipo	Descrizione
assistant	string
operativo	string
strumento	string
utente	string

Scelte

Elenco di scelte di completamento della chat. Può essere maggiore di uno se n è maggiore di 1.

Nome	Tipo	Descrizione
finish_reason	ChatCompletionFinishReason	Motivo per cui il modello ha interrotto la generazione di token. Sarà `stop` se il modello raggiunge un punto di arresto naturale o la sequenza di arresto specificata, `length` se è stato raggiunto il numero massimo di token specificati nella richiesta, `content_filter` se il contenuto è stato omesso a causa di un flag dai filtri del contenuto, `tool_calls` se il modello ha chiamato uno strumento.
index	integer	Indice della scelta nell'elenco di scelte.
messaggio	ChatCompletionResponseMessage	Messaggio di completamento della chat generato dal modello.

CompletionUsage

Statistiche di utilizzo per la richiesta di completamento.

Nome	Tipo	Descrizione
completion_tokens	integer	Numero di token nel completamento generato.
prompt_tokens	integer	Numero di token nel prompt.
total_tokens	integer	Numero totale di token usati nella richiesta (prompt + completamento).

ContentFilterError

La chiamata API ha esito negativo quando la richiesta attiva un filtro di contenuto come configurato. Modificare il prompt e riprovare.

Nome	Tipo	Descrizione
codice	string	Codice errore.
Errore	string	Descrizione dell'errore.
messaggio	string	Messaggio di errore.
param	string	Il parametro che ha attivato il filtro contenuto.
stato	integer	Codice di stato HTTP.

CreateChatCompletionRequest

Nome	Type	Valore predefinito	Descrizione
frequency_penalty	number	0	Consente di evitare ripetizioni di parole riducendo la possibilità di selezionare una parola se è già stata usata. Maggiore è la penalità della frequenza, minore è la probabilità che il modello ripeta le stesse parole nell'output. Restituisce un errore 422 se il valore o il parametro non è supportato dal modello.
max_tokens	integer		Numero massimo di token che possono essere generati al momento del completamento della chat. La lunghezza totale dei token di input e dei token generati è limitata dalla lunghezza del contesto del modello. Se si passa Null, il modello usa la lunghezza massima del contesto.
messages	ChatCompletionRequestMessage[]		Elenco di messaggi che comprendono la conversazione effettuata finora. Restituisce un errore 422 se almeno alcuni dei messaggi non possono essere riconosciuti dal modello.
presence_penalty	number	0	Aiuta a impedire che vengano ripetuti gli stessi argomenti penalizzando una parola se esiste già nel completamento, anche una sola volta. Restituisce un errore 422 se il valore o il parametro non è supportato dal modello.
response_format	ChatCompletionResponseFormat	Testo
seed	integer		Se specificato, il sistema effettuerà tutti i tentativi possibili per eseguire il campionamento in modo deterministico, in modo che le richieste ripetute con gli stessi `seed` e parametri restituiscano lo stesso risultato. Il determinismo non è garantito ed è necessario fare riferimento al parametro di risposta `system_fingerprint` per monitorare le modifiche nel back-end.
stop			Sequenze in cui l'API smetterà di generare altri token.
stream	boolean	Falso	Se impostato, verranno inviati delta di messaggi parziali. I token verranno inviati come eventi inviati dal server di soli dati man mano che diventano disponibili, con il flusso terminato da un messaggio `data: [DONE]`.
temperatura	number	1	Numero non negativo. Restituisce 422 se il valore non è supportato dal modello.
tool_choice	ChatCompletionToolChoiceOption		Controlla quale funzione (se presente) viene chiamata dal modello. `none` indica che il modello non chiamerà una funzione e genererà invece un messaggio. `auto` indica che il modello può scegliere tra la generazione di un messaggio o la chiamata di una funzione. Se si specifica una funzione specifica tramite `{"type": "function", "function": {"name": "my_function"}}`, impone al modello a chiamare tale funzione. `none` è l'impostazione predefinita quando non sono presenti funzioni. `auto` è l'impostazione predefinita se sono presenti funzioni. Restituisce un errore 422 se lo strumento non è supportato dal modello.
tools	ChatCompletionTool[]		Elenco di strumenti che il modello può chiamare. Attualmente, solo le funzioni sono supportate come strumento. Usare questa opzione per fornire un elenco di funzioni per cui il modello può generare input JSON. Restituisce un errore 422 se lo strumento non è supportato dal modello.
top_p	number	1	Un'alternativa al campionamento con temperatura, denominata campionamento del nucleo, in cui il modello considera i risultati dei token con massa di probabilità top_p. Quindi 0,1 significa che vengono considerati solo i token che comprendono la massa di probabilità superiore del 10%. In genere si consiglia di modificare questo valore o `temperature` ma non entrambi.

ChatCompletionRequestMessage

Nome	Tipo	Descrizione
content	stringa o ChatCompletionMessageContentPart[]	Contenuto del messaggio.
ruolo	ChatMessageRole	Ruolo dell'autore del messaggio.
tool_calls	ChatCompletionMessageToolCall[]	Le chiamate degli strumenti generate dal modello, ad esempio le chiamate di funzioni.

ChatCompletionMessageContentPart

Nome	Tipo	Descrizione
content	string	URL dell'immagine o dati dell'immagine con codifica base64.
detail	ImageDetail	Specifica il livello di dettaglio dell'immagine.
type	ChatCompletionMessageContentPartType	Tipo della parte di contenuto.

ChatCompletionMessageContentPartType

Nome	Tipo	Descrizione
Testo	string
image	string
image_url	string

ChatCompletionToolChoiceOption

Controlla quale strumento (se presente) viene chiamato dal modello.

Nome	Tipo	Descrizione
Nessuno	string	Il modello non chiamerà alcuno strumento e genererà invece un messaggio.
auto	string	Il modello può scegliere tra la generazione di un messaggio o la chiamata di uno o più strumenti.
Obbligatorio	string	Il modello deve chiamare uno o più strumenti.
	string	Se si specifica uno strumento specifico tramite `{"type": "function", "function": {"name": "my_function"}}` impone al modello di chiamare tale strumento.

ImageDetail

Specifica il livello di dettaglio dell'immagine.

Nome	Tipo	Descrizione
auto	string
low	string
high	string

CreateChatCompletionResponse

Rappresenta una risposta di completamento della chat restituita dal modello, in base all'input fornito.

Nome	Tipo	Descrizione
choices	Scelte[]	Elenco di scelte di completamento della chat. Può essere maggiore di uno se `n` è maggiore di 1.
created	integer	Timestamp Unix (in secondi) di quando è stato creato il completamento della chat.
ID	string	Identificatore univoco per il completamento della chat.
modello	string	Modello usato per il completamento della chat.
oggetto	ChatCompletionObject	Il tipo di oggetto, che è sempre `chat.completion`.
system_fingerprint	string	Questa impronta digitale rappresenta la configurazione back-end con cui viene eseguito il modello. Può essere usata insieme al parametro di richiesta `seed` per comprendere quando sono state apportate modifiche back-end che potrebbero influire sul determinismo.
attivamente	CompletionUsage	Statistiche di utilizzo per la richiesta di completamento.

Dettagli

Dettagli dell'errore UnprocessableContentError.

Nome	Tipo	Descrizione
loc	string[]	Parametro che causa il problema
value	string	Il valore passato al parametro che causa problemi.

Funzione

Funzione chiamata dal modello.

Nome	Tipo	Descrizione
argomenti	string	Argomenti con cui chiamare la funzione, come generato dal modello in formato JSON. Si noti che il modello non genera sempre codice JSON valido e può generare parametri non corretti non definiti nello schema della funzione. Convalidare gli argomenti nel codice prima di chiamare la funzione.
name	string	Nome della funzione da chiamare.

FunctionObject

Definizione di una funzione a cui il modello ha accesso.

Nome	Tipo	Descrizione
description	stringa	Descrizione delle operazioni della funzione, usate dal modello per scegliere quando e come chiamare la funzione.
name	string	Nome della funzione che deve essere chiamata. Deve essere a-z, A-Z, 0-9 o contenere caratteri di sottolineatura e trattini, con una lunghezza massima di 64 caratteri.
parameters	oggetto	I parametri accettati dalle funzioni, descritti come oggetto Schema JSON. L'omissione di `parameters` definisce una funzione con un elenco di parametri vuoto.

NotFoundError

Nome	Tipo	Descrizione
Errore	string	Descrizione dell'errore.
messaggio	string	Messaggio di errore.
stato	integer	Codice di stato HTTP.

ToolType

Tipo dello strumento. Attualmente è supportato solo function.

Nome	Tipo	Descrizione
function	string

TooManyRequestsError

Nome	Tipo	Descrizione
Errore	string	Descrizione dell'errore.
messaggio	string	Messaggio di errore.
stato	integer	Codice di stato HTTP.

UnauthorizedError

Nome	Tipo	Descrizione
Errore	string	Descrizione dell'errore.
messaggio	string	Messaggio di errore.
stato	integer	Codice di stato HTTP.

UnprocessableContentError

La richiesta presenta contenuti non elaborabili. L'errore viene restituito quando il payload indicato è valido in base a questa specifica. Tuttavia, alcune istruzioni indicate nel payload non sono supportate dal modello sottostante. Usare la sezione details per comprendere il parametro all'origine dell'errore.

Nome	Tipo	Descrizione
codice	string	Codice errore.
detail	Detail
Errore	string	Descrizione dell'errore.
messaggio	string	Messaggio di errore.
stato	integer	Codice di stato HTTP.

Condividi tramite