Referência: Finalizações | Azure Machine Learning
Cria uma conclusão para o prompt e os parâmetros fornecidos.
POST /completions?api-version=2024-04-01-preview
Nome | Em | Necessário | Type | Description |
---|---|---|---|---|
api-version | query | True | string | A versão da API no formato "AAAA-MM-DD" ou "AAAA-MM-DD-visualização". |
Cabeçalho do Pedido
Nome | Obrigatório | Type | Description |
---|---|---|---|
extra-parâmetros | string | O comportamento da API quando parâmetros extras são indicados na carga útil. O uso pass-through faz com que a API passe o parâmetro para o modelo subjacente. Use esse valor quando quiser passar parâmetros que você sabe que o modelo subjacente pode suportar. O uso ignore faz com que a API elimine qualquer parâmetro não suportado. Use esse valor quando precisar usar a mesma carga em modelos diferentes, mas um dos parâmetros extras pode fazer com que um modelo cometa erro se não for suportado. O uso error faz com que a API rejeite qualquer parâmetro extra na carga útil. Somente os parâmetros especificados nesta API podem ser indicados, ou um erro 400 é retornado. |
|
azureml-model-deployment | string | Nome da implantação para a qual você deseja rotear a solicitação. Suporte para endpoints que suportam várias implantações. |
Corpo do Pedido
Nome | Obrigatório | Type | Description |
---|---|---|---|
Prompt | True | Os prompts para gerar completações para, codificadas como uma cadeia de caracteres, matriz de cadeias de caracteres, matriz de tokens ou matriz de matrizes de token. Observe que <\|endoftext\|> é o separador de documento que o modelo vê durante o treinamento, portanto, se um prompt não for especificado, o modelo será gerado como se fosse do início de um novo documento. |
|
frequency_penalty | Número | Valores positivos penalizam novos tokens com base em sua frequência existente no texto até agora, diminuindo a probabilidade do modelo repetir a mesma linha textualmente. | |
max_tokens | integer | O número máximo de tokens que podem ser gerados na conclusão. A contagem de tokens do prompt plus max_tokens não pode exceder o comprimento de contexto do modelo. |
|
presence_penalty | Número | Valores positivos penalizam novos tokens com base em se eles aparecem no texto até agora, aumentando a probabilidade do modelo falar sobre novos tópicos. | |
sementes | integer | Se especificado, o modelo faz um melhor esforço para amostragem deterministicamente, de modo que solicitações repetidas com os mesmos seed parâmetros e devem retornar o mesmo resultado.O determinismo não é garantido e você deve consultar o system_fingerprint parâmetro response para monitorar as alterações no back-end. |
|
parar | Sequências em que a API deixará de gerar mais tokens. O texto retornado não conterá a sequência de parada. | ||
transmissão em fluxo | boolean | Se o progresso parcial deve ser transmitido. Se definidos, os tokens serão enviados como eventos enviados pelo servidor somente dados à medida que estiverem disponíveis, com o fluxo encerrado por uma data: [DONE] mensagem. |
|
temperatura | Número | Qual a temperatura de amostragem a utilizar, entre 0 e 2. Valores mais altos como 0,8 tornarão a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornarão mais focada e determinística. Geralmente recomendamos alterar temperature ou top_p mas não ambos. |
|
top_p | Número | Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com top_p massa de probabilidade. Assim, 0,1 significa que apenas os tokens que compõem a massa de probabilidade superior de 10% são considerados. Geralmente recomendamos alterar top_p ou temperature mas não ambos. |
Respostas
Nome | Tipo | Description |
---|---|---|
200 OK | CreateCompletionResponse | OK |
401 Não Autorizado | UnauthorizedError | O token de acesso está ausente ou é inválido Cabeçalhos x-ms-error-code: cadeia de caracteres |
404 Não Encontrado | NotFoundError | Modalidade não suportada pelo modelo. Verifique a documentação do modelo para ver quais rotas estão disponíveis. Cabeçalhos x-ms-error-code: cadeia de caracteres |
422 Entidade não processável | UnprocessableContentError | A solicitação contém conteúdo não processável Cabeçalhos x-ms-error-code: cadeia de caracteres |
Demasiados Pedidos 429 | TooManyRequestsError | Você atingiu o limite de taxa atribuído e sua solicitação precisa ser cadenciada. Cabeçalhos x-ms-error-code: cadeia de caracteres |
Outros códigos de status | ContentFilterError | Solicitação inválida Cabeçalhos x-ms-error-code: cadeia de caracteres |
Segurança
Autorização
O token com o prefixo Bearer:
, por exemplo, Bearer abcde12345
Tipo: apiKey
Em: cabeçalho
AADToken
Autenticação OAuth2 do Azure Ative Directory
Tipo: oauth2
Fluxo: aplicação
URL do token: https://login.microsoftonline.com/common/oauth2/v2.0/token
Exemplos
Cria uma conclusão para o prompt e os parâmetros fornecidos
Pedido de Amostra
POST /completions?api-version=2024-04-01-preview
{
"prompt": "This is a very good text",
"frequency_penalty": 0,
"presence_penalty": 0,
"max_tokens": 256,
"seed": 42,
"stop": "<|endoftext|>",
"stream": false,
"temperature": 0,
"top_p": 1
}
Pedido de Resposta
Código de status: 200
{
"id": "1234567890",
"model": "llama2-7b",
"choices": [
{
"index": 0,
"finish_reason": "stop",
"text": ", indeed it is a good one."
}
],
"created": 1234567890,
"object": "text_completion",
"usage": {
"prompt_tokens": 15,
"completion_tokens": 8,
"total_tokens": 23
}
}
Definições
Nome | Descrição |
---|---|
Choices | Uma lista de opções de conclusão de chat. |
CompletionFinishReason | A razão pela qual o modelo parou de gerar tokens. Isso ocorre stop se o modelo atingir um ponto de parada natural ou uma sequência de parada fornecida, length se o número máximo de tokens especificado na solicitação foi atingido, content_filter se o conteúdo foi omitido devido a um sinalizador de nossos filtros de conteúdo. |
ConclusãoUso | Estatísticas de utilização do pedido de conclusão. |
ContentFilterError | A chamada de API falha quando o prompt aciona um filtro de conteúdo conforme configurado. Modifique o prompt e tente novamente. |
CreateCompletionRequest | |
CreateCompletionResponse | Representa uma resposta de conclusão da API. |
Detalhe | |
TextCompletionObject | O tipo de objeto, que é sempre "text_completion" |
UnprocessableContentError |
Escolhas
Uma lista de opções de conclusão de chat.
Nome | Tipo | Description |
---|---|---|
finish_reason | CompletionFinishReason | A razão pela qual o modelo parou de gerar tokens. Isso ocorre stop se o modelo atingir um ponto de parada natural ou uma sequência de parada fornecida, length se o número máximo de tokens especificado na solicitação foi atingido, content_filter se o conteúdo foi omitido devido a um sinalizador de nossos filtros de conteúdo, tool_calls se o modelo chamou uma ferramenta. |
index | integer | O índice da escolha na lista de opções. |
texto | string | O texto gerado. |
CompletionFinishReason
A razão pela qual o modelo parou de gerar tokens. Isso ocorre stop
se o modelo atingir um ponto de parada natural ou uma sequência de parada fornecida, length
se o número máximo de tokens especificado na solicitação foi atingido, content_filter
se o conteúdo foi omitido devido a um sinalizador de nossos filtros de conteúdo.
Nome | Tipo | Description |
---|---|---|
content_filter | string | |
length | string | |
parar | string |
ConclusãoUso
Estatísticas de utilização do pedido de conclusão.
Nome | Tipo | Description |
---|---|---|
completion_tokens | integer | Número de tokens na conclusão gerada. |
prompt_tokens | integer | Número de tokens no prompt. |
total_tokens | integer | Número total de tokens usados na solicitação (prompt + conclusão). |
ContentFilterError
A chamada de API falha quando o prompt aciona um filtro de conteúdo conforme configurado. Modifique o prompt e tente novamente.
Nome | Tipo | Description |
---|---|---|
code | string | O código de erro. |
error | string | A descrição do erro. |
mensagem | string | A mensagem de erro. |
param | string | O parâmetro que acionou o filtro de conteúdo. |
status | integer | O código de status HTTP. |
CreateCompletionRequest
Nome | Type | Valor Predefinido | Description |
---|---|---|---|
frequency_penalty | Número | 0 | Valores positivos penalizam novos tokens com base em sua frequência existente no texto até agora, diminuindo a probabilidade do modelo repetir a mesma linha textualmente. |
max_tokens | integer | 256 | O número máximo de tokens que podem ser gerados na conclusão. A contagem de tokens do prompt plus max_tokens não pode exceder o comprimento de contexto do modelo. |
presence_penalty | Número | 0 | Valores positivos penalizam novos tokens com base em se eles aparecem no texto até agora, aumentando a probabilidade do modelo falar sobre novos tópicos. |
Prompt | <\|endoftext\|> |
Os prompts para gerar completações para, codificadas como uma cadeia de caracteres, matriz de cadeias de caracteres, matriz de tokens ou matriz de matrizes de token. Observe que <\|endoftext\|> é o separador de documento que o modelo vê durante o treinamento, portanto, se um prompt não for especificado, o modelo será gerado como se fosse do início de um novo documento. |
|
sementes | integer | Se especificado, nosso sistema fará um melhor esforço para amostragem determinística, de modo que solicitações repetidas com os mesmos seed parâmetros e devem retornar o mesmo resultado.O determinismo não é garantido e você deve consultar o system_fingerprint parâmetro response para monitorar as alterações no back-end. |
|
parar | Sequências em que a API deixará de gerar mais tokens. O texto retornado não conterá a sequência de parada. | ||
transmissão em fluxo | boolean | False | Se o progresso parcial deve ser transmitido. Se definidos, os tokens serão enviados como eventos enviados pelo servidor somente dados à medida que estiverem disponíveis, com o fluxo encerrado por uma data: [DONE] mensagem. |
temperatura | Número | 1 | Qual a temperatura de amostragem a utilizar, entre 0 e 2. Valores mais altos como 0,8 tornarão a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornarão mais focada e determinística. Geralmente, recomendamos alterar isso ou top_p mas não ambos. |
top_p | Número | 1 | Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com top_p massa de probabilidade. Assim, 0,1 significa que apenas os tokens que compõem a massa de probabilidade superior de 10% são considerados. Geralmente, recomendamos alterar isso ou temperature mas não ambos. |
CreateCompletionResponse
Representa uma resposta de conclusão da API. Observação: os objetos de resposta transmitidos e não transmitidos compartilham a mesma forma (ao contrário do ponto de extremidade do chat).
Nome | Tipo | Description |
---|---|---|
escolhas | Escolhas[] | A lista de opções de conclusão que o modelo gerou para o prompt de entrada. |
criado | integer | O carimbo de data/hora Unix (em segundos) de quando a conclusão foi criada. |
ID | string | Um identificador exclusivo para a conclusão. |
modelo | string | O modelo utilizado para a conclusão. |
objeto | TextCompletionObject | O tipo de objeto, que é sempre "text_completion" |
system_fingerprint | string | Essa impressão digital representa a configuração de back-end com a qual o modelo é executado. Pode ser usado com o parâmetro request para entender quando alterações de back-end foram feitas que podem afetar o seed determinismo. |
ativa | ConclusãoUso | Estatísticas de utilização do pedido de conclusão. |
Detalhe
Nome | Tipo | Description |
---|---|---|
loc | string[] | O parâmetro que causa o problema |
valor | string | O valor passado para o parâmetro causando problemas. |
TextCompletionObject
O tipo de objeto, que é sempre "text_completion"
Nome | Tipo | Description |
---|---|---|
text_completion | string |
ListObject
O tipo de objeto, que é sempre "lista".
Nome | Tipo | Description |
---|---|---|
list | string |
NotFoundError
Nome | Tipo | Description |
---|---|---|
error | string | A descrição do erro. |
mensagem | string | A mensagem de erro. |
status | integer | O código de status HTTP. |
TooManyRequestsError
Nome | Tipo | Description |
---|---|---|
error | string | A descrição do erro. |
mensagem | string | A mensagem de erro. |
status | integer | O código de status HTTP. |
UnauthorizedError
Nome | Tipo | Description |
---|---|---|
error | string | A descrição do erro. |
mensagem | string | A mensagem de erro. |
status | integer | O código de status HTTP. |
UnprocessableContentError
Nome | Tipo | Description |
---|---|---|
code | string | O código de erro. |
detalhe | Detalhe | |
error | string | A descrição do erro. |
mensagem | string | A mensagem de erro. |
status | integer | O código de status HTTP. |