Partilhar via


Referência: Finalizações | Azure AI Studio

Importante

Alguns dos recursos descritos neste artigo podem estar disponíveis apenas na visualização. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

Cria uma conclusão para o prompt e os parâmetros fornecidos.

POST /completions?api-version=2024-04-01-preview
Nome Em Necessário Type Description
api-version query True string A versão da API no formato "AAAA-MM-DD" ou "AAAA-MM-DD-visualização".

Cabeçalho do Pedido

Nome Obrigatório Type Description
extra-parâmetros string O comportamento da API quando parâmetros extras são indicados na carga útil. O uso pass-through faz com que a API passe o parâmetro para o modelo subjacente. Use esse valor quando quiser passar parâmetros que você sabe que o modelo subjacente pode suportar. O uso ignore faz com que a API elimine qualquer parâmetro não suportado. Use esse valor quando precisar usar a mesma carga em modelos diferentes, mas um dos parâmetros extras pode fazer com que um modelo cometa erro se não for suportado. O uso error faz com que a API rejeite qualquer parâmetro extra na carga útil. Somente os parâmetros especificados nesta API podem ser indicados, ou um erro 400 é retornado.
azureml-model-deployment string Nome da implantação para a qual você deseja rotear a solicitação. Suporte para endpoints que suportam várias implantações.

Corpo do Pedido

Nome Obrigatório Type Description
Prompt True Os prompts para gerar completações para, codificadas como uma cadeia de caracteres, matriz de cadeias de caracteres, matriz de tokens ou matriz de matrizes de token. Observe que <\|endoftext\|> é o separador de documento que o modelo vê durante o treinamento, portanto, se um prompt não for especificado, o modelo será gerado como se fosse do início de um novo documento.
frequency_penalty Número Valores positivos penalizam novos tokens com base em sua frequência existente no texto até agora, diminuindo a probabilidade do modelo repetir a mesma linha textualmente.
max_tokens integer O número máximo de tokens que podem ser gerados na conclusão. A contagem de tokens do prompt plus max_tokens não pode exceder o comprimento de contexto do modelo.
presence_penalty Número Valores positivos penalizam novos tokens com base em se eles aparecem no texto até agora, aumentando a probabilidade do modelo falar sobre novos tópicos.
sementes integer Se especificado, o modelo faz um melhor esforço para amostragem deterministicamente, de modo que solicitações repetidas com os mesmos seed parâmetros e devem retornar o mesmo resultado.

O determinismo não é garantido e você deve consultar o system_fingerprint parâmetro response para monitorar as alterações no back-end.
parar Sequências em que a API deixará de gerar mais tokens. O texto retornado não conterá a sequência de parada.
transmissão em fluxo boolean Se o progresso parcial deve ser transmitido. Se definidos, os tokens serão enviados como eventos enviados pelo servidor somente dados à medida que estiverem disponíveis, com o fluxo encerrado por uma data: [DONE] mensagem.
temperatura Número Qual a temperatura de amostragem a utilizar, entre 0 e 2. Valores mais altos como 0,8 tornarão a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornarão mais focada e determinística.

Geralmente recomendamos alterar temperature ou top_p mas não ambos.
top_p Número Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com top_p massa de probabilidade. Assim, 0,1 significa que apenas os tokens que compõem a massa de probabilidade superior de 10% são considerados.

Geralmente recomendamos alterar top_p ou temperature mas não ambos.

Respostas

Nome Tipo Description
200 OK CreateCompletionResponse OK
401 Não Autorizado UnauthorizedError O token de acesso está ausente ou é inválido

Cabeçalhos

x-ms-error-code: cadeia de caracteres
404 Não Encontrado NotFoundError Modalidade não suportada pelo modelo. Verifique a documentação do modelo para ver quais rotas estão disponíveis.

Cabeçalhos

x-ms-error-code: cadeia de caracteres
422 Entidade não processável UnprocessableContentError A solicitação contém conteúdo não processável

Cabeçalhos

x-ms-error-code: cadeia de caracteres
Demasiados Pedidos 429 TooManyRequestsError Você atingiu o limite de taxa atribuído e sua solicitação precisa ser cadenciada.

Cabeçalhos

x-ms-error-code: cadeia de caracteres
Outros códigos de status ContentFilterError Mau pedido

Cabeçalhos

x-ms-error-code: cadeia de caracteres

Segurança

Autorização

O token com o prefixo Bearer: , por exemplo, Bearer abcde12345

Tipo: apiKey
Em: cabeçalho

AADToken

Autenticação OAuth2 do Azure Ative Directory

Tipo: oauth2
Fluxo: aplicação
URL do token: https://login.microsoftonline.com/common/oauth2/v2.0/token

Exemplos

Cria uma conclusão para o prompt e os parâmetros fornecidos

Pedido de Amostra

POST /completions?api-version=2024-04-01-preview

{
  "prompt": "This is a very good text",
  "frequency_penalty": 0,
  "presence_penalty": 0,
  "max_tokens": 256,
  "seed": 42,
  "stop": "<|endoftext|>",
  "stream": false,
  "temperature": 0,
  "top_p": 1
}

Pedido de Resposta

Código de status: 200

{
  "id": "1234567890",
  "model": "llama2-7b",
  "choices": [
    {
      "index": 0,
      "finish_reason": "stop",
      "text": ", indeed it is a good one."
    }
  ],
  "created": 1234567890,
  "object": "text_completion",
  "usage": {
    "prompt_tokens": 15,
    "completion_tokens": 8,
    "total_tokens": 23
  }
}

Definições

Nome Descrição
Choices Uma lista de opções de conclusão de chat.
CompletionFinishReason A razão pela qual o modelo parou de gerar tokens. Isso ocorre stop se o modelo atingir um ponto de parada natural ou uma sequência de parada fornecida, length se o número máximo de tokens especificado na solicitação foi atingido, content_filter se o conteúdo foi omitido devido a um sinalizador de nossos filtros de conteúdo.
ConclusãoUso Estatísticas de utilização do pedido de conclusão.
ContentFilterError A chamada de API falha quando o prompt aciona um filtro de conteúdo conforme configurado. Modifique o prompt e tente novamente.
CreateCompletionRequest
CreateCompletionResponse Representa uma resposta de conclusão da API.
Detalhe
TextCompletionObject O tipo de objeto, que é sempre "text_completion"
UnprocessableContentError

Escolhas

Uma lista de opções de conclusão de chat.

Nome Tipo Description
finish_reason CompletionFinishReason A razão pela qual o modelo parou de gerar tokens. Isso ocorre stop se o modelo atingir um ponto de parada natural ou uma sequência de parada fornecida, length se o número máximo de tokens especificado na solicitação foi atingido, content_filter se o conteúdo foi omitido devido a um sinalizador de nossos filtros de conteúdo, tool_calls se o modelo chamou uma ferramenta.
index integer O índice da escolha na lista de opções.
texto string O texto gerado.

CompletionFinishReason

A razão pela qual o modelo parou de gerar tokens. Isso ocorre stop se o modelo atingir um ponto de parada natural ou uma sequência de parada fornecida, length se o número máximo de tokens especificado na solicitação foi atingido, content_filter se o conteúdo foi omitido devido a um sinalizador de nossos filtros de conteúdo.

Nome Tipo Description
content_filter string
length string
parar string

ConclusãoUso

Estatísticas de utilização do pedido de conclusão.

Nome Tipo Description
completion_tokens integer Número de tokens na conclusão gerada.
prompt_tokens integer Número de tokens no prompt.
total_tokens integer Número total de tokens usados na solicitação (prompt + conclusão).

ContentFilterError

A chamada de API falha quando o prompt aciona um filtro de conteúdo conforme configurado. Modifique o prompt e tente novamente.

Nome Tipo Description
code string O código de erro.
error string A descrição do erro.
mensagem string A mensagem de erro.
param string O parâmetro que acionou o filtro de conteúdo.
status integer O código de status HTTP.

CreateCompletionRequest

Nome Type Valor Predefinido Description
frequency_penalty Número 0 Valores positivos penalizam novos tokens com base em sua frequência existente no texto até agora, diminuindo a probabilidade do modelo repetir a mesma linha textualmente.
max_tokens integer 256 O número máximo de tokens que podem ser gerados na conclusão. A contagem de tokens do prompt plus max_tokens não pode exceder o comprimento de contexto do modelo.
presence_penalty Número 0 Valores positivos penalizam novos tokens com base em se eles aparecem no texto até agora, aumentando a probabilidade do modelo falar sobre novos tópicos.
Prompt <\|endoftext\|> Os prompts para gerar completações para, codificadas como uma cadeia de caracteres, matriz de cadeias de caracteres, matriz de tokens ou matriz de matrizes de token. Observe que <\|endoftext\|> é o separador de documento que o modelo vê durante o treinamento, portanto, se um prompt não for especificado, o modelo será gerado como se fosse do início de um novo documento.
sementes integer Se especificado, nosso sistema fará um melhor esforço para amostragem determinística, de modo que solicitações repetidas com os mesmos seed parâmetros e devem retornar o mesmo resultado.

O determinismo não é garantido e você deve consultar o system_fingerprint parâmetro response para monitorar as alterações no back-end.
parar Sequências em que a API deixará de gerar mais tokens. O texto retornado não conterá a sequência de parada.
transmissão em fluxo boolean False Se o progresso parcial deve ser transmitido. Se definidos, os tokens serão enviados como eventos enviados pelo servidor somente dados à medida que estiverem disponíveis, com o fluxo encerrado por uma data: [DONE] mensagem.
temperatura Número 1 Qual a temperatura de amostragem a utilizar, entre 0 e 2. Valores mais altos como 0,8 tornarão a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornarão mais focada e determinística.

Geralmente, recomendamos alterar isso ou top_p mas não ambos.
top_p Número 1 Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com top_p massa de probabilidade. Assim, 0,1 significa que apenas os tokens que compõem a massa de probabilidade superior de 10% são considerados.

Geralmente, recomendamos alterar isso ou temperature mas não ambos.

CreateCompletionResponse

Representa uma resposta de conclusão da API. Observação: os objetos de resposta transmitidos e não transmitidos compartilham a mesma forma (ao contrário do ponto de extremidade do chat).

Nome Tipo Description
escolhas Escolhas[] A lista de opções de conclusão que o modelo gerou para o prompt de entrada.
criado integer O carimbo de data/hora Unix (em segundos) de quando a conclusão foi criada.
ID string Um identificador exclusivo para a conclusão.
modelo string O modelo utilizado para a conclusão.
objeto TextCompletionObject O tipo de objeto, que é sempre "text_completion"
system_fingerprint string Essa impressão digital representa a configuração de back-end com a qual o modelo é executado.

Pode ser usado com o parâmetro request para entender quando alterações de back-end foram feitas que podem afetar o seed determinismo.
ativa ConclusãoUso Estatísticas de utilização do pedido de conclusão.

Detalhe

Nome Tipo Description
loc string[] O parâmetro que causa o problema
valor string O valor passado para o parâmetro causando problemas.

TextCompletionObject

O tipo de objeto, que é sempre "text_completion"

Nome Tipo Description
text_completion string

ListObject

O tipo de objeto, que é sempre "lista".

Nome Tipo Description
list string

NotFoundError

Nome Tipo Description
error string A descrição do erro.
mensagem string A mensagem de erro.
status integer O código de status HTTP.

TooManyRequestsError

Nome Tipo Description
error string A descrição do erro.
mensagem string A mensagem de erro.
status integer O código de status HTTP.

UnauthorizedError

Nome Tipo Description
error string A descrição do erro.
mensagem string A mensagem de erro.
status integer O código de status HTTP.

UnprocessableContentError

Nome Tipo Description
code string O código de erro.
detalhe Detalhe
error string A descrição do erro.
mensagem string A mensagem de erro.
status integer O código de status HTTP.