Referência: Finalizações | Azure Machine Learning

Artigo
10/16/2024

Cria uma conclusão para o prompt e os parâmetros fornecidos.

POST /completions?api-version=2024-04-01-preview

Nome	Em	Necessário	Type	Description
api-version	query	True	string	A versão da API no formato "AAAA-MM-DD" ou "AAAA-MM-DD-visualização".

Cabeçalho do Pedido

Nome	Obrigatório	Type	Description
extra-parâmetros		string	O comportamento da API quando parâmetros extras são indicados na carga útil. O uso `pass-through` faz com que a API passe o parâmetro para o modelo subjacente. Use esse valor quando quiser passar parâmetros que você sabe que o modelo subjacente pode suportar. O uso `ignore` faz com que a API elimine qualquer parâmetro não suportado. Use esse valor quando precisar usar a mesma carga em modelos diferentes, mas um dos parâmetros extras pode fazer com que um modelo cometa erro se não for suportado. O uso `error` faz com que a API rejeite qualquer parâmetro extra na carga útil. Somente os parâmetros especificados nesta API podem ser indicados, ou um erro 400 é retornado.
azureml-model-deployment		string	Nome da implantação para a qual você deseja rotear a solicitação. Suporte para endpoints que suportam várias implantações.

Corpo do Pedido

Nome	Obrigatório	Type	Description
Prompt	True		Os prompts para gerar completações para, codificadas como uma cadeia de caracteres, matriz de cadeias de caracteres, matriz de tokens ou matriz de matrizes de token. Observe que `<\\|endoftext\\|>` é o separador de documento que o modelo vê durante o treinamento, portanto, se um prompt não for especificado, o modelo será gerado como se fosse do início de um novo documento.
frequency_penalty		Número	Valores positivos penalizam novos tokens com base em sua frequência existente no texto até agora, diminuindo a probabilidade do modelo repetir a mesma linha textualmente.
max_tokens		integer	O número máximo de tokens que podem ser gerados na conclusão. A contagem de tokens do prompt plus `max_tokens` não pode exceder o comprimento de contexto do modelo.
presence_penalty		Número	Valores positivos penalizam novos tokens com base em se eles aparecem no texto até agora, aumentando a probabilidade do modelo falar sobre novos tópicos.
sementes		integer	Se especificado, o modelo faz um melhor esforço para amostragem deterministicamente, de modo que solicitações repetidas com os mesmos `seed` parâmetros e devem retornar o mesmo resultado. O determinismo não é garantido e você deve consultar o `system_fingerprint` parâmetro response para monitorar as alterações no back-end.
parar			Sequências em que a API deixará de gerar mais tokens. O texto retornado não conterá a sequência de parada.
transmissão em fluxo		boolean	Se o progresso parcial deve ser transmitido. Se definidos, os tokens serão enviados como eventos enviados pelo servidor somente dados à medida que estiverem disponíveis, com o fluxo encerrado por uma `data: [DONE]` mensagem.
temperatura		Número	Qual a temperatura de amostragem a utilizar, entre 0 e 2. Valores mais altos como 0,8 tornarão a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornarão mais focada e determinística. Geralmente recomendamos alterar `temperature` ou `top_p` mas não ambos.
top_p		Número	Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com top_p massa de probabilidade. Assim, 0,1 significa que apenas os tokens que compõem a massa de probabilidade superior de 10% são considerados. Geralmente recomendamos alterar `top_p` ou `temperature` mas não ambos.

Respostas

Nome	Tipo	Description
200 OK	CreateCompletionResponse	OK
401 Não Autorizado	UnauthorizedError	O token de acesso está ausente ou é inválido Cabeçalhos x-ms-error-code: cadeia de caracteres
404 Não Encontrado	NotFoundError	Modalidade não suportada pelo modelo. Verifique a documentação do modelo para ver quais rotas estão disponíveis. Cabeçalhos x-ms-error-code: cadeia de caracteres
422 Entidade não processável	UnprocessableContentError	A solicitação contém conteúdo não processável Cabeçalhos x-ms-error-code: cadeia de caracteres
Demasiados Pedidos 429	TooManyRequestsError	Você atingiu o limite de taxa atribuído e sua solicitação precisa ser cadenciada. Cabeçalhos x-ms-error-code: cadeia de caracteres
Outros códigos de status	ContentFilterError	Solicitação inválida Cabeçalhos x-ms-error-code: cadeia de caracteres

Segurança

Autorização

O token com o prefixo Bearer: , por exemplo, Bearer abcde12345

Tipo: apiKey
Em: cabeçalho

AADToken

Autenticação OAuth2 do Azure Ative Directory

Tipo: oauth2
Fluxo: aplicação
URL do token: https://login.microsoftonline.com/common/oauth2/v2.0/token

Exemplos

Cria uma conclusão para o prompt e os parâmetros fornecidos

Pedido de Amostra

POST /completions?api-version=2024-04-01-preview

{
  "prompt": "This is a very good text",
  "frequency_penalty": 0,
  "presence_penalty": 0,
  "max_tokens": 256,
  "seed": 42,
  "stop": "<|endoftext|>",
  "stream": false,
  "temperature": 0,
  "top_p": 1
}

Pedido de Resposta

Código de status: 200

{
  "id": "1234567890",
  "model": "llama2-7b",
  "choices": [
    {
      "index": 0,
      "finish_reason": "stop",
      "text": ", indeed it is a good one."
    }
  ],
  "created": 1234567890,
  "object": "text_completion",
  "usage": {
    "prompt_tokens": 15,
    "completion_tokens": 8,
    "total_tokens": 23
  }
}

Definições

Nome	Descrição
Choices	Uma lista de opções de conclusão de chat.
CompletionFinishReason	A razão pela qual o modelo parou de gerar tokens. Isso ocorre `stop` se o modelo atingir um ponto de parada natural ou uma sequência de parada fornecida, `length` se o número máximo de tokens especificado na solicitação foi atingido, `content_filter` se o conteúdo foi omitido devido a um sinalizador de nossos filtros de conteúdo.
ConclusãoUso	Estatísticas de utilização do pedido de conclusão.
ContentFilterError	A chamada de API falha quando o prompt aciona um filtro de conteúdo conforme configurado. Modifique o prompt e tente novamente.
CreateCompletionRequest
CreateCompletionResponse	Representa uma resposta de conclusão da API.
Detalhe
TextCompletionObject	O tipo de objeto, que é sempre "text_completion"
UnprocessableContentError

Escolhas

Uma lista de opções de conclusão de chat.

Nome	Tipo	Description
finish_reason	CompletionFinishReason	A razão pela qual o modelo parou de gerar tokens. Isso ocorre `stop` se o modelo atingir um ponto de parada natural ou uma sequência de parada fornecida, `length` se o número máximo de tokens especificado na solicitação foi atingido, `content_filter` se o conteúdo foi omitido devido a um sinalizador de nossos filtros de conteúdo, `tool_calls` se o modelo chamou uma ferramenta.
index	integer	O índice da escolha na lista de opções.
texto	string	O texto gerado.

CompletionFinishReason

A razão pela qual o modelo parou de gerar tokens. Isso ocorre stop se o modelo atingir um ponto de parada natural ou uma sequência de parada fornecida, length se o número máximo de tokens especificado na solicitação foi atingido, content_filter se o conteúdo foi omitido devido a um sinalizador de nossos filtros de conteúdo.

Nome	Tipo	Description
content_filter	string
length	string
parar	string

ConclusãoUso

Estatísticas de utilização do pedido de conclusão.

Nome	Tipo	Description
completion_tokens	integer	Número de tokens na conclusão gerada.
prompt_tokens	integer	Número de tokens no prompt.
total_tokens	integer	Número total de tokens usados na solicitação (prompt + conclusão).

ContentFilterError

A chamada de API falha quando o prompt aciona um filtro de conteúdo conforme configurado. Modifique o prompt e tente novamente.

Nome	Tipo	Description
code	string	O código de erro.
error	string	A descrição do erro.
mensagem	string	A mensagem de erro.
param	string	O parâmetro que acionou o filtro de conteúdo.
status	integer	O código de status HTTP.

CreateCompletionRequest

Nome	Type	Valor Predefinido	Description
frequency_penalty	Número	0	Valores positivos penalizam novos tokens com base em sua frequência existente no texto até agora, diminuindo a probabilidade do modelo repetir a mesma linha textualmente.
max_tokens	integer	256	O número máximo de tokens que podem ser gerados na conclusão. A contagem de tokens do prompt plus `max_tokens` não pode exceder o comprimento de contexto do modelo.
presence_penalty	Número	0	Valores positivos penalizam novos tokens com base em se eles aparecem no texto até agora, aumentando a probabilidade do modelo falar sobre novos tópicos.
Prompt		`<\\|endoftext\\|>`	Os prompts para gerar completações para, codificadas como uma cadeia de caracteres, matriz de cadeias de caracteres, matriz de tokens ou matriz de matrizes de token. Observe que `<\\|endoftext\\|>` é o separador de documento que o modelo vê durante o treinamento, portanto, se um prompt não for especificado, o modelo será gerado como se fosse do início de um novo documento.
sementes	integer		Se especificado, nosso sistema fará um melhor esforço para amostragem determinística, de modo que solicitações repetidas com os mesmos `seed` parâmetros e devem retornar o mesmo resultado. O determinismo não é garantido e você deve consultar o `system_fingerprint` parâmetro response para monitorar as alterações no back-end.
parar			Sequências em que a API deixará de gerar mais tokens. O texto retornado não conterá a sequência de parada.
transmissão em fluxo	boolean	False	Se o progresso parcial deve ser transmitido. Se definidos, os tokens serão enviados como eventos enviados pelo servidor somente dados à medida que estiverem disponíveis, com o fluxo encerrado por uma `data: [DONE]` mensagem.
temperatura	Número	1	Qual a temperatura de amostragem a utilizar, entre 0 e 2. Valores mais altos como 0,8 tornarão a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornarão mais focada e determinística. Geralmente, recomendamos alterar isso ou `top_p` mas não ambos.
top_p	Número	1	Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com top_p massa de probabilidade. Assim, 0,1 significa que apenas os tokens que compõem a massa de probabilidade superior de 10% são considerados. Geralmente, recomendamos alterar isso ou `temperature` mas não ambos.

CreateCompletionResponse

Representa uma resposta de conclusão da API. Observação: os objetos de resposta transmitidos e não transmitidos compartilham a mesma forma (ao contrário do ponto de extremidade do chat).

Nome	Tipo	Description
escolhas	Escolhas[]	A lista de opções de conclusão que o modelo gerou para o prompt de entrada.
criado	integer	O carimbo de data/hora Unix (em segundos) de quando a conclusão foi criada.
ID	string	Um identificador exclusivo para a conclusão.
modelo	string	O modelo utilizado para a conclusão.
objeto	TextCompletionObject	O tipo de objeto, que é sempre "text_completion"
system_fingerprint	string	Essa impressão digital representa a configuração de back-end com a qual o modelo é executado. Pode ser usado com o parâmetro request para entender quando alterações de back-end foram feitas que podem afetar o `seed` determinismo.
ativa	ConclusãoUso	Estatísticas de utilização do pedido de conclusão.

Detalhe

Nome	Tipo	Description
loc	string[]	O parâmetro que causa o problema
valor	string	O valor passado para o parâmetro causando problemas.

TextCompletionObject

O tipo de objeto, que é sempre "text_completion"

Nome	Tipo	Description
text_completion	string

ListObject

O tipo de objeto, que é sempre "lista".

Nome	Tipo	Description
list	string

NotFoundError

Nome	Tipo	Description
error	string	A descrição do erro.
mensagem	string	A mensagem de erro.
status	integer	O código de status HTTP.

TooManyRequestsError

Nome	Tipo	Description
error	string	A descrição do erro.
mensagem	string	A mensagem de erro.
status	integer	O código de status HTTP.

UnauthorizedError

Nome	Tipo	Description
error	string	A descrição do erro.
mensagem	string	A mensagem de erro.
status	integer	O código de status HTTP.

UnprocessableContentError

Nome	Tipo	Description
code	string	O código de erro.
detalhe	Detalhe
error	string	A descrição do erro.
mensagem	string	A mensagem de erro.
status	integer	O código de status HTTP.

Partilhar via