Referens: Slutföranden | Azure Mašinsko učenje

Artikel
09/02/2024

Skapar ett slutförande för den angivna prompten och parametrarna.

POST /completions?api-version=2024-04-01-preview

Name	I	Obligatoriskt	Type	Beskrivning
api-version	query	Sant	sträng	Versionen av API:et i formatet "ÅÅÅÅ-MM-DD" eller "ÅÅÅÅ-MM-DD-preview".

Begärandehuvud

Namn	Obligatoriskt	Type	Beskrivning
extraparametrar		sträng	Beteendet för API:et när extra parametrar anges i nyttolasten. Med gör `pass-through` api:et att skicka parametern till den underliggande modellen. Använd det här värdet när du vill skicka parametrar som du vet att den underliggande modellen kan stödja. Med hjälp av `ignore` får API:et att släppa valfri parameter som inte stöds. Använd det här värdet när du behöver använda samma nyttolast i olika modeller, men en av de extra parametrarna kan göra att en modell felar ut om den inte stöds. Api `error` :et används för att avvisa eventuella extra parametrar i nyttolasten. Endast parametrar som anges i det här API:et kan anges eller så returneras ett 400-fel.
azureml-model-deployment		sträng	Namnet på den distribution som du vill dirigera begäran till. Stöds för slutpunkter som stöder flera distributioner.

Begärandetext

Namn	Obligatoriskt	Type	Beskrivning
snabb	Sant		Uppmaningarna att generera slutföranden för, kodade som en sträng, matris med strängar, matris med token eller matris med tokenmatriser. Observera att `<\\|endoftext\\|>` är den dokumentavgränsare som modellen ser under träningen, så om en fråga inte anges genereras modellen som från början av ett nytt dokument.
frequency_penalty		Nummer	Positiva värden straffar nya token baserat på deras befintliga frekvens i texten hittills, vilket minskar modellens sannolikhet att upprepa samma rad ordagrant.
max_tokens		integer	Det maximala antalet token som kan genereras i slutförandet. Tokenantalet för din fråga plus `max_tokens` får inte överskrida modellens kontextlängd.
presence_penalty		Nummer	Positiva värden straffar nya token baserat på om de visas i texten hittills, vilket ökar modellens sannolikhet att prata om nya ämnen.
frö		integer	Om det anges gör modellen ett bästa försök att sampla deterministiskt, så att upprepade begäranden med samma `seed` och parametrar ska returnera samma resultat. Determinism är inte garanterad och du bör referera till svarsparametern `system_fingerprint` för att övervaka ändringar i serverdelen.
Stanna			Sekvenser där API:et slutar generera ytterligare token. Den returnerade texten innehåller inte stoppsekvensen.
ström		boolean	Om du vill strömma tillbaka partiella förlopp. Om det anges skickas token som databaserade serverutskickade händelser när de blir tillgängliga, och strömmen avslutas av ett `data: [DONE]` meddelande.
temperatur		Nummer	Vilken samplingstemperatur som ska användas, mellan 0 och 2. Högre värden som 0,8 gör utdata mer slumpmässiga, medan lägre värden som 0,2 gör det mer fokuserat och deterministiskt. Vi rekommenderar vanligtvis att du `temperature` ändrar eller `top_p` inte båda.
top_p		Nummer	Ett alternativ till sampling med temperatur, som kallas kärnsampling, där modellen tar hänsyn till resultatet av token med top_p sannolikhetsmassa. Så 0,1 innebär att endast token som består av den översta 10 % sannolikhetsmassan beaktas. Vi rekommenderar vanligtvis att du `top_p` ändrar eller `temperature` inte båda.

Svar

Namn	Type	Beskrivning
200 OK	CreateCompletionResponse	OK
401 – Ej behörig	UnauthorizedError	Åtkomsttoken saknas eller är ogiltig Sidhuvuden x-ms-error-code: string
404 – Hittades inte	NotFoundError	Modalitet stöds inte av modellen. Kontrollera dokumentationen för modellen för att se vilka vägar som är tillgängliga. Sidhuvuden x-ms-error-code: string
422 Entitet som inte kan bearbetas	UnprocessableContentError	Begäran innehåller oförbearbetat innehåll Sidhuvuden x-ms-error-code: string
429 För många förfrågningar	TooManyRequestsError	Du har nått den tilldelade hastighetsgränsen och din begäran måste ökas i takt. Sidhuvuden x-ms-error-code: string
Andra statuskoder	ContentFilterError	Felaktig begäran Sidhuvuden x-ms-error-code: string

Säkerhet

Auktorisering

Token med prefixet Bearer: , t.ex. Bearer abcde12345

Typ: apiKey
I: rubrik

AADToken

Azure Active Directory OAuth2-autentisering

Typ: oauth2
Flöde: program
Token-URL: https://login.microsoftonline.com/common/oauth2/v2.0/token

Exempel

Skapar ett slutförande för den angivna prompten och parametrarna

Exempelförfrågan

POST /completions?api-version=2024-04-01-preview

{
  "prompt": "This is a very good text",
  "frequency_penalty": 0,
  "presence_penalty": 0,
  "max_tokens": 256,
  "seed": 42,
  "stop": "<|endoftext|>",
  "stream": false,
  "temperature": 0,
  "top_p": 1
}

Exempelsvar

Statuskod: 200

{
  "id": "1234567890",
  "model": "llama2-7b",
  "choices": [
    {
      "index": 0,
      "finish_reason": "stop",
      "text": ", indeed it is a good one."
    }
  ],
  "created": 1234567890,
  "object": "text_completion",
  "usage": {
    "prompt_tokens": 15,
    "completion_tokens": 8,
    "total_tokens": 23
  }
}

Definitioner

Name	beskrivning
Choices	En lista över alternativ för chattens slutförande.
CompletionFinishReason	Anledningen till att modellen slutade generera token. Det här är `stop` om modellen träffade en naturlig stopppunkt eller en angiven stoppsekvens, `length` om det maximala antalet token som angavs i begäran nåddes, `content_filter` om innehållet utelämnades på grund av en flagga från våra innehållsfilter.
CompletionUsage	Användningsstatistik för slutförandebegäran.
ContentFilterError	API-anropet misslyckas när kommandotolken utlöser ett innehållsfilter som konfigurerats. Ändra kommandotolken och försök igen.
CreateCompletionRequest
CreateCompletionResponse	Representerar ett slutförandesvar från API:et.
Detalj
TextCompletionObject	Objekttypen, som alltid är "text_completion"
UnprocessableContentError

Val

En lista över alternativ för chattens slutförande.

Namn	Type	Beskrivning
finish_reason	CompletionFinishReason	Anledningen till att modellen slutade generera token. Det här är `stop` om modellen träffade en naturlig stopppunkt eller en angiven stoppsekvens, `length` om det maximala antalet token som angavs i begäran nåddes, `content_filter` om innehållet utelämnades på grund av en flagga från våra innehållsfilter, `tool_calls` om modellen kallade ett verktyg.
index	integer	Valfritt index i listan med alternativ.
text	sträng	Den genererade texten.

CompletionFinishReason

Anledningen till att modellen slutade generera token. Det här är stop om modellen träffade en naturlig stopppunkt eller en angiven stoppsekvens, length om det maximala antalet token som angavs i begäran nåddes, content_filter om innehållet utelämnades på grund av en flagga från våra innehållsfilter.

Namn	Type	Beskrivning
content_filter	sträng
längd	sträng
Stanna	sträng

CompletionUsage

Användningsstatistik för slutförandebegäran.

Namn	Type	Beskrivning
completion_tokens	integer	Antal token i det genererade slutförandet.
prompt_tokens	integer	Antal token i prompten.
total_tokens	integer	Totalt antal token som används i begäran (fråga + slutförande).

ContentFilterError

API-anropet misslyckas när kommandotolken utlöser ett innehållsfilter som konfigurerats. Ändra kommandotolken och försök igen.

Namn	Type	Beskrivning
kod	sträng	Felkoden.
fel	sträng	Felbeskrivningen.
meddelande	sträng	Felmeddelandet.
Param	sträng	Parametern som utlöste innehållsfiltret.
status	integer	HTTP-statuskoden.

CreateCompletionRequest

Namn	Type	Standardvärde	beskrivning
frequency_penalty	Nummer	0	Positiva värden straffar nya token baserat på deras befintliga frekvens i texten hittills, vilket minskar modellens sannolikhet att upprepa samma rad ordagrant.
max_tokens	integer	256	Det maximala antalet token som kan genereras i slutförandet. Tokenantalet för din fråga plus `max_tokens` får inte överskrida modellens kontextlängd.
presence_penalty	Nummer	0	Positiva värden straffar nya token baserat på om de visas i texten hittills, vilket ökar modellens sannolikhet att prata om nya ämnen.
snabb		`<\\|endoftext\\|>`	Uppmaningarna att generera slutföranden för, kodade som en sträng, matris med strängar, matris med token eller matris med tokenmatriser. Observera att `<\\|endoftext\\|>` är den dokumentavgränsare som modellen ser under träningen, så om en fråga inte anges genereras modellen som från början av ett nytt dokument.
frö	integer		Om det anges gör vårt system bästa för att sampla deterministiskt, så att upprepade begäranden med samma `seed` och parametrar ska returnera samma resultat. Determinism är inte garanterad och du bör referera till svarsparametern `system_fingerprint` för att övervaka ändringar i serverdelen.
Stanna			Sekvenser där API:et slutar generera ytterligare token. Den returnerade texten innehåller inte stoppsekvensen.
ström	boolean	Falsk	Om du vill strömma tillbaka partiella förlopp. Om det anges skickas token som databaserade serverutskickade händelser när de blir tillgängliga, och strömmen avslutas av ett `data: [DONE]` meddelande.
temperatur	Nummer	1	Vilken samplingstemperatur som ska användas, mellan 0 och 2. Högre värden som 0,8 gör utdata mer slumpmässiga, medan lägre värden som 0,2 gör det mer fokuserat och deterministiskt. Vi rekommenderar vanligtvis att du ändrar detta eller `top_p` men inte båda.
top_p	Nummer	1	Ett alternativ till sampling med temperatur, som kallas kärnsampling, där modellen tar hänsyn till resultatet av token med top_p sannolikhetsmassa. Så 0,1 innebär att endast token som består av den översta 10 % sannolikhetsmassan beaktas. Vi rekommenderar vanligtvis att du ändrar detta eller `temperature` men inte båda.

CreateCompletionResponse

Representerar ett slutförandesvar från API:et. Obs! Både strömmade och icke-strömmade svarsobjekt har samma form (till skillnad från chattslutpunkten).

Namn	Type	Beskrivning
Val	Alternativ[]	Listan över slutförandeval som modellen genererade för indataprompten.
skapad	integer	Unix-tidsstämpeln (i sekunder) för när slutförandet skapades.
ID	sträng	En unik identifierare för slutförandet.
modell	sträng	Den modell som används för slutförande.
objekt	TextCompletionObject	Objekttypen, som alltid är "text_completion"
system_fingerprint	sträng	Det här fingeravtrycket representerar serverdelskonfigurationen som modellen körs med. Kan användas med parametern `seed` request för att förstå när serverdelsändringar har gjorts som kan påverka determinismen.
användning	CompletionUsage	Användningsstatistik för slutförandebegäran.

Detalj

Namn	Type	Beskrivning
Loc	string[]	Parametern som orsakar problemet
värde	sträng	Värdet som skickas till parametern som orsakar problem.

TextCompletionObject

Objekttypen, som alltid är "text_completion"

Namn	Type	Beskrivning
text_completion	sträng

ListObject

Objekttypen, som alltid är "lista".

Namn	Type	Description
lista	sträng

NotFoundError

Namn	Type	Beskrivning
fel	sträng	Felbeskrivningen.
meddelande	sträng	Felmeddelandet.
status	integer	HTTP-statuskoden.

TooManyRequestsError

Namn	Type	Beskrivning
fel	sträng	Felbeskrivningen.
meddelande	sträng	Felmeddelandet.
status	integer	HTTP-statuskoden.

UnauthorizedError

Namn	Type	Beskrivning
fel	sträng	Felbeskrivningen.
meddelande	sträng	Felmeddelandet.
status	integer	HTTP-statuskoden.

UnprocessableContentError

Namn	Type	Beskrivning
kod	sträng	Felkoden.
detalj	Detalj
fel	sträng	Felbeskrivningen.
meddelande	sträng	Felmeddelandet.
status	integer	HTTP-statuskoden.

Dela via