Dela via


Referens: Slutföranden | Azure Mašinsko učenje

Skapar ett slutförande för den angivna prompten och parametrarna.

POST /completions?api-version=2024-04-01-preview
Name I Obligatoriskt Type Beskrivning
api-version query Sant sträng Versionen av API:et i formatet "ÅÅÅÅ-MM-DD" eller "ÅÅÅÅ-MM-DD-preview".

Begärandehuvud

Namn Obligatoriskt Type Beskrivning
extraparametrar sträng Beteendet för API:et när extra parametrar anges i nyttolasten. Med gör pass-through api:et att skicka parametern till den underliggande modellen. Använd det här värdet när du vill skicka parametrar som du vet att den underliggande modellen kan stödja. Med hjälp av ignore får API:et att släppa valfri parameter som inte stöds. Använd det här värdet när du behöver använda samma nyttolast i olika modeller, men en av de extra parametrarna kan göra att en modell felar ut om den inte stöds. Api error :et används för att avvisa eventuella extra parametrar i nyttolasten. Endast parametrar som anges i det här API:et kan anges eller så returneras ett 400-fel.
azureml-model-deployment sträng Namnet på den distribution som du vill dirigera begäran till. Stöds för slutpunkter som stöder flera distributioner.

Begärandetext

Namn Obligatoriskt Type Beskrivning
snabb Sant Uppmaningarna att generera slutföranden för, kodade som en sträng, matris med strängar, matris med token eller matris med tokenmatriser. Observera att <\|endoftext\|> är den dokumentavgränsare som modellen ser under träningen, så om en fråga inte anges genereras modellen som från början av ett nytt dokument.
frequency_penalty Nummer Positiva värden straffar nya token baserat på deras befintliga frekvens i texten hittills, vilket minskar modellens sannolikhet att upprepa samma rad ordagrant.
max_tokens integer Det maximala antalet token som kan genereras i slutförandet. Tokenantalet för din fråga plus max_tokens får inte överskrida modellens kontextlängd.
presence_penalty Nummer Positiva värden straffar nya token baserat på om de visas i texten hittills, vilket ökar modellens sannolikhet att prata om nya ämnen.
frö integer Om det anges gör modellen ett bästa försök att sampla deterministiskt, så att upprepade begäranden med samma seed och parametrar ska returnera samma resultat.

Determinism är inte garanterad och du bör referera till svarsparametern system_fingerprint för att övervaka ändringar i serverdelen.
Stanna Sekvenser där API:et slutar generera ytterligare token. Den returnerade texten innehåller inte stoppsekvensen.
ström boolean Om du vill strömma tillbaka partiella förlopp. Om det anges skickas token som databaserade serverutskickade händelser när de blir tillgängliga, och strömmen avslutas av ett data: [DONE] meddelande.
temperatur Nummer Vilken samplingstemperatur som ska användas, mellan 0 och 2. Högre värden som 0,8 gör utdata mer slumpmässiga, medan lägre värden som 0,2 gör det mer fokuserat och deterministiskt.

Vi rekommenderar vanligtvis att du temperature ändrar eller top_p inte båda.
top_p Nummer Ett alternativ till sampling med temperatur, som kallas kärnsampling, där modellen tar hänsyn till resultatet av token med top_p sannolikhetsmassa. Så 0,1 innebär att endast token som består av den översta 10 % sannolikhetsmassan beaktas.

Vi rekommenderar vanligtvis att du top_p ändrar eller temperature inte båda.

Svar

Namn Type Beskrivning
200 OK CreateCompletionResponse OK
401 – Ej behörig UnauthorizedError Åtkomsttoken saknas eller är ogiltig

Sidhuvuden

x-ms-error-code: string
404 – Hittades inte NotFoundError Modalitet stöds inte av modellen. Kontrollera dokumentationen för modellen för att se vilka vägar som är tillgängliga.

Sidhuvuden

x-ms-error-code: string
422 Entitet som inte kan bearbetas UnprocessableContentError Begäran innehåller oförbearbetat innehåll

Sidhuvuden

x-ms-error-code: string
429 För många förfrågningar TooManyRequestsError Du har nått den tilldelade hastighetsgränsen och din begäran måste ökas i takt.

Sidhuvuden

x-ms-error-code: string
Andra statuskoder ContentFilterError Felaktig begäran

Sidhuvuden

x-ms-error-code: string

Säkerhet

Auktorisering

Token med prefixet Bearer: , t.ex. Bearer abcde12345

Typ: apiKey
I: rubrik

AADToken

Azure Active Directory OAuth2-autentisering

Typ: oauth2
Flöde: program
Token-URL: https://login.microsoftonline.com/common/oauth2/v2.0/token

Exempel

Skapar ett slutförande för den angivna prompten och parametrarna

Exempelförfrågan

POST /completions?api-version=2024-04-01-preview

{
  "prompt": "This is a very good text",
  "frequency_penalty": 0,
  "presence_penalty": 0,
  "max_tokens": 256,
  "seed": 42,
  "stop": "<|endoftext|>",
  "stream": false,
  "temperature": 0,
  "top_p": 1
}

Exempelsvar

Statuskod: 200

{
  "id": "1234567890",
  "model": "llama2-7b",
  "choices": [
    {
      "index": 0,
      "finish_reason": "stop",
      "text": ", indeed it is a good one."
    }
  ],
  "created": 1234567890,
  "object": "text_completion",
  "usage": {
    "prompt_tokens": 15,
    "completion_tokens": 8,
    "total_tokens": 23
  }
}

Definitioner

Name beskrivning
Choices En lista över alternativ för chattens slutförande.
CompletionFinishReason Anledningen till att modellen slutade generera token. Det här är stop om modellen träffade en naturlig stopppunkt eller en angiven stoppsekvens, length om det maximala antalet token som angavs i begäran nåddes, content_filter om innehållet utelämnades på grund av en flagga från våra innehållsfilter.
CompletionUsage Användningsstatistik för slutförandebegäran.
ContentFilterError API-anropet misslyckas när kommandotolken utlöser ett innehållsfilter som konfigurerats. Ändra kommandotolken och försök igen.
CreateCompletionRequest
CreateCompletionResponse Representerar ett slutförandesvar från API:et.
Detalj
TextCompletionObject Objekttypen, som alltid är "text_completion"
UnprocessableContentError

Val

En lista över alternativ för chattens slutförande.

Namn Type Beskrivning
finish_reason CompletionFinishReason Anledningen till att modellen slutade generera token. Det här är stop om modellen träffade en naturlig stopppunkt eller en angiven stoppsekvens, length om det maximala antalet token som angavs i begäran nåddes, content_filter om innehållet utelämnades på grund av en flagga från våra innehållsfilter, tool_calls om modellen kallade ett verktyg.
index integer Valfritt index i listan med alternativ.
text sträng Den genererade texten.

CompletionFinishReason

Anledningen till att modellen slutade generera token. Det här är stop om modellen träffade en naturlig stopppunkt eller en angiven stoppsekvens, length om det maximala antalet token som angavs i begäran nåddes, content_filter om innehållet utelämnades på grund av en flagga från våra innehållsfilter.

Namn Type Beskrivning
content_filter sträng
längd sträng
Stanna sträng

CompletionUsage

Användningsstatistik för slutförandebegäran.

Namn Type Beskrivning
completion_tokens integer Antal token i det genererade slutförandet.
prompt_tokens integer Antal token i prompten.
total_tokens integer Totalt antal token som används i begäran (fråga + slutförande).

ContentFilterError

API-anropet misslyckas när kommandotolken utlöser ett innehållsfilter som konfigurerats. Ändra kommandotolken och försök igen.

Namn Type Beskrivning
kod sträng Felkoden.
fel sträng Felbeskrivningen.
meddelande sträng Felmeddelandet.
Param sträng Parametern som utlöste innehållsfiltret.
status integer HTTP-statuskoden.

CreateCompletionRequest

Namn Type Standardvärde beskrivning
frequency_penalty Nummer 0 Positiva värden straffar nya token baserat på deras befintliga frekvens i texten hittills, vilket minskar modellens sannolikhet att upprepa samma rad ordagrant.
max_tokens integer 256 Det maximala antalet token som kan genereras i slutförandet. Tokenantalet för din fråga plus max_tokens får inte överskrida modellens kontextlängd.
presence_penalty Nummer 0 Positiva värden straffar nya token baserat på om de visas i texten hittills, vilket ökar modellens sannolikhet att prata om nya ämnen.
snabb <\|endoftext\|> Uppmaningarna att generera slutföranden för, kodade som en sträng, matris med strängar, matris med token eller matris med tokenmatriser. Observera att <\|endoftext\|> är den dokumentavgränsare som modellen ser under träningen, så om en fråga inte anges genereras modellen som från början av ett nytt dokument.
frö integer Om det anges gör vårt system bästa för att sampla deterministiskt, så att upprepade begäranden med samma seed och parametrar ska returnera samma resultat.

Determinism är inte garanterad och du bör referera till svarsparametern system_fingerprint för att övervaka ändringar i serverdelen.
Stanna Sekvenser där API:et slutar generera ytterligare token. Den returnerade texten innehåller inte stoppsekvensen.
ström boolean Falsk Om du vill strömma tillbaka partiella förlopp. Om det anges skickas token som databaserade serverutskickade händelser när de blir tillgängliga, och strömmen avslutas av ett data: [DONE] meddelande.
temperatur Nummer 1 Vilken samplingstemperatur som ska användas, mellan 0 och 2. Högre värden som 0,8 gör utdata mer slumpmässiga, medan lägre värden som 0,2 gör det mer fokuserat och deterministiskt.

Vi rekommenderar vanligtvis att du ändrar detta eller top_p men inte båda.
top_p Nummer 1 Ett alternativ till sampling med temperatur, som kallas kärnsampling, där modellen tar hänsyn till resultatet av token med top_p sannolikhetsmassa. Så 0,1 innebär att endast token som består av den översta 10 % sannolikhetsmassan beaktas.

Vi rekommenderar vanligtvis att du ändrar detta eller temperature men inte båda.

CreateCompletionResponse

Representerar ett slutförandesvar från API:et. Obs! Både strömmade och icke-strömmade svarsobjekt har samma form (till skillnad från chattslutpunkten).

Namn Type Beskrivning
Val Alternativ[] Listan över slutförandeval som modellen genererade för indataprompten.
skapad integer Unix-tidsstämpeln (i sekunder) för när slutförandet skapades.
ID sträng En unik identifierare för slutförandet.
modell sträng Den modell som används för slutförande.
objekt TextCompletionObject Objekttypen, som alltid är "text_completion"
system_fingerprint sträng Det här fingeravtrycket representerar serverdelskonfigurationen som modellen körs med.

Kan användas med parametern seed request för att förstå när serverdelsändringar har gjorts som kan påverka determinismen.
användning CompletionUsage Användningsstatistik för slutförandebegäran.

Detalj

Namn Type Beskrivning
Loc string[] Parametern som orsakar problemet
värde sträng Värdet som skickas till parametern som orsakar problem.

TextCompletionObject

Objekttypen, som alltid är "text_completion"

Namn Type Beskrivning
text_completion sträng

ListObject

Objekttypen, som alltid är "lista".

Namn Type Description
lista sträng

NotFoundError

Namn Type Beskrivning
fel sträng Felbeskrivningen.
meddelande sträng Felmeddelandet.
status integer HTTP-statuskoden.

TooManyRequestsError

Namn Type Beskrivning
fel sträng Felbeskrivningen.
meddelande sträng Felmeddelandet.
status integer HTTP-statuskoden.

UnauthorizedError

Namn Type Beskrivning
fel sträng Felbeskrivningen.
meddelande sträng Felmeddelandet.
status integer HTTP-statuskoden.

UnprocessableContentError

Namn Type Beskrivning
kod sträng Felkoden.
detalj Detalj
fel sträng Felbeskrivningen.
meddelande sträng Felmeddelandet.
status integer HTTP-statuskoden.