Referens: Slutföranden | Azure Mašinsko učenje
Skapar ett slutförande för den angivna prompten och parametrarna.
POST /completions?api-version=2024-04-01-preview
Name | I | Obligatoriskt | Type | Beskrivning |
---|---|---|---|---|
api-version | query | Sant | sträng | Versionen av API:et i formatet "ÅÅÅÅ-MM-DD" eller "ÅÅÅÅ-MM-DD-preview". |
Begärandehuvud
Namn | Obligatoriskt | Type | Beskrivning |
---|---|---|---|
extraparametrar | sträng | Beteendet för API:et när extra parametrar anges i nyttolasten. Med gör pass-through api:et att skicka parametern till den underliggande modellen. Använd det här värdet när du vill skicka parametrar som du vet att den underliggande modellen kan stödja. Med hjälp av ignore får API:et att släppa valfri parameter som inte stöds. Använd det här värdet när du behöver använda samma nyttolast i olika modeller, men en av de extra parametrarna kan göra att en modell felar ut om den inte stöds. Api error :et används för att avvisa eventuella extra parametrar i nyttolasten. Endast parametrar som anges i det här API:et kan anges eller så returneras ett 400-fel. |
|
azureml-model-deployment | sträng | Namnet på den distribution som du vill dirigera begäran till. Stöds för slutpunkter som stöder flera distributioner. |
Begärandetext
Namn | Obligatoriskt | Type | Beskrivning |
---|---|---|---|
snabb | Sant | Uppmaningarna att generera slutföranden för, kodade som en sträng, matris med strängar, matris med token eller matris med tokenmatriser. Observera att <\|endoftext\|> är den dokumentavgränsare som modellen ser under träningen, så om en fråga inte anges genereras modellen som från början av ett nytt dokument. |
|
frequency_penalty | Nummer | Positiva värden straffar nya token baserat på deras befintliga frekvens i texten hittills, vilket minskar modellens sannolikhet att upprepa samma rad ordagrant. | |
max_tokens | integer | Det maximala antalet token som kan genereras i slutförandet. Tokenantalet för din fråga plus max_tokens får inte överskrida modellens kontextlängd. |
|
presence_penalty | Nummer | Positiva värden straffar nya token baserat på om de visas i texten hittills, vilket ökar modellens sannolikhet att prata om nya ämnen. | |
frö | integer | Om det anges gör modellen ett bästa försök att sampla deterministiskt, så att upprepade begäranden med samma seed och parametrar ska returnera samma resultat.Determinism är inte garanterad och du bör referera till svarsparametern system_fingerprint för att övervaka ändringar i serverdelen. |
|
Stanna | Sekvenser där API:et slutar generera ytterligare token. Den returnerade texten innehåller inte stoppsekvensen. | ||
ström | boolean | Om du vill strömma tillbaka partiella förlopp. Om det anges skickas token som databaserade serverutskickade händelser när de blir tillgängliga, och strömmen avslutas av ett data: [DONE] meddelande. |
|
temperatur | Nummer | Vilken samplingstemperatur som ska användas, mellan 0 och 2. Högre värden som 0,8 gör utdata mer slumpmässiga, medan lägre värden som 0,2 gör det mer fokuserat och deterministiskt. Vi rekommenderar vanligtvis att du temperature ändrar eller top_p inte båda. |
|
top_p | Nummer | Ett alternativ till sampling med temperatur, som kallas kärnsampling, där modellen tar hänsyn till resultatet av token med top_p sannolikhetsmassa. Så 0,1 innebär att endast token som består av den översta 10 % sannolikhetsmassan beaktas. Vi rekommenderar vanligtvis att du top_p ändrar eller temperature inte båda. |
Svar
Namn | Type | Beskrivning |
---|---|---|
200 OK | CreateCompletionResponse | OK |
401 – Ej behörig | UnauthorizedError | Åtkomsttoken saknas eller är ogiltig Sidhuvuden x-ms-error-code: string |
404 – Hittades inte | NotFoundError | Modalitet stöds inte av modellen. Kontrollera dokumentationen för modellen för att se vilka vägar som är tillgängliga. Sidhuvuden x-ms-error-code: string |
422 Entitet som inte kan bearbetas | UnprocessableContentError | Begäran innehåller oförbearbetat innehåll Sidhuvuden x-ms-error-code: string |
429 För många förfrågningar | TooManyRequestsError | Du har nått den tilldelade hastighetsgränsen och din begäran måste ökas i takt. Sidhuvuden x-ms-error-code: string |
Andra statuskoder | ContentFilterError | Felaktig begäran Sidhuvuden x-ms-error-code: string |
Säkerhet
Auktorisering
Token med prefixet Bearer:
, t.ex. Bearer abcde12345
Typ: apiKey
I: rubrik
AADToken
Azure Active Directory OAuth2-autentisering
Typ: oauth2
Flöde: program
Token-URL: https://login.microsoftonline.com/common/oauth2/v2.0/token
Exempel
Skapar ett slutförande för den angivna prompten och parametrarna
Exempelförfrågan
POST /completions?api-version=2024-04-01-preview
{
"prompt": "This is a very good text",
"frequency_penalty": 0,
"presence_penalty": 0,
"max_tokens": 256,
"seed": 42,
"stop": "<|endoftext|>",
"stream": false,
"temperature": 0,
"top_p": 1
}
Exempelsvar
Statuskod: 200
{
"id": "1234567890",
"model": "llama2-7b",
"choices": [
{
"index": 0,
"finish_reason": "stop",
"text": ", indeed it is a good one."
}
],
"created": 1234567890,
"object": "text_completion",
"usage": {
"prompt_tokens": 15,
"completion_tokens": 8,
"total_tokens": 23
}
}
Definitioner
Name | beskrivning |
---|---|
Choices | En lista över alternativ för chattens slutförande. |
CompletionFinishReason | Anledningen till att modellen slutade generera token. Det här är stop om modellen träffade en naturlig stopppunkt eller en angiven stoppsekvens, length om det maximala antalet token som angavs i begäran nåddes, content_filter om innehållet utelämnades på grund av en flagga från våra innehållsfilter. |
CompletionUsage | Användningsstatistik för slutförandebegäran. |
ContentFilterError | API-anropet misslyckas när kommandotolken utlöser ett innehållsfilter som konfigurerats. Ändra kommandotolken och försök igen. |
CreateCompletionRequest | |
CreateCompletionResponse | Representerar ett slutförandesvar från API:et. |
Detalj | |
TextCompletionObject | Objekttypen, som alltid är "text_completion" |
UnprocessableContentError |
Val
En lista över alternativ för chattens slutförande.
Namn | Type | Beskrivning |
---|---|---|
finish_reason | CompletionFinishReason | Anledningen till att modellen slutade generera token. Det här är stop om modellen träffade en naturlig stopppunkt eller en angiven stoppsekvens, length om det maximala antalet token som angavs i begäran nåddes, content_filter om innehållet utelämnades på grund av en flagga från våra innehållsfilter, tool_calls om modellen kallade ett verktyg. |
index | integer | Valfritt index i listan med alternativ. |
text | sträng | Den genererade texten. |
CompletionFinishReason
Anledningen till att modellen slutade generera token. Det här är stop
om modellen träffade en naturlig stopppunkt eller en angiven stoppsekvens, length
om det maximala antalet token som angavs i begäran nåddes, content_filter
om innehållet utelämnades på grund av en flagga från våra innehållsfilter.
Namn | Type | Beskrivning |
---|---|---|
content_filter | sträng | |
längd | sträng | |
Stanna | sträng |
CompletionUsage
Användningsstatistik för slutförandebegäran.
Namn | Type | Beskrivning |
---|---|---|
completion_tokens | integer | Antal token i det genererade slutförandet. |
prompt_tokens | integer | Antal token i prompten. |
total_tokens | integer | Totalt antal token som används i begäran (fråga + slutförande). |
ContentFilterError
API-anropet misslyckas när kommandotolken utlöser ett innehållsfilter som konfigurerats. Ändra kommandotolken och försök igen.
Namn | Type | Beskrivning |
---|---|---|
kod | sträng | Felkoden. |
fel | sträng | Felbeskrivningen. |
meddelande | sträng | Felmeddelandet. |
Param | sträng | Parametern som utlöste innehållsfiltret. |
status | integer | HTTP-statuskoden. |
CreateCompletionRequest
Namn | Type | Standardvärde | beskrivning |
---|---|---|---|
frequency_penalty | Nummer | 0 | Positiva värden straffar nya token baserat på deras befintliga frekvens i texten hittills, vilket minskar modellens sannolikhet att upprepa samma rad ordagrant. |
max_tokens | integer | 256 | Det maximala antalet token som kan genereras i slutförandet. Tokenantalet för din fråga plus max_tokens får inte överskrida modellens kontextlängd. |
presence_penalty | Nummer | 0 | Positiva värden straffar nya token baserat på om de visas i texten hittills, vilket ökar modellens sannolikhet att prata om nya ämnen. |
snabb | <\|endoftext\|> |
Uppmaningarna att generera slutföranden för, kodade som en sträng, matris med strängar, matris med token eller matris med tokenmatriser. Observera att <\|endoftext\|> är den dokumentavgränsare som modellen ser under träningen, så om en fråga inte anges genereras modellen som från början av ett nytt dokument. |
|
frö | integer | Om det anges gör vårt system bästa för att sampla deterministiskt, så att upprepade begäranden med samma seed och parametrar ska returnera samma resultat.Determinism är inte garanterad och du bör referera till svarsparametern system_fingerprint för att övervaka ändringar i serverdelen. |
|
Stanna | Sekvenser där API:et slutar generera ytterligare token. Den returnerade texten innehåller inte stoppsekvensen. | ||
ström | boolean | Falsk | Om du vill strömma tillbaka partiella förlopp. Om det anges skickas token som databaserade serverutskickade händelser när de blir tillgängliga, och strömmen avslutas av ett data: [DONE] meddelande. |
temperatur | Nummer | 1 | Vilken samplingstemperatur som ska användas, mellan 0 och 2. Högre värden som 0,8 gör utdata mer slumpmässiga, medan lägre värden som 0,2 gör det mer fokuserat och deterministiskt. Vi rekommenderar vanligtvis att du ändrar detta eller top_p men inte båda. |
top_p | Nummer | 1 | Ett alternativ till sampling med temperatur, som kallas kärnsampling, där modellen tar hänsyn till resultatet av token med top_p sannolikhetsmassa. Så 0,1 innebär att endast token som består av den översta 10 % sannolikhetsmassan beaktas. Vi rekommenderar vanligtvis att du ändrar detta eller temperature men inte båda. |
CreateCompletionResponse
Representerar ett slutförandesvar från API:et. Obs! Både strömmade och icke-strömmade svarsobjekt har samma form (till skillnad från chattslutpunkten).
Namn | Type | Beskrivning |
---|---|---|
Val | Alternativ[] | Listan över slutförandeval som modellen genererade för indataprompten. |
skapad | integer | Unix-tidsstämpeln (i sekunder) för när slutförandet skapades. |
ID | sträng | En unik identifierare för slutförandet. |
modell | sträng | Den modell som används för slutförande. |
objekt | TextCompletionObject | Objekttypen, som alltid är "text_completion" |
system_fingerprint | sträng | Det här fingeravtrycket representerar serverdelskonfigurationen som modellen körs med. Kan användas med parametern seed request för att förstå när serverdelsändringar har gjorts som kan påverka determinismen. |
användning | CompletionUsage | Användningsstatistik för slutförandebegäran. |
Detalj
Namn | Type | Beskrivning |
---|---|---|
Loc | string[] | Parametern som orsakar problemet |
värde | sträng | Värdet som skickas till parametern som orsakar problem. |
TextCompletionObject
Objekttypen, som alltid är "text_completion"
Namn | Type | Beskrivning |
---|---|---|
text_completion | sträng |
ListObject
Objekttypen, som alltid är "lista".
Namn | Type | Description |
---|---|---|
lista | sträng |
NotFoundError
Namn | Type | Beskrivning |
---|---|---|
fel | sträng | Felbeskrivningen. |
meddelande | sträng | Felmeddelandet. |
status | integer | HTTP-statuskoden. |
TooManyRequestsError
Namn | Type | Beskrivning |
---|---|---|
fel | sträng | Felbeskrivningen. |
meddelande | sträng | Felmeddelandet. |
status | integer | HTTP-statuskoden. |
UnauthorizedError
Namn | Type | Beskrivning |
---|---|---|
fel | sträng | Felbeskrivningen. |
meddelande | sträng | Felmeddelandet. |
status | integer | HTTP-statuskoden. |
UnprocessableContentError
Namn | Type | Beskrivning |
---|---|---|
kod | sträng | Felkoden. |
detalj | Detalj | |
fel | sträng | Felbeskrivningen. |
meddelande | sträng | Felmeddelandet. |
status | integer | HTTP-statuskoden. |