Referenz: Vervollständigungen | Azure KI Studio

Artikel
07/04/2024

Wichtig

Einige der in diesem Artikel beschriebenen Features sind möglicherweise nur in der Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Erstellt eine Vervollständigung für den angegebenen Prompt und die angegebenen Parameter.

POST /completions?api-version=2024-04-01-preview

Name	Geben Sie in	Erforderlich	Type	BESCHREIBUNG
api-version	Abfrage	True	Zeichenfolge	Die Version der API im Format "JJJJ-MM-TT" oder "JJJJ-MM-TT-Vorschau"

Anforderungsheader

Name	Erforderlich	Type	Beschreibung
Zusätzliche Parameter		Zeichenfolge	Das Verhalten der API, wenn zusätzliche Parameter in der Nutzlast angegeben werden. Durch die Verwendung von `pass-through` wird die API zum Übergeben des Parameters an das zugrunde liegende Modell angeregt. Verwenden Sie diesen Wert, wenn Sie Parameter übergeben möchten, die Ihnen bekannt sind, damit das zugrunde liegende Modell unterstützt werden kann. Die Verwendung von `ignore` führt dazu, dass die API alle nicht unterstützten Parameter ablegt. Verwenden Sie diesen Wert, wenn Sie dieselbe Nutzlast in verschiedenen Modellen verwenden müssen, aber einer der zusätzlichen Parameter kann dazu führen, dass ein Modell ausfällt, wenn es nicht unterstützt wird. Die Verwendung von `error` sorgt dafür, dass die API alle zusätzlichen Parameter in der Nutzlast ablehnt. Es können nur Parameter angegeben werden, die in dieser API festgelegt sind, ansonsten wird ein 400-Fehler zurückgegeben.
azureml-model-deployment		Zeichenfolge	Name der Bereitstellung, an die Sie die Anforderung weiterleiten möchten Unterstützt für Endpunkte, die mehrere Bereitstellungen unterstützen

Anforderungstext

Name	Erforderlich	Type	Beschreibung
prompt	True		Die Prompts zum Generieren von Vervollständigungen, die als Zeichenfolge, Array von Zeichenfolgen, Array von Token oder Array von Tokenarrays codiert werden Beachten Sie, dass `<\\|endoftext\\|>` das Dokumententrennzeichen enthält, das das Modell während des Trainings sieht. Wenn kein Prompt angegeben wird, generiert das Modell daher so, als würde es sich am Anfang eines neuen Dokuments befinden.
frequency_penalty		Zahl	Positive Werte benachteiligen neue Token auf der Grundlage ihrer bisherigen Häufigkeit im Text, wodurch die Wahrscheinlichkeit, dass das Modell dieselbe Zeile wortwörtlich wiederholt, sinkt.
max_tokens		integer	Die maximale Anzahl von Token, die in der Vervollständigung generiert werden können. Die Tokenanzahl Ihres Prompts plus `max_tokens` darf die Kontextlänge des Modells nicht überschreiten.
presence_penalty		Zahl	Positive Werte benachteiligen neue Token, je nachdem, ob sie bereits im Text vorkommen, und erhöhen so die Wahrscheinlichkeit, dass das Modell über neue Themen spricht.
seed		integer	Wenn dies angeben ist, bemüht sich das Modell nach besten Kräften, eine deterministische Auswahl der Token zu treffen, sodass wiederholte Anforderungen mit demselben `seed` und denselben Parametern dasselbe Ergebnis liefern sollten. Der Determinismus ist nicht garantiert, und Sie sollten sich auf den Antwortparameter `system_fingerprint` beziehen, um Änderungen im Back-End zu überwachen.
stop			Sequenzen, bei denen die API aufhört, weitere Token zu generieren. Die Beendigungssequenz ist nicht im zurückgegebenen Text enthalten.
Datenstrom		boolean	Gibt an, ob der Teilfortschritt zurückgestreamt werden soll. Wenn dieser Parameter festgelegt wird, werden Token als vom Server gesendete Ereignisse (nur Daten) übermittelt, sobald sie verfügbar sind, wobei der Stream durch die Nachricht `data: [DONE]` beendet wird.
Temperatur		Zahl	Die zu verwendende Temperatur für die Stichprobenentnahme zwischen 0 und 2. Durch höhere Werte wie 0,8 wird die Ausgabe zufälliger, während sie durch niedrigere Werte wie 0,2 fokussierter und deterministischer wird. Im Allgemeinen wird empfohlen, `temperature` oder `top_p` zu ändern, aber nicht beides.
top_p		Zahl	Eine Alternative zur Stichprobenentnahme mit Temperatur, die sogenannte Kernstichprobenentnahme (Nucleus Sampling), bei dem das Modell die Ergebnisse der Token mit der Wahrscheinlichkeitsmasse „top_p“ berücksichtigt. Daher bedeutet 0,1, dass nur die Token berücksichtigt werden, die die oberen 10 % der Wahrscheinlichkeitsmasse umfassen. Im Allgemeinen wird empfohlen, `top_p` oder `temperature` zu ändern, aber nicht beides.

Antworten

Name	Typ	BESCHREIBUNG
200 – OK	CreateCompletionResponse	OK
401 – Nicht autorisiert	UnauthorizedError	Zugriffstoken fehlt oder ist ungültig Kopfzeile x-ms-error-code: string
404 Nicht gefunden	NotFoundError	Modalität wird vom Modell nicht unterstützt. Sehen Sie in der Dokumentation des Modells nach, welche Routen verfügbar sind. Kopfzeile x-ms-error-code: string
422: Entität kann nicht verarbeitet werden	UnprocessableContentError	Die Anforderung enthält nicht verarbeitbaren Inhalt. Kopfzeile x-ms-error-code: string
429 – Zu viele Anforderungen	TooManyRequestsError	Sie haben das zugewiesene Ratenlimit erreicht, und Ihre Anforderung muss beschleunigt werden. Kopfzeile x-ms-error-code: string
Andere Statuscodes	ContentFilterError	Ungültige Anforderung Kopfzeile x-ms-error-code: string

Sicherheit

Autorisierung

Das Token mit dem Bearer:-Präfix, z. B. Bearer abcde12345

Typ: apiKey
In: Header

AADToken

Azure Active Directory OAuth2-Authentifizierung

Typ: oauth2
Flow: Anwendung
Token-URL: https://login.microsoftonline.com/common/oauth2/v2.0/token

Beispiele

Erstellt eine Vervollständigung für den angegebenen Prompt und die angegebenen Parameter

Beispiel-Anfrage

POST /completions?api-version=2024-04-01-preview

{
  "prompt": "This is a very good text",
  "frequency_penalty": 0,
  "presence_penalty": 0,
  "max_tokens": 256,
  "seed": 42,
  "stop": "<|endoftext|>",
  "stream": false,
  "temperature": 0,
  "top_p": 1
}

Beispiel für eine Antwort

Statuscode: 200

{
  "id": "1234567890",
  "model": "llama2-7b",
  "choices": [
    {
      "index": 0,
      "finish_reason": "stop",
      "text": ", indeed it is a good one."
    }
  ],
  "created": 1234567890,
  "object": "text_completion",
  "usage": {
    "prompt_tokens": 15,
    "completion_tokens": 8,
    "total_tokens": 23
  }
}

Definitionen

Name	Beschreibung
Optionen	Eine Liste der Auswahlmöglichkeiten für den Chatabschluss.
CompletionFinishReason	Der Grund, warum das Modell das Generieren von Token beendet hat. Dies ist `stop`, wenn das Modell einen natürlichen Stopppunkt oder eine angegebene Stoppsequenz erreicht hat, oder `length`, wenn die in der Anforderung angegebene maximale Anzahl von Token erreicht wurde, oder `content_filter`, wenn Inhalte aufgrund eines Flags in unseren Inhaltsfiltern ausgelassen wurden.
CompletionUsage	Nutzungsstatistiken für die Vervollständigungsanforderung
ContentFilterError	Der API-Aufruf schlägt fehl, wenn der Prompt einen Inhaltsfilter wie konfiguriert auslöst. Ändern Sie die Äußerung, und versuchen Sie es erneut.
CreateCompletionRequest
CreateCompletionResponse	Stellt eine Vervollständigungsantwort der API dar.
Detail
TextCompletionObject	Der Objekttyp, der immer „text_completion“ lautet
UnprocessableContentError

Optionen

Eine Liste der Auswahlmöglichkeiten für den Chatabschluss.

Name	Typ	Beschreibung
finish_reason	CompletionFinishReason	Der Grund, warum das Modell das Generieren von Token beendet hat. Dies ist `stop`, wenn das Modell einen natürlichen Stopppunkt oder eine angegebene Stoppsequenz erreicht hat, oder `length`, wenn die in der Anforderung angegebene maximale Anzahl von Token erreicht wurde, oder `content_filter`, wenn Inhalte aufgrund eines Flags in unseren Inhaltsfiltern ausgelassen wurden, oder `tool_calls`, wenn das Modell ein Tool aufgerufen hat.
Index	integer	Der Index der Auswahl in der Liste der Auswahlmöglichkeiten
Text	Zeichenfolge	Der generierte Text.

CompletionFinishReason

Der Grund, warum das Modell das Generieren von Token beendet hat. Dies ist stop, wenn das Modell einen natürlichen Stopppunkt oder eine angegebene Stoppsequenz erreicht hat, oder length, wenn die in der Anforderung angegebene maximale Anzahl von Token erreicht wurde, oder content_filter, wenn Inhalte aufgrund eines Flags in unseren Inhaltsfiltern ausgelassen wurden.

Name	Typ	Beschreibung
content_filter	Zeichenfolge
length	Zeichenfolge
stop	Zeichenfolge

CompletionUsage

Nutzungsstatistiken für die Vervollständigungsanforderung

Name	Typ	Beschreibung
completion_tokens	integer	Anzahl der Token in der generierten Vervollständigung
prompt_tokens	integer	Anzahl der Token im Prompt.
total_tokens	integer	Die Gesamtzahl der in der Anforderung verwendeten Token (Prompt + Vervollständigung).

ContentFilterError

Der API-Aufruf schlägt fehl, wenn der Prompt einen Inhaltsfilter wie konfiguriert auslöst. Ändern Sie die Äußerung, und versuchen Sie es erneut.

Name	Typ	BESCHREIBUNG
code	Zeichenfolge	Der Fehlercode.
error	Zeichenfolge	Die Fehlerbeschreibung.
message	Zeichenfolge	Die Fehlermeldung.
param	Zeichenfolge	Der Parameter, der den Inhaltsfilter ausgelöst hat.
status	integer	Der HTTP-Statuscode.

CreateCompletionRequest

Name	Type	Standardwert	Beschreibung
frequency_penalty	Zahl	0	Positive Werte benachteiligen neue Token auf der Grundlage ihrer bisherigen Häufigkeit im Text, wodurch die Wahrscheinlichkeit, dass das Modell dieselbe Zeile wortwörtlich wiederholt, sinkt.
max_tokens	integer	256	Die maximale Anzahl von Token, die in der Vervollständigung generiert werden können. Die Tokenanzahl Ihres Prompts plus `max_tokens` darf die Kontextlänge des Modells nicht überschreiten.
presence_penalty	Zahl	0	Positive Werte benachteiligen neue Token, je nachdem, ob sie bereits im Text vorkommen, und erhöhen so die Wahrscheinlichkeit, dass das Modell über neue Themen spricht.
prompt		`<\\|endoftext\\|>`	Die Prompts zum Generieren von Vervollständigungen, die als Zeichenfolge, Array von Zeichenfolgen, Array von Token oder Array von Tokenarrays codiert werden Beachten Sie, dass `<\\|endoftext\\|>` das Dokumententrennzeichen enthält, das das Modell während des Trainings sieht. Wenn kein Prompt angegeben wird, generiert das Modell daher so, als würde es sich am Anfang eines neuen Dokuments befinden.
seed	integer		Wenn Sie dies angeben, bemüht sich unser System nach besten Kräften, eine deterministische Auswahl zu treffen, sodass wiederholte Anforderungen mit demselben `seed` und denselben Parametern dasselbe Ergebnis liefern sollten. Der Determinismus ist nicht garantiert, und Sie sollten sich auf den Antwortparameter `system_fingerprint` beziehen, um Änderungen im Back-End zu überwachen.
stop			Sequenzen, bei denen die API aufhört, weitere Token zu generieren. Die Beendigungssequenz ist nicht im zurückgegebenen Text enthalten.
Datenstrom	boolean	False	Gibt an, ob der Teilfortschritt zurückgestreamt werden soll. Wenn dieser Parameter festgelegt wird, werden Token als vom Server gesendete Ereignisse (nur Daten) übermittelt, sobald sie verfügbar sind, wobei der Stream durch die Nachricht `data: [DONE]` beendet wird.
Temperatur	number	1	Die zu verwendende Temperatur für die Stichprobenentnahme zwischen 0 und 2. Durch höhere Werte wie 0,8 wird die Ausgabe zufälliger, während sie durch niedrigere Werte wie 0,2 fokussierter und deterministischer wird. Wir empfehlen im Allgemeinen, dies oder `top_p` zu ändern, aber nicht beides.
top_p	number	1	Eine Alternative zur Stichprobenentnahme mit Temperatur, die sogenannte Kernstichprobenentnahme (Nucleus Sampling), bei dem das Modell die Ergebnisse der Token mit der Wahrscheinlichkeitsmasse „top_p“ berücksichtigt. Daher bedeutet 0,1, dass nur die Token berücksichtigt werden, die die oberen 10 % der Wahrscheinlichkeitsmasse umfassen. Wir empfehlen im Allgemeinen, dies oder `temperature` zu ändern, aber nicht beides.

CreateCompletionResponse

Stellt eine Vervollständigungsantwort der API dar. Hinweis: Sowohl die gestreamten als auch nicht gestreamten Antwortobjekte verwenden dieselbe Form (im Gegensatz zum Chatendpunkt).

Name	Typ	Beschreibung
Optionen	Choices[]	Die Liste der Vervollständigungsoptionen, die das Modell für die Eingabeaufforderung generiert hat
erstellte	integer	Der Unix-Zeitstempel (in Sekunden) des Zeitpunkts, zu dem die Vervollständigung erstellt wurde
Kennung	Zeichenfolge	Eindeutiger Bezeichner für die Vervollständigung
model	Zeichenfolge	Das für die Vervollständigung verwendete Modell
Objekt	TextCompletionObject	Der Objekttyp, der immer „text_completion“ lautet
system_fingerprint	Zeichenfolge	Dieser Fingerabdruck stellt die Back-End-Konfiguration dar, mit der das Modell ausgeführt wird. Kann mit dem Anforderungsparameter `seed` verwendet werden, um zu verstehen, wann Back-End-Änderungen vorgenommen wurden, die sich auf den Determinismus auswirken können.
Nutzung	CompletionUsage	Nutzungsstatistiken für die Vervollständigungsanforderung

Detail

Name	Typ	Beschreibung
loc	string[]	Der Parameter, der das Problem verursacht
value	Zeichenfolge	Der an den Parameter übergebene Wert, der Probleme verursacht.

TextCompletionObject

Der Objekttyp, der immer „text_completion“ lautet

Name	Typ	Beschreibung
text_completion	Zeichenfolge

ListObject

Der Objekttyp, der immer „list“ lautet.

Name	Typ	Beschreibung des Dataflows
list	Zeichenfolge

NotFoundError

Name	Typ	Beschreibung des Dataflows
error	Zeichenfolge	Die Fehlerbeschreibung.
message	Zeichenfolge	Die Fehlermeldung.
status	integer	Der HTTP-Statuscode.

TooManyRequestsError

Name	Typ	Beschreibung des Dataflows
error	Zeichenfolge	Die Fehlerbeschreibung.
message	Zeichenfolge	Die Fehlermeldung.
status	integer	Der HTTP-Statuscode.

UnauthorizedError

Name	Typ	Beschreibung des Dataflows
error	Zeichenfolge	Die Fehlerbeschreibung.
message	Zeichenfolge	Die Fehlermeldung.
status	integer	Der HTTP-Statuscode.

UnprocessableContentError

Name	Typ	BESCHREIBUNG
code	Zeichenfolge	Der Fehlercode.
Detail	Detail
error	Zeichenfolge	Die Fehlerbeschreibung.
message	Zeichenfolge	Die Fehlermeldung.
status	integer	Der HTTP-Statuscode.

Freigeben über