Delen via


Naslaginformatie voor de REST API van het Foundation-model

Dit artikel bevat algemene API-informatie voor Databricks Foundation Model-API's en de modellen die ze ondersteunen. De Foundation Model-API's zijn ontworpen om vergelijkbaar te zijn met de REST API van OpenAI, zodat bestaande projecten eenvoudiger kunnen worden gemigreerd. Zowel het betalen per token als de ingerichte doorvoereindpunten accepteren dezelfde REST API-aanvraagindeling.

eindpunten

Foundation Model-API's ondersteunen eindpunten voor betalen per token en ingerichte doorvoereindpunten.

Een vooraf geconfigureerd eindpunt is beschikbaar in uw werkruimte voor elk model dat wordt ondersteund met betalen per token en gebruikers kunnen met deze eindpunten communiceren met behulp van HTTP POST-aanvragen. Zie Ondersteunde basismodellen op Mosaic AI Model Serving voor ondersteunde modellen.

Ingerichte doorvoereindpunten kunnen worden gemaakt met behulp van de API of de Gebruikersondersteuning-UI. Deze eindpunten ondersteunen meerdere modellen per eindpunt voor A/B-tests, zolang beide dienende modellen dezelfde API-indeling hebben. Beide modellen zijn bijvoorbeeld chatmodellen. Zie POST /api/2.0/serving-endpoints voor eindpuntconfiguratieparameters.

Aanvragen en antwoorden maken gebruik van JSON. De exacte JSON-structuur is afhankelijk van het taaktype van een eindpunt. Chat- en voltooiingseindpunten ondersteunen streamingantwoorden.

Gebruik

Antwoorden bevatten een usage subbericht dat het aantal tokens in de aanvraag en het antwoord rapporteert. De indeling van dit subbericht is hetzelfde voor alle taaktypen.

Veld Soort Beschrijving
completion_tokens Geheel getal Aantal gegenereerde tokens. Niet inbegrepen in het embedden van antwoorden.
prompt_tokens Geheel getal Aantal tokens van de invoerprompt(s).
total_tokens Geheel getal Aantal totale tokens.
reasoning_tokens Geheel getal Het aantal denktokens. Het is alleen van toepassing op redeneringsmodellen.

Voor modellen zoals databricks-meta-llama-3-3-70b-instruct wordt een gebruikersprompt getransformeerd met behulp van een promptsjabloon voordat deze wordt doorgegeven aan het model. Voor eindpunten met betalen per token kan er ook een systeemprompt worden toegevoegd. prompt_tokens bevat alle tekst die door onze server is toegevoegd.

Antwoord-API

Belangrijk

De Antwoorden-API is alleen compatibel met OpenAI-modellen.

De Responses-API maakt gesprekken met meerdere beurten mogelijk met een model. In tegenstelling tot chatvoltooiingen gebruikt de Antwoorden-API input in plaats van messages.

Antwoord-API-aanvraag

Veld Verstek Soort Beschrijving
model Snaar Vereist. Model-id die wordt gebruikt om het antwoord te genereren.
input Tekenreeks of lijst[ResponsesInput] Vereist. Tekst, afbeelding of bestandsinvoer voor het model, dat wordt gebruikt om een antwoord te genereren. In tegenstelling tot messages, wordt dit veld gebruikt om met input gespreksinhoud op te geven.
instructions null Snaar Een systeembericht (of ontwikkelaar) dat is ingevoegd in de context van het model.
max_output_tokens null null, wat betekent dat er geen limiet of een geheel getal groter is dan nul Een bovengrens voor het aantal tokens dat kan worden gegenereerd voor een antwoord, inclusief zichtbare uitvoertokens en redeneringstokens.
temperature 1.0 Zweven in [0,2] De monsternametemperatuur. 0 is deterministisch en hogere waarden introduceren meer willekeurigheid.
top_p 1.0 Zweven in (0,1] De waarschijnlijkheidsdrempel die wordt gebruikt voor kernsampling.
stream false Booleaans Als deze optie is ingesteld op true, worden de antwoordgegevens van het model naar de client gestreamd terwijl deze worden gegenereerd met behulp van door de server verzonden gebeurtenissen.
stream_options null StreamOptions Opties voor streamingreacties. Stel dit alleen in wanneer u instelt stream: true.
text null TextConfig Configuratieopties voor een tekstantwoord van het model. Dit kunnen tekst zonder opmaak of gestructureerde JSON-gegevens zijn.
reasoning null ReasoningConfig Redeneringsconfiguratie voor gpt-5- en o-seriemodellen.
tool_choice "auto" String of ToolChoiceObject Hoe het model moet selecteren welk hulpprogramma (of hulpprogramma's) moeten worden gebruikt bij het genereren van een antwoord. Zie de tools parameter om te zien welke hulpprogramma's het model kan aanroepen.
tools null List[ToolObject] Een matrix met hulpprogramma's die het model kan aanroepen tijdens het genereren van een antwoord. Opmerking: Code-interpreter- en webzoekprogramma's worden niet ondersteund door Databricks.
parallel_tool_calls true Booleaans Hiermee wordt aangegeven of het model hulpprogramma-aanroepen parallel mag uitvoeren.
max_tool_calls null Geheel getal groter dan nul Het maximum aantal aanroepen naar ingebouwde hulpprogramma's dat kan worden verwerkt in een antwoord.
metadata null Voorwerp Set van 16 sleutel-waardeparen die aan een object kunnen worden gekoppeld.
prompt_cache_key null Snaar Wordt gebruikt voor het opslaan van reacties op vergelijkbare aanvragen om de snelheid van cachetreffers te optimaliseren. Vervangt het user veld.
prompt_cache_retention null Snaar Het bewaarbeleid voor de promptcache. Stel "24h" in om uitgebreide promptcaching in te schakelen, waarmee gecachte voorvoegsels langer actief te houden zijn, tot maximaal 24 uur.
safety_identifier null Snaar Een stabiele id die wordt gebruikt om gebruikers van uw toepassing te detecteren die mogelijk het gebruiksbeleid schenden.
user null Snaar afgeschafte. Gebruik safety_identifier en prompt_cache_key in plaats daarvan.
truncation null Snaar De afkortingsstrategie die moet worden gebruikt voor het antwoord van het model.
top_logprobs null Geheel getal Een geheel getal tussen 0 en 20 dat het aantal waarschijnlijke tokens aangeeft dat op elke tokenpositie moet worden geretourneerd, elk met een gekoppelde logboekkans.
include null List[String] Geef aanvullende uitvoergegevens op die moeten worden opgenomen in het modelantwoord.
prompt null Voorwerp Verwijzing naar een promptsjabloon en de bijbehorende variabelen.

Niet-ondersteunde parameters: De volgende parameters worden niet ondersteund door Databricks en retourneert een 400-fout, indien opgegeven:

  • background - Achtergrondverwerking wordt niet ondersteund
  • store - Opgeslagen antwoorden worden niet ondersteund
  • conversation - Gespreks-API wordt niet ondersteund
  • service_tier - Selectie van servicelagen wordt beheerd door Databricks

ResponsesInput

Het input veld accepteert een tekenreeks of een lijst met invoerberichtobjecten met rol en inhoud.

Veld Soort Beschrijving
role Snaar Vereist. De rol van de auteur van het bericht. Deze waarde kan "user" of "assistant" zijn.
content Tekenreeks of lijst[ResponsesContentBlock] Vereist. De inhoud van het bericht, ofwel als een tekenreeks of matrix met inhoudsblokken.

ResponsesContentBlock

Inhoudsblokken definiëren het type inhoud in invoer- en uitvoerberichten. Het inhoudsbloktype wordt bepaald door het type veld.

InputText
Veld Soort Beschrijving
type Snaar Vereist. Moet "input_text"zijn.
text Snaar Vereist. De tekstinhoud.
OutputText
Veld Soort Beschrijving
type Snaar Vereist. Moet "output_text"zijn.
text Snaar Vereist. De tekstinhoud.
annotations List[Object] Optionele aantekeningen voor de tekstinhoud.
InputImage
Veld Soort Beschrijving
type Snaar Vereist. Moet "input_image"zijn.
image_url Snaar Vereist. URL of base64-gecodeerde gegevens-URI van de afbeelding.
InputFile
Veld Soort Beschrijving
type Snaar Vereist. Moet "input_file"zijn.
file_id Snaar Bestands-id als u geüploade bestanden gebruikt.
filename Snaar De naam van het bestand.
file_data Snaar Base64-gecodeerde gegevens-URI met voorvoegsel. PDF-bestanden maken bijvoorbeeld gebruik van indeling data:application/pdf;base64,<base64 data>.
FunctionCall
Veld Soort Beschrijving
type Snaar Vereist. Moet "function_call"zijn.
id Snaar Vereist. Unieke identificatie voor de functieaanroep.
call_id Snaar Vereist. De aanroep-id.
name Snaar Vereist. De naam van de functie die wordt aangeroepen.
arguments Object/String Vereist. De functieargumenten als JSON-object of tekenreeks.
FunctionCallOutput
Veld Soort Beschrijving
type Snaar Vereist. Moet "function_call_output"zijn.
call_id Snaar Vereist. De oproepidentificatie waaraan deze uitvoer correspondeert.
output Tekenreeks/Object Vereist. De functie-uitvoer als tekenreeks of JSON-object.

StreamOptions

Configuratie voor streamingreacties. Alleen gebruikt wanneer stream: true.

Veld Soort Beschrijving
include_usage Booleaans Als dit waar is, neem informatie over tokengebruik op in de stream. De standaardinstelling is false.

TextConfig

Configuratie voor tekstuitvoer, inclusief gestructureerde uitvoer.

Veld Soort Beschrijving
format ResponsesFormatObject De indelingsspecificatie voor de tekstuitvoer.

ResponsesFormatObject

Specificeert het uitvoerformaat voor tekstantwoorden.

Veld Soort Beschrijving
type Snaar Vereist. Het type indeling: "text" voor tekst zonder opmaak, "json_object" voor JSON of "json_schema" voor gestructureerde JSON.
json_schema Voorwerp Vereist wanneer type is "json_schema". Het JSON-schemaobject dat de structuur van de uitvoer definieert.

Het json_schema object heeft dezelfde structuur als JsonSchemaObject die is gedocumenteerd in de API voor chatvoltooiingen.

ReasoningConfig

Configuratie voor redeneringsgedrag in redeneringsmodellen (o-serie en gpt-5-modellen).

Veld Soort Beschrijving
effort Snaar Het niveau van de redeneringsinspanning: "low", "medium"of "high". De standaardinstelling is "medium".
encrypted_content Snaar Versleutelde redeneringsinhoud voor staatloze modus. Geleverd door het model in eerdere antwoorden.

ToolObject

Zie Functieoproep in Azure Databricks.

Veld Soort Beschrijving
type Snaar Vereist. Het type hulpprogramma. Op dit moment wordt alleen function ondersteund.
function FunctionObject Vereist. De functiedefinitie die aan het hulpprogramma is gekoppeld.

FunctionObject

Veld Soort Beschrijving
name Snaar Vereist. De naam van de functie die moet worden aangeroepen.
description Voorwerp Vereist. De gedetailleerde beschrijving van de functie. Het model gebruikt deze beschrijving om inzicht te hebben in de relevantie van de functie voor de prompt en het genereren van de hulpprogrammaaanroepen met een hogere nauwkeurigheid.
parameters Voorwerp De parameters die door de functie worden geaccepteerd, worden beschreven als een geldig JSON-schema object. Als het hulpprogramma wordt aangeroepen, moet de aanroep van het hulpprogramma voldoen aan het opgegeven JSON-schema. Als u parameters weglaat, wordt een functie zonder parameters gedefinieerd. Het aantal properties is beperkt tot 15 sleutels.
strict Booleaans Of u strikte schema-naleving wilt inschakelen bij het genereren van de functieaanroep. Als dit is ingesteld op true, volgt het model het exacte schema dat is gedefinieerd in het schemaveld. Alleen een subset van het JSON-schema wordt ondersteund wanneer de instelling 'strict' op true staat.

ToolChoiceObject

Zie Functieoproep in Azure Databricks.

Veld Soort Beschrijving
type Snaar Vereist. Het type hulpprogramma. Op dit moment wordt alleen "function" ondersteund.
function Voorwerp Vereist. Een object dat definieert welk hulpmiddel moet worden aangeroepen van het formulier {"type": "function", "function": {"name": "my_function"}} waar "my_function de naam is van een FunctionObject- in het veld tools.

API-antwoord

Voor niet-streaming-aanvragen is het antwoord één antwoordobject. Voor streaming-aanvragen is de reactie een text/event-stream waarin elke gebeurtenis een reactiesegment is.

Veld Soort Beschrijving
id Snaar Unieke id voor het antwoord. Opmerking: Databricks versleutelt deze id voor beveiliging.
object Snaar Het objecttype. Gelijk aan "response".
created_at Geheel getal De Unix-tijdstempel (in seconden) toen het antwoord werd gemaakt.
status Snaar De status van het antwoord. Een van: completed, , failedin_progress, , cancelled, , of queuedincomplete.
model Snaar De modelversie die wordt gebruikt om het antwoord te genereren.
output Lijst[ResponsesMessage] De uitvoer die door het model wordt gegenereerd, bevat meestal berichtobjecten.
usage Gebruik Metagegevens van tokengebruik.
error Error Foutinformatie als het antwoord is mislukt.
incomplete_details Onvolledige details Details over waarom het antwoord onvolledig is, indien van toepassing.
instructions Snaar De verstrekte instructies in de aanvraag.
max_output_tokens Geheel getal De maximale uitvoertokens die zijn opgegeven in de aanvraag.
temperature zweven De temperatuur die wordt gebruikt voor opwekking.
top_p zweven De top_p waarde die wordt gebruikt voor het genereren.
tools List[ToolObject] De hulpprogramma's die zijn opgegeven in de aanvraag.
tool_choice String of ToolChoiceObject De tool_choice instelling van de aanvraag.
parallel_tool_calls Booleaans Of parallelle hulpprogramma-aanroepen zijn ingeschakeld.
store Booleaans Of het antwoord is opgeslagen.
metadata Voorwerp De metagegevens die zijn gekoppeld aan het antwoord.

ResponsesMessage

Berichtobjecten in het output veld met de inhoud van de reactie van het model.

Veld Soort Beschrijving
id Snaar Vereist. Unieke id voor het bericht.
role Snaar Vereist. De rol van het bericht. Hetzij "user", hetzij "assistant".
content Lijst[ResponsesContentBlock] Vereist. De inhoudsblokken in het bericht.
status Snaar De status van de berichtverwerking.
type Snaar Vereist. Het objecttype. Gelijk aan "message".

Error

Foutinformatie wanneer een antwoord mislukt.

Veld Soort Beschrijving
code Snaar Vereist. De foutcode.
message Snaar Vereist. Een door mensen leesbaar foutbericht.
param Snaar De parameter die de fout heeft veroorzaakt, indien van toepassing.
type Snaar Vereist. Het fouttype.

IncompleteDetails

Details over waarom een antwoord onvolledig is.

Veld Soort Beschrijving
reason Snaar Vereist. De reden waarom het antwoord onvolledig is.

API voor voltooiing van chat

De API voor chatvoltooiing maakt gesprekken met meerdere paden mogelijk met een model. Het antwoord van het model zal het volgende assistant bericht in het gesprek geven. Zie POST /serving-endpoints/{name}/aanroepen voor het uitvoeren van query's op eindpuntparameters.

Chataanvraag

Veld Verstek Soort Beschrijving
messages ChatMessage lijst Vereist. Een lijst met berichten die het huidige gesprek vertegenwoordigen.
max_tokens null null, wat betekent dat er geen limiet of een geheel getal groter is dan nul Het maximum aantal tokens dat moet worden gegenereerd.
stream true Booleaans Stream antwoorden terug naar een client om gedeeltelijke resultaten voor aanvragen toe te staan. Als deze parameter is opgenomen in de aanvraag, worden antwoorden verzonden met behulp van de server verzonden gebeurtenissen standaard.
temperature 1.0 Zweven in [0,2] De monsternametemperatuur. 0 is deterministisch en hogere waarden introduceren meer willekeurigheid.
top_p 1.0 Zweven in (0,1] De waarschijnlijkheidsdrempel die wordt gebruikt voor kernsampling.
top_k null null, wat betekent dat er geen limiet of een geheel getal groter is dan nul Hiermee definieert u het aantal k-waarschijnlijke tokens dat moet worden gebruikt voor top-k-filtering. Stel deze waarde in op 1 om uitvoer deterministisch te maken.
stop [] Tekenreeks of lijst [tekenreeks] Het model stopt met het genereren van verdere tokens wanneer een van de reeksen in stop wordt aangetroffen.
n 1 Geheel getal groter dan nul De API retourneert n onafhankelijke chatvoltooiingen wanneer n is opgegeven. Aanbevolen voor workloads die meerdere voltooiingen genereren op dezelfde invoer voor extra inferentie-efficiëntie en kostenbesparingen. Alleen beschikbaar voor geconfigureerde doorvoereindpunten.
tool_choice none String of ToolChoiceObject Alleen gebruikt in combinatie met het veld tools. tool_choice ondersteunt verschillende trefwoordtekenreeksen, zoals auto, requireden none. auto betekent dat u het model laat bepalen welke (indien van toepassing) hulpprogramma relevant is voor gebruik. Als auto het model van mening is dat geen van de hulpprogramma's in tools relevant is, genereert het model een standaard assistentbericht in plaats van een hulpprogramma-aanroep. required betekent dat het model het meest relevante hulpprogramma in tools kiest en een hulpprogramma-aanroep moet genereren. none betekent dat het model geen hulpprogramma-aanroepen genereert en in plaats daarvan een standaardassistentbericht moet genereren. Als u een aanroep van een hulpprogramma wilt afdwingen met een specifiek hulpmiddel dat is gedefinieerd in tools, gebruikt u een ToolChoiceObject. Standaard, als het tools veld is ingevuld tool_choice = "auto". Anders wordt het tools veld standaard ingesteld op tool_choice = "none"
tools null ToolObject Een lijst van tools die het model kan aanroepen. Op dit moment is function het enige ondersteunde tool type en worden maximaal 32 functies ondersteund.
response_format null ResponseFormatObject Een object dat de indeling aangeeft die het model moet uitvoeren. Geaccepteerde typen zijn text, json_schema of json_object
Instelling voor { "type": "json_schema", "json_schema": {...} } maakt gestructureerde uitvoer mogelijk die ervoor zorgt dat het model het opgegeven JSON-schema volgt.
Instelling voor { "type": "json_object" } zorgt ervoor dat de antwoorden die het model genereert geldige JSON zijn, maar er niet voor zorgen dat antwoorden een specifiek schema volgen.
logprobs false Booleaans Met deze parameter wordt aangegeven of de log waarschijnlijkheid moet worden opgegeven voor een token dat wordt bemonsterd.
top_logprobs null Geheel getal Deze parameter bepaalt het aantal waarschijnlijkste tokenkandidaten om logwaarschijnlijkheden voor elke samplingstap te retourneren. Kan 0-20 zijn. logprobs moet true zijn als u dit veld gebruikt.
reasoning_effort "medium" Snaar Bepaalt het niveau van de redenering die het model moet toepassen bij het genereren van antwoorden. Geaccepteerde waarden zijn "low", "medium"of "high". Een hogere redenering kan leiden tot meer doordachte en nauwkeurige antwoorden, maar kan de latentie en het tokengebruik verhogen. Deze parameter wordt alleen geaccepteerd door een beperkte set modellen, inclusief databricks-gpt-oss-120b en databricks-gpt-oss-20b.

ChatMessage

Veld Soort Beschrijving
role Snaar Vereist. De rol van de auteur van het bericht. "system", "user", "assistant" of "tool" kunnen zijn.
content Snaar De inhoud van het bericht. Vereist voor chattaken waarvoor geen hulpprogrammaoproepen nodig zijn.
tool_calls ToolCall lijst De lijst met tool_calls die het model heeft gegenereerd. Moet role hebben als "assistant" en geen specificatie voor het content veld.
tool_call_id Snaar Als role"tool" is, is de ID die geassocieerd is met de ToolCall waarop het bericht reageert. Moet leeg zijn voor andere role opties.

De system rol kan slechts eenmaal worden gebruikt, als het eerste bericht in een gesprek. Het overschrijdt de standaardsysteemprompt van het model.

ToolCall

Een actiesuggestie voor het gebruik van het hulpprogramma, voorgesteld door het model. Zie Functieoproep in Azure Databricks.

Veld Soort Beschrijving
id Snaar Vereist. Een unieke identificatie voor deze aanroepsuggestie van het hulpprogramma.
type Snaar Vereist. Alleen "function" wordt ondersteund.
function FunctieOproepVoltooiing Vereist. Een functie-aanroep die door het model wordt voorgesteld.
cache_control Snaar Hiermee schakelt u caching in voor uw aanvraag. Deze parameter wordt alleen geaccepteerd door Door Databricks gehoste Claude-modellen. Zie Prompt caching voor een voorbeeld.

FunctionCallCompletion

Veld Soort Beschrijving
name Snaar Vereist. De naam van de functie die door het model wordt aanbevolen.
arguments Voorwerp Vereist. Argumenten voor de functie als een geserialiseerde JSON-woordenlijst.

Opmerking: ToolChoiceObject, ToolObjecten FunctionObject worden gedefinieerd in de sectie Antwoorden-API en worden gedeeld tussen beide API's.

ResponseFormatObject

Zie Gestructureerde uitvoer op Azure Databricks.

Veld Soort Beschrijving
type Snaar Vereist. Het type antwoordindeling dat wordt gedefinieerd. text voor ongestructureerde tekst, json_object voor ongestructureerde JSON-objecten of json_schema voor JSON-objecten die aan een specifiek schema zijn gekoppeld.
json_schema JsonSchemaObject Vereist. Het JSON-schema dat moet worden nageleefd als type is ingesteld op json_schema

JsonSchemaObject

Zie Gestructureerde uitvoer op Azure Databricks.

Veld Soort Beschrijving
name Snaar Vereist. De naam van de antwoordindeling.
description Snaar Een beschrijving van waar de antwoordindeling voor dient, die door het model wordt gebruikt om te bepalen hoe het model in de indeling moet reageren.
schema Voorwerp Vereist. Het schema voor de antwoordindeling, beschreven als een JSON-schemaobject.
strict Booleaans Of u strikte schema-naleving wilt inschakelen bij het genereren van de uitvoer. Als dit is ingesteld op true, volgt het model het exacte schema dat is gedefinieerd in het schemaveld. Alleen een subset van het JSON-schema wordt ondersteund wanneer de instelling 'strict' op true staat.

Chatreactie

Voor niet-streamingverzoeken is het antwoord een enkel object voor de voltooiing van een chat. Voor streamingaanvragen is het antwoord een text/event-stream waarbij elke gebeurtenis een voltooiingssegmentobject is. De structuur op het hoogste niveau van voltooiings- en segmentobjecten is bijna identiek: alleen choices heeft een ander type.

Veld Soort Beschrijving
id Snaar Unieke id voor het voltooien van de chat.
choices List[ChatCompletionChoice] of List[ChatCompletionChunk] (streaming) Lijst met chatvoltooiingsteksten. n keuzes worden geretourneerd als de n parameter is opgegeven.
object Snaar Het objecttype. Gelijk aan "chat.completions" voor niet-streaming of "chat.completion.chunk" voor streaming.
created Geheel getal De tijd waarop de voltooiing van de chat is gegenereerd in seconden.
model Snaar De modelversie die wordt gebruikt om het antwoord te genereren.
usage Gebruik Metagegevens van tokengebruik. Is mogelijk niet aanwezig voor streamingreacties.

ChatCompletionChoice

Veld Soort Beschrijving
index Geheel getal De index van de keuze in de lijst met gegenereerde keuzes.
message ChatMessage Een bericht van de voltooiing van een chat dat door het model wordt geretourneerd. De rol zal assistant zijn.
finish_reason Snaar De reden waarom het model geen tokens meer genereert.
extra_fields Snaar Wanneer u eigen modellen van externe modelproviders gebruikt, kunnen de API's van de provider aanvullende metagegevens bevatten in antwoorden. Databricks filtert deze antwoorden en retourneert alleen een subset van de oorspronkelijke velden van de provider. Dit safetyRating is het enige extra veld dat op dit moment wordt ondersteund. Zie de Gemini-documentatie voor meer informatie.

ChatCompletionChunk

Veld Soort Beschrijving
index Geheel getal De index van de keuze in de lijst met gegenereerde keuzes.
delta ChatMessage Een chatbericht voor voltooiing van door het model gegenereerde gestreamde antwoorden. Alleen het eerste blok is gegarandeerd gevuld met role.
finish_reason Snaar De reden waarom het model geen tokens meer genereert. Alleen het laatste segment zal dit gepopulate hebben.

Inbeddings-API

Embedding-taken zetten invoerreeksen om in embeddingvectoren. Veel invoer kan in elke verzoek worden gebundeld. Zie POST /serving-endpoints/{name}/aanroepen voor het uitvoeren van query's op eindpuntparameters.

Aanvraag voor insluiten

Veld Soort Beschrijving
input Tekenreeks of lijst [tekenreeks] Vereist. De invoertekst die moet worden ingesloten. Dit kan een tekenreeks of een lijst met tekenreeksen zijn.
instruction Snaar Een optionele instructie die moet worden doorgegeven aan het insluitmodel.

Instructies zijn optioneel en zeer modelspecifiek. De BGE-auteurs raden bijvoorbeeld geen instructies aan bij het indexeren van segmenten en raden aan de instructie "Represent this sentence for searching relevant passages:" te gebruiken voor het ophalen van query's. Andere modellen zoals Instructor-XL ondersteunen een breed scala aan instructiereeksen.

Antwoord insluiten

Veld Soort Beschrijving
id Snaar Unieke identificatie voor de inbedding.
object Snaar Het objecttype. Gelijk aan "list".
model Snaar De naam van het insluitmodel dat wordt gebruikt voor het maken van de insluiting.
data EmbeddingObject Het invoegobject.
usage Gebruik Metagegevens van tokengebruik.

EmbeddingObject

Veld Soort Beschrijving
object Snaar Het objecttype. Gelijk aan "embedding".
index Geheel getal De index van de insluiting in de lijst met insluitingen die door het model worden gegenereerd.
embedding Lijst[Komma-getal] De insluitvector. Elk model retourneert een vector met vaste grootte (1024 voor BGE-Large)

Completions API

Taken voor tekstvoltooiing zijn bedoeld voor het genereren van antwoorden op één prompt. In tegenstelling tot Chat ondersteunt deze taak batchinvoer: meerdere onafhankelijke prompts kunnen in één aanvraag worden verzonden. Zie POST /serving-endpoints/{name}/aanroepen voor het uitvoeren van query's op eindpuntparameters.

Voltooiingsaanvraag

Veld Verstek Soort Beschrijving
prompt Tekenreeks of lijst [tekenreeks] Vereist. De prompts voor het model.
max_tokens null null, wat betekent dat er geen limiet of een geheel getal groter is dan nul Het maximum aantal tokens dat moet worden gegenereerd.
stream true Booleaans Stream antwoorden terug naar een client om gedeeltelijke resultaten voor aanvragen toe te staan. Als deze parameter is opgenomen in de aanvraag, worden antwoorden verzonden met behulp van de server verzonden gebeurtenissen standaard.
temperature 1.0 Zweven in [0,2] De monsternametemperatuur. 0 is deterministisch en hogere waarden introduceren meer willekeurigheid.
top_p 1.0 Zweven in (0,1] De waarschijnlijkheidsdrempel die wordt gebruikt voor kernsampling.
top_k null null, wat betekent dat er geen limiet of een geheel getal groter is dan nul Hiermee definieert u het aantal k-waarschijnlijke tokens dat moet worden gebruikt voor top-k-filtering. Stel deze waarde in op 1 om uitvoer deterministisch te maken.
error_behavior "error" "truncate" of "error" Voor tijdslimieten en fouten met een overschreden contextlengte. Een van: "truncate" (retourneer zoveel mogelijk tokens) en "error" (retourneer een fout). Deze parameter wordt alleen geaccepteerd door eindpunten voor betalen per token.
n 1 Geheel getal groter dan nul De API retourneert n onafhankelijke chatvoltooiingen wanneer n is opgegeven. Aanbevolen voor workloads die meerdere voltooiingen genereren op dezelfde invoer voor extra inferentie-efficiëntie en kostenbesparingen. Alleen beschikbaar voor geconfigureerde doorvoereindpunten.
stop [] Tekenreeks of lijst [tekenreeks] Het model stopt met het genereren van verdere tokens wanneer een van de reeksen in stop wordt aangetroffen.
suffix "" Snaar Een tekenreeks die wordt toegevoegd aan het einde van elke voltooiing.
echo false Booleaans Geeft de prompt samen met de voltooiende tekst terug.
use_raw_prompt false Booleaans Als true, geeft u de prompt rechtstreeks door aan het model zonder transformatie.

Voltooiingsreactie

Veld Soort Beschrijving
id Snaar Unieke identificatie voor de tekstvoltooiing.
choices Voltooiingskeuze Een lijst met tekstvoltooiingen. Voor elke prompt die wordt doorgegeven, worden n keuzes gegenereerd als n is opgegeven. De standaard n is 1.
object Snaar Het objecttype. Gelijk aan "text_completion"
created Geheel getal De tijd waarop de voltooiing is gegenereerd, uitgedrukt in seconden.
usage Gebruik Metagegevens van tokengebruik.

CompletionChoice

Veld Soort Beschrijving
index Geheel getal De index van de prompt in de aanvraag.
text Snaar De gegenereerde voltooiing.
finish_reason Snaar De reden waarom het model geen tokens meer genereert.

Aanvullende informatiebronnen