Note
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de changer d’annuaire.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de changer d’annuaire.
Cet article fournit des informations générales sur les API pour les API Databricks Foundation Model et les modèles qu’ils prennent en charge. Les API Foundation Model sont conçues pour être similaires à l’API REST d’OpenAI pour faciliter la migration de projets existants. Les points de terminaison "pay-per-token" et "provisioned throughput" acceptent le même format de requête d'API REST.
Points de terminaison
Les API Foundation Model prennent en charge les points de terminaison de paiement par jeton et les points de terminaison de débit approvisionnés.
Un point de terminaison préconfiguré est disponible dans votre espace de travail pour chaque modèle pris en charge par jeton de paiement et les utilisateurs peuvent interagir avec ces points de terminaison à l’aide de requêtes HTTP POST. Consultez les modèles de base pris en charge sur Mosaïque AI Model Service pour les modèles pris en charge.
Les points de terminaison de débit approvisionnés peuvent être créés à l’aide de l’API ou de l’interface utilisateur de mise en service. Ces points de terminaison prennent en charge plusieurs modèles par point de terminaison pour les tests A/B, tant que les deux modèles servis exposent le même format d’API. Par exemple, les deux modèles sont des modèles de chat. Consultez POST /api/2.0/service-endpoints pour les paramètres de configuration de point de terminaison.
Les requêtes et les réponses utilisent JSON, la structure JSON exacte dépend du type de tâche d’un point de terminaison. Les points de terminaison de la conversation et de fin prennent en charge les réponses en continu.
Utilisation
Les réponses incluent un sous-message usage qui signale le nombre de jetons dans la demande et la réponse. Le format de ce sous-message est le même pour tous les types de tâches.
| Champ | Catégorie | Descriptif |
|---|---|---|
completion_tokens |
Entier | Nombre de jetons générés. Non inclus dans les réponses incorporées. |
prompt_tokens |
Entier | Nombre de jetons de la ou des invites d’entrée. |
total_tokens |
Entier | Nombre total de jetons. |
reasoning_tokens |
Entier | Nombre de jetons de pensée. Il s’applique uniquement aux modèles de raisonnement. |
Pour les modèles comme databricks-meta-llama-3-3-70b-instruct une invite utilisateur est transformée à l’aide d’un modèle d’invite avant d’être transmis au modèle. Pour les points de terminaison de paiement par jeton, une invite système peut également être ajoutée.
prompt_tokens inclut tout le texte ajouté par notre serveur.
l'API de réponses
Important
L’API Réponses est uniquement compatible avec les modèles OpenAI.
L’API Réponses active les conversations à plusieurs tours avec un modèle. Contrairement aux complétions de chat, l'API Réponses utilise input au lieu de messages.
Demande d’API Réponses
| Champ | Par défaut | Catégorie | Descriptif |
|---|---|---|---|
model |
Chaîne | Obligatoire. ID de modèle utilisé pour générer la réponse. | |
input |
Chaîne ou liste[ResponsesInput] |
Obligatoire. Entrées de texte, d’image ou de fichier dans le modèle, utilisées pour générer une réponse. Contrairement à messages, ce champ utilise input pour spécifier le contenu de conversation. |
|
instructions |
null |
Chaîne | Message système (ou développeur) inséré dans le contexte du modèle. |
max_output_tokens |
null |
null, ce qui signifie qu'il n'y a pas de limite ou qu'il s'agit d'un entier supérieur à zéro |
Limite supérieure pour le nombre de jetons pouvant être générés pour une réponse, y compris les jetons de sortie visibles et les jetons de raisonnement. |
temperature |
1.0 |
Float en [0,2] | Température d’échantillonnage. 0 est déterministe et les valeurs supérieures introduisent plus de randomité. |
top_p |
1.0 |
Float en (0,1] | Seuil de probabilité utilisé pour l’échantillonnage du noyau. |
stream |
false |
Booléen | Si la valeur est true, les données de réponse du modèle sont transmises au client au fur et à mesure qu’elles sont générées à l’aide d’événements envoyés par le serveur. |
stream_options |
null |
StreamOptions | Options de diffusion en continu des réponses. Définissez cette valeur uniquement lorsque vous définissez stream: true. |
text |
null |
TextConfig | Options de configuration d’une réponse texte à partir du modèle. Peut être du texte brut ou des données JSON structurées. |
reasoning |
null |
ReasoningConfig | Configuration du raisonnement pour les modèles gpt-5 et série o. |
tool_choice |
"auto" |
Chaîne ou ToolChoiceObject | Comment le modèle doit sélectionner l’outil (ou les outils) à utiliser lors de la génération d’une réponse. Consultez le tools paramètre pour savoir comment spécifier les outils que le modèle peut appeler. |
tools |
null |
Liste[ToolObject] | Un tableau d’outils que le modèle peut appeler lors de la génération d’une réponse. Remarque : Les outils d’interpréteur de code et de recherche web ne sont pas pris en charge par Databricks. |
parallel_tool_calls |
true |
Booléen | Indique s’il faut autoriser le modèle à exécuter des appels d’outil en parallèle. |
max_tool_calls |
null |
Entier supérieur à zéro | Nombre maximal d’appels à des outils intégrés qui peuvent être traités dans une réponse. |
metadata |
null |
Objet | Ensemble de 16 paires clé-valeur pouvant être attachées à un objet. |
prompt_cache_key |
null |
Chaîne | Utilisé pour mettre en cache des réponses pour des requêtes similaires afin d’optimiser les taux d’accès au cache. Remplace le user champ. |
prompt_cache_retention |
null |
Chaîne | Stratégie de rétention pour le cache du prompt. Définissez pour "24h" activer la mise en cache d’invite étendue, qui conserve les préfixes mis en cache actifs pendant plus longtemps, jusqu’à un maximum de 24 heures. |
safety_identifier |
null |
Chaîne | Identificateur stable utilisé pour détecter les utilisateurs de votre application susceptibles de violer les stratégies d’utilisation. |
user |
null |
Chaîne |
Déconseillé. Utilisez plutôt safety_identifier et prompt_cache_key. |
truncation |
null |
Chaîne | Stratégie de troncation à utiliser pour la réponse du modèle. |
top_logprobs |
null |
Entier | Entier compris entre 0 et 20 spécifiant le nombre des jetons les plus probables à retourner à chaque position de jeton, chacun avec une probabilité logarithmique associée. |
include |
null |
Liste[Chaîne] | Spécifiez des données de sortie supplémentaires à inclure dans la réponse du modèle. |
prompt |
null |
Objet | Référence à un modèle d’invite et à ses variables. |
Paramètres non pris en charge : les paramètres suivants ne sont pas pris en charge par Databricks et retournent une erreur 400 si spécifié :
-
background- Le traitement en arrière-plan n’est pas pris en charge -
store- Les réponses stockées ne sont pas prises en charge -
conversation- L’API conversation n’est pas prise en charge -
service_tier- La sélection du niveau de service est gérée par Databricks
ResponsesInput
Le input champ accepte une chaîne ou une liste d’objets de message d’entrée avec un rôle et du contenu.
| Champ | Catégorie | Descriptif |
|---|---|---|
role |
Chaîne |
Obligatoire. Le rôle de l’auteur du message. Peut être "user" ou "assistant". |
content |
Chaîne ou Liste[ResponsesContentBlock] | Obligatoire. Contenu du message, sous la forme d’une chaîne ou d’un tableau de blocs de contenu. |
ResponsesContentBlock
Les blocs de contenu définissent le type de contenu dans les messages d’entrée et de sortie. Le type de bloc de contenu est déterminé par le type champ.
InputText
| Champ | Catégorie | Descriptif |
|---|---|---|
type |
Chaîne |
Obligatoire. Doit être "input_text". |
text |
Chaîne | Obligatoire. Contenu du texte. |
OutputText
| Champ | Catégorie | Descriptif |
|---|---|---|
type |
Chaîne |
Obligatoire. Doit être "output_text". |
text |
Chaîne | Obligatoire. Contenu du texte. |
annotations |
Liste[Objet] | Annotations facultatives pour le contenu du texte. |
InputImage
| Champ | Catégorie | Descriptif |
|---|---|---|
type |
Chaîne |
Obligatoire. Doit être "input_image". |
image_url |
Chaîne | Obligatoire. URL ou URI de données codées en base64 de l’image. |
InputFile
| Champ | Catégorie | Descriptif |
|---|---|---|
type |
Chaîne |
Obligatoire. Doit être "input_file". |
file_id |
Chaîne | Identificateur de fichier si vous utilisez des fichiers chargés. |
filename |
Chaîne | Le nom du fichier. |
file_data |
Chaîne | URI de données encodé en base64 avec préfixe de format. Par exemple, les fichiers PDF utilisent le format data:application/pdf;base64,<base64 data>. |
FunctionCall
| Champ | Catégorie | Descriptif |
|---|---|---|
type |
Chaîne |
Obligatoire. Doit être "function_call". |
id |
Chaîne | Obligatoire. Identificateur unique pour l’appel de fonction. |
call_id |
Chaîne | Obligatoire. Identificateur d’appel. |
name |
Chaîne | Obligatoire. Nom de la fonction appelée. |
arguments |
Objet/Chaîne | Obligatoire. Arguments de fonction en tant qu’objet ou chaîne JSON. |
FunctionCallOutput
| Champ | Catégorie | Descriptif |
|---|---|---|
type |
Chaîne |
Obligatoire. Doit être "function_call_output". |
call_id |
Chaîne | Obligatoire. L’identificateur d’appel auquel cette sortie correspond. |
output |
Chaîne/Objet | Obligatoire. Sortie de la fonction sous forme de chaîne ou d’objet JSON. |
StreamOptions
Configuration des réponses en streaming. Utilisé uniquement si stream: true.
| Champ | Catégorie | Descriptif |
|---|---|---|
include_usage |
Booléen | Si la valeur est « true », incluez les informations d’utilisation des jetons dans le flux. La valeur par défaut est false. |
TextConfig
Configuration de la sortie de texte, y compris des sorties structurées.
| Champ | Catégorie | Descriptif |
|---|---|---|
format |
ResponsesFormatObject | Spécification de format pour la sortie de texte. |
ResponsesFormatObject
Spécifie le format de sortie pour les réponses de texte.
| Champ | Catégorie | Descriptif |
|---|---|---|
type |
Chaîne |
Obligatoire. Type de format : "text" pour le texte brut, "json_object" pour JSON ou "json_schema" pour json structuré. |
json_schema |
Objet |
Obligatoire quand type est "json_schema". Objet de schéma JSON qui définit la structure de la sortie. |
L’objet json_schema a la même structure que JsonSchemaObject documenté dans l’API Chat Completions.
ReasoningConfig
Configuration du comportement de raisonnement dans les modèles de raisonnement (modèles o-series et gpt-5).
| Champ | Catégorie | Descriptif |
|---|---|---|
effort |
Chaîne | Niveau d’effort de raisonnement : "low", "medium"ou "high". La valeur par défaut est "medium". |
encrypted_content |
Chaîne | Contenu de calcul chiffré pour le mode sans état. Fourni par le modèle dans les réponses précédentes. |
ToolObject
Consultez Appel de fonctions sur Azure Databricks.
| Champ | Catégorie | Descriptif |
|---|---|---|
type |
Chaîne |
Obligatoire. Type de l’outil. Actuellement, seule function est prise en charge. |
function |
FunctionObject | Obligatoire. Définition de fonction associée à l’outil. |
FunctionObject
| Champ | Catégorie | Descriptif |
|---|---|---|
name |
Chaîne | Obligatoire. Nom de la fonction à appeler. |
description |
Objet | Obligatoire. Description détaillée de la fonction. Le modèle utilise cette description pour comprendre la pertinence de la fonction par rapport à l’invite et générer les appels d'outils avec une plus grande précision. |
parameters |
Objet | Les paramètres que la fonction accepte, décrits comme un schéma JSON valide objet. Si l’outil est appelé, l’appel de l’outil est adapté au schéma JSON fourni. L’omission de paramètres définit une fonction sans aucun paramètre. Le nombre de properties est limité à 15 clés. |
strict |
Booléen | Indique s’il faut activer l’adhésion stricte au schéma lors de la génération de l’appel de fonction. Si la valeur est true, le modèle suit le schéma exact défini dans le champ de schéma. Seul un sous-ensemble de schéma JSON est pris en charge lorsque strict est true |
ToolChoiceObject
Consultez Appel de fonctions sur Azure Databricks.
| Champ | Catégorie | Descriptif |
|---|---|---|
type |
Chaîne |
Obligatoire. Type de l’outil. Actuellement, seule "function" est prise en charge. |
function |
Objet |
Obligatoire. Objet définissant l’outil à appeler du formulaire {"type": "function", "function": {"name": "my_function"}} où "my_function est le nom d’un FunctionObject dans le champ tools. |
Réponse de l’API Réponses
Pour les requêtes sans diffusion en continu, la réponse est un objet de réponse unique. Pour les demandes de diffusion en continu, la réponse est un text/event-stream où chaque événement est un fragment de réponse.
| Champ | Catégorie | Descriptif |
|---|---|---|
id |
Chaîne | Identificateur unique de la réponse. Remarque : Databricks chiffre cet ID pour la sécurité. |
object |
Chaîne | Type d’objet. Égal à "response". |
created_at |
Entier | Horodatage Unix (en secondes) lors de la création de la réponse. |
status |
Chaîne | État de la réponse. Un des : completed, , failedin_progress, cancelled, , queued, ou incomplete. |
model |
Chaîne | Version du modèle utilisée pour générer la réponse. |
output |
List[ResponsesMessage] | Sortie générée par le modèle, qui contient généralement des objets de message. |
usage |
Utilisation | Métadonnées d’utilisation des jetons. |
error |
Error | Informations d’erreur si la réponse a échoué. |
incomplete_details |
DétailsIncomplets | Détails sur la raison pour laquelle la réponse est incomplète, le cas échéant. |
instructions |
Chaîne | Instructions fournies dans la demande. |
max_output_tokens |
Entier | Les jetons de sortie maximum spécifiés dans la requête. |
temperature |
Flottant | Température utilisée pour la génération. |
top_p |
Flottant | Valeur top_p utilisée pour la génération. |
tools |
Liste[ToolObject] | Outils spécifiés dans la requête. |
tool_choice |
Chaîne ou ToolChoiceObject | Paramètre tool_choice de la requête. |
parallel_tool_calls |
Booléen | Indique si les appels d’outils parallèles ont été activés. |
store |
Booléen | Indique si la réponse a été stockée. |
metadata |
Objet | Métadonnées attachées à la réponse. |
ResponsesMessage
Objets de message dans le output champ contenant le contenu de réponse du modèle.
| Champ | Catégorie | Descriptif |
|---|---|---|
id |
Chaîne | Obligatoire. Identificateur unique du message. |
role |
Chaîne |
Obligatoire. Rôle du message.
"user" ou "assistant". |
content |
Liste[ResponsesContentBlock] | Obligatoire. Les blocs de contenu dans le message. |
status |
Chaîne | État du traitement des messages. |
type |
Chaîne |
Obligatoire. Type d’objet. Égal à "message". |
Error
Informations d’erreur en cas d’échec d’une réponse.
| Champ | Catégorie | Descriptif |
|---|---|---|
code |
Chaîne | Obligatoire. Code d'erreur. |
message |
Chaîne | Obligatoire. Message d’erreur lisible par un utilisateur. |
param |
Chaîne | Paramètre qui a provoqué l’erreur, le cas échéant. |
type |
Chaîne | Obligatoire. Type d’erreur. |
IncompleteDetails
Détails sur la raison pour laquelle une réponse est incomplète.
| Champ | Catégorie | Descriptif |
|---|---|---|
reason |
Chaîne | Obligatoire. La raison pour laquelle la réponse est incomplète. |
API de complétion de chat
L'API des conversations complètes permet des conversations en plusieurs tours avec un modèle. La réponse du modèle fournit le message assistant suivant dans la conversation. Consultez POST /service-endpoints/{name}/invocations pour interroger les paramètres de point de terminaison.
Demande de conversation
| Champ | Par défaut | Catégorie | Descriptif |
|---|---|---|---|
messages |
Liste ChatMessage | Obligatoire. Liste des messages représentant la conversation actuelle. | |
max_tokens |
null |
null, ce qui signifie qu'il n'y a pas de limite ou qu'il s'agit d'un entier supérieur à zéro |
Nombre maximal de jetons à générer. |
stream |
true |
Booléen | Transmettez en flux continu les réponses au client afin de permettre les résultats partiels pour les demandes. Si ce paramètre est inclus dans la requête, les réponses sont envoyées à l’aide des événements envoyés par le serveur standard. |
temperature |
1.0 |
Float en [0,2] | Température d’échantillonnage. 0 est déterministe et les valeurs supérieures introduisent plus de randomité. |
top_p |
1.0 |
Float en (0,1] | Seuil de probabilité utilisé pour l’échantillonnage du noyau. |
top_k |
null |
null, ce qui signifie qu'il n'y a pas de limite ou qu'il s'agit d'un entier supérieur à zéro |
Définit le nombre de jetons k les plus probables à utiliser pour le filtrage top-k. Définissez cette valeur sur 1 pour rendre les sorties déterministes. |
stop |
[] | String ou List[String] | Le modèle cesse de générer d’autres jetons lorsque l’une des séquences de stop est rencontrée. |
n |
1 | Entier supérieur à zéro | L’API retourne les achèvements de conversation indépendants n lorsque n est spécifié. Recommandé pour les charges de travail qui génèrent plusieurs achèvements sur la même entrée pour améliorer l’efficacité de l’inférence et réaliser des économies de coûts. Disponible uniquement pour les points de terminaison de débit provisionnés. |
tool_choice |
none |
Chaîne ou ToolChoiceObject | Utilisé uniquement conjointement avec le champ tools.
tool_choice prend en charge une variété de chaînes de mots clés telles que auto, requiredet none.
auto signifie que vous laissez le modèle décider si un outil est pertinent à utiliser. Avec auto, si le modèle ne trouve aucun des outils dans tools pertinents, il génère un message d'assistant standard plutôt qu'un appel d'outil.
required signifie que le modèle choisit l’outil le plus pertinent dans tools et doit générer un appel d’outil.
none signifie que le modèle ne génère aucun appel d’outil et qu’il doit plutôt générer un message d’assistant standard. Pour forcer un appel d’outil avec un outil spécifique défini dans tools, utilisez un ToolChoiceObject. Valeur par défaut si le champ tools est renseigné tool_choice = "auto". Sinon, le champ tools est défini par défaut sur tool_choice = "none" |
tools |
null |
ToolObject | Liste d’outils de tools que le modèle peut appeler. Actuellement, function est le seul type de tool pris en charge et un maximum de 32 fonctions sont prises en charge. |
response_format |
null |
ResponseFormatObject | Objet spécifiant le format que le modèle doit générer. Les types acceptés sont text, json_schema ou json_objectLe paramètre sur { "type": "json_schema", "json_schema": {...} } active les sorties structurées, ce qui garantit que le modèle suit votre schéma JSON fourni.La définition de { "type": "json_object" } garantit que les réponses générées par le modèle sont valides JSON, mais ne garantit pas que les réponses suivent un schéma spécifique. |
logprobs |
false |
Booléen | Ce paramètre indique s'il faut fournir la probabilité logarithmique d'un jeton d'être échantillonné. |
top_logprobs |
null |
Entier | Ce paramètre contrôle le nombre de candidats de jetons les plus susceptibles de retourner des probabilités d’enregistrement pour chaque étape d’échantillonnage. Peut être 0-20.
logprobs devez être true si vous utilisez ce champ. |
reasoning_effort |
"medium" |
Chaîne | Contrôle le niveau d’effort de raisonnement que le modèle doit appliquer lors de la génération de réponses. Les valeurs acceptées sont "low", "medium"ou "high". Un effort de raisonnement plus élevé peut entraîner des réponses plus réfléchies et précises, mais peut augmenter la latence et l’utilisation des jetons. Ce paramètre n’est accepté que par un ensemble limité de modèles, y compris databricks-gpt-oss-120b et databricks-gpt-oss-20b. |
ChatMessage
| Champ | Catégorie | Descriptif |
|---|---|---|
role |
Chaîne |
Obligatoire. Rôle de l’auteur du message. Peut être "system", "user", "assistant" ou "tool". |
content |
Chaîne | Contenu du message. Obligatoire pour les tâches de conversation qui n’impliquent pas d’appels d’outils. |
tool_calls |
Liste ToolCall | Liste des tool_calls générées par le modèle. Doit avoir role comme "assistant" et aucune spécification pour le champ content. |
tool_call_id |
Chaîne | Lorsque role est "tool", l’ID associé au ToolCall auquel le message répond. Doit être vide pour d’autres options role. |
Le rôle system ne peut être utilisé qu’une seule fois, comme premier message d’une conversation. Il remplace l’invite système par défaut du modèle.
ToolCall
Suggestion d’une action d’appel d’outil par le modèle. Consultez Appel de fonctions sur Azure Databricks.
| Champ | Catégorie | Descriptif |
|---|---|---|
id |
Chaîne | Obligatoire. Identificateur unique pour la suggestion d’appel d’outil. |
type |
Chaîne |
Obligatoire. Seul "function" est pris en charge. |
function |
FunctionCallCompletion | Obligatoire. Suggestions d’appel de fonction par le modèle. |
cache_control |
Chaîne | Active la mise en cache de votre demande. Ce paramètre est accepté uniquement par les modèles Claude hébergés par Databricks. Consultez la mise en cache des invites pour obtenir un exemple. |
FunctionCallCompletion
| Champ | Catégorie | Descriptif |
|---|---|---|
name |
Chaîne | Obligatoire. Nom de la fonction recommandée par le modèle. |
arguments |
Objet | Obligatoire. Arguments de la fonction en tant que dictionnaire JSON sérialisé. |
Remarque : ToolChoiceObject, ToolObjectet FunctionObject sont définis dans la section API Réponses et sont partagés entre les deux API.
ResponseFormatObject
Consultez Sorties structurées sur Azure Databricks.
| Champ | Catégorie | Descriptif |
|---|---|---|
type |
Chaîne |
Obligatoire. Type de format de réponse défini. Soit text pour le texte non structuré, json_object pour les objets JSON non structurés ou json_schema pour les objets JSON respectant un schéma spécifique. |
json_schema |
jsonSchemaObject |
Obligatoire. Schéma JSON à respecter si type est défini sur json_schema |
JsonSchemaObject
Consultez Sorties structurées sur Azure Databricks.
| Champ | Catégorie | Descriptif |
|---|---|---|
name |
Chaîne | Obligatoire. Nom du format de réponse. |
description |
Chaîne | Une description de à quoi sert le format de réponse, utilisée par le modèle pour déterminer comment répondre dans ce format. |
schema |
Objet | Obligatoire. Schéma pour le format de réponse, décrit en tant qu’objet de schéma JSON. |
strict |
Booléen | Indique s’il faut activer l’adhésion stricte au schéma lors de la génération de la sortie. Si la valeur est true, le modèle suit le schéma exact défini dans le champ de schéma. Seul un sous-ensemble de schéma JSON est pris en charge lorsque strict est true |
Réponse de conversation
Pour les requêtes en non diffusion en continu, la réponse est un objet de saisie semi-automatique de conversation unique. Pour les requêtes de diffusion en continu, la réponse est text/event-stream où chaque événement est un objet de bloc de saisie semi-automatique de texte. La structure de niveau supérieur des objets d’achèvement et de morceaux est presque identique : seul choices a un type distinct.
| Champ | Catégorie | Descriptif |
|---|---|---|
id |
Chaîne | Identificateur unique pour l'achèvement de la conversation. |
choices |
List[ChatCompletionChoice] ou List[ChatCompletionChunk] (diffusion en continu) | Liste des textes de saisie semi-automatique de conversation. Les choix n sont retournés si le paramètre n est spécifié. |
object |
Chaîne | Type d’objet. Égal à "chat.completions" pour une utilisation hors diffusion en continu ou "chat.completion.chunk" pour la diffusion en continu. |
created |
Entier | Heure à laquelle l’achèvement de la conversation a été généré en secondes. |
model |
Chaîne | Version du modèle utilisée pour générer la réponse. |
usage |
Utilisation | Métadonnées d’utilisation des jetons. Peut ne pas être présent sur les réponses de diffusion en continu. |
ChatCompletionChoice
| Champ | Catégorie | Descriptif |
|---|---|---|
index |
Entier | Index du choix dans la liste des choix générés. |
message |
ChatMessage | Message de complétion de chat retourné par le modèle. Le rôle sera assistant. |
finish_reason |
Chaîne | Raison pour laquelle le modèle a cessé de générer des jetons. |
extra_fields |
Chaîne | Lorsque vous utilisez des modèles propriétaires à partir de fournisseurs de modèles externes, les API du fournisseur peuvent inclure des métadonnées supplémentaires dans les réponses. Databricks filtre ces réponses et retourne uniquement un sous-ensemble des champs d’origine du fournisseur. Il safetyRating s’agit du seul champ supplémentaire pris en charge pour l’instant, consultez la documentation Gemini pour plus d’informations. |
ChatCompletionChunk
| Champ | Catégorie | Descriptif |
|---|---|---|
index |
Entier | Index du choix dans la liste des choix générés. |
delta |
ChatMessage | Une partie du message de saisie semi-automatique de conversation des réponses diffusées en continu générées à partir du modèle. Seul le premier bloc est garanti avec role rempli. |
finish_reason |
Chaîne | Raison pour laquelle le modèle a cessé de générer des jetons. Seul le dernier bloc aura ce remplissage. |
API d’incorporations
Les tâches d’incorporation mappent les chaînes d’entrée dans des vecteurs d’incorporation. De nombreuses entrées peuvent être regroupées par lots dans chaque requête. Consultez POST /service-endpoints/{name}/invocations pour interroger les paramètres de point de terminaison.
Demande d’incorporation
| Champ | Catégorie | Descriptif |
|---|---|---|
input |
String ou List[String] | Obligatoire. Texte d’entrée à incorporer. Il peut s’agir d’une chaîne ou d’une liste de chaînes. |
instruction |
Chaîne | Instruction facultative à passer au modèle d’incorporation. |
Les instructions sont facultatives et hautement spécifiques au modèle. Par exemple, les auteurs BGE ne recommandent aucune instruction lors de l’indexation de blocs et recommandent d’utiliser l’instruction "Represent this sentence for searching relevant passages:" pour les requêtes de récupération. D’autres modèles comme Instructor-XL prennent en charge un large éventail de chaînes d’instructions.
Réponse des incorporations
| Champ | Catégorie | Descriptif |
|---|---|---|
id |
Chaîne | Identificateur unique pour l'intégration. |
object |
Chaîne | Type d’objet. Égal à "list". |
model |
Chaîne | Nom du modèle d’incorporation utilisé pour créer l’incorporation. |
data |
EmbeddingObject | Objet d’incorporation. |
usage |
Utilisation | Métadonnées d’utilisation des jetons. |
EmbeddingObject
| Champ | Catégorie | Descriptif |
|---|---|---|
object |
Chaîne | Type d’objet. Égal à "embedding". |
index |
Entier | Index de l’incorporation dans la liste des incorporations générées par le modèle. |
embedding |
Liste[Float] | Vecteur d’incorporation. Chaque modèle retourne un vecteur de taille fixe (1024 pour BGE-Large) |
API des complétions
Les tâches de complétion de texte consistent à générer des réponses à partir d'une seule invite. Contrairement à Chat, cette tâche prend en charge les entrées par lots : plusieurs invites indépendantes peuvent être envoyées dans une seule requête. Consultez POST /service-endpoints/{name}/invocations pour interroger les paramètres de point de terminaison.
Demande d’achèvement
| Champ | Par défaut | Catégorie | Descriptif |
|---|---|---|---|
prompt |
String ou List[String] | Obligatoire. Les invites pour le modèle. | |
max_tokens |
null |
null, ce qui signifie qu'il n'y a pas de limite ou qu'il s'agit d'un entier supérieur à zéro |
Nombre maximal de jetons à générer. |
stream |
true |
Booléen | Transmettez en flux continu les réponses au client afin de permettre les résultats partiels pour les demandes. Si ce paramètre est inclus dans la requête, les réponses sont envoyées à l’aide des événements envoyés par le serveur standard. |
temperature |
1.0 |
Float en [0,2] | Température d’échantillonnage. 0 est déterministe et les valeurs supérieures introduisent plus de randomité. |
top_p |
1.0 |
Float en (0,1] | Seuil de probabilité utilisé pour l’échantillonnage du noyau. |
top_k |
null |
null, ce qui signifie qu'il n'y a pas de limite ou qu'il s'agit d'un entier supérieur à zéro |
Définit le nombre de jetons k les plus probables à utiliser pour le filtrage top-k. Définissez cette valeur sur 1 pour rendre les sorties déterministes. |
error_behavior |
"error" |
"truncate" ou "error" |
Pour les délais d’expiration et les erreurs de longueur de contexte dépassées. Un des éléments suivants : "truncate" (renvoyer autant de jetons que possible) et "error" (renvoyer une erreur). Ce paramètre est accepté uniquement par les points de terminaison de paiement par jeton. |
n |
1 | Entier supérieur à zéro | L’API retourne les achèvements de conversation indépendants n lorsque n est spécifié. Recommandé pour les charges de travail qui génèrent plusieurs achèvements sur la même entrée pour améliorer l’efficacité de l’inférence et réaliser des économies de coûts. Disponible uniquement pour les points de terminaison de débit provisionnés. |
stop |
[] | String ou List[String] | Le modèle cesse de générer d’autres jetons lorsque l’une des séquences de stop est rencontrée. |
suffix |
"" |
Chaîne | Une chaîne qui est ajoutée à la fin de chaque complétion. |
echo |
false |
Booléen | Retourne l’invite avec la saisie semi-automatique. |
use_raw_prompt |
false |
Booléen | Si true, transmettez le prompt directement dans le modèle sans aucune transformation. |
Réponse de la saisie semi-automatique de texte
| Champ | Catégorie | Descriptif |
|---|---|---|
id |
Chaîne | Identificateur unique pour la saisie semi-automatique de texte. |
choices |
ChoixDeComplétion | Liste des complétions de texte. Pour chaque invite transmise, les choix n sont générés si n est spécifié. La n par défaut est 1. |
object |
Chaîne | Type d’objet. Égal à "text_completion" |
created |
Entier | Heure à laquelle l’achèvement a été généré, exprimée en secondes. |
usage |
Utilisation | Métadonnées d’utilisation des jetons. |
CompletionChoice
| Champ | Catégorie | Descriptif |
|---|---|---|
index |
Entier | Index de l’invite dans la requête. |
text |
Chaîne | Saisie générée. |
finish_reason |
Chaîne | Raison pour laquelle le modèle a cessé de générer des jetons. |