Dela via


Azure AI-modellinferens (förhandsversion)

Api för modellinferens för modeller som distribuerats i Azure AI och Azure ML med serverlösa och lokalt installerade slutpunkter.

Den här anslutningsappen är tillgänglig i följande produkter och regioner:

Service Class Regioner
Logiska appar Standard Alla Logic Apps-regioner utom följande:
     - Azure Government regioner
     - Azure kinaregioner
     - US Department of Defense (DoD)
Kontakt
Namn Microsoft
URL https://support.microsoft.com
Metadata för anslutningsprogram
Publisher Microsoft Copilot Studio
Sekretesspolicy https://privacy.microsoft.com/privacystatement
Webbplats https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api
Kategorier AI

Med Azure AI Inference-anslutningsappen kan du ansluta till din egen modell från Azure AI Studio

Förutsättningar

  • En modell som distribueras i azure ai studio

Hämta dina autentiseringsuppgifter

För att autentisera dina API-begäranden behöver du modellens slutpunkt och API-nyckel.

Gå till din resurs i azure open ai studio –> distributioner. Under Slutpunkten är slutpunkten sedan "Mål-URI" och nyckeln är under "Nyckel".

Åtgärder som stöds

Anslutningsappen för Azure AI-slutsatsdragning stöder följande åtgärder:

  1. GetModelInfo – Returnerar information om modellen som distribuerats under slutpunkten

Obligatoriska parametrar:

* `api-version` - The version of the Inference API
  1. GetChatCompletions – Skapar ett modellsvar för den angivna chattkonversationen

Obligatoriska parametrar:

* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models

Standardvärden för valfria parametrar:

* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1

Skapa en anslutning

Anslutningsappen stöder följande autentiseringstyper:

Standardinställning Parametrar för att skapa anslutning. Alla regioner Går inte att dela

Standard

Tillämpligt: Alla regioner

Parametrar för att skapa anslutning.

Det här är inte delningsbar anslutning. Om power-appen delas med en annan användare uppmanas en annan användare att skapa en ny anslutning explicit.

Namn Type Beskrivning Obligatoriskt
URL för Azure-modellslutpunkt snöre Ange URL:en för din distribuerade modellslutpunkt. Till exempel: https://resource.openai.azure.com Sann
API-nyckel securestring Auktorisering för det här API:et Sann

Begränsningsgränser

Name Anrop Förnyelseperiod
API-anrop per anslutning 100 60 sekunder

Åtgärder

Returnerar information om den modell som distribueras under slutpunkten

Returnerar information om AI-modellen. Metoden gör ett REST API-anrop till /info vägen på den angivna slutpunkten. Den här metoden fungerar bara när du använder serverlöst API eller hanterad beräkningsslutpunkt. Det fungerar inte för GitHub Models-slutpunkten eller Azure OpenAI-slutpunkten.

Skapar ett modellsvar för den angivna chattkonversationen

Skapar ett modellsvar för den angivna chattkonversationen.

Returnerar information om den modell som distribueras under slutpunkten

Returnerar information om AI-modellen. Metoden gör ett REST API-anrop till /info vägen på den angivna slutpunkten. Den här metoden fungerar bara när du använder serverlöst API eller hanterad beräkningsslutpunkt. Det fungerar inte för GitHub Models-slutpunkten eller Azure OpenAI-slutpunkten.

Parametrar

Name Nyckel Obligatorisk Typ Description
Versionen av API:et i formatet "ÅÅÅÅ-MM-DD" eller "ÅÅÅÅ-MM-DD-preview".
api-version True string

Versionen av API:et i formatet "ÅÅÅÅ-MM-DD" eller "ÅÅÅÅ-MM-DD-preview".

Namnet på den distribution som du vill dirigera begäran till.
azureml-model-deployment string

Namnet på den distribution som du vill dirigera begäran till. Stöds för slutpunkter som stöder flera distributioner.

Returer

Representerar grundläggande information om AI-modellen.

Body
ModelInfo

Skapar ett modellsvar för den angivna chattkonversationen

Skapar ett modellsvar för den angivna chattkonversationen.

Parametrar

Name Nyckel Obligatorisk Typ Description
innehåll
content True string

Innehållet i systemmeddelandet.

None needed, as the translation is already accurate and fluent.
role True string

Rollen som meddelandenas författare, i det här fallet system.

Namn
name string

Ett valfritt namn för deltagaren. Tillhandahåller modellinformation för att skilja mellan deltagare med samma roll.

frekvensstraff
frequency_penalty float

Ett värde som påverkar sannolikheten för att genererade token visas baserat på deras kumulativa frekvens i genererad text. Positiva värden gör token mindre benägna att visas när deras frekvens ökar och minskar sannolikheten för att modellen upprepar samma instruktioner ordagrant. Intervallet som stöds är [-2, 2].

ström
stream boolean

Ett värde som anger om chattavslut ska strömmas för den här begäran.

närvarostraff
presence_penalty float

Ett värde som påverkar sannolikheten för att genererade token visas baserat på deras befintliga närvaro i genererad text. Positiva värden gör token mindre benägna att visas när de redan finns och ökar modellens sannolikhet att mata ut nya ämnen. Intervallet som stöds är [-2, 2].

temperatur
temperature float

Samplingstemperaturen som ska användas som styr den uppenbara kreativiteten hos genererade slutföranden. Högre värden gör utdata mer slumpmässiga medan lägre värden gör resultatet mer fokuserat och deterministiskt. Vi rekommenderar inte att du ändrar temperatur och top_p för samma slutförandebegäran eftersom interaktionen mellan dessa två inställningar är svår att förutsäga. Intervallet som stöds är [0, 1].

top_p
top_p float

Ett alternativ till provtagning med temperatur som kallas kärnprovtagning. Det här värdet gör att modellen överväger resultatet av token med den angivna sannolikhetsmassan. Ett värde på 0,15 gör till exempel att endast token som består av de 15 främsta% sannolikhetsmassan beaktas. Vi rekommenderar inte att du ändrar temperatur och top_p för samma slutförandebegäran eftersom interaktionen mellan dessa två inställningar är svår att förutsäga. Intervallet som stöds är [0, 1].

maximala_tecken
max_tokens integer

Det maximala antalet token som ska genereras.

type
type string

Måste vara en av text eller json_object.

stop
stop array of string

En samling textsekvenser som avslutar genereringen av slutföranden.

type
type True string

Verktygets typ. För närvarande stöds endast function.

beskrivning
description string

En beskrivning av vad funktionen gör. Modellen använder den här beskrivningen när du väljer funktionen och tolkar dess parametrar.

Namn
name True string

Namnet på den funktion som ska anropas.

parametrar
parameters object

Parametrarna som funktionerna accepterar, som beskrivs som ett JSON-schemaobjekt.

seed
seed integer

Om det anges gör systemet ett bästa försök att sampla deterministiskt så att upprepade begäranden med samma startvärde och parametrar ska returnera samma resultat. Determinism garanteras inte.

model
model string

ID för den specifika AI-modell som ska användas, om mer än en modell är tillgänglig på slutpunkten.

Versionen av API:et i formatet "ÅÅÅÅ-MM-DD" eller "ÅÅÅÅ-MM-DD-preview".
api-version True string

Versionen av API:et i formatet "ÅÅÅÅ-MM-DD" eller "ÅÅÅÅ-MM-DD-preview".

Styr vad som händer om en okänd parameter skickas.
extra-parameters string

Styr vad som händer om extra parametrar, odefinierade av REST-API:et, skickas i JSON-begärandenyttolasten. Detta anger HTTP-begärandehuvudet extra-parameters. error – Tjänsten får ett fel om den har identifierat extra parametrar i nyttolasten för begäran. Det här är standardinställningen för tjänsten. drop – Tjänsten ignorerar (släpper) extra parametrar i begärandenyttolasten. Den skickar bara de kända parametrarna till backend-AI-modellen. genomströmning – Tjänsten skickar extra parametrar till backend-AI-modellen.

Namnet på den distribution som du vill dirigera begäran till.
azureml-model-deployment string

Namnet på den distribution som du vill dirigera begäran till. Stöds för slutpunkter som stöder flera distributioner.

Returer

Representerar ett svar för chattens slutförande som returneras av modellen, baserat på de angivna indata.

Definitioner

ModellInfo

Representerar grundläggande information om AI-modellen.

Name Sökväg Typ Description
model_name
model_name string

Namnet på AI-modellen.

model_type string

Typen av AI-modell. En unik identifierare för profilen.

model_provider_name
model_provider_name string

Modellproviderns namn.

capabilities
capabilities

ChatCompletionMessageToolCalls

Verktygsanrop som genereras av modellen, såsom funktionsanrop.

Name Sökväg Typ Description
Artiklar
ChatCompletionMessageToolCall

ChatCompletionMessageToolCall

Name Sökväg Typ Description
Id-nummer
id string

ID för verktygsanropet

type
type string

Verktygets typ. För närvarande stöds endast function.

Namn
function.name string

Namnet på funktionen som ska anropas.

arguments
function.arguments string

Argumenten för att anropa funktionen med, som genereras av modellen i JSON-format. Observera att modellen inte alltid genererar giltig JSON och kan hallucinera parametrar som inte definieras av funktionsschemat. Verifiera argumenten i koden innan du anropar funktionen.

ChatCompletionResponseMessage

Ett meddelande om att chatten har slutförts som genererats av modellen.

Name Sökväg Typ Description
innehåll
content string

Innehållet i meddelandet.

tool_calls
tool_calls ChatCompletionMessageToolCalls

Verktygsanrop som genereras av modellen, såsom funktionsanrop.

None needed, as the translation is already accurate and fluent.
role string

Rollen som författare till det här meddelandet.

CreateChatCompletionResponse

Representerar ett svar för chattens slutförande som returneras av modellen, baserat på de angivna indata.

Name Sökväg Typ Description
Id-nummer
id string

En unik identifierare som är associerad med det här chattavslutssvaret.

choices
choices array of object

En lista över alternativ för chattens slutförande. Kan vara mer än en om n är större än 1.

choices.finish_reason string

Anledningen till att modellen slutade generera token. Det här är stop om modellen träffar en naturlig stopppunkt eller en angiven stoppsekvens,length om det maximala antalet token som anges i begäran har nåtts,content_filter om innehållet utelämnades på grund av en flagga från våra innehållsfilter,tool_calls om modellen kallade ett verktyg.

content_filter_result
choices.content_filter_result
index
choices.index integer

Det ordnade indexet som är associerat med det här alternativet för chattavslut.

meddelande
choices.message ChatCompletionResponseMessage

Ett meddelande om att chatten har slutförts som genererats av modellen.

created
created integer

Den första tidsstämpeln som är associerad med generationsaktiviteten för det här slutförandesvaret, representerat som sekunder sedan unix-epoken 00:00 den 1 januari 1970.

model
model string

Modellen som används för chattens slutförande.

objekt
object string

Objekttypen, som alltid är chat.completion.

usage
usage CompletionUsage

Representation av antalet token som bearbetats för en slutförandebegäran. Antal överväger alla token i fråga, val, alternativ, best_of generationer och andra konsumenter.

CompletionUsage

Representation av antalet token som bearbetats för en slutförandebegäran. Antal överväger alla token i fråga, val, alternativ, best_of generationer och andra konsumenter.

Name Sökväg Typ Description
completion_tokens
completion_tokens integer

Antalet token som genereras för alla slutförda utsläpp.

prompt_tokens
prompt_tokens integer

Antalet token i de angivna prompterna för slutförandebegäran.

total_tokens
total_tokens integer

Det totala antalet token som bearbetas för slutförandebegäran och svar.