Udostępnij za pośrednictwem


Wnioskowanie modelu AI platformy Azure (wersja zapoznawcza)

Interfejs API wnioskowania modelu dla modeli wdrożonych w usługach Azure AI i Azure ML z punktami końcowymi bezserwerowymi i własnymi.

Ten łącznik jest dostępny w następujących produktach i regionach:

Service Klasa Regiony
Logic Apps Standard Wszystkie regiony usługi Logic Apps z wyjątkiem następujących:
     - Azure Government regionów
     - Azure regionach Chin
     - Departament Obrony USA (DoD)
Kontakt biznesowy
Nazwa Microsoft
adres URL https://support.microsoft.com
Metadane łącznika
Publisher Microsoft Copilot Studio
Zasady ochrony prywatności https://privacy.microsoft.com/privacystatement
Witryna internetowa https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api
Kategorie AI

Łącznik wnioskowania usługi Azure AI umożliwia nawiązanie połączenia z własnym modelem z poziomu usługi Azure ai Studio

Wymagania wstępne

  • Model wdrożony w narzędziu Azure ai Studio

Pobieranie poświadczeń

Aby uwierzytelnić żądania interfejsu API, potrzebny będzie punkt końcowy i klucz interfejsu API modelu.

Przejdź do zasobu w usłudze Azure Open ai Studio —> wdrożenia. Następnie w obszarze Punkt końcowy punkt końcowy ma wartość "Identyfikator URI elementu docelowego", a klucz znajduje się w obszarze "Klucz".

Obsługiwane operacje

Łącznik wnioskowania usługi Azure AI obsługuje następujące operacje:

  1. GetModelInfo — zwraca informacje o modelu wdrożonym w punkcie końcowym

Wymagane parametry:

* `api-version` - The version of the Inference API
  1. GetChatCompletions — tworzy odpowiedź modelu dla danej konwersacji na czacie

Wymagane parametry:

* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models

Wartości domyślne parametrów opcjonalnych:

* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1

Tworzenie połączenia

Łącznik obsługuje następujące typy uwierzytelniania:

Wartość domyślna Parametry tworzenia połączenia. Wszystkie regiony Nie można udostępniać

Domyślny

Dotyczy: wszystkie regiony

Parametry tworzenia połączenia.

Nie jest to możliwe do udostępnienia połączenie. Jeśli aplikacja power zostanie udostępniona innemu użytkownikowi, zostanie wyświetlony monit o jawne utworzenie nowego połączenia.

Nazwa Typ Opis Wymagane
Adres URL punktu końcowego modelu platformy Azure ciąg Wprowadź adres URL wdrożonego punktu końcowego modelu. Przykład: https://resource.openai.azure.com Prawda
klucz interfejsu API securestring Autoryzacja dla tego interfejsu API Prawda

Limity ograniczania

Nazwa Wywołania Okres odnowienia
Wywołania interfejsu API na połączenie 100 60 sekund

Akcje

Tworzy odpowiedź modelu dla danej konwersacji na czacie

Tworzy odpowiedź modelu dla danej konwersacji na czacie.

Zwraca informacje o modelu wdrożonym w punkcie końcowym

Zwraca informacje o modelu AI. Metoda wykonuje wywołanie interfejsu /info API REST do trasy w danym punkcie końcowym. Ta metoda będzie działać tylko w przypadku korzystania z bezserwerowego interfejsu API lub zarządzanego punktu końcowego obliczeń. Nie będzie działać w przypadku punktu końcowego usługi GitHub Models ani punktu końcowego usługi Azure OpenAI.

Tworzy odpowiedź modelu dla danej konwersacji na czacie

Tworzy odpowiedź modelu dla danej konwersacji na czacie.

Parametry

Nazwa Klucz Wymagane Typ Opis
zawartość
content True string

Zawartość komunikatu systemowego.

rola
role True string

Rola autora komunikatów, w tym przypadku system.

nazwa
name string

Opcjonalna nazwa uczestnika. Zawiera informacje o modelu umożliwiające rozróżnienie między uczestnikami tej samej roli.

kara za częstotliwość
frequency_penalty float

Wartość, która wpływa na prawdopodobieństwo pojawienia się wygenerowanych tokenów na podstawie ich częstotliwości skumulowanej w wygenerowanym tekście. Wartości dodatnie sprawią, że tokeny staną się mniej prawdopodobne, ponieważ ich częstotliwość wzrasta i zmniejsza prawdopodobieństwo powtórzenia tych samych instrukcji przez model. Obsługiwany zakres to [-2, 2].

odtwarzać strumieniowo
stream boolean

Wartość wskazująca, czy ukończenia czatu powinny być przesyłane strumieniowo dla tego żądania.

kara_obecności
presence_penalty float

Wartość, która wpływa na prawdopodobieństwo pojawienia się wygenerowanych tokenów na podstawie ich istniejącej obecności w wygenerowanym tekście. Wartości dodatnie sprawią, że tokeny będą wyświetlane, gdy już istnieją i zwiększą prawdopodobieństwo pojawienia się nowych tematów modelu. Obsługiwany zakres to [-2, 2].

temperatura
temperature float

Temperatura próbkowania do użycia kontroluje pozorną kreatywność generowanych zakończeń. Wyższe wartości sprawią, że dane wyjściowe będą bardziej losowe, a niższe wartości sprawią, że wyniki będą bardziej skoncentrowane i deterministyczne. Nie zaleca się modyfikowania temperatury i top_p dla tego samego żądania ukończenia, ponieważ interakcja tych dwóch ustawień jest trudna do przewidzenia. Obsługiwany zakres to [0, 1].

top_p
top_p float

Alternatywą dla próbkowania z temperaturą nazywaną próbkowaniem jądra. Ta wartość powoduje, że model uwzględnia wyniki tokenów z podaną masą prawdopodobieństwa. Na przykład wartość 0,15 spowoduje rozważenie tylko tokenów zawierających 15 pierwszych% masy prawdopodobieństwa. Nie zaleca się modyfikowania temperatury i top_p dla tego samego żądania ukończenia, ponieważ interakcja tych dwóch ustawień jest trudna do przewidzenia. Obsługiwany zakres to [0, 1].

maks_tokenów
max_tokens integer

Maksymalna liczba tokenów do wygenerowania.

typ
type string

Musi być jednym z text lub json_object.

stop
stop array of string

Kolekcja sekwencji tekstowych, które zakończą generowanie uzupełniania.

typ
type True string

Typ narzędzia. Obecnie obsługiwany jest tylko function.

opis
description string

Opis działania funkcji. Model użyje tego opisu podczas wybierania funkcji i interpretowania jego parametrów.

nazwa
name True string

Nazwa funkcji do wywołania.

parameters
parameters object

Parametry akceptowane przez funkcje, opisane jako obiekt schematu JSON.

seed
seed integer

Jeśli zostanie określony, system podejmie najlepsze wysiłki, aby próbkować deterministycznie takie, że powtarzające się żądania z tym samym inicjatorem i parametrami powinny zwrócić ten sam wynik. Determinizm nie jest gwarantowany.

model
model string

Identyfikator określonego modelu sztucznej inteligencji do użycia, jeśli w punkcie końcowym jest dostępny więcej niż jeden model.

Wersja interfejsu API w formacie "RRRR-MM-DD" lub "RRRR-MM-DD-preview".
api-version True string

Wersja interfejsu API w formacie "RRRR-MM-DD" lub "RRRR-MM-DD-preview".

Określa, co się stanie w przypadku przekazania nieznanego parametru.
extra-parameters string

Określa, co się stanie, jeśli dodatkowe parametry, niezdefiniowane przez interfejs API REST, są przekazywane w ładunku żądania JSON. Spowoduje to ustawienie nagłówka extra-parametersżądania HTTP . error — usługa zgłosi błąd, jeśli wykrył dodatkowe parametry w ładunku żądania. Jest to domyślna usługa. drop — usługa zignoruje (upuść) dodatkowe parametry w ładunku żądania. Przekaże on tylko znane parametry do modelu AI zaplecza. przekazywanie — usługa przekaże dodatkowe parametry do modelu AI zaplecza.

Nazwa wdrożenia, do którego chcesz skierować żądanie.
azureml-model-deployment string

Nazwa wdrożenia, do którego chcesz skierować żądanie. Obsługiwane w przypadku punktów końcowych obsługujących wiele wdrożeń.

Zwraca

Reprezentuje odpowiedź na zakończenie czatu zwróconą przez model na podstawie podanych danych wejściowych.

Zwraca informacje o modelu wdrożonym w punkcie końcowym

Zwraca informacje o modelu AI. Metoda wykonuje wywołanie interfejsu /info API REST do trasy w danym punkcie końcowym. Ta metoda będzie działać tylko w przypadku korzystania z bezserwerowego interfejsu API lub zarządzanego punktu końcowego obliczeń. Nie będzie działać w przypadku punktu końcowego usługi GitHub Models ani punktu końcowego usługi Azure OpenAI.

Parametry

Nazwa Klucz Wymagane Typ Opis
Wersja interfejsu API w formacie "RRRR-MM-DD" lub "RRRR-MM-DD-preview".
api-version True string

Wersja interfejsu API w formacie "RRRR-MM-DD" lub "RRRR-MM-DD-preview".

Nazwa wdrożenia, do którego chcesz skierować żądanie.
azureml-model-deployment string

Nazwa wdrożenia, do którego chcesz skierować żądanie. Obsługiwane w przypadku punktów końcowych obsługujących wiele wdrożeń.

Zwraca

Przedstawia podstawowe informacje o modelu sztucznej inteligencji.

Body
ModelInfo

Definicje

Informacje o modelu

Przedstawia podstawowe informacje o modelu sztucznej inteligencji.

Nazwa Ścieżka Typ Opis
model_name
model_name string

Nazwa modelu AI.

model_type string

Typ modelu AI. Unikatowy identyfikator profilu.

model_provider_name
model_provider_name string

Nazwa dostawcy modelu.

capabilities
capabilities

ChatCompletionMessageToolCalls

Wywołania narzędzi generowane przez model, takie jak wywołania funkcji.

Nazwa Ścieżka Typ Opis
Przedmioty
ChatCompletionMessageToolCall

ChatCompletionMessageToolCall

Nazwa Ścieżka Typ Opis
id
id string

Identyfikator wywołania narzędzia.

typ
type string

Typ narzędzia. Obecnie obsługiwany jest tylko function.

nazwa
function.name string

Nazwa funkcji do wywołania.

Argumenty
function.arguments string

Argumenty do wywołania funkcji za pomocą , wygenerowane przez model w formacie JSON. Należy pamiętać, że model nie zawsze generuje prawidłowy plik JSON oraz może generować parametry nieopisane przez schemat funkcji. Przed wywołaniem funkcji zweryfikuj argumenty w kodzie.

ChatCompletionResponseMessage

Komunikat ukończenia czatu wygenerowany przez model.

Nazwa Ścieżka Typ Opis
zawartość
content string

Zawartość wiadomości.

tool_calls
tool_calls ChatCompletionMessageToolCalls

Wywołania narzędzi generowane przez model, takie jak wywołania funkcji.

rola
role string

Rola autora tej wiadomości.

CreateChatCompletionResponse

Reprezentuje odpowiedź na zakończenie czatu zwróconą przez model na podstawie podanych danych wejściowych.

Nazwa Ścieżka Typ Opis
id
id string

Unikatowy identyfikator skojarzony z tą odpowiedzią na ukończenie czatu.

choices
choices array of object

Lista opcji ukończenia czatu. Może być więcej niż jeden, jeśli n jest większy niż 1.

choices.finish_reason string

Przyczyna, dla którego model przestał generować tokeny. Będzie to miało miejsce stop , jeśli model osiągnie naturalny punkt zatrzymania lub podaną sekwencję zatrzymania,length jeśli osiągnięto maksymalną liczbę tokenów określonych w żądaniu,content_filter jeśli zawartość została pominięta z powodu flagi z filtrów zawartości,tool_calls jeśli model nazwał narzędzie.

content_filter_result
choices.content_filter_result
indeks
choices.index integer

Uporządkowany indeks skojarzony z wybranymi ukończeniami czatu.

komunikat
choices.message ChatCompletionResponseMessage

Komunikat ukończenia czatu wygenerowany przez model.

utworzone
created integer

Pierwszy znacznik czasu skojarzony z działaniem generowania dla tej odpowiedzi ukończenia, reprezentowany jako sekundy od początku epoki systemu Unix 00:00 w dniu 1 stycznia 1970 r.

model
model string

Model używany do ukończenia czatu.

obiekt
object string

Typ obiektu, który jest zawsze chat.completion.

użycie
usage CompletionUsage

Reprezentacja liczby tokenów przetworzonych dla żądania ukończenia. Liczby uwzględniają wszystkie tokeny w monitach, wyborach, alternatywnych opcjach, best_of generacjach i innych użytkownikach.

UkończenieUsage

Reprezentacja liczby tokenów przetworzonych dla żądania ukończenia. Liczby uwzględniają wszystkie tokeny w monitach, wyborach, alternatywnych opcjach, best_of generacjach i innych użytkownikach.

Nazwa Ścieżka Typ Opis
completion_tokens
completion_tokens integer

Liczba tokenów wygenerowanych we wszystkich emisjach ukończenia.

prompt_tokens
prompt_tokens integer

Liczba tokenów w podanych monitach dotyczących żądania ukończenia.

total_tokens
total_tokens integer

Łączna liczba tokenów przetworzonych na potrzeby żądania ukończenia i odpowiedzi.