Wnioskowanie modelu AI platformy Azure (wersja zapoznawcza)
Interfejs API wnioskowania modelu dla modeli wdrożonych w usługach Azure AI i Azure ML z punktami końcowymi bezserwerowymi i własnymi.
Ten łącznik jest dostępny w następujących produktach i regionach:
| Service | Klasa | Regiony |
|---|---|---|
| Logic Apps | Standard | Wszystkie regiony usługi Logic Apps z wyjątkiem następujących: - Azure Government regionów - Azure regionach Chin - Departament Obrony USA (DoD) |
| Kontakt biznesowy | |
|---|---|
| Nazwa | Microsoft |
| adres URL | https://support.microsoft.com |
| Metadane łącznika | |
|---|---|
| Publisher | Microsoft Copilot Studio |
| Zasady ochrony prywatności | https://privacy.microsoft.com/privacystatement |
| Witryna internetowa | https://learn.microsoft.com/en-us/azure/ai-studio/reference/reference-model-inference-api |
| Kategorie | AI |
Łącznik wnioskowania usługi Azure AI umożliwia nawiązanie połączenia z własnym modelem z poziomu usługi Azure ai Studio
Wymagania wstępne
- Model wdrożony w narzędziu Azure ai Studio
Pobieranie poświadczeń
Aby uwierzytelnić żądania interfejsu API, potrzebny będzie punkt końcowy i klucz interfejsu API modelu.
Przejdź do zasobu w usłudze Azure Open ai Studio —> wdrożenia. Następnie w obszarze Punkt końcowy punkt końcowy ma wartość "Identyfikator URI elementu docelowego", a klucz znajduje się w obszarze "Klucz".
Obsługiwane operacje
Łącznik wnioskowania usługi Azure AI obsługuje następujące operacje:
- GetModelInfo — zwraca informacje o modelu wdrożonym w punkcie końcowym
Wymagane parametry:
* `api-version` - The version of the Inference API
- GetChatCompletions — tworzy odpowiedź modelu dla danej konwersacji na czacie
Wymagane parametry:
* `api-version` - The version of the Inference API
* `messages` - The chat conversation to be completed
* `model` - The Deployment name of the model, Required only for openai models
Wartości domyślne parametrów opcjonalnych:
* `frequency_penalty` - 0
* `presence_penalty` - 0
* `temperature` - 0.7
* `top_p` - 1
Tworzenie połączenia
Łącznik obsługuje następujące typy uwierzytelniania:
| Wartość domyślna | Parametry tworzenia połączenia. | Wszystkie regiony | Nie można udostępniać |
Domyślny
Dotyczy: wszystkie regiony
Parametry tworzenia połączenia.
Nie jest to możliwe do udostępnienia połączenie. Jeśli aplikacja power zostanie udostępniona innemu użytkownikowi, zostanie wyświetlony monit o jawne utworzenie nowego połączenia.
| Nazwa | Typ | Opis | Wymagane |
|---|---|---|---|
| Adres URL punktu końcowego modelu platformy Azure | ciąg | Wprowadź adres URL wdrożonego punktu końcowego modelu. Przykład: https://resource.openai.azure.com | Prawda |
| klucz interfejsu API | securestring | Autoryzacja dla tego interfejsu API | Prawda |
Limity ograniczania
| Nazwa | Wywołania | Okres odnowienia |
|---|---|---|
| Wywołania interfejsu API na połączenie | 100 | 60 sekund |
Akcje
| Tworzy odpowiedź modelu dla danej konwersacji na czacie |
Tworzy odpowiedź modelu dla danej konwersacji na czacie. |
| Zwraca informacje o modelu wdrożonym w punkcie końcowym |
Zwraca informacje o modelu AI. Metoda wykonuje wywołanie interfejsu |
Tworzy odpowiedź modelu dla danej konwersacji na czacie
Tworzy odpowiedź modelu dla danej konwersacji na czacie.
Parametry
| Nazwa | Klucz | Wymagane | Typ | Opis |
|---|---|---|---|---|
|
zawartość
|
content | True | string |
Zawartość komunikatu systemowego. |
|
rola
|
role | True | string |
Rola autora komunikatów, w tym przypadku |
|
nazwa
|
name | string |
Opcjonalna nazwa uczestnika. Zawiera informacje o modelu umożliwiające rozróżnienie między uczestnikami tej samej roli. |
|
|
kara za częstotliwość
|
frequency_penalty | float |
Wartość, która wpływa na prawdopodobieństwo pojawienia się wygenerowanych tokenów na podstawie ich częstotliwości skumulowanej w wygenerowanym tekście. Wartości dodatnie sprawią, że tokeny staną się mniej prawdopodobne, ponieważ ich częstotliwość wzrasta i zmniejsza prawdopodobieństwo powtórzenia tych samych instrukcji przez model. Obsługiwany zakres to [-2, 2]. |
|
|
odtwarzać strumieniowo
|
stream | boolean |
Wartość wskazująca, czy ukończenia czatu powinny być przesyłane strumieniowo dla tego żądania. |
|
|
kara_obecności
|
presence_penalty | float |
Wartość, która wpływa na prawdopodobieństwo pojawienia się wygenerowanych tokenów na podstawie ich istniejącej obecności w wygenerowanym tekście. Wartości dodatnie sprawią, że tokeny będą wyświetlane, gdy już istnieją i zwiększą prawdopodobieństwo pojawienia się nowych tematów modelu. Obsługiwany zakres to [-2, 2]. |
|
|
temperatura
|
temperature | float |
Temperatura próbkowania do użycia kontroluje pozorną kreatywność generowanych zakończeń. Wyższe wartości sprawią, że dane wyjściowe będą bardziej losowe, a niższe wartości sprawią, że wyniki będą bardziej skoncentrowane i deterministyczne. Nie zaleca się modyfikowania temperatury i top_p dla tego samego żądania ukończenia, ponieważ interakcja tych dwóch ustawień jest trudna do przewidzenia. Obsługiwany zakres to [0, 1]. |
|
|
top_p
|
top_p | float |
Alternatywą dla próbkowania z temperaturą nazywaną próbkowaniem jądra. Ta wartość powoduje, że model uwzględnia wyniki tokenów z podaną masą prawdopodobieństwa. Na przykład wartość 0,15 spowoduje rozważenie tylko tokenów zawierających 15 pierwszych% masy prawdopodobieństwa. Nie zaleca się modyfikowania temperatury i top_p dla tego samego żądania ukończenia, ponieważ interakcja tych dwóch ustawień jest trudna do przewidzenia. Obsługiwany zakres to [0, 1]. |
|
|
maks_tokenów
|
max_tokens | integer |
Maksymalna liczba tokenów do wygenerowania. |
|
|
typ
|
type | string |
Musi być jednym z |
|
|
stop
|
stop | array of string |
Kolekcja sekwencji tekstowych, które zakończą generowanie uzupełniania. |
|
|
typ
|
type | True | string |
Typ narzędzia. Obecnie obsługiwany jest tylko |
|
opis
|
description | string |
Opis działania funkcji. Model użyje tego opisu podczas wybierania funkcji i interpretowania jego parametrów. |
|
|
nazwa
|
name | True | string |
Nazwa funkcji do wywołania. |
|
parameters
|
parameters | object |
Parametry akceptowane przez funkcje, opisane jako obiekt schematu JSON. |
|
|
seed
|
seed | integer |
Jeśli zostanie określony, system podejmie najlepsze wysiłki, aby próbkować deterministycznie takie, że powtarzające się żądania z tym samym inicjatorem i parametrami powinny zwrócić ten sam wynik. Determinizm nie jest gwarantowany. |
|
|
model
|
model | string |
Identyfikator określonego modelu sztucznej inteligencji do użycia, jeśli w punkcie końcowym jest dostępny więcej niż jeden model. |
|
|
Wersja interfejsu API w formacie "RRRR-MM-DD" lub "RRRR-MM-DD-preview".
|
api-version | True | string |
Wersja interfejsu API w formacie "RRRR-MM-DD" lub "RRRR-MM-DD-preview". |
|
Określa, co się stanie w przypadku przekazania nieznanego parametru.
|
extra-parameters | string |
Określa, co się stanie, jeśli dodatkowe parametry, niezdefiniowane przez interfejs API REST, są przekazywane w ładunku żądania JSON. Spowoduje to ustawienie nagłówka |
|
|
Nazwa wdrożenia, do którego chcesz skierować żądanie.
|
azureml-model-deployment | string |
Nazwa wdrożenia, do którego chcesz skierować żądanie. Obsługiwane w przypadku punktów końcowych obsługujących wiele wdrożeń. |
Zwraca
Reprezentuje odpowiedź na zakończenie czatu zwróconą przez model na podstawie podanych danych wejściowych.
Zwraca informacje o modelu wdrożonym w punkcie końcowym
Zwraca informacje o modelu AI. Metoda wykonuje wywołanie interfejsu /info API REST do trasy w danym punkcie końcowym. Ta metoda będzie działać tylko w przypadku korzystania z bezserwerowego interfejsu API lub zarządzanego punktu końcowego obliczeń. Nie będzie działać w przypadku punktu końcowego usługi GitHub Models ani punktu końcowego usługi Azure OpenAI.
Parametry
| Nazwa | Klucz | Wymagane | Typ | Opis |
|---|---|---|---|---|
|
Wersja interfejsu API w formacie "RRRR-MM-DD" lub "RRRR-MM-DD-preview".
|
api-version | True | string |
Wersja interfejsu API w formacie "RRRR-MM-DD" lub "RRRR-MM-DD-preview". |
|
Nazwa wdrożenia, do którego chcesz skierować żądanie.
|
azureml-model-deployment | string |
Nazwa wdrożenia, do którego chcesz skierować żądanie. Obsługiwane w przypadku punktów końcowych obsługujących wiele wdrożeń. |
Zwraca
Przedstawia podstawowe informacje o modelu sztucznej inteligencji.
- Body
- ModelInfo
Definicje
Informacje o modelu
Przedstawia podstawowe informacje o modelu sztucznej inteligencji.
| Nazwa | Ścieżka | Typ | Opis |
|---|---|---|---|
|
model_name
|
model_name | string |
Nazwa modelu AI. |
|
|
model_type | string |
Typ modelu AI. Unikatowy identyfikator profilu. |
|
model_provider_name
|
model_provider_name | string |
Nazwa dostawcy modelu. |
|
capabilities
|
capabilities |
ChatCompletionMessageToolCalls
Wywołania narzędzi generowane przez model, takie jak wywołania funkcji.
| Nazwa | Ścieżka | Typ | Opis |
|---|---|---|---|
|
Przedmioty
|
ChatCompletionMessageToolCall |
ChatCompletionMessageToolCall
| Nazwa | Ścieżka | Typ | Opis |
|---|---|---|---|
|
id
|
id | string |
Identyfikator wywołania narzędzia. |
|
typ
|
type | string |
Typ narzędzia. Obecnie obsługiwany jest tylko |
|
nazwa
|
function.name | string |
Nazwa funkcji do wywołania. |
|
Argumenty
|
function.arguments | string |
Argumenty do wywołania funkcji za pomocą , wygenerowane przez model w formacie JSON. Należy pamiętać, że model nie zawsze generuje prawidłowy plik JSON oraz może generować parametry nieopisane przez schemat funkcji. Przed wywołaniem funkcji zweryfikuj argumenty w kodzie. |
ChatCompletionResponseMessage
Komunikat ukończenia czatu wygenerowany przez model.
| Nazwa | Ścieżka | Typ | Opis |
|---|---|---|---|
|
zawartość
|
content | string |
Zawartość wiadomości. |
|
tool_calls
|
tool_calls | ChatCompletionMessageToolCalls |
Wywołania narzędzi generowane przez model, takie jak wywołania funkcji. |
|
rola
|
role | string |
Rola autora tej wiadomości. |
CreateChatCompletionResponse
Reprezentuje odpowiedź na zakończenie czatu zwróconą przez model na podstawie podanych danych wejściowych.
| Nazwa | Ścieżka | Typ | Opis |
|---|---|---|---|
|
id
|
id | string |
Unikatowy identyfikator skojarzony z tą odpowiedzią na ukończenie czatu. |
|
choices
|
choices | array of object |
Lista opcji ukończenia czatu. Może być więcej niż jeden, jeśli |
|
|
choices.finish_reason | string |
Przyczyna, dla którego model przestał generować tokeny. Będzie to miało miejsce |
|
content_filter_result
|
choices.content_filter_result | ||
|
indeks
|
choices.index | integer |
Uporządkowany indeks skojarzony z wybranymi ukończeniami czatu. |
|
komunikat
|
choices.message | ChatCompletionResponseMessage |
Komunikat ukończenia czatu wygenerowany przez model. |
|
utworzone
|
created | integer |
Pierwszy znacznik czasu skojarzony z działaniem generowania dla tej odpowiedzi ukończenia, reprezentowany jako sekundy od początku epoki systemu Unix 00:00 w dniu 1 stycznia 1970 r. |
|
model
|
model | string |
Model używany do ukończenia czatu. |
|
obiekt
|
object | string |
Typ obiektu, który jest zawsze |
|
użycie
|
usage | CompletionUsage |
Reprezentacja liczby tokenów przetworzonych dla żądania ukończenia. Liczby uwzględniają wszystkie tokeny w monitach, wyborach, alternatywnych opcjach, best_of generacjach i innych użytkownikach. |
UkończenieUsage
Reprezentacja liczby tokenów przetworzonych dla żądania ukończenia. Liczby uwzględniają wszystkie tokeny w monitach, wyborach, alternatywnych opcjach, best_of generacjach i innych użytkownikach.
| Nazwa | Ścieżka | Typ | Opis |
|---|---|---|---|
|
completion_tokens
|
completion_tokens | integer |
Liczba tokenów wygenerowanych we wszystkich emisjach ukończenia. |
|
prompt_tokens
|
prompt_tokens | integer |
Liczba tokenów w podanych monitach dotyczących żądania ukończenia. |
|
total_tokens
|
total_tokens | integer |
Łączna liczba tokenów przetworzonych na potrzeby żądania ukończenia i odpowiedzi. |