Azure dokumentacja interfejsu API REST interfejsu API interfejsu OPENAI (2024-10-21)

Ten artykuł zawiera dokumenty dotyczące operacji interfejsu API REST generowania obrazów i dźwięku (mowy) na potrzeby operacji interfejsu API REST Azure OpenAI w wersji ogólnodostępnej2024-10-21. Aby uzyskać informacje na temat uzupełniania czatów, osadzania, uzupełniania i wszystkich innych operacji, zobacz oficjalną dokumentację interfejsu API REST platformy OpenAI Azure OpenAI.

Specyfikacje interfejsu API

Zarządzanie i interakcja z modelami i zasobami Azure OpenAI podzielone są na trzy główne powierzchnie API:

Płaszczyzna sterowania
Płaszczyzna danych – autorowanie
Płaszczyzna danych – wnioskowanie

Każda powierzchnia/specyfikacja API zawiera inny zestaw możliwości Azure OpenAI. Każde API ma własny, unikalny zestaw wersji podglądowych oraz stabilnych/ogólnie dostępnych (GA) wersji API. Obecnie premierowe premiery mają tendencję do miesięcznego rytmu.

Ważna

Obecnie pojawiło się nowe API do podglądu wnioskowania. Dowiedz się więcej w naszym przewodniku po cyklu życia API.

API	Najnowsza wersja zapowiedziowa	Najnowsza wersja GA	Specifications	Opis
Płaszczyzna sterowania	`2025-07-01-preview`	`2025-06-01`	Pliki specyfikacji	API płaszczyzny sterowania jest wykorzystywane do operacji takich jak tworzenie zasobów, wdrażanie modeli oraz inne zadania zarządzania zasobami na wyższym poziomie. Płaszczyzna sterowania reguluje również możliwości takie jak Azure Resource Manager, Bicep, Terraform i Azure CLI.
Płaszczyzna danych	`v1 preview`	`v1`	Pliki specyfikacji	API płaszczyzny danych kontroluje operacje wnioskowania i autorstwa.

Authentication

Azure OpenAI oferuje dwie metody uwierzytelniania. Możesz użyć kluczy API lub Microsoft Entra ID.

Uwierzytelnianie klucza API: W przypadku tego typu uwierzytelniania wszystkie żądania API muszą zawierać klucz API w nagłówku api-key HTTP. Quickstart zawiera wskazówki, jak wykonywać połączenia z tego typu uwierzytelnianiem.
Microsoft Entra ID uwierzytelnianie: Możesz uwierzytelnić wywołanie API za pomocą tokena Microsoft Entra. Tokeny uwierzytelniające są zawarte w żądaniu jako nagłówek Authorization . Dostarczony token musi być poprzedzony Bearerprzez , na przykład Bearer YOUR_AUTH_TOKEN. Możesz przeczytać nasz przewodnik instrukcyjny dotyczący uwierzytelniania za pomocą Microsoft Entra ID.

Wersjonowanie REST API

API usług są wersjonowane za pomocą parametru api-version zapytania. Wszystkie wersje mają strukturę dat YYYY-MM-DD. Przykład:

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01

Wnioskowanie na płaszczyźnie danych

W pozostałej części tego artykułu omówiono operacje obrazów i audio w wersji ogólnodostępnej specyfikacji wnioskowania płaszczyzny danych platformy Azure OpenAI, 2024-10-21.

Aby zapoznać się z operacjami obrazów i audio w wersji zapoznawczej, zobacz dokumentację interfejsu API REST podglądu i obrazu audio.

Transkrypcje - Stwórz

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Transkrybuje dźwięk do języka wejściowego.

Parametry identyfikatora URI

Name	W	Obowiązkowy	Typ	Opis
punkt końcowy	ścieżka	Tak	ciąg Adres url	Obsługiwane Azure endpointów OpenAI (protokół i nazwa hosta, na przykład: `https://aoairesource.openai.azure.com`. Zastąp "aoairesource" nazwą swojego zasobu Azure OpenAI). https://{nazwa_zasobu}.openai.azure.com
identyfikator wdrożenia	ścieżka	Tak	ciąg	ID wdrożenia modelu mowy na tekst. Informacje o obsługiwanych modelach można znaleźć pod [/azure/ai-foundry/openai/concepts/models#audio-models].
wersja API	kwerenda	Tak	ciąg	wersja API

Nagłówek żądania

Name	Obowiązkowy	Typ	Opis
klucz API	True	ciąg	Udostępnij klucz API Azure OpenAI tutaj

Treść żądania

Typ zawartości: dane wielu części/formularzu

Name	Typ	Opis	Obowiązkowy	Wartość domyślna
plik	ciąg	Plik audio wymaga transkrypcji.	Tak
monit	ciąg	Opcjonalny tekst wskazujący styl modelu lub kontynuujący wcześniejszy segment audio. Prompt powinien odpowiadać językowi dźwięku.	No
format_odpowiedzi	audioResponseFormat	Definiuje format wyjścia.	No
temperatura	number	Temperatura próbkowania, między 0 a 1. Wyższe wartości, takie jak 0,8, sprawią, że wynik będzie bardziej losowy, podczas gdy niższe, jak 0,2, sprawią, że będzie bardziej skupiony i deterministyczny. Jeśli ustawimy na 0, model będzie używał logarytmicznego prawdopodobieństwa do automatycznego podnoszenia temperatury aż do osiągnięcia określonych progów.	No	0
język	ciąg	Język wejściowego dźwięku. Dostarczenie języka wejściowego w formacie ISO-639-1 poprawi dokładność i opóźnienia.	No

Responses

Kod statusu: 200

Opis: OK

Typ zawartości	Typ	Opis
application/json	audioResponse lub audioVerboseResponse
text/plain	ciąg	Transkrybowany tekst w formacie wyjściowym (gdy response_format był tekstowy, VTT lub SRT).

Examples

Przykład

Pobiera przepisany tekst i powiązane metadane z dostarczonych danych dźwiękowych.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Odpowiedzi: Kod statusu: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Przykład

Pobiera przepisany tekst i powiązane metadane z dostarczonych danych dźwiękowych.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Odpowiedzi: Kod statusu: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Tłumaczenia - Stwórz

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

Transkrybuje i tłumaczy wejście audio na tekst angielski.

Parametry identyfikatora URI

Name	W	Obowiązkowy	Typ	Opis
punkt końcowy	ścieżka	Tak	ciąg Adres url	Obsługiwane Azure endpointów OpenAI (protokół i nazwa hosta, na przykład: `https://aoairesource.openai.azure.com`. Zastąp "aoairesource" nazwą swojego zasobu Azure OpenAI). https://{nazwa_zasobu}.openai.azure.com
identyfikator wdrożenia	ścieżka	Tak	ciąg	Identyfikator wdrożenia modelu transkrypcji, który został wdrożony. Informacje o obsługiwanych modelach można znaleźć pod [/azure/ai-foundry/openai/concepts/models#audio-models].
wersja API	kwerenda	Tak	ciąg	wersja API

Nagłówek żądania

Name	Obowiązkowy	Typ	Opis
klucz API	True	ciąg	Udostępnij klucz API Azure OpenAI tutaj

Treść żądania

Typ zawartości: dane wielu części/formularzu

Name	Typ	Opis	Obowiązkowy	Wartość domyślna
plik	ciąg	Plik audio do tłumaczenia.	Tak
monit	ciąg	Opcjonalny tekst wskazujący styl modelu lub kontynuujący wcześniejszy segment audio. Zadanie powinno być po angielsku.	No
format_odpowiedzi	audioResponseFormat	Definiuje format wyjścia.	No
temperatura	number	Temperatura próbkowania, między 0 a 1. Wyższe wartości, takie jak 0,8, sprawią, że wynik będzie bardziej losowy, podczas gdy niższe, jak 0,2, sprawią, że będzie bardziej skupiony i deterministyczny. Jeśli ustawimy na 0, model będzie używał logarytmicznego prawdopodobieństwa do automatycznego podnoszenia temperatury aż do osiągnięcia określonych progów.	No	0

Responses

Kod statusu: 200

Opis: OK

Typ zawartości	Typ	Opis
application/json	audioResponse lub audioVerboseResponse
text/plain	ciąg	Transkrybowany tekst w formacie wyjściowym (gdy response_format był tekstowy, VTT lub SRT).

Examples

Przykład

Otrzymuje transkrybowany tekst w języku angielskim oraz powiązane metadane z udostępnionych danych audio mówionych.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Odpowiedzi: Kod statusu: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Przykład

Otrzymuje transkrybowany tekst w języku angielskim oraz powiązane metadane z udostępnionych danych audio mówionych.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Odpowiedzi: Kod statusu: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Generowanie obrazu

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

Generuje partię obrazów z podpisu tekstowego przy danym wdrożeniu modelu dall-e

Parametry identyfikatora URI

Name	W	Obowiązkowy	Typ	Opis
punkt końcowy	ścieżka	Tak	ciąg Adres url	Obsługiwane Azure endpointów OpenAI (protokół i nazwa hosta, na przykład: `https://aoairesource.openai.azure.com`. Zastąp "aoairesource" nazwą swojego zasobu Azure OpenAI). https://{nazwa_zasobu}.openai.azure.com
identyfikator wdrożenia	ścieżka	Tak	ciąg	ID wdrożenia modelu dall-e, który został wdrożony.
wersja API	kwerenda	Tak	ciąg	wersja API

Nagłówek żądania

Name	Obowiązkowy	Typ	Opis
klucz API	True	ciąg	Udostępnij klucz API Azure OpenAI tutaj

Treść żądania

Typ zawartości: aplikacja/json

Name	Typ	Opis	Obowiązkowy	Wartość domyślna
monit	ciąg	Tekstowy opis pożądanego obrazu(ów). Maksymalna długość to 4 000 znaków.	Tak
n	liczba całkowita	Liczba obrazów do wygenerowania.	No	1
size	imageSize	Rozmiar wygenerowanych obrazów.	No	1024x1024
format_odpowiedzi	imagesResponseFormat	Format, w którym zwracane są wygenerowane obrazy.	No	Adres url
użytkownik	ciąg	Unikalny identyfikator reprezentujący użytkownika końcowego, który pomaga monitorować i wykrywać nadużycia.	No
jakość	imageQuality	Jakość wygenerowanego obrazu.	No	standard
styl	imageStyle	Styl generowanych obrazów.	No	żywy

Responses

Kod statusu: 200

Opis: Ok

Typ zawartości	Typ	Opis
application/json	generateImagesResponse

Kod statusu: domyślny

Opis: Wystąpił błąd.

Typ zawartości	Typ	Opis
application/json	dalleErrorResponse

Examples

Przykład

Tworzy obrazy na podstawie promptu.

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

{
 "prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
 "n": 1,
 "style": "natural",
 "quality": "standard"
}

Odpowiedzi: Kod statusu: 200

{
  "body": {
    "created": 1698342300,
    "data": [
      {
        "revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
        "prompt_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          },
          "profanity": {
            "detected": false,
            "filtered": false
          }
        },
        "url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
        "content_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          }
        }
      }
    ]
  }
}

Components

Aby zapoznać się z definicjami schematu używanymi przez czat, uzupełnienia, osadzanie i inne operacje tekstowe, zobacz dokumentację interfejsu API REST platformy Azure OpenAI. Poniższe schematy obsługują operacje obrazów i audio na tej stronie.

innerErrorCode

Kody błędów dla wewnętrznego obiektu błędu.

Opis: Kody błędów dla wewnętrznego obiektu błędu.

Typ: ciąg

Domyślnie:

Nazwa enum: InnerErrorCode

Wartości enuma

Wartość	Opis
Naruszenie Polityki Odpowiedzialnego SI	Prompt naruszył jedną z zasad filtrowania treści.

dalleErrorResponse

Name	Typ	Opis	Obowiązkowy	Wartość domyślna
błąd	dalleError		No

dalleError

Name	Typ	Opis	Obowiązkowy
param	ciąg		No
typ	ciąg		No
inner_error	dalleInnerError	Błąd wewnętrzny z dodatkowymi szczegółami.	No

dalleInnerError

Błąd wewnętrzny z dodatkowymi szczegółami.

Name	Typ	Opis	Obowiązkowy
kod	innerErrorCode	Kody błędów dla wewnętrznego obiektu błędu.	No
content_filter_results	dalleFilterResults	Informacje o kategorii filtrowania treści (nienawiść, seksualność, przemoc self_harm), czy została wykryta, a także o poziomie nasilenia (very_low, niski, średni, wysoki skali decydującej o intensywności i ryzyku szkodliwych treści) oraz czy zostały one przefiltrowane, czy nie. Informacje o treściach jailbreakowych i przekleństwach, czy zostały wykryte oraz czy zostały przefiltrowane, czy nie. Oraz informacje o liście blokowanej klienta, czy została przefiltrowana i jej identyfikatorze.	No
(revised_prompt remains unchanged, assuming it is a placeholder requiring no translation or adaptation)	ciąg	Prompt, który został użyty do wygenerowania obrazu, jeśli nastąpiła jakaś poprawka w poleceniu.	No

WynikPoziomuSurowościFiltraTreści

Name	Typ	Opis	Obowiązkowy	Wartość domyślna
filtered	boolean		Tak
severity	ciąg		No

WykrytoWynikFiltruTreści

Name	Typ	Opis	Obowiązkowy	Wartość domyślna
filtered	boolean		Tak
detected	boolean		No

dalleFilterResults

Informacje o kategorii filtrowania treści (nienawiść, seksualność, przemoc self_harm), czy została wykryta, a także o poziomie nasilenia (very_low, niski, średni, wysoki skali decydującej o intensywności i ryzyku szkodliwych treści) oraz czy zostały one przefiltrowane, czy nie. Informacje o treściach jailbreakowych i przekleństwach, czy zostały wykryte oraz czy zostały przefiltrowane, czy nie. Oraz informacje o liście blokowanej klienta, czy została przefiltrowana i jej identyfikatorze.

Name	Typ	Obowiązkowy
sexual	WynikFiltrowaniaZawartościWedługNasilenia	No
violence	WynikFiltrowaniaZawartościWedługNasilenia	No
hate	WynikFiltrowaniaZawartościWedługNasilenia	No
self_harm	WynikFiltrowaniaZawartościWedługNasilenia	No
profanity	wynikWykrywaniaFiltruZawartości	No
jailbreak	wynikWykrywaniaFiltruZawartości	No

odpowiedź dźwiękowa

Odpowiedź na tłumaczenie lub transkrypcję, gdy response_format był json

Name	Typ	Opis	Obowiązkowy	Wartość domyślna
SMS	ciąg	Tekst przetłumaczony lub przepisany.	Tak

audioVerboseResponse

Odpowiedź tłumaczeniowa lub transkrypcja, gdy response_format była verbose_json

Name	Typ	Opis	Obowiązkowy
SMS	ciąg	Tekst przetłumaczony lub przepisany.	Tak
zadanie	ciąg	Rodzaj zadania audio.	No
język	ciąg	Language.	No
duration	number	Czas trwania.	No
segments	macierz		No

audioResponseFormat

Definiuje format wyjścia.

Opis: Definiuje format wyjścia.

Typ: ciąg

Domyślnie:

Wartości enuma

JSON
SMS
srt
verbose_json
vtt

imageQuality

Jakość wygenerowanego obrazu.

Opis: Jakość wygenerowanego obrazu.

Typ: ciąg

Wartość domyślna: standardowa

Nazwa enum: Quality

Wartości enuma

Wartość	Opis
standard	Standardowa jakość tworzy obrazy o standardowej jakości.
HD	Jakość HD tworzy obrazy z drobniejszymi detalami i większą spójnością na całym obrazie.

imagesResponseFormat

Format, w którym zwracane są wygenerowane obrazy.

Opis: Format, w którym zwracane są wygenerowane obrazy.

Typ: ciąg

Ustawienie domyślne: adres URL

Nazwa enum: ImagesResponseFormat

Wartości enuma

Wartość	Opis
Adres url	URL umożliwiający tymczasowy dostęp do pobrania wygenerowanych obrazów.
b64_json	Wygenerowane obrazy są zwracane jako łańcuch zakodowany w base64.

imageSize

Rozmiar wygenerowanych obrazów.

Opis: Rozmiar wygenerowanych obrazów.

Typ: ciąg

Ustawienie domyślne: 1024x1024

Nazwa enum: Rozmiar

Wartości enuma

Wartość	Opis
1792x1024	Pożądany rozmiar wygenerowanego obrazu to 1792x1024 pikseli.
1024x1792	Pożądany rozmiar wygenerowanego obrazu to 1024x1792 pikseli.
1024x1024	Pożądany rozmiar wygenerowanego obrazu to 1024x1024 pikseli.

imageStyle

Styl generowanych obrazów.

Opis: Styl generowanych obrazów.

Typ: ciąg

Ustawienie domyślne: żywe

Nazwa enum: Styl

Wartości enuma

Wartość	Opis
żywy	Vivid tworzy obrazy hiperrealistyczne i dramatyczne.
naturalny	Naturalność tworzy obrazy bardziej naturalne i mniej hiperrealistyczne.

generateImagesResponse

Name	Typ	Opis	Obowiązkowy	Wartość domyślna
utworzone	liczba całkowita	Znacznik czasu uniksa w momencie utworzenia operacji.	Tak
dane	macierz	Dane wynikowe operacji, jeśli się powiedzą	Tak

Następne kroki

Dowiedz się więcej o modelach i dostrajaniu za pomocą interfejsu API REST. Dowiedz się więcej na temat modeli underlying, które zasilają Azure OpenAI.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-06-24

Azure dokumentacja interfejsu API REST interfejsu API interfejsu OPENAI (2024-10-21)

Specyfikacje interfejsu API

Authentication

Wersjonowanie REST API

Wnioskowanie na płaszczyźnie danych

Transkrypcje - Stwórz

Parametry identyfikatora URI

Nagłówek żądania

Treść żądania

Responses

Examples

Przykład

Przykład

Tłumaczenia - Stwórz

Parametry identyfikatora URI

Nagłówek żądania

Treść żądania

Responses

Examples

Przykład

Przykład

Generowanie obrazu

Parametry identyfikatora URI

Nagłówek żądania

Treść żądania

Responses

Examples

Przykład

Components

innerErrorCode

dalleErrorResponse

dalleError

dalleInnerError

WynikPoziomuSurowościFiltraTreści

WykrytoWynikFiltruTreści

dalleFilterResults

odpowiedź dźwiękowa

audioVerboseResponse

audioResponseFormat

imageQuality

imagesResponseFormat

imageSize

imageStyle

generateImagesResponse

Następne kroki

Opinia

Dodatkowe zasoby