Udostępnij za pośrednictwem


Interfejs API REST zamiany mowy na tekst

Interfejs API REST zamiany mowy na tekst jest używany na potrzeby transkrypcji wsadowej i mowy niestandardowej.

Ważne

Wersja 2024-11-15 interfejsu API REST zamiany mowy na tekst jest najnowszą wersją, która jest ogólnie dostępna.

  • 2024-05-15-preview REST zamiany mowy na tekst zostanie wycofana w dniu ogłoszenia.
  • Interfejs REST API zamiany mowy na tekst v3.0, v3.1, v3.2, 3.2-preview.1 i 3.2-preview.2 zostanie wycofany 31 marca 2026 r.

Aby uzyskać więcej informacji na temat uaktualniania, zobacz Przewodniki migracji interfejsu API REST zamiany mowy na tekst w wersji 3.0 do 3.1, 3.1 do 3.2 i 3.2 do 2024-11-15.

Użyj interfejsu API REST zamiany mowy na tekst, aby:

  • Szybka transkrypcja: Transkrypcja plików audio z zwracaniem wyników synchronicznie i znacznie szybciej niż dźwięk w czasie rzeczywistym. Użyj interfejsu API szybkiej transkrypcji (/speechtotext/transcriptions:trankrypcja) w scenariuszach, w których potrzebujesz transkrypcji nagrania audio tak szybko, jak to możliwe z przewidywalnym opóźnieniem, takim jak szybkie transkrypcja audio lub transkrypcja wideo lub transkrypcja wideo.
  • Transkrypcja wsadowa: transkrybuj pliki audio jako partię z wielu adresów URL lub kontenera platformy Azure. Użyj interfejsu API transkrypcji wsadowej (/speechtotext/transcriptions:submit) w scenariuszach, w których potrzebujesz transkrybować dużą ilość przechowywanego dźwięku, na przykład dużej liczby plików lub długiego pliku audio.
  • Mowa niestandardowa: przekazywanie własnych danych, testowanie i trenowanie modelu niestandardowego, porównywanie dokładności między modelami i wdrażanie modelu w niestandardowym punkcie końcowym. Skopiuj modele do innych subskrypcji, jeśli chcesz, aby współpracownicy mieli dostęp do utworzonego modelu lub jeśli chcesz wdrożyć model w więcej niż jednym regionie.

Interfejs API REST zamiany mowy na tekst zawiera takie funkcje jak:

  • Logi żądań dla wszystkich punktów końcowych.
  • Zażądaj manifestu utworzonych modeli, aby skonfigurować kontenery lokalne.
  • Przekazywanie danych z kont usługi Azure Storage przy użyciu identyfikatora URI sygnatury dostępu współdzielonego (SAS).
  • Przynieś własny magazyn. Użyj własnych kont magazynu dla dzienników, plików transkrypcji i innych danych.
  • Niektóre operacje obsługują powiadomienia elementu webhook. Możesz zarejestrować elementy webhook, w których są wysyłane powiadomienia.

Szybka transkrypcja

Następujące grupy operacji mają zastosowanie do szybkiej transkrypcji.

Grupa operacji opis
Transkrypcje Użyj Transcriptions - Transcribe do transkrypcji plików audio.

W przypadku korzystania z szybkiej transkrypcji wysyłasz jeden plik na żądanie. Zobacz Tworzenie transkrypcji, aby zapoznać się z przykładami tworzenia transkrypcji na podstawie pojedynczego pliku audio.

Transkrypcja wsadowa

Następujące grupy operacji mają zastosowanie do transkrypcji wsadowej.

Grupa operacji opis
Modele Użyj modeli podstawowych lub modeli niestandardowych do transkrypcji plików audio.

Modele można używać z niestandardową mową i transkrypcją wsadową. Na przykład można użyć modelu wytrenowanego z określonym zestawem danych w celu transkrypcji plików audio. Zobacz Trenowanie modelu i niestandardowego cyklu życia modelu mowy, aby zapoznać się z przykładami trenowania niestandardowych modeli mowy i zarządzania nimi.
Transkrypcje Użyj Transkrypcje — Prześlij, aby transkrybować dużą ilość nagrań w pamięci masowej.

Gdy używasz transkrypcji wsadowej , wysyłasz wiele plików na żądanie lub wskazujesz kontener usługi Azure Blob Storage z plikami audio w celu transkrypcji. Zobacz Tworzenie transkrypcji, aby zapoznać się z przykładami tworzenia transkrypcji na podstawie wielu plików audio.
Webhooks Użyj elementów webhook, aby otrzymywać powiadomienia o zdarzeniach tworzenia, przetwarzania, uzupełniania i usuwania.

Możesz używać elementów webhook z niestandardową mową i transkrypcją wsadową. Punkty zaczepienia sieci Web dotyczą zestawów danych, punktów końcowych, ocen, modeli i transkrypcji.

Mowa niestandardowa

Następujące grupy operacji mają zastosowanie do mowy niestandardowej.

Grupa operacji opis
Zestawy danych Używanie zestawów danych do trenowania i testowania niestandardowych modeli mowy.

Można na przykład porównać wydajność niestandardowej mowy wytrenowanego z określonym zestawem danych do wydajności modelu podstawowego lub niestandardowego modelu mowy wyszkolonego przy użyciu innego zestawu danych. Zobacz Przekazywanie zestawów danych szkoleniowych i testowania, aby zapoznać się z przykładami przekazywania zestawów danych.
Punkty końcowe Wdrażanie niestandardowych modeli mowy w punktach końcowych.

Aby korzystać z niestandardowego modelu mowy , należy wdrożyć niestandardowy punkt końcowy. Zobacz Wdrażanie modelu , aby zapoznać się z przykładami zarządzania punktami końcowymi wdrożenia.
Oceny Użyj ocen, aby porównać wydajność różnych modeli.

Można na przykład porównać wydajność niestandardowego modelu mowy wytrenowanego z określonym zestawem danych do wydajności modelu podstawowego lub niestandardowego wytrenowanego z innym zestawem danych. Zobacz jakość i dokładność testowania rozpoznawania testów, aby zapoznać się z przykładami testowania i oceniania niestandardowych modeli mowy.
Modele Użyj modeli podstawowych lub modeli niestandardowych do transkrypcji plików audio.

Modele można używać z niestandardową mową i transkrypcją wsadową. Na przykład można użyć modelu wytrenowanego z określonym zestawem danych w celu transkrypcji plików audio. Zobacz Trenowanie modelu i niestandardowego cyklu życia modelu mowy, aby zapoznać się z przykładami trenowania niestandardowych modeli mowy i zarządzania nimi.
Webhooks Użyj elementów webhook, aby otrzymywać powiadomienia o zdarzeniach tworzenia, przetwarzania, uzupełniania i usuwania.

Możesz używać elementów webhook z niestandardową mową i transkrypcją wsadową. Punkty zaczepienia sieci Web dotyczą zestawów danych, punktów końcowych, ocen, modeli i transkrypcji.