Interfejs API REST zamiany mowy na tekst

Artykuł
04/13/2024

Interfejs API REST zamiany mowy na tekst jest używany na potrzeby transkrypcji wsadowej i mowy niestandardowej.

Ważne

Interfejs API REST zamiany mowy na tekst w wersji 3.2 jest dostępny w wersji zapoznawczej. Interfejs API REST zamiany mowy na tekst w wersji 3.1 jest ogólnie dostępny. Interfejs API REST zamiany mowy na tekst w wersji 3.0 zostanie wycofany 1 kwietnia 2026 r. Aby uzyskać więcej informacji, zobacz przewodniki migracji interfejsu API REST zamiany mowy na tekst w wersji 3.0 do wersji 3.1 i 3.1 do wersji 3.2.

Zobacz interfejs API REST zamiany mowy na tekst w wersji 3.2 (wersja zapoznawcza)

Zapoznaj się z dokumentacją referencyjną interfejsu API REST zamiany mowy na tekst w wersji 3.1

Zapoznaj się z dokumentacją referencyjną interfejsu API REST zamiany mowy na tekst w wersji 3.0

Użyj interfejsu API REST zamiany mowy na tekst, aby:

Mowa niestandardowa: za pomocą niestandardowej mowy możesz przekazać własne dane, przetestować i wytrenować model niestandardowy, porównać dokładność między modelami i wdrożyć model w niestandardowym punkcie końcowym. Skopiuj modele do innych subskrypcji, jeśli chcesz, aby współpracownicy mieli dostęp do utworzonego modelu lub jeśli chcesz wdrożyć model w więcej niż jednym regionie.
Transkrypcja wsadowa: transkrybuj pliki audio jako partię z wielu adresów URL lub kontenera platformy Azure.

Interfejs API REST zamiany mowy na tekst zawiera takie funkcje jak:

Pobierz dzienniki dla każdego punktu końcowego, jeśli są wymagane dzienniki dla tego punktu końcowego.
Zażądaj manifestu utworzonych modeli, aby skonfigurować kontenery lokalne.
Przekazywanie danych z kont usługi Azure Storage przy użyciu identyfikatora URI sygnatury dostępu współdzielonego (SAS).
Przynieś własny magazyn. Użyj własnych kont magazynu dla dzienników, plików transkrypcji i innych danych.
Niektóre operacje obsługują powiadomienia elementu webhook. Możesz zarejestrować elementy webhook, w których są wysyłane powiadomienia.

Transkrypcja wsadowa

Następujące grupy operacji mają zastosowanie do transkrypcji wsadowej.

Grupa operacji	opis
Modele	Użyj modeli podstawowych lub modeli niestandardowych do transkrypcji plików audio. Modele można używać z niestandardową mową i transkrypcją wsadową. Na przykład można użyć modelu wytrenowanego z określonym zestawem danych w celu transkrypcji plików audio. Zobacz Trenowanie modelu i niestandardowego cyklu życia modelu mowy, aby zapoznać się z przykładami trenowania niestandardowych modeli mowy i zarządzania nimi.
Transkrypcje	Transkrypcje służą do transkrypcji dużej ilości dźwięku w magazynie. Gdy używasz transkrypcji wsadowej , wysyłasz wiele plików na żądanie lub wskazujesz kontener usługi Azure Blob Storage z plikami audio w celu transkrypcji. Zobacz Tworzenie transkrypcji, aby zapoznać się z przykładami tworzenia transkrypcji na podstawie wielu plików audio.
Webhooks	Użyj elementów webhook, aby otrzymywać powiadomienia o zdarzeniach tworzenia, przetwarzania, uzupełniania i usuwania. Możesz używać elementów webhook z niestandardową mową i transkrypcją wsadową. Punkty zaczepienia sieci Web dotyczą zestawów danych, punktów końcowych, ocen, modeli i transkrypcji.

Mowa niestandardowa

Następujące grupy operacji mają zastosowanie do mowy niestandardowej.

Grupa operacji	opis
Zestawy danych	Używanie zestawów danych do trenowania i testowania niestandardowych modeli mowy. Można na przykład porównać wydajność niestandardowej mowy wytrenowanego z określonym zestawem danych do wydajności modelu podstawowego lub niestandardowego modelu mowy wyszkolonego przy użyciu innego zestawu danych. Zobacz Przekazywanie zestawów danych szkoleniowych i testowania, aby zapoznać się z przykładami przekazywania zestawów danych.
Punkty końcowe	Wdrażanie niestandardowych modeli mowy w punktach końcowych. Aby korzystać z niestandardowego modelu mowy , należy wdrożyć niestandardowy punkt końcowy. Zobacz Wdrażanie modelu , aby zapoznać się z przykładami zarządzania punktami końcowymi wdrożenia.
Oceny	Użyj ocen, aby porównać wydajność różnych modeli. Można na przykład porównać wydajność niestandardowego modelu mowy wytrenowanego z określonym zestawem danych do wydajności modelu podstawowego lub niestandardowego wytrenowanego z innym zestawem danych. Zobacz jakość i dokładność testowania rozpoznawania testów, aby zapoznać się z przykładami testowania i oceniania niestandardowych modeli mowy.
Modele	Użyj modeli podstawowych lub modeli niestandardowych do transkrypcji plików audio. Modele można używać z niestandardową mową i transkrypcją wsadową. Na przykład można użyć modelu wytrenowanego z określonym zestawem danych w celu transkrypcji plików audio. Zobacz Trenowanie modelu i niestandardowego cyklu życia modelu mowy, aby zapoznać się z przykładami trenowania niestandardowych modeli mowy i zarządzania nimi.
Projekty	Za pomocą projektów można zarządzać niestandardowymi modelami mowy, trenować i testować zestawy danych oraz punkty końcowe wdrożenia. Niestandardowe projekty mowy zawierają modele, zestawy danych trenowania i testowania oraz punkty końcowe wdrożenia. Każdy projekt jest specyficzny dla ustawień regionalnych. Możesz na przykład utworzyć projekt dla języka angielskiego w Stany Zjednoczone. Zobacz Tworzenie projektu , aby zapoznać się z przykładami tworzenia projektów.
Webhooks	Użyj elementów webhook, aby otrzymywać powiadomienia o zdarzeniach tworzenia, przetwarzania, uzupełniania i usuwania. Możesz używać elementów webhook z niestandardową mową i transkrypcją wsadową. Punkty zaczepienia sieci Web dotyczą zestawów danych, punktów końcowych, ocen, modeli i transkrypcji.

Kondycja usługi

Kondycja usługi zapewnia szczegółowe informacje na temat ogólnej kondycji usługi i podskładników. Aby uzyskać więcej informacji, zobacz Service Health .

Interfejs API REST zamiany mowy na tekst

Transkrypcja wsadowa

Mowa niestandardowa

Kondycja usługi

Następne kroki

Dodatkowe zasoby