Migrowanie kodu z interfejsu Long Audio API do interfejsu API syntezy usługi Batch
Interfejs API syntezy usługi Batch zapewnia asynchroniczną syntezę długiego tekstu na mowę. W tym artykule opisano zalety uaktualniania interfejsu LONG Audio API do interfejsu API syntezy usługi Batch oraz szczegółowe informacje o tym, jak to zrobić.
Ważne
Interfejs API syntezy usługi Batch jest ogólnie dostępny. Long Audio API zostaje wycofany 1 kwietnia 2027 r.
Ścieżka podstawowa i wersja
Zaktualizuj punkt końcowy z https://YourSpeechRegion.customvoice.api.speech.microsoft.com
do https://YourSpeechRegion.api.cognitive.microsoft.com
lub zamiast tego możesz użyć domeny niestandardowej: https://{customDomainName}.cognitiveservices.azure.com/
.
Zaktualizuj ścieżkę podstawową w kodzie z /texttospeech/v3.0/longaudiosynthesis
do /texttospeech/batchsyntheses
.
Zaktualizuj wersję ze ścieżki podstawowej do ciągu /texttospeech/v3.0/longaudiosynthesis
zapytania na ?api-version=2024-04-01
.
Aby na przykład wyświetlić listę zadań syntezy dla zasobu usługi Mowa w eastus
regionie, użyj polecenia https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01
zamiast https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis
.
Regiony i punkty końcowe
Interfejs API syntezy usługi Batch jest dostępny w większej regionach usługi Mowa.
Długi interfejs API audio jest ograniczony do następujących regionów:
Region (Region) | Punkt końcowy |
---|---|
Australia Wschodnia | https://australiaeast.customvoice.api.speech.microsoft.com |
Wschodnie stany USA | https://eastus.customvoice.api.speech.microsoft.com |
Indie Środkowe | https://centralindia.customvoice.api.speech.microsoft.com |
South Central US | https://southcentralus.customvoice.api.speech.microsoft.com |
Southeast Asia | https://southeastasia.customvoice.api.speech.microsoft.com |
Południowe Zjednoczone Królestwo | https://uksouth.customvoice.api.speech.microsoft.com |
West Europe | https://westeurope.customvoice.api.speech.microsoft.com |
Lista głosów
Interfejs API syntezy usługi Batch obsługuje cały tekst na głosy i style mowy.
Długi interfejs API audio jest ograniczony do zestawu głosów zwracanych przez żądanie GET do https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices
.
Wprowadzanie tekstu
Dane wejściowe tekstu syntezy wsadowej są wysyłane w ładunku JSON do 2 megabajtów.
Długie dane wejściowe tekstu interfejsu API audio są przekazywane z pliku spełniającego następujące wymagania:
- Jeden plik w postaci zwykłego tekstu (.txt) lub tekstu SSML (.txt) zakodowany jako UTF-8 z znacznikiem kolejności bajtów (BOM). Nie używaj skompresowanych plików, takich jak ZIP. Jeśli masz więcej niż jeden plik wejściowy, musisz przesłać wiele żądań.
- Zawiera więcej niż 400 znaków dla zwykłego tekstu lub 400 znaków rozliczanych dla tekstu SSML i mniej niż 10 000 akapitów. W przypadku zwykłego tekstu każdy akapit jest oddzielony nowym wierszem. W przypadku tekstu SSML każdy fragment SSML jest traktowany jako akapit. Oddziel fragmenty SSML według różnych akapitów.
Za pomocą interfejsu API syntezy usługi Batch można użyć dowolnego z obsługiwanych elementów SSML, w tym audio
elementów , mstts:backgroundaudio
i lexicon
. Długi interfejs API audio nie obsługuje audio
elementów , mstts:backgroundaudio
i lexicon
.
Formaty danych wyjściowych audio
Interfejs API syntezy usługi Batch obsługuje wszystkie formaty danych wyjściowych mowy na mowę.
Interfejs Long Audio API jest ograniczony do następującego zestawu formatów danych wyjściowych audio. Częstotliwość próbkowania długich głosów audio wynosi 24kHz, a nie 48kHz. Inne współczynniki próbek można uzyskać za pośrednictwem upsampling lub downsampling podczas synchronizowania.
- riff-8khz-16bit-mono-pcm
- riff-16khz-16bit-mono-pcm
- riff-24khz-16bit-mono-pcm
- riff-48khz-16bit-mono-pcm
- audio-16khz-32kbitrate-mono-mp3
- audio-16khz-64kbitrate-mono-mp3
- audio-16khz-128kbitrate-mono-mp3
- audio-24khz-48kbitrate-mono-mp3
- audio-24khz-96kbitrate-mono-mp3
- audio-24khz-160kbitrate-mono-mp3
Pobieranie wyników
W przypadku interfejsu API syntezy wsadowej użyj adresu URL z outputs.result
właściwości odpowiedzi syntezy wsadowej HTTP GET. Wyniki znajdują się w pliku ZIP zawierającym dźwięk (na przykład 0001.wav
), podsumowanie i szczegóły debugowania.
Długie dane wejściowe i wyniki interfejsu API audio są zwracane za pośrednictwem dwóch oddzielnych adresów URL zawartości, jak pokazano w poniższym przykładzie. Element z elementem "kind": "LongAudioSynthesisScript"
to przesłany skrypt wejściowy. Drugi z elementem "kind": "LongAudioSynthesisResult"
jest wynikiem tego żądania. Oba pliki ZIP można pobrać z adresu URL we właściwości links.contentUrl
.
Oczyszczanie zasobów
Interfejs API syntezy usługi Batch obsługuje maksymalnie 300 zadań syntezy wsadowej, które nie mają stanu "Powodzenie" lub "Niepowodzenie". Usługa rozpoznawania mowy przechowuje każdą historię syntezy przez maksymalnie 31 dni lub czas trwania właściwości żądania timeToLiveInHours
, w zależności od tego, co nastąpi wcześniej. Data i godzina automatycznego usuwania (w przypadku zadań syntezy ze stanem "Powodzenie" lub "Niepowodzenie") jest równa lastActionDateTime
+ timeToLiveInHours
właściwościom.
Długi interfejs API audio jest ograniczony do 20 000 żądań dla każdego konta subskrypcji platformy Azure. Usługa rozpoznawania mowy nie usuwa automatycznie historii zadań. Przed utworzeniem nowych żądań, które w przeciwnym razie przekroczą limit, musisz usunąć poprzednią historię uruchamiania zadania.