Co to są głosy zamiany tekstu OpenAI na mowę?

Podobnie jak głosy usługi Azure AI Speech, tekst OpenAI na głosy mowy zapewnia wysokiej jakości syntezę mowy w celu przekonwertowania tekstu pisanego na naturalny dźwięk mówiony. Dzięki temu można uzyskać szeroką gamę możliwości immersyjnych i interaktywnych środowisk użytkownika.

Tekst openAI na głosy mowy są dostępne za pośrednictwem dwóch wariantów modelu: Neural i NeuralHD.

  • Neural: Zoptymalizowane pod kątem przypadków użycia w czasie rzeczywistym z najniższym opóźnieniem, ale niższej jakości niż NeuralHD.
  • NeuralHD: zoptymalizowany pod kątem jakości.

Aby zapoznać się z pokazem głosów openAI w programie Azure OpenAI Studio i usłudze Speech Studio, zapoznaj się z tym wprowadzającym filmem wideo.

Dostępny tekst na głosy mowy w usługach Azure AI

Możesz zapytać: Jeśli chcę użyć tekstu OpenAI do mowy, czy należy używać go za pośrednictwem usługi Azure OpenAI Lub za pośrednictwem usługi Azure AI Speech? Jakie scenariusze prowadzą mnie do korzystania z jednego lub drugiego?

Każdy model głosu oferuje różne funkcje i możliwości, co pozwala wybrać ten, który najlepiej odpowiada twoim potrzebom. Chcesz poznać opcje i różnice między dostępnym tekstem a głosami mowy w usługach Azure AI.

Możesz wybrać jedną z następujących opcji tekstowych na głosy mowy w usługach Azure AI:

  • Tekst openAI na głosy mowy w usłudze Azure OpenAI Service. Dostępne w następujących regionach: Północno-środkowe stany USA i Szwecja Środkowa.
  • Tekst openAI na głosy mowy w usłudze Azure AI Speech. Dostępne w następujących regionach: Północno-środkowe stany USA i Szwecja Środkowa.
  • Tekst usługi Rozpoznawanie mowy w usłudze Azure AI na głosy mowy. Dostępne w kilkudziesięciu regionach. Zobacz listę regionów.

OpenAI text to speech voices via Azure OpenAI Service or via Azure AI Speech?

Jeśli chcesz używać tekstu OpenAI do mowy głosów, możesz wybrać, czy używać ich za pośrednictwem usługi Azure OpenAI , czy za pośrednictwem usługi Azure AI Speech. W obu przypadkach wynik syntezy mowy jest taki sam.

Poniżej przedstawiono porównanie funkcji między tekstem openAI a głosami mowy w usłudze Azure OpenAI Service i tekstem OpenAI na głosy mowy w usłudze Azure AI Speech.

Funkcja Azure OpenAI Service (głosy OpenAI) Azure AI Speech (głosy OpenAI) Głosy usługi Azure AI Speech
Region Północno-środkowe stany USA, Szwecja Środkowa Północno-środkowe stany USA, Szwecja Środkowa Dostępne w kilkudziesięciu regionach. Zobacz listę regionów.
Różnorodność głosu 6 6 Więcej niż 400
Wielojęzyczny numer głosu 6 6 14
Maksymalna obsługa języków wielojęzycznych 57 57 77
Obsługa języka znaczników syntezy mowy (SSML) Nieobsługiwane Obsługa podzbioru elementów SSML. Obsługa pełnego zestawu SSML w usłudze Azure AI Speech.
Opcje programowania Interfejs API REST Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST
Opcja wdrożenia Tylko chmura Tylko chmura Chmura, osadzona, hybrydowa i kontenery.
Synteza w czasie rzeczywistym lub wsadowa W czasie rzeczywistym Synteza w czasie rzeczywistym i wsadowa Synteza w czasie rzeczywistym i wsadowa
Opóźnienie więcej niż 500 ms więcej niż 500 ms mniej niż 300 ms
Częstotliwość próbkowania syntetyzowanego dźwięku 24 kHz 8, 16, 24 i 48 kHz 8, 16, 24 i 48 kHz
Format dźwięku wyjściowego mowy opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Istnieją dodatkowe funkcje i możliwości dostępne w usłudze Azure AI Speech, które nie są dostępne w przypadku głosów openAI. Na przykład:

  • Zamiana tekstu openAI na głosy mowy w usłudze Azure AI Speech obsługuje tylko podzestaw elementów SSML. Głosy usługi Azure AI Speech obsługują pełny zestaw elementów SSML.
  • Usługa Azure AI Speech obsługuje zdarzenia granic słów. Głosy OpenAI nie obsługują zdarzeń granic słów.

Elementy SSML obsługiwane przez tekst OpenAI na głosy mowy w usłudze Azure AI Speech

Język znaczników syntezy mowy (SSML) z tekstem wejściowym określa strukturę, zawartość i inne cechy tekstu na dane wyjściowe mowy. Na przykład można użyć języka SSML do zdefiniowania akapitu, zdania, przerwania lub wstrzymania lub ciszy. Tekst można opakowować za pomocą tagów zdarzeń, takich jak zakładka lub viseme, które mogą być przetwarzane później przez aplikację.

W poniższej tabeli przedstawiono elementy języka SSML (Speech Synthesis Markup Language) obsługiwane przez tekst OpenAI na głosy mowy w usłudze Azure AI. Tylko następujący podzestaw tagów SSML jest obsługiwany w przypadku głosów openAI. Aby uzyskać więcej informacji, zobacz strukturę i zdarzenia dokumentu SSML.

Nazwa elementu SSML opis
<speak> Otacza całą zawartość, która ma być wypowiadana. Jest to element główny dokumentu SSML.
<voice> Określa głos używany do zamiany tekstu na dane wyjściowe mowy.
<sub> Wskazuje, że wartość tekstowa atrybutu aliasu powinna być wymawiana zamiast ujętego tekstu elementu.
<say-as> Wskazuje typ zawartości, taki jak liczba lub data, tekstu elementu.

interpret-as Wszystkie wartości właściwości są obsługiwane dla tego elementu z wyjątkiem interpret-as="name". Na przykład jest obsługiwany, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> ale <say-as interpret-as="name">ED</say-as> nie jest obsługiwany. Aby uzyskać więcej informacji, zobacz wymowa za pomocą języka SSML.
<s> Określa zdania.
<lang> Wskazuje domyślne ustawienia regionalne dla języka, który ma mówić neuronowy głos.
<break> Służy do zastępowania domyślnego zachowania podziałów lub wstrzymywania między wyrazami.

Następne kroki