Co to są głosy zamiany tekstu OpenAI na mowę?

2025-05-20

Podobnie jak głosy usługi Azure AI Speech, tekst OpenAI na głosy mowy zapewnia wysokiej jakości syntezę mowy w celu przekonwertowania tekstu pisanego na naturalny dźwięk mówiony. Dzięki temu można uzyskać szeroką gamę możliwości immersyjnych i interaktywnych środowisk użytkownika.

Tekst openAI na głosy mowy są dostępne za pośrednictwem dwóch wariantów modelu: Neural i NeuralHD.

Neural: Zoptymalizowane pod kątem przypadków użycia w czasie rzeczywistym z najniższym opóźnieniem, ale niższej jakości niż NeuralHD.
NeuralHD: zoptymalizowany pod kątem jakości.

Dostępny tekst na głosy mowy w usługach Azure AI

Możesz zapytać: jeśli chcę użyć tekstu OpenAI do mowy, czy należy używać go za pośrednictwem usługi Azure OpenAI w modelach usługi Azure AI Foundry lub za pośrednictwem usługi Azure AI Speech? Jakie scenariusze prowadzą mnie do korzystania z jednego lub drugiego?

Każdy model głosu oferuje różne funkcje i możliwości, co pozwala wybrać ten, który najlepiej odpowiada twoim potrzebom. Chcesz poznać opcje i różnice między dostępnym tekstem a głosami mowy w usługach Azure AI.

Możesz wybrać jedną z następujących opcji tekstowych na głosy mowy w usługach Azure AI:

Głosy syntezatora mowy OpenAI w usłudze Azure OpenAI. Dostępne w następujących regionach: Północno-środkowe stany USA i Szwecja Środkowa.
Tekst openAI na głosy mowy w usłudze Azure AI Speech. Dostępne w następujących regionach: Północno-środkowe stany USA i Szwecja Środkowa.
Tekst usługi Rozpoznawanie mowy w usłudze Azure AI na głosy mowy. Dostępne w kilkudziesięciu regionach. Zobacz listę regionów.

Syntezowanie głosu z tekstu za pomocą głosów syntetycznych przez Azure OpenAI lub Azure AI Speech?

Jeśli chcesz używać tekstu OpenAI do mowy głosów, możesz wybrać, czy używać ich za pośrednictwem usługi Azure OpenAI , czy za pośrednictwem usługi Azure AI Speech. Możesz odwiedzić galerię głosów, aby słuchać przykładów głosów usługi Azure OpenAI lub syntetyzować mowę z własnym tekstem przy użyciu tworzenia zawartości audio. Dane wyjściowe audio są identyczne w obu przypadkach, z zaledwie kilkoma różnicami funkcji między dwiema usługami. Szczegółowe informacje znajdują się w tabeli poniżej.

Poniżej przedstawiono porównanie funkcji między tekstem openAI a głosami mowy w usługach Azure OpenAI i OpenAI na głosy mowy w usłudze Azure AI Speech.

Funkcja	Azure OpenAI (głosy OpenAI)	Azure AI Speech (głosy OpenAI)	Głosy usługi Azure AI Speech
Region	Północno-środkowe stany USA, Szwecja Środkowa	Północno-środkowe stany USA, Szwecja Środkowa	Dostępne w kilkudziesięciu regionach. Zobacz listę regionów.
Różnorodność głosu	6	12	Więcej niż 500
Wielojęzyczny numer głosu	6	12	49
Maksymalna obsługa języków wielojęzycznych	57	57	77
Obsługa języka znaczników syntezy mowy (SSML)	Nieobsługiwane	Obsługa podzbioru elementów SSML.	Obsługa pełnego zestawu SSML w usłudze Azure AI Speech.
Opcje programowania	interfejs API REST	Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST	Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST
Opcja wdrożenia	Tylko chmura	Tylko chmura	Chmura, osadzona, hybrydowa i kontenery.
Synteza w czasie rzeczywistym lub wsadowa	W czasie rzeczywistym	W czasie rzeczywistym	Synteza w czasie rzeczywistym i wsadowa
Opóźnienie	więcej niż 500 ms	więcej niż 500 ms	mniej niż 300 ms
Częstotliwość próbkowania syntetyzowanego dźwięku	24 kHz	8, 16, 24 i 48 kHz	8, 16, 24 i 48 kHz
Format dźwięku wyjściowego mowy	opus, mp3, aac, flac	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Istnieją dodatkowe funkcje i możliwości dostępne w usłudze Azure AI Speech, które nie są dostępne w przypadku głosów openAI. Na przykład:

Zamiana tekstu openAI na głosy mowy w usłudze Azure AI Speech obsługuje tylko podzestaw elementów SSML. Głosy usługi Azure AI Speech obsługują pełny zestaw elementów SSML.
Usługa Azure AI Speech obsługuje zdarzenia granic słów. Głosy OpenAI nie obsługują zdarzeń granic słów.

Dostępny tekst OpenAI na głosy mowy

Dostępne głosy OpenAI w usłudze Azure OpenAI to:

alloy
echo
fable
onyx
nova
shimmer

Dostępne głosy openAI w usłudze Azure AI Speech to:

en-US-AlloyMultilingualNeural
en-US-EchoMultilingualNeural
en-US-FableMultilingualNeural
en-US-OnyxMultilingualNeural
en-US-NovaMultilingualNeural
en-US-ShimmerMultilingualNeural
en-US-AlloyMultilingualNeuralHD
en-US-EchoMultilingualNeuralHD
en-US-FableMultilingualNeuralHD
en-US-OnyxMultilingualNeuralHD
en-US-NovaMultilingualNeuralHD
en-US-ShimmerMultilingualNeuralHD

Elementy SSML obsługiwane przez tekst OpenAI na głosy mowy w usłudze Azure AI Speech

Język znaczników syntezy mowy (SSML) z tekstem wejściowym określa strukturę, zawartość i inne cechy tekstu na dane wyjściowe mowy. Na przykład można użyć języka SSML do zdefiniowania akapitu, zdania, przerwania lub wstrzymania lub ciszy. Tekst można opakowować za pomocą tagów zdarzeń, takich jak zakładka lub viseme, które mogą być przetwarzane później przez aplikację.

W poniższej tabeli przedstawiono elementy języka SSML (Speech Synthesis Markup Language) obsługiwane przez tekst OpenAI na głosy mowy w usłudze Azure AI. Tylko następujący podzestaw tagów SSML jest obsługiwany w przypadku głosów openAI. Aby uzyskać więcej informacji, zobacz strukturę i zdarzenia dokumentu SSML.

Nazwa elementu SSML	opis
`<speak>`	Otacza całą zawartość, która ma być wypowiadana. Jest to element główny dokumentu SSML.
`<voice>`	Określa głos używany do zamiany tekstu na dane wyjściowe mowy.
`<sub>`	Wskazuje, że wartość tekstowa atrybutu aliasu powinna być wymawiana zamiast ujętego tekstu elementu.
`<say-as>`	Wskazuje typ zawartości, taki jak liczba lub data, tekstu elementu. `interpret-as` Wszystkie wartości właściwości są obsługiwane dla tego elementu z wyjątkiem `interpret-as="name"`. Na przykład jest obsługiwany, `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` ale `<say-as interpret-as="name">ED</say-as>` nie jest obsługiwany. Aby uzyskać więcej informacji, zobacz wymowa za pomocą języka SSML.
`<s>`	Określa zdania.
`<lang>`	Wskazuje domyślne ustawienia regionalne dla języka, który ma mówić neuronowy głos.
`<break>`	Służy do zastępowania domyślnego zachowania podziałów lub wstrzymywania między wyrazami.

Udostępnij za pośrednictwem

Co to są głosy zamiany tekstu OpenAI na mowę?

Dostępny tekst na głosy mowy w usługach Azure AI

Syntezowanie głosu z tekstu za pomocą głosów syntetycznych przez Azure OpenAI lub Azure AI Speech?

Dostępny tekst OpenAI na głosy mowy

Elementy SSML obsługiwane przez tekst OpenAI na głosy mowy w usłudze Azure AI Speech

Powiązana zawartość

Opinia

Dodatkowe zasoby