Omówienie awatara zamiany tekstu na mowę

2025-06-02

Awatar przekształcający tekst na mowę konwertuje tekst na cyfrowe wideo z fotorealistycznym człowiekiem (standardowym awatarem lub niestandardowym awatarem do zamiany tekstu na mowę) mówiącym głosem brzmiącym naturalnie. Tekst do mowy awatar wideo może być syntetyzowany asynchronicznie lub w czasie rzeczywistym. Deweloperzy mogą tworzyć aplikacje zintegrowane z tekstem do awatara mowy za pośrednictwem interfejsu API lub za pomocą narzędzia do tworzenia zawartości w usłudze Speech Studio do tworzenia zawartości wideo bez kodowania.

Dzięki zaawansowanym modelom sieci neuronowej awatara zamiany tekstu na mowę funkcja ta umożliwia użytkownikom dostarczanie filmów awatarów syntetycznych o wysokiej jakości i podobnych do życia w różnych aplikacjach przy jednoczesnym przestrzeganiu odpowiedzialnych praktyk sztucznej inteligencji.

Napiwek

Aby przekonwertować tekst na mowę przy użyciu podejścia bez kodu, wypróbuj narzędzie Awatar zamiany tekstu na mowę w programie Speech Studio.

Możliwości awatara

Funkcje awatara zamiany tekstu na mowę obejmują:

Konwertuje tekst na cyfrowy film wideo fotorealistycznego człowieka mówiącego z naturalnie brzmiącymi głosami obsługiwanymi przez tekst sztucznej inteligencji platformy Azure na mowę.
Udostępnia kolekcję standardowych awatarów.
Platforma Azure AI do konwersji tekstu na mowę generuje głos awatara. Aby uzyskać więcej informacji, zobacz Avatar voice and language (Głos awatara i język).
Syntetyzuje tekst do wideo awatara mowy asynchronicznie za pomocą interfejsu API syntezy wsadowej lub w czasie rzeczywistym.
Udostępnia narzędzie do tworzenia zawartości w programie Speech Studio do tworzenia zawartości wideo bez kodowania.
Umożliwia konwersacje awatara w czasie rzeczywistym za pośrednictwem narzędzia awatara czatu na żywo w usłudze Speech Studio.

Dzięki zaawansowanym modelom sieci neuronowej awatara zamiany tekstu na mowę funkcja ta umożliwia dostarczanie filmów wideo z syntetycznymi awatarami o wysokiej jakości i jakości dla różnych aplikacji przy jednoczesnym przestrzeganiu odpowiedzialnych praktyk sztucznej inteligencji.

Głos awatara i język

Możesz wybrać spośród wielu standardowych głosów dla awatara. Obsługa języka tekstu na awatar mowy jest taka sama jak obsługa języka zamiany tekstu na mowę. Aby uzyskać szczegółowe informacje, zobacz Obsługa języka i głosu dla usługi Mowa. Dostęp do standardowych awatarów mowy można uzyskać za pośrednictwem portalu Speech Studio lub interfejsu API.

Głos w syntetycznym wideo może być głosem standardowym usługi Azure AI Speech czy też niestandardowym głosem talentu głosowego wybranego przez Ciebie.

Dane wyjściowe wideo awatara

Zarówno synteza wsadowa, jak i rozdzielczość syntezy w czasie rzeczywistym to 1920 x 1080, a ramki na sekundę (FPS) to 25. Koder syntezy wsadowej może być h264, hevc lub av1, jeśli format jest mp4, i może być ustawiony na vp9 lub av1, jeśli format to webm; tylko vp9 może zawierać kanał alfa. Koder syntezy w czasie rzeczywistym to h264. Szybkość transmisji bitów wideo można skonfigurować zarówno na potrzeby syntezy wsadowej, jak i syntezy w czasie rzeczywistym w żądaniu; wartość domyślna to 20000000; Bardziej szczegółowe konfiguracje można znaleźć w przykładowym kodzie.

	Synteza wsadowa	Synteza w czasie rzeczywistym
Rozwiązanie	1920 x 1080	1920 x 1080
FPS	25	25
Kodek	h264/hevc/vp9/av1	h264

Niestandardowy tekst do awatara mowy

Możesz utworzyć niestandardowy tekst do awatarów mowy, które są unikatowe dla twojego produktu lub marki. Rozpoczęcie pracy zajmuje 10 minut nagrań wideo. Jeśli dostrajasz również profesjonalny głos dla aktora, awatar może być bardzo realistyczny.

Synchronizacja głosu dla awatara jest trenowana wraz z niestandardowym awatarem korzystającym z dźwięku z wideo szkoleniowego. Głos jest wyłącznie skojarzony z niestandardowym awatarem i nie może być używany niezależnie.

Profesjonalne dostrajanie głosu i niestandardowy tekst do awatara mowy są oddzielnymi funkcjami. Można ich używać niezależnie lub razem. Jeśli planujesz używać profesjonalnego dostrajania głosu również z awatarem mówiącym na podstawie tekstu, musisz wdrożyć lub skopiować poprawiony profesjonalny model głosu do jednego z obsługiwanych regionów awatara.

Aby uzyskać więcej informacji, zobacz Co to jest niestandardowy tekst na awatar mowy.

Przykładowy kod

Przykładowy kod dla awatara zamiany tekstu na mowę jest dostępny w witrynie GitHub. Te przykłady obejmują najbardziej popularne scenariusze:

Synteza wsadowa (REST)
Synteza w czasie rzeczywistym (SDK)
Czat na żywo z usługą Azure OpenAI w tle (SDK)
Aby utworzyć aplikację czatu na żywo za pomocą usługi Azure OpenAI On Your Data, możesz zapoznać się z tym przykładowym kodem (wyszukaj frazę "W danych")

Cennik

W trakcie sesji awatara w czasie rzeczywistym lub tworzenia zawartości wsadowej opłaty są naliczane oddzielnie za zamianę tekstu na mowę, mowę na tekst, usługę Azure OpenAI lub inne usługi platformy Azure.
Synchronizacja głosu dla awatara (poprzez niestandardowe szkolenie awatara) jest obciążana tak samo jak głos osobisty pod względem tworzenia i syntezy głosu. Pamięć głosowa jest bezpłatna.
Zapoznaj się z informacjami o cenach awatara mowy, aby dowiedzieć się, jak działa rozliczenia dla funkcji awatara zamiany tekstu na mowę.
Aby uzyskać szczegółowe informacje o cenach, zobacz Cennik usługi Mowa. Należy pamiętać, że cennik awatara będzie widoczny tylko dla regionów usługi, w których ta funkcja jest dostępna, w tym Azji Południowo-Wschodniej, Europy Północnej, Europy Zachodniej, Szwecji Środkowej, Południowo-środkowych stanów USA, Wschodnie stany USA 2 i Zachodnie stany USA 2.

Dostępne lokalizacje

Funkcja awatara zamiany tekstu na mowę jest dostępna tylko w następujących regionach usługi: Azja Południowo-Wschodnia, Europa Północna, Europa Zachodnia, Szwecja Środkowa, Południowo-środkowe stany USA, Wschodnie stany USA 2 i Zachodnie stany USA 2.

Odpowiedzialne AI

Zależy nam na osobach korzystających ze sztucznej inteligencji i ludzi, którzy będą na nią wpływać tak samo, jak zależy nam na technologii. Aby uzyskać więcej informacji, zobacz Informacje o przejrzystości odpowiedzialnej sztucznej inteligencji i ujawnianie talentów głosowych i awatarów.