Co to jest awatar zamiany tekstu na mowę?

Awatar konwersji tekstu na mowę przekształca tekst w cyfrowe wideo z fotorealistycznym człowiekiem (standardowym awatarem lub niestandardowym awatarem konwersji tekstu na mowę) mówiącego głosem brzmiącym naturalnie. Możesz wygenerować wideo awatara z syntezą mowy asynchronicznie lub w czasie rzeczywistym. Deweloperzy mogą tworzyć aplikacje zintegrowane z awatorem tekst na mowę za pomocą API lub używać awatara tekst na mowę w Foundry, aby tworzyć treści wideo bez kodowania.

Korzystając z zaawansowanych modeli awatarów zamiany tekstu na mowę, można tworzyć realistyczne, wysokiej jakości syntetyczne filmy z mówiącym awatarem do różnych zastosowań, przy jednoczesnym przestrzeganiu zasad odpowiedzialnego korzystania ze sztucznej inteligencji.

Wskazówka

Aby przekonwertować tekst na mowę przy podejściu bez kodu, wypróbuj awatara Microsoft Foundry Text to Speech.

Możliwości awatara

Funkcje awatara zamiany tekstu na mowę obejmują:

  • Konwertuje tekst na wideo z fotorealistyczną postacią ludzką mówiącą z naturalnym głosem generowanym przez Azure AI Text to Speech.
  • Udostępnia kolekcję standardowych awatarów. Zobacz Standardowe awatary , aby uzyskać pełną listę obsługiwanych standardowych awatarów.
  • Przekształcanie tekstu na mowę AI Azure generuje głos awatara. Aby uzyskać więcej informacji, zobacz Avatar voice and language (Głos awatara i język).
  • Syntetyzuje tekst na wideo awatara mowy asynchronicznie za pomocą API syntezy wsadowej lub w czasie rzeczywistym.
  • Użyj narzędzia awatara zamiany tekstu na mowę w Microsoft Foundry do tworzenia zawartości wideo bez kodowania.
  • Umożliwia konwersacje awatara w czasie rzeczywistym za pośrednictwem Voice Live w Foundry.
  • Tworzenie agenta głosowego za pomocą awatara w usłudze Voice Live.

Korzystając z zaawansowanych modeli sieci neuronowych awatara tekst-na-mowę oraz modeli VASA-1 awatara Photo, możesz tworzyć realistyczne, wysokiej jakości syntetyczne filmy z mówiącym awatarem do różnych zastosowań, przy jednoczesnym przestrzeganiu zasad odpowiedzialnego korzystania ze sztucznej inteligencji.

Głos awatara i język

Możesz wybrać spośród wielu standardowych głosów dla awatara. Obsługa języka dla awatara zamiany tekstu na mowę jest taka sama jak dla zamiany tekstu na mowę. Aby uzyskać szczegółowe informacje, zobacz Obsługa języka i głosu dla usługi Mowa. Dostęp do standardowych awatarów text to speech można uzyskać za pośrednictwem awatara Microsoft Foundry Text to Speech lub za pośrednictwem interfejsu API.

Głos w syntetycznym filmie może być standardowym głosem usługi Azure Speech w Foundry Tools lub głosem niestandardowym lektora wybranego przez Ciebie.

Typ awatara

  • Awatar wideo: Awatar jest generowany przy użyciu precyzyjnego modelu z nagraniem wideo do dostrajania. Obsługuje półcielesne i pełnocielesne reprezentacje.
  • Awatar ze zdjęcia: Awatar jest tworzony na podstawie pojedynczego obrazu wejściowego jako wskazówki i jest ograniczony do przedstawienia wyłącznie głowy.

Wyjście wideo awatara

W przypadku awatara wideo lub awatara z ciałem rozdzielczość zarówno syntezy wsadowej, jak i syntezy w czasie rzeczywistym domyślnie wynosi 1920 x 1080. Możesz wybrać trenowanie niestandardowych awatarów rozdzielczości 4K, a szybkość klatek na sekundę (FPS) wynosi 25. W przypadku kodowania wsadowego kodek może być H264, HEVC lub AV1, jeśli format to mp4. Może to być VP9 lub AV1, jeśli format to webm. Tylko vp9 może zawierać kanał alfa. W przypadku syntezy w czasie rzeczywistym koder jest H264. Szybkość transmisji bitów wideo można skonfigurować w żądaniu zarówno syntezy wsadowej, jak i syntezy w czasie rzeczywistym. Wartość domyślna to 2000 000. Bardziej szczegółowe konfiguracje można znaleźć w przykładowym kodzie. Rozdzielczość awataru fotograficznego wynosi 512x512 zarówno dla syntezy wsadowej, jak i syntezy w czasie rzeczywistym.

Awatar wideo

Synteza wsadowa Synteza w czasie rzeczywistym
Rozdzielczość 1920 x 1080/3840 x 2160 1920 x 1080/3840 x 2160
FPS 25 25
Kodek H264/HEVC/VP9/AV1 H264

Zdjęcie Awatar

Synteza wsadowa Synteza w czasie rzeczywistym
Rozdzielczość 512x512 512x512
FPS 25 25
Kodek H264/HEVC/VP9 H264

Niestandardowy tekst do awatara mowy

Możesz utworzyć niestandardowe awatary syntezatora mowy, stanowiące unikalną cechę twojego produktu lub marki. Aby zacząć korzystać ze spersonalizowanego awatara wideo, wystarczy 10 minut nagrań wideo. Dla niestandardowego awatara zdjęcia potrzebne jest tylko jedno zdjęcie. Jeśli dostroisz profesjonalny głos dla aktora, awatar może być bardzo realistyczny.

Kilka opcji jest dostępnych dla części głosu niestandardowego awatara:

1. Synchronizacja głosu dla awatara

Synchronizacja głosu dla awatara jest najbardziej wydajną opcją głosu niestandardowego dla niestandardowego awatara wideo. Trenuje obok niestandardowego awatara za pomocą dźwięku z wideo szkoleniowego. Głos kojarzy się wyłącznie z niestandardowym awatarem i nie może być używany niezależnie. Synchronizacja głosu dla awatara jest dostępna tylko dla niestandardowego awatara wideo. Aby uzyskać więcej informacji, zobacz Synchronizacja głosu dla awatara.

2. Profesjonalny głos

Profesjonalny głos to rodzaj niestandardowego głosu, który zapewnia wyższą jakość głosu. Precyzyjne dostrajanie głosu i niestandardowy awatar zamiany tekstu na mowę mają odrębne procesy uzyskiwania ograniczonego dostępu oraz trenowania modeli. Można ich używać niezależnie lub razem. Jeśli planujesz również używać profesjonalnego dostrajania głosu wraz z awatarem generującym mowę, musisz wdrożyć lub skopiować profesjonalny model głosu do jednego z obsługiwanych regionów awatara.

3. Osobisty głos

Osobisty głos zapewnia jakość dźwięku porównywalną z synchronizacją głosu dla awatara i może być używany z awatarami lub niezależnie.

Aby uzyskać więcej informacji, przejrzyj Co to jest niestandardowy awatar tekstu na mowę.

Przykładowy kod

Przykładowy kod awatara zamiany tekstu na mowę jest dostępny w GitHub. Te przykłady obejmują najbardziej popularne scenariusze:

Ceny

  • Podczas sesji awatara w czasie rzeczywistym lub tworzenia zawartości wsadowej płacisz oddzielnie za zamianę tekstu na mowę.
  • Synchronizacja głosu dla awatara (w ramach niestandardowego trenowania awatara) kosztuje tyle samo co głos osobisty na potrzeby tworzenia i syntezy głosu. Pamięć głosowa jest bezpłatna.
  • Aby dowiedzieć się, jak działa rozliczanie funkcji awatara zamiany tekstu na mowę, zobacz informacje o cenach awatara zamiany tekstu na mowę.
  • Aby uzyskać szczegółowe informacje o cenach, zobacz Cennik usługi Mowa. Cennik awatara jest widoczny tylko dla regionów usług, w których funkcja jest dostępna. Aby zapoznać się z bieżącą listą obsługiwanych regionów, zobacz tabelę Regiony usługi Mowa.

Dostępne lokalizacje

Aby uzyskać bieżącą listę regionów obsługujących awatary tekstu na mowę, zobacz tabelę regionów usługi mowy.

Odpowiedzialne używanie sztucznej inteligencji

Microsoft dba o ludzi, którzy korzystają ze sztucznej inteligencji i osób, których to dotyczy, tak bardzo, jak dba o technologię. Aby uzyskać więcej informacji, zobacz Informacje o przejrzystości odpowiedzialnej sztucznej inteligencji i ujawnianie talentów głosowych i awatarów.

Następne kroki