Co to jest niestandardowy tekst do awatara mowy?

2025-06-02

Niestandardowy awatar zamiany tekstu na mowę umożliwia utworzenie niestandardowego syntetycznego awatara rozmowy z jedną z nich dla aplikacji. Za pomocą niestandardowego tekstu do awatara mowy możesz utworzyć unikatowy i naturalny awatar dla swojego produktu lub marki, udostępniając dane nagrywania wideo wybranych aktorów. Awatar jest jeszcze bardziej realistyczny, jeśli używasz również profesjonalnego głosu lub synchronizacji głosu dla awatara dla tego samego aktora.

Ważne

Dostęp niestandardowego tekstu do awatara mowy jest ograniczony na podstawie kryteriów uprawnień i użycia. Zażądaj dostępu w formularzu do wprowadzania.

Jak to działa?

Utworzenie niestandardowego tekstu do awatara mowy wymaga co najmniej 10 minut nagrania wideo talentu awatara jako danych treningowych i musisz najpierw uzyskać zgodę od talentu aktora.

Niestandardowy model awatara może obsługiwać:

Generowanie wideo za pośrednictwem interfejsu API syntezy wsadowej.
Czat na żywo za pośrednictwem interfejsu API syntezy przesyłania strumieniowego.

Przed rozpoczęciem zapoznaj się z kilkoma zagadnieniami:

Twój przypadek użycia: Czy używasz awatara do tworzenia zawartości wideo, takiej jak materiały szkoleniowe, wprowadzenie do produktu lub użyjesz awatara jako wirtualnego sprzedawcy w rozmowie w czasie rzeczywistym z klientami? Istnieją pewne wymagania dotyczące rejestrowania dla różnych przypadków użycia.

Wygląd awatara: Niestandardowy tekst do mowy awatar wygląda tak samo jak talent awatara w danych treningowych i nie obsługujemy dostosowywania wyglądu modelu awatara, takich jak ubrania, fryzura itp. Więc jeśli aplikacja wymaga wielu stylów tego samego awatara, należy przygotować dane szkoleniowe dla każdego stylu, ponieważ każdy styl awatara jest uważany za pojedynczy model awatara.

Głos awatara: Spersonalizowany awatar tekstu na mowę może działać ze standardowym głosem, profesjonalnym głosem oraz z synchronizacją głosu dla awatara.

Synchronizacja głosu dla awatara: syntetyczny głos przypominający głos talentu awatara jest trenowany wraz z niestandardowym awatarem korzystającym z dźwięku z wideo treningowego.
Profesjonalny głos: Dostosuj profesjonalny głos z większą ilością danych szkoleniowych, zapewniając doskonałe doświadczenie głosowe dla awatara, w tym naturalne rozmowy, wielostylowe i wielojęzyczne wsparcie.

Oto omówienie kroków tworzenia niestandardowego tekstu do awatara mowy:

Uzyskaj wideo ze zgodą. Uzyskaj nagranie wideo talentu z przeczytaniem oświadczenia zgody. Muszą wyrazić zgodę na użycie ich wizerunku i danych głosowych, aby przeszkolić niestandardowy model awatara do zamiany tekstu na mowę oraz syntetyczną wersję ich głosu.
Przygotowywanie danych treningowych. Upewnij się, że nagranie wideo jest w odpowiednim formacie. Dobrym pomysłem jest nakręcenie nagrania wideo w profesjonalnym studio do fotografowania wideo, aby uzyskać czysty obraz tła. Jakość wynikowego awatara w dużym stopniu zależy od nagranego filmu używanego do trenowania. Czynniki takie jak szybkość mówienia, postawa ciała, wyraz twarzy, gesty dłoni, spójność pozycji aktora i oświetlenie nagrania wideo są niezbędne do utworzenia angażującego niestandardowego tekstu do awatara mowy. Aby uzyskać więcej informacji, zobacz , jak przygotować dane szkoleniowe.
Trenowanie modelu awatara. Po uzyskaniu gotowych danych przekaż dane do niestandardowego portalu awatara i zacznij trenować model. Weryfikacja zgody jest przeprowadzana podczas szkolenia. Przed utworzeniem projektu upewnij się, że masz dostęp do niestandardowego tekstu do funkcji awatara mowy.
Wdróż i użyj modelu awatara w aplikacjach.

Sekwencja składników

Niestandardowy model awatara zamiany tekstu na mowę zawiera trzy składniki: analizator tekstu, syntezator dźwięku mowy i tekst do programu renderującego wideo awatara mowy.

Aby wygenerować plik wideo awatara lub strumień za pomocą modelu awatara, tekst jest pierwszym wejściem do analizatora tekstu, który dostarcza dane wyjściowe w postaci sekwencji phoneme.
Syntezator dźwięku syntetyzuje mowę dla tekstu wejściowego, a te dwie części są dostarczane przez standardowe lub custom modele głosowe.
Na koniec model awatara zamiany tekstu na mowę przewiduje obraz synchronizacji warg z dźwiękiem mowy, dzięki czemu syntetyczne wideo jest generowane.

Modele awatara zamiany tekstu na mowę są trenowane przy użyciu głębokich sieci neuronowych na podstawie próbek nagrań filmów z ludźmi w różnych językach. Obsługiwane mogą być wszystkie języki standardowych głosów i głosów niestandardowych.

Dostępne lokalizacje

Niestandardowe szkolenie awatara jest dostępne tylko w następujących regionach usługi: Azja Południowo-Wschodnia, Europa Zachodnia i Zachodnie stany USA 2. Niestandardowy model awatara można używać w następujących regionach usługi: Azja Południowo-Wschodnia, Europa Północna, Europa Zachodnia, Szwecja Środkowa, Południowo-środkowe stany USA, Wschodnie stany USA 2 i Zachodnie stany USA 2.

Niestandardowy głos i niestandardowy tekst do awatara mowy

Niestandardowy głos i niestandardowy tekst do awatara mowy są oddzielnymi funkcjami. Można ich używać niezależnie lub razem. Jeśli tworzysz również profesjonalny głos dla aktora, awatar może być bardzo realistyczny.

Niestandardowy awatar tekstu na mowę może współpracować ze standardowym głosem lub niestandardowym głosem jako głos awatara. Aby uzyskać więcej informacji, zobacz Avatar voice and language (Głos awatara i język).

Istnieją dwa rodzaje niestandardowego głosu dla niestandardowego awatara:

Synchronizacja głosu dla awatara: Po włączeniu synchronizacji głosu podczas własnego treningu awatara, syntetyczny model głosu na podstawie podobizny talentu awatara jest równocześnie trenowany z awatarem. Ten głos jest wyłącznie skojarzony z niestandardowym awatarem i nie może być używany niezależnie. Synchronizacja głosu dla awatara jest obecnie obsługiwana w regionach Azja Południowo-Wschodnia, Europa Zachodnia i Zachodnie stany USA 2.
Profesjonalny głos: Możesz dopasować profesjonalny głos. Profesjonalne dostrajanie głosu i niestandardowy awatar tekstu na mowę są oddzielnymi funkcjami. Można ich używać niezależnie lub razem. Jeśli zdecydujesz się używać ich razem, musisz ubiegać się o profesjonalne dostrajanie głosu i niestandardowy tekst do awatara mowy oddzielnie, a opłaty są naliczane oddzielnie za profesjonalne dostrajanie głosu i niestandardowy tekst do awatara mowy. Aby uzyskać więcej informacji, zobacz stronę z cennikiem. Ponadto, jeśli planujesz używać precyzyjnego dostrajania głosu z awatarem syntezatora mowy, musisz wdrożyć lub skopiować swój niestandardowy model głosu do jednego z regionów obsługiwanych przez awatary.

Jeśli dostroisz profesjonalny głos i chcesz go używać razem z niestandardowym awatarem, zwróć uwagę na następujące kwestie:

Upewnij się, że punkt końcowy dla niestandardowego głosu został utworzony w tym samym zasobie usługi Azure AI Foundry, co punkt końcowy dla niestandardowego awatara. W razie potrzeby zapoznaj się z tematem Trenowanie profesjonalnego modelu głosu w celu skopiowania niestandardowego modelu głosu do tego samego zasobu usługi Azure AI Foundry co niestandardowy punkt końcowy awatara.
Opcja głosu niestandardowego jest widoczna na liście głosów strony generowania zawartości awatara i ustawień głosowych czatu na żywo.
Jeśli używasz syntezy wsadowej dla interfejsu API awatara, dodaj "customVoices" właściwość, aby skojarzyć identyfikator wdrożenia niestandardowego modelu głosu z nazwą głosu w żądaniu. Aby uzyskać więcej informacji, zobacz właściwości zamiany tekstu na mowę.
Jeśli używasz syntezy w czasie rzeczywistym dla interfejsu API awatara, zapoznaj się z naszym przykładowym kodem w usłudze GitHub , aby ustawić niestandardowy głos.

Udostępnij za pośrednictwem

Co to jest niestandardowy tekst do awatara mowy?

Jak to działa?

Sekwencja składników

Dostępne lokalizacje

Niestandardowy głos i niestandardowy tekst do awatara mowy

Powiązana zawartość

Opinia

Dodatkowe zasoby