Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Niestandardowy awatar zamiany tekstu na mowę umożliwia utworzenie niestandardowego syntetycznego awatara rozmowy z jedną z nich dla aplikacji. Korzystając z niestandardowego awatara mowy generowanego z tekstu, możesz stworzyć unikatowy i naturalnie wyglądający awatar dla swojego produktu lub marki. Awatar jest jeszcze bardziej realistyczny, jeśli używasz również profesjonalnego głosu lub synchronizacji głosu dla awatara dla tego samego aktora.
Istnieją dwa typy niestandardowego tekstu do awatara mowy:
- Niestandardowy awatar wideo: jest tworzony na podstawie udostępnionych przez Ciebie danych nagrywania wideo wybranych aktorów.
- Niestandardowy awatar ze zdjęcia: jest tworzony z obrazu dostarczonego przez użytkownika.
Ważne
Dostęp niestandardowego tekstu do awatara mowy jest ograniczony na podstawie kryteriów uprawnień i użycia. Zażądaj dostępu w formularzu do wprowadzania.
Ważne
Awatar zdjęcia (wersja zapoznawcza) i niestandardowy awatar zdjęcia (wersja zapoznawcza) są licencjonowane jako część subskrypcji platformy Azure i podlegają warunkom mającym zastosowanie do "wersji zapoznawczych" w warunkach produktu Microsoft oraz dodatku do Ochrony Danych Produktów i Usług firmy Microsoft ("DPA"), a także postanowień dotyczących wersji zapoznawczych usług Microsoft Generative AI w dodatkowych warunkach użytkowania dla wersji zapoznawczych platformy Microsoft Azure.
Dostęp do niestandardowego awatara zdjęć (wersja zapoznawcza), który jest częścią niestandardowego awatara tekstu na mowę, jest ograniczony na podstawie kryteriów uprawnień i użycia. Dowiedz się więcej tutaj i poproś o dostęp w formularzu zgłoszeniowym.
Jak to działa?
Utworzenie niestandardowego awatara wideo wymaga co najmniej 10 minut nagrania wideo osoby odgrywającej rolę awatara jako danych treningowych i musisz najpierw uzyskać zgodę od aktora.
Utworzenie niestandardowego awatara zdjęcia wymaga tylko zdjęcia postaci. Jeśli zdjęcie przedstawia prawdziwą osobę, musisz najpierw uzyskać jej zgodę.
Niestandardowy model awatara może obsługiwać:
- Generowanie wideo za pośrednictwem interfejsu API syntezy wsadowej.
- Czat na żywo za pośrednictwem interfejsu API syntezy przesyłania strumieniowego.
Przed rozpoczęciem zapoznaj się z kilkoma zagadnieniami:
Twój przypadek użycia: Czy chcesz użyć awatara do tworzenia zawartości wideo, takiej jak materiały szkoleniowe lub wprowadzenie do produktu? Czy chcesz użyć awatara jako wirtualnego sprzedawcy w rozmowie w czasie rzeczywistym z klientami? Istnieją pewne wymagania dotyczące rejestrowania dla różnych przypadków użycia.
Wygląd awatara: Niestandardowy tekst do mowy awatar wygląda tak samo jak talent awatara w danych treningowych i nie obsługujemy dostosowywania wyglądu modelu awatara, takich jak ubrania, fryzura itp. Więc jeśli aplikacja wymaga wielu stylów tego samego awatara, należy przygotować dane szkoleniowe dla każdego stylu, ponieważ każdy styl awatara jest uważany za pojedynczy model awatara.
Głos awatara: Niestandardowy tekst do awatara mowy może współpracować ze standardowym głosem, profesjonalnym głosem lub synchronizacją głosu dla awatara.
- Synchronizacja głosu dla awatara: syntetyczny głos przypominający głos talentu awatara jest trenowany wraz z niestandardowym awatarem korzystającym z dźwięku z wideo treningowego. Synchronizacja głosu dla awatara jest obecnie obsługiwana tylko w przypadku niestandardowego awatara wideo.
- Profesjonalny głos: Dostosuj profesjonalny głos z większą ilością danych szkoleniowych, zapewniając doskonałe doświadczenie głosowe dla awatara, w tym naturalne rozmowy, wielostylowe i wielojęzyczne wsparcie.
Omówienie kroków tworzenia niestandardowego awatara wideo:
Uzyskaj wideo ze zgodą. Uzyskaj nagranie wideo talentu z przeczytaniem oświadczenia zgody. Muszą wyrazić zgodę na użycie ich wizerunku i danych głosowych w celu wytrenowania niestandardowego modelu awatara do zamiany tekstu na mowę. Jeśli synchronizacja głosu awatara ma być trenowana za pomocą niestandardowego modelu awatara wideo, oni muszą również wyrazić zgodę na użycie ich danych głosowych w celu przetrenowania syntetycznej wersji ich głosu.
Przygotowywanie danych treningowych. Upewnij się, że nagranie wideo jest w odpowiednim formacie. Dobrym pomysłem jest nakręcenie nagrania wideo w profesjonalnym studio do fotografowania wideo, aby uzyskać czysty obraz tła. Jakość wynikowego awatara w dużym stopniu zależy od nagranego filmu używanego do trenowania. Czynniki takie jak szybkość mówienia, postawa ciała, wyraz twarzy, gesty dłoni, spójność pozycji aktora i oświetlenie nagrania wideo są niezbędne do utworzenia angażującego niestandardowego tekstu do awatara mowy. Aby uzyskać więcej informacji, zobacz , jak przygotować dane szkoleniowe.
Trenowanie modelu awatara. Po uzyskaniu gotowych danych przekaż dane do niestandardowego portalu awatara i zacznij trenować model. Weryfikacja zgody jest przeprowadzana podczas szkolenia. Przed utworzeniem projektu upewnij się, że masz dostęp do niestandardowego tekstu do funkcji awatara mowy.
Wdróż i użyj modelu awatara w aplikacjach.
Omówienie kroków tworzenia niestandardowego awatara zdjęcia:
Szkolenie dotyczące niestandardowego awatara fotograficznego obecnie wymaga ręcznego procesu offline. Użytkownicy mogą zrozumieć krótkie kroki trenowania go poniżej:
Przygotowywanie danych treningowych. Niestandardowy awatar zdjęcia można wytrenować przy użyciu zdjęcia rzeczywistej osoby lub wirtualnego obrazu człowieka. Aby uzyskać szczegółowe informacje, zobacz Tworzenie niestandardowego awatara zdjęć .
Uzyskaj wideo ze zgodą. Uzyskaj nagranie wideo osoby czytającej oświadczenie zgody. Jest to wymagane podczas trenowania awatara na podstawie prawdziwego zdjęcia osoby. Muszą wyrazić zgodę na korzystanie z obrazu w celu wytrenowania niestandardowego modelu awatara zdjęć.
Skonfiguruj model awatara. Niestandardowe szkolenie i wdrażanie awatara zdjęć są obsługiwane przez proces ręczny.
Sekwencja składników
Niestandardowy model awatara zamiany tekstu na mowę zawiera trzy składniki: analizator tekstu, syntezator dźwięku mowy i tekst do programu renderującego wideo awatara mowy.
- Aby wygenerować plik wideo awatara lub strumień za pomocą modelu awatara, tekst jest pierwszym wejściem do analizatora tekstu, który dostarcza dane wyjściowe w postaci sekwencji phoneme.
- Syntetyzator audio syntetyzuje dźwięk mowy dla tekstu wejściowego, a te dwie części są dostarczane przez standardowe lub niestandardowe modele głosu.
- Na koniec model awatara zamiany tekstu na mowę przewiduje obraz synchronizacji warg z dźwiękiem mowy, dzięki czemu syntetyczne wideo jest generowane.
Modele awatara zamiany tekstu na mowę są trenowane przy użyciu głębokich sieci neuronowych na podstawie próbek nagrań filmów z ludźmi w różnych językach. Obsługiwane mogą być wszystkie języki standardowych głosów i głosów niestandardowych.
Dostępne lokalizacje
Aby zapoznać się z bieżącą listą regionów obsługujących szkolenie i użycie niestandardowych awatarów, zobacz tabelę regionów usługi Mowa.
Niestandardowy głos i niestandardowy tekst do awatara mowy
Niestandardowy głos i niestandardowy tekst do awatara mowy są oddzielnymi funkcjami. Można ich używać niezależnie lub razem. Jeśli tworzysz również profesjonalny głos dla aktora, awatar może być bardzo realistyczny.
Niestandardowy awatar tekstu na mowę może współpracować ze standardowym głosem lub niestandardowym głosem jako głos awatara. Aby uzyskać więcej informacji, zobacz Avatar voice and language (Głos awatara i język).
Istnieją dwa rodzaje niestandardowego głosu dla niestandardowego awatara:
- Synchronizacja głosu awatara: Gdy włączysz opcję synchronizacji głosowej awatara podczas niestandardowego trenowania wideo awatara, syntetyczny model głosu bazujący na podobieństwie talentu awatara jest jednocześnie trenowany z awatarem. Ten głos jest wyłącznie skojarzony z niestandardowym awatarem wideo i nie może być używany niezależnie. Aby uzyskać informacje o obsługiwanych regionach, zobacz tabelę regionów usługi Speech.
- Profesjonalny głos: Możesz dopasować profesjonalny głos. Profesjonalne dostrajanie głosu i niestandardowy awatar tekstu na mowę są oddzielnymi funkcjami. Można ich używać niezależnie lub razem. Jeśli zdecydujesz się używać ich razem, musisz ubiegać się o profesjonalne dostrajanie głosu i niestandardowy tekst do awatara mowy oddzielnie, a opłaty są naliczane oddzielnie za profesjonalne dostrajanie głosu i niestandardowy tekst do awatara mowy. Aby uzyskać więcej informacji, zobacz stronę z cennikiem. Ponadto, jeśli planujesz używać precyzyjnego dostrajania głosu z awatarem syntezatora mowy, musisz wdrożyć lub skopiować swój niestandardowy model głosu do jednego z regionów obsługiwanych przez awatary.
Jeśli dostroisz profesjonalny głos i chcesz go używać razem z niestandardowym awatarem, zwróć uwagę na następujące kwestie:
- Upewnij się, że niestandardowy punkt końcowy głosu jest tworzony w tym samym zasobie firmy Microsoft Foundry co niestandardowy punkt końcowy awatara. W razie potrzeby zapoznaj się z tematem Trenowanie profesjonalnego modelu głosu w celu skopiowania niestandardowego modelu głosu do tego samego zasobu rozwiązania Microsoft Foundry co niestandardowy punkt końcowy awatara.
- Opcja głosu niestandardowego jest widoczna na liście głosów strony generowania zawartości awatara i ustawień głosowych czatu na żywo.
- Jeśli używasz syntezy wsadowej dla interfejsu API awatara, dodaj
"customVoices"właściwość, aby skojarzyć identyfikator wdrożenia niestandardowego modelu głosu z nazwą głosu w żądaniu. Aby uzyskać więcej informacji, zobacz właściwości zamiany tekstu na mowę. - Jeśli używasz syntezy w czasie rzeczywistym dla interfejsu API awatara, zapoznaj się z naszym przykładowym kodem w usłudze GitHub , aby ustawić niestandardowy głos.