Udostępnij za pośrednictwem


Uwaga dotycząca przezroczystości: zamiana tekstu na mowę

Ważne

Tłumaczenia nieanglojęzyczne są dostępne tylko dla wygody. Aby zapoznać się z wiążącą wersją, sprawdź EN-US wersję tego dokumentu.

Co to jest notatka dotycząca przezroczystości?

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które będą jej używać, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażana. Utworzenie systemu dopasowanego do zamierzonego celu wymaga zrozumienia, jak działa technologia, jakie są jego możliwości i ograniczenia oraz jak osiągnąć najlepszą wydajność. Uwagi dotyczące przejrzystości firmy Microsoft mają na celu pomóc w zrozumieniu, jak działa nasza technologia sztucznej inteligencji, jakie decyzje mogą podejmować właściciele systemu wpływające na jego wydajność i zachowanie, oraz podkreślić znaczenie myślenia o całym systemie, który obejmuje technologię, ludzi i środowisko. Możesz użyć notatek przezroczystości podczas tworzenia lub wdrażania własnego systemu lub udostępniania ich osobom, które będą korzystać z systemu lub mają na nie wpływ.

Notatki dotyczące przejrzystości Microsoft są częścią szerszych działań mających na celu wprowadzenie w życie zasad AI firmy Microsoft. Aby dowiedzieć się więcej, zobacz Zasady sztucznej inteligencji firmy Microsoft.

Podstawy zamiany tekstu na mowę

Wprowadzenie

Zamiana tekstu na mowę, część usługi Azure AI Speech, to uniwersalne narzędzie, które umożliwia konwertowanie tekstu pisanego na naturalnie brzmiące dźwięk mowy. Funkcja przyjmuje dane wejściowe w postaci tekstu i generuje wysokiej jakości dane wyjściowe dźwięku mowy, które mogą być odtwarzane na urządzeniach. W przypadku dźwiękowego wyjścia mowy, syntezator mowy oferuje szereg gotowych neuronowych głosów lub, dla klientów o ograniczonym dostępie, możliwość stworzenia niestandardowego neuronowego głosu dla produktu lub marki.

Zamiana tekstu na mowę ma również funkcje wizualne. Korzystając z awatara tekstu na mowę, klienci mogą wprowadzać tekst i tworzyć syntetyczne wideo z awatarem mówiącym. Dostępne są zarówno wstępnie utworzone awatary do syntezowania mowy, jak i niestandardowe awatary do syntezowania mowy, które mogą być używane zarówno z wbudowanym głosem neuronowym, jak i z niestandardowym głosem neuronowym, chociaż niektóre funkcje są dostępne tylko dla klientów z ograniczonego dostępu.

W systemie zamiany tekstu na mowę klienci mogą przekształcić zapisane informacje w słyszalną mowę i zwiększyć dostępność dla użytkowników. Niezależnie od tego, czy słuchasz dokumentów, czy ulepszasz doświadczenia użytkownika za pomocą syntezowanej mowy, zamiana tekstu na mowę przekształca tekst w naturalnie brzmiące słowa mówione.

Kluczowe terminy

Termin Definicja
Synteza mowy w czasie rzeczywistym Użyj zestawu SPEECH SDK lub interfejsu API REST , aby przekonwertować tekst na mowę przy użyciu wstępnie utworzonego neuronowego głosu, wstępnie utworzonego tekstu na awatar mowy, niestandardowego neuronowego głosu i niestandardowego tekstu na awatar mowy.
Model głosu W systemie zamiany tekstu na mowę model głosowy odnosi się do modelu opartego na uczeniu maszynowym lub algorytmu, który generuje syntetyczną mowę na podstawie tekstu pisanego. Ten model jest trenowany w celu konwertowania danych wejściowych tekstu na dane wyjściowe języka mówionego, naśladując cechy ludzkiego głosu, w tym ton, ton i wymowę.
Prozodia Prozodia odnosi się do modulacji elementów mowy, takich jak tonacja, długość, głośność i pauzy, aby nasycić syntetyczne głosy naturalną i wyrazistą jakością, przekazując niuanse emocjonalne oraz kontekstowe znaczenia, zmniejszając w ten sposób robotyczną jakość wygenerowanej mowy, i co czyni ją bardziej angażującą i zrozumiałą dla słuchaczy.
Język znaczników syntezy mowy ("SSML") Speech Synthesis Markup Language (SSML) to język znaczników oparty na języku XML, który służy do dostosowywania tekstu do danych wyjściowych mowy. Za pomocą języka SSML można dostosować ton, dodać przerwy, poprawić wymowę, zmienić częstotliwość mówienia, dostosować głośność i przypisywać wiele głosów do pojedynczego dokumentu. Możesz użyć języka SSML, aby zdefiniować własne leksykony lub przełączyć się na różne style mówienia.
Asynchroniczna synteza długiego dźwięku Użyj interfejsu API syntezy wsadowej (wersja zapoznawcza), aby asynchronicznie syntetyzować tekst na pliki mowy dłuższe niż 10 minut (na przykład książki audio lub wykłady). W przeciwieństwie do syntezy wykonywanej za pośrednictwem zestawu SPEECH SDK lub interfejsu API REST zamiany mowy na tekst odpowiedzi nie są zwracane w czasie rzeczywistym. Oczekuje się, że żądania są wysyłane asynchronicznie, odpowiedzi są sondowane i syntetyzowany dźwięk jest pobierany, gdy usługa udostępnia je.
Visemes Visemes są kluczowymi pozycjami w obserwowanej mowie, w tym położenie ust, szczęki i języka w produkcji konkretnej fonemy. Visemes mają silną korelację z głosami i fonezami.

Wprowadzenie

Wstępnie utworzony głos neuronowy oferuje szeroką gamę głosów, oferując ponad 400 opcji w ponad 140 językach i ustawieniach regionalnych. Te głosy tekstu na mowę umożliwiają szybką integrację funkcji odczytu na głos w aplikacjach, aby zwiększyć dostępność.

Kluczowe terminy

Termin Definicja
Wstępnie utworzony głos neuronowy Firma Microsoft oferuje zestaw wstępnie utworzonych głosów neuronowych, które wykorzystują głębokie sieci neuronowe do przezwyciężenia ograniczeń tradycyjnej syntezy mowy w odniesieniu do stresu i intonacji w języku mówionym. Przewidywanie prosody i synteza głosu odbywają się jednocześnie, co skutkuje bardziej płynnymi i naturalnie brzmiącymi wyjściami. Każdy wstępnie utworzony model neuronowego głosu jest dostępny w jakości 24kHz i w wysokiej wierności 48kHz, a wyjście może być poddane zwiększeniu lub zmniejszeniu częstotliwości próbkowania do innych formatów.

Możliwości

Zachowanie systemu

Konwersja tekstu na mowę

Przetwarzanie tekstu na mowę konwertuje tekst na naturalnie brzmiącą mowę.

Poniżej przedstawiono główne opcje wywoływania usługi zamiany tekstu na mowę.

Interfejs API zamiany tekstu na mowę w czasie rzeczywistym

Jest to typowe wywołanie interfejsu API za pośrednictwem zestawu Speech SDK lub interfejsu API REST w celu wysyłania danych wejściowych tekstowych i odbierania wyjścia dźwięku w czasie rzeczywistym. System syntezy mowy używa modelu głosu zamieniającego tekst na syntetyczną mowę przypominającą ludzką. Dźwięk wyjściowy może być zapisywany jako plik lub odtwarzany z powrotem na urządzeniu wyjściowym, takim jak głośnik (dowiedz się więcej na temat syntezowania mowy z tekstu). Użytkownicy mogą również używać SSML do dostosowywania tekstu do mowy.

Modele zamiany tekstu na mowę są trenowane na dużych ilościach zróżnicowanego dźwięku w typowych scenariuszach użycia i szerokiej gamie głośników. Na przykład usługa zamiany tekstu na mowę jest często używana na potrzeby czatbotów z obsługą głosu lub tworzenia zawartości audio.

API syntezy wsadowej

Synteza wsadowa to inny typ wywołania interfejsu API. Zazwyczaj służy do wysyłania dużych plików tekstowych i odbierania sygnałów dźwiękowych asynchronicznie (czyli w późniejszym czasie). Aby użyć tego interfejsu API, można określić lokalizacje dla wielu plików tekstowych. Technologia zamiany tekstu na mowę odczytuje dane wejściowe tekstu z pliku i generuje pliki audio, które są zwracane do określonej lokalizacji przechowywania. Ta funkcja służy do obsługi większych zadań syntezy mowy, w których nie jest konieczne zapewnienie użytkownikom końcowym danych wyjściowych dźwięku w czasie rzeczywistym. Przykładem jest utworzenie książek audio.

Zamiana tekstu na mowę — niestandardowy neuronalny głos

Niestandardowy neuronowy głos to funkcja zamiany tekstu na mowę , która umożliwia klientom z ograniczonym dostępem tworzenie niestandardowego syntetycznego głosu dostosowanego do swoich aplikacji przez udostępnienie własnych danych dźwiękowych wybranych przez klienta talentów głosowych.

Dzięki niestandardowemu neuronowemu głosowi możesz rejestrować talent głosowy, odczytując skrypty dostarczone przez firmę Microsoft w programie Speech Studio i szybko tworząc syntetyczny głos, który brzmi jak twój talent głosowy przy użyciu projektu lite (wersja zapoznawcza). Projekt lite jest idealny do szybkiej wersji próbnej lub weryfikacji koncepcji.

Za pomocą projektu pro możesz przesyłać dane głosowe nagrane w studio wysokiej jakości od wybranego talentu głosowego i tworzyć realistycznie brzmiący głos. Pro obsługuje wysoce naturalne trenowanie głosu, które jeszcze bardziej przypomina głos talentów głosowych i może być dostosowane do mówienia w wielu emocjach i w różnych językach, bez konieczności dodatkowych danych szkoleniowych specyficznych dla emocji lub języka.

Gdy utworzysz niestandardowy neuronowy głos, możesz wdrożyć model głosu z unikalnym punktem końcowym i użyć modelu do generowania syntetycznej mowy za pomocą opisanego powyżej interfejsu API syntezy w czasie rzeczywistym lub interfejsu API syntezy wsadowej.

Aby uzyskać więcej informacji na temat niestandardowego neuronowego głosu, zobacz Omówienie niestandardowego neuronowego głosu.

Osobisty głos

Funkcja głosu osobistego umożliwia klientom z ograniczonym dostępem tworzenie modelu głosu na podstawie krótkiej próbki głosu ludzkiego. Funkcja może utworzyć model głosowy na podstawie monitu w ciągu zaledwie kilku sekund. Ta funkcja jest zwykle używana do obsługi spersonalizowanych środowisk głosowych dla aplikacji klientów biznesowych. Osobiste modele głosowe mogą tworzyć realistycznie brzmiące głosy, które mogą mówić w pobliżu 100 języków.

Znaki wodne są dodawane do niestandardowych neuronowych głosów utworzonych za pomocą funkcji personalnego głosu. Znaki wodne umożliwiają użytkownikom określenie, czy mowa jest syntetyzowana przy użyciu usługi Azure AI Speech, a w szczególności, który głos został użyty. Uprawnieni klienci mogą korzystać z funkcji wykrywania znaków wodnych dla mowy w usłudze Azure AI. Aby poprosić o dodanie wykrywania znaku wodnego do aplikacji, skontaktuj się z mstts[at]microsoft.com.

Aby uzyskać więcej informacji na temat głosu osobistego, zobacz osobisty głos.

Awatar sztucznej mowy

Awatar tekst na mowę konwertuje tekst na cyfrowe wideo fotorealistycznego człowieka (czy to wstępnie utworzonego awatara, czy niestandardowego awatara) mówiącego naturalnie brzmiącym głosem napędzanym przez funkcje tekst-na-mowę, takie jak wstępnie utworzony głos neuronowy lub niestandardowy głos neuronowy. Tekst do mowy awatar wideo może być syntetyzowany asynchronicznie lub w czasie rzeczywistym. Deweloperzy mogą tworzyć aplikacje zintegrowane z tekstem do awatara mowy za pośrednictwem interfejsu API lub za pomocą narzędzia do tworzenia zawartości w usłudze Speech Studio do tworzenia zawartości wideo bez kodowania.

Dzięki zaawansowanym modelom sieci neuronowych w avatarach zamiany tekstu na mowę, ta funkcja umożliwia użytkownikom dostarczanie syntetycznych filmów z mówiącymi awatarami, które są wysokiej jakości i podobne do życia, do różnorodnych zastosowań.

Awatar tekstu na mowę wprowadza standard Koalicji na rzecz Pochodzenia Treści i Autentyczności (C2PA), aby zapewnić widzom jaśniejszy wgląd w źródło i historię tworzonych przez awatary treści wideo. Ten standard oferuje przejrzyste informacje na temat generacji sztucznej inteligencji zawartości wideo. Aby uzyskać więcej informacji na temat integracji C2PA z tekstem na mowę w awatarach, zobacz Poświadczenia zawartości w usłudze Azure Text to Speech Avatar.

Ponadto dane wyjściowe awatara są automatycznie oznaczane znakiem wodnym. Znaki wodne pozwalają zatwierdzonym użytkownikom ustalić, czy wideo zostało stworzone przy użyciu funkcji awatara w usłudze Azure AI Speech. Aby zlecić wykrycie znaku wodnego, skontaktuj się z avatarvoice[at]microsoft.com.

Tłumaczenie wideo (wersja zapoznawcza)

Tłumaczenie wideo może efektywnie lokalizować zawartość wideo, aby zaspokoić różne grupy odbiorców na całym świecie. Tłumaczenie wideo automatycznie wyodrębnia dźwięk dialogowy, transkrybuje, tłumaczy oraz dubluje zawartość przy użyciu wstępnie utworzonego lub osobistego głosu na język docelowy, a dodatkowo zapewnia dokładne napisy w celu uzyskania lepszej dostępności. Funkcje wielogłosowe pomogą zidentyfikować liczbę osób mówiących i zalecić odpowiednie głosy. Edytowanie treści z udziałem człowieka w procesie umożliwia precyzyjne dopasowanie do preferencji klientów. Ulepszona jakość tłumaczenia zapewnia precyzyjne dopasowanie dźwięku i wideo z integracją GPT. Tłumaczenie wideo umożliwia autentyczne i spersonalizowane doświadczenie dubbingu za pomocą osobistego głosu.

Przypadki użycia

Funkcje zamiany tekstu na mowę oferują różnorodne możliwości dopasowane do szerokiego zakresu zastosowań w różnych gałęziach przemysłu i domenach. Wszystkie funkcje zamiany tekstu na mowę, w tym tłumaczenie wideo, podlegają warunkom i postanowieniom mającym zastosowanie do subskrypcji platformy Azure, w tym zasadom dopuszczalnego użycia platformy Azure i Kodeksowi postępowania dotyczącego zamiany mowy na mowę w usłudze Azure AI.

Ponadto niestandardowe funkcje zamiany tekstu na mowę, takie jak niestandardowy neuronowy głos, osobisty głos i awatar do tekstu na mowę, są ograniczone do zatwierdzonych przypadków użycia, jak opisano w określonych scenariuszach poniżej:

Zamierzone zastosowania dla Custom Neural Voice Pro i Custom Neural Voice Lite

Poniżej przedstawiono zatwierdzone przypadki użycia dla niestandardowego neuronowego głosu Pro i niestandardowego neuronowego głosu Lite:

  • Edukacja lub nauka interaktywna: Aby utworzyć fikcyjną markę lub głos postaci do czytania lub prezentowania materiałów edukacyjnych, nauki online, interaktywnych planów lekcji, nauki symulacyjnej lub przewodów po muzeach.
  • Media: Rozrywka: Aby stworzyć fikcyjną markę lub głos postaci do czytania lub mówienia treści rozrywkowej dla gier wideo, filmów, telewizji, nagraną muzyką, podcastów, książek audio lub rzeczywistości rozszerzonej lub wirtualnej.
  • Media: Marketing: Aby stworzyć fikcyjną markę lub głos postaci do czytania lub mówienia w kontekście mediów marketingowych, prezentacji produktów, promocji biznesu lub reklam.
  • Samodzielnie stworzona treść: Aby utworzyć głos do czytania treści stworzonych przez lektora.
  • Funkcje ułatwień dostępu: do użytku w systemach opisu audio i narracji, obejmujących w fikcyjnej marce lub głosie postaci, lub w celu ułatwienia komunikacji osób z wadami mowy.
  • Systemy interaktywnej odpowiedzi głosowej (IVR): do tworzenia głosów, w tym fikcyjnych marek lub głosów postaci, na potrzeby obsługi centrów telefonicznych, systemów telefonicznych lub odpowiedzi w interakcjach telefonicznych.
  • Ogłoszenia publiczne i informacyjne: aby utworzyć fikcyjną markę lub głos postaci do przekazywania informacji o usługach publicznych, w tym anonsów dla miejsc publicznych, lub do informacyjnych transmisji, takich jak ruch, pogoda, informacje o wydarzeniach i harmonogramy. Ten przypadek użycia nie jest przeznaczony do wiadomości dziennikarskich ani informacyjnych.
  • Tłumaczenie i lokalizacja: do użycia w aplikacjach tłumaczenia na potrzeby tłumaczenia konwersacji w różnych językach lub tłumaczenia multimediów audio.
  • Asystent wirtualny lub Chatbot: aby stworzyć fikcyjną markę lub głos postaci dla inteligentnych asystentów używanych w wirtualnych asystentach sieciowych, urządzeniach, samochodach, sprzętach domowych, zabawkach, do kontrolowania urządzeń IoT, w systemach nawigacji, do odczytywania osobistych wiadomości, wirtualnych towarzyszy lub w scenariuszach obsługi klienta.

Zamierzone zastosowania na potrzeby głosu osobistego

Interfejs API osobistego głosu jest dostępny w wersji zapoznawczej z ograniczonym dostępem (zobacz Osobisty głos aby uzyskać więcej informacji). Tylko klienci, którzy spełniają kryteria uprawnień ograniczonego dostępu, mogą zintegrować osobisty interfejs API głosu ze swoimi aplikacjami. Ci uprawnieni klienci mogą używać osobistych głosów tylko w następujących przypadkach użycia:

  • Aplikacje: w przypadku aplikacji, w których dane wyjściowe głosowe są ograniczone i definiowane przez klientów oraz gdzie głos nie odczytuje zawartości generowanej przez użytkownika ani zawartości typu open-end. Użycie modelu głosowego musi pozostać w aplikacji, a dane wyjściowe nie mogą być publikowane ani udostępniane z aplikacji. Niektóre przykłady aplikacji, które pasują do tego opisu, to asystenci głosowi w inteligentnych urządzeniach i dostosowywanie głosu postaci w grach.
  • Media, filmy i telewizja: do dubowania filmów, telewizji, wideo i audio tylko w scenariuszach rozrywki, gdzie klienci utrzymują wyłączną kontrolę nad tworzeniem, dostępem i używaniem modeli głosowych i ich danych wyjściowych.
  • Zawartość biznesowa: aby utworzyć zawartość audio i wideo dla scenariuszy biznesowych w celu komunikowania informacji o produkcie, materiałów marketingowych, zawartości promocyjnej biznesowej i wewnętrznej komunikacji biznesowej.
  • Specjalne użycie, połączone z tłumaczeniem wideo: aby syntetyzować głosy dla każdego mówcy w filmie. Klienci mogą również edytować i generować nagrania audio zsynchronizowane z ruchami ust w docelowych językach. Klienci nie muszą przesyłać do firmy Microsoft dodatkowej zgody audio na zawartość wideo w tym scenariuszu, ale klienci muszą zachować wyłączną kontrolę nad tworzeniem, dostępem do modeli głosowych i ich danymi wyjściowymi oraz korzystanie z nich.

Wszystkie inne zastosowania neuronowego głosu niestandardowego, w tym Custom Neural Voice Pro, Custom Neural Voice Lite i głosu osobistego, są zabronione. Ponadto neuronowy głos niestandardowy jest usługą o ograniczonym dostępie, a rejestracja jest konieczna, aby uzyskać dostęp do tej usługi. Aby dowiedzieć się więcej na temat zasad ograniczonego dostępu firmy Microsoft, zobacz Funkcje ograniczonego dostępu dla usług azure AI. Niektóre funkcje są dostępne tylko dla klientów i partnerów zarządzanych przez firmę Microsoft i tylko w przypadku niektórych przypadków użycia zatwierdzonych przez firmę Microsoft w momencie rejestracji.

Wstępnie utworzony głos neuronowy może być również używany w niestandardowych przypadkach użycia tego samego typu, jak powyżej, a także w dodatkowych przypadkach, wybranych przez klientów i zgodnych z zasadami dopuszczalnego użycia platformy Azure oraz kodeksem postępowania dla usługi Azure AI zamieniającej tekst na mowę. Do dodatkowych przypadków użycia wstępnie utworzonych neuronowych głosów spełniających wszystkie odpowiednie warunki i postanowienia nie jest wymagana rejestracja ani wstępne zatwierdzenie.

Zamierzone przypadki użycia tłumaczenia wideo (wersja zapoznawcza)

Tłumaczenie wideo może służyć do filmów, telewizji i innych wizualizacji (w tym wideo lub animacji) i aplikacji audio, gdzie klienci zachowują wyłączną kontrolę nad tworzeniem, dostępem do i używaniem modeli głosowych i ich danych wyjściowych. Głos osobisty i synchronizacja ruchu warg podlegają ramom ograniczonego dostępu, a uprawnieni klienci mogą korzystać z tych funkcji w połączeniu z tłumaczeniem wideo. Poniżej przedstawiono zatwierdzone przypadki użycia usługi tłumaczenia wideo:

  • Edukacja i nauka: aby przetłumaczyć dźwięk w wizualizacjach edukacyjnych, kursach online, modułach szkoleniowych, uczeniu opartym na symulacji lub wizualizacjach przewodnika po muzeum z przewodnikiem dla osób uczących się w wielu językach. 
  • Media: Rozrywka: Aby przetłumaczyć dźwięk w filmach, filmach, programach telewizyjnych, dokumentach, grach wideo, miniserialiach, krótkiej grze i zawartości AR/VR dla odbiorców globalnych, zapewniając bezproblemowe opowiadanie historii w różnych językach. 
  • Media: Marketing: Aby przetłumaczyć dźwięk w wizualizacjach promocyjnych, pokazach produktów, reklamach i kampaniach brandingowych, aby rezonować z międzynarodowymi rynkami i kulturami. 
  • Self-Authored Zawartość: aby przetłumaczyć dźwięk w vlogach, krótkie formy wizualne, treści influencerów, przewodniki turystyczne, filmy promujące destynacje, wizualizacje mediów społecznościowych i filmy pokazujące najważniejsze aspekty kultury, co czyni je dostępnymi i angażującymi. 
  • Szkolenia i komunikacja firmowa: aby przetłumaczyć dźwięk w wizualizacjach komunikacji wewnętrznej, materiały wdrożeniowe dla pracowników, szkolenia z zakresu zgodności i globalne ogłoszenia firmowe dla międzynarodowych zespołów. 
  • Pokazy handlu elektronicznego i produktów: aby przetłumaczyć dźwięk w wizualizacjach rozpboxowania produktów, samouczkach, opiniach klientów i wizualizacjach wyjaśniających, aby zaspokoić potrzeby międzynarodowych kupujących. 
  • Ogłoszenia publiczne i informacyjne: aby przetłumaczyć dźwięk w wizualizacjach świadomości publicznej, harmonogramach zdarzeń, ogłoszeniach o bezpieczeństwie i emisjach informacyjnych dla instytucji rządowych na potrzeby wielojęzycznych ułatwień dostępu. 
  • Funkcje ułatwień dostępu: aby poszerzyć dostępność zawartości wideo za pomocą wielojęzycznego dźwięku i napisów.
  • Wiadomości i treści dziennikarskie: aby przetłumaczyć dźwięk w segmentach wiadomości, wywiadach, komunikatach prasowych i aktualnościach dla różnych odbiorców językowych. Klienci, którzy chcą przetłumaczyć źródła wiadomości, będą wymagać dodatkowego przejrzenia.

Przeznaczenie dla niestandardowego tekstu do awatara mowy i wstępnie utworzonego tekstu do awatara mowy

Poniżej przedstawiono zatwierdzone przypadki użycia niestandardowego tekstu na awatar mowy:

  • Asystent wirtualny lub czatbot: aby utworzyć wirtualnych asystentów, wirtualnych towarzyszy, wirtualnych asystentów sprzedaży lub aplikacji obsługi klienta.
  • Generowanie zawartości dla kontekstów przedsiębiorstwa: służy do przekazywania informacji o produkcie, materiałów marketingowych, zawartości promocyjnej biznesowej i wewnętrznej komunikacji biznesowej. Przykłady obejmują awatary postaci lub cyfrowe reprezentacje bliźniacze lidera firmy w celu promowania marki.
  • Edukacyjne lub interaktywne uczenie: Aby utworzyć fikcyjną markę lub awatara postaci do prezentowania materiałów edukacyjnych, nauczania online, interaktywnych planów lekcji, uczenia się poprzez symulacje lub zwiedzania muzeów z przewodnikiem.
  • Media: Rozrywka: prezentowanie aktualizacji, udostępnianie wiedzy, tworzenie interaktywnych materiałów multimedialnych lub tworzenie materiałów z udziałem osób na ekranie na potrzeby scenariuszy rozrywkowych, takich jak filmy, gry i rzeczywistość wirtualna lub rozszerzona.
  • Funkcje ułatwień dostępu: do ułatwienia komunikacji przez osoby z wadami mowy.
  • Treść własna: Aby utworzyć awatara do czytania treści utworzonych przez twórcę talentu awatara.
  • Ogłoszenia publiczne i informacyjne: aby utworzyć fikcyjną markę lub obraz postaci do przekazywania informacji o usługach publicznych, w tym anonsów dla miejsc publicznych, lub do informacyjnych transmisji, takich jak ruch, pogoda, informacje o wydarzeniach i harmonogramy. Ten przypadek użycia nie jest przeznaczony do wiadomości dziennikarskich ani informacyjnych.
  • Tłumaczenie i lokalizacja: do użycia w aplikacjach tłumaczeń na potrzeby tłumaczenia konwersacji w różnych językach lub tłumaczenia multimediów audio w formacie wideo.

Wszystkie inne zastosowania tekstu niestandardowego do awatara mowy są zabronione. Ponadto funkcja tekst zamieniany na mowę przez awatara jest usługą o ograniczonym dostępie, a do jej użycia wymagana jest rejestracja. Aby dowiedzieć się więcej na temat zasad ograniczonego dostępu firmy Microsoft, odwiedź aka.ms/limitedaccesscogservices. Niektóre funkcje są dostępne tylko dla klientów i partnerów zarządzanych przez firmę Microsoft i tylko w przypadku niektórych przypadków użycia zatwierdzonych przez firmę Microsoft w momencie rejestracji.

Wstępnie utworzony awatar tekstu na mowę może być również używany do niestandardowych przypadków użycia awatara powyżej, a także dodatkowych przypadków użycia wybranych przez klientów i zgodnych z zasadami akceptowalnego użycia platformy Azure oraz kodeksem postępowania dla tekstu na mowę w usłudze Azure AI. Aby skorzystać z dodatkowych przypadków użycia wstępnie zbudowanego awatara konwersji tekstu na mowę, który spełnia wszystkie obowiązujące warunki i postanowienia, nie jest wymagana rejestracja ani wstępne zatwierdzenie.

Zagadnienia dotyczące wybierania przypadków użycia

Zachęcamy klientów do używania funkcji zamiany tekstu na mowę w swoich innowacyjnych rozwiązaniach lub aplikacjach. Wszystkie funkcje przekształcania tekstu na mowę muszą być zgodne z zasadami akceptowalnego użycia platformy Azure i kodeksem postępowania dla funkcji zamiany tekstu na mowę w usłudze Azure AI Speech. Ponadto niestandardowy neuronowy głos i niestandardowy tekst do awatarów mowy mogą być używane tylko w przypadku przypadków użycia zatwierdzonych za pośrednictwem formularza rejestracji ograniczonego dostępu. Ponadto poniżej przedstawiono niektóre zagadnienia dotyczące wybierania przypadku użycia dla dowolnej funkcji zamiany tekstu na mowę:

  • Zapewnienie zgodności przypadku użycia: upewnij się, że zamierzone użycie funkcji zamiany tekstu na mowę jest zgodne z jej możliwościami i zamierzonym celem.
  • Zagadnienia dotyczące odpowiedzialnej sztucznej inteligencji: określanie priorytetów praktyk w zakresie odpowiedzialnej sztucznej inteligencji przez unikanie tworzenia mylącej lub szkodliwej zawartości. Przestrzegaj zasad ochrony prywatności, ochrony danych i przepisów prawnych podczas korzystania z funkcji zamiany tekstu na mowę.
  • Zapoznaj się z kodeksem postępowania: Firma Microsoft ustanowiła kodeks postępowania, który zakazuje niektórych zastosowań wszystkich funkcji zamiany tekstu na mowę. Zapewnij zgodność z kodeksem postępowania podczas wybierania przypadku użycia dla usług zamiany tekstu na mowę.
  • Sprawować kontrolę redakcyjną: Starannie rozważ użycie syntetycznych głosów w przypadku treści, które nie są odpowiednio kontrolowane redakcyjnie, ponieważ syntetyczne głosy mogą brzmieć jak ludzkie i wzmacniać efekt niepoprawnej lub wprowadzającej w błąd treści.
  • Ujawnienie: Ujawnić sztuczny charakter głosów, obrazów i/lub filmów wideo użytkownikom, tak aby użytkownicy nie byli wprowadzeni w błąd ani nie mogli wprowadzać w błąd innych, wierząc, że wchodzą w interakcję z prawdziwą osobą.
  • Zagadnienia prawne i regulacyjne: Organizacje muszą ocenić potencjalne konkretne zobowiązania prawne i prawne w przypadku korzystania z usług i rozwiązań sztucznej inteligencji, które mogą nie być odpowiednie do użycia w każdej branży lub scenariuszu. Ponadto usługi sztucznej inteligencji lub rozwiązania nie są przeznaczone do użytku i mogą nie być używane w sposób zabroniony w odpowiednich warunkach świadczenia usług i odpowiednich kodeksach postępowania.

Stosując się do tych zagadnień, użytkownicy mogą odpowiedzialnie korzystać zarówno ze wstępnie utworzonego, jak i niestandardowego neuronowego głosu.

Ograniczenia

Ograniczenia dotyczące zamiany tekstu na mowę powinny być brane pod uwagę na skrzyżowaniu technologii oraz czynników ludzkich, społecznych i organizacyjnych, które wpływają na ich użycie i wpływ. Chociaż zamiana tekstu na mowę oferuje zaawansowane możliwości syntezy mowy, istnieją pewne ograniczenia, które należy wziąć pod uwagę podczas odpowiedzialnego wdrażania, aby zminimalizować potencjalne błędy.

Ograniczenia techniczne, czynniki operacyjne i zakresy

Ograniczenia techniczne, które należy wziąć pod uwagę podczas używania tekstu do mowy, obejmują dokładność wymowy i intonacji. Podczas gdy zamiana tekstu na mowę jest przeznaczona do generowania naturalnie brzmiącej mowy, może wystąpić trudności z niektórymi wyrazami, nazwami lub nietypowymi frazami. Użytkownicy powinni pamiętać, że mogą istnieć wystąpienia, w których system może błędnie wywrzeć lub podkreślać słowa niepoprawnie, zwłaszcza w przypadku czynienia z niszowym lub specyficznym dla domeny słownictwem.

Należy pamiętać, że niektóre populacje mogą mieć bardziej negatywny wpływ na te ograniczenia techniczne. Na przykład osoby z wadami słuchu, które w dużym stopniu polegają na syntetyzowanej mowie, mogą napotkać wyzwania w zrozumieniu niejasnych lub zniekształconych danych wyjściowych mowy. Podobnie użytkownicy z niepełnosprawnością poznawczą lub związaną z językiem mogą trudno zrozumieć mowę z nienaturalną intonacją lub błędnie sformułowanymi słowami.

  • Ograniczenia językowe: Podczas gdy starannie sprawdzamy i przygotowujemy dane szkoleniowe w celu zminimalizowania uprzedzeń, szczególnie związanych z płcią, pochodzeniem etnicznym lub regionalnymi akcentami, a tekst na mowę obsługuje wiele języków i akcentów, mogą występować różnice w jakości i dostępności głosów w różnych językach. Klienci powinni mieć świadomość potencjalnych ograniczeń dokładności wymowy, intonacji i niuansów językowych specyficznych dla niektórych języków lub dialektów.
  • Kontekst i emocje: zamiana tekstu na mowę może mieć ograniczenia dotyczące dokładnego przekazywania kontekstowych informacji i emocji. Klienci powinni pamiętać o niezdolności systemu do zrozumienia niuansów emocjonalnych lub subtelnych wskazówek znajdujących się w tekście wejściowym. Należy rozważyć zapewnienie dodatkowego kontekstu lub wykorzystanie innych metod efektywnego przekazywania emocji.
  • Dostępność: Firma Microsoft udostępni klientom 12-miesięczne powiadomienie przed usunięciem wstępnie utworzonych głosów neuronowych z naszego katalogu, chyba że zagadnienia dotyczące bezpieczeństwa, prawnych lub wydajności systemu wymagają przyspieszonego usunięcia. Nie dotyczy to wersji zapoznawczych.

Każda aplikacja jest inna, a nasz model podstawowy może nie być zgodny z kontekstem lub obejmować wszystkie scenariusze wymagane w twoim przypadku użycia. Zachęcamy deweloperów do dokładnej oceny jakości tekstu na syntetyczny głos mowy i wideo przy użyciu rzeczywistych danych, które odzwierciedlają przypadek użycia, w tym testowanie z użytkownikami z różnych grup demograficznych i o różnych cechach mowy. Zobacz sekcję Jakość wytrenowanego modelu głosu, aby uzyskać najlepsze rozwiązania dotyczące tworzenia modeli głosowych wysokiej jakości.

Oprócz zapewnienia wydajności, ważne jest, aby rozważyć, jak zminimalizować ryzyko stereotypów i wymazywania, które mogą wynikać z syntetycznych głosów i awatara. Jeśli na przykład tworzysz niestandardowy neuronowy głos dla inteligentnego asystenta głosowego, dokładnie zastanów się, jaki głos jest odpowiedni do utworzenia, i poszukaj różnych perspektyw od osób z różnych środowisk. Podczas kompilowania i oceniania systemu zawsze szukasz różnorodnych danych wejściowych.

Względy uczciwości

W firmie Microsoft staramy się wspierać każdą osobę na świecie, aby robić więcej. Istotną częścią tego celu jest stworzenie technologii i produktów, które są sprawiedliwe i inkluzywne. Sprawiedliwość jest wielowymiarowym, społeczno-technicznym tematem i ma wpływ na wiele różnych aspektów naszego rozwoju produktu. Więcej informacji na temat podejścia firmy Microsoft do sprawiedliwości można znaleźć tutaj.

Jednym z ważnych wymiarów, które należy wziąć pod uwagę podczas korzystania z systemów sztucznej inteligencji, w tym zamiany tekstu na mowę, jest to, jak dobrze system działa dla różnych grup osób. Badania wykazały, że bez świadomego wysiłku ukierunkowanego na poprawę wydajności dla wszystkich grup systemy sztucznej inteligencji mogą wykazywać różne poziomy wydajności w różnych czynnikach demograficznych, takich jak rasa, pochodzenie etniczne, płeć i wiek.

W ramach naszej oceny zamiany tekstu na mowę w usłudze Azure AI przeprowadziliśmy analizę, aby ocenić potencjalne szkody związane ze sprawiedliwością. Zbadaliśmy wydajność systemu w różnych grupach demograficznych, mając na celu zidentyfikowanie wszelkich różnic lub różnic, które mogą istnieć i mogą mieć potencjalnie wpływ na sprawiedliwość.

W niektórych przypadkach mogą występować różnice w wydajności. Należy pamiętać, że te różnice mogą przekraczać wyznaczone cele, a my aktywnie pracujemy nad rozwiązaniem problemów związanych z potencjalnymi uprzedzeniami lub lukami w wynikach, starannie rozważamy wybór grupy demograficznej aktora i poszukujemy różnorodnych perspektyw pochodzących z różnych środowisk.

W odniesieniu do szkód reprezentacyjnych, takich jak stereotypizacja, poniżanie lub wymazywanie, uznajemy ryzyko związane z tymi problemami. Chociaż nasz proces oceny ma na celu ograniczenie takich zagrożeń, zachęcamy użytkowników do dokładnego rozważenia konkretnych przypadków użycia i wdrożenia dodatkowych środków zaradczych zgodnie z potrzebami. Obecność człowieka może zapewnić dodatkową warstwę nadzoru, aby wyeliminować wszelkie potencjalne uprzedzenia lub niezamierzone konsekwencje. Użycie list zablokowanych lub dozwolonych może również pomóc w zapewnieniu, że syntetyzowana mowa jest zgodna z żądanymi standardami i pozwala uniknąć szkodliwych lub nieodpowiednich treści.

Jesteśmy zobowiązani do ciągłego ulepszania naszych ocen sprawiedliwości, aby lepiej zrozumieć wydajność systemu w różnych grupach demograficznych i potencjalne obawy dotyczące sprawiedliwości. Trwa proces oceny i aktywnie pracujemy nad zwiększeniem sprawiedliwości i inkluzywności oraz eliminowaniem zidentyfikowanych różnic. Rozumiemy znaczenie rozważania kwestii sprawiedliwości i staramy się zapewnić, że przekształcanie tekstu na mowę dostarcza niezawodne i sprawiedliwe wyniki mowy.

Należy pamiętać, że te informacje reprezentują to, co wiemy do tej pory o ocenach sprawiedliwości, i pozostajemy oddani udoskonalić nasze metodologie oceny i rozwiązać wszelkie problemy dotyczące sprawiedliwości, które mogą wystąpić.

Wydajność systemu

Wydajność systemu zamiany tekstu na mowę odnosi się do tego, jak dokładnie i naturalnie może przekształcić tekst pisany na syntezowaną mowę. Jest to mierzone przy użyciu różnych metryk w celu oceny jakości i wydajności wygenerowanego dźwięku. Oto niektóre typowe używane metryki wydajności:

  • Średni wynik opinii (MOS): system oceny, w którym sędziowie zapewniają wynik, który reprezentuje ogólną jakość syntetyzowanej mowy i wideo awatara. Wyższy MOS wskazuje lepszą jakość.
  • Różnica MOS: Różnica między wynikiem MOS nagrań ludzkich a wynikiem utworów/filmów audio wygenerowanych. Mniejsza różnica MOS wskazuje bliższe podobieństwo do ludzkiej mowy/ludzkiego podobieństwa.
  • Podobieństwo MOS (SMOS): Mierzy podobieństwo wygenerowanych utworów audio/wideo do ludzkich nagrań. Wyższy SMOS oznacza lepsze podobieństwo.
  • Intelligibility: Procent poprawnie zrozumiałych słów w syntetyzowanej mowie.

Nawet w przypadku najnowocześniejszych modeli sztucznej inteligencji systemy sztucznej inteligencji, takie jak zamiana tekstu na mowę, mogą powodować błędy. Na przykład system może generować syntezowaną mowę z subtelnymi nienaturalnymi intonacjami lub błędami wymowy, co prowadzi do mniej niż idealnego doświadczenia użytkownika, lub system może błędnie interpretować tekst lub zmagać się z nietypowymi konstrukcjami językowymi, co skutkuje nienaturalną lub niezrozumiałą mową.

Najlepsze rozwiązania dotyczące poprawy wydajności systemu

Aby poprawić wydajność systemu i dostosować zachowanie systemu w tekście do mowy, istnieje kilka najlepszych rozwiązań, które można zastosować. Te rozwiązania obejmują dostosowanie różnych składników i parametrów, aby zoptymalizować kompromisy i spełnić określone wymagania dotyczące przypadków użycia. Ważne jest jednak, aby rozważyć potencjalny wpływ na różne populacje w celu zapewnienia sprawiedliwości i niekluzywności.

Użycie języka SSML (Speech Synthesis Markup Language) jest uważane za najlepsze rozwiązanie w celu ulepszenia jakości danych wyjściowych zamiany tekstu na mowę. SSML umożliwia użytkownikom wywieranie większej kontroli nad syntetyzacją mowy, co umożliwia dostosowanie wymowy, intonacji, podkreślenia i innych cech prodykycznych. Dzięki włączeniu tagów SSML do tekstu użytkownicy mogą dodawać pauzy, dostosowywać szybkość mowy, określać wymowę fonetyczną oraz kontrolować ton i głośność, między innymi parametrami. Ten poziom precyzyjnego dostrajania pomaga stworzyć bardziej naturalną i wyrazistą mowę, dzięki czemu tekst przekształcony na mowę brzmi bardziej ludzkie i angażujące. Wszystkie znaczniki SSML można przekazać bezpośrednio do interfejsu API. Udostępniamy również narzędzie online, tworzenie zawartości audio, które umożliwia klientom dostosowywanie przy użyciu intuicyjnego interfejsu użytkownika.

Jeśli twój przypadek użycia obejmuje specjalistyczne słownictwo lub zawartość specyficzną dla domeny, rozważ użycie niestandardowej funkcji leksykonu w celu poprawy zdolności systemu do dokładnego wymawiania i przekazywania terminów lub fraz specyficznych dla domeny.

Ocena technologii zamiany tekstu na mowę

Metody oceny

Niektóre często używane metryki do oceny wydajności całego systemu przetwarzania tekstu na mowę obejmują:

  • Różnica średniej oceny opinii (MOS) w stosunku do nagrania ludzkiego: zwykle służy do porównywania jakości modelu przetwarzania tekstu na mowę z nagraniem ludzkiego głosu. Oczekuje się, że jakość modelu głosu utworzonego przez niestandardowy głos neuronowy w porównaniu do nagrania ludzkiego będzie bliska, a różnica wyniesie nie więcej niż 0,5 punktu w skali MOS.
  • W przypadku niestandardowego głosu neuronowego można również użyć wskaźnika Podobieństwo MOS (SMOS), aby zmierzyć, jak podobny jest niestandardowy głos w porównaniu z oryginalnymi nagraniami ludzkimi. W badaniach SMOS sędziowie są proszeni o nasłuchiwanie zestawu sparowanych ścieżek audio, jednej wygenerowanej z wykorzystaniem niestandardowego głosu, drugiej z oryginalnych nagrań ludzkich w zbiorze danych treningowych, i oceniają, czy dwie ścieżki audio w każdej parze są mówione przez tę samą osobę, w skali pięciopunktowej (gdzie 1 oznacza najniższą, a 5 najwyższą ocenę). Średni wynik jest zgłaszany jako wynik SMOS. Zalecamy, aby dobry spersonalizowany głos neuronowy osiągnął SMOS wyższy niż 4,0.
  • Oprócz pomiaru naturalności za pomocą mos i SMOS można również ocenić zrozumiałość modelu głosu, sprawdzając dokładność wymowy wygenerowanej mowy. Dzieje się tak, gdy sędziowie słuchają zestawu próbek testowych, określając, czy mogą zrozumieć znaczenie i wskazać wszelkie wyrazy, które były dla nich niezrozumiały. Współczynnik zrozumiałości jest obliczany przy użyciu wartości procentowej poprawnie zrozumiałych wyrazów wśród całkowitej liczby przetestowanych wyrazów (tj. liczby zrozumiałych słów/całkowitej liczby wyrazów przetestowanych * 100%). Zwykle silnik syntezy mowy do użytku musi osiągnąć wynik > 98% dla zrozumiałości.

Wyniki oceny

Synteza mowy konsekwentnie dostarcza wysokiej jakości i naturalnie brzmiącą syntezowaną mowę, spełniając wymagania różnych sektorów i dziedzin. Nasze oceny obejmują obszerne testowanie danych treningowych i testowych systemu, zapewniając, że reprezentuje zamierzone zastosowania i czynniki operacyjne napotkane w rzeczywistych scenariuszach, a także testowanie próbek syntetyzowanych danych wyjściowych mowy.

Wyniki oceny miały wpływ na decyzje dotyczące ograniczeń projektu systemu, takich jak maksymalny rozmiar przypadku i minimalna wymagana ilość danych treningowych. Analizując wydajność systemu w różnych zestawach danych, ustawieniach i parametrach, zostały ustawione odpowiednie ograniczenia w celu zoptymalizowania zachowania, niezawodności i bezpieczeństwa systemu.

Podczas gdy ocena obejmuje szeroką gamę przypadków użycia, należy pamiętać, że wyniki są uogólnialne w pewnym zakresie w różnych przypadkach użycia, które nie były bezpośrednio częścią oceny. Niezawodność i wydajność systemu zapewnia zaufanie do możliwości obsługi różnych scenariuszy, w tym tych, które mogły nie zostać jawnie przetestowane.

Poniżej przedstawiono kilka zalecanych testów i zakresów oceny na podstawie naszego doświadczenia:

Miara Definicja Jak jest obliczany Zalecany rozmiar tekstu Zalecana ocena
MOS Średnia ocena opinii jakości ścieżek dźwiękowych Średnia ocen przyznawanych przez każdego sędziego dla każdego nagrania dźwiękowego > 30 wygenerowanych ścieżek dźwiękowych > 4.0 (zwykle wymaga, aby MOS dla nagrania ludzkiego był wyższy niż 4,5)
Luka w mos Różnica wyników MOS między nagraniami ludzkimi a wygenerowanymi ścieżkami audio Wynik MOS na nagraniach ludzkich minus wynik MOS na wygenerowanych ścieżkach dźwiękowych > 10 ludzkich nagrań, > 30 wygenerowanych ścieżek audio, > 20 sędziów na każde nagranie < 0.5
SMOS Podobieństwo wygenerowanych ścieżek dźwiękowych do ludzkich nagrań Średnia ocen poziomu podobieństwa dla każdej pary ścieżek dźwiękowych > 40 par, > 20 sędziów na każdej parze > 4.0, > 3.5 (język pomocniczy)
Zrozumiałość Dokładność wymowy wygenerowanej mowy na poziomie słowa Procent poprawnie zrozumiałych wyrazów wśród całkowitej liczby przetestowanych wyrazów > 60 wygenerowanych utworów audio, > 10 sędziów na każdą ścieżkę audio > 98%

Ocenianie i integrowanie technologii zamiany tekstu na mowę do Twoich potrzeb

Poniżej przedstawiono kilka najlepszych rozwiązań, które pomogą Ci w odpowiedzialny sposób zintegrować funkcje zamiany tekstu na mowę w swoich przypadkach użycia.

Ujawnianie, kiedy głos jest syntetyczny

Ujawnienie, że głos jest generowany przez komputer, nie tylko minimalizuje ryzyko szkodliwych skutków oszustwa, ale także zwiększa zaufanie do organizacji dostarczającej ten głos. Dowiedz się więcej o tym, jak ujawnić.

Microsoft wymaga od swoich klientów ujawnienia użytkownikom, że głosy syntezatorów mowy mają charakter syntetyczny.

  • Pamiętaj, aby zapewnić odpowiednie ujawnienie informacji przed odbiorcami, szczególnie gdy korzysta się z głosu dobrze znanej osoby. Ludzie oceniają informacje oparte częściowo na osobie, która ją dostarcza, niezależnie od tego, czy robią to świadomie, czy nieprzytomnie. Na przykład ujawnienie może być udostępniane słownie na początku emisji. Aby uzyskać więcej informacji, odwiedź stronę Wzorce ujawniania.
  • Należy rozważyć właściwe ujawnienie rodzicom lub innym stronom przypadków użycia, które są przeznaczone do lub mogą być używane w sytuacjach dotyczących nieletnich i dzieci. Jeśli twój przypadek użycia jest przeznaczony dla nieletnich lub dzieci, musisz upewnić się, że ujawnienie jest jasne i przejrzyste, aby rodzice lub opiekunowie prawni mogli zrozumieć rolę syntetycznych mediów i podjąć świadomą decyzję w imieniu nieletnich lub dzieci o tym, czy korzystać z tego doświadczenia.

Ujawniaj, kiedy wideo awatara jest syntetyczne

Ujawnianie, że mówiący awatar na wideo jest generowany komputerowo, nie tylko minimalizuje ryzyko szkodliwych wyników z oszustwa, ale także zwiększa zaufanie do organizacji dostarczającej wideo. Dowiedz się więcej o tym, jak ujawnić.

Microsoft wymaga od swoich klientów, aby ujawnili swoim użytkownikom syntetyczny charakter awatarów tekstu na mowę.

  • Pamiętaj, aby zapewnić odpowiednie ujawnienie informacji odbiorcom, zwłaszcza w przypadku korzystania z wizerunku (i głosu) dobrze znanej osoby. Ludzie oceniają informacje oparte częściowo na osobie, która ją dostarcza, niezależnie od tego, czy robią to świadomie, czy nieprzytomnie. Na przykład informacje mogą być ujawnione za pomocą napisu, takiego jak "Głos i obraz w tym filmie są generowane przez sztuczną inteligencję", w tekście lub ogłoszone słownie na początku filmu. Aby uzyskać więcej informacji, odwiedź stronę Wzorce ujawniania.
  • Należy rozważyć właściwe ujawnienie rodzicom lub innym stronom przypadków użycia, które są przeznaczone do lub mogą być używane w sytuacjach dotyczących nieletnich i dzieci. Jeśli twój przypadek użycia jest przeznaczony dla nieletnich lub dzieci, musisz upewnić się, że ujawnienie jest jasne i przejrzyste, aby rodzice lub opiekunowie prawni mogli zrozumieć rolę syntetycznych mediów i podjąć świadomą decyzję w imieniu nieletnich lub dzieci o tym, czy korzystać z tego doświadczenia.

Wybieranie odpowiednich typów głosów dla danego scenariusza

Uważnie zastanów się nad kontekstem użycia i potencjalnymi szkodami związanymi z używaniem tekstu do mowy głosów lub awatarów. Na przykład syntetyczne głosy o wysokiej wierności mogą nie być odpowiednie w scenariuszach wysokiego ryzyka, takich jak wiadomości osobiste, transakcje finansowe lub złożone sytuacje, które wymagają ludzkiej adaptacji lub empatii.

Użytkownicy mogą również mieć różne oczekiwania dotyczące typów głosu i wyrażeń awatara lub gestów, w zależności od kontekstu. Na przykład podczas słuchania poufnych wiadomości odczytanych przez syntetyczny głos niektórzy użytkownicy wolą bardziej empatyczny i ludzki ton, podczas gdy inni wolą neutralny głos. Rozważ przetestowanie aplikacji, aby lepiej zrozumieć preferencje użytkownika.

Bądź przejrzysty w przypadku możliwości i ograniczeń

Użytkownicy mają większe szanse na wyższe oczekiwania podczas interakcji z syntetycznymi agentami głosowymi o wysokiej wierności. Gdy możliwości systemowe nie spełniają tych oczekiwań, zaufanie może cierpieć i może spowodować nieprzyjemne, a nawet szkodliwe doświadczenia.

Zapewnij opcjonalne wsparcie ludzkie

W niejednoznacznych scenariuszach transakcyjnych (na przykład w centrum obsługi telefonicznej) użytkownicy nie zawsze ufają agentowi komputera, aby odpowiednio reagować na swoje żądania. Wsparcie człowieka może być konieczne w takich sytuacjach, niezależnie od realistycznej jakości głosu lub możliwości systemu.

Zagadnienia dotyczące talentów głosowych

Gdy klienci pracują z talentami głosowymi w celu utworzenia niestandardowego neuronowego głosu, stosowane są poniższe wskazówki.

  • Talent głosowy powinien mieć kontrolę nad modelem głosu (jak i gdzie będzie używany) i być zrekompensowany za jego użycie. Microsoft wymaga, aby klienci używający niestandardowych głosów neuronowych uzyskali wyraźną pisemną zgodę od talentów głosowych na stworzenie głosu syntetycznego oraz zapewnili, że umowa klienta z każdą osobą uwzględnia czas trwania, sposób użycia oraz wszelkie ograniczenia dotyczące treści. Jeśli tworzysz syntetyczny głos dobrze znanej osoby, musisz zapewnić możliwość edytowania lub zatwierdzania zawartości danych wyjściowych, które mają zostać wygenerowane za pomocą modelu głosu.
  • Niektóre talenty głosowe mogą być nieświadome potencjalnych złośliwych zastosowań technologii i powinny być wykształcone przez właścicieli systemu na temat możliwości technologii. Firma Microsoft wymaga od klientów udostępnienia dokumentu Informacja dla talentów głosowych i awatarowych talentom głosowym lub ich autoryzowanym przedstawicielom, aby opisać, jak syntetyczne głosy są opracowywane i działają we współpracy z usługami przetwarzania tekstu na mowę.

Zagadnienia dotyczące talentu awatara

Gdy klienci pracują z talentem awatara, aby tworzyć niestandardowe awatary, stosowane są poniższe wytyczne.

  • Talent Awatara powinien mieć kontrolę nad modelem awatara (jak i gdzie będzie używany) i być zrekompensowany za jego użycie. Firma Microsoft wymaga, aby klienci niestandardowego awatara uzyskali wyraźną pisemną zgodę od talentu awatara na stworzenie syntetycznego awatara tekst-do-mowy i zapewnili, że umowa klienta z każdą osobą określa czas trwania, sposób wykorzystania i wszelkie ograniczenia dotyczące treści. Jeśli tworzysz niestandardowy awatar dobrze znanej osoby, powinieneś umożliwić osobie odgrywającej awatara edycję lub zatwierdzenie treści, które zamierzasz wygenerować za pomocą modelu głosu.
  • Niektóre talenty awatara mogą być nieświadome potencjalnych złośliwych zastosowań technologii i powinny być wykształcone przez właścicieli systemu na temat możliwości technologii. Firma Microsoft wymaga, aby klienci przekazywali informacje ujawniane przez Microsoft dotyczące talentów głosowych i awatarów bezpośrednio talentom awatarów lub za pośrednictwem ich autoryzowanego przedstawiciela, aby opisać, jak rozwijane i działające wideo syntetycznych awatarów współpracuje z usługami zamiany tekstu na mowę.

Zagadnienia dotyczące osób z zaburzeniami mowy

Podczas pracy z osobami z zaburzeniami mowy w celu utworzenia lub wdrożenia syntetycznej technologii głosowej obowiązują poniższe wytyczne.

Przygotowanie wytycznych dotyczących kontraktów z talentami w scenariuszach dotyczących dostępności

Klienci powinni opracować wytyczne dotyczące ustanawiania umów z osobami, które używają syntetycznych głosów w celu uzyskania pomocy w mówieniu. Klienci powinni rozważyć określenie w umowach z osobami fizycznymi czasu użytkowania, przeniesienia własności i/lub kryteriów licencji, procedur usuwania modelu głosowego oraz sposobu zapobiegania nieautoryzowanemu dostępowi.

Uwzględnianie niespójności we wzorcach mowy

W przypadku osób z zaburzeniami mowy, które rejestrują własne wzorce głosu, niespójności we wzorcu mowy (bełkotanie lub niezdolność do wypowiadania niektórych słów) mogą skomplikować proces nagrywania. W takich przypadkach technologia syntezy głosu i sesje nagrywania powinny być zaprojektowane z odpowiednimi udogodnieniami określonymi przez klienta (na przykład aby umożliwić przerwy lub dodatkowe sesje nagrywania).

Zezwalaj na modyfikację w czasie

Osoby z zaburzeniami mowy mogą chcieć zaktualizować ich syntetyczny głos, aby odzwierciedlać zmiany ze względu na starzenie się lub inne czynniki. Osoby mogą również mieć preferencje stylistyczne, które zmieniają się w czasie, i mogą chcieć wprowadzić zmiany w prezentacji, akcentze lub innych cechach głosu.

Dowiedz się więcej na temat odpowiedzialnej sztucznej inteligencji

Dowiedz się więcej o usłudze Azure Speech