Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważne
Tłumaczenia nieanglojęzyczne są dostępne tylko dla wygody. Zapoznaj się zEN-US wersją tego dokumentu, aby uzyskać ostateczną wersję.
Celem tego artykułu jest pomoc talentom głosowym i awatarom w zrozumieniu technologii stojącej za funkcją zamiany tekstu na mowę, do której tworzenia przyczyniają się ich głosy i obrazy. Zawiera również ważne ujawnienia prywatności dla talentów na temat sposobu, w jaki Microsoft może przetwarzać, używać i zachowywać pliki audio i wideo zawierające zarejestrowane głosy i obrazy talentów oraz pomaga Microsoft zapobiegać i/lub reagować na skargi, nieprawidłowe użycie narzędzi Foundry Tools.
Microsoft jest zobowiązana do odpowiedzialnego projektowania sztucznej inteligencji. Mamy nadzieję, że ta notatka będzie wspierać lepsze wspólne zrozumienie wśród budowniczych technologii, talentów głosowych, talentów awatara i opinii publicznej na temat zamierzonych i korzystnych zastosowań tej technologii.
Kluczowe terminy zamiany tekstu na mowę
Model głosu: Model komputerowy zamiany tekstu na mowę, który może naśladować unikatowe cechy wokalne osoby mówiącej. Model głosu jest również nazywany czcionką głosową lub syntetycznym głosem. Model głosu to zestaw parametrów w formacie binarnym, który nie jest czytelny dla człowieka i nie zawiera nagrań audio. Nie można go przekształcić, aby odtworzyć lub skonstruować nagrania dźwiękowe ludzkiej mowy.
Talent głosowy: Osoby lub osoby docelowe, których głosy są rejestrowane i używane do tworzenia modeli głosowych, które mają brzmieć jak głos talentu głosowego.
Model awatara: Model komputerowy awatara tekst-do-mowy, który może naśladować unikalne cechy twarzy aktora docelowego. Model awatara to zestaw parametrów w formacie binarnym, który nie jest czytelny dla człowieka i nie zawiera nagrań wideo ani audio. Nie można go zrekonstruować w celu wyprowadzenia ani skonstruowania nagrań wideo przedstawiających grającego człowieka.
Umiejętności Awatara: Tworzenie niestandardowego modelu awatara, który przekształca tekst na mowę, wymaga treningu na wideo nagraniu prawdziwego człowieka. Osoba ta to ekspert w dziedzinie awatarów. Klienci muszą uzyskać wystarczającą zgodę na podstawie wszystkich odpowiednich przepisów prawa od osób wcielających się w awatary, aby wykorzystać ich obraz do utworzenia niestandardowego awatara.
Jak działa neuronowy tekst na mowę
Jak to działa: Neuronowy tekst do mowy syntetyzuje mowę przy użyciu głębokich sieci neuronowych, które "nauczyły się", sposób, w jaki fonetyka jest łączona w naturalnej ludzkiej mowie, a nie przy użyciu klasycznych metod programowania lub metod statystycznych. Oprócz nagrań określonego talentu głosowego neuronowy tekst do mowy używa biblioteki źródłowej zawierającej nagrania głosowe z wielu różnych głośników.
Co należy o tym wiedzieć: Ze względu na sposób, w jaki syntetyzuje głosy, neuronowy tekst na mowę może tworzyć style mowy, które nie występowały w oryginalnych nagraniach, takie jak zmiany tonu głosu i intonacji. Głosy syntezatora mowy neuronowej brzmią płynnie i dobrze replikują naturalne pauzy, osobliwości i wahania, które ludzie wyrażają podczas mówienia. Ci, którzy słyszą syntetyczne głosy generowane za pomocą neuronowego przetwarzania tekstu na mowę, mają tendencję do oceniania ich jako bliższe ludzkiej mowie niż głosy w standardowym przetwarzaniu tekstu na mowę.
Przykłady sposobu korzystania z niego Microsoft:
- Wstępnie utworzony neuronowy głos to funkcja zamiany tekstu na mowę, która oferuje "gotowe" modele głosowe do użytku przez klientów. Wstępnie utworzone głosy neuronowe są również używane w kilku produktach Microsoft, takich jak Przeglądarka Edge, Narrator, Office i Teams.
-
Niestandardowy neuronowy głos to funkcja zamiany tekstu na mowę, która umożliwia tworzenie unikalnych, niestandardowych modeli głosu syntetycznego. Poniżej przedstawiono możliwości niestandardowego neuronowego głosu:
- Transfer języka może być wyrażony w języku innym niż oryginalne nagrania głosowe.
- Transfer stylu może wyrażać się za pomocą stylu mówienia różniącego się od oryginalnych nagrań głosowych. Na przykład głos newscastera.
- Transformacja głosu może wyrażać się w sposób inny niż oryginalne nagrania głosowe. Na przykład modyfikowanie tonu lub wysokości dźwięku w celu utworzenia różnych głosów postaci.
- Inne głosy używane w produktach i usługach Microsoft, takich jak Cortana.
Czego można oczekiwać podczas nagrywania: Udział w tworzeniu co najmniej 300 linii dialogowych dla modelu głosu potwierdzenia koncepcji oraz około 2000 linii dialogowych w celu utworzenia nowego modelu głosu do użytku produkcyjnego.
Jak działa awatar zamiany tekstu na mowę
Jak to działa: Awatar przetwarzania tekstu na mowę opiera się na gotowym głosie neuronowym oraz niestandardowym głosie neuronowym i syntetyzuje zawartość wideo awatara z zsynchronizowanym tekstem na gotowym lub niestandardowym głosie neuronowym. Proces syntezy wykorzystuje głębokie sieci neuronowe wyszkolone na modelach, które są opracowywane na podstawie nagrań wideo talentu awatara. Modele są trenowane za pomocą cech akustycznych wyodrębnionych z elementów dźwiękowych nagrania oraz cech fizycznych, ruchów ust, wyrazów twarzy i powiązanych elementów wizualnych wyodrębnionych z elementów wideo nagrania.
Jak wiedzieć o tym: Syntetyzowany tekst do twarzy, ciała i ruchów awatara jest ściśle podobny do talentu awatara, ale tekst do głosu awatara mowy może zostać wygenerowany na podstawie dowolnego ze wstępnie utworzonych neuronowych głosów Microsoft udostępnia lub z niestandardowego głosu neuronowego, w tym tam, gdzie talent głosowy jest tą samą osobą co talent awatara, jeżeli osoba ta zezwoliła na takie użycie.
Przykłady sposobu korzystania z niego Microsoft:
- Prebuilt text to speech avatar to funkcja w Zamianie Mowy Azure w narzędziach Foundry Tools, która oferuje gotowe do użycia modele awatarów zamiany tekstu na mowę do użytku klienta.
- Dostosowany awatar mowy na zamówienie jest funkcją usługi Azure Speech, która umożliwia tworzenie unikalnych modeli syntetycznej mowy dla awatarów mowy.
Czego można oczekiwać podczas nagrywania: Musisz wnieść co najmniej 10 minut nagrania wideo na potrzeby modelu awatara do celów koncepcyjnych oraz około 20 minut nagrania wideo, aby utworzyć kompletny, niestandardowy model awatara do użytku produkcyjnego.
Talent głosowy i syntetyczne głosy: ewoluujący związek
Uznając integralną relację między talentem głosowym a syntetycznymi głosami, Microsoft przeprowadził rozmowy z talentami głosowymi, aby lepiej zrozumieć ich perspektywy na temat nowych rozwiązań technologicznych. Badania przeprowadzone w 2019 r. wykazały, że artyści głosowi dostrzegli potencjalne korzyści z możliwości wprowadzonych przez neuronowe przetwarzanie tekstu na mowę, takich jak oszczędność czasu studyjnego na ukończenie zadań nagrywania i zwiększenie możliwości ukończenia większej liczby zadań związanych z nagrywaniem głosu. Jednocześnie istniały różne stopnie świadomości na temat tego, w jaki sposób rozwój technologii zamiany tekstu na mowę może potencjalnie wpłynąć na ich zawód.
Ogólnie rzecz biorąc, talent głosowy wyraził pragnienie przejrzystości i jasności na temat:
- Limity dotyczące tego, do czego może i nie może być używane ich podobieństwo głosu.
- Czas trwania dozwolonego użycia ich wizerunku głosowego.
- Potencjalny wpływ na przyszłe możliwości nagrywania.
- Persona, która byłaby powiązana z charakterystyką ich głosu.
Syntetyczny głos w szerszym użyciu
Tradycyjnie głosy zamiany tekstu na mowę były rzadko używane ze względu na ich robotyczne brzmienie. Większość z nich była używana do obsługi ułatwień dostępu, na przykład jako czytnik zawartości ekranu dla osób niewidomych lub niedowidzących. Głosy zamiany tekstu na mowę były również używane przez osoby z upośledzeniem mowy. Na przykład zmarły Stephen Hawking użył tekstu do głosu generowanego przez mowę.
Teraz, z coraz bardziej realistycznie brzmiącymi syntetycznymi głosami i zwiększeniem liczby bardziej znanych, codziennych interakcji między maszynami a ludźmi, zastosowania tej technologii zwiększyły się i rozszerzyły. Systemy zamiany tekstu na mowę zasilają asystenty głosowe na różnych urządzeniach i w aplikacjach. Czytają wiadomości, wyniki wyszukiwania, ogłoszenia dotyczące usług publicznych, treści edukacyjnych i wiele innych.
Syntetyczny awatar w szerszym użyciu
Podobnie jak w przypadku głosów syntezatora mowy, awatary oferują teraz realistyczny wygląd, ruchy i mimikę twarzy w połączeniu z naturalnie brzmiącymi głosami. Te awatary mówiące mogą być używane w różnych sytuacjach, takich jak prezentowanie treści w szkoleniu online, prezentowanie mowy w imieniu firmy, interakcja z klientami w ustawieniach obsługi klienta i wiele innych.
Podejście Microsoftu do odpowiedzialnego używania zamiany tekstu na mowę
Każdego dnia ludzie znajdują nowe sposoby stosowania tekstu do technologii mowy, a nie wszystkie są dla dobra osób lub społeczeństwa. W przypadku nieprawidłowego użycia, czytelnie brzmiący tekst na głosy mowy lub realistyczne awatary mówiące mogą spowodować szkodę. Na przykład kampania dezinformacji może stać się o wiele silniejsza, jeśli użyła głosu i wizerunku dobrze znanej osoby publicznej.
Zdajemy sobie sprawę, że nie ma idealnego sposobu, aby zapobiec modyfikacji mediów lub jednoznacznie udowodnić, skąd pochodzi. W związku z tym nasze podejście do odpowiedzialnego użytkowania koncentrowało się na przejrzystości funkcjonalności zamiany tekstu na mowę w Azure poprzez ograniczenie dozwolonych zastosowań niestandardowych tych funkcji i pokazanie naszych wartości poprzez działanie.
Wymagania i porady dotyczące świadomej zgody ze strony talentu głosowego i awatara
Jeśli używasz Microsoft produktów lub usług do przetwarzania danych biometrycznych, odpowiadasz za: (i) powiadamianie podmiotów danych, w tym w odniesieniu do okresów przechowywania i zniszczenia; ii) uzyskiwanie zgody od podmiotów danych; i (iii), usunięcie danych biometrycznych, zgodnie z potrzebami i wymaganych zgodnie z odpowiednimi wymaganiami dotyczącymi ochrony danych. "Dane biometryczne" będą miały znaczenie określone w Artykule 4 RODO, oraz, w stosownych przypadkach, równoważne terminy w innych wymogach dotyczących ochrony danych.
Aby używać głosu neuronowego o niestandardowym brzmieniu, umownie zobowiązujemy klientów do wykonania następujących działań:
- Uzyskaj wyraźne pisemne uprawnienia od talentów głosowych, aby używać głosu tej osoby w celu utworzenia niestandardowego neuronowego głosu.
- Udostępnij ten dokument talentom głosowym, aby zrozumieć, jak działa zamiana tekstu na mowę i jak może być używana po zakończeniu procesu nagrywania dźwięku.
- Uzyskaj niezbędne zgody od talentów głosowych dla Microsoft na przetwarzanie, używanie i przechowywanie plików dźwiękowych talentów głosowych w celu przeprowadzenia weryfikacji mówiącego na podstawie danych treningowych oraz do używania i przechowywania modeli głosowych Microsoft, opisanych poniżej.
Zalecamy również, aby klienci wykonali następujące czynności:
- Podziel się zamierzonymi kontekstami użycia z talentami głosowymi, aby wiedzieć, kto usłyszy swój głos, w jakich scenariuszach i czy/jak ludzie będą mogli z nim korzystać.
- Upewnij się, że talent głosowy zdaje sobie sprawę, że model głosowy wykonany z ich nagrań może powiedzieć rzeczy, których specjalnie nie nagrali w studiu.
- Omówcie, czy istnieje coś, co sprawiłoby, że poczuliby się niekomfortowo z modelem głosowym używanym do wypowiadania określonych treści.
Przetwarzanie, używanie i przechowywanie danych przez Microsoft
Microsoft wykorzystuje pliki audio z głosami lektorskimi na potrzeby weryfikacji mówcy.
Klienci muszą uzyskać uprawnienia od talentów głosowych, aby używać ich głosu do tworzenia niestandardowych modeli głosowych na potrzeby syntetycznego głosu. Ta ochrona techniczna ma pomóc w zapobieganiu niewłaściwemu używaniu naszej usługi, na przykład zapobieganiu trenowaniu modeli głosowych za pomocą nagrań audio i używaniu modeli do fałszowania głosu bez wiedzy lub zgody osoby mówiącej.
W programie Speech Studio należy przekazać plik audio z nagraniem oświadczenia potwierdzającego przez talent lektorski. Microsoft zastrzega sobie prawo do korzystania z technologii rozpoznawania mowy firmy Microsoft na tym nagranym oświadczeniu potwierdzającym i weryfikowania względem danych audio szkoleniowych, aby potwierdzić, że głosy pochodzą od tego samego mówcy, lub w inny sposób, jeśli jest to konieczne do zbadania niewłaściwego użycia Azure Speech.
Podpisy głosowe osoby mówiącej utworzone na podstawie zarejestrowanych plików zeznań potwierdzenia i dane dźwiękowe treningowe są używane przez Microsoft wyłącznie do celów wymienionych powyżej. Microsoft zachowa zarejestrowany plik oświadczenia tak długo, jak to konieczne, aby zachować bezpieczeństwo i integralność Foundry Tools firmy Microsoft. Dowiedz się więcej o tym, jak przetwarzamy, używamy i przechowujemy dane w lekcji Dane, prywatność i zabezpieczenia.
Użycie modeli niestandardowych przez Microsoft
Chociaż klienci utrzymują wyłączne prawa użytkowania do niestandardowego modelu neuronowego głosu, Microsoft może samodzielnie zachowywać kopię niestandardowych modeli neuronowych głosu tak długo, jak będzie to konieczne. Microsoft może używać twojego niestandardowego neuronowego modelu głosu wyłącznie w celu ochrony zabezpieczeń i integralności narzędzi Foundry Tools.
Microsoft zabezpieczy i zapisze kopię zarejestrowanego oświadczenia potwierdzającego talent głosowy oraz niestandardowego modelu neuronowego głosu z tymi samymi zabezpieczeniami wysokiego poziomu, które są używane w przypadku innych usług Azure. Dowiedz się więcej na stronie Microsoft Trust Center.
Będziemy nadal identyfikować i wyraźnie określać celowe, korzystne i zamierzone zastosowania tekstu do mowy, które są oparte na istniejących normach społecznych i oczekiwaniach ludzi dotyczących mediów, kiedy wierzą, że media są prawdziwe lub fałszywe. Zgodnie z zasadami zaufania Microsoft Microsoft nie monitoruje aktywnie ani nie moderuje zawartości audio generowanej przez użytkownika za pomocą niestandardowego neuronowego głosu. Klienci odpowiadają wyłącznie za zapewnienie, że użycie jest zgodne ze wszystkimi obowiązującymi prawami i przepisami oraz zgodnie z warunkami umowy klienta z talentem głosowym.
Wykorzystanie przez Microsoft danych dotyczących talentów głosowych przy użyciu niestandardowego lekkiego głosu neuronowego.
Spersonalizowany głos neuronowy lite to typ projektu w publicznej wersji beta, który umożliwia rejestrowanie 20-50 przykładów głosowych w usłudze Speech Studio, i tworzenie lekkiego spersonalizowanego modelu głosu do celów demonstracyjnych i oceny. Zarówno skrypt nagrywania, jak i skrypt testowania są wstępnie zdefiniowane przez Microsoft. Syntetyczny model głosu tworzony przy użyciu niestandardowego neuronowego głosu w wersji lite może zostać wdrożony i używany w szerszym zakresie tylko wtedy, gdy złożysz wniosek o pełny dostęp do niestandardowego neuronowego głosu i go otrzymasz (z zastrzeżeniem obowiązujących warunków).
Syntetyczny głos i powiązane nagranie audio przesyłane za pośrednictwem programu Speech Studio zostaną automatycznie usunięte w ciągu 90 dni, chyba że uzyskasz pełny dostęp do niestandardowego neuronowego głosu i wybierzesz wdrożenie syntetycznego głosu, w tym przypadku będziesz kontrolować czas przechowywania. Jeśli talent głosowy chciałby mieć syntetyczny głos i powiązane nagrania audio usunięte przed 90 dni, mogą je usunąć bezpośrednio w portalu lub skontaktować się z przedsiębiorstwem, aby to zrobić.
Ponadto, zanim będzie można wdrożyć dowolny syntetyczny model głosu utworzony przy użyciu niestandardowego projektu neuralnego głosowego Lite, lektor musi dostarczyć dodatkowe nagranie, w którym potwierdza, że syntetyczny głos będzie używany do dodatkowych celów poza demonstracją i oceną.
Wytyczne dotyczące odpowiedzialnego wdrażania
Ze względu na to, że zamiana tekstu na mowę jest technologią adaptowalną, istnieją szare obszary określających, jak powinna lub nie powinna być używana. Aby nawigować po nich, sformułowaliśmy następujące wytyczne dotyczące używania syntetycznych modeli głosów i awatarów:
- Chronić właścicieli głosów i wizerunków przed nadużyciem lub kradzieżą tożsamości.
- Zapobieganie rozprzestrzenianiu się fałszywych i wprowadzających w błąd treści.
- Zachęcaj do używania w scenariuszach, w których konsumenci oczekują interakcji z zawartością syntetyczną.
- Zachęcaj do używania w scenariuszach, w których konsumenci obserwują generowanie zawartości syntetycznej.
Przykłady niewłaściwego użycia
Azure AI zamiana tekstu na mowę nie powinna być używana:
- oszukać ludzi i/lub celowo źle poinformować;
- Do celów prowadzenia fałszywej reklamy, w tym za pośrednictwem transmisji na żywo; Aby utrzymywać się za osobę, firmę, organ rządowy lub jednostkę bez wyraźnego zezwolenia na takie przedstawienie;
- Personifikować dowolną osobę bez wyraźnego zezwolenia, w tym uzyskać informacje lub uprawnienia;
- Aby tworzyć, podżegać lub ukrywać mowę nienawiści, dyskryminację, zniesławienie, terroryzm lub akty przemocy;
- Aby wykorzystać lub manipulować dziećmi;
- Aby wykonywać niechciane połączenia telefoniczne, masową komunikację, posty lub wiadomości;
- Aby zatuszować stanowiska polityczne lub ideologie polityczne;
- Aby rozpowszechniać nieprzydatne treści lub błędnie przedstawiane źródła.
Przykłady odpowiedniego użycia
Odpowiednie przypadki użycia mogą obejmować, ale nie są ograniczone do następujących:
- Agenci wirtualni oparty na fikcyjnych osobach. Na przykład wyszukiwanie w Internecie na żądanie, kontrola IoT lub obsługa klienta zapewniana przez znak markowy firmy.
- Media rozrywkowe do wykorzystania w twórczości fikcyjnej. Na przykład filmy, gry wideo, tv, nagrana muzyka lub książki audio.
- Akredytowane instytucje edukacyjne lub media edukacyjne. Na przykład interaktywne plany lekcji lub wycieczki po muzeum z przewodnikiem.
- Technologia pomocna i tłumaczenie w czasie rzeczywistym. Na przykład osoby dotknięte ALS zachowują swoje głosy.
- Ogłoszenia dotyczące usług publicznych przy użyciu fikcyjnych osób. Na przykład ogłoszenia terminalu lotniska lub pociągu.
- Reklama/transmisja strumieniowa na żywo: treści reklamowe, transmisja strumieniowa na żywo skojarzona z marketingiem lub sprzedażą produktu.