Co to jest zamiana tekstu na mowę?

W tym omówieniu poznasz korzyści i możliwości funkcji zamiany tekstu na mowę w usłudze Mowa, która jest częścią usług Azure AI.

Zamiana tekstu na mowę umożliwia aplikacjom, narzędziom lub urządzeniom konwertowanie tekstu na język ludzki, taki jak syntetyzowana mowa. Funkcja zamiany tekstu na mowę jest również znana jako synteza mowy. Użyj wstępnie utworzonych głosów neuronowych, takich jak człowiek, lub utwórz niestandardowy neuronowy głos, który jest unikatowy dla twojego produktu lub marki. Aby uzyskać pełną listę obsługiwanych głosów, języków i ustawień regionalnych, zobacz Obsługa języka i głosu dla usługi Mowa.

Podstawowe funkcje

Zamiana tekstu na mowę obejmuje następujące funkcje:

Funkcja Podsumowanie Wersja demonstracyjna
Wstępnie utworzony neuronowy głos (nazywany neuronowym na stronie cen) Bardzo naturalne, gotowe do użycia głosy. Utwórz konto platformy Azure i subskrypcję usługi Mowa, a następnie użyj zestawu SPEECH SDK lub odwiedź portal usługi Speech Studio i wybierz wstępnie utworzone neuronowe głosy, aby rozpocząć pracę. Sprawdź szczegóły cennika. Sprawdź galerię głosów i określ odpowiedni głos dla Twoich potrzeb biznesowych.
Niestandardowy neuronowy głos (nazywany niestandardowym neuronem neuronowym na stronie cennika) Łatwa w użyciu samoobsługa do tworzenia naturalnego głosu marki z ograniczonym dostępem do odpowiedzialnego użycia. Utwórz konto platformy Azure i subskrypcję usługi Mowa (z warstwą S0) i zastosuj je do użycia niestandardowej funkcji neuronowej. Po udzieleniu dostępu odwiedź portal usługi Speech Studio i wybierz pozycję Niestandardowy głos , aby rozpocząć pracę. Sprawdź szczegóły cennika. Sprawdź przykłady głosu.

Więcej informacji o funkcjach zamiany tekstu neuronowego na mowę

Zamiana tekstu na mowę używa głębokich sieci neuronowych, aby głosy komputerów niemal nie do odróżnienia od nagrań ludzi. Dzięki jasnemu artykulacji słów tekst neuronowy do mowy znacznie zmniejsza zmęczenie nasłuchiwaniem, gdy użytkownicy wchodzą w interakcje z systemami sztucznej inteligencji.

Wzorce stresu i intonacji w języku mówionym są nazywane prosodią. Tradycyjne systemy zamiany tekstu na mowę dzielą prozady na oddzielne kroki analizy językowej i przewidywania akustycznego zarządzane przez niezależne modele. To może spowodować muffled, buzzy syntezy głosu.

Poniżej przedstawiono więcej informacji o funkcjach neuronowych zamian tekstu na mowę w usłudze Mowa oraz o tym, jak przezwyciężyć limity tradycyjnych systemów zamiany tekstu na mowę:

  • Synteza mowy w czasie rzeczywistym: użyj zestawu SPEECH SDK lub interfejsu API REST, aby przekonwertować tekst na mowę przy użyciu wstępnie utworzonych głosów neuronowych lub niestandardowych głosów neuronowych.

  • Asynchroniczna synteza długiego dźwięku: użyj interfejsu API syntezy wsadowej (wersja zapoznawcza), aby asynchronicznie syntetyzować tekst w plikach mowy dłuższych niż 10 minut (na przykład książki audio lub wykłady). W przeciwieństwie do syntezy wykonywanej za pośrednictwem zestawu SPEECH SDK lub interfejsu API REST zamiany mowy na tekst odpowiedzi nie są zwracane w czasie rzeczywistym. Oczekuje się, że żądania są wysyłane asynchronicznie, odpowiedzi są sondowane i syntetyzowany dźwięk jest pobierany, gdy usługa udostępnia je.

  • Wstępnie utworzone głosy neuronowe: funkcja neuronowego tekstu do mowy firmy Microsoft wykorzystuje głębokie sieci neuronowe, aby przezwyciężyć limity tradycyjnej syntezy mowy dotyczące stresu i intonacji w języku mówionym. Przewidywanie prosody i synteza głosu odbywają się jednocześnie, co skutkuje bardziej płynnymi i naturalnie brzmiącymi wyjściami. Każdy wstępnie utworzony model neuronowego głosu jest dostępny przy 24 kHz i wysokiej wierności 48 kHz. Możesz użyć neuronowych głosów do:

    • Sprawić, aby interakcje z czatbotami i asystentami głosowymi bardziej naturalne i angażujące.
    • Konwertowanie tekstów cyfrowych, takich jak książki elektroniczne, na audiobooki.
    • Ulepszanie systemów nawigacji w samochodzie.

    Aby uzyskać pełną listę neuronowych głosów platformy, zobacz Obsługa języka i głosu dla usługi Mowa.

  • Dostrajanie tekstu do danych wyjściowych mowy za pomocą języka SSML: Język znaczników syntezy mowy (SSML) to język znaczników oparty na języku XML używany do dostosowywania tekstu do danych wyjściowych mowy. Za pomocą języka SSML można dostosować ton, dodać przerwy, poprawić wymowę, zmienić częstotliwość mówienia, dostosować głośność i przypisywać wiele głosów do pojedynczego dokumentu.

    Możesz użyć języka SSML, aby zdefiniować własne leksykony lub przełączyć się na różne style mówienia. Dzięki wielojęzycznym głosom możesz również dostosować języki mówiące za pomocą języka SSML. Aby dostosować dane wyjściowe głosu dla danego scenariusza, zobacz Ulepszanie syntezy za pomocą języka znaczników syntezy mowy i syntezy mowy za pomocą narzędzia do tworzenia zawartości audio.

  • Visemes: Visemes są kluczowymi pozycjami w obserwowanej mowie, w tym położenie ust, szczęki i języka w produkcji konkretnej fonemy. Visemes mają silną korelację z głosami i fonezami.

    Używając zdarzeń viseme w zestawie SPEECH SDK, można wygenerować dane animacji twarzy. Te dane mogą służyć do animowania twarzy w komunikacji z czytaniem ust, edukacji, rozrywki i obsługi klienta. Viseme jest obecnie obsługiwany tylko w przypadku en-US neuronowych głosów (angielski usa).

Uwaga

Planujemy wycofanie tradycyjnych/standardowych głosów i nienadobowego niestandardowego głosu w 2024 roku. Następnie nie będziemy już ich obsługiwać.

Jeśli aplikacje, narzędzia lub produkty korzystają z dowolnego ze standardowych głosów i niestandardowych głosów, musisz przeprowadzić migrację do wersji neuronowej. Aby uzyskać więcej informacji, zobacz Migrowanie do głosów neuronowych.

Rozpocznij

Aby rozpocząć pracę z zamianą tekstu na mowę , zobacz przewodnik Szybki start. Zamiana tekstu na mowę jest dostępna za pośrednictwem zestawu SPEECH SDK, interfejsu API REST i interfejsu wiersza polecenia usługi Mowa.

Napiwek

Aby przekonwertować tekst na mowę przy użyciu podejścia bez kodu, wypróbuj narzędzie do tworzenia zawartości audio w programie Speech Studio.

Przykładowy kod

Przykładowy kod zamiany tekstu na mowę jest dostępny w witrynie GitHub. Te przykłady obejmują konwersję tekstu na mowę w najpopularniejszych językach programowania:

Niestandardowy neuronowy głos

Oprócz wstępnie utworzonych głosów neuronowych można tworzyć i dostosowywać niestandardowe głosy neuronowe, które są unikatowe dla twojego produktu lub marki. Wszystko, co trzeba rozpocząć, to kilka plików audio i skojarzonych transkrypcji. Aby uzyskać więcej informacji, zobacz Wprowadzenie do niestandardowego neuronowego głosu.

Nota cenowa

Rozliczane znaki

Gdy używasz funkcji zamiany tekstu na mowę, opłaty są naliczane za każdy znak przekonwertowany na mowę, w tym interpunkcję. Mimo że sam dokument SSML nie jest rozliczany, opcjonalne elementy używane do dostosowywania sposobu konwersji tekstu na mowę, takie jak phonemy i skoki, są liczone jako rozliczane znaki. Oto lista elementów rozliczanych:

  • Tekst przekazany do funkcji zamiany tekstu na mowę w treści żądania SSML
  • Wszystkie znaczniki w polu tekstowym treści żądania w formacie SSML, z wyjątkiem <speak> tagów i <voice>
  • Litery, znaki interpunkcyjne, spacje, karty, znaczniki i wszystkie znaki odstępu
  • Każdy punkt kodu zdefiniowany w standardze Unicode

Aby uzyskać szczegółowe informacje, zobacz Cennik usługi Mowa.

Ważne

Każdy chiński znak jest liowany jako dwa znaki do rozliczeń, w tym kanji używany w języku japońskim, hanja używany w języku koreańskim lub hanzi używany w innych językach.

Trenowanie modelu i czas hostingu dla niestandardowego neuronowego głosu

Niestandardowe trenowanie i hostowanie neuronowego głosu są obliczane według godzin i rozliczane na sekundę. Aby uzyskać cenę jednostkową rozliczeń, zobacz Cennik usługi Mowa.

Niestandardowy czas trenowania neuronowego głosu (CNV) jest mierzony przez "godzinę obliczeniową" (jednostkę do mierzenia czasu pracy maszyny). Zazwyczaj podczas trenowania modelu głosowego dwa zadania obliczeniowe są uruchamiane równolegle. W związku z tym obliczone godziny obliczeniowe są dłuższe niż rzeczywisty czas trenowania. Średnio trenowanie głosu CNV Lite trwa mniej niż jedną godzinę obliczeniową; podczas gdy w przypadku CNV Pro, trenowanie głosu w jednym stylu trwa zwykle od 20 do 40 godzin obliczeniowych, a około 90 godzin obliczeniowych w celu trenowania głosu w wielu stylach. Czas trenowania CNV jest rozliczany z limitem 96 godzin obliczeniowych. W takim przypadku, gdy model głosowy jest trenowany w ciągu 98 godzin obliczeniowych, opłaty będą naliczane tylko za 96 godzin obliczeniowych.

Niestandardowy hostowanie punktów końcowych neuronowego głosu (CNV) jest mierzone przez rzeczywisty czas (godzina). Czas hostingu (godziny) dla każdego punktu końcowego jest obliczany o 00:00 UTC każdego dnia przez poprzednie 24 godziny. Jeśli na przykład punkt końcowy był aktywny przez 24 godziny pierwszego dnia, opłata jest naliczana za 24 godziny o 00:00 UTC w drugim dniu. Jeśli punkt końcowy jest nowo utworzony lub zawieszony w ciągu dnia, opłaty są naliczane za skumulowany czas działania do 00:00 UTC drugiego dnia. Jeśli punkt końcowy nie jest obecnie hostowany, nie jest rozliczany. Oprócz obliczenia dziennego o godzinie 00:00 UTC każdego dnia rozliczenia są również wyzwalane natychmiast po usunięciu lub zawieszeniu punktu końcowego. Na przykład w przypadku punktu końcowego utworzonego o godzinie 08:00 UTC 1 grudnia godzina hostingu zostanie obliczona na 16 godzin o 00:00 UTC 2 grudnia i 24 godziny o 00:00 UTC 3 grudnia. Jeśli użytkownik zawiesi hostowanie punktu końcowego o godzinie 16:30 UTC 3 grudnia, czas trwania (16,5 godziny) od 00:00 do 16:30 UTC 3 grudnia zostanie obliczony na potrzeby rozliczeń.

Dokumenty referencyjne

Odpowiedzialne AI

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które go używają, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażane. Zapoznaj się z uwagami dotyczącymi przejrzystości, aby dowiedzieć się więcej na temat odpowiedzialnego używania sztucznej inteligencji i wdrażania w systemach.

Następne kroki