Co to jest zamiana tekstu na mowę?

W tym omówieniu poznasz korzyści i możliwości funkcji zamiany tekstu na mowę w usłudze Mowa, która jest częścią usług Azure Cognitive Services.

Zamiana tekstu na mowę umożliwia aplikacjom, narzędziom lub urządzeniom konwertowanie tekstu na syntetyzowany mowę przez człowieka. Funkcja zamiany tekstu na mowę jest również znana jako synteza mowy. Użyj wstępnie utworzonych neuronowych głosów człowieka lub utwórz niestandardowy neuronowy głos, który jest unikatowy dla twojego produktu lub marki. Aby uzyskać pełną listę obsługiwanych głosów, języków i ustawień regionalnych, zobacz Obsługa języka i głosu dla usługi Mowa.

Podstawowe funkcje

Zamiana tekstu na mowę obejmuje następujące funkcje:

Cecha Podsumowanie Demonstracja
Wstępnie utworzony neuronowy głos (nazywany neuronowym na stronie cen) Bardzo naturalne out-of-the-box głosy. Utwórz konto platformy Azure i subskrypcję usługi Mowa, a następnie użyj zestawu SDK usługi Mowa lub odwiedź portal usługi Speech Studio i wybierz wstępnie utworzone neuronowe głosy, aby rozpocząć pracę. Sprawdź szczegóły cennika. Sprawdź przykłady głosu i określ właściwy głos dla potrzeb biznesowych.
Niestandardowy neuronowy głos (nazywany niestandardowym neuronem na stronie cen) Łatwe w użyciu samoobsługa do tworzenia naturalnego głosu marki, z ograniczonym dostępem do odpowiedzialnego użycia. Utwórz konto platformy Azure i subskrypcję usługi Mowa (z warstwą S0) i zastosuj do korzystania z niestandardowej funkcji neuronowej. Po udzieleniu dostępu odwiedź portal usługi Speech Studio i wybierz pozycję Custom Voice , aby rozpocząć pracę. Sprawdź szczegóły cennika. Sprawdź przykłady głosu.

Więcej informacji o funkcjach neuronowych zamian tekstu na mowę

Funkcja zamiany tekstu na mowę usługi mowa na platformie Azure została w pełni uaktualniona do aparatu neuronowego zamiany tekstu na mowę. Ten aparat używa głębokich sieci neuronowych, aby głosy komputerów prawie nie do odróżnienia od nagrań ludzi. Dzięki wyraźnemu artykulacji słów neuronowe zamiany tekstu na mowę znacznie zmniejszają zmęczenie nasłuchiwania, gdy użytkownicy wchodzą w interakcje z systemami sztucznej inteligencji.

Wzorce stresu i intonacji w języku mówionym są nazywane prosody. Tradycyjne systemy zamiany tekstu na mowę dzielą prosody na oddzielne kroki analizy językowej i przewidywania akustycznego, które podlegają niezależnym modelom. Może to spowodować muffled, szumną syntezę głosu.

Oto więcej informacji o funkcjach neuronowych zamian tekstu na mowę w usłudze Mowa oraz o tym, jak przezwyciężyć limity tradycyjnych systemów zamiany tekstu na mowę:

 • Synteza mowy w czasie rzeczywistym: użyj zestawu SPEECH SDK lub interfejsu API REST , aby przekonwertować tekst na mowę przy użyciu wstępnie utworzonych głosów neuronowych lub niestandardowych głosów neuronowych.

 • Asynchroniczna synteza długiego dźwięku: użyj interfejsu API syntezy wsadowej (wersja zapoznawcza), aby asynchronicznie syntetyzować pliki tekstowe na mowę dłużej niż 10 minut (na przykład książki audio lub wykłady). W przeciwieństwie do syntezy wykonywanej za pośrednictwem zestawu SPEECH SDK lub interfejsu API REST zamiany mowy na tekst, odpowiedzi nie są zwracane w czasie rzeczywistym. Oczekuje się, że żądania są wysyłane asynchronicznie, odpowiedzi są sondowane, a syntetyzowany dźwięk jest pobierany, gdy usługa udostępnia je.

 • Wstępnie utworzone neuronowe głosy: funkcja neuronowego zamiany tekstu na mowę firmy Microsoft wykorzystuje głębokie sieci neuronowe do pokonania ograniczeń tradycyjnej syntezy mowy w odniesieniu do stresu i intonacji w języku mówionym. Przewidywanie prosody i synteza głosu odbywają się jednocześnie, co skutkuje większą ilością płynu i naturalnego dźwięku wyjściowego. Każdy wstępnie utworzony model neuronowego głosu jest dostępny na poziomie 24kHz i wysokiej wierności 48kHz. Możesz użyć neuronowych głosów do:

  • Interakcje z czatbotami i asystentami głosowymi są bardziej naturalne i angażujące.
  • Przekonwertuj teksty cyfrowe, takie jak książki elektroniczne na audiobooki.
  • Ulepszanie systemów nawigacji w samochodzie.

  Aby uzyskać pełną listę neuronowych głosów platformy, zobacz Obsługa języka i głosu dla usługi Mowa.

 • Dostrajanie danych wyjściowych zamiany tekstu na mowę za pomocą języka SSML: Język znaczników syntezy mowy (SSML) to język znaczników oparty na formacie XML używany do dostosowywania danych wyjściowych zamiany tekstu na mowę. Za pomocą języka SSML można dostosować ton, dodać przerwy, poprawić wymowę, zmienić częstotliwość mówienia, dostosować głośność i przypisywać wiele głosów do pojedynczego dokumentu.

  Możesz użyć języka SSML, aby zdefiniować własne leksykony lub przełączyć się na różne style mówienia. Dzięki wielojęzycznym głosom można również dostosować języki mówiące za pomocą języka SSML. Aby dostosować dane wyjściowe głosu dla danego scenariusza, zobacz Ulepszanie syntezy za pomocą języka znaczników syntezy mowy i syntezy mowy za pomocą narzędzia do tworzenia zawartości audio.

 • Visemes: Visemes są kluczowymi pozy w obserwowanej mowie, w tym położenie ust, szczęki i języka w produkcji określonej fonemy. Visemes mają silną korelację z głosami i fonezami.

  Za pomocą zdarzeń viseme w zestawie SPEECH SDK można wygenerować dane animacji twarzy. Te dane mogą służyć do animowania twarzy w komunikacji z ustami, edukacji, rozrywki i obsługi klienta. Viseme jest obecnie obsługiwana tylko w en-USprzypadku neuronowych głosów (angielski usa).

Uwaga

Planujemy wycofanie tradycyjnych/standardowych głosów i nienadobowego niestandardowego głosu w 2024 roku. Po tym nie będziemy już ich obsługiwać.

Jeśli aplikacje, narzędzia lub produkty korzystają z dowolnego ze standardowych głosów i niestandardowych głosów, musisz przeprowadzić migrację do wersji neuronowej. Aby uzyskać więcej informacji, zobacz Migrowanie do głosów neuronowych.

Rozpoczęcie pracy

Aby rozpocząć pracę z zamianą tekstu na mowę, zobacz przewodnik Szybki start. Zamiana tekstu na mowę jest dostępna za pośrednictwem zestawu SPEECH SDK, interfejsu API REST i interfejsu wiersza polecenia usługi Mowa.

Porada

Aby przekonwertować zamianę tekstu na mowę przy użyciu podejścia bez kodu, wypróbuj narzędzie do tworzenia zawartości audio w usłudze Speech Studio.

Przykładowy kod

Przykładowy kod zamiany tekstu na mowę jest dostępny w usłudze GitHub. Te przykłady obejmują konwersję tekstu na mowę w najpopularniejszych językach programowania:

Niestandardowy neuronowy głos

Oprócz wstępnie utworzonych neuronowych głosów można tworzyć i dostosowywać niestandardowe neuronowe głosy, które są unikatowe dla produktu lub marki. Wszystko, co trzeba rozpocząć, to kilka plików audio i skojarzonych transkrypcji. Aby uzyskać więcej informacji, zobacz Wprowadzenie do niestandardowego neuronowego głosu.

Nota cenowa

W przypadku korzystania z funkcji zamiany tekstu na mowę opłaty są naliczane za każdy znak przekonwertowany na mowę, w tym interpunkcję. Chociaż sam dokument SSML nie jest rozliczany, opcjonalne elementy, które służą do dostosowywania sposobu konwertowania tekstu na mowę, na przykład phonemes i pitch, są liczone jako rozliczane znaki. Oto lista rozliczanych elementów:

 • Tekst przekazany do funkcji zamiany tekstu na mowę w treści żądania SSML
 • Wszystkie znaczniki w polu tekstowym treści żądania w formacie SSML, z wyjątkiem <speak> tagów i <voice>
 • Litery, znaki interpunkcyjne, spacje, karty, znaczniki i wszystkie znaki odstępu
 • Każdy punkt kodu zdefiniowany w formacie Unicode

Aby uzyskać szczegółowe informacje, zobacz Cennik usługi Mowa.

Ważne

Każdy chiński znak jest liczone jako dwa znaki do rozliczeń, w tym kanji używany w języku japońskim, hanja używany w języku koreańskim lub hanzi używany w innych językach.

Dokumenty referencyjne

Następne kroki