Co je převod řeči na text?

V tomto přehledu se dozvíte o výhodách a možnostech funkce převodu řeči na text služby Speech, která je součástí služeb Azure Cognitive Services.

Převod řeči na text, označovaný také jako rozpoznávání řeči, umožňuje přepis zvukových streamů do textu v reálném čase nebo offline. Úplný seznam dostupných jazyků pro převod řeči na text najdete v tématu Podpora jazyka a hlasu pro službu Speech.

Poznámka

Microsoft používá stejnou technologii rozpoznávání pro Cortanu a produkty Office.

Začínáme

Začněte tím, že si vyzkoušíte rychlý start převodu řeči na text. Převod řeči na text je k dispozici prostřednictvím sady Speech SDK, rozhraní REST API a rozhraní příkazového řádku služby Speech.

Podrobné ukázky jsou k dispozici v úložišti Azure-Samples/cognitive-services-speech-sdk na GitHubu. Existují ukázky pro C# (včetně UPW, Unity a Xamarinu), C++, Java, JavaScript (včetně prohlížečů a Node.js), Objective-C, Python a Swift. Ukázky kódu pro Go jsou k dispozici v úložišti Microsoft/cognitive-services-speech-sdk-go na GitHubu.

Dávkový přepis

Dávkový přepis je sada operací rozhraní REST API pro převod řeči na text , které umožňují přepisovat velké množství zvuku v úložišti. Na zvukové soubory můžete odkazovat pomocí identifikátoru URI sdíleného přístupového podpisu (SAS) a asynchronně přijímat výsledky přepisu. Další informace o tom, jak používat rozhraní API pro dávkový přepis, najdete v tématech Jak používat dávkový přepis a ukázky dávkového přepisu (REST).

Custom Speech

Služba Azure speech-to-text analyzuje zvuk v reálném čase nebo v dávkách a přepisuje mluvené slovo na text. Převod řeči na text využívá univerzální jazykový model jako základní model, který se trénuje s daty ve vlastnictví Microsoft a odráží běžně používaný mluvený jazyk. Tento základní model je předem vytrénovaný pomocí dialektů a fonetických dat představujících celou řadu běžných domén. Základní model funguje dobře ve většině scénářů.

Základní model nemusí být dostatečný, pokud zvuk obsahuje okolní šum nebo obsahuje velké množství žargonu specifického pro odvětví a doménu. V těchto případech má vytvoření vlastního modelu řeči smysl díky trénování s dalšími daty přidruženými k dané konkrétní doméně. Můžete vytvářet a trénovat vlastní akustické, jazykové a výslovné modely. Další informace najdete v tématech Vlastní řeč a Rozhraní REST API pro převod řeči na text.

Možnosti přizpůsobení se liší podle jazyka nebo národního prostředí. Pokud chcete ověřit podporu, přečtěte si téma Podpora jazyka a hlasu pro službu Speech.

Další kroky