Co je převod řeči na text?

V tomto přehledu se dozvíte o výhodách a možnostech funkce převodu řeči na text služby Speech, která je součástí služeb Azure Cognitive Services.

Převod řeči na text, označovaný také jako rozpoznávání řeči, umožňuje přepis zvukových proudů do textu v reálném čase nebo offline. Úplný seznam dostupných jazyků pro převod řeči na text najdete v tématu Podpora jazyka a hlasu pro službu Speech.

Poznámka

Microsoft používá stejnou technologii rozpoznávání pro produkty Cortany a Office.

Začínáme

Začněte tím, že si vyzkoušíte rychlý start pro převod řeči na text. Převod řeči na text je dostupný prostřednictvím sady Speech SDK, rozhraní REST API a rozhraní příkazového řádku služby Speech.

Podrobné ukázky jsou k dispozici v úložišti Azure-Samples/cognitive-services-speech-sdk na GitHubu. Existují ukázky pro C# (včetně UPW, Unity a Xamarinu), C++, Java, JavaScriptu (včetně prohlížeče a Node.js), Objective-C, Pythonu a Swiftu. Ukázky kódu pro Go jsou k dispozici v úložišti Microsoft/cognitive-services-speech-sdk-go na GitHubu.

Dávkový přepis

Dávkový přepis je sada operací rozhraní REST API pro převod řeči na text , které umožňují přepisovat velké množství zvuku v úložišti. Na zvukové soubory můžete odkazovat pomocí identifikátoru URI sdíleného přístupového podpisu (SAS) a asynchronně přijímat výsledky přepisu. Další informace o tom, jak používat rozhraní API pro dávkové přepisy, najdete v tématu Použití dávkového přepisu a ukázek přepisu dávky (REST).

Custom Speech

Služba Azure speech-to-text analyzuje zvuk v reálném čase nebo dávce, aby přepsala mluvené slovo do textu. Převod řeči na text využívá univerzální jazykový model jako základní model, který je trénován daty vlastněnými Microsoftem a odráží běžně používaný mluvený jazyk. Tento základní model je předem natrénován dialekty a fonetikami představujícími celou řadu běžných domén. Základní model funguje dobře ve většině scénářů.

Základní model nemusí být dostatečný, pokud zvuk obsahuje okolní šum nebo obsahuje hodně oborových a doménových žargonů. V těchto případech dává sestavení vlastního modelu řeči smysl trénováním s dalšími daty přidruženými k dané konkrétní doméně. Můžete vytvářet a trénovat vlastní akustické, jazykové a výslovné modely. Další informace najdete v tématu Vlastní řeč a rozhraní REST API pro převod řeči na text.

Možnosti přizpůsobení se liší podle jazyka nebo národního prostředí. Pokud chcete ověřit podporu, přečtěte si téma Jazyková a hlasová podpora služby Speech.

Další kroky