Co je služba Speech?

Služba Speech poskytuje funkce převodu řeči na text a text na řeč pomocí prostředku služby Speech. Přepis řeči na text s vysokou přesností, vytváření přirozeně znějících hlasů pro převod textu na řeč, překládání mluveného zvuku a živé konverzace pomocí hlasové AI.

Obrázek dlaždic, které zvýrazňují některé funkce služby Speech

Můžete vytvořit vlastní hlasy, přidat konkrétní slova do základního slovníku nebo sestavit vlastní modely. Službu Speech můžete provozovat kdekoli – v cloudu nebo v kontejnerech na hraničních zařízeních. Díky rozhraní Speech CLI, sadě Speech SDK a rozhraním REST API můžete snadno používat vaše aplikace, nástroje a zařízení.

Řeč je dostupná pro mnoho jazyků, oblastí a cenových bodů.

Scénáře pro službu Speech

Mezi běžné scénáře pro řeč patří:

Titulky: Zjistěte, jak synchronizovat titulky se vstupním zvukem, použít filtry vulgárních výrazů, získat částečné výsledky, použít vlastní nastavení a identifikovat mluvené jazyky pro vícejazyčné scénáře.
Vytváření zvukového obsahu: Pomocí neurálních hlasů můžete vytvářet interakce s chatovacími roboty a hlasovými agenty přirozeněji a poutavějšími, převádět digitální texty, jako jsou elektronické knihy, na audioknihy a vylepšit navigační systémy v autě.
Call Center: Přepis volání v reálném čase nebo zpracování dávky volání, redakce osobních identifikačních informací a extrakce přehledů, jako je mínění, které vám pomůžou s případem použití call centra.
Jazykové učení: Poskytovat zpětnou vazbu k hodnocení výslovnosti pro jazykové učení, podporovat přepis v reálném čase pro konverzace na dálku a číst nahlas výukové materiály s neurálními hlasy.
Hlas živě: Vytvářejte přirozená, lidská konverzační rozhraní pro aplikace a zážitky. Funkce hlasového živého přenosu poskytuje rychlou a spolehlivou interakci mezi člověkem a implementací agenta.

Microsoft používá službu Speech pro mnoho scénářů, jako jsou titulky v Teams, diktování v Office 365 a čtení nahlas v prohlížeči Microsoft Edge.

Obrázek s logy produktů Microsoftu, ve kterých se používá služba Speech

Funkce řeči

Tyto části shrnují funkce služby Speech s odkazy na další informace.

Převod řeči na text

Použijte rozpoznávání řeči na text k převodu zvuku na text – ať už pro přepis v reálném čase pro streamovaný zvuk, rychlý přepis pro předem nahrané zvukové soubory, nebo dávkový přepis pro zpracování velkých objemů zvuku asynchronně.

Základní model nemusí být dostatečný, pokud zvuk obsahuje okolní šum nebo zahrnuje mnoho oborových a doménových žargonů. V těchto případech můžete vytvářet a trénovat vlastní modely řeči pomocí akustických dat, jazyka a výslovnosti. Vlastní modely řeči jsou soukromé a můžou nabídnout konkurenční výhodu.

Text na řeč

Při převodu textu na řeč můžete vstupní text převést na člověka, jako je syntetizovaná řeč. Používejte neurální hlasy, které jsou lidské jako hlasy založené na hlubokých neurálních sítích. Pomocí jazyka SSML (Speech Synthesis Markup Language) můžete doladit tón, výslovnost, rychlost mluvení, hlasitost a další funkce.

Standardní hlas: Vysoce přirozené předpřirozené hlasy. Podívejte se na standardní hlasové vzorky v Galerii hlasů a určete správný hlas pro vaše obchodní potřeby.
Vlastní hlas: Kromě standardních hlasů, které přicházejí z krabice, můžete také vytvořit vlastní hlas , který je rozpoznatelný a jedinečný pro vaši značku nebo produkt. Vlastní hlasy jsou soukromé a mohou nabídnout konkurenční výhodu. Podívejte se na vlastní ukázky hlasových hovorů.

Překlad řeči

Překlad řeči umožňuje překlad řeči v reálném čase, vícejazyčný překlad řeči do vašich aplikací, nástrojů a zařízení. Tato funkce slouží k převodu řeči na řeč a převod řeči na text.

Řeč LLM (Preview)

LLM Speech v současné době podporuje následující úlohy řeči:

transcribe: Převeďte předem nahraný zvuk na text.
translate: Převeďte předem nahraný zvuk na text v zadaném cílovém jazyce.

Model řeči LLM využívá model řeči vylepšený modelem velkého jazyka, který zajišťuje lepší kvalitu, hluboké porozumění kontextu, podporu pro více jazyků a možnosti ladění promptů. Sdílí stejný ultra-rychlý výkon odvozování jako rychlý přepis, takže je ideální pro případy použití, jako je generování titulků ze zvukových souborů, shrnutí poznámek ze schůzek, pomoc agentům call centra, přepisování hlasových zpráv a další.

Identifikace jazyka

Identifikace jazyka se používá k identifikaci jazyků mluvených ve zvuku v porovnání se seznamem podporovaných jazyků. Používejte identifikaci jazyka samostatně, s rozpoznáváním textu nebo překladem řeči.

Posouzení výslovnosti

Hodnocení výslovnosti vyhodnocuje výslovnost řeči a dává mluvčím zpětnou vazbu o přesnosti a plynulosti mluveného zvuku. Posouzení výslovnosti můžou využít studenti jazyků k procvičování, přičemž budou dostávat okamžitou zpětnou vazbu, takže můžou zlepšovat svou výslovnost, aby dokázali hovořit a prezentovat s jistotou.

Doručení a přítomnost

Funkce Azure Speech in Foundry Tools můžete nasadit v cloudu nebo místně.

S kontejnery můžete službu přiblížit k datům z důvodu dodržování předpisů, zabezpečení nebo jiných provozních důvodů.

Nasazení služby Speech v suverénních cloudech je k dispozici pro některé entity státní správy a jejich partnery. Cloud Azure Government je například dostupný pro entity státní správy USA a jejich partnery. Microsoft Azure provozovaný cloudem 21Vianet je k dispozici organizacím, které mají obchodní přítomnost v Číně. Další informace najdete v tématu Suverénní cloudy.

Diagram znázorňující, kde je možné službu Speech nasadit a získat k němu přístup

Použití služby Speech ve vaší aplikaci

Speech Studio je sada nástrojů založených na uživatelském rozhraní pro vytváření a integraci funkcí ze služby Azure Speech ve vašich aplikacích. Projekty v sadě Speech Studio vytvoříte pomocí přístupu bez kódu a pak na tyto prostředky ve svých aplikacích odkazujete pomocí sady Speech SDK, rozhraní příkazového řádku služby Speech nebo rozhraní REST API.

Speech CLI je nástroj příkazového řádku pro použití služby Speech, aniž byste museli psát kód. Ve Speech CLI je dostupná většina funkcí sady Speech SDK a některé pokročilé funkce a možnosti přizpůsobení jsou ve Speech CLI zjednodušené.

Sada Speech SDK zveřejňuje řadu funkcí služby Speech, které můžete použít k vývoji aplikací s podporou řeči. Sada Speech SDK je dostupná v mnoha programovacích jazycích a na všech platformách.

V některých případech nemůžete nebo neměli používat sadu Speech SDK. V takových případech můžete pro přístup ke službě Speech použít rozhraní REST API. Například k dávkovému přepisu použijte rozhraní REST API.

Začínáme

Nabízíme rychlé starty v mnoha oblíbených programovacích jazycích. Každý rychlý start je navržený tak, aby vás naučil základní vzory návrhu a spouštět kód za méně než 10 minut. V následujícím seznamu najdete rychlý start pro každou funkci:

Ukázky kódu

Ukázkový kód pro službu Speech je k dispozici na GitHubu. Tyto ukázky pokrývají běžné scénáře, jako je čtení zvuku ze souboru nebo datového proudu, nepřetržité a jednostřelové rozpoznávání a práce s vlastními modely. Pomocí těchto odkazů můžete zobrazit ukázky sady SDK a REST:

Zodpovědná AI

Systém AI zahrnuje nejen technologii, ale také uživatele, kteří ho používají, osoby, kterých se to týká, a prostředí, ve kterém je nasazené. Přečtěte si poznámky k transparentnosti a seznamte se s zodpovědným používáním a nasazením umělé inteligence ve vašich systémech.

Sdílet prostřednictvím

Co je služba Speech?

Scénáře pro službu Speech

Funkce řeči

Převod řeči na text

Text na řeč

Překlad řeči

Řeč LLM (Preview)

Identifikace jazyka

Posouzení výslovnosti

Doručení a přítomnost

Použití služby Speech ve vaší aplikaci

Začínáme

Ukázky kódu

Zodpovědná AI

Převod řeči na text

Posouzení výslovnosti

Vlastní hlas

Další kroky

Váš názor

Další materiály