Co je služba Speech?
Služba Speech poskytuje funkce převodu řeči na text a text na řeč pomocí prostředku služby Speech. Převod řeči na text s vysokou přesností, vytváření přirozeného zvuku na hlasy řeči, překlad mluveného zvuku a rozpoznávání mluvčího během konverzací.
Můžete vytvořit vlastní hlasy, přidat konkrétní slova do základního slovníku nebo sestavit vlastní modely. Službu Speech můžete provozovat kdekoli – v cloudu nebo v kontejnerech na hraničních zařízeních. Díky rozhraní Speech CLI, sadě Speech SDK a rozhraním REST API můžete snadno používat vaše aplikace, nástroje a zařízení.
Řeč je dostupná pro mnoho jazyků, oblastí a cenových bodů.
Scénáře pro službu Speech
Mezi běžné scénáře pro řeč patří:
- Titulky: Zjistěte, jak synchronizovat titulky se vstupním zvukem, použít filtry vulgárních výrazů, získat částečné výsledky, použít vlastní nastavení a identifikovat mluvené jazyky pro vícejazyčné scénáře.
- Vytváření zvukového obsahu: Pomocí neurálních hlasů můžete vytvářet interakce s chatovacími roboty a hlasovými asistenty přirozeněji a poutavějšími, převádět digitální texty, jako jsou elektronické knihy, na audioknihy a vylepšit navigační systémy v autě.
- Call Center: Přepis volání v reálném čase nebo zpracování dávky volání, redakce osobních identifikačních informací a extrakce přehledů, jako je mínění, které vám pomůžou s případem použití call centra.
- Jazykové učení: Poskytovat zpětnou vazbu k hodnocení výslovnosti pro jazykové učení, podporovat přepis v reálném čase pro konverzace na dálku a číst nahlas výukové materiály s neurálními hlasy.
- Hlasoví asistenti: Vytvářejte přirozené, lidské, jako jsou konverzační rozhraní pro své aplikace a prostředí. Funkce hlasového asistenta poskytuje rychlou a spolehlivou interakci mezi zařízením a implementací asistenta.
Microsoft používá službu Speech pro mnoho scénářů, jako jsou titulky v Teams, diktování v Office 365 a čtení nahlas v prohlížeči Microsoft Edge.
Funkce řeči
Tyto části shrnují funkce služby Speech s odkazy na další informace.
Převod řeči na text
Pomocí řeči můžete přepsat zvuk na text, a to buď v reálném čase , nebo asynchronně pomocí dávkového přepisu.
Tip
Převod řeči v reálném čase na text v sadě Speech Studio můžete vyzkoušet bez registrace nebo psaní jakéhokoli kódu.
Na text můžete převádět zvuk z nejrůznějších zdrojů, včetně mikrofonů, zvukových souborů a úložiště objektů blob. Pomocí diarizace mluvčího určete, kdo co a kdy řekl. Automatické formátování a interpunkce umožňuje získat čitelné přepisy.
Základní model nemusí být dostatečný, pokud zvuk obsahuje okolní šum nebo zahrnuje mnoho oborových a doménových žargonů. V těchto případech můžete vytvářet a trénovat vlastní modely řeči pomocí akustických dat, jazyka a výslovnosti. Vlastní modely řeči jsou soukromé a můžou nabídnout konkurenční výhodu.
Převod řeči na text v reálném čase
Při převodu řeči na text v reálném čase se zvuk přepíše, protože řeč se rozpozná z mikrofonu nebo souboru. Použití řeči v reálném čase k textu pro aplikace, které potřebují přepis zvuku v reálném čase, například:
- Přepisy, titulky nebo titulky pro živé schůzky
- Diarizace
- Posouzení výslovnosti
- Pomoc agentům kontaktního centra
- Diktování
- Hlasová agenti
Rozhraní API pro rychlý přepis (Preview)
Rozhraní API pro rychlý přepis se používá k přepisu zvukových souborů s synchronními a mnohem rychlejšími výsledky než zvuk v reálném čase. Používejte rychlý přepis ve scénářích, kdy potřebujete co nejrychleji přepis zvukového záznamu s předvídatelnou latencí, například:
- Rychlý přepis zvuku nebo videa, titulky a úpravy
- Překlad videa
Poznámka:
Rozhraní API pro rychlý přepis je dostupné jenom prostřednictvím rozhraní REST API pro převod řeči na text verze 2024-05-15-preview.
Pokud chcete začít s rychlým přepisem, podívejte se na rychlé rozhraní API pro přepis (Preview).
Dávkový přepis
Dávkový přepis se používá k přepisu velkého množství zvuku v úložišti. Na zvukové soubory můžete odkazovat pomocí identifikátoru URI sdíleného přístupového podpisu (SAS) a asynchronně přijímat výsledky přepisu. Dávkový přepis použijte pro aplikace, které potřebují hromadně přepisovat zvuk, například:
- Přepisy, titulky nebo titulky pro předem zaznamenaný zvuk
- Analýza po volání v kontaktním centru
- Diarizace
Text na řeč
Při převodu textu na řeč můžete vstupní text převést na člověka, jako je syntetizovaná řeč. Používejte neurální hlasy, které jsou lidské jako hlasy založené na hlubokých neurálních sítích. Pomocí jazyka SSML (Speech Synthesis Markup Language) můžete doladit tón, výslovnost, rychlost mluvení, hlasitost a další funkce.
- Předem sestavený neurální hlas: Vysoce přirozené předem připravené hlasy. Projděte si předem připravené ukázky neurálních hlasů v Galerii hlasových hovorů a určete správný hlas pro vaše obchodní potřeby.
- Vlastní neurální hlas: Kromě předem připravených neurálních hlasů, které přicházejí z krabice, můžete také vytvořit vlastní neurální hlas , který je rozpoznatelný a jedinečný pro vaši značku nebo produkt. Vlastní neurální hlasy jsou soukromé a můžou nabídnout konkurenční výhodu. Podívejte se na vlastní ukázky neurálních hlasových hovorů.
Překlad řeči
Překlad řeči umožňuje překlad řeči v reálném čase, vícejazyčný překlad řeči do vašich aplikací, nástrojů a zařízení. Tato funkce slouží k převodu řeči na řeč a převod řeči na text.
Identifikace jazyka
Identifikace jazyka se používá k identifikaci jazyků mluvených ve zvuku v porovnání se seznamem podporovaných jazyků. Používejte identifikaci jazyka samostatně, s rozpoznáváním textu nebo překladem řeči.
Rozpoznávání mluvčího
Rozpoznávání mluvčího poskytuje algoritmy, které ověřují a identifikují mluvčí podle jejich jedinečných charakteristik hlasu. Rozpoznávání mluvčího se používá k zodpovězení otázky "Kdo mluví?".
Posouzení výslovnosti
Hodnocení výslovnosti vyhodnocuje výslovnost řeči a dává mluvčím zpětnou vazbu o přesnosti a plynulosti mluveného zvuku. Posouzení výslovnosti můžou využít studenti jazyků k procvičování, přičemž budou dostávat okamžitou zpětnou vazbu, takže můžou zlepšovat svou výslovnost, aby dokázali hovořit a prezentovat s jistotou.
Rozpoznávání záměru
Rozpoznávání záměru: Použití řeči k textu s porozuměním konverzačnímu jazyku k odvození záměrů uživatele z přepisované řeči a zpracování hlasových příkazů.
Doručení a přítomnost
Funkce Azure AI Speech můžete nasadit v cloudu nebo místně.
S kontejnery můžete službu přiblížit k datům z důvodu dodržování předpisů, zabezpečení nebo jiných provozních důvodů.
Nasazení služby Speech v suverénních cloudech je k dispozici pro některé entity státní správy a jejich partnery. Cloud Azure Government je například dostupný pro entity státní správy USA a jejich partnery. Microsoft Azure provozovaný cloudem 21Vianet je k dispozici organizacím, které mají obchodní přítomnost v Číně. Další informace najdete v tématu Suverénní cloudy.
Použití služby Speech ve vaší aplikaci
Speech Studio je sada nástrojů založených na uživatelském rozhraní pro vytváření a integraci funkcí ze služby Azure AI Speech ve vašich aplikacích. Projekty v sadě Speech Studio vytvoříte pomocí přístupu bez kódu a pak na tyto prostředky ve svých aplikacích odkazujete pomocí sady Speech SDK, rozhraní příkazového řádku služby Speech nebo rozhraní REST API.
Speech CLI je nástroj příkazového řádku pro použití služby Speech, aniž byste museli psát kód. Ve Speech CLI je dostupná většina funkcí sady Speech SDK a některé pokročilé funkce a možnosti přizpůsobení jsou ve Speech CLI zjednodušené.
Sada Speech SDK zveřejňuje řadu funkcí služby Speech, které můžete použít k vývoji aplikací s podporou řeči. Sada Speech SDK je dostupná v mnoha programovacích jazycích a na všech platformách.
V některých případech nemůžete nebo neměli používat sadu Speech SDK. V takových případech můžete pro přístup ke službě Speech použít rozhraní REST API. K dávkovému přepisu a rozhraní REST API pro rozpoznávání mluvčího použijte například rozhraní REST API rest.
Začínáme
Nabízíme rychlé starty v mnoha oblíbených programovacích jazycích. Každý rychlý start je navržený tak, aby vás naučil základní vzory návrhu a spouštět kód za méně než 10 minut. V následujícím seznamu najdete rychlý start pro každou funkci:
- Rychlý start pro převod řeči na text
- Rychlý start pro převod textu na řeč
- Rychlý start k překladu řeči
Ukázky kódu
Ukázkový kód pro službu Speech je k dispozici na GitHubu. Tyto ukázky pokrývají běžné scénáře, jako je čtení zvuku ze souboru nebo datového proudu, nepřetržité a jednostřelové rozpoznávání a práce s vlastními modely. Pomocí těchto odkazů můžete zobrazit ukázky sady SDK a REST:
- Ukázky převodu řeči na text, převod textu na řeč a překlad řeči (SDK)
- Ukázky dávkového přepisu (REST)
- Ukázky převodu textu na řeč (REST)
- Ukázky hlasového asistenta (SDK)
Zodpovědná AI
Systém AI zahrnuje nejen technologii, ale také uživatele, kteří ho používají, osoby, kterých se to týká, a prostředí, ve kterém je nasazené. Přečtěte si poznámky k transparentnosti a seznamte se s zodpovědným používáním a nasazením umělé inteligence ve vašich systémech.
Převod řeči na text
- Poznámka transparentnosti a případy použití
- Charakteristiky a omezení
- Integrace a zodpovědné použití
- Data, ochrana osobních údajů a zabezpečení
Posouzení výslovnosti
Vlastní neurální hlas
- Poznámka transparentnosti a případy použití
- Charakteristiky a omezení
- Omezený přístup
- Zodpovědné nasazení syntetické řeči
- Zveřejnění talentu hlasu
- Zveřejnění pokynů pro návrh
- Zpřístupnění vzorů návrhu
- Pravidla chování
- Data, ochrana osobních údajů a zabezpečení
Rozpoznávání mluvčího
- Poznámka transparentnosti a případy použití
- Charakteristiky a omezení
- Omezený přístup
- Obecné pokyny
- Data, ochrana osobních údajů a zabezpečení