Sdílet prostřednictvím


Volba technologie rozpoznávání a generování řeči Azure AI

Služby Azure AI pomáhají návrhářům a vývojářům úloh vytvářet inteligentní, špičkové, připravené a zodpovědné aplikace pomocí předem připravených a předpřipravených a přizpůsobitelných rozhraní API a modelů.

Tento článek se zabývá službami AI, které poskytují funkce rozpoznávání a generování řeči, jako jsou převody řeči na text a text na řeč, překlad zvuku a rozpoznávání mluvčího. Zahrnuje také podporu čtení pro lidi s odlišnostmi v učení.

Poznámka:

Pokud chcete získat přehled o termínech nebo frázích nebo získat podrobnou kontextovou analýzu mluveného nebo psaného jazyka, přečtěte si téma Volba technologie zpracování jazyka cílená na Azure AI.

Služby

Následující služby AI mohou poskytovat možnosti rozpoznávání a generování řeči pro vaši úlohu.

  • Microsoft Azure AI Speech poskytuje zpracování přirozeného jazyka pro analýzu textu.

    • Používat Řeč, když potřebujete přepsat nebo přeložit mluvenou řeč a identifikovat mluvčí v konverzaci. Řeč můžete také použít jako levnější alternativu pro přirozeně znějící generování řeči ve srovnání s kvalitnějším systémem Whisper v modelech OpenAI.

    • Nepoužívejte Řeč pro chat, sumarizaci obsahu, moderování nebo navádění uživatelů pomocí skriptů. Namísto toho použijte jiné modely pro tyto věci.

  • Immersive Reader je nástroj, který implementuje osvědčené techniky pro zlepšení porozumění čtení pro začínající čtenáře, jazykové studenty a lidi s odlišnostmi v učení.

    • Využijte Nástroj Imersivní čtení k zajištění lepší čitelnosti, přizpůsobeného pro jazykové studenty nebo lidi s poruchami učení.

    • Nepoužívejte Asistivní čtečka pro tradiční případy použití převodu textu na řeč.

Projev

Služba Speech poskytuje funkce převodu řeči na text a převodu textu na řeč s prostředkem služby Speech. Můžete přepisovat převod řeči na text s vysokou přesností, vytvářet přirozeně znějící hlasy převodu textu na řeč, překládat mluvený zvuk a používat rozpoznávání mluvčího během konverzací. Můžete vytvořit vlastní hlasy, přidat konkrétní slova do základního slovníku nebo sestavit vlastní modely. Spouštějte službu Speech kdekoli, ať už v cloudu, nebo na okraji sítě v kontejnerech.

Řeč je k dispozici pro více jazyků a oblastí.

Možnosti

Následující tabulka obsahuje seznam funkcí dostupných ve službě Speech.

Schopnost Popis
Dávkový přepis Přepisuje velké množství zvukových dat v úložišti. Převod řeči na text REST API i rozhraní příkazového řádku služby Speech podporují dávkový přepis.
Rozpoznávání záměru Záměr je něco, co chce uživatel udělat, například rezervovat let, zkontrolovat počasí nebo zavolat. Rozpoznávání záměru umožňuje vašim aplikacím, nástrojům a zařízením určit, co chce uživatel iniciovat nebo dělat na základě možností. Záměr uživatele definujete v nástroji pro rozpoznávání záměrů nebo v modelu porozumění konverzačnímu jazyku.
Posouzení výslovnosti Vyhodnocuje výslovnost řeči a dává mluvčím zpětnou vazbu ohledně přesnosti a plynulosti mluveného zvuku.
Rozpoznávání mluvčího Rozpoznávání mluvčího může pomoct určit, kdo mluví ve zvukovém klipu. Služba ověřuje a identifikuje mluvčí prostřednictvím jejich jedinečných hlasových charakteristik pomocí hlasové biometrie.
Převod řeči na text Převádí zvukové streamy na text v reálném čase nebo v dávkovém zpracování.
Převod textu na řeč Umožňuje vašim aplikacím, nástrojům nebo zařízením převádět text na syntetizovanou řeč podobnou lidské.
Překlad řeči Poskytuje vícejazyčný převod řeči na řeč a převod řeči na text zvukových streamů.
Překlad videa Automaticky překládá a generuje videa ve více jazycích.

Případy použití

Následující tabulka popisuje některé způsoby použití funkce Řeč.

Případ použití Možnost použití Popis
Vytváření zvukového obsahu Převod řeči na text Zajistěte, aby interakce s chatovacími roboty a hlasovými asistenty byly přirozenější a poutavější pomocí neurálních hlasů. Převádějte digitální texty, jako jsou e-knihy, na audioknihy a vylepšete navigační systémy v automobilu.
Přepis call centra Převod řeči na text Přepisujte hovory v reálném čase nebo zpracovávejte dávku hovorů, redigujte osobní identifikační údaje a extrahujte poznatky, jako je mínění, které vám pomohou s případem použití vašeho call centra.
Titulkování Převod řeči na text Synchronizujte titulky se vstupním zvukem, použijte filtry vulgárních výrazů, získejte částečné výsledky, použijte vlastní nastavení a identifikujte mluvené jazyky pro vícejazyčné scénáře.
Jazykové učení Převod řeči na text Poskytovat zpětnou vazbu k hodnocení výslovnosti posluchačům jazyků, podporovat přepis v reálném čase pro konverzace na dálku a číst nahlas výukové materiály s neurálními hlasy.
Hlasoví asistenti Převod textu na řeč Vytvářejte přirozená, lidská konverzační rozhraní pro aplikace a zážitky. Funkce hlasového asistenta poskytuje rychlou a spolehlivou interakci mezi zařízením a implementací asistenta.

Asistivní čtečka

Immersive Reader, součást služeb umělé inteligence, je inkluzivně navržený nástroj, který implementuje osvědčené techniky pro zlepšení porozumění čtení pro nové čtenáře, studenty jazyků a lidi s odlišnostmi v učení, jako je dyslexie. S klientskou knihovnou Asistivní čtečka můžete použít stejnou technologii, která se používá v aplikacích Microsoft Word a Microsoft OneNote, a poskytnout tak uživatelům vaší úlohy vylepšené prostředí.

Možnosti

Pro vaši úlohu jsou k dispozici následující funkce, které uživatelům pomohou dosáhnout jejich cílů v oblasti čtení s porozuměním.

  • Izolujte obsah, abyste zlepšili čitelnost.

  • Zobrazit obrázky pro běžná slova a výrazy.

  • Pomozte porozumět slovním druhům a gramatice zvýrazněním sloves, podstatných jmen a zájmen.

  • Přečtěte si obsah nahlas, například text vybraný uživatelem v uživatelském rozhraní vaší úlohy.

  • Překládejte obsah do mnoha jazyků v reálném čase. Tato metoda pomáhá zlepšit porozumění pro čtenáře, kteří se učí nový jazyk.

  • Rozdělte slova na slabiky, abyste zlepšili čitelnost nebo vyluštili nová slova.

Další kroky