Integrace a používání rozpoznávání a přepisu řeči

2 min

Služba Speech je sjednocení převodu řeči na text, převod textu na řeč a řeč do jednoho předplatného Azure. Díky rozhraní Speech CLI, sadě Speech SDK, sadě Speech Devices SDK, sadě Speech Studio nebo rozhraním REST API můžete snadno povolit řeč.

Rozpoznávání řeči

Služba Rozpoznávání mluvčího poskytuje algoritmy, které ověřují a identifikují mluvčí podle jejich jedinečných charakteristik hlasu pomocí biologické metry hlasu. Slouží k zodpovězení otázky "kdo mluví?". Nejprve zadáte data o trénování zvuku pro jednoho mluvčího, která vytvoří profil registrace na základě jedinečných charakteristik hlasu mluvčího. Potom můžete křížově zkontrolovat zvukové ukázky v tomto profilu a ověřit, že mluvčí je stejná osoba (ověření mluvčího), nebo můžete křížově zkontrolovat zvukové ukázky u skupiny zaregistrovaných profilů mluvčího a zjistit, jestli odpovídá nějakému profilu ve skupině (identifikaci mluvčího). Naproti tomu diarizace mluvčího používá dávkovou operaci k seskupení zvukových streamů podle identity mluvčího, což znamená, že každý z nich má vlastní zvukové segmenty.

Přepis

Přepis je sada operací rozhraní REST API, které umožňují přepis zvuku v úložišti. Na zvukové soubory můžete odkazovat pomocí identifikátoru URI sdíleného přístupového podpisu (SAS) a asynchronně přijímat výsledky přepisu.

Příkazy řeči MRTK

Podobně jako Windows Speech Input nevytvoří zprostředkovatelé hlasových vstupů žádné kontrolery, ale umožňují definovat klíčová slova, která při rozpoznávání vyvolávají události vstupu řeči. V profilu vstupního systému nakonfigurujete klíčová slova pro rozpoznávání v profilu hlasových příkazů. Pro každý příkaz můžete také:

Vyberte vstupní akci, která se má namapovat na příkaz. Tímto způsobem můžete například nastavit, aby výběr klíčového slova měl stejný efekt jako levý kliknutí myší tak, že namapujete obě akce na stejnou akci.
Zadejte kód klíče, který při stisknutí vytvoří stejnou událost řeči.
Přidejte lokalizační klíč, který se používá v aplikacích pro UPW k získání lokalizovaného klíčového slova z prostředků aplikace.

Speech SDK

Sada Speech Software Development Kit (SDK) zveřejňuje mnoho funkcí služby Speech, které vám umožní vyvíjet aplikace s podporou řeči. Sada Speech SDK je dostupná v mnoha programovacích jazycích a na všech platformách. Sada Speech SDK zpřístupňuje mnoho funkcí (i když ne všech) ze služby Speech. Funkce sady Speech SDK jsou často spojené se scénáři. Sada Speech SDK je ideální pro scénáře v reálném čase a mimo reálném čase pomocí místních zařízení, souborů, úložiště objektů blob Azure a dokonce vstupních a výstupních datových proudů. Pokud scénář není dosažitelný pomocí sady Speech SDK, vyhledejte alternativu rozhraní REST API.

Prostorové vnímání

Prostorové vnímání poskytuje programový přístup k prostorovým mapovým datům a poskytuje aplikacím hybridní reality informace o plochách v oblastech určených aplikacím blízko uživatele. Deklarujte funkci prostorového vnímání pouze v případech, kdy vaše aplikace explicitně použije tyto povrchové sítě. Funkce není nutná pro aplikace hybridní reality k provádění holografického vykreslování na základě pozice uživatele.

Internetový klientský server

Internetový klientský server umožňuje scénáře typu peer-to-peer (P2P), ve kterých aplikace potřebuje naslouchat příchozím síťovým připojením.

Server klienta privátní sítě

Klientský server privátní sítě poskytuje příchozí a odchozí přístup k domácím a pracovním sítím přes bránu firewall. Tato funkce se obvykle používá pro hry, které komunikují přes místní síť (LAN) a pro aplikace, které sdílejí data napříč různými místními zařízeními.