Integrera och använda taligenkänning och transkription

2 minuter

Speech-tjänsten är enandet av tal till text, text till tal och talöversättning till en enda Azure-prenumeration. Det är enkelt att talaktivera dina program, verktyg och enheter med Speech CLI, Speech SDK, Speech Devices SDK, Speech Studio eller REST API:er.

Taligenkänning

Tjänsten Talarigenkänning tillhandahåller algoritmer som verifierar och identifierar talare med hjälp av deras unika röstegenskaper med hjälp av röstbiometri. Den används för att svara på frågan "vem talar?" Först anger du ljudträningsdata för en enda talare, vilket skapar en registreringsprofil baserat på de unika egenskaperna hos talarens röst. Du kan sedan korskolla ljudröstexempel mot den här profilen för att kontrollera att talaren är samma person (talarverifiering), eller så kan du korskontrollera ljudröstexempel mot en grupp med registrerade talarprofiler för att se om den matchar någon profil i gruppen (talaridentifiering). Talardiarisering använder däremot en batchåtgärd för att gruppera ljudströmmar efter talaridentitet, vilket innebär att olika talare skulle ha sina egna ljudsegment.

Transkription

Transkription är en uppsättning REST API-åtgärder som gör att du kan transkribera ljud i lagringen. Du kan peka på ljudfiler med en SAS-URI (signatur för delad åtkomst) och asynkront ta emot transkriptionsresultat.

MRTK-talkommandon

Precis som Windows Speech Input skapar inte talindataprovidrar några kontrollanter, utan i stället kan du definiera nyckelord som genererar talindatahändelser när de identifieras. Du konfigurerar nyckelorden för igenkänning i talkommandoprofilen i indatasystemprofilen. För varje kommando kan du också:

Välj en indataåtgärd som ska mappas till kommandot. På så sätt kan du till exempel göra så att nyckelordsmarkeringen har samma effekt som ett vänsterklick genom att mappa båda till samma åtgärd.
Ange en nyckelkod som genererar samma talhändelse när du trycker på den.
Lägg till en lokaliseringsnyckel som används i UWP-appar för att hämta det lokaliserade nyckelordet från appresurserna.

Speech SDK

SDK (Speech Software Development Kit) innehåller många funktioner för taltjänster som hjälper dig att utveckla talaktiverade program. Speech SDK är tillgängligt på många programmeringsspråk och på alla plattformar. Speech SDK exponerar många funktioner (men inte alla) från Speech-tjänsten. Funktionerna i Speech SDK associeras ofta med scenarier. Speech SDK är perfekt för realtids- och icke-realtidsscenarier, med hjälp av lokala enheter, filer, Azure Blob Storage och till och med indata- och utdataströmmar. När ett scenario inte kan uppnås med Speech SDK letar du efter ett REST API-alternativ.

Rumslig uppfattning

Spatial perception ger programmatisk åtkomst till spatiala mappningsdata, vilket ger appar med mixad verklighet information om ytor i programspecifika områden i rymden nära användaren. Deklarera funktionen för rumslig uppfattning endast när appen uttryckligen använder dessa ytnät. Funktionen krävs inte för appar med mixad verklighet för att utföra holografisk rendering baserat på användarens huvudställning.

Internetklientserver

Internetklientservern aktiverar P2P-scenarier (peer-to-peer) där appen behöver lyssna efter inkommande nätverksanslutningar.

Klientserver för privat nätverk

Klientservern för privata nätverk ger inkommande och utgående åtkomst till hem- och arbetsnätverk via brandväggen. Den här funktionen används vanligtvis för spel som kommunicerar i det lokala nätverket (LAN) och för appar som delar data på olika lokala enheter.

Fortsätt