Spraakherkenning en transcriptie integreren en gebruiken

2 minuten

De Speech-service is de eenwording van spraak-naar-tekst, tekst-naar-spraak- en spraakomzetting in één Azure-abonnement. Met spraak kunt u eenvoudig uw toepassingen, hulpprogramma's en apparaten inschakelen met de Speech CLI, Speech SDK, Speech Devices SDK, Speech Studio of REST API's.

Spraakherkenning

De Speaker Recognition-service biedt algoritmen waarmee sprekers worden geverifieerd en geïdentificeerd door hun unieke spraakkenmerken met behulp van spraakbiometrie. Het wordt gebruikt om de vraag 'wie spreekt?' te beantwoorden. Eerst geeft u audiotrainingsgegevens voor één spreker op, waardoor een inschrijvingsprofiel wordt gemaakt op basis van de unieke kenmerken van de stem van de spreker. Vervolgens kunt u audiostemvoorbeelden kruislings controleren op dit profiel om te controleren of de spreker dezelfde persoon is (sprekercontrole), of u kunt audiostemvoorbeelden kruislings controleren op een groep geregistreerde sprekerprofielen om te zien of deze overeenkomt met een profiel in de groep (sprekeridentificatie). Speaker Diarization maakt daarentegen gebruik van een batchbewerking om audiostreams te groeperen op sprekeridentiteit, wat betekent dat verschillende sprekers elk hun eigen audiosegmenten zouden hebben.

Transcriptie

Transcriptie is een set REST API-bewerkingen waarmee u audio in de opslag kunt transcriberen. U kunt met een SAS-URI (Shared Access Signature) naar audiobestanden verwijzen en de transcriptieresultaten asynchroon ontvangen.

MRTK-spraakopdrachten

Net als Windows Speech Input maken spraakinvoerproviders geen controllers, maar kunt u in plaats daarvan trefwoorden definiëren die spraakinvoerevenementen genereren wanneer ze worden herkend. U configureert de trefwoorden voor herkenning in het spraakopdrachtenprofiel in het invoersysteemprofiel. Voor elke opdracht kunt u ook het volgende doen:

Selecteer een invoeractie om aan de opdracht toe te wijzen. Op deze manier kunt u bijvoorbeeld de trefwoordselectie hetzelfde effect geven als een linkermuisklik door beide aan dezelfde actie toe te passen.
Geef een sleutelcode op die dezelfde spraakgebeurtenis produceert wanneer deze wordt ingedrukt.
Voeg een lokalisatiesleutel toe die wordt gebruikt in UWP-apps om het gelokaliseerde trefwoord van de app-resources te verkrijgen.

Speech-SDK

De Speech Software Development Kit (SDK) biedt veel mogelijkheden voor spraakservices om u in staat te stellen toepassingen met spraak te ontwikkelen. De Speech SDK is beschikbaar in veel programmeertalen en op alle platforms. De Speech SDK bevat veel functies (hoewel niet alle) van de Speech-service. De mogelijkheden van de Speech SDK zijn vaak gekoppeld aan scenario's. De Speech SDK is ideaal voor realtime en niet-realtime scenario's, met behulp van lokale apparaten, bestanden, Azure Blob Storage en zelfs invoer- en uitvoerstromen. Wanneer een scenario niet haalbaar is met de Speech SDK, zoekt u naar een REST API-alternatief.

Ruimtelijke perceptie

Ruimtelijke perceptie biedt programmatische toegang tot ruimtelijke toewijzingsgegevens, waardoor mixed reality-apps informatie krijgen over oppervlakken in toepassingsspecifieke ruimtegebieden in de buurt van de gebruiker. Declareer de functionaliteit voor ruimtelijke perceptie alleen wanneer uw app deze oppervlaktegaas expliciet gebruikt. De mogelijkheid is niet vereist voor mixed reality-apps om holografische rendering uit te voeren op basis van de hoofdhouding van de gebruiker.

Internetclientserver

De internetclientserver maakt peer-to-peer-scenario's (P2P) mogelijk waarbij de app moet luisteren naar binnenkomende netwerkverbindingen.

Clientserver voor privénetwerk

De clientserver van het privénetwerk biedt binnenkomende en uitgaande toegang tot thuis- en werknetwerken via de firewall. Deze mogelijkheid wordt doorgaans gebruikt voor games die communiceren via het LAN (Local Area Network) en voor apps die gegevens delen op verschillende lokale apparaten.

Doorgaan