Aan de slag met spraak in Azure

3 minuten

Microsoft Azure biedt mogelijkheden voor spraakherkenning en spraaksynthese via de Azure AI Speech-service , waaronder de volgende API's (Application Programming Interfaces):

De Spraak-naar-tekst-API
De tekst-naar-spraak-API

Azure-resources voor Azure AI Speech

Als u Azure AI Speech in een toepassing wilt gebruiken, moet u een geschikte resource maken in uw Azure-abonnement. U kunt ervoor kiezen om een van de volgende typen resources te maken:

Een spraakresource : kies dit resourcetype als u alleen Azure AI Speech wilt gebruiken of als u de toegang en facturering voor de resource afzonderlijk van andere services wilt beheren.
Een Azure AI-servicesresource : kies dit resourcetype als u Azure AI Speech wilt gebruiken in combinatie met andere Azure AI-services en u de toegang en facturering voor deze services samen wilt beheren.

De Spraak-naar-tekst-API

U kunt Azure AI Speech naar tekst-API gebruiken om realtime transcriptie van audio uit te voeren in een tekstindeling. De audiobron voor transcriptie kan een realtime audiostream van een microfoon of een audiobestand zijn.

Het model dat door de Spraak-naar-tekst-API wordt gebruikt, is gebaseerd op het Universal Language-model dat is getraind door Microsoft. De gegevens voor het model zijn eigendom van Microsoft en worden geïmplementeerd in Microsoft Azure. Het model is geoptimaliseerd voor twee scenario's, converseren en dicteren. U kunt ook uw eigen aangepaste modellen maken en trainen, met inbegrip van akoestiek, taal en uitspraak als de vooraf gemaakte modellen van Microsoft niet bieden wat u nodig hebt.

Realtime transcriptie

Met realtime spraak naar tekst kunt u tekst transcriberen in audiostreams. U kunt realtime transcriptie gebruiken voor presentaties, demonstraties of andere scenario's waarbij een persoon spreekt.

Om realtime transcriptie te laten werken, moet uw toepassing luisteren naar binnenkomende audio van een microfoon of een andere audio-invoerbron, zoals een audiobestand. De code van uw toepassing streamt de audio naar de service, die de getranscribeerde tekst retourneert.

Batchtranscriptie

Niet alle spraak-naar-tekstscenario's zijn realtime. Mogelijk hebt u audio-opnamen opgeslagen op een bestandsshare, een externe server of zelfs in Azure Storage. U kunt met een SAS-URI (Shared Access Signature) naar audiobestanden verwijzen en de transcriptieresultaten asynchroon ontvangen.

Batchtranscripties moeten op een asynchrone manier worden uitgevoerd omdat de batchtaken worden gepland op basis van 'best-effort'. Normaal gesproken wordt een taak binnen enkele minuten van de aanvraag uitgevoerd, maar er is geen schatting voor wanneer de uitvoeringsstatus van een taak wordt geactiveerd.

De tekst-naar-spraak-API

Met de tekst-naar-spraak-API kunt u tekstinvoer converteren naar hoorbare spraak, die rechtstreeks kan worden afgespeeld via een computerluidspreker of naar een audiobestand kan worden geschreven.

Stemmen voor spraaksynthese

Wanneer u de tekst naar spraak-API gebruikt, kunt u de stem opgeven die moet worden gebruikt om de tekst uit te zang. Deze mogelijkheid biedt u de flexibiliteit om uw oplossing voor spraaksynthese te personaliseren en een specifiek karakter te geven.

De service bevat meerdere vooraf gedefinieerde stemmen met ondersteuning voor meerdere talen en regionale uitspraak, waaronder neurale stemmen die gebruikmaken van neurale netwerken om algemene beperkingen in spraaksynthese te overwinnen met betrekking tot intonatie, wat resulteert in een natuurlijkere klinkende stem. U kunt ook aangepaste stemmen ontwikkelen en deze gebruiken met de tekst-naar-spraak-API

Ondersteunde talen

Zowel de spraak-naar-tekst- als tekst-naar-spraak-API's ondersteunen verschillende talen. Gebruik de koppelingen hieronder voor meer informatie over de ondersteunde talen:

Spraak-naar-teksttalen.
Talen voor tekst naar spraak.

Doorgaan