Aan de slag met spraak in Azure
Microsoft Azure biedt spraakherkennings- en synthesemogelijkheden via de Azure AI Speech-service , die ondersteuning biedt voor veel mogelijkheden, waaronder:
- Spraak naar tekst
- Tekst naar spraak
Notitie
In deze module worden spraak-naar-tekst- en tekstfuncties voor spraak behandeld. Een afzonderlijke module behandelt spraakomzetting in Azure AI-services.
Spraak-naar-tekst
U kunt Azure AI Speech naar tekst-API gebruiken om realtime transcriptie van audio uit te voeren in een tekstindeling. De audiobron voor transcriptie kan een realtime audiostream van een microfoon of een audiobestand zijn.
Het model dat door de Spraak-naar-tekst-API wordt gebruikt, is gebaseerd op het Universal Language-model dat is getraind door Microsoft. De gegevens voor het model zijn eigendom van Microsoft en worden geïmplementeerd in Microsoft Azure. Het model is geoptimaliseerd voor twee scenario's, converseren en dicteren. U kunt ook uw eigen aangepaste modellen maken en trainen, waaronder akoestiek, taal en uitspraak als de vooraf gebouwde modellen van Microsoft niet bieden wat u nodig hebt.
Realtime transcriptie: met realtime spraak naar tekst kunt u tekst transcriberen in audiostreams. U kunt realtime transcriptie gebruiken voor presentaties, demonstraties of andere scenario's waarbij een persoon spreekt.
Om realtime transcriptie te laten werken, moet uw toepassing luisteren naar binnenkomende audio van een microfoon of een andere bron voor audio-invoer, zoals een audiobestand. De code van uw toepassing streamt de audio naar de service, die de getranscribeerde tekst retourneert.
Batchtranscriptie: niet alle spraak-naar-tekstscenario's zijn realtime. Mogelijk hebt u audio-opnamen opgeslagen op een bestandsshare, een externe server of zelfs in Azure Storage. U kunt met een SAS-URI (Shared Access Signature) naar audiobestanden verwijzen en de transcriptieresultaten asynchroon ontvangen.
Batchtranscripties moeten op een asynchrone manier worden uitgevoerd omdat de batchtaken worden gepland op basis van 'best-effort'. Normaal gesproken wordt een taak binnen enkele minuten van de aanvraag uitgevoerd, maar er is geen schatting voor wanneer een taak wordt gewijzigd in de uitvoeringsstatus.
Tekst naar spraak
Met de tekst-naar-spraak-API kunt u tekstinvoer converteren naar hoorbare spraak, die rechtstreeks kan worden afgespeeld via een computerluidspreker of naar een audiobestand kan worden geschreven.
Spraaksynthesestemmen: wanneer u de tekst naar spraak-API gebruikt, kunt u de stem opgeven die moet worden gebruikt om de tekst uit te zang. Deze mogelijkheid biedt u de flexibiliteit om uw oplossing voor spraaksynthese te personaliseren en een specifiek karakter te geven.
De service bevat meerdere vooraf gedefinieerde stemmen met ondersteuning voor meerdere talen en regionale uitspraak, waaronder neurale stemmen die gebruikmaken van neurale netwerken om algemene beperkingen in spraaksynthese te overwinnen met betrekking tot intonatie, wat resulteert in een natuurlijkere klinkende stem. U kunt ook aangepaste stemmen ontwikkelen en deze gebruiken met de tekst-naar-spraak-API
Ondersteunde talen
Zowel de spraak-naar-tekst- als tekst-naar-spraak-API's ondersteunen verschillende talen. Gebruik de koppelingen hieronder voor meer informatie over de ondersteunde talen:
- Spraak-naar-teksttalen.
- Talen voor tekst naar spraak.