Wat is de Speech-service?
De Speech-service biedt spraak-naar-tekst- en tekstfuncties voor spraak met een Spraak-resource. U kunt spraak naar tekst transcriberen met hoge nauwkeurigheid, natuurlijke klinkende tekst naar spraakstemmen produceren, gesproken audio vertalen en sprekerherkenning gebruiken tijdens gesprekken.
Maak aangepaste stemmen, voeg specifieke woorden toe aan uw basiswoordenlijst of ontwikkel uw eigen modellen. Voer Spraak uit, waar u maar wilt: in de cloud of aan de rand in containers. Spraak is eenvoudig in te schakelen voor uw toepassingen, hulpprogramma's en apparaten met de Speech CLI, Speech SDK en REST API's.
Spraak is beschikbaar voor veel talen, regio's en prijspunten.
Spraakscenario's
Veelvoorkomende scenario's voor spraak zijn:
- Bijschriften: Leer hoe u bijschriften synchroniseert met uw invoeraudio, grof taalfilters toepast, gedeeltelijke resultaten krijgt, aanpassingen toepast en gesproken talen identificeert voor meertalige scenario's.
- Audio-inhoud maken: U kunt neurale stemmen gebruiken om interacties met chatbots en spraakassistenten natuurlijker en aantrekkelijker te maken, digitale teksten zoals e-books te converteren naar audioboeken en navigatiesystemen in de auto te verbeteren.
- Call Center: Transcribeer gesprekken in realtime of verwerkt een batch aan oproepen, redact persoonlijk identificeerbare informatie en extraheer inzichten zoals sentiment om u te helpen met de use-case van uw callcenter.
- Taal leren: Geef feedback over de uitspraakbeoordeling voor taalleerders, ondersteuning voor realtime transcriptie voor gesprekken op afstand en lees lesmateriaal hardop voor met neurale stemmen.
- Spraakassistenten: Maak natuurlijke, menselijke, gespreksinterfaces voor hun toepassingen en ervaringen. De functie spraakassistent biedt snelle, betrouwbare interactie tussen een apparaat en een assistent-implementatie.
Microsoft gebruikt Speech voor veel scenario's, zoals bijschriften in Teams, dicteren in Office 365 en Hardop voorlezen in de Microsoft Edge-browser.
Spraakmogelijkheden
In deze secties vindt u een overzicht van spraakfuncties met koppelingen voor meer informatie.
Spraak-naar-tekst
Gebruik spraak-naar-tekst om audio in tekst te transcriberen, in realtime of asynchroon met batchtranscriptie.
Tip
U kunt realtime spraak naar tekst proberen in Speech Studio zonder code te registreren of te schrijven.
Zet audio om naar tekst vanuit diverse soorten bronnen, waaronder microfoons, audiobestanden en blobopslag. Gebruik spreker diarisatie om te bepalen wie wat en wanneer heeft gezegd. Krijg leesbare transcripten met automatische opmaak en interpunctie.
Het basismodel is mogelijk niet voldoende als de audio omgevingsruis bevat of talloze branche- en domeinspecifieke jargon bevat. In deze gevallen kunt u aangepaste spraakmodellen maken en trainen met akoestische, taal- en uitspraakgegevens. Aangepaste spraakmodellen zijn privé en kunnen een concurrentievoordeel bieden.
Realtime spraak naar tekst
Met realtime spraak naar tekst wordt de audio getranscribeerd als spraak wordt herkend vanuit een microfoon of bestand. Gebruik realtime spraak naar tekst voor toepassingen die audio in realtime moeten transcriberen, zoals:
- Transcripties, bijschriften of ondertitels voor livevergaderingen
- Diarisatie
- Uitspraakbeoordeling
- Contactcentermedewerkers helpen
- Dicteren
- Spraakagenten
Snelle transcriptie-API (preview)
Snelle transcriptie-API wordt gebruikt om audiobestanden te transcriberen met synchrone en veel snellere resultaten dan realtime audio. Gebruik snelle transcriptie in de scenario's waarin u het transcript van een audio-opname zo snel mogelijk nodig hebt met voorspelbare latentie, zoals:
- Snelle audio- of videotranscriptie, ondertitels en bewerken.
- Videovertaling
Notitie
Snelle transcriptie-API is alleen beschikbaar via de spraak-naar-tekst-REST API-versie 2024-05-15-preview.
Zie de snelle transcriptie-API (preview) gebruiken om aan de slag te gaan met snelle transcriptie.
Batchtranscriptie
Batchtranscriptie wordt gebruikt om een grote hoeveelheid audio in opslag te transcriberen. U kunt met een SAS-URI (Shared Access Signature) naar audiobestanden verwijzen en de transcriptieresultaten asynchroon ontvangen. Batchtranscriptie gebruiken voor toepassingen die audio bulksgewijs moeten transcriberen, zoals:
- Transcripties, bijschriften of ondertitels voor vooraf opgenomen audio
- Analyse na gesprek van het contactcentrum
- Diarisatie
Tekst naar spraak
Met tekst naar spraak kunt u invoertekst omzetten in menselijke, zoals gesynthetiseerde spraak. Gebruik neurale stemmen, die menselijk zijn als stemmen die worden aangedreven door diepe neurale netwerken. Gebruik de Speech Synthesis Markup Language (SSML) om de toonhoogte, uitspraak, spreeksnelheid, volume en meer af te stemmen.
- Vooraf samengestelde neurale stem: Zeer natuurlijke out-of-the-box stemmen. Controleer de vooraf gemaakte neurale spraakvoorbeelden in de Spraakgalerie en bepaal de juiste stem voor uw zakelijke behoeften.
- Aangepaste neurale stem: Naast de vooraf gebouwde neurale stemmen die uit de doos komen, kunt u ook een aangepaste neurale stem maken die herkenbaar en uniek is voor uw merk of product. Aangepaste neurale stemmen zijn privé en kunnen een concurrentievoordeel bieden. Bekijk hier de aangepaste neurale spraakvoorbeelden.
Spraakomzetting
Spraakomzetting maakt realtime, meertalige spraakomzetting mogelijk voor uw toepassingen, hulpprogramma's en apparaten. Gebruik deze functie voor spraak-naar-spraak- en spraak-naar-tekstomzetting.
Taalidentificatie
Taalidentificatie wordt gebruikt om talen te identificeren die in audio worden gesproken in vergelijking met een lijst met ondersteunde talen. Gebruik taalidentificatie op zichzelf, met spraak-naar-tekstherkenning of met spraakomzetting.
Sprekerherkenning
Sprekerherkenning biedt algoritmen waarmee sprekers worden geverifieerd en geïdentificeerd op basis van hun unieke stemkenmerken. Sprekerherkenning wordt gebruikt om de vraag 'Wie spreekt?' te beantwoorden.
Uitspraakbeoordeling
Uitspraakbeoordeling evalueert de uitspraak van spraak en geeft sprekers feedback over de nauwkeurigheid en de vloeiendheid van gesproken audio. Met Uitspraakevaluatie kunnen personen die een taal leren oefenen, direct feedback krijgen en hun uitspraak verbeteren, zodat ze met vertrouwen kunnen spreken en presenteren.
Intentieherkenning
Intentieherkenning: Gebruik spraak-naar-tekst met het begrip gesprekstaal om gebruikersintenties af te leiden van getranscribeerde spraak en om te reageren op spraakopdrachten.
Levering en aanwezigheid
U kunt Azure AI Speech-functies implementeren in de cloud of on-premises.
Met containers kunt u de service dichter bij uw gegevens brengen om naleving, beveiliging of andere operationele redenen.
Implementatie van spraakservices in onafhankelijke clouds is beschikbaar voor sommige overheidsentiteiten en hun partners. De Azure Government-cloud is bijvoorbeeld beschikbaar voor amerikaanse overheidsentiteiten en hun partners. Microsoft Azure beheerd door de 21Vianet-cloud is beschikbaar voor organisaties met een zakelijke aanwezigheid in China. Zie soevereine clouds voor meer informatie.
Spraak gebruiken in uw toepassing
Speech Studio is een set hulpprogramma's op basis van de gebruikersinterface voor het bouwen en integreren van functies van de Azure AI Speech-service in uw toepassingen. U maakt projecten in Speech Studio met behulp van een no-code-benadering en verwijst vervolgens naar deze assets in uw toepassingen met behulp van de Speech SDK, de Speech CLI of de REST API's.
De Speech CLI is een opdrachtregelprogramma voor het gebruik van de Speech-service zonder dat u code hoeft te schrijven. De meeste functies van de Speech SDK zijn beschikbaar in de Speech CLI. Sommige geavanceerde functies en aanpassingen zijn in de Speech CLI vereenvoudigd.
De Speech SDK biedt veel van de mogelijkheden van de Speech-service die u kunt gebruiken om toepassingen met spraak te ontwikkelen. De Speech SDK is beschikbaar in veel programmeertalen en op alle platforms.
In sommige gevallen kunt u de Speech SDK niet of niet gebruiken. In dergelijke gevallen kunt u REST API's gebruiken om toegang te krijgen tot de Speech-service. Gebruik bijvoorbeeld REST API's voor batchtranscriptie en REST API's voor sprekerherkenning .
Aan de slag
We bieden quickstarts in veel populaire programmeertalen. Elke quickstart is ontworpen om u basisontwerppatronen te leren en code in minder dan 10 minuten uit te voeren. Zie de volgende lijst voor de quickstart voor elke functie:
Codevoorbeelden
Voorbeeldcode voor de Speech-service is beschikbaar op GitHub. Deze voorbeelden hebben betrekking op veelvoorkomende scenario's, zoals het lezen van audio van een bestand of stream, continue en eenmalige herkenning en het werken met aangepaste modellen. Gebruik de volgende koppelingen om SDK- en REST-voorbeelden te bekijken:
- Voorbeelden voor spraak-naar-tekst, tekst-naar-spraak en spraakomzetting (SDK)
- Voorbeelden van batchtranscriptie (REST)
- Tekst-naar-spraakvoorbeelden (REST)
- Voorbeelden van spraakassistenten (SDK)
Verantwoorde AI
Een AI-systeem omvat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die worden beïnvloed door het systeem en de omgeving waarin het wordt geïmplementeerd. Lees de transparantienotities voor meer informatie over verantwoord AI-gebruik en -implementatie in uw systemen.
Spraak-naar-tekst
- Transparantienotitie en gebruiksvoorbeelden
- Kenmerken en beperkingen
- Integratie en verantwoordelijk gebruik
- Gegevens, privacy en beveiliging
Uitspraakbeoordeling
Aangepaste neurale spraak
- Transparantienotitie en gebruiksvoorbeelden
- Kenmerken en beperkingen
- Beperkte toegang
- Verantwoordelijke implementatie van synthetische spraak
- Openbaarmaking van spraaktalent
- Openbaarmaking van ontwerprichtlijnen
- Openbaarmaking van ontwerppatronen
- Gedragscode
- Gegevens, privacy en beveiliging
Speaker Recognition
- Transparantienotitie en gebruiksvoorbeelden
- Kenmerken en beperkingen
- Beperkte toegang
- Algemene richtlijnen
- Gegevens, privacy en beveiliging