Delen via


Wat is spraak-naar-tekst?

De Azure AI Speech-service biedt geavanceerde spraak-naar-tekstmogelijkheden. Deze functie ondersteunt zowel realtime als batchtranscriptie, waardoor veelzijdige oplossingen worden geboden voor het converteren van audiostreams naar tekst.

Kernfuncties

De spraak-naar-tekstservice biedt de volgende kernfuncties:

  • Realtime transcriptie : directe transcriptie met tussenliggende resultaten voor live audio-invoer.
  • Snelle transcriptie: snelste synchrone uitvoer voor situaties met voorspelbare latentie.
  • Batchtranscriptie: Efficiënte verwerking voor grote volumes vooraf opgenomen audio.
  • Aangepaste spraak: modellen met verbeterde nauwkeurigheid voor specifieke domeinen en voorwaarden.

Realtime spraak naar tekst

Realtime spraak naar tekst transcribeert audio omdat deze wordt herkend vanuit een microfoon of bestand. Het is ideaal voor toepassingen die onmiddellijke transcriptie vereisen, zoals:

  • Transcripties, bijschriften of ondertitels voor livevergaderingen: realtime audiotranscriptie voor toegankelijkheid en recordbehouden.
  • Diarisatie: identificeren en onderscheid maken tussen verschillende luidsprekers in de audio.
  • Uitspraakbeoordeling: evalueren en feedback geven over nauwkeurigheid van uitspraak.
  • Callcentermedewerkers helpen: realtime transcriptie bieden om vertegenwoordigers van de klantenservice te helpen.
  • Dicteren: gesproken woorden in geschreven tekst transscriberen voor documentatiedoeleinden.
  • Spraakagents: interactieve spraakresponssystemen inschakelen voor het transcriberen van gebruikersquery's en opdrachten.

Realtime spraak-naar-tekst kan worden geopend via de Speech SDK, Speech CLI en REST API, waardoor integratie in verschillende toepassingen en werkstromen mogelijk is. Realtime spraak-naar-tekst is beschikbaar via de Speech SDK, de Speech CLI en REST API's, zoals de Snelle transcriptie-API.

Snelle transcriptie (preview)

Snelle transcriptie-API wordt gebruikt om audiobestanden te transcriberen met synchrone en snellere resultaten dan realtime audio. Gebruik snelle transcriptie in de scenario's waarin u het transcript van een audio-opname zo snel mogelijk nodig hebt met voorspelbare latentie, zoals:

  • Snelle audio- of videotranscriptie en ondertitels: krijg snel een transcriptie van een volledig video- of audiobestand in één stap.
  • Videovertaling: ontvang onmiddellijk nieuwe ondertitels voor een video als u audio in verschillende talen hebt.

Notitie

Snelle transcriptie-API is alleen beschikbaar via de spraak-naar-tekst-REST API-versie 2024-05-15-preview en hoger.

Zie de snelle transcriptie-API (preview) gebruiken om aan de slag te gaan met snelle transcriptie.

Batchtranscriptie-API

Batchtranscriptie is ontworpen voor het transcriberen van grote hoeveelheden audio die zijn opgeslagen in bestanden. Deze methode verwerkt audio asynchroon en is geschikt voor:

  • Transcripties, bijschriften of ondertitels voor vooraf opgenomen audio: het converteren van opgeslagen audio-inhoud naar tekst.
  • Analyse na gesprek van het contactcentrum: Opgenomen oproepen analyseren om waardevolle inzichten te extraheren.
  • Diarisatie: Differentiëren tussen luidsprekers in opgenomen audio.

Batchtranscriptie is beschikbaar via:

  • REST API voor spraak-naar-tekst: vereenvoudigt batchverwerking met de flexibiliteit van RESTful-aanroepen. Zie Voorbeelden van batchtranscriptie en Batchtranscriptie gebruiken om aan de slag te gaan.

  • Speech CLI: ondersteunt zowel realtime- als batchtranscriptie, waardoor transcriptietaken eenvoudig kunnen worden beheerd. Voer de volgende opdracht uit voor Speech CLI-hulp bij batchtranscripties:

    spx help batch transcription
    

Aangepaste spraak

Met aangepaste spraak kunt u de nauwkeurigheid van spraakherkenning voor uw toepassingen en producten evalueren en verbeteren. Een aangepast spraakmodel kan worden gebruikt voor realtime spraak naar tekst, spraakomzetting en batchtranscriptie.

Tip

Een gehost implementatie-eindpunt is niet vereist voor het gebruik van aangepaste spraak met de Batch-transcriptie-API. U kunt resources besparen als het aangepaste spraakmodel alleen wordt gebruikt voor batchtranscriptie. Zie prijzen voor de Speech-service voor meer informatie.

Spraakherkenning maakt gebruik van een Universal Language Model als basismodel dat is getraind met gegevens in eigendom van Microsoft en weerspiegelt veelgebruikte gesproken taal. Het basismodel is vooraf getraind met dialecten en fonetiek die verschillende gemeenschappelijke domeinen vertegenwoordigen. Wanneer u een aanvraag voor spraakherkenning maakt, wordt het meest recente basismodel voor elke ondersteunde taal standaard gebruikt. Het basismodel werkt goed in de meeste scenario's voor spraakherkenning.

Met aangepaste spraak kunt u het spraakherkenningsmodel aanpassen aan de specifieke behoeften van uw toepassing. Dit kan met name handig zijn voor:

  • Verbetering van de herkenning van domeinspecifieke vocabulaire: Train het model met tekstgegevens die relevant zijn voor uw veld.
  • Nauwkeurigheid verbeteren voor specifieke audiovoorwaarden: gebruik audiogegevens met verwijzingtranscripties om het model te verfijnen.

Zie het overzicht van aangepaste spraak en de documentatie over de REST API voor spraak naar tekst voor meer informatie over aangepaste spraak.

Zie de taal- en spraakondersteuning voor de documentatie van de Speech-service voor meer informatie over aanpassingsopties per taal en landinstelling.

Gebruiksvoorbeelden

Hier volgen enkele praktische voorbeelden van hoe u Azure AI-spraak naar tekst kunt gebruiken:

Gebruiksscenario Scenario Oplossing
Transcripties en bijschriften van livevergaderingen Een virtueel gebeurtenisplatform moet realtime bijschriften bieden voor webinars. Integreer realtime spraak naar tekst met behulp van de Speech SDK om gesproken inhoud te transcriberen in bijschriften die live worden weergegeven tijdens de gebeurtenis.
Verbetering van de klantenservice Een callcenter wil agenten helpen door realtime transcripties van klantgesprekken te bieden. Gebruik realtime spraak naar tekst via de Speech CLI om aanroepen te transcriberen, zodat agents beter inzicht kunnen krijgen in en reageren op klantquery's.
Videoondertiteling Een platform voor videohosting wil snel een set ondertitels voor een video genereren. Gebruik snelle transcriptie om snel een set ondertitels voor de hele video op te halen.
Educatieve hulpmiddelen Een e-learning platform is erop gericht transcripties te bieden voor videolezingen. Batchtranscriptie toepassen via de spraak op tekst REST API om vooraf opgenomen lesvideo's te verwerken, waardoor teksttranscripties voor leerlingen/studenten worden gegenereerd.
Documentatie voor gezondheidszorg Een zorgverlener moet patiëntenconsultaties documenteren. Gebruik realtime spraak naar tekst voor dicteren, zodat professionals in de gezondheidszorg hun notities kunnen uitspreken en ze direct laten transcriberen. Gebruik een aangepast model om de herkenning van specifieke medische termen te verbeteren.
Media en entertainment Een mediabedrijf wil ondertitels maken voor een groot archief met video's. Gebruik batchtranscriptie om de videobestanden bulksgewijs te verwerken en nauwkeurige ondertitels te genereren voor elke video.
Marktonderzoek Een marktonderzoeksbureau moet feedback van klanten van audio-opnamen analyseren. Batchtranscriptie gebruiken om audiofeedback om te zetten in tekst, waardoor eenvoudigere analyse en inzichtenextractie mogelijk zijn.

Verantwoorde AI

Een AI-systeem omvat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die worden beïnvloed door het systeem en de omgeving waarin het wordt geïmplementeerd. Lees de transparantienotities voor meer informatie over verantwoord AI-gebruik en -implementatie in uw systemen.