De tekst naar spraak-API gebruiken

Voltooid

Net als bij de spraak-naar-tekst-API's biedt de Azure AI Speech-service andere REST API's voor spraaksynthese:

  • De Text to Speech-API , de primaire manier om spraaksynthese uit te voeren.
  • De Batch-synthese-API , die is ontworpen ter ondersteuning van batchbewerkingen die grote hoeveelheden tekst naar audio converteren, bijvoorbeeld om een audioboek te genereren op basis van de brontekst.

Meer informatie over de REST API's vindt u in de documentatie over rest API voor tekst naar spraak. In de praktijk gebruiken de meeste interactieve spraaktoepassingen de Azure AI Speech-service via een (programmeer)taalspecifieke SDK.

De Azure AI Speech SDK gebruiken

Net als bij spraakherkenning worden in de praktijk de meeste interactieve spraaktoepassingen gebouwd met behulp van de Azure AI Speech SDK.

Het patroon voor het implementeren van spraaksynthese is vergelijkbaar met die van spraakherkenning:

A diagram showing how a SpeechSynthesizer object is created from a SpeechConfig and AudioConfig, and its SpeakTextAsync method is used to call the Speech API.

  1. Gebruik een SpeechConfig-object om de informatie in te kapselen die nodig zijn om verbinding te maken met uw Azure AI Speech-resource. Met name de locatie en sleutel.
  2. U kunt eventueel een AudioConfig gebruiken om het uitvoerapparaat voor de spraak te definiƫren dat moet worden gesynthetiseerd. Dit is standaard de standaardsysteemluidspreker, maar u kunt ook een audiobestand opgeven of door deze waarde expliciet in te stellen op een null-waarde, kunt u het audiostreamobject verwerken dat rechtstreeks wordt geretourneerd.
  3. Gebruik SpeechConfig en AudioConfig om een SpeechSynthesizer-object te maken. Dit object is een proxyclient voor de Tekst-naar-spraak-API .
  4. Gebruik de methoden van het SpeechSynthesizer-object om de onderliggende API-functies aan te roepen. De methode SpeakTextAsync() gebruikt bijvoorbeeld de Azure AI Speech-service om tekst te converteren naar gesproken audio.
  5. Het antwoord van de Azure AI Speech-service verwerken. In het geval van de SpeakTextAsync-methode is het resultaat een SpeechSynthesisResult-object dat de volgende eigenschappen bevat:
    • AudioData
    • Eigenschappen
    • Reden
    • ResultId

Wanneer spraak is gesynthetiseerd, wordt de eigenschap Reason ingesteld op de opsomming SynthesizingAudioCompleted en bevat de eigenschap AudioData de audiostream (die, afhankelijk van de AudioConfig , mogelijk automatisch naar een luidspreker of bestand is verzonden).