Audio-indeling en stemmen configureren

Voltooid

Wanneer u spraaksynthetiseert, kunt u een SpeechConfig-object gebruiken om de audio aan te passen die wordt geretourneerd door de Azure AI Speech-service.

Audio-indeling

De Azure AI Speech-service ondersteunt meerdere uitvoerindelingen voor de audiostream die wordt gegenereerd door spraaksynthese. Afhankelijk van uw specifieke behoeften kunt u een indeling kiezen op basis van de vereiste:

  • Audiobestandstype
  • Samplefrequentie
  • Bitdiepte

De ondersteunde indelingen worden aangegeven in de SDK met behulp van de opsomming SpeechSynthesisOutputFormat . Bijvoorbeeld SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm.

Als u de vereiste uitvoerindeling wilt opgeven, gebruikt u de methode SetSpeechSynthesisOutputFormat van het SpeechConfig-object :

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Zie de documentatie van de Azure AI Speech SDK voor een volledige lijst met ondersteunde indelingen en de bijbehorende opsommingswaarden.

Stemmen

De Azure AI Speech-service biedt meerdere stemmen die u kunt gebruiken om uw toepassingen met spraak te personaliseren. Er zijn twee soorten stem die u kunt gebruiken:

  • Standaardstemmen: synthetische stemmen die zijn gemaakt op basis van audiovoorbeelden.
  • Neurale stemmen : natuurlijkere klinkende stemmen die zijn gemaakt met behulp van diepe neurale netwerken.

Stemmen worden geïdentificeerd door namen die een landinstelling en de naam van een persoon aangeven, bijvoorbeeld en-GB-George.

Als u een spraak wilt opgeven voor spraaksynthese in SpeechConfig, stelt u de eigenschap SpeechSynthesisVoiceName in op de stem die u wilt gebruiken:

speechConfig.SpeechSynthesisVoiceName = "en-GB-George";

Zie de documentatie van de Azure AI Speech SDK voor meer informatie over stemmen.