Dela via


Översikt över Speech Synthesis Markup Language (SSML)

Speech Synthesis Markup Language (SSML) är ett XML-baserat markeringsspråk som du kan använda för att finjustera text till talutdataattribut som tonhöjd, uttal, talfrekvens, volym med mera. Det ger dig mer kontroll och flexibilitet än oformaterad textinmatning.

Dricks

Du kan höra röster i olika format och tonhöjder som läser exempeltext med hjälp av röstgalleriet.

Användningsfall

SSML är utformat för att ge dig flexibilitet i hur du vill att talutdata ska låta, och det ger olika egenskaper för hur du kan anpassa utdata. Du kan använda SSML för att:

  • Definiera indatatextstrukturen som avgör strukturen, innehållet och andra egenskaper för text till talutdata. Du kan till exempel använda SSML för att definiera ett stycke, en mening, en paus eller en paus eller tystnad. Du kan radbryta text med händelsetaggar, till exempel ett bokmärke eller viseme, som programmet kan bearbeta senare. En viseme är den visuella beskrivningen av ett fonme, de enskilda talljuden, i talat språk.
  • Välj röst, språk, namn, stil och roll. Du kan använda flera röster i ett enda SSML-dokument. Du kan också justera betoning, talfrekvens, tonhöjd och volym. SSML kan också infoga förinspelat ljud, till exempel en ljudeffekt eller en musikalisk anteckning.
  • Kontrollera uttalet av utdataljudet. Du kan till exempel använda SSML med fonem och ett anpassat lexikon för att förbättra uttalet. Du kan också använda SSML för att definiera hur ett ord eller matematiskt uttryck uttalas.

Sätt att arbeta med SSML

SSML-funktioner finns i olika verktyg som kan passa ditt användningsfall.

Viktigt!

Du debiteras för varje tecken som konverteras till tal, inklusive skiljetecken. Även om själva SSML-dokumentet inte kan faktureras räknar tjänsten valfria element som du använder för att justera hur texten konverteras till tal, till exempel fonem och tonhöjd, som fakturerbara tecken. Mer information finns i prisanteckningen.

Du kan använda SSML på följande sätt:

  • Med verktyget för att skapa ljudinnehåll kan du skapa oformaterad text och SSML i Speech Studio. Du kan lyssna på utdataljudet och justera SSML för att förbättra talsyntesen. Mer information finns i Talsyntes med verktyget Skapa ljudinnehåll.
  • Batchsyntes-API :et accepterar SSML via egenskapen inputs .
  • Speech CLI accepterar SSML via kommandoradsargumentet spx synthesize --ssml SSML .
  • Speech SDK accepterar SSML via SSML-metoden "speak" på de olika språk som stöds.

Nästa steg