Condividi tramite


Usare la voce neurale personalizzata nell'applicazione

È possibile usare l'ID profilo parlante per la voce personale per sintetizzare la voce in una delle 91 lingue supportate in più di 100 impostazioni locali. Non è necessario un tag delle impostazioni locali. La voce personale usa il rilevamento automatico della lingua a livello di frase.

Integrare la voce personale nell'applicazione

È necessario usare il linguaggio SSML (Speech Synthesis Markup Language) per usare la voce personale nell'applicazione. SSML è un linguaggio di markup basato su XML che fornisce un modo standard per contrassegnare il testo per la generazione di riconoscimento vocale sintetico. I tag SSML vengono usati per controllare la pronuncia, il volume, l'inclinazione, la frequenza e altri attributi dell'output di sintesi vocale.

  • La proprietà speakerProfileId in SSML viene usata per specificare l'ID del profilo voce per la voce personale.

  • Il nome della voce viene specificato nella proprietà name in SSML. Per la voce personale, il nome della voce deve essere uno dei nomi di voce del modello di base supportati. Per ottenere un elenco dei nomi di voce del modello di base supportati, usare l'operazione di BaseModels_List dell'API vocale personalizzata.

    Nota

    I nomi delle voci etichettati con il Latest, ad esempio DragonLatestNeural o PhoenixLatestNeural, verranno aggiornati di tanto in tanto; le prestazioni possono variare con gli aggiornamenti per i miglioramenti continui. Se si vuole usare una versione fissa, selezionare un'etichetta con un numero di versione, ad esempio PhoenixV2Neural.

  • DragonLatestNeural è un modello di base con somiglianza di clonazione vocale superiore rispetto a PhoenixLatestNeural. PhoenixLatestNeural è un modello di base con una pronuncia più accurata e una latenza inferiore rispetto a DragonLatestNeural.

  • Per la voce personale, è possibile usare l'elemento <lang xml:lang> per regolare la lingua parlante. È uguale a quello delle voci multilingue. Vedere come usare l'elemento lang per parlare lingue diverse.

Ecco un esempio di SSML in una richiesta di sintesi vocale con il nome della voce e l'ID del profilo del parlante. L'esempio illustra anche come passare dalle lingue en-US all'uso zh-HK dell'elemento <lang xml:lang> .

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

È possibile usare SSML tramite SDK Voce o API REST.

  • Sintesi vocale in tempo reale: usare Speech SDK o l'API REST per convertire il testo in voce.
    • Quando si usa Speech SDK, non impostare l'ID endpoint, proprio come la voce di precompilazione.
    • Quando si usa l'API REST, usare l'endpoint delle voci neurali predefinite.

Documentazione di riferimento

Passaggi successivi

  • Altre informazioni sulla voce neurale personalizzata sono disponibili nella panoramica.
  • Altre informazioni su Speech Studio sono disponibili nella panoramica.