SSML ile sesi ve ses tonunu özelleştirme

2025-07-09

Konuşma çıkışınız için konuşma sesi, dil, ad, stil ve rolü belirtmek için Konuşma Sentezi Biçimlendirme Dili'ni (SSML) kullanabilirsiniz. Ayrıca tek bir SSML belgesinde birden çok ses kullanabilir ve vurgu, konuşma hızı, perde ve ses düzeyini ayarlayabilirsiniz. Buna ek olarak, SSML ses efekti veya müzik notu gibi önceden kaydedilmiş ses ekleme özelliğine sahiptir.

Makalede, sesi ve ses efektlerini belirtmek için SSML öğelerinin nasıl kullanılacağı gösterilmektedir. SSML söz dizimi hakkında daha fazla bilgi için bkz . SSML belge yapısı ve olayları.

Ses öğelerini kullanma

Her SSML voice öğesi içinde en az bir öğe belirtilmelidir. Bu öğe, metin okuma için kullanılan sesi belirler.

Tek bir SSML belgesine birden çok voice öğe ekleyebilirsiniz. Her voice öğe farklı bir ses belirtebilir. Aynı sesi, cümleler arasındaki sessizlik süresini değiştirdiğiniz durumlar gibi farklı ayarlarla birden çok kez de kullanabilirsiniz.

Aşağıdaki tabloda voice öğesinin özniteliklerinin kullanımı açıklanmaktadır.

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`name`	Metin-konuşma çıkışı için kullanılan ses. Desteklenen standart seslerin tam listesi için bkz. Dil desteği.	Zorunlu
`effect`	Cihazlarda belirli senaryolar için sentezlenmiş konuşma çıkışının kalitesini iyileştirmek için kullanılan ses efekti işlemcisi. Üretim ortamlarındaki bazı senaryolarda, bazı cihazlardaki çalma bozulması nedeniyle işitsel deneyim olumsuz etkilenebilir. Örneğin, bir araba hoparlöründen sentezlenen konuşma, konuşmacı yanıtı, oda yankısı ve arka plan gürültüsü gibi çevresel faktörlerden dolayı donuk ve boğuk gelebilir. Yolcunun daha net bir şekilde duymak için sesi açması gerekebilir. Böyle bir senaryoda elle yapılan işlemleri önlemek için ses efekti işlemcisi, çalma sırasında oluşan bozulmayı telafi ederek sesin daha net olmasını sağlayabilir. Aşağıdaki değerler desteklenir: `eq_car` – Arabalarda, otobüslerde ve diğer kapalı otomobillerde yüksek kaliteli konuşma sağlarken işitsel deneyimi iyileştirin. `eq_telecomhp8k` – Telekom veya telefon senaryolarında dar bant konuşma için işitsel deneyimi iyileştirin. 8 kHz örnekleme hızı kullanmanız gerekir. Örnek hızı 8 kHz değilse, çıkış konuşmasının işitsel kalitesi iyileştirilmemiştir. Değer eksik veya geçersizse, bu öznitelik yoksayılır ve hiçbir etki uygulanmaz.	İsteğe bağlı

Sesli örnekler

Özniteliklerinin voice için desteklenen değerler hakkında bilgi almak için Ses öğelerini kullanma bölümüne bakın.

Tek sesli örnek

Bu örnek en-US-AvaMultilingualNeural sesli komutu kullanır.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        This is the text that is spoken.
    </voice>
</speak>

Birden çok ses örneği

Öğesinde speak yazıdan sese dönüştürme için birden çok ses belirtebilirsiniz. Bu sesler farklı dillerde olabilir. Her ses için metnin bir voice öğeye sarmalanması gerekir.

Bu örnek, en-US-AvaMultilingualNeural ve en-US-AndrewMultilingualNeural sesleri arasında dönüşümlü olarak geçiş yapar. Nöral çok dilli sesler, giriş metnine göre farklı diller konuşabilir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Good morning!
    </voice>
    <voice name="en-US-AndrewMultilingualNeural">
        Good morning to you too Ava!
    </voice>
</speak>

Özel ses örneği

Özel sesinizi kullanmak için SSML'de ses adı olarak model adını belirtin.

Bu örnekte my-custom-voice adlı özel bir ses kullanılır.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="my-custom-voice">
        This is the text that is spoken.
    </voice>
</speak>

Ses efekti örneği

özniteliğini effect , otomobil ve telekomünikasyon gibi senaryolar için işitsel deneyimi iyileştirmek için kullanırsınız. Aşağıdaki SSML örneği, araç senaryolarındaki yapılandırma özniteliği olan effect'yi kullanır.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural" effect="eq_car">
        This is the text that is spoken.
    </voice>
</speak>

Çok konuşucu ses örneği

Çok konuşucu sesler, birden çok farklı hoparlörle doğal ve dinamik konuşmalar sağlar. Bu yenilik bağlamsal akışı, duygusal tutarlılığı ve doğal konuşma desenlerini koruyarak sentezlenmiş diyalogların gerçekçiliğini geliştirir.

Konuşmacılar arasında sorunsuz geçişlerle ilgi çekici, pod yayını stilinde konuşma veya konuşma alışverişi oluşturmak için bu özelliği kullanın. Farklı konuşmacı modelleri her konuşmayı izole olarak sentezlerken, çok konuşmacılı sesler diyaloglar arasında tutarlılığı koruyarak daha otantik ve sürükleyici bir dinleme deneyimi sağlar.

en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural içinde <mstts:dialog> öğesi için metin okuma çıkışında her bir dönüşü belirleyebilirsiniz; her dönüşte, konuşmacı rolü ava ile andrew arasında dönüşümlü olacaktır, aşağıdaki biçime göre.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural'>
        <mstts:dialog>
            <mstts:turn speaker="ava">Hello, Andrew! How's your day going?</mstts:turn>
            <mstts:turn speaker="andrew">Hey Ava! It's been great, just exploring some AI advancements in communication.</mstts:turn>
            <mstts:turn speaker="ava">That sounds interesting! What kind of projects are you working on?</mstts:turn>
            <mstts:turn speaker="andrew">Well, we've been experimenting with text-to-speech applications, including turning emails into podcasts.</mstts:turn>
            <mstts:turn speaker="ava">Wow, that could really improve content accessibility! Are you looking for collaborators?</mstts:turn>
            <mstts:turn speaker="andrew">Absolutely! We're open to testing new ideas and seeing how AI can enhance communication.</mstts:turn>
        </mstts:dialog>
    </voice>
</speak>

Desteklenen sesler için Dil desteği belgelerine bakın.

Konuşma stillerini ve rollerini kullanma

Sinir sesleri varsayılan olarak nötr konuşma tarzına sahiptir. Konuşma stilini, stil derecesini ve rolü cümle düzeyinde ayarlayabilirsiniz.

Not

Konuşma hizmeti, ses stilleri ve roller belgelerinde açıklandığı gibi nöral seslerin bir alt kümesi için stilleri, stil derecesini ve rolleri destekler. Her ses için desteklenen stilleri ve rolleri belirlemek için liste sesleri API'sini ve ses içeriği oluşturma web uygulamasını da kullanabilirsiniz.

Aşağıdaki tabloda mstts:express-as öğesinin özniteliklerinin kullanımı açıklanmaktadır.

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`style`	Sese özgü konuşma stili. Neşelilik, empati ve sakinlik gibi duyguları ifade edebilirsiniz. Sesi müşteri hizmetleri, haber yayını ve sesli yardımcı gibi farklı senaryolar için de iyileştirebilirsiniz. Stil değeri eksik veya geçersizse, `mstts:express-as` öğesinin tamamı yoksayılır ve hizmet varsayılan nötr sesli konuşmayı kullanır. Özel ses stilleri için özel ses stili örneğine bakın.	Zorunlu
`styledegree`	Konuşma stilinin yoğunluğu. Konuşmayı daha etkileyici veya daha sakin yapmak için daha güçlü veya daha yumuşak bir stil belirtebilirsiniz. Kabul edilen değerler aralığı, `0.01`'dan `2` dahil olmak üzere genişler. Varsayılan değer olan `1`, önceden tanımlanmış stil yoğunluğu anlamına gelir. En düşük birim olan `0.01`, hedef stil için hafif bir eğilime neden olur. değeri `2` , varsayılan stil yoğunluğunun iki katına çıkar. Stil derecesi eksikse veya kullandığınız ses için desteklenmiyorsa, bu öznitelik göz ardı edilir.	İsteğe bağlı
`role`	Konuşma rol oyunu. Ses farklı bir yaşı ve cinsiyeti taklit edebilir, ancak ses adı değiştirilmez. Örneğin, bir erkek sesi sesi yükseltebilir ve tonlamayı kadın sesini taklit etmek için değiştirebilir, ancak ses adı değiştirilmez. Rol eksikse veya kullandığınız ses için desteklenmiyorsa, bu öznitelik yoksayılır.	İsteğe bağlı

Aşağıdaki tabloda desteklenen style her öznitelik açıklanmaktadır:

Stil	Açıklama
`style="advertisement_upbeat"`	Bir ürünü veya hizmeti tanıtmak için heyecan verici ve yüksek enerji tonunu ifade eder.
`style="affectionate"`	Daha yüksek ses ve ses enerjisi ile sıcak ve sevgi dolu bir tonu ifade eder. Konuşmacı, dinleyicinin dikkatini çekme durumunda. Konuşmacının kişiliği genellikle sevecendir.
`style="angry"`	Kızgın ve sinir bozucu bir tonu ifade eder.
`style="assistant"`	Dijital yardımcılar için sıcak ve rahat bir ton ifade eder.
`style="calm"`	Konuşurken havalı, sakin ve dengeli bir tutum ifade eder. Ton, ses perdesi ve sesin ritmi ve vurgusu, diğer konuşma türlerine kıyasla daha monotondur.
`style="chat"`	Rahat ve doğal bir ton ifade eder.
`style="cheerful"`	Olumlu ve mutlu bir tonu ifade eder.
`style="customerservice"`	Müşteri desteği için samimi ve yardımcı bir ton ifade eder.
`style="depressed"`	Daha düşük perde ve enerji ile melankolik ve bezgin bir ton ifade eder.
`style="disgruntled"`	Küçümseyici ve şikayetkar bir tonu ifade eder. Bu duygunun konuşması memnuniyetsizlik ve küçümseme gösterir.
`style="documentary-narration"`	Belgeseller, uzman yorumları ve benzer içerikler için uygun olan, rahat, ilgi çekici ve bilgilendirici bir anlatım tarzında belgeler anlatılır.
`style="embarrassed"`	Konuşmacı rahatsız hissettiğinde belirsiz ve tereddütlü bir tonu ifade eder.
`style="empathetic"`	Önem ve anlayış duygusunu ifade eder.
`style="envious"`	Başka birinin sahip olduğu bir şeyi arzu ettiğinizde hayranlık tonlarını ifade eder.
`style="excited"`	Neşeli ve umut dolu bir tonu yansıtır. Kulağa harika bir şey oluyor gibi geliyor ve konuşmacı bundan memnun.
`style="fearful"`	Korkmuş ve gergin bir ton, daha yüksek ses perdesi, daha fazla vokal enerji ve daha hızlı bir konuşma hızıyla ifade edilir. Konuşmacı gergin ve huzursuz durumda.
`style="friendly"`	Hoş, davetkar ve sıcak bir ton ifade eder. Kulağa samimi ve ilgili geliyor.
`style="gentle"`	Düşük ses perdesi ve ses enerjisiyle hafif, kibar ve hoş bir tonu ifade eder.
`style="hopeful"`	Sıcak ve özlem dolu bir ton ifade eder. Hoparlöre iyi bir şey olması beklenir gibi geliyor.
`style="lyrical"`	Duyguları melodik ve duygusal bir şekilde ifade eder.
`style="narration-professional"`	İçerik okuma için profesyonel ve nesnel bir ton ifade eder.
`style="narration-relaxed"`	İçerik okuma için rahatlatıcı ve melodik bir ton ifade eder.
`style="newscast"`	Haber anlatımı için resmi ve profesyonel bir ton ifade eder.
`style="newscast-casual"`	Genel haber sunumu için farklı durumlara uygun, rahat bir ton ifade eder.
`style="newscast-formal"`	Haber teslimi için resmi, güvenilir ve yetkili bir tonu ifade eder.
`style="poetry-reading"`	Şiir okurken duygusal ve ritmik bir tonu ifade eder.
`style="sad"`	Kederli bir tonu ifade eder.
`style="serious"`	Katı ve komutlu bir tonu ifade eder. Hoparlör, genellikle sıkı bir ritimle daha sert ve çok daha az rahat bir şekilde ses çıkarır.
`style="shouting"`	Sesi uzak veya başka bir yerdeymiş gibi görünen bir tonu ifade eder ve net bir şekilde duyulmak için çaba gösterir.
`style="sports_commentary"`	Bir spor etkinliğini yayınlamak için rahat ve ilgi çekici bir tonu ifade eder.
`style="sports_commentary_excited"`	Bir spor etkinliğinde heyecan verici anları yayınlamak için yoğun ve enerjik bir ton ifade eder.
`style="whispering"`	Sessiz ve nazik bir ses çıkarmaya çalışan yumuşak bir tonu ifade eder.
`style="terrified"`	Daha hızlı ve titrek bir ses ile korkmuş bir tonu ifade eder. Konuşmacı dengesiz ve telaşlı bir izlenim veriyor.
`style="unfriendly"`	Soğuk ve kayıtsız bir tonu ifade eder.

Aşağıdaki tabloda desteklenen role her özniteliğin açıklamaları yer alır:

Rol	Açıklama
`role="Girl"`	Ses bir kızı taklit eder.
`role="Boy"`	Ses bir çocuğu taklit eder.
`role="YoungAdultFemale"`	Ses genç bir yetişkin dişiyi taklit eder.
`role="YoungAdultMale"`	Ses genç bir yetişkin erkeği taklit eder.
`role="OlderAdultFemale"`	Ses yaşlı bir yetişkin dişiyi taklit eder.
`role="OlderAdultMale"`	Ses yaşlı bir yetişkin erkeği taklit eder.
`role="SeniorFemale"`	Ses, yaşlı bir kadını taklit eder.
`role="SeniorMale"`	Ses kıdemli bir erkeği taklit eder.

mstts express-as örnekleri

Desteklenen değerler hakkında bilgi almak için mstts:express-as öğesinin öznitelikleri altında, Konuşma stillerini ve rollerini kullanma bölümüne bakın.

Stil ve derece örneği

Öğesini, neşelilik, empati ve sakinlik gibi duyguları ifade etmek için kullanırsınız mstts:express-as . Sesi müşteri hizmetleri, haber yayını ve sesli yardımcı gibi farklı senaryolar için de iyileştirebilirsiniz.

Aşağıdaki SSML örneği, <mstts:express-as> öğesini sad stil derecesiyle kullanır 2.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧，路上一定要注意安全，早去早回。
        </mstts:express-as>
    </voice>
</speak>

Rol örneği

Konuşma stillerini ve stil derecesini ayarlamanın dışında, ses farklı bir yaşı ve cinsiyeti role taklit edecek şekilde parametresini de ayarlayabilirsiniz. Örneğin, bir erkek sesi sesi yükseltebilir ve tonlamayı kadın sesini taklit etmek için değiştirebilir, ancak ses adı değiştirilmez.

Bu SSML kod parçacığı, role özniteliğinin zh-CN-XiaomoNeural için rol oynama şeklini nasıl değiştirdiğini gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来，问道：
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的，怎么过来的？”
        </mstts:express-as>
        父亲放下手提包，说：
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的，路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

Özel ses stili örneği

Özel sesinizi, cheerful, sad ve whispering gibi bazı önceden ayarlanmış stillerle konuşabilecek şekilde eğitebilirsiniz. Ayrıca, eğitim verileriniz tarafından belirlenen özel bir stilde konuşmak için profesyonel bir sesi hassas bir şekilde ayarlayabilirsiniz . SSML'de özel ses stilinizi kullanmak için Daha önce Speech Studio'ya girdiğiniz stil adını belirtin.

Bu örnekte my-custom-voice adlı özel bir ses kullanılır. Özel ses, cheerful ön ayar stili ve 2 stil derecesi ile konuşur, ardından my-custom-style adlı özel bir stil ve 0.01 stil derecesi ile konuşur.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="my-custom-voice">
        <mstts:express-as style="cheerful" styledegree="2">
            That'd be just amazing!
        </mstts:express-as>
        <mstts:express-as style="my-custom-style" styledegree="0.01">
            What's next?
        </mstts:express-as>
    </voice>
</speak>

Konuşmacı profil kimliği

mstts:ttsembedding öğesini, speakerProfileId özelliğini kişisel ses için belirtmek üzere kullanırsınız. Kişisel ses, kendi sesinizle veya müşterinizin sesiyle eğitilen özel bir sestir. Daha fazla bilgi için bkz . Kişisel ses oluşturma.

SSML için aşağıdaki örnek, bir ses adı ve konuşmacı profili kimliği ile birlikte <mstts:ttsembedding> öğesini kullanır.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起，我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak>

Konuşma dillerini ayarlama

Varsayılan olarak, çok dilli sesler giriş metninin dilini otomatik olarak algılayabilir ve SSML kullanmadan giriş metninin varsayılan yerel ayarında konuşabilir. İsteğe bağlı olarak, bu seslerin konuşma dilini ayarlamak ve tercih edilen aksanı belirlemek için <lang xml:lang> öğesini kullanabilirsiniz; örneğin, İngiliz İngilizcesi için en-GB gibi. Konuşma dilini hem cümle hem de sözcük düzeyinde ayarlayabilirsiniz. Çok dilli ses için desteklenen diller hakkında bilgi için, söz dizimi ve öznitelik tanımlarını gösteren bir tablo için bkz<lang> çok dilli sesler.

Aşağıdaki tabloda <lang xml:lang> öğesinin özniteliklerinin kullanımı açıklanmaktadır.

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`xml:lang`	Sinir sesinin konuşmasını istediğiniz dil.	Sinir sesinin konuşma dilini ayarlamak için gereklidir. Eğer `lang xml:lang` kullanıyorsanız, yerel ayar sağlanmalıdır.

Not

<lang xml:lang> öğesi ve prosody öğeleriyle break uyumsuz. Bu öğede duraklama ve prozodi ayarları, örneğin yükseklik, tonlama, hız veya ses düzeyi gibi, yapılamaz.

Tasarım gereği, çok dilli olmayan sesler <lang xml:lang> unsurunu desteklemez.

Lang öğesiyle çok dilli sesler

Aşağıdaki örnek tabloda gösterildiği gibi Konuşma hizmetinin her sinir sesi için hangi konuşma dillerini desteklediğini belirlemek için çok dilli sesler bölümünü kullanın. Ses, giriş metninin dilini konuşmazsa Konuşma hizmeti sentezlenmiş ses çıkışı vermez.

Ses	Otomatik algılanan dil numarası	Otomatik algılanan dil (yerel ayar)	Tüm yerel ayarların numarası	SSML'nin tüm dilleri (yerel ayarlar) desteklemesi
`en-US-AndrewMultilingualNeural` ¹ (Erkek) `en-US-AvaMultilingualNeural` ¹ (Kadın) `en-US-BrianMultilingualNeural` ¹ (Erkek) `en-US-EmmaMultilingualNeural` ¹ (Kadın)	77	Afrikaans (`af-ZA`), Arnavutça (`sq-AL`), Amharca (`am-ET`), Arapça (`ar-EG`), Ermenice (`hy-AM`), Azerbaycanca (`az-AZ`), Bahasa Endonezya (`id-ID`), Banglaca (`bn-BD`), Baskça (`eu-ES`), Bengalce (`bn-IN`), Boşnakça (`bs-BA`), Bulgarca (`bg-BG`), Burmaca (`my-MM`), Katalanca (`ca-ES`), Çince Kantonca (`zh-HK`), Çince Mandarince (`zh-CN`), Çince Tayvan dili (`zh-TW`), Hırvatça (`hr-HR`), Çekçe (`cs-CZ`), Danca (`da-DK`), Felemenkçe (`nl-NL`), İngilizce (`en-US`), Estonca (`et-EE`), Filipince (`fil-PH`), Fince (`fi-FI`), Fransızca (`fr-FR`), Galiçyaca (`gl-ES`), Gürcüce (`ka-GE`), Almanca (`de-DE`), Yunanca (`el-GR`), İbranice (`he-IL`), Hintçe (`hi-IN`), Macarca (`hu-HU`), İzlandaca (`is-IS`), İrlandaca (`ga-IE`), İtalyanca (`it-IT`), Japonca (`ja-JP`), Javanca (`jv-ID`), Kanadaca (`kn-IN`), Kazakça (`kk-KZ`), Khmer dili (`km-KH`), Korece (`ko-KR`), Lao dili (`lo-LA`), Letonca (`lv-LV`), Litvanca (`lt-LT`), Makedonca (`mk-MK`), Malayca (`ms-MY`), Malayalam dili (`ml-IN`), Maltaca (`mt-MT`), Moğolca (`mn-MN`), Nepalce (`ne-NP`), Norveççe Bokmål (`nb-NO`), Peştu (`ps-AF`), Farsça (`fa-IR`), Lehçe (`pl-PL`), Portekizce (`pt-BR`), Rumence (`ro-RO`), Rusça (`ru-RU`), Sırpça (`sr-RS`), Sinhalaca (`si-LK`), Slovakça (`sk-SK`), Slovence (`sl-SI`), Somalice (`so-SO`), İspanyolca (`es-ES`), Sundaca (`su-ID`), Swahili (`sw-KE`), İsveççe (`sv-SE`), Tamilce (`ta-IN`), Teluguca (`te-IN`), Tayca (`th-TH`), Türkçe (`tr-TR`), Ukraynaca (`uk-UA`), Urduca (`ur-PK`), Özbekçe (`uz-UZ`), Vietnamca (`vi-VN`), Galce (`cy-GB`), Zuluca (`zu-ZA`)	91	Afrikaanca (Güney Afrika) (`af-ZA`), Arnavutça (Arnavutluk) (`sq-AL`), Amharca (Etiyopya) (`am-ET`), Arapça (Mısır) (`ar-EG`), Arapça (Suudi Arabistan) (`ar-SA`), Ermenice (Ermenistan) (`hy-AM`), Azerbaycanca (Azerbaycan) (`az-AZ`), Bask dili (Bask) (`eu-ES`), Bengali (Hindistan) (`bn-IN`), Boşnakça (Bosna-Hersek) (`bs-BA`), Bulgarca (Bulgaristan) (`bg-BG`), Burmaca (Myanmar) (`my-MM`), Katalanca (İspanya) (`ca-ES`), Çince (Kantonca, Geleneksel) (`zh-HK`), Çince (Mandarin, Basitleştirilmiş) (`zh-CN`), Çince (Tayvan Mandarini) ( `zh-TW`), Hırvatça (Hırvatistan) (`hr-HR`), Çekçe (Çekçe) (`cs-CZ`), Danca (Danimarka) (`da-DK`), Felemenkçe (Belçika) (`nl-BE`), Felemenkçe (Hollanda) (`nl-NL`), İngilizce (Avustralya) (`en-AU`), İngilizce (Kanada) (`en-CA`), İngilizce (Hong Kong ÖİB) (`en-HK`), İngilizce (Hindistan) (`en-IN`), İngilizce (İrlanda) (`en-IE`), İngilizce (Birleşik Krallık) (`en-GB`), İngilizce (Birleşik Devletler) (`en-US`), Estonca (Estonya) (`et-EE`), Filipin dili (Filipinler) (`fil-PH`), Fince (Finlandiya) (`fi-FI`), Fransızca (Belçika) (`fr-BE`), Fransızca (Kanada) (`fr-CA`), Fransızca (Fransa) (`fr-FR`), Fransızca (İsviçre) (`fr-CH`), Galiçyaca (Galiçya) (`gl-ES`), Gürcü dili (Gürcistan) (`ka-GE`), Almanca (Avusturya) (`de-AT`), Almanca (Almanya) (`de-DE`), Almanca (İsviçre) (`de-CH`)), Yunanca (Yunanistan) (`el-GR`), İbranice (İsrail) (`he-IL`), Hintçe (Hindistan) (`hi-IN`), Macarca (Macaristan) (`hu-HU`), İzlandaca (İzlanda) (`is-IS`), Endonezya dili (Endonezya) (`id-ID`), İrlanda dili (İrlanda) (`ga-IE`), İtalyanca (İtalya) (`it-IT`), Japonca (Japonya) ( `ja-JP`), Javanese (Endonezya) (`jv-ID`), Kannada (Hindistan) (`kn-IN`), Kazakça (Kazakistan) (`kk-KZ`), Khmerce (Kamboçya) (`km-KH`), Korece (Kore) (`ko-KR`), Lao (Laos) (`lo-LA`), Letonca (Letonya) (`lv-LV`), Litvanca (Litvanya) (`lt-LT`), Makedonca (Kuzey Makedonya) (`mk-MK`), Malayca (Malezya) (`ms-MY`), Malayalam (Hindistan) (`ml-IN`), Malta (Malta) (`mt-MT`), Moğolca (Moğolistan) (`mn-MN`), Nepal dili (Nepal) (`ne-NP`), Norveççe (Bokmål, Norveç) (`nb-NO`), Peşto (Afganistan) (`ps-AF`), Farsça (İran) (`fa-IR`), Lehçe (Polonya) (`pl-PL`), Portekizce (Brezilya) (`pt-BR`), Portekizce (Portekiz) (`pt-PT`), Rumence (Romanya) (`ro-RO`), Rusça (Rusya) (`ru-RU`), Sırpca (Kiril, Sırbistan) (`sr-RS`), Sinhala (Sri Lanka) (`si-LK`), Slovakça (Slovakya) (`sk-SK`), Slovence (Slovenya) (`sl-SI`), Somali (Somali) (`so-SO`), İspanyolca (Meksika) (`es-MX`), İspanyolca (İspanya) (`es-ES`), Sundanese (Endonezya) (`su-ID`), Svahili (Kenya) (`sw-KE`), İsveççe (İsveç) (`sv-SE`), Tamilce (Hindistan) (`ta-IN`), Telugu dili (Hindistan) (`te-IN`), Tayca (Tayland) (`th-TH`), Türkçe (Türkiye) (`tr-TR`), Ukraynaca (Ukrayna) (`uk-UA`), Urduca (Pakistan) (`ur-PK`), Özbekçe (Özbekistan) (`uz-UZ`), Vietnamca (Vietnam) (`vi-VN`), Galler (Birleşik Krallık) (`cy-GB`), Zulu (Güney Afrika) (`zu-ZA`)

¹ Bunlar Azure AI Konuşmasında sinirsel çok dilli seslerdir. Tüm çok dilli sesler, SSML kullanmadan giriş metninin varsayılan yerel ayarında dilde konuşabilir. Ancak, İngilizce için İngiliz vurgusu gibi tercih edilen vurguyu ayarlamak üzere <lang xml:lang> öğesini her dilin konuşma aksanını ayarlamak için kullanmaya devam edebilirsiniz (en-GB). Her ses adındaki ön ek birincil yerel ayarını gösterir; örneğin, en-US-AndrewMultilingualNeural için birincil yerel ayar en-US'dir.

Not

Çok dilli sesler , break, emphasisve silencegibi belirli SSML öğelerini tam olarak subdesteklemez.

Lang örnekleri

lang öğesinin niteliklerine ait desteklenen değerler hakkında bilgi almak için bkz Konuşma dilini ayarlayın.

Dil başka bir yerde ayarlanmış olsun veya olmasın, en-US öğesini speak içinde varsayılan dil olarak belirtmeniz gerekir. Bu örnekte, en-US-AvaMultilingualNeural 'nin birincil dili en-US'dir.

Bu SSML kod parçacığı, <lang xml:lang> öğesini kullanarak de-DE ile en-US-AvaMultilingualNeural sinir sesiyle konuşmayı gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="de-DE">
            Wir freuen uns auf die Zusammenarbeit mit Ihnen!
        </lang>
    </voice>
</speak>

speak öğesi içinde, metin okuma çıkışı dahil olmak üzere, en-US birden çok dil belirtebilirsiniz. Ayarlanan her dil için metnin dille eşleşmesi ve bir voice öğeye sarmalanması gerekir. Bu SSML kod parçacığı, konuşma dillerini <lang xml:lang>, es-MX, en-US ve fr-FR olarak değiştirmek için nasıl kullanılacağını gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="es-MX">
            ¡Esperamos trabajar con usted!
        </lang>
        <lang xml:lang="en-US">
           We look forward to working with you!
        </lang>
        <lang xml:lang="fr-FR">
            Nous avons hâte de travailler avec vous!
        </lang>
    </voice>
</speak>

Prozodiyi ayarlama

prosody öğesini kullanarak metinden konuşma çıkışına yönelik perde, ton, aralık, hız ve ses yüksekliği değişikliklerini belirtebilirsiniz. prosody öğesi metin ve şu öğeleri içerebilir: audio, break, p, phoneme, , prosody, say-as, subve s.

Prosodik öznitelik değerleri geniş bir aralıkta farklılık gösterebileceğinden, konuşma tanıyıcı atanan değerleri seçilen sesin gerçek prosodik değerlerinin ne olması gerektiğine ilişkin bir öneri olarak yorumlar. Metin konuşmaya dönüştürme, desteklenmeyen değerleri sınırlar veya yerine geçer. Desteklenmeyen değerlere örnek olarak 1 MHz aralığı veya 120 hacim verilebilir.

Aşağıdaki tabloda prosody öğesinin özniteliklerinin kullanımı açıklanmaktadır.

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`contour`	Kontur, perdedeki değişiklikleri temsil eder. Bu değişiklikler, konuşma çıkışında belirtilen zaman konumlarında bir hedef dizisi olarak temsil edilir. Parametre çiftleri kümeleri her hedefi tanımlar. Örneğin: `<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">` Her parametre kümesindeki ilk değer, metin süresinin yüzdesi olarak aralık değişikliğinin konumunu belirtir. İkinci değer, perdeyi göreli bir değer veya numaralandırma değeri kullanarak ne kadar yükselteceğinizi veya düşüreceğinizi belirtir (bkz. `pitch`). Pitch contour, tek sözcükler ve kısa tümcecikler üzerinde çalışmaz. Tüm cümlelerde veya uzun ifadelerde ses tonu konturunun ayarlanması önerilir.	İsteğe bağlı
`pitch`	Metnin referans tonunu gösterir. Pitch değişiklikleri cümle düzeyinde uygulanabilir. Ses tonu değişiklikleri orijinal sesin 0,5 ile 1,5 katı arasında olmalıdır. Sunumu şu şekilde ifade edebilirsiniz: Mutlak değer: Bir sayı olarak ifade edilir ve ardından "Hz" (Hertz). Örneğin, `<prosody pitch="600Hz">some text</prosody>`. Göreli değer: Göreli sayı olarak: "+" veya "-" ile önce gelen bir sayı olarak ifade edilir ve ardından perdeyi değiştirmek için bir miktar belirten "Hz" veya "st" gelir. Örneğin: `<prosody pitch="+80Hz">some text</prosody>` veya `<prosody pitch="-2st">some text</prosody>`. "st" değeri, değişiklik biriminin standart diatonik ölçekte bir tonun (yarım adım) yarısı olan yarı ton olduğunu gösterir. Yüzde olarak: "+" (isteğe bağlı) veya "-" ile önce gelen bir sayı olarak ifade edilir ve ardından göreli değişikliği gösteren "%". Örneğin: `<prosody pitch="50%">some text</prosody>` veya `<prosody pitch="-50%">some text</prosody>`. Sabit bir değer: `x-low` (eşdeğer şekilde %0,55,-45) `low` (0,8, %20 indirim) `medium` (eşdeğeri 1, varsayılan değer) `high` (eşdeğer 1,2, +%20) `x-high` (eşdeğer şekilde 1,45, +%45)	İsteğe bağlı
`range`	Metin için perde aralığını temsil eden bir değer. `range`'yi açıklamak için kullanılan aynı mutlak değerleri, göreli değerleri veya numaralandırma değerlerini kullanarak `pitch` ifade edebilirsiniz.	İsteğe bağlı
`rate`	Metnin konuşma hızını gösterir. Konuşma hızı sözcük veya cümle düzeyinde uygulanabilir. Hız değişiklikleri özgün sesin çarpımları `0.5` içinde `2` olmalıdır. Şunu ifade `rate` edebilirsiniz: Göreli değer: Göreli sayı olarak: Varsayılanın çarpanı işlevi gören bir sayı olarak ifade edilir. Örneğin, değerinin `1` özgün oranda hiçbir değişiklik olmaması gerekir. `0.5` değeri, özgün oranın yarıya düşmesine neden olur. değeri, `2` özgün oranın iki katıyla sonuçlanır. Yüzde olarak: "+" (isteğe bağlı) veya "-" ile önce gelen bir sayı olarak ifade edilir ve ardından göreli değişikliği gösteren "%". Örneğin: `<prosody rate="50%">some text</prosody>` veya `<prosody rate="-50%">some text</prosody>`. Sabit bir değer: `x-slow` (eşdeğer olarak %0,5, -%50) (`slow` eşdeğer %0,64, -46%) `medium` (eşdeğeri 1, varsayılan değer) `fast` (%1,55, +%55) `x-fast` (eşdeğeri 2, +%100)	İsteğe bağlı
`volume`	Konuşma sesinin ses düzeyini gösterir. Ses değişiklikleri cümle düzeyinde uygulanabilir. Birimi şu şekilde ifade edebilirsiniz: Mutlak değer: `0.0` ile `100.0` arasında, en sessizden en yüksek sese kadar olan bir aralıktaki sayı olarak, örneğin `75` şeklinde ifade edilir. Varsayılan değer şudur: `100.0`. Göreli değer: Göreli sayı olarak: Birimi değiştirmek için bir miktar belirten "+" veya "-" işaretinden önce gelen bir sayı olarak ifade edilir. Örnekler `+10` veya `-5.5`. Yüzde olarak: "+" (isteğe bağlı) veya "-" ile önce gelen bir sayı olarak ifade edilir ve ardından göreli değişikliği gösteren "%". Örneğin: `<prosody volume="50%">some text</prosody>` veya `<prosody volume="+3%">some text</prosody>`. Sabit bir değer: `silent` (eşdeğeri 0) `x-soft` (eşdeğeri 0,2) `soft` (eşdeğeri 0,4) `medium` (eşdeğeri 0,6) `loud` (eşdeğeri 0,8) `x-loud` (eşdeğeri 1, varsayılan değer)	İsteğe bağlı

Prozodi örnekleri

prosody öğesinin öznitelikleri için desteklenen değerler hakkında bilgi almak için Prosodi'yi Ayarlayın bölümüne bakın.

Konuşma hızını değiştirme örneği

Bu SSML kod parçacığı, konuşma hızını varsayılan hızdan rate %30 daha yüksek olarak değiştirmek için özniteliğin nasıl kullanıldığını gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody rate="+30.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Ses seviyesini değiştirme örneği

Bu SSML parçası, volume özniteliğinin ses düzeyini varsayılan ses düzeyinden %20 daha yüksek bir değere değiştirmek için nasıl kullanıldığını gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody volume="+20.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Ses perdesini değiştirme örneği

Bu SSML kod parçacığı, sesin yüksek sesle konuşabilmesi için, pitch özniteliğinin nasıl kullanıldığını gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
    </voice>
</speak>

Ses perdesi eğrisini değiştirme örneği

Bu SSML kod parçacığı, özniteliğin contour dağılımı değiştirmek için nasıl kullanıldığını gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

Vurguyu ayarlama

İsteğe bağlı emphasis öğesini kullanarak metne sözcük düzeyi stres ekleyebilir veya kaldırabilirsiniz. Bu öğe yalnızca metin ve şu öğeleri içerebilir: audio, break, emphasis, lang, phoneme, prosody, say-as, sub ve voice.

Not

Sözcük düzeyinde vurgu ayarı yalnızca şu sinir sesleri için kullanılabilir: en-US-GuyNeural, en-US-DavisNeuralve en-US-JaneNeural.

Alçak perdeli ve kısa süreli sözcükler için, perde fark edilecek kadar yükseltilmeyebilir.

Aşağıdaki tabloda öğenin öznitelikleri açıklanmaktadır emphasis :

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`level`	Uygulanacak vurgunun gücünü gösterir: `reduced` `none` `moderate` `strong` Öznitelik belirtilmediğinde `level` varsayılan düzey şeklindedir `moderate`. Her öznitelikle ilgili ayrıntılar için bkz . vurgu öğesi.	İsteğe bağlı

Vurgu örnekleri

emphasis öğesinin öznitelikleri için desteklenen değerler hakkında bilgi almak üzere, Vurguyu Ayarlama bölümüne bakın.

Bu SSML kod parçacığı, "toplantılar" sözcüğüne emphasis orta düzeyde vurgu eklemek için öğesini nasıl kullanabileceğinizi gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AndrewMultilingualNeural">
    I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
    </voice>
</speak>

Kayıtlı ses ekleme

audio öğesi isteğe bağlıdır. SSML belgesine önceden kaydedilmiş ses eklemek için bunu kullanabilirsiniz. Ses dosyası mevcut değilse veya oynatılamıyorsa, audio öğesinin gövdesi düz metin veya SSML işaretlemesi içerebilir. audio öğesi metin ve şu öğeleri de içerebilir: audio, break, p, s, , phoneme, prosody, say-asve sub.

SSML belgesine dahil olan tüm sesler şu gereksinimleri karşılamalıdır:

Ses dosyası geçerli *.mp3, *.wav, *.opus, *.ogg, *.flac veya *.wma dosyaları olmalıdır.
Tek bir yanıttaki tüm metin ve ses dosyalarının toplam süresi 600 saniyeyi aşamaz.
Ses, müşteriye özgü veya diğer hassas bilgileri içermemelidir.

Not

audio öğesi Uzun Ses API'sinde desteklenmez. Uzun biçimli metin okuma için bunun yerine toplu iş sentezi API'sini kullanın.

Aşağıdaki tabloda audio öğesinin özniteliklerinin kullanımı açıklanmaktadır.

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`src`	Ses dosyasının URI konumu. Ses, İnternet'te erişilebilen bir HTTPS uç noktasında barındırılmalıdır. HTTPS gereklidir. Dosyayı barındıran etki alanı geçerli, güvenilir bir TLS/SSL sertifikası sunmalıdır. Gecikme süresini en aza indirmek için ses dosyasını metin okuma uç noktasıyla aynı Azure bölgesindeki Blob Depolama'ya yerleştirmeniz gerekir.	Zorunlu

Ses örnekleri

audio öğesinin öznitelikleri için desteklenen değerler hakkında bilgi için bkz. Kayıtlı ses ekleme.

Bu SSML kod parçacığı, iki .wav dosyasından ses eklemek için özniteliğin nasıl kullanılacağını src gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

Ses süresini ayarlama

Çıkış sesinin mstts:audioduration süresini ayarlamak için öğesini kullanın. Ses çıkışı tamamlanma zamanlamasını eşitlemeye yardımcı olması için bu öğeyi kullanın. Özgün sesin hızının 0.5 ila 2 katı arasında ses süresi azaltılabilir veya artırılabilir. Orijinal ses, başka bir hız ayarı olmayan sestir. Konuşma hızı, ayarlanan değere göre yavaşlar veya buna göre artırılır.

Ses süresi ayarı, kapsayan voice öğesi içindeki tüm giriş metnine uygulanır. Ses süresi ayarını yeniden sıfırlamak veya değiştirmek için, aynı sesle veya farklı bir sesle yeni voice bir öğe kullanmanız gerekir.

Aşağıdaki tabloda mstts:audioduration öğesinin özniteliklerinin kullanımı açıklanmaktadır.

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`value`	Çıkış sesinin istenen süresi gibi `2s`saniye cinsinden veya gibi `2000ms`milisaniye cinsinden. Çıkış ses süresi için maksimum değer 300 saniyedir. Bu değer, başka bir hız ayarı olmadan özgün sesin çarpımları içinde `0.52` olmalıdır. Örneğin, sesinizin istenen süresi ise `30s`özgün ses 15 ile 60 saniye arasında olmalıdır. Bu sınırların dışında bir değer ayarlarsanız, süre ilgili minimum veya maksimum kat değerine göre ayarlanır. 300 saniyeden uzun çıkış sesi için, önce başka bir hız ayarı olmadan özgün sesi oluşturun, ardından istenen süreye ulaşmak için prosody hızını kullanarak ayarlama hızını hesaplayın.	Zorunlu

mstts ses süresi örnekleri

öğesinin öznitelikleri mstts:audioduration için desteklenen değerler hakkında bilgi için bkz . Ses süresini ayarlama.

Bu örnekte özgün ses yaklaşık 15 saniyedir. mstts:audioduration öğesi, ses süresini 20 saniye veya 20solarak ayarlamak için kullanılır.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

Arka plan sesi ekleme

SSML belgelerinize arka plan sesi eklemek veya ses dosyasını metin okuma ile karıştırmak için öğesini kullanabilirsiniz mstts:backgroundaudio . ile mstts:backgroundaudio, arka planda bir ses dosyasını döngüye alabilir, metnin başında konuşmada belirebilir ve metnin sonundan konuşmaya kadar kaybolabilirsiniz.

Eğer sağlanan arka plan sesi, metinlendirme veya fade out işleminden kısaysa, döngüye girer. Metin okuma işleminden daha uzunsa, solma tamamlandığında durur.

SSML belgesi başına yalnızca bir arka plan ses dosyasına izin verilir. SSML belgenize daha fazla ses eklemek için audio öğesinin içine voice etiketleri serpiştirebilirsiniz.

Not

mstts:backgroundaudio öğesi tüm voice öğelerin önüne yerleştirilmelidir. Belirtilirse, speak öğesinin ilk alt öğesi olmalıdır.

mstts:backgroundaudio öğesi Uzun Ses API'sinde desteklenmez. Uzun biçimli metin okuma için bunun yerine toplu sentez API'sini (Önizleme) kullanın.

Aşağıdaki tabloda mstts:backgroundaudio öğesinin özniteliklerinin kullanımı açıklanmaktadır.

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`src`	Arka plan ses dosyasının URI konumu.	Zorunlu
`volume`	Arka plan ses dosyasının ses düzeyi. Kabul edilen değerler: `0` dahil olmak üzere `100` . Varsayılan değer şudur: `1`.	İsteğe bağlı
`fadein`	Arka plan sesinin süresi milisaniye olarak kaybolur. Varsayılan değer `0`, yani belirmemenin eşdeğeridir. Kabul edilen değerler: `0` dahil olmak üzere `10000` .	İsteğe bağlı
`fadeout`	Arka plan sesinin kaybolma süresi milisaniye cinsindendir. Varsayılan değer, `0`, yok olma efekti olmamasına eşdeğerdir. Kabul edilen değerler: `0` ile `10000` arası dahil.	İsteğe bağlı

mstss backgroundaudio örnekleri

Öğesinin mstts:backgroundaudi öznitelikleri için desteklenen değerler hakkında bilgi için, bkz Arka plan sesi ekleme.

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="en-US-AvaMultilingualNeural">
        The text provided in this document are spoken over the background audio.
    </voice>
</speak>

Viseme öğesi

Vizeme, bir fonenin konuşma dilindeki görsel açıklamasıdır. Bir kişi konuşurken yüzün ve ağzın konumunu tanımlar. SSML'deki mstts:viseme öğesini viseme çıkışı istemek için kullanabilirsiniz. Daha fazla bilgi için bkz . Viseme ile yüz konumunu alma.

Viseme ayarı, voice öğesi tarafından kapsanan tüm giriş metnine uygulanır. Viseme ayarını yeniden sıfırlamak veya değiştirmek için, aynı sesle veya farklı bir sesle yeni voice bir öğe kullanmanız gerekir.

Öğenin viseme özniteliklerinin kullanımı aşağıdaki tabloda tanımlanmıştır.

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`type`	Viseme çıkışının türü. `redlips_front` – viseme ID ve ses kayması çıkışı ile dudak senkronizasyonu `FacialExpression` – karışım şekilleri çıkışı	Zorunlu

Not

Şu anda yalnızca redlips_front yerel ayardaki en-US sinir seslerini destekler ve FacialExpression ve en-US yerel ayarlardaki zh-CN sinir seslerini destekler.

Viseme örnekleri

Öğesinin öznitelikleri viseme için desteklenen değerler daha önce açıklanmıştır.

Bu SSML kod parçacığı, sentezlenmiş konuşmanızla blend şekillerinin nasıl talep edilebileceğini gösterir.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-US-AvaNeural">
    <mstts:viseme type="FacialExpression"/>
    Rainbow has seven colors: Red, orange, yellow, green, blue, indigo, and violet.
  </voice>
</speak>

Ses dönüştürme öğesi

Ses dönüştürme (önizleme), belirli bir sesin ses özelliklerini hedef ses hoparlöre dönüştürme işlemidir. Ses dönüştürme işleminden sonra elde edilen ses, kaynak sesin dilsel içeriğini ve ezgili konuşmasını korurken ses tınısı hedef konuşmacınınki gibi olur. Daha fazla bilgi için bkz. ses dönüştürme.

Konuşma Sentezi İşaretleme Dili (SSML) aracılığıyla <mstts:voiceconversion> etiketini kullanarak kaynak ses URL'sini ve dönüştürme için hedef sesi belirtin. Desteklenen hedef seslerin tam listesi için bkz. ses dönüştürme için desteklenen sesler.

Aşağıdaki tabloda mstts:voiceconversion öğesinin özniteliklerinin kullanımı açıklanmaktadır.

Öznitelik	Açıklama	Gerekli veya isteğe bağlı
`url`	Birleştirilmiş konuşma için dil içeriği ve prosody sağlayan kaynak ses dosyasının URL'si. https URL'si `url` aracılığıyla erişilebilir olmalıdır. Örneğin, `https://example.com/source.wav` Giriş sesi 100 MB'ın altında olmalıdır.	Zorunlu

Ses dönüştürme şu şekilde çalışır:

Kaynak ses, konuşulan sözcükleri ve prosody'yi içeren önceden kaydedilmiş bir ses dosyasıdır.
- Metin içeriği: Son sentezlenen konuşma, kaynak sesteki konuşulan sözcükleri izler.
- Prosody ve ritim: Konuşma, kaynaktan gelen zamanlamayı ve tonlamayı korur.
etiketi, <voice> çıkış sesi için kullanılan hedef sesi belirtir. Desteklenen hedef sesler hakkında bilgi için bkz. Ses dönüştürme için desteklenen sesler.
Çıkış sesi, hedef sesin tınısını (ton ve ses kalitesi) korur, ancak kaynak sesin metin ve konuşma stilini izler.

Not

"<prosody> veya <mstts:express-as> gibi prosody ve telaffuz ile ilgili tüm SSML öğeleri yoksayılır."

Metin girişi isteğe bağlıdır ve işleme sırasında SSML'de yer alan tüm metinler yoksayılır.

mstss ses dönüştürme örnekleri

Aşağıdaki örnek, belirli bir kaynak sesin <mstts:voiceconversion>hedef nöral ses kullanarak konuşmayı sentezlemek için nasıl kullanılacağını gösterir:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice xml:lang="en-US" xml:gender="Female" name="en-US-AvaMultilingualNeural">
        <mstts:voiceconversion url="https://your.blob.core.windows.net/sourceaudio.wav"/>
    </voice>
</speak>