SSML ile sesi ve sesi özelleştirme
Konuşma çıkışınız için konuşma sesi, dil, ad, stil ve rolü belirtmek için Konuşma Sentezi Biçimlendirme Dili'ni (SSML) kullanabilirsiniz. Ayrıca tek bir SSML belgesinde birden çok ses kullanabilir ve vurgu, konuşma hızı, perde ve ses düzeyini ayarlayabilirsiniz. Buna ek olarak, SSML ses efekti veya müzik notu gibi önceden kaydedilmiş ses ekleme özelliğine sahiptir.
Makalede ses ve ses belirtmek için SSML öğelerinin nasıl kullanılacağı gösterilmektedir. SSML söz dizimi hakkında daha fazla bilgi için bkz . SSML belge yapısı ve olayları.
Ses öğelerini kullanma
Her SSML konuşma öğesi içinde en az bir voice
öğe belirtilmelidir. Bu öğe, metin okuma için kullanılan sesi belirler.
Tek bir SSML belgesine birden çok voice
öğe ekleyebilirsiniz. Her voice
öğe farklı bir ses belirtebilir. Aynı sesi, cümleler arasındaki sessizlik süresini değiştirdiğiniz durumlar gibi farklı ayarlarla birden çok kez de kullanabilirsiniz.
Aşağıdaki tabloda öğenin özniteliklerinin voice
kullanımı açıklanmaktadır:
Öznitelik | Açıklama | Gerekli veya isteğe bağlı |
---|---|---|
name |
Metinden konuşmaya çıkış için kullanılan ses. Desteklenen önceden oluşturulmuş seslerin tam listesi için bkz . Dil desteği. | Zorunlu |
effect |
Cihazlarda belirli senaryolar için sentezlenmiş konuşma çıkışının kalitesini iyileştirmek için kullanılan ses efekti işlemcisi. Üretim ortamlarındaki bazı senaryolarda, bazı cihazlarda kayıttan yürütme bozulması nedeniyle işitsel deneyim düşürülebilir. Örneğin, bir araba hoparlöründen sentezlenen konuşma, konuşmacı yanıtı, oda yankısı ve arka plan gürültüsü gibi çevresel faktörlerden dolayı donuk ve boğuk gelebilir. Yolcunun daha net bir şekilde duymak için sesi açması gerekebilir. Böyle bir senaryoda el ile gerçekleştirilen işlemleri önlemek için ses efekti işlemcisi, kayıttan yürütmenin bozulmasını telafi ederek sesi daha net hale getirebilir. Aşağıdaki değerler desteklenir:
Değer eksik veya geçersizse, bu öznitelik yoksayılır ve hiçbir etki uygulanmaz. |
İsteğe bağlı |
Sesli örnekler
öğesinin öznitelikleri voice
için desteklenen değerler hakkında bilgi için bkz . Ses öğelerini kullanma.
Tek sesli örnek
Bu örnekte ses kullanılır en-US-AvaMultilingualNeural
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
This is the text that is spoken.
</voice>
</speak>
Birden çok ses örneği
öğesinde speak
, metinden konuşmaya çıkışı için birden çok ses belirtebilirsiniz. Bu sesler farklı dillerde olabilir. Her ses için metnin bir voice
öğeye sarmalanması gerekir.
Bu örnek ve en-US-AndrewMultilingualNeural
sesleri arasında en-US-AvaMultilingualNeural
geçiş yapabilir. Nöral çok dilli sesler, giriş metnine göre farklı diller konuşabilir.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
Good morning!
</voice>
<voice name="en-US-AndrewMultilingualNeural">
Good morning to you too Ava!
</voice>
</speak>
Özel nöral ses örneği
Özel sinir sesinizi kullanmak için SSML'de ses adı olarak model adını belirtin.
Bu örnekte my-custom-voice adlı özel bir ses kullanılır.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="my-custom-voice">
This is the text that is spoken.
</voice>
</speak>
Ses efekti örneği
özniteliğini effect
, otomobil ve telekomünikasyon gibi senaryolar için işitsel deneyimi iyileştirmek için kullanırsınız. Aşağıdaki SSML örneği, araç senaryolarındaki yapılandırma ile özniteliğini kullanır effect
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural" effect="eq_car">
This is the text that is spoken.
</voice>
</speak>
Konuşma stillerini ve rollerini kullanma
Sinir sesleri varsayılan olarak nötr konuşma tarzına sahiptir. Konuşma stilini, stil derecesini ve rolü cümle düzeyinde ayarlayabilirsiniz.
Not
Konuşma tanıma hizmeti, ses stilleri ve roller belgelerinde açıklandığı gibi sinir seslerinin bir alt kümesi için stilleri, stil derecesini ve rolleri destekler. Her ses için desteklenen stilleri ve rolleri belirlemek için liste sesleri API'sini ve ses içeriği oluşturma web uygulamasını da kullanabilirsiniz.
Aşağıdaki tabloda öğenin özniteliklerinin mstts:express-as
kullanımı açıklanmaktadır:
Öznitelik | Açıklama | Gerekli veya isteğe bağlı |
---|---|---|
style |
Sese özgü konuşma stili. Neşelilik, empati ve sakinlik gibi duyguları ifade edebilirsiniz. Sesi müşteri hizmetleri, haber yayını ve sesli yardımcı gibi farklı senaryolar için de iyileştirebilirsiniz. Stil değeri eksik veya geçersizse, öğenin tamamı mstts:express-as yoksayılır ve hizmet varsayılan nötr konuşmayı kullanır. Özel nöral ses stilleri için özel sinir sesi stili örneğine bakın. |
Zorunlu |
styledegree |
Konuşma stilinin yoğunluğu. Konuşmayı daha etkileyici veya alt düzey yapmak için daha güçlü veya daha yumuşak bir stil belirtebilirsiniz. Kabul edilen değerler aralığı şunlardır: 0.01 2 dahil. Varsayılan değer olan 1 , önceden tanımlanmış stil yoğunluğu anlamına gelir. En düşük birim olan 0.01 , hedef stil için hafif bir eğilime neden olur. değeri 2 , varsayılan stil yoğunluğunun iki katına çıkar. Stil derecesi eksikse veya sesinizde desteklenmiyorsa, bu öznitelik yoksayılır. |
İsteğe bağlı |
role |
Konuşan rol oyunu. Ses farklı bir yaşı ve cinsiyeti taklit edebilir, ancak ses adı değiştirilmez. Örneğin, bir erkek sesi sesi yükseltebilir ve tonlamayı kadın sesini taklit etmek için değiştirebilir, ancak ses adı değiştirilmez. Rol eksikse veya sesinizde desteklenmiyorsa, bu öznitelik yoksayılır. | İsteğe bağlı |
Aşağıdaki tabloda desteklenen style
her öznitelik açıklanmaktadır:
Stil | Açıklama |
---|---|
style="advertisement_upbeat" |
Bir ürünü veya hizmeti tanıtmak için heyecan verici ve yüksek enerji tonunu ifade eder. |
style="affectionate" |
Daha yüksek ses ve ses enerjisi ile sıcak ve sevgi dolu bir tonu ifade eder. Konuşmacı dinleyicinin dikkatini çekecek durumda. Konuşmacının kişiliği genellikle doğadan çok daha fazladır. |
style="angry" |
Kızgın ve sinir bozucu bir tonu ifade eder. |
style="assistant" |
Dijital yardımcılar için sıcak ve rahat bir ton ifade eder. |
style="calm" |
Konuşurken havalı, toplanmış ve birleştirilmiş bir tutum ifade eder. Ton, ses perdesi ve prosody, diğer konuşma türlerine kıyasla daha tekdüzendir. |
style="chat" |
Rahat ve rahat bir ton ifade eder. |
style="cheerful" |
Olumlu ve mutlu bir tonu ifade eder. |
style="customerservice" |
Müşteri desteği için kolay ve yararlı bir ton ifade eder. |
style="depressed" |
Daha düşük perde ve enerji ile melankolik ve despondent bir ton ifade eder. |
style="disgruntled" |
Küçümser ve şikayetçi bir tonu ifade eder. Bu duygunun konuşması memnuniyetsizlik ve küçümseme gösterir. |
style="documentary-narration" |
Belgeleri, belgeseller, uzman yorumları ve benzer içerikler için uygun, rahat, ilgi çekici ve bilgilendirici bir stilde anlatımlar. |
style="embarrassed" |
Konuşmacı rahatsız hissettiğinde belirsiz ve tereddütlü bir tonu ifade eder. |
style="empathetic" |
Önem ve anlayış duygusunu ifade eder. |
style="envious" |
Başka birinin sahip olduğu bir şeyi arzu ettiğinizde hayranlık tonlarını ifade eder. |
style="excited" |
İyi ve umut dolu bir tonu ifade eder. Kulağa harika bir şey oluyor gibi geliyor ve konuşmacı bundan memnun. |
style="fearful" |
Daha yüksek ses perdesi, daha yüksek ses enerjisi ve daha hızlı hız ile korku ve sinir tonlarını ifade eder. Konuşmacı gergin ve huzursuz durumda. |
style="friendly" |
Hoş, davetkar ve sıcak bir ton ifade eder. Kulağa samimi ve ilgili geliyor. |
style="gentle" |
Düşük ses perdesi ve ses enerjisiyle hafif, kibar ve hoş bir tonu ifade eder. |
style="hopeful" |
Sıcak ve içten bir ton ifade eder. Hoparlöre iyi bir şey olacakmış gibi geliyor. |
style="lyrical" |
Duyguları melodik ve duygusal bir şekilde ifade eder. |
style="narration-professional" |
İçerik okuma için profesyonel ve nesnel bir ton ifade eder. |
style="narration-relaxed" |
İçerik okuma için rahatlatıcı ve melodik bir ton ifade eder. |
style="newscast" |
Haber anlatımı için resmi ve profesyonel bir ton ifade eder. |
style="newscast-casual" |
Genel haber sunumu için çok yönlü ve gündelik bir ton ifade eder. |
style="newscast-formal" |
Haber teslimi için resmi, güvenilir ve yetkili bir tonu ifade eder. |
style="poetry-reading" |
Şiir okurken duygusal ve ritmik bir tonu ifade eder. |
style="sad" |
Kederli bir tonu ifade eder. |
style="serious" |
Katı ve komutlu bir tonu ifade eder. Hoparlör genellikle sağlam tempo ile daha sert ve çok daha az rahat ses çıkarır. |
style="shouting" |
Sesi uzak veya başka bir yerdeymiş gibi görünen bir tonu ifade eder ve net bir şekilde duyulmak için çaba gösterir. |
style="sports_commentary" |
Bir spor etkinliğini yayınlamak için rahat ve ilgi çekici bir tonu ifade eder. |
style="sports_commentary_excited" |
Bir spor etkinliğinde heyecan verici anları yayınlamak için yoğun ve enerjik bir ton ifade eder. |
style="whispering" |
Sessiz ve nazik bir ses çıkarmaya çalışan yumuşak bir tonu ifade eder. |
style="terrified" |
Daha hızlı ve titrek bir ses ile korkmuş bir tonu ifade eder. Konuşmacı sabit ve çılgın bir durumda gibi görünüyor. |
style="unfriendly" |
Soğuk ve kayıtsız bir tonu ifade eder. |
Aşağıdaki tabloda desteklenen role
her özniteliğin açıklamaları yer alır:
Rol | Açıklama |
---|---|
role="Girl" |
Ses bir kızı taklit eder. |
role="Boy" |
Ses bir çocuğu taklit eder. |
role="YoungAdultFemale" |
Ses genç bir yetişkin dişiyi taklit eder. |
role="YoungAdultMale" |
Ses genç bir yetişkin erkeği taklit eder. |
role="OlderAdultFemale" |
Ses yaşlı bir yetişkin dişiyi taklit eder. |
role="OlderAdultMale" |
Ses yaşlı bir yetişkin erkeği taklit eder. |
role="SeniorFemale" |
Ses, yaşlı bir kadını taklit eder. |
role="SeniorMale" |
Ses kıdemli bir erkeği taklit eder. |
mstts express-as örnekleri
öğesinin öznitelikleri mstts:express-as
için desteklenen değerler hakkında bilgi için bkz . Konuşma stillerini ve rollerini kullanma.
Stil ve derece örneği
Öğesini, neşelilik, empati ve sakinlik gibi duyguları ifade etmek için kullanırsınız mstts:express-as
. Sesi müşteri hizmetleri, haber yayını ve sesli yardımcı gibi farklı senaryolar için de iyileştirebilirsiniz.
Aşağıdaki SSML örneği, öğesini stil derecesiyle sad
2
kullanır<mstts:express-as>
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
<voice name="zh-CN-XiaomoNeural">
<mstts:express-as style="sad" styledegree="2">
快走吧,路上一定要注意安全,早去早回。
</mstts:express-as>
</voice>
</speak>
Rol örneği
Konuşma stillerini ve stil derecesini ayarlamanın dışında, ses farklı bir yaşı ve cinsiyeti role
taklit edecek şekilde parametresini de ayarlayabilirsiniz. Örneğin, bir erkek sesi sesi yükseltebilir ve tonlamayı kadın sesini taklit etmek için değiştirebilir, ancak ses adı değiştirilmez.
Bu SSML kod parçacığı, özniteliğinin role
için rol oynama özelliğini değiştirmek için zh-CN-XiaomoNeural
nasıl kullanıldığını gösterir.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
<voice name="zh-CN-XiaomoNeural">
女儿看见父亲走了进来,问道:
<mstts:express-as role="YoungAdultFemale" style="calm">
“您来的挺快的,怎么过来的?”
</mstts:express-as>
父亲放下手提包,说:
<mstts:express-as role="OlderAdultMale" style="calm">
“刚打车过来的,路上还挺顺畅。”
</mstts:express-as>
</voice>
</speak>
Özel nöral ses stili örneği
Özel sinir sesinizi , sad
ve whispering
gibi bazı önceden ayarlanmış stiller ile konuşabilecek şekilde cheerful
eğitebilirsiniz. Ayrıca, eğitim verileriniz tarafından belirlenen özel bir stilde konuşmak için özel bir sinir sesi eğitebilirsiniz. SSML'de özel nöral ses stilinizi kullanmak için, Speech Studio'da daha önce girdiğiniz stil adını belirtin.
Bu örnekte my-custom-voice adlı özel bir ses kullanılır. Özel ses, önceden ayarlanmış stil ve stil derecesiyle cheerful
2
ve ardından my-custom-style ve stil derecesi 0.01
adlı özel bir stille konuşur.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="my-custom-voice">
<mstts:express-as style="cheerful" styledegree="2">
That'd be just amazing!
</mstts:express-as>
<mstts:express-as style="my-custom-style" styledegree="0.01">
What's next?
</mstts:express-as>
</voice>
</speak>
Konuşmacı profili kimliği
kişisel ses özelliğini belirtmek speakerProfileId
için öğesini kullanırsınızmstts:ttsembedding
. Kişisel ses, kendi sesinizle veya müşterinizin sesiyle eğitilen özel bir sinir sesidir. Daha fazla bilgi için bkz . Kişisel ses oluşturma.
Aşağıdaki SSML örneği, bir ses adı ve konuşmacı profili kimliği ile öğesini kullanır <mstts:ttsembedding>
.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.
</mstts:ttsembedding>
</voice>
</speak>
Konuşma dillerini ayarlama
Varsayılan olarak, çok dilli sesler giriş metninin dilini otomatik olarak algılayabilir ve SSML kullanmadan giriş metninin varsayılan yerel ayarında konuşabilir. İsteğe bağlı olarak, İngiliz İngilizcesi <lang xml:lang>
gibi en-GB
tercih edilen vurguyu ayarlamak üzere bu seslerin konuşma dilini ayarlamak için öğesini kullanabilirsiniz. Konuşma dilini hem cümle hem de sözcük düzeyinde ayarlayabilirsiniz. Çok dilli ses için desteklenen diller hakkında bilgi için, söz dizimi ve öznitelik tanımlarını gösteren <lang>
bir tablo için bkz. Lang öğesiyle çok dilli sesler.
Aşağıdaki tabloda öğenin özniteliklerinin <lang xml:lang>
kullanımı açıklanmaktadır:
Öznitelik | Açıklama | Gerekli veya isteğe bağlı |
---|---|---|
xml:lang |
Sinir sesinin konuşmasını istediğiniz dil. | Sinir sesinin konuşma dilini ayarlamak için gereklidir. kullanıyorsanız lang xml:lang , yerel ayar sağlanmalıdır. |
Not
<lang xml:lang>
öğesi ve break
öğeleriyle prosody
uyumsuz. Bu öğede duraklama ve eğim, dağılım, hız veya ses düzeyi gibi prosody ayarlarını yapamazsınız.
Çok dilli olmayan sesler, öğeyi tasarım gereği <lang xml:lang>
desteklemez.
Lang öğesiyle çok dilli sesler
Aşağıdaki örnek tabloda gösterildiği gibi Konuşma hizmetinin her sinir sesi için hangi konuşma dillerini desteklediğini belirlemek için çok dilli sesler bölümünü kullanın. Ses, giriş metninin dilini konuşmazsa Konuşma hizmeti sentezlenmiş ses çıkışı vermez.
Ses | Otomatik algılanan dil numarası | Otomatik algılanan dil (yerel ayar) | Tüm yerel ayarlar numarası | SSML tarafından desteklenen tüm diller (yerel ayar) |
---|---|---|---|---|
en-US-AndrewMultilingualNeural 1 (Erkek)en-US-AvaMultilingualNeural 1 (Kadın)en-US-BrianMultilingualNeural 1 (Erkek)en-US-EmmaMultilingualNeural 1 (Kadın) |
77 | Afrikaanlar (af-ZA ), Arnavutça (sq-AL ), Amharca (am-ET ), Arapça (ar-EG ), Ermenice (hy-AM ), Azerbaycan dili (az-AZ ), Bahasa Endonezya dili (), Banglaca (bn-BD id-ID ), Bask dili (), Bengalce (eu-ES ), Boşnakça (bs-BA bn-IN ), Bulgarca (bg-BG ), Burmaca (my-MM ), Katalanca (ca-ES ), Çince Kantonca (), Çince Mandarince (zh-CN zh-HK ), Çince Tayvan dili (), Hırvatça (zh-TW ), Çekçe (hr-HR ), Danca (cs-CZ da-DK ), Felemenkçe (), İngilizce (nl-NL ), Estonca (en-US et-EE ), Filipince (fil-PH ), Fince (fi-FI ), Fransızca (fr-FR ), Galiçyaca (gl-ES ), Gürcüce (ka-GE ), Almanca (de-DE ), Yunanca (el-GR ), İbranice (he-IL ), Hintçe (hi-IN ), Macarca (hu-HU ), İzlandaca (), İrlandaca (is-IS ga-IE ), İtalyanca (), Japonca (it-IT ), Javanezce (jv-ID ja-JP ), Kannada (kn-IN ), Kazakça (kk-KZ ), Khmerce (km-KH ), Korece (ko-KR ), Lao dili (lo-LA ), Letonca (lv-LV ), Litvanca (lt-LT ), Makedonca (mk-MK ), Malayca (ms-MY ), Malayalam (), Malta diliml-IN (mt-MT ), Moğolca (mn-MN ), Nepal dili (ne-NP ), Norveççe Bokmål (nb-NO ), Peşto (ps-AF ), Farsça (fa-IR ), Lehçe (pl-PL ), Portekizce (pt-BR ), Rumence (ro-RO ), Rusça (ru-RU ), Sırpça (sr-RS ), Sinhalaca (si-LK ), Slovakça (sk-SK ), Sloven (sl-SI ), Somali (so-SO ), İspanyolca (es-ES ), Sundaneli (su-ID ), Slahi dili (), İsveççe (sw-KE sv-SE ), Tamilce (), Telugu (ta-IN ), Tay dili (te-IN ), Türkçe (th-TH tr-TR ), Ukraynaca (), Urduca (ur-PK uk-UA ), Özbekçe (uz-UZ ), Vietnamca (vi-VN ), Galce (cy-GB ), Zuluca ()zu-ZA |
91 | Afrikaanca (Güney Afrika) (af-ZA ), Arnavutça (Arnavutluk) (sq-AL ), Amharca (Etiyopya) (am-ET ), Arapça (Mısır) (ar-EG ), Arapça (Suudi Arabistan) (ar-SA ), Ermenice (Ermenistan) (hy-AM ), Azerbaycanca (Azerbaycan) (az-AZ ), Bask dili (Bask) (eu-ES ), Bengali (Hindistan) (bn-IN ), Boşnakça (Bosna-Hersek) (bs-BA ), Bulgarca (Bulgaristan) (bg-BG ), Burmaca (Myanmar) (my-MM ), Katalanca (İspanya) (ca-ES ), Çince (Kantonca, Geleneksel) (zh-HK ), Çince (Mandarin, Basitleştirilmiş) (zh-CN ), Çince (Tayvan Mandarini) ( zh-TW ), Hırvatça (Hırvatistan) (hr-HR ), Çekçe (Çekçe) (cs-CZ ), Danca (Danimarka) (da-DK ), Felemenkçe (Belçika) (nl-BE ), Felemenkçe (Hollanda) (nl-NL ), İngilizce (Avustralya) (en-AU ), İngilizce (Kanada) (en-CA ), İngilizce (Hong Kong ÖİB) (en-HK ), İngilizce (Hindistan) (en-IN ), İngilizce (İrlanda) (en-IE ), İngilizce (Birleşik Krallık) (en-GB ), İngilizce (Birleşik Devletler) (en-US ), Estonca (Estonya) (et-EE ), Filipin dili (Filipinler) (fil-PH ), Fince (Finlandiya) (fi-FI ), Fransızca (Belçika) (fr-BE ), Fransızca (Kanada) (fr-CA ), Fransızca (Fransa) (fr-FR ), Fransızca (İsviçre) (fr-CH ), Galiçyaca (Galiçya) (gl-ES ), Gürcü dili (Gürcistan) (ka-GE ), Almanca (Avusturya) (de-AT ), Almanca (Almanya) (de-DE ), Almanca (İsviçre) (de-CH )), Yunanca (Yunanistan) (el-GR ), İbranice (İsrail) (he-IL ), Hintçe (Hindistan) (hi-IN ), Macarca (Macaristan) (hu-HU ), İzlandaca (İzlanda) (is-IS ), Endonezya dili (Endonezya) (id-ID ), İrlanda dili (İrlanda) (ga-IE ), İtalyanca (İtalya) (it-IT ), Japonca (Japonya) ( ja-JP ), Javanese (Endonezya) (jv-ID ), Kannada (Hindistan) (kn-IN ), Kazakça (Kazakistan) (kk-KZ ), Khmerce (Kamboçya) (km-KH ), Korece (Kore) (ko-KR ), Lao (Laos) (lo-LA ), Letonca (Letonya) (lv-LV ), Litvanca (Litvanya) (lt-LT ), Makedonca (Kuzey Makedonya) (mk-MK ), Malayca (Malezya) (ms-MY ), Malayalam (Hindistan) (ml-IN ), Malta (Malta) (mt-MT ), Moğolca (Moğolistan) (mn-MN ), Nepal dili (Nepal) (ne-NP ), Norveççe (Bokmål, Norveç) (nb-NO ), Peşto (Afganistan) (ps-AF ), Farsça (İran) (fa-IR ), Lehçe (Polonya) (pl-PL ), Portekizce (Brezilya) (pt-BR ), Portekizce (Portekiz) (pt-PT ), Rumence (Romanya) (ro-RO ), Rusça (Rusya) (ru-RU ), Sırpca (Kiril, Sırbistan) (sr-RS ), Sinhala (Sri Lanka) (si-LK ), Slovakça (Slovakya) (sk-SK ), Slovence (Slovenya) (sl-SI ), Somali (Somali) (so-SO ), İspanyolca (Meksika) (es-MX ), İspanyolca (İspanya) (es-ES ), Sundanese (Endonezya) (su-ID ), Svahili (Kenya) (sw-KE ), İsveççe (İsveç) (sv-SE ), Tamilce (Hindistan) (ta-IN ), Telugu dili (Hindistan) (te-IN ), Tayca (Tayland) (th-TH ), Türkçe (Türkiye) (tr-TR ), Ukraynaca (Ukrayna) (uk-UA ), Urduca (Pakistan) (ur-PK ), Özbekçe (Özbekistan) (uz-UZ ), Vietnamca (Vietnam) (vi-VN ), Galler (Birleşik Krallık) (cy-GB ), Zulu (Güney Afrika) (zu-ZA ) |
1 Bunlar Azure AI Konuşmasında sinirsel çok dilli seslerdir. Tüm çok dilli sesler, SSML kullanmadan giriş metninin varsayılan yerel ayarında dilde konuşabilir. Ancak, İngilizce için İngiliz vurgusu (en-GB
) gibi tercih edilen vurguyu ayarlamak üzere her dilin konuşma vurgusunu ayarlamak için öğesini kullanmaya <lang xml:lang>
devam edebilirsiniz. Her ses için birincil yerel ayar, adında önek ile gösterilir; örneğin, ses en-US-AndrewMultilingualNeural
, birincil yerel ayarıdır en-US
.
Not
Çok dilli sesler , emphasis
, silence
ve sub
gibi belirli SSML öğelerini tam olarak break
desteklemez.
Lang örnekleri
öğesinin öznitelikleri lang
için desteklenen değerler hakkında bilgi için bkz . Konuşma dilini ayarlama.
Dilin başka bir yerde ayarlanıp ayarlanmayacağını öğesi içinde speak
varsayılan dil olarak belirtmeniz en-US
gerekir. Bu örnekte için en-US-AvaMultilingualNeural
birincil dil şeklindedir en-US
.
Bu SSML kod parçacığı, sinir sesiyle en-US-AvaMultilingualNeural
konuşmak de-DE
için nasıl kullanılacağını <lang xml:lang>
gösterir.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<lang xml:lang="de-DE">
Wir freuen uns auf die Zusammenarbeit mit Ihnen!
</lang>
</voice>
</speak>
öğesinde speak
, metin okuma çıkışı dahil olmak üzere en-US
birden çok dil belirtebilirsiniz. Ayarlanan her dil için metnin dille eşleşmesi ve bir voice
öğeye sarmalanması gerekir. Bu SSML kod parçacığı, konuşma dillerini es-MX
, en-US
ve fr-FR
olarak değiştirmek için nasıl kullanılacağını <lang xml:lang>
gösterir.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<lang xml:lang="es-MX">
¡Esperamos trabajar con usted!
</lang>
<lang xml:lang="en-US">
We look forward to working with you!
</lang>
<lang xml:lang="fr-FR">
Nous avons hâte de travailler avec vous!
</lang>
</voice>
</speak>
Prozodiyi ayarlama
öğesini kullanarak prosody
metinden konuşma çıkışına yönelik aralık, dağılım, aralık, hız ve hacim değişikliklerini belirtebilirsiniz. prosody
öğesi metin ve şu öğeleri içerebilir: audio
, break
, p
, phoneme
, , prosody
, say-as
, sub
ve s
.
Prosodik öznitelik değerleri geniş bir aralıkta farklılık gösterebileceğinden, konuşma tanıyıcı atanan değerleri seçilen sesin gerçek prosodik değerlerinin ne olması gerektiğine ilişkin bir öneri olarak yorumlar. Metin okuma sınırları veya desteklenmeyen değerlerin yerini alır. Desteklenmeyen değerlere örnek olarak 1 MHz aralığı veya 120 hacim verilebilir.
Aşağıdaki tabloda öğenin özniteliklerinin prosody
kullanımı açıklanmaktadır:
Öznitelik | Açıklama | Gerekli veya isteğe bağlı |
---|---|---|
contour |
Kontur, perdedeki değişiklikleri temsil eder. Bu değişiklikler, konuşma çıkışında belirtilen zaman konumlarında bir hedef dizisi olarak temsil edilir. Parametre çiftleri kümeleri her hedefi tanımlar. Örneğin: <prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)"> Her parametre kümesindeki ilk değer, metin süresinin yüzdesi olarak aralık değişikliğinin konumunu belirtir. İkinci değer, pitch için göreli bir değer veya numaralandırma değeri kullanarak perdenin yükseltilmesi veya düşürülme miktarını belirtir (bkz pitch . ). Pitch contour, tek sözcükler ve kısa tümcecikler üzerinde çalışmaz. Tüm cümlelerde veya uzun tümceciklerde hat dağılımının ayarlanması önerilir. |
İsteğe bağlı |
pitch |
Metnin temel perdesini gösterir. Pitch değişiklikleri cümle düzeyinde uygulanabilir. Ses perdesi değişiklikleri özgün sesin 0,5 ile 1,5 katı içinde olmalıdır. Sunumu şu şekilde ifade edebilirsiniz:
|
İsteğe bağlı |
range |
Metin için aralık aralığını temsil eden bir değer. öğesini açıklamak pitch için kullanılan aynı mutlak değerleri, göreli değerleri veya numaralandırma değerlerini kullanarak ifade range edebilirsiniz. |
İsteğe bağlı |
rate |
Metnin konuşma hızını gösterir. Konuşma hızı sözcük veya cümle düzeyinde uygulanabilir. Hız değişiklikleri özgün sesin çarpımları 2 içinde 0.5 olmalıdır. Şunu ifade rate edebilirsiniz:
|
İsteğe bağlı |
volume |
Konuşma sesinin ses düzeyini gösterir. Birim değişiklikleri cümle düzeyinde uygulanabilir. Birimi şu şekilde ifade edebilirsiniz:
|
İsteğe bağlı |
Prosody örnekleri
öğesinin öznitelikleri prosody
için desteklenen değerler hakkında bilgi için bkz . Prosody'yi ayarlama.
Konuşma hızını değiştirme örneği
Bu SSML kod parçacığı, konuşma hızını varsayılan hızdan rate
%30 daha yüksek olarak değiştirmek için özniteliğin nasıl kullanıldığını gösterir.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<prosody rate="+30.00%">
Enjoy using text to speech.
</prosody>
</voice>
</speak>
Birim değiştirme örneği
Bu SSML kod parçacığı, özniteliğin volume
birimi varsayılan birimden %20 daha büyük bir değere değiştirmek için nasıl kullanıldığını gösterir.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<prosody volume="+20.00%">
Enjoy using text to speech.
</prosody>
</voice>
</speak>
Perdeyi değiştirme örneği
Bu SSML kod parçacığı, sesin yüksek perdede konuşabilmesi için özniteliğin nasıl pitch
kullanıldığını gösterir.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
</voice>
</speak>
Dağılım dağılımını değiştirme örneği
Bu SSML kod parçacığı, özniteliğin contour
dağılımı değiştirmek için nasıl kullanıldığını gösterir.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<prosody contour="(60%,-60%) (100%,+80%)" >
Were you the only person in the room?
</prosody>
</voice>
</speak>
Vurgu ayarlama
İsteğe bağlı emphasis
öğesini kullanarak metne sözcük düzeyi stres ekleyebilir veya kaldırabilirsiniz. Bu öğe yalnızca metin ve şu öğeleri içerebilir: , , , , , phoneme
, prosody
, say-as
, sub
ve voice
. lang
emphasis
break
audio
Not
Sözcük düzeyinde vurgu ayarı yalnızca şu sinir sesleri için kullanılabilir: en-US-GuyNeural
, en-US-DavisNeural
ve en-US-JaneNeural
.
Düşük aralıklı ve kısa süreli sözcükler için, perde fark edilecek kadar yükseltilmeyebilir.
Aşağıdaki tabloda öğenin öznitelikleri açıklanmaktadır emphasis
:
Öznitelik | Açıklama | Gerekli veya isteğe bağlı |
---|---|---|
level |
Uygulanacak vurgunun gücünü gösterir:
Öznitelik belirtilmediğinde level varsayılan düzey şeklindedir moderate . Her öznitelikle ilgili ayrıntılar için bkz . vurgu öğesi. |
İsteğe bağlı |
Vurgu örnekleri
öğesinin öznitelikleri emphasis
için desteklenen değerler hakkında bilgi için bkz . Vurguyu ayarlama.
Bu SSML kod parçacığı, "toplantılar" sözcüğüne emphasis
orta düzeyde vurgu eklemek için öğesini nasıl kullanabileceğinizi gösterir.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AndrewMultilingualNeural">
I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
</voice>
</speak>
Kayıtlı ses ekleme
audio
öğesi isteğe bağlıdır. SSML belgesine önceden kaydedilmiş ses eklemek için bunu kullanabilirsiniz. Ses dosyası kullanılamıyor veya yürütülemez durumdaysa öğenin gövdesi audio
düz metin veya konuşulan SSML işaretlemesi içerebilir. audio
öğesi metin ve şu öğeleri de içerebilir: audio
, break
, p
, s
, , phoneme
, prosody
, say-as
ve sub
.
SSML belgesine dahil olan tüm sesler şu gereksinimleri karşılamalıdır:
- Ses dosyası geçerli *.mp3, *.wav, *.opus, *.ogg, *.flac veya *.wma dosyaları olmalıdır.
- Tek bir yanıttaki tüm metin ve ses dosyalarının toplam süresi 600 saniyeyi aşamaz.
- Ses, müşteriye özgü veya diğer hassas bilgileri içermemelidir.
Not
audio
öğesi Uzun Ses API'sinde desteklenmez. Uzun biçimli metin okuma için bunun yerine toplu iş sentezi API'sini kullanın.
Aşağıdaki tabloda öğenin özniteliklerinin audio
kullanımı açıklanmaktadır:
Öznitelik | Açıklama | Gerekli veya isteğe bağlı |
---|---|---|
src |
Ses dosyasının URI konumu. Ses, İnternet'te erişilebilen bir HTTPS uç noktasında barındırılmalıdır. HTTPS gereklidir. Dosyayı barındıran etki alanı geçerli, güvenilir bir TLS/SSL sertifikası sunmalıdır. Gecikme süresini en aza indirmek için ses dosyasını metin okuma uç noktasıyla aynı Azure bölgesindeki Blob Depolama'ya yerleştirmeniz gerekir. | Zorunlu |
Ses örnekleri
öğesinin öznitelikleri audio
için desteklenen değerler hakkında bilgi için bkz . Kayıtlı ses ekleme.
Bu SSML kod parçacığı, iki .wav dosyasından ses eklemek için özniteliğin nasıl kullanılacağını src
gösterir.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<p>
<audio src="https://contoso.com/opinionprompt.wav"/>
Thanks for offering your opinion. Please begin speaking after the beep.
<audio src="https://contoso.com/beep.wav">
Could not play the beep, please voice your opinion now.
</audio>
</p>
</voice>
</speak>
Ses süresini ayarlama
Çıkış sesinin mstts:audioduration
süresini ayarlamak için öğesini kullanın. Ses çıkışı tamamlanma zamanlamasını eşitlemeye yardımcı olması için bu öğeyi kullanın. Ses süresi, özgün sesin hızıyla 2
çarpımları arasında 0.5
azaltılabilir veya artırılabilir. Orijinal ses, başka bir hız ayarı olmayan sestir. Konuşma hızı, ayarlanan değere göre yavaşlar veya buna göre artırılır.
Ses süresi ayarı, kapsayan voice
öğesi içindeki tüm giriş metnine uygulanır. Ses süresi ayarını yeniden sıfırlamak veya değiştirmek için, aynı sesle veya farklı bir sesle yeni voice
bir öğe kullanmanız gerekir.
Aşağıdaki tabloda öğenin özniteliklerinin mstts:audioduration
kullanımı açıklanmaktadır:
Öznitelik | Açıklama | Gerekli veya isteğe bağlı |
---|---|---|
value |
Çıkış sesinin istenen süresi gibi 2s saniye cinsinden veya gibi 2000ms milisaniye cinsinden.Çıkış ses süresi için maksimum değer 300 saniyedir. Bu değer, başka bir hız ayarı olmadan özgün sesin çarpımları içinde 0.5 2 olmalıdır. Örneğin, sesinizin istenen süresi ise 30s özgün ses 15 ile 60 saniye arasında olmalıdır. Bu sınırların dışında bir değer ayarlarsanız, süre ilgili minimum veya maksimum kat değerine göre ayarlanır. 300 saniyeden uzun çıkış sesi için, önce başka bir hız ayarı olmadan özgün sesi oluşturun, ardından istenen süreye ulaşmak için prosody hızını kullanarak ayarlama hızını hesaplayın. |
Zorunlu |
mstts ses süresi örnekleri
öğesinin öznitelikleri mstts:audioduration
için desteklenen değerler hakkında bilgi için bkz . Ses süresini ayarlama.
Bu örnekte özgün ses yaklaşık 15 saniyedir. mstts:audioduration
öğesi, ses süresini 20 saniye veya 20s
olarak ayarlamak için kullanılır.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>
Arka plan sesi ekleme
SSML belgelerinize arka plan sesi eklemek veya ses dosyasını metin okuma ile karıştırmak için öğesini kullanabilirsiniz mstts:backgroundaudio
. ile mstts:backgroundaudio
, arka planda bir ses dosyasını döngüye alabilir, metnin başında konuşmada belirebilir ve metnin sonundan konuşmaya kadar kaybolabilirsiniz.
Sağlanan arka plan sesi, metin okumadan kısaysa veya soluksa döngüye başlar. Metin okumadan daha uzunsa, solma tamamlandığında durur.
SSML belgesi başına yalnızca bir arka plan ses dosyasına izin verilir. SSML belgenize daha fazla ses eklemek için öğenin içindeki voice
etiketlerin arasını değiştirebilirsinizaudio
.
Not
mstts:backgroundaudio
öğesi tüm voice
öğelerin önüne yerleştirilmelidir. Belirtilirse, öğenin ilk alt öğesi speak
olmalıdır.
mstts:backgroundaudio
öğesi Uzun Ses API'sinde desteklenmez. Uzun biçimli metin okuma için bunun yerine toplu sentez API'sini (Önizleme) kullanın.
Aşağıdaki tabloda öğenin özniteliklerinin mstts:backgroundaudio
kullanımı açıklanmaktadır:
Öznitelik | Açıklama | Gerekli veya isteğe bağlı |
---|---|---|
src |
Arka plan ses dosyasının URI konumu. | Zorunlu |
volume |
Arka plan ses dosyasının ses düzeyi. Kabul edilen değerler: 0 dahil olmak üzere 100 . Varsayılan değer şudur: 1 . |
İsteğe bağlı |
fadein |
Arka plan sesinin süresi milisaniye olarak kaybolur. Varsayılan değer, 0 belirmemeye eşdeğer olan değeridir. Kabul edilen değerler: 0 dahil olmak üzere 10000 . |
İsteğe bağlı |
fadeout |
Arka plan sesinin süresi milisaniye cinsinden kaybolur. Varsayılan değer, 0 belirmemeye eşdeğer olan değeridir. Kabul edilen değerler: 0 dahil olmak üzere 10000 . |
İsteğe bağlı |
mstss backgroundaudio örnekleri
öğesinin öznitelikleri mstts:backgroundaudi
için desteklenen değerler hakkında bilgi için bkz . Arka plan sesi ekleme.
<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
<mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
<voice name="en-US-AvaMultilingualNeural">
The text provided in this document will be spoken over the background audio.
</voice>
</speak>