Uygulamanızda kişisel sesi kullanma
100'den fazla yerel ayarda desteklenen 91 dilden herhangi birinde konuşmayı sentezlemek için kişisel sesinizin konuşmacı profili kimliğini kullanabilirsiniz. Yerel ayar etiketi gerekli değildir. Kişisel ses, cümle düzeyinde otomatik dil algılamayı kullanır.
Uygulamanızda kişisel sesi tümleştirme
Uygulamanızda kişisel sesi kullanmak için konuşma sentezi işaretleme dilini (SSML) kullanmanız gerekir. SSML, yapay konuşma oluşturma için metni işaretlemek için standart bir yol sağlayan XML tabanlı bir işaretleme dilidir. SSML etiketleri konuşma sentezi çıkışının söylenişini, ses düzeyini, perdesini, hızını ve diğer özniteliklerini denetlemek için kullanılır.
speakerProfileId
SSML'deki özelliği, kişisel ses için konuşmacı profili kimliğini belirtmek için kullanılır.Ses adı SSML'deki özelliğinde
name
belirtilir. Kişisel ses için ses adı desteklenen temel model ses adlarından biri olmalıdır. Desteklenen temel model ses adlarının listesini almak için özel ses API'sinin BaseModels_List işlemini kullanın.Not
veya gibi
DragonLatestNeural
PhoenixLatestNeural
ileLatest
etiketlenmiş ses adları zaman zaman güncelleştirilir; performansı, devam eden iyileştirmeler için güncelleştirmelerle farklılık gösterebilir. Sabit bir sürüm kullanmak istiyorsanız, gibiPhoenixV2Neural
bir sürüm numarasıyla etiketlenmiş bir sürüm seçin.DragonLatestNeural
ile karşılaştırıldığındaPhoenixLatestNeural
üstün ses kopyalama benzerliğine sahip bir temel modeldir.PhoenixLatestNeural
, daha doğru telaffuza ve daha düşük gecikme süresine sahip bir temel modeldirDragonLatestNeural
.Kişisel ses için, konuşma dilini ayarlamak için öğesini kullanabilirsiniz
<lang xml:lang>
. Çok dilli seslerle aynıdır. Farklı dilleri konuşmak için lang öğesini nasıl kullanacağınızı görün.
Ses adı ve konuşmacı profili kimliğiyle metin okuma isteğinde örnek SSML aşağıda verilmiştir. Örnek ayrıca, öğesini kullanarak <lang xml:lang>
diller en-US
arasında geçiş yapmayı zh-HK
da gösterir.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
SSML'yi Konuşma SDK'sı veya REST API aracılığıyla kullanabilirsiniz.
- Gerçek zamanlı konuşma sentezi: Metni konuşmaya dönüştürmek için Konuşma SDK'sını veya REST API'sini kullanın.
- Konuşma SDK'sı kullanırken, önceden oluşturulmuş ses gibi Uç Nokta Kimliği'ni ayarlamayın.
- REST API kullanırken lütfen önceden oluşturulmuş sinir sesleri uç noktasını kullanın.
Kişisel ses için desteklenen ve desteklenmeyen SSML öğeleri
Phoenix ve Dragon modelleri için desteklenen ve desteklenmeyen SSML öğeleri hakkında ayrıntılı bilgi için aşağıdaki tabloya bakın. SSML öğelerini kullanma yönergeleri için SSML belge yapısına ve olaylarına bakın.
Öğe | Açıklama | Phoenix'te desteklenir | Dragon'da desteklenir |
---|---|---|---|
<voice> |
Sesi ve isteğe bağlı efektleri (eq_car ve eq_telecomhp8k ) belirtir. |
Yes | Yes |
<mstts:express-as> |
Konuşma stillerini ve rollerini belirtir. | Hayır | Hayır |
<mstts:ttsembedding> |
speakerProfileId Kişisel ses özelliğini belirtir. |
Yes | Yes |
<lang xml:lang> |
Konuşma dilini belirtir. | Yes | Yes |
<prosody> |
Perdeyi, konturu, aralığı, hızı ve hacmi ayarlar. | ||
pitch |
Metnin temel perdesini gösterir. | Hayır | Hayır |
contour |
Sunumdaki değişiklikleri temsil eder. | Hayır | Hayır |
range |
Metin için aralık aralığını temsil eder. | Hayır | Hayır |
rate |
Metnin konuşma hızını gösterir. | Yes | Yes |
volume |
Konuşma sesinin ses düzeyini gösterir. | Hayır | Hayır |
<emphasis> |
Metin için sözcük düzeyi stres ekler veya kaldırır. | Hayır | Hayır |
<audio> |
Önceden kaydedilmiş sesi bir SSML belgesine ekler. | Yes | Hayır |
<mstts:audioduration> |
Çıkış sesinin süresini belirtir. | Hayır | Hayır |
<mstts:backgroundaudio> |
SSML belgelerinize arka plan sesi ekler veya ses dosyasını metin okuma ile karıştırır. | Yes | Hayır |
<phoneme> |
SSML belgelerinde fonetik telaffuzu belirtir. | ||
ipa |
Fonetik alfabelerden biri. | Yes | Hayır |
sapi |
Fonetik alfabelerden biri. | Hayır | Hayır |
ups |
Fonetik alfabelerden biri. | Yes | Hayır |
x-sampa |
Fonetik alfabelerden biri. | Yes | Hayır |
<lexicon> |
SSML'de birden çok varlığın nasıl okunduğu tanımlar. | Yes | Evet (yalnızca destek diğer adı) |
<say-as> |
Öğenin metninin sayı veya tarih gibi içerik türünü gösterir. | Yes | Yes |
<sub> |
Diğer ad özniteliğinin metin değerinin öğenin kapalı metni yerine telaffuz edilmesi gerektiğini gösterir. | Yes | Yes |
<math> |
MathML'yi giriş metni olarak kullanarak çıkış sesindeki matematiksel gösterimi düzgün bir şekilde telaffuz eder. | Yes | Hayır |
<bookmark> |
Ses akışındaki her işaretçinin uzaklığını alır. | Yes | Hayır |
<break> |
Sözcükler arasında kesmelerin veya duraklamaların varsayılan davranışını geçersiz kılar. | Yes | Yes |
<mstts:silence> |
Eklemeler metinden önce veya sonra ya da bitişik iki cümle arasına duraklar. | Yes | Hayır |
<mstts:viseme> |
Bir kişi konuşurken yüzün ve ağzın konumunu tanımlar. | Yes | Hayır |
<p> |
SSML belgelerindeki paragrafları belirtir. | Yes | Yes |
<s> |
SSML belgelerindeki tümceleri belirtir. | Yes | Yes |
Kişisel ses için desteklenen ve desteklenmeyen SDK özellikleri
Aşağıdaki tabloda Phoenix ve Dragon modellerinde hangi SDK özelliklerinin desteklendiği özetlenmektedir. Uygulamalarınızda bu SDK özelliklerini kullanma hakkında ayrıntılı bilgi için bkz. Sentezleyici olaylarına abone olma.
SDK özellikleri | Açıklama | Phoenix'te desteklenir | Dragon'da desteklenir |
---|---|---|---|
Sözcük sınırı | Sentez sırasında bir sözcük sınırının alındığının sinyalleri, konuşma sentezi işlemi sırasında kesin sözcük zamanlaması sağlar. | Yes | Hayır |
Viseme olayları | Sentez sırasında viseme (dudaklar, çene ve dil hareketi) bilgileri sağlayarak görsel eşitleme sağlar. | Yes | Hayır |