Profesyonel ses modelinizi eğitin

Makale
02/21/2024

Bu makalede, Speech Studio portalı aracılığıyla özel bir sinir sesini eğitmeyi öğreneceksiniz.

Önemli

Özel sinir sesi eğitimi şu anda yalnızca bazı bölgelerde kullanılabilir. Ses modeliniz desteklenen bir bölgede eğitildikten sonra, gerektiğinde başka bir bölgedeki Konuşma kaynağına kopyalayabilirsiniz. Daha fazla bilgi için Konuşma hizmeti tablosundaki dipnotlara bakın.

Eğitim süresi, ne kadar veri kullandığınıza bağlı olarak değişir. Özel bir sinir sesini eğitmek ortalama olarak yaklaşık 40 işlem saati sürer. Standart abonelik (S0) kullanıcıları aynı anda dört sesi eğitebilir. Sınıra ulaşırsanız ses modellerinden en az birinin eğitimi tamamlanmasını bekleyin ve sonra yeniden deneyin.

Not

Eğitim yöntemi başına gereken toplam saat sayısı değişse de, her biri için aynı birim fiyat geçerlidir. Daha fazla bilgi için özel sinir eğitimi fiyatlandırma ayrıntılarına bakın.

Eğitim yöntemi seçme

Veri dosyalarınızı doğruladıktan sonra bunları kullanarak özel nöral ses modelinizi oluşturun. Özel bir sinir sesi oluşturduğunuzda, bunu aşağıdaki yöntemlerden biriyle eğitmeyi seçebilirsiniz:

Sinirsel: Eğitim verilerinizin aynı dilinde bir ses oluşturun.
Sinir - diller arası: Eğitim verilerinizden farklı bir dil konuşan bir ses oluşturun. Örneğin, eğitim verileriyle zh-CN konuşan en-USbir ses oluşturabilirsiniz.

Eğitim verilerinin dili ve hedef dil, diller arası ses eğitimi için desteklenen dillerden biri olmalıdır. Eğitim verilerini hedef dilde hazırlamanız gerekmez, ancak test betiğinizin hedef dilde olması gerekir.
Nöral - çok stilli: Yeni eğitim verileri eklemeden birden çok stilde ve duyguda konuşan özel bir sinir sesi oluşturun. Video oyunu karakterleri, konuşma sohbet botları, sesli kitaplar, içerik okuyucular ve daha fazlası için birden çok stil sesi kullanışlıdır.

Birden çok stilde ses oluşturmak için en az 300 konuşma içeren bir genel eğitim verileri kümesi hazırlamanız gerekir. Önceden ayarlanmış hedef konuşma stillerinden birini veya daha fazlasını seçin. Aynı ses için ek eğitim verileri olarak stil başına en az 100 konuşma içeren stil örnekleri sağlayarak birden çok özel stil de oluşturabilirsiniz. Desteklenen ön ayar stilleri farklı dillere göre değişir. Farklı dillerde kullanılabilen hazır stiller bölümüne bakın.

Eğitim verilerinin dili, özel sinir sesi, çapraz dil veya birden çok stil eğitimi için desteklenen dillerden biri olmalıdır.

Özel nöral ses modelinizi eğitin

Speech Studio'da özel bir sinir sesi oluşturmak için aşağıdaki yöntemlerden biri için şu adımları izleyin:

Speech Studio'da oturum açın.
Özel ses<>Projenizin adı>>Modeli>eğit yeni bir model eğitin'i seçin.
Modeliniz için eğitim yöntemi olarak Sinir'i ve ardından İleri'yi seçin. Farklı bir eğitim yöntemi kullanmak için bkz . Sinir - diller arası veya Sinir - çoklu stil.
Modeliniz için eğitim tarifinin bir sürümünü seçin. En son sürüm varsayılan olarak seçilidir. Desteklenen özellikler ve eğitim süresi sürüme göre farklılık gösterebilir. Normalde en son sürümü öneririz. Bazı durumlarda, eğitim süresini kısaltmak için önceki bir sürümü seçebilirsiniz. İki dilli eğitim ve yerel ayarlar arasındaki farklar hakkında daha fazla bilgi için bkz. İki dilli eğitim.

Not

, , V4.2021.10V5.2022.05, V6.2022.11ve V9.2023.10 model sürümleri V2.2021.071 Ekim 2024'e kadar kullanımdan kaldırılacaktır. Bu kullanımdan kaldırılan sürümlerde önceden oluşturulmuş ses modelleri etkilenmez.
Eğitim için kullanmak istediğiniz verileri seçin. Yinelenen ses adları eğitimden kaldırılır. Seçtiğiniz verilerin birden çok .zip dosyada aynı ses adlarını içermediğinden emin olun.

Eğitim için yalnızca başarıyla işlenen veri kümelerini seçebilirsiniz. Eğitim kümenizi listede görmüyorsanız veri işleme durumunuzu denetleyin.
Eğitim verilerinizdeki konuşmacıya karşılık gelen ses yeteneği deyiminin yer aldığı bir konuşmacı dosyası seçin.
İleri'yi seçin.
Her eğitim, modeli varsayılan betikle test etmeye yardımcı olmak için otomatik olarak 100 örnek ses dosyası oluşturur.

İsteğe bağlı olarak, Kendi test betiğimi ekle'yi seçebilir ve modeli ek ücret ödemeden test etmek için en fazla 100 konuşma içeren kendi test betiğinizi sağlayabilirsiniz. Oluşturulan ses dosyaları, otomatik test betikleri ve özel test betiklerinin bir bileşimidir. Daha fazla bilgi için bkz . test betiği gereksinimleri.
Modeli tanımlamanıza yardımcı olması için bir Ad girin. Bir adı dikkatle seçin. Model adı, SDK ve SSML girişi tarafından konuşma sentezi isteğinizde ses adı olarak kullanılır. Yalnızca harflere, sayılara ve birkaç noktalama işaretine izin verilir. Farklı nöral ses modelleri için farklı adlar kullanın.
İsteğe bağlı olarak, modeli tanımlamanıza yardımcı olması için Açıklama'yı girin. Açıklamanın yaygın kullanımlarından biri, modeli oluştururken kullandığınız verilerin adlarını kaydetmektir.
İleri'yi seçin.
Ayarları gözden geçirin ve kullanım koşullarını kabul etmek için kutuyu seçin.
Modeli eğitmeye başlamak için Gönder'i seçin.

Speech Studio'da oturum açın.
Özel ses<>Projenizin adı>>Modeli>eğit yeni bir model eğitin'i seçin.
Modeliniz için eğitim yöntemi olarak Nöral - çoklu stil'i seçin. Farklı bir eğitim yöntemi kullanmak için bkz . Sinir veya Sinir - çapraz dil.
Eğitmek için önceden ayarlanmış bir veya daha fazla konuşma stili seçin.
Eğitim için kullanmak istediğiniz verileri seçin. Yinelenen ses adları eğitimden kaldırılır. Seçtiğiniz verilerin birden çok .zip dosyada aynı ses adlarını içermediğinden emin olun.

Eğitim için yalnızca başarıyla işlenen veri kümelerini seçebilirsiniz. Eğitim kümenizi listede görmüyorsanız veri işleme durumunuzu denetleyin.
İleri'yi seçin.
İsteğe bağlı olarak, başka özel konuşma stilleri de ekleyebilirsiniz. En fazla özel stil sayısı dile göre değişir: English (United States) en fazla 10 özel stile izin verir, Chinese (Mandarin, Simplified) en fazla dört özel stile izin verir ve Japanese (Japan) en fazla beş özel stile izin verir.
1. Özel stil ekle'yi seçin ve istediğiniz özel stil adını girin. Bu ad, uygulamanız tarafından Konuşma Sentezi Biçimlendirme Dili (SSML) öğesi içinde style kullanılır. Ayrıca, Speech Studio'daki Ses İçeriği Oluşturma aracını kullanarak özel stil adını SSML olarak da kullanabilirsiniz.
2. Stil örneklerini eğitim verileri olarak seçin. Özel konuşma stilleri için eğitim verilerinin, varsayılan stili oluşturmak için kullanılan verilerle aynı konuşmacıdan geldiğinden emin olun.
İleri'yi seçin.
Eğitim verilerinizdeki konuşmacıya karşılık gelen ses yeteneği deyiminin yer aldığı bir konuşmacı dosyası seçin.
İleri'yi seçin.
Her eğitim, varsayılan stil için 100 örnek ses dosyası ve modeli varsayılan betikle test etmeye yardımcı olmak üzere önceden ayarlanmış her stil için 20'yi otomatik olarak oluşturur.

İsteğe bağlı olarak, Kendi test betiğimi ekle'yi seçebilir ve varsayılan stili ek ücret ödemeden test etmek için en fazla 100 konuşma içeren kendi test betiğinizi sağlayabilirsiniz. Oluşturulan ses dosyaları, otomatik test betikleri ve özel test betiklerinin bir bileşimidir. Daha fazla bilgi için bkz . test betiği gereksinimleri.

Modeli tanımlamanıza yardımcı olması için bir Ad girin. Bir adı dikkatle seçin. Model adı, SDK ve SSML girişi tarafından konuşma sentezi isteğinizde ses adı olarak kullanılır. Yalnızca harflere, sayılara ve birkaç noktalama işaretine izin verilir. Farklı nöral ses modelleri için farklı adlar kullanın.
İsteğe bağlı olarak, modeli tanımlamanıza yardımcı olması için Açıklama'yı girin. Açıklamanın yaygın kullanımlarından biri, modeli oluştururken kullandığınız verilerin adlarını kaydetmektir.
İleri'yi seçin.
Ayarları gözden geçirin ve kullanım koşullarını kabul etmek için kutuyu seçin.
Modeli eğitmeye başlamak için Gönder'i seçin.

İki dilli eğitim

Nöral eğitim türünü seçerseniz, sesi birden çok dilde konuşabilecek şekilde eğitebilirsiniz. zh-CN ve zh-TW yerel ayarları, sesin hem Çince hem de İngilizce konuşabilmek için iki dilli eğitimi destekler. Kısmen eğitim verilerinize bağlı olarak, sentezlenen ses İngilizce ana aksanlı İngilizce veya eğitim verileriyle aynı vurguya sahip İngilizce konuşabilir.

Not

Yerel ayardaki zh-CN bir sesin örnek verilerle aynı vurguyla İngilizce konuşmasını sağlamak için proje oluştururken veya Chinese (Mandarin, Simplified), English bilingual REST API aracılığıyla eğitim kümesi verilerinin zh-CN (English bilingual) yerel ayarını belirtmeniz gerekir.

Aşağıdaki tabloda iki yerel ayar arasındaki farklar gösterilmektedir:

Speech Studio yerel ayarı	REST API yerel ayarı	İki dilli destek
`Chinese (Mandarin, Simplified)`	`zh-CN`	Örnek verileriniz İngilizce içeriyorsa, sentezlenen ses İngilizce veri miktarından bağımsız olarak örnek verilerle aynı aksan yerine İngilizce ana aksanla İngilizce konuşur.
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	Sentezlenen sesin örnek verilerle aynı vurguyla İngilizce konuşmasını istiyorsanız, eğitim kümenize %10'un üzerinde İngilizce veri eklemenizi öneririz. Aksi takdirde İngilizce konuşan aksan ideal olmayabilir.
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	Örnek verilerinizle aynı aksanla İngilizce konuşabilen sentezlenmiş bir ses eğitmek istiyorsanız, eğitim kümenizde %10'un üzerinde İngilizce veri sağladığınızdan emin olun. Aksi takdirde, varsayılan olarak İngilizce yerel aksan kullanılır. %10 eşiği, karşıya yüklemeden önce alınan veriler değil, başarılı karşıya yükleme sonrasında kabul edilen veriler temel alınarak hesaplanır. Karşıya yüklenen bazı İngilizce veriler hatalardan dolayı reddedilirse ve %10 eşiğini karşılamıyorsa, sentezlenen ses varsayılan olarak İngilizce yerel aksan olarak ayarlanır.

Farklı dillerde kullanılabilir önceden ayarlanmış stiller

Aşağıdaki tabloda, farklı dillere göre farklı önceden ayarlanmış stiller özetlemektedir.

Konuşma stili	Dil (yerel ayar)
kızgın	İngilizce (Birleşik Devletler) (`en-US`) Japonca (Japonya) (`ja-JP`) ¹ Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
sakin	Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
sohbet	Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
neşeli	İngilizce (Birleşik Devletler) (`en-US`) Japonca (Japonya) (`ja-JP`) ¹ Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
hoşnutsuz	Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
heyecanlı	İngilizce (Birleşik Devletler) (`en-US`)
korkulu	Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
dostça	İngilizce (Birleşik Devletler) (`en-US`)
umutlu	İngilizce (Birleşik Devletler) (`en-US`)
üzgün	İngilizce (Birleşik Devletler) (`en-US`) Japonca (Japonya) (`ja-JP`) ¹ Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
Bağır -arak	İngilizce (Birleşik Devletler) (`en-US`)
ciddi	Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
Dehşete	İngilizce (Birleşik Devletler) (`en-US`)
düşmanca değil	İngilizce (Birleşik Devletler) (`en-US`)
Fısıldıyor	İngilizce (Birleşik Devletler) (`en-US`)

¹ Sinir sesi stili genel önizlemede kullanılabilir. Genel önizlemedeki stiller yalnızca şu hizmet bölgelerinde kullanılabilir: Doğu ABD, Batı Avrupa ve Güneydoğu Asya.

Modeli eğit tablosu, yeni oluşturulan bu modele karşılık gelen yeni bir girdi görüntüler. Durum, bu tabloda açıklandığı gibi verilerinizi bir ses modeline dönüştürme işlemini yansıtır:

Durum	Anlamı
İşleme	Ses modeliniz oluşturuluyor.
Başarılı	Ses modeliniz oluşturuldu ve dağıtılabilir.
Başarısız	Ses modeliniz eğitimde başarısız oldu. Hatanın nedeni, örneğin görünmeyen veri sorunları veya ağ sorunları olabilir.
İptal edildi	Ses modeliniz için eğitim iptal edildi.

Model durumu İşleniyor olsa da ses modelinizi iptal etmek için Eğitimi iptal et'i seçebilirsiniz. İptal edilen bu eğitim için sizden ücret alınmaz.

Bir model için eğitimin nasıl iptal edileceğini gösteren ekran görüntüsü.

Modelin eğitimini başarıyla tamamladıktan sonra model ayrıntılarını gözden geçirebilir ve ses modelinizi test edebilirsiniz.

Ses oluşturmak ve dağıtılan sesinize ince ayar yapmak için Speech Studio'daki Ses İçeriği Oluşturma aracını kullanabilirsiniz. Sesinize uygunsa, birden çok stilden birini seçebilirsiniz.

Modelinizi yeniden adlandırma

Oluşturduğunuz modeli yeniden adlandırmak istiyorsanız Modeli klonla'yı seçerek geçerli projede yeni bir adla modelin bir kopyasını oluşturun.
Ses modelini klonla penceresine yeni adı girin ve Gönder'i seçin. Nöral metni, yeni model adınıza otomatik olarak sonek olarak eklenir.

Ses modelinizi test etme

Ses modeliniz başarıyla oluşturulduktan sonra, dağıtımdan önce test etmek için oluşturulan örnek ses dosyalarını kullanabilirsiniz.

Sesin kalitesi, aşağıdakiler gibi birçok faktöre bağlıdır:

Eğitim verilerinin boyutu.
Kaydın kalitesi.
Transkript dosyasının doğruluğu.
Eğitim verilerindeki kaydedilen ses, hedeflenen kullanım örneğine göre tasarlanan sesin kişiliğiyle ne kadar iyi eşleşir.

Örnek ses dosyalarını dinlemek için Test altında DefaultTests'i seçin. Varsayılan test örnekleri, modeli test etmeye yardımcı olmak için eğitim sırasında otomatik olarak oluşturulan 100 örnek ses dosyası içerir. Varsayılan olarak sağlanan bu 100 ses dosyasına ek olarak, kendi test betiği konuşmalarınız da DefaultTests kümesine eklenir. Bu ekleme en fazla 100 konuşmadır. DefaultTests ile test için sizden ücret alınmaz.

Test altında DefaultTests'i seçme işleminin ekran görüntüsü.

Modelinizi daha fazla test etmek için kendi test betiklerinizi karşıya yüklemek istiyorsanız Kendi test betiğinizi karşıya yüklemek için Test betikleri ekle'yi seçin.

Model testi betikleri ekleme ekran görüntüsü.

Test betiğini karşıya yüklemeden önce Test betiği gereksinimlerini denetleyin. Faturalanabilir karakter sayısına göre toplu sentezle ek test için ücretlendirilirsiniz. Bkz. Azure AI Konuşma fiyatlandırması.

Test betikleri ekle'nin altında, Dosyaya gözat'ı seçerek kendi betiğinizi seçin ve ardından karşıya yüklemek için Ekle'yi seçin.

Model testi betiklerini karşıya yükleme işleminin ekran görüntüsü.

Test betiği gereksinimleri

Test betiği 1 MB'tan küçük bir .txt dosyası olmalıdır. AnSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE veya UTF-16-BE kodlama biçimleri desteklenir.

Eğitim transkripsiyon dosyalarının aksine, test betiği her konuşmanın dosya adı olan konuşma kimliğini dışlamalıdır. Aksi takdirde, bu kimlikler konuşulur.

Bir .txt dosyasındaki örnek konuşma kümesi aşağıda verilmiştir:

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Konuşmanın her paragrafı ayrı bir sese neden olur. Tüm cümleleri tek bir seste birleştirmek istiyorsanız, bunları tek bir paragraf yapın.

Not

Oluşturulan ses dosyaları, otomatik test betikleri ve özel test betiklerinin bir bileşimidir.

Ses modeliniz için altyapı sürümünü güncelleştirme

Azure metin okuma altyapıları, dilin söylenişini tanımlayan en son dil modelini yakalamak için zaman zaman güncelleştirilir. Sesinizi eğitdikten sonra en son altyapı sürümüne güncelleştirerek sesinizi yeni dil modeline uygulayabilirsiniz.

Yeni bir altyapı kullanılabilir olduğunda, sinir sesi modelinizi güncelleştirmeniz istenir.
En son altyapıyı yüklemek için model ayrıntıları sayfasına gidin ve ekrandaki yönergeleri izleyin.

Alternatif olarak, modelinizi en son altyapı sürümüne güncelleştirmek için En son altyapıyı daha sonra yükle'yi seçin.

Altyapı güncelleştirmesi için sizden ücret alınmaz. Önceki sürümler hala korunur.
Motor sürümü listesinden modelin tüm altyapı sürümlerini denetleyebilirsiniz veya artık ihtiyacınız yoksa modeli kaldırabilirsiniz.

Güncelleştirilmiş sürüm otomatik olarak varsayılan olarak ayarlanır. Ancak, açılan listeden bir sürüm seçip Varsayılan olarak ayarla'yı seçerek varsayılan sürümü değiştirebilirsiniz.

Ses modelinizin her altyapı sürümünü test etmek istiyorsanız, listeden bir sürüm seçebilir ve ardından örnek ses dosyalarını dinlemek için Test altında DefaultTests'i seçebilirsiniz. Geçerli altyapı sürümünüzü daha fazla test etmek için kendi test betiklerinizi karşıya yüklemek istiyorsanız, önce sürümün varsayılan olarak ayarlandığından emin olun, ardından Ses modelinizi test etme'deki adımları izleyin.

Altyapının güncelleştirilmesi, ek ücret ödemeden modelin yeni bir sürümünü oluşturur. Ses modelinizin altyapı sürümünü güncelleştirdikten sonra yeni bir uç nokta oluşturmak için yeni sürümü dağıtmanız gerekir. Yalnızca varsayılan sürümü dağıtabilirsiniz.

Ses modelinizin yeni bir sürümünü yeniden dağıtmayı gösteren ekran görüntüsü.

Yeni bir uç nokta oluşturduktan sonra trafiği ürününüzdeki yeni uç noktaya aktarmanız gerekir.

Bu özelliğin özellikleri ve sınırları ve model kalitenizi iyileştirmeye yönelik en iyi uygulama hakkında daha fazla bilgi edinmek için bkz . Özel sinir sesini kullanma özellikleri ve sınırlamaları.

Ses modelinizi başka bir projeye kopyalama

Ses modelinizi aynı bölge veya başka bir bölge için başka bir projeye kopyalayabilirsiniz. Örneğin, bir bölgede eğitilmiş bir sinir sesi modelini başka bir bölge için bir projeye kopyalayabilirsiniz.

Not

Özel sinir sesi eğitimi şu anda yalnızca bazı bölgelerde kullanılabilir. Sinir ses modelini bu bölgelerden diğer bölgelere kopyalayabilirsiniz. Daha fazla bilgi için bkz . Özel sinir sesi bölgeleri.

Özel sinir sesi modelinizi başka bir projeye kopyalamak için:

Modeli eğit sekmesinde, kopyalamak istediğiniz ses modelini seçin ve ardından Projeye kopyala'yı seçin.
Modeli kopyalamak istediğiniz Abonelik, Bölge, Konuşma kaynağı ve Project'i seçin. Hedef bölgede bir konuşma kaynağınız ve projeniz olmalıdır, aksi takdirde önce bunları oluşturmanız gerekir.
Modeli kopyalamak için Gönder'i seçin.
Başarılı kopyalama için bildirim iletisinin altında Modeli görüntüle'yi seçin.

Model kopyasını dağıtmak için modeli kopyaladığınız projeye gidin.

Sonraki adımlar

Profesyonel ses uç noktasını dağıtma

Bu makalede, özel ses API'sini kullanarak özel bir sinir sesini eğitmeyi öğreneceksiniz.

Önemli

Not

Eğitim yöntemi başına gereken toplam saat sayısı değişse de, her biri için aynı birim fiyat geçerlidir. Daha fazla bilgi için özel sinir eğitimi fiyatlandırma ayrıntılarına bakın.

Eğitim yöntemi seçme

Sinirsel: Eğitim verilerinizin aynı dilinde bir ses oluşturun.
Sinir - diller arası: Eğitim verilerinizden farklı bir dil konuşan bir ses oluşturun. Örneğin, eğitim verileriyle fr-FR konuşan en-USbir ses oluşturabilirsiniz.

Eğitim verilerinin dili ve hedef dil, diller arası ses eğitimi için desteklenen dillerden biri olmalıdır. Eğitim verilerini hedef dilde hazırlamanız gerekmez, ancak test betiğinizin hedef dilde olması gerekir.
Nöral - çok stilli: Yeni eğitim verileri eklemeden birden çok stilde ve duyguda konuşan özel bir sinir sesi oluşturun. Video oyunu karakterleri, konuşma sohbet botları, sesli kitaplar, içerik okuyucular ve daha fazlası için birden çok stil sesi kullanışlıdır.

Birden çok stilde ses oluşturmak için en az 300 konuşma içeren bir genel eğitim verileri kümesi hazırlamanız gerekir. Önceden ayarlanmış hedef konuşma stillerinden birini veya daha fazlasını seçin. Aynı ses için ek eğitim verileri olarak stil başına en az 100 konuşma içeren stil örnekleri sağlayarak birden çok özel stil de oluşturabilirsiniz. Desteklenen ön ayar stilleri farklı dillere göre değişir. Farklı dillerde kullanılabilen hazır stiller bölümüne bakın.

Eğitim verilerinin dili, özel sinir sesi, çapraz dil veya birden çok stil eğitimi için desteklenen dillerden biri olmalıdır.

Ses modeli oluşturma

Sinir sesi oluşturmak için özel ses API'sinin Models_Create işlemini kullanın. İstek gövdesini aşağıdaki yönergelere göre oluşturun:

Gerekli projectId özelliği ayarlayın. Bkz . proje oluşturma.
Gerekli consentId özelliği ayarlayın. Bkz . Ses yeteneği onayı ekleme.
Gerekli trainingSetId özelliği ayarlayın. Bkz . Eğitim kümesi oluşturma.
Nöral ses eğitimi için gerekli tarif kind özelliğini olarak Default ayarlayın. Tarif türü eğitim yöntemini gösterir ve daha sonra değiştirilemez. Farklı bir eğitim yöntemi kullanmak için bkz . Sinir - diller arası veya Sinir - çoklu stil. İki dilli eğitim ve yerel ayarlar arasındaki farklar hakkında daha fazla bilgi için bkz. İki dilli eğitim.
Gerekli voiceName özelliği ayarlayın. Ses adı "Nöral" ile bitmelidir ve daha sonra değiştirilemez. Bir adı dikkatle seçin. Ses adı, SDK ve SSML girişi tarafından konuşma sentezi isteğinizde kullanılır. Yalnızca harflere, sayılara ve birkaç noktalama işaretine izin verilir. Farklı nöral ses modelleri için farklı adlar kullanın.
İsteğe bağlı olarak, sesli açıklama özelliğini ayarlayın description . Sesli açıklama daha sonra değiştirilebilir.

Aşağıdaki Models_Create örnekte gösterildiği gibi URI kullanarak bir HTTP PUT isteği oluşturun.

değerini Konuşma kaynak anahtarınız ile değiştirin YourResourceKey .
değerini Konuşma kaynak bölgenizle değiştirin YourResourceRegion .
değerini istediğiniz model kimliğiyle değiştirin JessicaModelId . Büyük/küçük harfe duyarlı kimlik modelin URI'sinde kullanılır ve daha sonra değiştirilemez.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Aşağıdaki biçimde bir yanıt gövdesi almanız gerekir:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Çapraz dil sinir sesi oluşturmak için özel ses API'sinin Models_Create işlemini kullanın. İstek gövdesini aşağıdaki yönergelere göre oluşturun:

Gerekli projectId özelliği ayarlayın. Bkz . proje oluşturma.
Gerekli consentId özelliği ayarlayın. Bkz . Ses yeteneği onayı ekleme.
Gerekli trainingSetId özelliği ayarlayın. Bkz . Eğitim kümesi oluşturma.
Diller arası ses eğitimi için gerekli tarif kind özelliğini olarak CrossLingual ayarlayın. Tarif türü eğitim yöntemini gösterir ve daha sonra değiştirilemez. Farklı bir eğitim yöntemi kullanmak için bkz . Sinir veya Sinir - çoklu stil.
Gerekli voiceName özelliği ayarlayın. Ses adı "Nöral" ile bitmelidir ve daha sonra değiştirilemez. Bir adı dikkatle seçin. Ses adı, SDK ve SSML girişi tarafından konuşma sentezi isteğinizde kullanılır. Yalnızca harflere, sayılara ve birkaç noktalama işaretine izin verilir. Farklı nöral ses modelleri için farklı adlar kullanın.
Sesinizin konuştuğu dil için gerekli locale özelliği ayarlayın. Ses, eğitim verilerinizden farklı bir dil konuşuyor. Ses modeli için yalnızca bir hedef dil belirtebilirsiniz.
İsteğe bağlı olarak, sesli açıklama özelliğini ayarlayın description . Sesli açıklama daha sonra değiştirilebilir.

Aşağıdaki Models_Create örnekte gösterildiği gibi URI kullanarak bir HTTP PUT isteği oluşturun.

değerini Konuşma kaynak anahtarınız ile değiştirin YourResourceKey .
değerini Konuşma kaynak bölgenizle değiştirin YourResourceRegion .
değerini istediğiniz model kimliğiyle değiştirin JessicaModelId . Büyük/küçük harfe duyarlı kimlik modelin URI'sinde kullanılır ve daha sonra değiştirilemez.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaCrossLingualNeural",
  "description": "Jessica cross lingual voice",
  "recipe": {
    "kind": "CrossLingual"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "Jessica-en-US-TrainingSetId",
  "locale": "fr-FR"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Aşağıdaki biçimde bir yanıt gövdesi almanız gerekir:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeuralCrossLingual",
  "description": "Jessica cross lingual voice",
  "recipe": {
    "kind": "CrossLingual",
    "version": "V5.2023.07"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "Jessica-en-US-TrainingSetId",
  "locale": "fr-FR",
  "engineVersion": "2023.11.14.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Çok stilli bir sinir sesi oluşturmak için özel ses API'sinin Models_Create işlemini kullanın. İstek gövdesini aşağıdaki yönergelere göre oluşturun:

Gerekli projectId özelliği ayarlayın. Bkz . proje oluşturma.
Gerekli consentId özelliği ayarlayın. Bkz . Ses yeteneği onayı ekleme.
Gerekli trainingSetId özelliği ayarlayın. Bkz . Eğitim kümesi oluşturma.
Birden çok stil ses eğitimi için gerekli tarif kind özelliğini olarak MultiStyle ayarlayın. Tarif türü eğitim yöntemini gösterir ve daha sonra değiştirilemez. Farklı bir eğitim yöntemi kullanmak için bkz . Sinir veya Sinir - çapraz dil.
Gerekli voiceName özelliği ayarlayın. Ses adı "Nöral" ile bitmelidir ve daha sonra değiştirilemez. Bir adı dikkatle seçin. Ses adı, SDK ve SSML girişi tarafından konuşma sentezi isteğinizde kullanılır. Yalnızca harflere, sayılara ve birkaç noktalama işaretine izin verilir. Farklı nöral ses modelleri için farklı adlar kullanın.
Ses modelinizin dili için gerekli locale özelliği ayarlayın.
Gerekli presetStyles özelliği, hedef dil için kullanılabilir önceden ayarlanmış stillerden birine veya daha fazlasına ayarlayın.
İsteğe bağlı olarak, özelliğini özel konuşma stilleriniz için eğitim verileri sağlayacak şekilde ayarlayın styleTrainingSetIds . En fazla özel stil sayısı dile göre değişir: İngilizce (Birleşik Devletler) en fazla 10 özel stile, Çince (Mandarin, Basitleştirilmiş) dört özel stile ve Japonca (Japonya) ise beş özel stile izin verir. styleTrainingSetIds özelliği, stil adları ve eğitim kümesi kimliklerinden oluşan bir sözlüktür.
- Her sözlük anahtarı için istediğiniz özel stil adını belirtin. Bu ad, uygulamanız tarafından Konuşma Sentezi Biçimlendirme Dili (SSML) öğesi içinde style kullanılır.
- Her sözlük değeri için, aynı ses modeli için önceden oluşturduğunuz bir eğitim kümesinin kimliğini belirtin. Eğitim kümesi her stil için en az 100 konuşma içermelidir.
İsteğe bağlı olarak, sesli açıklama özelliğini ayarlayın description . Sesli açıklama daha sonra değiştirilebilir.

Aşağıdaki Models_Create örnekte gösterildiği gibi URI kullanarak bir HTTP PUT isteği oluşturun.

değerini Konuşma kaynak anahtarınız ile değiştirin YourResourceKey .
değerini Konuşma kaynak bölgenizle değiştirin YourResourceRegion .
değerini istediğiniz model kimliğiyle değiştirin JessicaModelId . Büyük/küçük harfe duyarlı kimlik modelin URI'sinde kullanılır ve daha sonra değiştirilemez.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeuralMultiStyle",
  "description": "Jessica multi-style voice",
  "recipe": {
    "kind": "MultiStyle"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "properties": {
    "presetStyles": [
      "cheerful",
      "sad"
    ],
    "styleTrainingSetIds": {
      "happyJessica": "JessicaHappyTrainingSetId",
      "myStyle2": "JessicaStyle2TrainingSetId"
    }
  }
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Aşağıdaki biçimde bir yanıt gövdesi almanız gerekir:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeuralMultiStyle",
  "description": "Jessica multi-style voice",
  "recipe": {
    "kind": "MultiStyle",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0","properties": {
    "presetStyles": [
      "cheerful",
      "sad"
    ],
    "styleTrainingSetIds": {
      "happyJessica": "JessicaHappyTrainingSetId",
      "myStyle2": "JessicaStyle2TrainingSetId"
    },
    "voiceStyles": [
      "cheerful",
      "sad",
      "happyJessica",
      "myStyle2"
    ]
  }
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

İki dilli eğitim

Not

Aşağıdaki tabloda iki yerel ayar arasındaki farklar gösterilmektedir:

Speech Studio yerel ayarı	REST API yerel ayarı	İki dilli destek
`Chinese (Mandarin, Simplified)`	`zh-CN`	Örnek verileriniz İngilizce içeriyorsa, sentezlenen ses İngilizce veri miktarından bağımsız olarak örnek verilerle aynı aksan yerine İngilizce ana aksanla İngilizce konuşur.
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	Sentezlenen sesin örnek verilerle aynı vurguyla İngilizce konuşmasını istiyorsanız, eğitim kümenize %10'un üzerinde İngilizce veri eklemenizi öneririz. Aksi takdirde İngilizce konuşan aksan ideal olmayabilir.
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	Örnek verilerinizle aynı aksanla İngilizce konuşabilen sentezlenmiş bir ses eğitmek istiyorsanız, eğitim kümenizde %10'un üzerinde İngilizce veri sağladığınızdan emin olun. Aksi takdirde, varsayılan olarak İngilizce yerel aksan kullanılır. %10 eşiği, karşıya yüklemeden önce alınan veriler değil, başarılı karşıya yükleme sonrasında kabul edilen veriler temel alınarak hesaplanır. Karşıya yüklenen bazı İngilizce veriler hatalardan dolayı reddedilirse ve %10 eşiğini karşılamıyorsa, sentezlenen ses varsayılan olarak İngilizce yerel aksan olarak ayarlanır.

Farklı dillerde kullanılabilir önceden ayarlanmış stiller

Aşağıdaki tabloda, farklı dillere göre farklı önceden ayarlanmış stiller özetlemektedir.

Konuşma stili	Dil (yerel ayar)
kızgın	İngilizce (Birleşik Devletler) (`en-US`) Japonca (Japonya) (`ja-JP`) ¹ Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
sakin	Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
sohbet	Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
neşeli	İngilizce (Birleşik Devletler) (`en-US`) Japonca (Japonya) (`ja-JP`) ¹ Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
hoşnutsuz	Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
heyecanlı	İngilizce (Birleşik Devletler) (`en-US`)
korkulu	Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
dostça	İngilizce (Birleşik Devletler) (`en-US`)
umutlu	İngilizce (Birleşik Devletler) (`en-US`)
üzgün	İngilizce (Birleşik Devletler) (`en-US`) Japonca (Japonya) (`ja-JP`) ¹ Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
Bağır -arak	İngilizce (Birleşik Devletler) (`en-US`)
ciddi	Çince (Mandarin, Basitleştirilmiş) (`zh-CN`) ¹
Dehşete	İngilizce (Birleşik Devletler) (`en-US`)
düşmanca değil	İngilizce (Birleşik Devletler) (`en-US`)
Fısıldıyor	İngilizce (Birleşik Devletler) (`en-US`)

¹ Sinir sesi stili genel önizlemede kullanılabilir. Genel önizlemedeki stiller yalnızca şu hizmet bölgelerinde kullanılabilir: Doğu ABD, Batı Avrupa ve Güneydoğu Asya.

Eğitim durumunu alma

Ses modelinin eğitim durumunu almak için özel ses API'sinin Models_Get işlemini kullanın. İstek URI'sini aşağıdaki yönergelere göre oluşturun:

Aşağıdaki Models_Get örnekte gösterildiği gibi URI kullanarak bir HTTP GET isteği oluşturun.

değerini Konuşma kaynak anahtarınız ile değiştirin YourResourceKey .
değerini Konuşma kaynak bölgenizle değiştirin YourResourceRegion .
Önceki adımda farklı bir model kimliği belirttiyseniz değiştirin JessicaModelId .

curl -v -X GET "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

Aşağıdaki biçimde bir yanıt gövdesi almanız gerekir.

Not

Tarif kind ve diğer özellikler, sesi nasıl eğitdiğinize bağlıdır. Bu örnekte, tarif türü sinir sesi eğitimi içindir Default .

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Eğitim tamamlanmadan önce birkaç dakika beklemeniz gerekebilir. Sonunda durum veya Failedolarak Succeeded değişir.

Sonraki adımlar

Profesyonel ses uç noktasını dağıtma

Aracılığıyla paylaş

Profesyonel ses modelinizi eğitin

Eğitim yöntemi seçme

Özel nöral ses modelinizi eğitin

İki dilli eğitim

Farklı dillerde kullanılabilir önceden ayarlanmış stiller

Modelinizi yeniden adlandırma

Ses modelinizi test etme

Test betiği gereksinimleri

Ses modeliniz için altyapı sürümünü güncelleştirme

Ses modelinizi başka bir projeye kopyalama

Sonraki adımlar

Eğitim yöntemi seçme

Ses modeli oluşturma

İki dilli eğitim

Farklı dillerde kullanılabilir önceden ayarlanmış stiller

Eğitim durumunu alma

Sonraki adımlar

Geri Bildirim

Geri Bildirim

Ek kaynaklar