Aracılığıyla paylaş


Profesyonel ses modelinizi eğitin

Bu makalede, Speech Studio portalı aracılığıyla özel bir sinir sesini eğitmeyi öğreneceksiniz.

Önemli

Özel sinir sesi eğitimi şu anda yalnızca bazı bölgelerde kullanılabilir. Ses modeliniz desteklenen bir bölgede eğitildikten sonra, gerektiğinde başka bir bölgedeki Konuşma kaynağına kopyalayabilirsiniz. Daha fazla bilgi için Konuşma hizmeti tablosundaki dipnotlara bakın.

Eğitim süresi, ne kadar veri kullandığınıza bağlı olarak değişir. Özel bir sinir sesini eğitmek ortalama olarak yaklaşık 40 işlem saati sürer. Standart abonelik (S0) kullanıcıları aynı anda dört sesi eğitebilir. Sınıra ulaşırsanız ses modellerinden en az birinin eğitimi tamamlanmasını bekleyin ve sonra yeniden deneyin.

Not

Eğitim yöntemi başına gereken toplam saat sayısı değişse de, her biri için aynı birim fiyat geçerlidir. Daha fazla bilgi için özel sinir eğitimi fiyatlandırma ayrıntılarına bakın.

Eğitim yöntemi seçme

Veri dosyalarınızı doğruladıktan sonra bunları kullanarak özel nöral ses modelinizi oluşturun. Özel bir sinir sesi oluşturduğunuzda, bunu aşağıdaki yöntemlerden biriyle eğitmeyi seçebilirsiniz:

  • Sinirsel: Eğitim verilerinizin aynı dilinde bir ses oluşturun.

  • Sinir - diller arası: Eğitim verilerinizden farklı bir dil konuşan bir ses oluşturun. Örneğin, eğitim verileriyle zh-CN konuşan en-USbir ses oluşturabilirsiniz.

    Eğitim verilerinin dili ve hedef dil, diller arası ses eğitimi için desteklenen dillerden biri olmalıdır. Eğitim verilerini hedef dilde hazırlamanız gerekmez, ancak test betiğinizin hedef dilde olması gerekir.

  • Nöral - çok stilli: Yeni eğitim verileri eklemeden birden çok stilde ve duyguda konuşan özel bir sinir sesi oluşturun. Video oyunu karakterleri, konuşma sohbet botları, sesli kitaplar, içerik okuyucular ve daha fazlası için birden çok stil sesi kullanışlıdır.

    Birden çok stilde ses oluşturmak için en az 300 konuşma içeren bir genel eğitim verileri kümesi hazırlamanız gerekir. Önceden ayarlanmış hedef konuşma stillerinden birini veya daha fazlasını seçin. Aynı ses için ek eğitim verileri olarak stil başına en az 100 konuşma içeren stil örnekleri sağlayarak birden çok özel stil de oluşturabilirsiniz. Desteklenen ön ayar stilleri farklı dillere göre değişir. Farklı dillerde kullanılabilen hazır stiller bölümüne bakın.

Eğitim verilerinin dili, özel sinir sesi, çapraz dil veya birden çok stil eğitimi için desteklenen dillerden biri olmalıdır.

Özel nöral ses modelinizi eğitin

Speech Studio'da özel bir sinir sesi oluşturmak için aşağıdaki yöntemlerden biri için şu adımları izleyin:

  1. Speech Studio'da oturum açın.

  2. Özel ses<>Projenizin adı>>Modeli>eğit yeni bir model eğitin'i seçin.

  3. Modeliniz için eğitim yöntemi olarak Sinir'i ve ardından İleri'yi seçin. Farklı bir eğitim yöntemi kullanmak için bkz . Sinir - diller arası veya Sinir - çoklu stil.

    Sinir eğitiminin nasıl seçildiğini gösteren ekran görüntüsü.

  4. Modeliniz için eğitim tarifinin bir sürümünü seçin. En son sürüm varsayılan olarak seçilidir. Desteklenen özellikler ve eğitim süresi sürüme göre farklılık gösterebilir. Normalde en son sürümü öneririz. Bazı durumlarda, eğitim süresini kısaltmak için önceki bir sürümü seçebilirsiniz. İki dilli eğitim ve yerel ayarlar arasındaki farklar hakkında daha fazla bilgi için bkz. İki dilli eğitim.

    Not

    , , V4.2021.10V5.2022.05, V6.2022.11ve V9.2023.10 model sürümleri V2.2021.071 Ekim 2024'e kadar kullanımdan kaldırılacaktır. Bu kullanımdan kaldırılan sürümlerde önceden oluşturulmuş ses modelleri etkilenmez.

  5. Eğitim için kullanmak istediğiniz verileri seçin. Yinelenen ses adları eğitimden kaldırılır. Seçtiğiniz verilerin birden çok .zip dosyada aynı ses adlarını içermediğinden emin olun.

    Eğitim için yalnızca başarıyla işlenen veri kümelerini seçebilirsiniz. Eğitim kümenizi listede görmüyorsanız veri işleme durumunuzu denetleyin.

  6. Eğitim verilerinizdeki konuşmacıya karşılık gelen ses yeteneği deyiminin yer aldığı bir konuşmacı dosyası seçin.

  7. İleri'yi seçin.

  8. Her eğitim, modeli varsayılan betikle test etmeye yardımcı olmak için otomatik olarak 100 örnek ses dosyası oluşturur.

    İsteğe bağlı olarak, Kendi test betiğimi ekle'yi seçebilir ve modeli ek ücret ödemeden test etmek için en fazla 100 konuşma içeren kendi test betiğinizi sağlayabilirsiniz. Oluşturulan ses dosyaları, otomatik test betikleri ve özel test betiklerinin bir bileşimidir. Daha fazla bilgi için bkz . test betiği gereksinimleri.

  9. Modeli tanımlamanıza yardımcı olması için bir Ad girin. Bir adı dikkatle seçin. Model adı, SDK ve SSML girişi tarafından konuşma sentezi isteğinizde ses adı olarak kullanılır. Yalnızca harflere, sayılara ve birkaç noktalama işaretine izin verilir. Farklı nöral ses modelleri için farklı adlar kullanın.

  10. İsteğe bağlı olarak, modeli tanımlamanıza yardımcı olması için Açıklama'yı girin. Açıklamanın yaygın kullanımlarından biri, modeli oluştururken kullandığınız verilerin adlarını kaydetmektir.

  11. İleri'yi seçin.

  12. Ayarları gözden geçirin ve kullanım koşullarını kabul etmek için kutuyu seçin.

  13. Modeli eğitmeye başlamak için Gönder'i seçin.

İki dilli eğitim

Nöral eğitim türünü seçerseniz, sesi birden çok dilde konuşabilecek şekilde eğitebilirsiniz. zh-CN ve zh-TW yerel ayarları, sesin hem Çince hem de İngilizce konuşabilmek için iki dilli eğitimi destekler. Kısmen eğitim verilerinize bağlı olarak, sentezlenen ses İngilizce ana aksanlı İngilizce veya eğitim verileriyle aynı vurguya sahip İngilizce konuşabilir.

Not

Yerel ayardaki zh-CN bir sesin örnek verilerle aynı vurguyla İngilizce konuşmasını sağlamak için proje oluştururken veya Chinese (Mandarin, Simplified), English bilingual REST API aracılığıyla eğitim kümesi verilerinin zh-CN (English bilingual) yerel ayarını belirtmeniz gerekir.

Aşağıdaki tabloda iki yerel ayar arasındaki farklar gösterilmektedir:

Speech Studio yerel ayarı REST API yerel ayarı İki dilli destek
Chinese (Mandarin, Simplified) zh-CN Örnek verileriniz İngilizce içeriyorsa, sentezlenen ses İngilizce veri miktarından bağımsız olarak örnek verilerle aynı aksan yerine İngilizce ana aksanla İngilizce konuşur.
Chinese (Mandarin, Simplified), English bilingual zh-CN (English bilingual) Sentezlenen sesin örnek verilerle aynı vurguyla İngilizce konuşmasını istiyorsanız, eğitim kümenize %10'un üzerinde İngilizce veri eklemenizi öneririz. Aksi takdirde İngilizce konuşan aksan ideal olmayabilir.
Chinese (Taiwanese Mandarin, Traditional) zh-TW Örnek verilerinizle aynı aksanla İngilizce konuşabilen sentezlenmiş bir ses eğitmek istiyorsanız, eğitim kümenizde %10'un üzerinde İngilizce veri sağladığınızdan emin olun. Aksi takdirde, varsayılan olarak İngilizce yerel aksan kullanılır. %10 eşiği, karşıya yüklemeden önce alınan veriler değil, başarılı karşıya yükleme sonrasında kabul edilen veriler temel alınarak hesaplanır. Karşıya yüklenen bazı İngilizce veriler hatalardan dolayı reddedilirse ve %10 eşiğini karşılamıyorsa, sentezlenen ses varsayılan olarak İngilizce yerel aksan olarak ayarlanır.

Farklı dillerde kullanılabilir önceden ayarlanmış stiller

Aşağıdaki tabloda, farklı dillere göre farklı önceden ayarlanmış stiller özetlemektedir.

Konuşma stili Dil (yerel ayar)
kızgın İngilizce (Birleşik Devletler) (en-US)
Japonca (Japonya) (ja-JP) 1
Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
sakin Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
sohbet Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
neşeli İngilizce (Birleşik Devletler) (en-US)
Japonca (Japonya) (ja-JP) 1
Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
hoşnutsuz Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
heyecanlı İngilizce (Birleşik Devletler) (en-US)
korkulu Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
dostça İngilizce (Birleşik Devletler) (en-US)
umutlu İngilizce (Birleşik Devletler) (en-US)
üzgün İngilizce (Birleşik Devletler) (en-US)
Japonca (Japonya) (ja-JP) 1
Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
Bağır -arak İngilizce (Birleşik Devletler) (en-US)
ciddi Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
Dehşete İngilizce (Birleşik Devletler) (en-US)
düşmanca değil İngilizce (Birleşik Devletler) (en-US)
Fısıldıyor İngilizce (Birleşik Devletler) (en-US)

1 Sinir sesi stili genel önizlemede kullanılabilir. Genel önizlemedeki stiller yalnızca şu hizmet bölgelerinde kullanılabilir: Doğu ABD, Batı Avrupa ve Güneydoğu Asya.


Modeli eğit tablosu, yeni oluşturulan bu modele karşılık gelen yeni bir girdi görüntüler. Durum, bu tabloda açıklandığı gibi verilerinizi bir ses modeline dönüştürme işlemini yansıtır:

Durum Anlamı
İşleme Ses modeliniz oluşturuluyor.
Başarılı Ses modeliniz oluşturuldu ve dağıtılabilir.
Başarısız Ses modeliniz eğitimde başarısız oldu. Hatanın nedeni, örneğin görünmeyen veri sorunları veya ağ sorunları olabilir.
İptal edildi Ses modeliniz için eğitim iptal edildi.

Model durumu İşleniyor olsa da ses modelinizi iptal etmek için Eğitimi iptal et'i seçebilirsiniz. İptal edilen bu eğitim için sizden ücret alınmaz.

Bir model için eğitimin nasıl iptal edileceğini gösteren ekran görüntüsü.

Modelin eğitimini başarıyla tamamladıktan sonra model ayrıntılarını gözden geçirebilir ve ses modelinizi test edebilirsiniz.

Ses oluşturmak ve dağıtılan sesinize ince ayar yapmak için Speech Studio'daki Ses İçeriği Oluşturma aracını kullanabilirsiniz. Sesinize uygunsa, birden çok stilden birini seçebilirsiniz.

Modelinizi yeniden adlandırma

  1. Oluşturduğunuz modeli yeniden adlandırmak istiyorsanız Modeli klonla'yı seçerek geçerli projede yeni bir adla modelin bir kopyasını oluşturun.

    Modeli kopyala düğmesini seçme işleminin ekran görüntüsü.

  2. Ses modelini klonla penceresine yeni adı girin ve Gönder'i seçin. Nöral metni, yeni model adınıza otomatik olarak sonek olarak eklenir.

    Modeli yeni bir adla kopyalama işleminin ekran görüntüsü.

Ses modelinizi test etme

Ses modeliniz başarıyla oluşturulduktan sonra, dağıtımdan önce test etmek için oluşturulan örnek ses dosyalarını kullanabilirsiniz.

Sesin kalitesi, aşağıdakiler gibi birçok faktöre bağlıdır:

  • Eğitim verilerinin boyutu.
  • Kaydın kalitesi.
  • Transkript dosyasının doğruluğu.
  • Eğitim verilerindeki kaydedilen ses, hedeflenen kullanım örneğine göre tasarlanan sesin kişiliğiyle ne kadar iyi eşleşir.

Örnek ses dosyalarını dinlemek için Test altında DefaultTests'i seçin. Varsayılan test örnekleri, modeli test etmeye yardımcı olmak için eğitim sırasında otomatik olarak oluşturulan 100 örnek ses dosyası içerir. Varsayılan olarak sağlanan bu 100 ses dosyasına ek olarak, kendi test betiği konuşmalarınız da DefaultTests kümesine eklenir. Bu ekleme en fazla 100 konuşmadır. DefaultTests ile test için sizden ücret alınmaz.

Test altında DefaultTests'i seçme işleminin ekran görüntüsü.

Modelinizi daha fazla test etmek için kendi test betiklerinizi karşıya yüklemek istiyorsanız Kendi test betiğinizi karşıya yüklemek için Test betikleri ekle'yi seçin.

Model testi betikleri ekleme ekran görüntüsü.

Test betiğini karşıya yüklemeden önce Test betiği gereksinimlerini denetleyin. Faturalanabilir karakter sayısına göre toplu sentezle ek test için ücretlendirilirsiniz. Bkz. Azure AI Konuşma fiyatlandırması.

Test betikleri ekle'nin altında, Dosyaya gözat'ı seçerek kendi betiğinizi seçin ve ardından karşıya yüklemek için Ekle'yi seçin.

Model testi betiklerini karşıya yükleme işleminin ekran görüntüsü.

Test betiği gereksinimleri

Test betiği 1 MB'tan küçük bir .txt dosyası olmalıdır. AnSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE veya UTF-16-BE kodlama biçimleri desteklenir.

Eğitim transkripsiyon dosyalarının aksine, test betiği her konuşmanın dosya adı olan konuşma kimliğini dışlamalıdır. Aksi takdirde, bu kimlikler konuşulur.

Bir .txt dosyasındaki örnek konuşma kümesi aşağıda verilmiştir:

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Konuşmanın her paragrafı ayrı bir sese neden olur. Tüm cümleleri tek bir seste birleştirmek istiyorsanız, bunları tek bir paragraf yapın.

Not

Oluşturulan ses dosyaları, otomatik test betikleri ve özel test betiklerinin bir bileşimidir.

Ses modeliniz için altyapı sürümünü güncelleştirme

Azure metin okuma altyapıları, dilin söylenişini tanımlayan en son dil modelini yakalamak için zaman zaman güncelleştirilir. Sesinizi eğitdikten sonra en son altyapı sürümüne güncelleştirerek sesinizi yeni dil modeline uygulayabilirsiniz.

  1. Yeni bir altyapı kullanılabilir olduğunda, sinir sesi modelinizi güncelleştirmeniz istenir.

    Altyapı güncelleştirme iletisini görüntüleme işleminin ekran görüntüsü.

  2. En son altyapıyı yüklemek için model ayrıntıları sayfasına gidin ve ekrandaki yönergeleri izleyin.

    Yeni altyapıyı yüklemek için ekrandaki yönergelerin ekran görüntüsü.

    Alternatif olarak, modelinizi en son altyapı sürümüne güncelleştirmek için En son altyapıyı daha sonra yükle'yi seçin.

    Altyapıyı güncelleştirmek için En son altyapıyı yükle düğmesini seçme işleminin ekran görüntüsü.

    Altyapı güncelleştirmesi için sizden ücret alınmaz. Önceki sürümler hala korunur.

  3. Motor sürümü listesinden modelin tüm altyapı sürümlerini denetleyebilirsiniz veya artık ihtiyacınız yoksa modeli kaldırabilirsiniz.

    Altyapı sürümü açılan listesini görüntüleme işleminin ekran görüntüsü.

    Güncelleştirilmiş sürüm otomatik olarak varsayılan olarak ayarlanır. Ancak, açılan listeden bir sürüm seçip Varsayılan olarak ayarla'yı seçerek varsayılan sürümü değiştirebilirsiniz.

    Bir sürümün varsayılan olarak nasıl ayarlandığını gösteren ekran görüntüsü.

Ses modelinizin her altyapı sürümünü test etmek istiyorsanız, listeden bir sürüm seçebilir ve ardından örnek ses dosyalarını dinlemek için Test altında DefaultTests'i seçebilirsiniz. Geçerli altyapı sürümünüzü daha fazla test etmek için kendi test betiklerinizi karşıya yüklemek istiyorsanız, önce sürümün varsayılan olarak ayarlandığından emin olun, ardından Ses modelinizi test etme'deki adımları izleyin.

Altyapının güncelleştirilmesi, ek ücret ödemeden modelin yeni bir sürümünü oluşturur. Ses modelinizin altyapı sürümünü güncelleştirdikten sonra yeni bir uç nokta oluşturmak için yeni sürümü dağıtmanız gerekir. Yalnızca varsayılan sürümü dağıtabilirsiniz.

Ses modelinizin yeni bir sürümünü yeniden dağıtmayı gösteren ekran görüntüsü.

Yeni bir uç nokta oluşturduktan sonra trafiği ürününüzdeki yeni uç noktaya aktarmanız gerekir.

Bu özelliğin özellikleri ve sınırları ve model kalitenizi iyileştirmeye yönelik en iyi uygulama hakkında daha fazla bilgi edinmek için bkz . Özel sinir sesini kullanma özellikleri ve sınırlamaları.

Ses modelinizi başka bir projeye kopyalama

Ses modelinizi aynı bölge veya başka bir bölge için başka bir projeye kopyalayabilirsiniz. Örneğin, bir bölgede eğitilmiş bir sinir sesi modelini başka bir bölge için bir projeye kopyalayabilirsiniz.

Not

Özel sinir sesi eğitimi şu anda yalnızca bazı bölgelerde kullanılabilir. Sinir ses modelini bu bölgelerden diğer bölgelere kopyalayabilirsiniz. Daha fazla bilgi için bkz . Özel sinir sesi bölgeleri.

Özel sinir sesi modelinizi başka bir projeye kopyalamak için:

  1. Modeli eğit sekmesinde, kopyalamak istediğiniz ses modelini seçin ve ardından Projeye kopyala'yı seçin.

    Projeye kopyala seçeneğinin ekran görüntüsü.

  2. Modeli kopyalamak istediğiniz Abonelik, Bölge, Konuşma kaynağı ve Project'i seçin. Hedef bölgede bir konuşma kaynağınız ve projeniz olmalıdır, aksi takdirde önce bunları oluşturmanız gerekir.

    Ses modelini kopyala iletişim kutusunun ekran görüntüsü.

  3. Modeli kopyalamak için Gönder'i seçin.

  4. Başarılı kopyalama için bildirim iletisinin altında Modeli görüntüle'yi seçin.

Model kopyasını dağıtmak için modeli kopyaladığınız projeye gidin.

Sonraki adımlar

Bu makalede, özel ses API'sini kullanarak özel bir sinir sesini eğitmeyi öğreneceksiniz.

Önemli

Özel sinir sesi eğitimi şu anda yalnızca bazı bölgelerde kullanılabilir. Ses modeliniz desteklenen bir bölgede eğitildikten sonra, gerektiğinde başka bir bölgedeki Konuşma kaynağına kopyalayabilirsiniz. Daha fazla bilgi için Konuşma hizmeti tablosundaki dipnotlara bakın.

Eğitim süresi, ne kadar veri kullandığınıza bağlı olarak değişir. Özel bir sinir sesini eğitmek ortalama olarak yaklaşık 40 işlem saati sürer. Standart abonelik (S0) kullanıcıları aynı anda dört sesi eğitebilir. Sınıra ulaşırsanız ses modellerinden en az birinin eğitimi tamamlanmasını bekleyin ve sonra yeniden deneyin.

Not

Eğitim yöntemi başına gereken toplam saat sayısı değişse de, her biri için aynı birim fiyat geçerlidir. Daha fazla bilgi için özel sinir eğitimi fiyatlandırma ayrıntılarına bakın.

Eğitim yöntemi seçme

Veri dosyalarınızı doğruladıktan sonra bunları kullanarak özel nöral ses modelinizi oluşturun. Özel bir sinir sesi oluşturduğunuzda, bunu aşağıdaki yöntemlerden biriyle eğitmeyi seçebilirsiniz:

  • Sinirsel: Eğitim verilerinizin aynı dilinde bir ses oluşturun.

  • Sinir - diller arası: Eğitim verilerinizden farklı bir dil konuşan bir ses oluşturun. Örneğin, eğitim verileriyle fr-FR konuşan en-USbir ses oluşturabilirsiniz.

    Eğitim verilerinin dili ve hedef dil, diller arası ses eğitimi için desteklenen dillerden biri olmalıdır. Eğitim verilerini hedef dilde hazırlamanız gerekmez, ancak test betiğinizin hedef dilde olması gerekir.

  • Nöral - çok stilli: Yeni eğitim verileri eklemeden birden çok stilde ve duyguda konuşan özel bir sinir sesi oluşturun. Video oyunu karakterleri, konuşma sohbet botları, sesli kitaplar, içerik okuyucular ve daha fazlası için birden çok stil sesi kullanışlıdır.

    Birden çok stilde ses oluşturmak için en az 300 konuşma içeren bir genel eğitim verileri kümesi hazırlamanız gerekir. Önceden ayarlanmış hedef konuşma stillerinden birini veya daha fazlasını seçin. Aynı ses için ek eğitim verileri olarak stil başına en az 100 konuşma içeren stil örnekleri sağlayarak birden çok özel stil de oluşturabilirsiniz. Desteklenen ön ayar stilleri farklı dillere göre değişir. Farklı dillerde kullanılabilen hazır stiller bölümüne bakın.

Eğitim verilerinin dili, özel sinir sesi, çapraz dil veya birden çok stil eğitimi için desteklenen dillerden biri olmalıdır.

Ses modeli oluşturma

Sinir sesi oluşturmak için özel ses API'sinin Models_Create işlemini kullanın. İstek gövdesini aşağıdaki yönergelere göre oluşturun:

  • Gerekli projectId özelliği ayarlayın. Bkz . proje oluşturma.
  • Gerekli consentId özelliği ayarlayın. Bkz . Ses yeteneği onayı ekleme.
  • Gerekli trainingSetId özelliği ayarlayın. Bkz . Eğitim kümesi oluşturma.
  • Nöral ses eğitimi için gerekli tarif kind özelliğini olarak Default ayarlayın. Tarif türü eğitim yöntemini gösterir ve daha sonra değiştirilemez. Farklı bir eğitim yöntemi kullanmak için bkz . Sinir - diller arası veya Sinir - çoklu stil. İki dilli eğitim ve yerel ayarlar arasındaki farklar hakkında daha fazla bilgi için bkz. İki dilli eğitim.
  • Gerekli voiceName özelliği ayarlayın. Ses adı "Nöral" ile bitmelidir ve daha sonra değiştirilemez. Bir adı dikkatle seçin. Ses adı, SDK ve SSML girişi tarafından konuşma sentezi isteğinizde kullanılır. Yalnızca harflere, sayılara ve birkaç noktalama işaretine izin verilir. Farklı nöral ses modelleri için farklı adlar kullanın.
  • İsteğe bağlı olarak, sesli açıklama özelliğini ayarlayın description . Sesli açıklama daha sonra değiştirilebilir.

Aşağıdaki Models_Create örnekte gösterildiği gibi URI kullanarak bir HTTP PUT isteği oluşturun.

  • değerini Konuşma kaynak anahtarınız ile değiştirin YourResourceKey .
  • değerini Konuşma kaynak bölgenizle değiştirin YourResourceRegion .
  • değerini istediğiniz model kimliğiyle değiştirin JessicaModelId . Büyük/küçük harfe duyarlı kimlik modelin URI'sinde kullanılır ve daha sonra değiştirilemez.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Aşağıdaki biçimde bir yanıt gövdesi almanız gerekir:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

İki dilli eğitim

Nöral eğitim türünü seçerseniz, sesi birden çok dilde konuşabilecek şekilde eğitebilirsiniz. zh-CN ve zh-TW yerel ayarları, sesin hem Çince hem de İngilizce konuşabilmek için iki dilli eğitimi destekler. Kısmen eğitim verilerinize bağlı olarak, sentezlenen ses İngilizce ana aksanlı İngilizce veya eğitim verileriyle aynı vurguya sahip İngilizce konuşabilir.

Not

Yerel ayardaki zh-CN bir sesin örnek verilerle aynı vurguyla İngilizce konuşmasını sağlamak için proje oluştururken veya Chinese (Mandarin, Simplified), English bilingual REST API aracılığıyla eğitim kümesi verilerinin zh-CN (English bilingual) yerel ayarını belirtmeniz gerekir.

Aşağıdaki tabloda iki yerel ayar arasındaki farklar gösterilmektedir:

Speech Studio yerel ayarı REST API yerel ayarı İki dilli destek
Chinese (Mandarin, Simplified) zh-CN Örnek verileriniz İngilizce içeriyorsa, sentezlenen ses İngilizce veri miktarından bağımsız olarak örnek verilerle aynı aksan yerine İngilizce ana aksanla İngilizce konuşur.
Chinese (Mandarin, Simplified), English bilingual zh-CN (English bilingual) Sentezlenen sesin örnek verilerle aynı vurguyla İngilizce konuşmasını istiyorsanız, eğitim kümenize %10'un üzerinde İngilizce veri eklemenizi öneririz. Aksi takdirde İngilizce konuşan aksan ideal olmayabilir.
Chinese (Taiwanese Mandarin, Traditional) zh-TW Örnek verilerinizle aynı aksanla İngilizce konuşabilen sentezlenmiş bir ses eğitmek istiyorsanız, eğitim kümenizde %10'un üzerinde İngilizce veri sağladığınızdan emin olun. Aksi takdirde, varsayılan olarak İngilizce yerel aksan kullanılır. %10 eşiği, karşıya yüklemeden önce alınan veriler değil, başarılı karşıya yükleme sonrasında kabul edilen veriler temel alınarak hesaplanır. Karşıya yüklenen bazı İngilizce veriler hatalardan dolayı reddedilirse ve %10 eşiğini karşılamıyorsa, sentezlenen ses varsayılan olarak İngilizce yerel aksan olarak ayarlanır.

Farklı dillerde kullanılabilir önceden ayarlanmış stiller

Aşağıdaki tabloda, farklı dillere göre farklı önceden ayarlanmış stiller özetlemektedir.

Konuşma stili Dil (yerel ayar)
kızgın İngilizce (Birleşik Devletler) (en-US)
Japonca (Japonya) (ja-JP) 1
Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
sakin Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
sohbet Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
neşeli İngilizce (Birleşik Devletler) (en-US)
Japonca (Japonya) (ja-JP) 1
Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
hoşnutsuz Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
heyecanlı İngilizce (Birleşik Devletler) (en-US)
korkulu Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
dostça İngilizce (Birleşik Devletler) (en-US)
umutlu İngilizce (Birleşik Devletler) (en-US)
üzgün İngilizce (Birleşik Devletler) (en-US)
Japonca (Japonya) (ja-JP) 1
Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
Bağır -arak İngilizce (Birleşik Devletler) (en-US)
ciddi Çince (Mandarin, Basitleştirilmiş) (zh-CN) 1
Dehşete İngilizce (Birleşik Devletler) (en-US)
düşmanca değil İngilizce (Birleşik Devletler) (en-US)
Fısıldıyor İngilizce (Birleşik Devletler) (en-US)

1 Sinir sesi stili genel önizlemede kullanılabilir. Genel önizlemedeki stiller yalnızca şu hizmet bölgelerinde kullanılabilir: Doğu ABD, Batı Avrupa ve Güneydoğu Asya.


Eğitim durumunu alma

Ses modelinin eğitim durumunu almak için özel ses API'sinin Models_Get işlemini kullanın. İstek URI'sini aşağıdaki yönergelere göre oluşturun:

Aşağıdaki Models_Get örnekte gösterildiği gibi URI kullanarak bir HTTP GET isteği oluşturun.

  • değerini Konuşma kaynak anahtarınız ile değiştirin YourResourceKey .
  • değerini Konuşma kaynak bölgenizle değiştirin YourResourceRegion .
  • Önceki adımda farklı bir model kimliği belirttiyseniz değiştirin JessicaModelId .
curl -v -X GET "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

Aşağıdaki biçimde bir yanıt gövdesi almanız gerekir.

Not

Tarif kind ve diğer özellikler, sesi nasıl eğitdiğinize bağlıdır. Bu örnekte, tarif türü sinir sesi eğitimi içindir Default .

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Eğitim tamamlanmadan önce birkaç dakika beklemeniz gerekebilir. Sonunda durum veya Failedolarak Succeeded değişir.

Sonraki adımlar