Özel sinir sesi nedir?

Özel nöral ses (CNV), uygulamalarınız için tek bir tür, özelleştirilmiş, sentetik ses oluşturmanıza olanak tanıyan bir metin okuma özelliğidir. Özel sinir sesi ile, eğitim verileri olarak insan konuşma örnekleri sağlayarak markanız veya karakterleriniz için son derece doğal bir ses oluşturabilirsiniz.

Önemli

Özel nöral ses erişimi, uygunluk ve kullanım ölçütlerine göre sınırlıdır . Giriş formunda erişim isteyin.

Özel nöral sese (CNV) Lite erişimi, daha yüksek kaliteli bir ses oluşturmak için profesyonel kayıtlara yatırım yapmadan önce herkesin CNV'yi indirgeyebilmesi ve değerlendirmesi için kullanılabilir.

Kutudan çıkarak, desteklenen her dil için önceden oluşturulmuş sinir sesleriyle metin okuma kullanılabilir. Önceden oluşturulmuş sinir sesleri, benzersiz bir ses gerekli değilse metin okuma senaryolarının çoğunda iyi çalışır.

Özel nöral ses, nöral metinden konuşmaya teknolojisine ve çok dilli, çok konuşmacılı, evrensel modeli temel alır. Konuşma stilleri bakımından zengin sentetik sesler veya uyarlanabilir çapraz diller oluşturabilirsiniz. Özel sinir sesinin gerçekçi ve doğal sesi markaları temsil edebilir, makineleri kişiselleştirebilir ve kullanıcıların uygulamalarla konuşma yoluyla etkileşim kurmasına izin verebilir. Özel sinir sesi için desteklenen dillere bakın.

Nasıl çalışır?

Özel bir sinir sesi oluşturmak için Speech Studio'yu kullanarak kaydedilen sesi ve ilgili betikleri karşıya yükleyin, modeli eğitin ve sesi özel bir uç noktaya dağıtın.

İpucu

Daha yüksek kaliteli bir ses oluşturmak için profesyonel kayıtlara yatırım yapmadan önce CNV'yi demo yapmak ve değerlendirmek için Özel sinir sesi (CNV) Lite'ı deneyin.

Harika bir özel sinir sesi oluşturmak için ses tasarımı ve veri hazırlığından ses modelinin sisteminize dağıtımına kadar her adımda dikkatli bir kalite denetimi gerekir.

Speech Studio'ya başlamadan önce dikkat edilmesi gereken bazı noktalar şunlardır:

  • Kısa bir belge kullanarak markanızı temsil eden bir ses kişisi tasarla. Bu belge, sesin özellikleri ve sesin arkasındaki karakter gibi öğeleri tanımlar. Bu, betikleri tanımlama, ses yeteneğinizi seçme, eğitim ve ses ayarlama dahil olmak üzere özel bir sinir sesi modeli oluşturma işlemine yol göstermeye yardımcı olur.
  • Sesinizin kullanıcı senaryolarını göstermek için kayıt betiğini seçin. Örneğin, bir müşteri hizmetleri botu oluşturuyorsanız kayıt betiği olarak bot konuşmalarının tümceciklerini kullanabilirsiniz. Betiklerinize deyimler, sorular ve ünlemler gibi farklı cümle türleri ekleyin.

Speech Studio'da özel sinir sesi oluşturma adımlarına genel bakış aşağıdadır:

  1. Verilerinizi, ses modellerinizi, testlerinizi ve uç noktalarınızı içerecek bir proje oluşturun. Her proje bir ülkeye/bölgeye ve dile özgüdür. Birden çok ses oluşturacaksanız, her ses için bir proje oluşturmanız önerilir.
  2. Ses yeteneğini ayarla. Bir sinir sesini eğitebilmeniz için önce ses yeteneğinin onay bildiriminin kaydını göndermeniz gerekir. Ses yeteneği deyimi, özel bir ses modelini eğitmek için konuşma verilerinin kullanılmasına onay verdikleri bir ifadeyi okuyan ses yeteneğinin kaydıdır.
  3. Eğitim verilerini doğru biçimde hazırlayın. Yüksek sinyal-gürültü oranı elde etmek için profesyonel kalitede bir kayıt stüdyosunda ses kayıtlarını yakalamak iyi bir fikirdir. Ses modelinin kalitesi, eğitim verilerinize büyük ölçüde bağlıdır. Konuşmanın ifade biçiminde tutarlı hacim, konuşma hızı, ses perdesi ve tutarlılık gereklidir.
  4. Ses modelinizi eğitin. Özel bir sinir sesi oluşturmak için en az 300 konuşma seçin. Bir dizi veri kalitesi denetimi, bunları karşıya yüklediğinizde otomatik olarak gerçekleştirilir. Yüksek kaliteli ses modelleri oluşturmak için hataları düzeltmeniz ve yeniden göndermeniz gerekir.
  5. Sesinizi test edin. Ses modeliniz için uygulamalarınız için farklı kullanım örneklerini kapsayan test betikleri hazırlayın. Farklı içerikler için kaliteyi daha geniş bir şekilde test edebilmeniz için eğitim veri kümesinin içinde ve dışında betikleri kullanmak iyi bir fikirdir.
  6. Uygulamalarınızda ses modelinizi dağıtın ve kullanın.

Özel sesinizi önceden oluşturulmuş bir sinir sesi gibi ayarlayabilir, ayarlayabilir ve kullanabilirsiniz. Metni gerçek zamanlı olarak konuşmaya dönüştürün veya metin girişiyle çevrimdışı ses içeriği oluşturun. REST API'yi, Konuşma SDK'sını veya Speech Studio'yu kullanırsınız.

İpucu

Özel bir sinir sesini eğitmek için Konuşma SDK'sını ve özel ses REST API'sini de kullanabilirsiniz.

Uygulamanızda özel sinir sesinin nasıl kullanılacağını görmek için GitHub'daki Konuşma SDK'sı deposundaki kod örneklerine göz atın.

Eğitilen ses modelinin stili ve özellikleri, eğitim için kullanılan ses yeteneğinden alınan kayıtların stiline ve kalitesine bağlıdır. Bununla birlikte, yapay konuşma oluşturmak için ses modelinize API çağrıları yaparken SSML (Konuşma Sentezi İşaretlemeyi Dili) kullanarak çeşitli ayarlamalar yapabilirsiniz. SSML, metni sese dönüştürmek için metinle konuşma hizmetiyle iletişim kurmak için kullanılan işaretleme dilidir. Yapabileceğiniz ayarlamalar arasında perde, hız, tonlama ve söyleniş düzeltmesi yer alır. Ses modeli birden çok stille oluşturulduysa, stilleri değiştirmek için SSML'yi de kullanabilirsiniz.

Bileşenler dizisi

Özel nöral ses üç ana bileşenden oluşur: metin çözümleyicisi, nöral akustik model ve nöral vokoder. Metinden doğal sentetik konuşma oluşturmak için, metin ilk olarak fone dizisi biçiminde çıkış sağlayan metin çözümleyicisine girilir. Fonem, belirli bir dildeki bir sözcüğü diğerinden ayıran temel bir ses birimidir. Fonem dizisi, metinde sağlanan sözcüklerin söylenişlerini tanımlar.

Ardından fone dizisi, konuşma sinyallerini tanımlayan akustik özellikleri tahmin etmek için sinir akustik modeline geçer. Akustik özellikler arasında tını, konuşma stili, hız, tonlamalar ve stres desenleri bulunur. Son olarak, sinir vocoder akustik özellikleri sesli dalgalara dönüştürür, böylece sentetik konuşma oluşturulur.

Özel sinir sesinin bileşenlerini gösteren akış çizelgesi.

Nöral metinden konuşmaya ses modelleri, insan seslerinin kayıt örneklerine göre derin sinir ağları kullanılarak eğitilir. Daha fazla bilgi için bu Microsoft blog gönderisini inceleyin. Nöral vocoder'un nasıl eğitildiğinden daha fazla bilgi edinmek için bu Microsoft blog gönderisine bakın.

Özel nöral sese geçme

Özel sesin eski sürümünü kullanıyorsanız (Şubat 2024'te kullanımdan kaldırılacak şekilde zamanlanmıştır), bkz . Özel sinir sesine geçiş.

Sorumlu AI

Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.

Sonraki adımlar