Aracılığıyla paylaş


Konuşma modeli eğitimi en iyi yöntemleri

Uyarı

Söyleniş eğitimi de dahil olmak üzere konuşma modeli özelleştirmesi, Video Indexer Azure deneme hesapları ve Resource Manager hesaplarında kullanılabilir. Klasik hesaplar bu özelliği desteklemez. Özel dil deneyimini kullanmayı öğrenmek için bkz. Dil modelini özelleştirme.

Azure AI Konuşma Hizmetleri ile Azure AI Video Indexer tümleştirmesi sayesinde Evrensel Dil Modeli, Microsoft'a ait verilerle eğitilen ve yaygın olarak kullanılan konuşulan dili yansıtan bir temel model olarak kullanılır. Temel model, çeşitli ortak etki alanlarını temsil eden diyalektler ve fonetiklerle önceden eğitilir. Temel model çoğu konuşma tanıma senaryosunda iyi çalışır.

Ancak bazen temel modelin transkripsiyonu bazı içerikleri doğru şekilde işlemez. Bu gibi durumlarda, modeli eğitmek için metin verileri sağlayarak içeriğinize özgü etki alanına özgü sözcük dağarcığının veya söylenişin tanınmasını geliştirmek için özelleştirilmiş bir konuşma modeli kullanılabilir. Konuşma özelleştirme modelleri oluşturma ve uyarlama işlemiyle, içeriğiniz düzgün bir şekilde yazılabilir. Azure AI Video Indexer'ın konuşma özelleştirmesini kullanmak için ek ücret alınmaz.

Özelleştirilmiş konuşma modeli ne zaman kullanılır?

İçeriğiniz sektöre özgü terminoloji içeriyorsa veya transkripsiyon sonuçları yanlış olduğunda özel bir konuşma modeli oluşturabilir ve eğitebilirsiniz. Koşulları tanıyabilir ve transkripsiyon kalitesini iyileştirebilir. Yalnızca ilgili sözcüklerin ve adların dizine almayı planladığınız içerikte tekrar tekrar gösterilmesi bekleniyorsa özel bir model oluşturmak faydalı olabilir. Modeli eğitmek bazen yinelemeli bir süreçtir. İlk eğitimden sonra sonuçların iyileştirilmesi gerekebileceğini ve daha fazla eğitim gerekebileceğini görebilirsiniz. Yönergeler için Özel modelinizi geliştirme bölümüne bakın.

İçeriğinizde belirli sözcükler veya adlar nadiren kullanılıyorsa özel konuşma modeline ihtiyacınız yoktur. Bunun yerine transkripti doğrudan Azure AI Video Indexer web sitesinden el ile düzenleyebilir ve düzeltebilirsiniz. Daha sık kullanılan veya etki alanına özgü terimler için transkripsiyon doğruluğunu geliştirmek için özel bir konuşma modeli oluşturmayı göz önünde bulundurun. Transkriptleri düzenleme ve düzeltme hakkında daha fazla bilgi için bkz. Azure AI Video Indexer web sitesinde transkripsiyonları görüntüleme ve güncelleştirme.

Özel modelleri ve söylenişi destekleyen dillerin listesi için Bkz. Azure AI Video Indexer'da dil desteği tablosundaki dil destek tablosunun Özelleştirme ve Söyleniş sütunları.

Veri kümelerini eğitin

Videonun dizinini oluştururken, transkripsiyonu geliştirmek için özelleştirilmiş bir konuşma modeli kullanabilirsiniz. Modeller düz metin verileri ve söyleniş verileri içerebilen veri kümeleriyle yüklenerek eğitilir.

Özel modeli test etmek ve eğitmek için kullanılan metinler, modelinizin tanımasını istediğiniz çeşitli içerik ve senaryolardan örnekler içermelidir. Veri kümelerinizi oluştururken ve eğitirken aşağıdaki faktörleri göz önünde bulundurun:

  • Kullanıcılarınızın modelinizle etkileşim kurarken yaptıkları sözlü ifade türlerini kapsayan metinler ekleyin. Örneğin, içeriğiniz öncelikli olarak bir sporla ilgiliyse modeli terminoloji ve sporla ilgili konu içeren içerikle eğitin.
  • Modelinizin tanımasını istediğiniz tüm konuşma farklarını ekleyin. Vurgular, diyalektler ve dil karıştırma gibi birçok faktör konuşmayı değiştirebilir.
  • Yalnızca dökümünü almayı planladığınız içerikle ilgili verileri ekleyin. Diğer verileri dahil etmek, genel olarak tanıma kalitesine zarar verebilir.

Veri kümesi türleri

Özelleştirme için kullanabileceğiniz iki veri kümesi türü vardır. Sorunlarınızı gidermek için hangi veri kümesini kullanacağınızı saptamaya yardımcı olmak için aşağıdaki tabloya bakın:

Kullanım örneği Veri türü
Tıbbi terminoloji veya BT jargonu gibi sektöre özgü sözlük ve dil bilgisi üzerinde tanıma doğruluğunu geliştirin. Düz metin
Ürün adları veya kısaltmalar gibi standart olmayan söylenişi olan bir sözcüğün veya terimin fonetik ve görüntülenen biçimini tanımlayın. Söyleniş verileri

Eğitim için düz metin verileri

Etki alanına özgü sözcüklerin ve tümceciklerin tanınmasını geliştirmek için, ilgili metnin düz metin cümlelerini içeren bir veri kümesi kullanılabilir. İlgili metin cümleleri, ortak sözcüklerin ve etki alanına özgü sözcüklerin yanlış tanınması ile ilgili değiştirme hatalarını bağlam içinde göstererek azaltabilir. Etki alanına özgü sözcükler yaygın veya uydurulmayan sözcükler olabilir, ancak telaffuzlarının tanınması kolay olmalıdır.

Düz metin veri kümeleri için en iyi yöntemler

  • Etki alanıyla ilgili tümceleri tek bir metin dosyasında sağlayın. Tümcelerin tamamını kullanmak yerine sözcüklerin listesini karşıya yükleyebilirsiniz. Ancak bunları kelime dağarcığına eklese de, sisteme sözcüklerin normalde nasıl kullanıldığını öğretmez. Tam veya kısmi ifadeler (kullanıcıların söyleme olasılığı olan şeyler için cümleler veya tümcecikler) sağlayarak dil modeli yeni sözcükleri ve bunların nasıl kullanıldığını öğrenebilir. Özel dil modeli yalnızca sisteme yeni sözcükler eklemek için değil, aynı zamanda uygulamanız için bilinen sözcüklerin olasılığını ayarlamak için de iyidir. Tam konuşmalar sağlamak, sistemin daha iyi öğrenmesine yardımcı olur.
  • Beklenen konuşmalara yakın metin verilerini kullanın. Konuşmaların eksiksiz veya dil bilgisi açısından doğru olması gerekmez, ancak modelin tanımasını beklediğiniz konuşulan girişi doğru şekilde yansıtması gerekir.
  • Her tümcenin veya anahtar sözcüğün ayrı bir satırda olmasını deneyin.
  • Ürün adları gibi bir terimin ağırlığını artırmak için terimi içeren birkaç cümle ekleyin.
  • İçeriğinizde kullanılan yaygın tümcecikler için, sisteme bu terimleri dinlemesini söylediği için birçok örnek sağlamak yararlı olur. 
  • Nadir bulunan simgelerin (~, # @ % &) kullanımından kaçının, çünkü bunlar atılır. Göründükleri cümleler de çıkarılır.
  • Yüz binlerce cümle gibi çok büyük girişler koymaktan kaçının çünkü bunu yapmak, artırmanın etkisini seyreltir.

Düz metin veri kümesi dosyanızın doğru biçimlendirildiğinden emin olmak için bu tabloyu kullanın:

Mülk Değer
Metin kodlaması UTF-8 BOM
Satır başına konuşma sayısı 1
En büyük dosya boyutu 200 MB

Düz metin dosyalarınızda şu yönergeleri izlemeyi deneyin:

  • Karakterleri, sözcükleri veya sözcük gruplarını üç kereden fazla yinelemekten kaçının; örneğin yeah yeah yeah yeah , hizmet çok fazla yineleme içeren satırlar bırakabilir.
  • U+00A1'den daha yüksek özel karakterler veya UTF-8 karakterleri kullanmayın.
  • URI'ler reddedilir.
  • Japonca veya Korece gibi bazı diller için büyük miktarda metin verilerini içeri aktarmak uzun sürebilir veya zaman aşımına neden olabilir. Veri kümesini, her birinde en fazla 20.000 satır bulunan birden çok metin dosyalarına bölmeyi göz önünde bulundurun.

Eğitim için söyleniş verileri

Yanlış telaffuz edilen sözcüklerin, tümceciklerin veya adların tanınmasını geliştirmek için özel konuşma modelinize özel bir söyleniş veri kümesi ekleyebilirsiniz.

Söyleniş veri kümelerinin bir sözcük veya tümceciğin konuşulan biçimini ve tanınan görüntülenen formu içermesi gerekir. Konuşulan form, gibi Triple Afonetik olarak yazılmış bir dizidir. Harflerden, sözcüklerden, hecelerden veya üçünün birleşiminden oluşabilir. Görüntülenen tanınan form, sözcüğün veya tümceciğin transkripsiyonda nasıl görünmesini istediğinizi gösterir. Bu tablo bazı örnekler içerir:

Görüntülenen tanınmış form Konuşulan form
C-3PO üç c-3PO
CNTK c n t k
ACAR Üçlü A

Söyleniş veri kümelerini tek bir metin dosyasında sağlarsınız. Konuşulan ifadeyi ve her birine özel bir söylenişi ekleyin. Dosyadaki her satır tanınan formla, sonra bir sekme karakteriyle ve sonra boşlukla ayrılmış fonetik diziyle başlamalıdır.

3CPO    three c p o 
CNTK    c n t k 
IEEE    i triple e 

Söyleniş veri kümelerini oluştururken ve eğitirken aşağıdaki noktaları göz önünde bulundurun:

Sık kullanılan sözcüklerin söylenişini değiştirmek için özel söyleniş dosyalarını kullanmanızı önerilmez.

Bir sözcüğün veya adın yanlış şekilde yazılıyorsa birkaç farklı biçimi varsa, söyleniş veri kümesini oluştururken bunların bazılarını veya hepsini kullanmayı göz önünde bulundurun. Örneğin, videoda Robert beş kez bahsedilirse, Robort, Ropert ve robbers olarak yazılır. Aşağıdaki örnekte olduğu gibi tüm varyasyonları dosyaya eklemeyi deneyebilirsiniz, ancak robbers videoda bahsedilirse, robbers gibi gerçek sözcüklerle eğitim yaparken dikkatli olun çünkü Robert olarak transkripte edilir.

Robert Roport
Robert Ropert
Robert Robbers

Söyleniş modeli kısaltmaları ele almak için tasarlanmamıştır. Örneğin, Doktor'un Dr. olarak yazılmasını istiyorsanız, bu bir söyleniş modeliyle elde edilemez.

Söyleniş veri kümesi dosyalarınızın geçerli ve doğru biçimlendirildiğinden emin olmak için aşağıdaki tabloya bakın.

Mülk Değer
Metin kodlaması UTF-8 BOM (ANSI İngilizce için de desteklenir)
Satır başına söyleniş sayısı 1
En büyük dosya boyutu 1 MB (ücretsiz katman için 1 KB)

Özel modellerinizi geliştirme

İlk eğitimden sonra konunun söylenişi ve modelinizin sonuçlarının değerlendirilmesi hakkında daha fazla bilgi edinebileceğinizden, söyleniş modelini eğitme yinelemeli bir süreç olabilir. Mevcut modeller düzenlenemez veya değiştirilemez. Modeli yinelemeli olarak eğiterek daha fazla bilgi içeren veri kümeleri oluşturma ve karşıya yükleme gerekir. Yeni veri kümelerini temel alan yeni özel modellerin eğitimi de gereklidir. Ardından yeni özel konuşma modeliyle medya dosyalarını yeniden dizine alırsınız.

Örnek:

Spor içeriklerini dizine almayı planladığınızı ve belirli spor terminolojisinin yanı sıra oyuncu ve koç adlarında transkript doğruluğu sorunlarını tahmin ettiğinizi varsayalım. Dizin oluşturmadan önce düz metin veri kümesiyle bir konuşma modeli oluşturdunuz. İlgili spor terminolojisini ve bazı oyuncu ve koç adlarını içeren bir söyleniş veri kümesi içerir. Özel konuşma modelini kullanarak birkaç videonun dizinini oluşturursunuz ve oluşturulan transkripti gözden geçirirken, terminoloji doğru şekilde döküme alınırken birçok adın doğru yazılmadığını fark edersiniz. Gelecekte performansı geliştirmek için aşağıdaki adımları uygulayabilirsiniz:

  1. Transkripti gözden geçirin ve yanlış yazılmış tüm adları not edin. bunlar iki gruba düşebilir:

    • Söyleniş dosyasında yer almayan adlar.
    • Söyleniş dosyasındaki adlar yine de yanlış yazılmış.
  2. Yeni bir veri kümesi dosyası oluşturun. Söyleniş veri kümesi dosyasını indirin veya yerel olarak kaydedilen özgün dosyanızı değiştirin. A grubu için, yeni adları dosyaya yanlış şekilde nasıl yazıldıklarıyla (Michael Mikel) ekleyin. B grubu için, doğru ad içeren her satırla birlikte daha fazla satır ekleyin ve yanlış şekilde dökümünün yapıldığını gösteren benzersiz bir örnek ekleyin. Örneğin:

    Stephen Steven
    Stephen Steafan
    Stephen Steevan

  3. Bu dosyayı yeni bir veri kümesi dosyası olarak karşıya yükleyin.

  4. Yeni bir konuşma modeli oluşturun ve özgün düz metin veri kümesini ve yeni söyleniş veri kümesi dosyasını ekleyin.

  5. Yeni konuşma modeliyle videoyu yeniden dizine ekleyin.

  6. Gerekirse, sonuçlar tatmin edici olana kadar 1-5 arası adımları yineleyin.