Düzenle

Aracılığıyla paylaş


Konuşmayı metne dönüştürme hakkında SSS

Bu makalede, konuşmayı metne dönüştürme özelliği hakkında sık sorulan sorular yanıtlar. Sorularınızın yanıtlarını burada bulamazsanız diğer destek seçeneklerine göz atın.

Genel

Temel model ile metin modeline özel konuşma arasındaki fark nedir?

Metin modeline temel bir konuşma, Microsoft'a ait verilerle eğitilir ve zaten bulutta dağıtılır. Belirli bir ortam gürültüsüne veya dile sahip bir ortama daha iyi uyum sağlamak için özel bir model oluşturabilir ve kullanabilirsiniz. Fabrika zeminleri, arabalar veya gürültülü sokaklar için uyarlanmış akustik model gerekir. Biyoloji, fizik, radyoloji, ürün adları ve özel kısaltmalar gibi konular için uyarlanmış bir dil modeli gerekir. Özel bir model eğitmek istiyorsanız, özel terimlerin ve tümceciklerin tanınmasını geliştirmek için ilgili metinle başlamalısınız.

Temel model kullanmak istersem nereden başlayabilirim?

İlk olarak, Azure portalında bir Konuşma kaynak anahtarı ve bölgesi alın. Önceden dağıtılan bir temel modele REST çağrıları yapmak istiyorsanız REST API'leri belgelerine bakın. WebSockets kullanmak istiyorsanız Konuşma SDK'sını indirin.

Her zaman özel konuşma modeli oluşturmam gerekir mi?

Hayır Uygulamanız genel, günlük dil kullanıyorsa modeli özelleştirmeniz gerekmez. Uygulamanız çok az arka plan gürültüsü olan veya olmayan bir ortamda kullanılıyorsa modeli özelleştirmeniz gerekmez.

Temel ve özelleştirilmiş modelleri portalda dağıtabilir ve ardından bunlara karşı doğruluk testleri çalıştırabilirsiniz. Bu özelliği, bir temel modelin ve özel modelin doğruluğunu ölçmek için kullanabilirsiniz.

Veri kümem veya modelim için işlemenin ne zaman tamamlanmasını Nasıl yaparım? biliyor musunuz?

Şu anda bunu bilmenin tek yolu, tablodaki modelin veya veri kümesinin durumunu görüntülemektir. İşlem tamamlandığında, durum Başarılı olur.

Birden fazla model oluşturabilir miyim?

Koleksiyonunuzda sahip olabileceğiniz model sayısıyla ilgili bir sınır yoktur.

Bir hata yaptığım fark ettim. Devam eden bir veri içeri aktarmayı veya model oluşturmayı iptal Nasıl yaparım??

Şu anda akustik veya dil uyarlama sürecini geri alamazsınız. İçeri aktarılan verileri ve modelleri terminal durumundayken silebilirsiniz.

Her tümcecik için ayrıntılı çıkış biçiminde birkaç sonuç alıyorum. Hangisini kullanmalıyım?

Başka bir sonuç ("N-Best") daha yüksek güvenilirlik değerine sahip olsa bile her zaman ilk sonucu alın. Konuşma hizmeti ilk sonucun en iyi olduğunu düşünür. Hiçbir konuşma tanınmazsa sonuç boş bir dize de olabilir.

Diğer sonuçlar büyük olasılıkla daha kötü ve tam büyük harfe çevirme ve noktalama işaretleri uygulanmamış olabilir. Bu sonuçlar, kullanıcılara listeden düzeltme seçme seçeneği verme veya yanlış tanınan komutları işleme gibi özel senaryolarda en kullanışlıdır.

Neden birden çok temel model var?

Konuşma tanıma hizmetinde birden fazla temel model arasından seçim yapabilirsiniz. Her model adı, eklendiği tarihi içerir. Özel bir modeli eğitmeye başladığınızda en iyi doğruluğu elde etmek için en son modeli kullanın. Eski temel modeller, yeni bir model kullanıma sunulduktan sonra da bir süre kullanılabilir. Kullanımdan kaldırana kadar üzerinde çalıştığınız modeli kullanmaya devam edebilirsiniz (bkz . Model ve uç nokta yaşam döngüsü). Daha iyi doğruluk için yine de en son temel modele geçmenizi öneririz.

Mevcut modelimi (model yığınlama) güncelleştirebilir miyim?

Mevcut bir modeli güncelleştiremezsiniz. Çözüm olarak, eski veri kümesini yeni veri kümesiyle birleştirin ve readapt yapın.

Eski veri kümesi ve yeni veri kümesi tek bir .zip dosyasında (akustik veriler için) veya bir .txt dosyasında (dil verileri için) birleştirilmelidir. Uyarlama tamamlandığında, yeni bir uç nokta elde etmek için yeni, güncelleştirilmiş modeli yeniden dağıtın.

Temel modelin yeni bir sürümü kullanılabilir olduğunda dağıtımım otomatik olarak güncelleştirildi mi?

Dağıtımlar otomatik olarak güncelleştirilmez .

Bir modeli uyarlayıp dağıttıysanız, mevcut dağıtım olduğu gibi kalır. Dağıtılan modelin yetkisini alabilir, temel modelin daha yeni sürümünü kullanarak bu modeli okuyabilir ve daha iyi doğruluk için yeniden dağıtabilirsiniz.

Hem temel modeller hem de özel modeller bir süre sonra kullanımdan kaldırılır (bkz . Model ve uç nokta yaşam döngüsü).

Modelimi indirip yerel olarak çalıştırabilir miyim?

Docker kapsayıcısında yerel olarak özel bir model çalıştırabilirsiniz.

Veri kümelerimi, modellerimi ve dağıtımlarımı başka bir bölgeye veya aboneliğe kopyalayabilir veya taşıyabilir miyim?

Özel modeli başka bir bölgeye veya aboneliğe kopyalamak için Models_Copy REST API'sini kullanabilirsiniz. Veri kümeleri ve dağıtımlar kopyalanamaz. Bir veri kümesini başka bir abonelikte yeniden içeri aktarabilir ve model kopyalarını kullanarak orada uç noktalar oluşturabilirsiniz.

İsteklerim günlüğe kaydedildi mi?

Varsayılan olarak istekler günlüğe kaydedilmez (ses veya transkripsiyon). Gerekirse, özel bir uç nokta oluştururken Bu uç noktadan içeriği günlüğe kaydet seçeneğini belirleyebilirsiniz. Konuşma SDK'sında ses günlüğünü özel uç nokta oluşturmak zorunda kalmadan istek temelinde de etkinleştirebilirsiniz. Her iki durumda da isteklerin ses ve tanıma sonuçları güvenli depolama alanında depolanır. Microsoft'a ait depolamayı kullanan abonelikler 30 gün boyunca kullanılabilir.

Bu uç noktadan günlük içeriği etkinleştirilmiş özel bir uç nokta kullanıyorsanız, Speech Studio'daki dağıtım sayfasında günlüğe kaydedilen dosyaları dışarı aktarabilirsiniz. SDK aracılığıyla ses günlüğü etkinleştirildiyse, dosyalara erişmek için API'yi çağırın. Günlükleri istediğiniz zaman silmek için API'yi de kullanabilirsiniz.

İsteklerim kısıtlandı mı?

Çift kanallı ses için nasıl ücretlendirilirim?

Her kanalı kendi dosyasında ayrı olarak gönderirseniz, her dosyanın ses süresi için ücretlendirilirsiniz. Kanalların birden çok kez katlandığı tek bir dosya gönderirseniz, tek dosya süresi boyunca ücretlendirilirsiniz. Fiyatlandırma hakkında daha fazla bilgi için Bkz . Azure yapay zeka hizmetleri fiyatlandırma sayfası.

Önemli

Özel konuşma hizmetini kullanmanızı engelleyen daha fazla gizlilik endişeniz varsa destek kanallarından biriyle iletişime geçin.

Eşzamanlılığı artırma

Bilgi için bkz . Konuşma hizmeti kotaları ve sınırları.

Verileri alma

Bir veri kümesinin boyutuna ilişkin sınır nedir ve neden bu sınırdır?

Sınır, HTTP yükleme dosyalarının boyutu üzerindeki kısıtlamadan kaynaklanır. Gerçek sınır için bkz . Konuşma hizmeti kotaları ve sınırları. Verilerinizi birden çok veri kümesine bölebilir ve modeli eğitmek için bunların tümünü seçebilirsiniz.

Daha büyük bir metin dosyasını karşıya yükleyebilmem için metin dosyalarımı sıkıştırabilir (sıkıştırabilir miyim?

Hayır Şu anda yalnızca sıkıştırılmamış metin dosyalarına izin verilir.

Veri raporu başarısız konuşmalar olduğunu belirtiyor. Sorun nedir?

Bir dosyadaki konuşmaların yüzde 100'ünün karşıya yüklenememesi sorun değildir. Akustik veya dil veri kümesindeki konuşmaların çoğu (örneğin, yüzde 95'ten fazla) başarıyla içeri aktarılırsa, veri kümesi kullanılabilir olabilir. Ancak yine de konuşmaların neden başarısız olduğunu anlamaya çalışmanızı ve ardından sorunu çözmenizi öneririz. Biçimlendirme hataları gibi en yaygın sorunların düzeltilmesi kolaydır.

Akustik model oluşturma

Ne kadar akustik veriye ihtiyacım var?

30 dakika ile 1 saat arasında akustik verilerle başlamanızı öneririz.

Hangi verileri toplamam gerekir?

Uygulama senaryosuna ve kullanım örneğine mümkün olduğunca yakın verileri toplayın. Veri toplama, cihaz veya cihazlar, ortamlar ve hoparlör türleri açısından hedef uygulama ve kullanıcılarla eşleşmelidir. Genel olarak, mümkün olduğunca geniş bir konuşmacı aralığından veri toplamanız gerekir.

Akustik verileri nasıl toplamam gerekir?

Tek başına veri toplama uygulaması oluşturabilir veya kullanıma hazır ses kayıt yazılımı kullanabilirsiniz. Ayrıca, ses verilerini günlüğe kaydeden ve ardından verileri kullanan bir uygulamanızın sürümünü de oluşturabilirsiniz.

Uyarlama verilerinin dökümünü kendim yazmam gerekiyor mu?

Evet. Bunu kendiniz yazabilir veya profesyonel bir transkripsiyon hizmeti kullanabilirsiniz. Bazı kullanıcılar profesyonel transkripsiyörleri tercih ederken, bazıları da kitle kaynağını kullanmayı veya verilerin dökümünü kendileri kullanır.

Ses verileriyle özel bir modeli eğitmek ne kadar sürer?

Ses verileriyle model eğitilmesi uzun bir işlem olabilir. Veri miktarına bağlı olarak, özel model oluşturmak birkaç gün sürebilir. Bir hafta içinde tamamlanamazsa, hizmet eğitim işlemini durdurup modeli başarısız olarak bildirebilir.

Konuşma hizmeti genel olarak ayrılmış donanıma sahip bölgelerde günde yaklaşık 10 saatlik ses verilerini işler. Yalnızca metinle eğitim daha hızlıdır ve normalde dakikalar içinde tamamlanır.

Eğitim için ayrılmış donanımların kullanılabildiği bölgelerden birini kullanın. Konuşma hizmeti, bu bölgelerde eğitim için 100 saate kadar ses kullanır.

Doğruluk testi

Sözcük hata oranı (WER) nedir ve nasıl hesaplanır?

WER, konuşma tanıma için değerlendirme ölçümüdür. WER, toplam hata sayısı (eklemeler, silmeler ve değiştirmeler) olarak hesaplanır ve başvuru transkripsiyonundaki toplam sözcük sayısına bölünür. Daha fazla bilgi için bkz . Modeli nicel olarak test etme.

Doğruluk testinin sonuçlarının iyi olup olmadığını belirlemek Nasıl yaparım??

Sonuçlar, temel modelle özelleştirdiğiniz model arasındaki karşılaştırmayı gösterir. Özelleştirmeyi değerli hale getirmek için temel modeli geçmeyi hedeflemeniz gerekir.

Nasıl yaparım? bir temel modelin WER'sini belirleyerek geliştirilip geliştirmediğini görebilir miyim?

Çevrimdışı test sonuçları, özel modelin temel doğruluğunu ve taban çizgisine göre iyileştirmeyi gösterir.

Dil modeli oluşturma

Ne kadar metin verisi yüklemem gerekiyor?

Uygulamanızda kullanılan sözcük dağarcığının ve tümceciklerin başlangıç dili modellerinden ne kadar farklı olduğuna bağlıdır. Tüm yeni sözcükler için, bu sözcüklerin kullanımına mümkün olduğunca çok örnek sağlamak yararlı olur. Dil verilerindeki tümcecikler de dahil olmak üzere uygulamanızda kullanılan yaygın tümcecikler için, sisteme bu terimleri de dinlemesini söylediği için birçok örnek sağlamak yararlı olur. Dil veri kümesinde en az 100 ve normalde birkaç yüz veya daha fazla konuşma olması yaygındır. Ayrıca, bazı sorgu türlerinin diğerlerinden daha yaygın olması bekleniyorsa, ortak sorguların birden çok kopyasını veri kümesine ekleyebilirsiniz.

Sözcük listesini karşıya yükleyebilir miyim?

Sözcüklerin listesini karşıya yüklemek onları kelime dağarcığına ekler, ancak sisteme sözcüklerin normalde nasıl kullanıldığını öğretmez. Tam veya kısmi ifadeler (kullanıcıların söyleme olasılığı olan şeyler için cümleler veya tümcecikler) sağlayarak dil modeli yeni sözcükleri ve bunların nasıl kullanıldığını öğrenebilir. Özel dil modeli yalnızca sisteme yeni sözcükler eklemek için değil, aynı zamanda uygulamanız için bilinen sözcüklerin olasılığını ayarlamak için de iyidir. Tam konuşmalar sağlamak, sistemin daha iyi öğrenmesine yardımcı olur.