Konuşmayı metne dönüştürme nedir?

Bu genel bakışta, Azure AI hizmetlerinin bir parçası olan Konuşma tanıma hizmetinin konuşmayı metne dönüştürme özelliğinin avantajları ve özellikleri hakkında bilgi ediniyorsunuz. Konuşmayı metne dönüştürme, ses akışlarının metne gerçek zamanlı veya toplu transkripsiyonu için kullanılabilir.

Metin dillerine yönelik kullanılabilir konuşmaların tam listesi için bkz . Dil ve ses desteği.

Gerçek zamanlı konuşmayı metne dönüştürme

Gerçek zamanlı konuşmayı metne dönüştürme ile, konuşma bir mikrofondan veya dosyadan tanındıkça ses dökümünü alır. Ses dökümünü gerçek zamanlı olarak yazması gereken uygulamalar için metinde gerçek zamanlı konuşma kullanın, örneğin:

Metinde gerçek zamanlı konuşmayı Konuşma SDK'sı ve Konuşma CLI'sı aracılığıyla kullanabilirsiniz.

Toplu transkripsiyon

Toplu transkripsiyon , depolamadaki büyük miktarda ses dökümünü almak için kullanılır. Paylaşılan erişim imzası (SAS) URI'si kullanarak ses dosyalarınızı işaret edebilir ve transkripsiyon sonuçlarını zaman uyumsuz bir şekilde alabilirsiniz. Ses dökümünü toplu olarak yazması gereken uygulamalar için toplu transkripsiyonu kullanın, örneğin:

  • Önceden kaydedilmiş ses için transkripsiyonlar, başlık veya alt yazılar
  • Kişi merkezi arama sonrası analiz
  • Gündağılama

Toplu transkripsiyon şu şekilde kullanılabilir:

Özel konuşma

Özel konuşma ile uygulamalarınız ve ürünleriniz için konuşma tanımanın doğruluğunu değerlendirebilir ve geliştirebilirsiniz. Özel konuşma modeli, gerçek zamanlı konuşmayı metne dönüştürme, konuşma çevirisi ve toplu transkripsiyon için kullanılabilir.

İpucu

Batch transkripsiyon API'siyle özel konuşma kullanmak için barındırılan dağıtım uç noktası gerekmez. Özel konuşma modeli yalnızca toplu transkripsiyon için kullanılıyorsa kaynakları tasarruf edebilirsiniz. Daha fazla bilgi için bkz . Konuşma hizmeti fiyatlandırması.

Konuşma tanıma, Microsoft'un sahip olduğu verilerle eğitilen ve yaygın olarak kullanılan konuşulan dili yansıtan bir temel model olarak Evrensel Dil Modeli'ni kullanır. Temel model, çeşitli ortak etki alanlarını temsil eden diyalektler ve fonetiklerle önceden eğitilir. Bir konuşma tanıma isteği yaptığınızda, desteklenen her dil için en son temel model varsayılan olarak kullanılır. Temel model çoğu konuşma tanıma senaryosunda iyi çalışır.

Özel bir model, modeli eğitmek için metin verileri sağlayarak uygulamaya özgü etki alanına özgü sözlüğün tanınmasını geliştirmek için temel modeli geliştirmek için kullanılabilir. Başvuru transkripsiyonları ile ses verileri sağlayarak uygulamanın belirli ses koşullarına göre tanımayı geliştirmek için de kullanılabilir. Daha fazla bilgi için bkz. Özel konuşma ve Konuşmayı metne dönüştürme REST API'si.

Özelleştirme seçenekleri dile veya yerel ayara göre değişir. Desteği doğrulamak için bkz . Konuşma hizmeti için dil ve ses desteği.

Sorumlu AI

Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.

Sonraki adımlar