Konuşmayı metne dönüştürme nedir?
Bu genel bakışta, Azure AI hizmetlerinin bir parçası olan Konuşma tanıma hizmetinin konuşmayı metne dönüştürme özelliğinin avantajları ve özellikleri hakkında bilgi ediniyorsunuz. Konuşmayı metne dönüştürme, ses akışlarının metne gerçek zamanlı veya toplu transkripsiyonu için kullanılabilir.
Not
Gerçek zamanlıdan toplu transkripsiyona fiyatlandırmasını karşılaştırmak için bkz. Konuşma hizmeti fiyatlandırması.
Metin dillerine yönelik kullanılabilir konuşmaların tam listesi için bkz . Dil ve ses desteği.
Gerçek zamanlı konuşmayı metne dönüştürme
Gerçek zamanlı konuşmayı metne dönüştürme ile, konuşma bir mikrofondan veya dosyadan tanındıkça ses dökümünü alır. Ses dökümünü gerçek zamanlı olarak yazması gereken uygulamalar için metinde gerçek zamanlı konuşma kullanın, örneğin:
- Canlı toplantılar için transkripsiyonlar, başlık veya alt yazılar
- Gündağılama
- Söyleniş değerlendirmesi
- İletişim merkezi aracıları yardımı
- Dikte
- Ses aracıları
Metinde gerçek zamanlı konuşmayı Konuşma SDK'sı ve Konuşma CLI'sı aracılığıyla kullanabilirsiniz.
Toplu transkripsiyon
Toplu transkripsiyon , depolamadaki büyük miktarda ses dökümünü almak için kullanılır. Paylaşılan erişim imzası (SAS) URI'si kullanarak ses dosyalarınızı işaret edebilir ve transkripsiyon sonuçlarını zaman uyumsuz bir şekilde alabilirsiniz. Ses dökümünü toplu olarak yazması gereken uygulamalar için toplu transkripsiyonu kullanın, örneğin:
- Önceden kaydedilmiş ses için transkripsiyonlar, başlık veya alt yazılar
- Kişi merkezi arama sonrası analiz
- Gündağılama
Toplu transkripsiyon şu şekilde kullanılabilir:
- Konuşmayı metne dönüştürme REST API'sine: Başlamak için bkz. Toplu transkripsiyon ve Batch transkripsiyon örneklerini kullanma (REST).
- Konuşma CLI'sı hem gerçek zamanlı hem de toplu transkripsiyonu destekler. Toplu transkripsiyonlarla ilgili Konuşma CLI'sı yardımı için aşağıdaki komutu çalıştırın:
spx help batch transcription
Özel konuşma
Özel konuşma ile uygulamalarınız ve ürünleriniz için konuşma tanımanın doğruluğunu değerlendirebilir ve geliştirebilirsiniz. Özel konuşma modeli, gerçek zamanlı konuşmayı metne dönüştürme, konuşma çevirisi ve toplu transkripsiyon için kullanılabilir.
İpucu
Batch transkripsiyon API'siyle özel konuşma kullanmak için barındırılan dağıtım uç noktası gerekmez. Özel konuşma modeli yalnızca toplu transkripsiyon için kullanılıyorsa kaynakları tasarruf edebilirsiniz. Daha fazla bilgi için bkz . Konuşma hizmeti fiyatlandırması.
Konuşma tanıma, Microsoft'un sahip olduğu verilerle eğitilen ve yaygın olarak kullanılan konuşulan dili yansıtan bir temel model olarak Evrensel Dil Modeli'ni kullanır. Temel model, çeşitli ortak etki alanlarını temsil eden diyalektler ve fonetiklerle önceden eğitilir. Bir konuşma tanıma isteği yaptığınızda, desteklenen her dil için en son temel model varsayılan olarak kullanılır. Temel model çoğu konuşma tanıma senaryosunda iyi çalışır.
Özel bir model, modeli eğitmek için metin verileri sağlayarak uygulamaya özgü etki alanına özgü sözlüğün tanınmasını geliştirmek için temel modeli geliştirmek için kullanılabilir. Başvuru transkripsiyonları ile ses verileri sağlayarak uygulamanın belirli ses koşullarına göre tanımayı geliştirmek için de kullanılabilir. Daha fazla bilgi için bkz. Özel konuşma ve Konuşmayı metne dönüştürme REST API'si.
Özelleştirme seçenekleri dile veya yerel ayara göre değişir. Desteği doğrulamak için bkz . Konuşma hizmeti için dil ve ses desteği.
Sorumlu AI
Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.
- Saydamlık notu ve kullanım örnekleri
- Özellikler ve sınırlamalar
- Tümleştirme ve sorumlu kullanım
- Veri, gizlilik ve güvenlik