Konuşmayı metne dönüştürme nedir?

Makale
01/22/2024

Bu genel bakışta, Azure AI hizmetlerinin bir parçası olan Konuşma tanıma hizmetinin konuşmayı metne dönüştürme özelliğinin avantajları ve özellikleri hakkında bilgi ediniyorsunuz. Konuşmayı metne dönüştürme, ses akışlarının metne gerçek zamanlı veya toplu transkripsiyonu için kullanılabilir.

Not

Gerçek zamanlıdan toplu transkripsiyona fiyatlandırmasını karşılaştırmak için bkz. Konuşma hizmeti fiyatlandırması.

Metin dillerine yönelik kullanılabilir konuşmaların tam listesi için bkz . Dil ve ses desteği.

Gerçek zamanlı konuşmayı metne dönüştürme

Gerçek zamanlı konuşmayı metne dönüştürme ile, konuşma bir mikrofondan veya dosyadan tanındıkça ses dökümünü alır. Ses dökümünü gerçek zamanlı olarak yazması gereken uygulamalar için metinde gerçek zamanlı konuşma kullanın, örneğin:

Canlı toplantılar için transkripsiyonlar, başlık veya alt yazılar
Gündağılama
Söyleniş değerlendirmesi
İletişim merkezi aracıları yardımı
Dikte
Ses aracıları

Metinde gerçek zamanlı konuşmayı Konuşma SDK'sı ve Konuşma CLI'sı aracılığıyla kullanabilirsiniz.

Toplu transkripsiyon

Toplu transkripsiyon , depolamadaki büyük miktarda ses dökümünü almak için kullanılır. Paylaşılan erişim imzası (SAS) URI'si kullanarak ses dosyalarınızı işaret edebilir ve transkripsiyon sonuçlarını zaman uyumsuz bir şekilde alabilirsiniz. Ses dökümünü toplu olarak yazması gereken uygulamalar için toplu transkripsiyonu kullanın, örneğin:

Önceden kaydedilmiş ses için transkripsiyonlar, başlık veya alt yazılar
Kişi merkezi arama sonrası analiz
Gündağılama

Toplu transkripsiyon şu şekilde kullanılabilir:

Konuşmayı metne dönüştürme REST API'sine: Başlamak için bkz. Toplu transkripsiyon ve Batch transkripsiyon örneklerini kullanma (REST).
Konuşma CLI'sı hem gerçek zamanlı hem de toplu transkripsiyonu destekler. Toplu transkripsiyonlarla ilgili Konuşma CLI'sı yardımı için aşağıdaki komutu çalıştırın:
```
spx help batch transcription
```

Özel konuşma

Özel konuşma ile uygulamalarınız ve ürünleriniz için konuşma tanımanın doğruluğunu değerlendirebilir ve geliştirebilirsiniz. Özel konuşma modeli, gerçek zamanlı konuşmayı metne dönüştürme, konuşma çevirisi ve toplu transkripsiyon için kullanılabilir.

İpucu

Batch transkripsiyon API'siyle özel konuşma kullanmak için barındırılan dağıtım uç noktası gerekmez. Özel konuşma modeli yalnızca toplu transkripsiyon için kullanılıyorsa kaynakları tasarruf edebilirsiniz. Daha fazla bilgi için bkz . Konuşma hizmeti fiyatlandırması.

Konuşma tanıma, Microsoft'un sahip olduğu verilerle eğitilen ve yaygın olarak kullanılan konuşulan dili yansıtan bir temel model olarak Evrensel Dil Modeli'ni kullanır. Temel model, çeşitli ortak etki alanlarını temsil eden diyalektler ve fonetiklerle önceden eğitilir. Bir konuşma tanıma isteği yaptığınızda, desteklenen her dil için en son temel model varsayılan olarak kullanılır. Temel model çoğu konuşma tanıma senaryosunda iyi çalışır.

Özel bir model, modeli eğitmek için metin verileri sağlayarak uygulamaya özgü etki alanına özgü sözlüğün tanınmasını geliştirmek için temel modeli geliştirmek için kullanılabilir. Başvuru transkripsiyonları ile ses verileri sağlayarak uygulamanın belirli ses koşullarına göre tanımayı geliştirmek için de kullanılabilir. Daha fazla bilgi için bkz. Özel konuşma ve Konuşmayı metne dönüştürme REST API'si.

Özelleştirme seçenekleri dile veya yerel ayara göre değişir. Desteği doğrulamak için bkz . Konuşma hizmeti için dil ve ses desteği.

Sorumlu AI

Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.

Konuşmayı metne dönüştürme nedir?

Gerçek zamanlı konuşmayı metne dönüştürme

Toplu transkripsiyon

Özel konuşma

Sorumlu AI

Sonraki adımlar

Ek kaynaklar