Konuşmayı metne dönüştürme nedir?

2025-03-10

Azure AI Konuşma Tanıma hizmeti, metinlere gelişmiş konuşma özellikleri sunar. Bu özellik hem gerçek zamanlı hem de toplu transkripsiyon desteği sunarak ses akışlarını metne dönüştürmek için çok yönlü çözümler sunar.

Temel Özellikler

Konuşmayı metne dönüştürme hizmeti aşağıdaki temel özellikleri sunar:

Gerçek zamanlı transkripsiyon: Canlı ses girişleri için ara sonuçlarla anında transkripsiyon.
Hızlı transkripsiyon: Öngörülebilir gecikme süresi olan durumlar için en hızlı zaman uyumlu çıkış.
Toplu transkripsiyon: Büyük hacimli önceden kaydedilmiş ses için verimli işleme.
Özel konuşma: Belirli etki alanları ve koşullar için geliştirilmiş doğruluk düzeyine sahip modeller.

Gerçek zamanlı konuşmayı metne dönüştürme

Gerçek zamanlı metne konuşma, mikrofondan veya dosyadan tanındıkça sesin dökümünü alır. Anında transkripsiyon gerektiren uygulamalar için idealdir, örneğin:

Canlı toplantılar için transkripsiyonlar, açıklamalı alt yazılar veya alt yazılar: Erişilebilirlik ve kayıt tutma için gerçek zamanlı ses transkripsiyonu.
Dikleştirme: Sesteki farklı hoparlörleri tanımlama ve ayırt etme.
Söyleniş değerlendirmesi: Söyleniş doğruluğunu değerlendirme ve geri bildirim sağlama.
Çağrı merkezi aracıları yardımcı olur: Müşteri hizmetleri temsilcilerine yardımcı olmak için gerçek zamanlı transkripsiyon sağlama.
Dikte: Belgeleme amacıyla, konuşulan sözcükleri yazılı metne dönüştürme.
Ses aracıları: Kullanıcı sorgularının ve komutlarının dökümünü almak için etkileşimli sesli yanıt sistemlerini etkinleştirme.

Metinlere gerçek zamanlı konuşmalara Konuşma SDK'sı, Konuşma CLI'sı ve REST API aracılığıyla erişilebilir ve bu sayede çeşitli uygulamalar ve iş akışlarıyla tümleştirme yapılabilir. Kısa ses için Konuşma SDK'sı, Konuşma CLI'sı ve Konuşmayı metne dönüştürme REST API'sini kullanarak gerçek zamanlı metne konuşmayı kullanabilirsiniz.

Hızlı transkripsiyon

Hızlı transkripsiyon API'si, sonuçların gerçek zamanlı sesten zaman uyumlu ve daha hızlı döndürülmesiyle ses dosyalarının dökümünü almak için kullanılır. Aşağıdakiler gibi öngörülebilir gecikme süresiyle ses kaydının transkriptine ihtiyacınız olan senaryolarda hızlı transkripsiyonu kullanın:

Hızlı ses veya video transkripsiyonu ve alt yazılar: Tek seferde video veya ses dosyasının tamamının transkripsiyonunun hızlı bir şekilde alın.
Video çevirisi: Farklı dillerde ses varsa hemen bir video için yeni alt yazılar alın.

Hızlı transkripsiyonu kullanmaya başlamak için bkz . Hızlı transkripsiyon API'sini kullanma.

Toplu transkripsiyon API'si

Toplu transkripsiyon , dosyalarda depolanan büyük miktarlardaki seslerin transkribesi için tasarlanmıştır. Bu yöntem, sesi zaman uyumsuz olarak işler ve aşağıdakiler için uygundur:

Önceden kaydedilmiş ses için transkripsiyonlar, açıklamalı alt yazılar veya alt yazılar: Depolanan ses içeriğini metne dönüştürme.
Kişi merkezi arama sonrası analiz: Değerli içgörüleri ayıklamak için kaydedilen çağrıları analiz etme.
Diarizasyon: Kaydedilen seste hoparlörler arasında ayrım.

Toplu transkripsiyon şu şekilde kullanılabilir:

Konuşmayı metne dönüştürme REST API'si: RESTful çağrılarının esnekliğiyle toplu işlemeyi kolaylaştırır. Başlamak için bkz . Toplu transkripsiyon ve Batch transkripsiyon örneklerini kullanma.
Konuşma CLI'sı: Hem gerçek zamanlı hem de toplu transkripsiyonu destekleyip transkripsiyon görevlerini yönetmeyi kolaylaştırır. Toplu transkripsiyonlarla ilgili Konuşma CLI'sı yardımı için aşağıdaki komutu çalıştırın:
```
spx help batch transcription
```

Özel konuşma

Özel konuşma ile uygulamalarınız ve ürünleriniz için konuşma tanımanın doğruluğunu değerlendirebilir ve geliştirebilirsiniz. Özel konuşma modeli, gerçek zamanlı konuşmayı metne dönüştürme, konuşma çevirisi ve toplu transkripsiyon için kullanılabilir.

İpucu

Batch transkripsiyon API'siyle özel konuşma kullanmak için barındırılan dağıtım uç noktası gerekmez. Özel konuşma modeli yalnızca toplu transkripsiyon için kullanılıyorsa kaynakları tasarruf edebilirsiniz. Daha fazla bilgi için bkz . Konuşma hizmeti fiyatlandırması.

Konuşma tanıma, Microsoft'un sahip olduğu verilerle eğitilen ve yaygın olarak kullanılan konuşulan dili yansıtan bir temel model olarak Evrensel Dil Modeli'ni kullanır. Temel model, çeşitli ortak etki alanlarını temsil eden diyalektler ve fonetiklerle önceden eğitilir. Bir konuşma tanıma isteği yaptığınızda, desteklenen her dil için en son temel model varsayılan olarak kullanılır. Temel model çoğu konuşma tanıma senaryosunda iyi çalışır.

Özel konuşma, konuşma tanıma modelini uygulamanızın özel gereksinimlerine daha uygun olacak şekilde uyarlamanıza olanak tanır. Bu özellikle şunlar için yararlı olabilir:

Etki alanına özgü sözcük dağarcığının tanınmasını geliştirme: Alanınızla ilgili metin verileriyle modeli eğitin.
Belirli ses koşulları için doğruluğu geliştirme: Modeli geliştirmek için başvuru transkripsiyonlarıyla ses verilerini kullanın.

Özel konuşma hakkında daha fazla bilgi için özel konuşmaya genel bakış ve konuşmayı metne dönüştürme REST API belgelerine bakın.

Dil ve yerel ayara göre özelleştirme seçenekleri hakkında ayrıntılı bilgi için Konuşma hizmeti belgeleri için dil ve ses desteğine bakın.

Kullanım Örnekleri

Azure AI konuşmasını metne dönüştürmeye nasıl kullanabileceğinize dair bazı pratik örnekler aşağıda verilmiştir:

Kullanım örneği	Senaryo	Çözüm
Canlı toplantı transkripsiyonları ve açıklamalı alt yazılar	Sanal olay platformlarının web seminerleri için gerçek zamanlı açıklamalı alt yazılar sağlaması gerekir.	Konuşma SDK'sını kullanarak gerçek zamanlı konuşmayı metne tümleştirerek konuşma içeriğini etkinlik sırasında canlı olarak görüntülenen açıklamalı alt yazılara dönüştürin.
Müşteri hizmetleri geliştirmesi	Çağrı merkezi, müşteri aramalarının gerçek zamanlı transkripsiyonlarını sağlayarak aracılara yardımcı olmak ister.	Konuşma CLI'sı aracılığıyla metinlere gerçek zamanlı konuşma kullanarak çağrıların dökümünü alma ve aracıların müşteri sorgularını daha iyi anlayıp yanıtlamasını sağlama.
Video alt başlığı	Video barındırma platformu, bir video için hızla bir alt yazı kümesi oluşturmak istiyor.	Videonun tamamı için hızlı bir alt yazı kümesi almak için hızlı transkripsiyonu kullanın.
Eğitim araçları	Bir e-öğrenme platformu, video dersleri için transkripsiyonlar sağlamayı amaçlar.	Önceden kaydedilmiş ders videolarını işlemek ve öğrenciler için metin transkriptleri oluşturmak için konuşmayı metne dönüştürme REST API'sinde toplu transkripsiyon uygulayın.
Sağlık belgeleri	Bir sağlık hizmeti sağlayıcısının hasta danışmanlıklarını belgelemesi gerekir.	Dikte için metin yazmak için gerçek zamanlı konuşma kullanın ve sağlık uzmanlarının notlarını konuşmalarına ve anında dökümlerini almalarına olanak tanıyın. Belirli tıbbi terimlerin tanınmasını geliştirmek için özel bir model kullanın.
Medya ve eğlence	Bir medya şirketi, büyük bir video arşivi için alt yazılar oluşturmak istiyor.	Toplu transkripsiyon kullanarak video dosyalarını toplu olarak işleyin ve her video için doğru alt yazılar oluşturun.
Pazar araştırması	Bir pazar araştırma firmasının ses kayıtlarından gelen müşteri geri bildirimlerini analiz etmesi gerekiyor.	Sesli geri bildirimleri metne dönüştürerek daha kolay analiz ve içgörü ayıklaması sağlamak için toplu transkripsiyon kullanın.

Sorumlu AI

Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.

Konuşmayı metne dönüştürmeyi kullanmaya başlama
Toplu transkripsiyon oluşturma
Ayrıntılı fiyatlandırma bilgileri için Konuşma hizmeti fiyatlandırma sayfasını ziyaret edin.

Aracılığıyla paylaş