Konuşmayı metne dönüştürme nedir?
Azure AI Konuşma Tanıma hizmeti, metinlere gelişmiş konuşma özellikleri sunar. Bu özellik hem gerçek zamanlı hem de toplu transkripsiyon desteği sunarak ses akışlarını metne dönüştürmek için çok yönlü çözümler sunar.
Temel Özellikler
Konuşmayı metne dönüştürme hizmeti aşağıdaki temel özellikleri sunar:
- Gerçek zamanlı transkripsiyon: Canlı ses girişleri için ara sonuçlarla anında transkripsiyon.
- Hızlı transkripsiyon: Öngörülebilir gecikme süresi olan durumlar için en hızlı zaman uyumlu çıkış.
- Toplu transkripsiyon: Büyük hacimli önceden kaydedilmiş ses için verimli işleme.
- Özel konuşma: Belirli etki alanları ve koşullar için geliştirilmiş doğruluk düzeyine sahip modeller.
Gerçek zamanlı konuşmayı metne dönüştürme
Gerçek zamanlı metne konuşma, mikrofondan veya dosyadan tanındıkça sesin dökümünü alır. Anında transkripsiyon gerektiren uygulamalar için idealdir, örneğin:
- Canlı toplantılar için transkripsiyonlar, açıklamalı alt yazılar veya alt yazılar: Erişilebilirlik ve kayıt tutma için gerçek zamanlı ses transkripsiyonu.
- Dikleştirme: Sesteki farklı hoparlörleri tanımlama ve ayırt etme.
- Söyleniş değerlendirmesi: Söyleniş doğruluğunu değerlendirme ve geri bildirim sağlama.
- Çağrı merkezi aracıları yardımcı olur: Müşteri hizmetleri temsilcilerine yardımcı olmak için gerçek zamanlı transkripsiyon sağlama.
- Dikte: Belgeleme amacıyla, konuşulan sözcükleri yazılı metne dönüştürme.
- Ses aracıları: Kullanıcı sorgularının ve komutlarının dökümünü almak için etkileşimli sesli yanıt sistemlerini etkinleştirme.
Metinlere gerçek zamanlı konuşmalara Konuşma SDK'sı, Konuşma CLI'sı ve REST API aracılığıyla erişilebilir ve bu sayede çeşitli uygulamalar ve iş akışlarıyla tümleştirme yapılabilir. Metne gerçek zamanlı konuşma, Konuşma SDK'sı, Konuşma CLI'sı ve Hızlı transkripsiyon API'leri gibi REST API'leri aracılığıyla kullanılabilir.
Hızlı transkripsiyon (Önizleme)
Hızlı transkripsiyon API'si, sonuçların gerçek zamanlı sesten zaman uyumlu ve daha hızlı döndürülmesiyle ses dosyalarının dökümünü almak için kullanılır. Aşağıdakiler gibi öngörülebilir gecikme süresiyle ses kaydının transkriptine ihtiyacınız olan senaryolarda hızlı transkripsiyonu kullanın:
- Hızlı ses veya video transkripsiyonu ve alt yazılar: Tek seferde video veya ses dosyasının tamamının transkripsiyonunun hızlı bir şekilde alın.
- Video çevirisi: Farklı dillerde ses varsa hemen bir video için yeni alt yazılar alın.
Not
Hızlı transkripsiyon API'sini yalnızca konuşmayı metne dönüştürme REST API'sinin 2024-05-15-preview ve sonraki sürümleri aracılığıyla kullanılabilir.
Hızlı transkripsiyonu kullanmaya başlamak için bkz . Hızlı transkripsiyon API'sini (önizleme) kullanma.
Toplu transkripsiyon API'si
Toplu transkripsiyon , dosyalarda depolanan büyük miktarlardaki seslerin transkribesi için tasarlanmıştır. Bu yöntem, sesi zaman uyumsuz olarak işler ve aşağıdakiler için uygundur:
- Önceden kaydedilmiş ses için transkripsiyonlar, açıklamalı alt yazılar veya alt yazılar: Depolanan ses içeriğini metne dönüştürme.
- Kişi merkezi arama sonrası analiz: Değerli içgörüleri ayıklamak için kaydedilen çağrıları analiz etme.
- Diarizasyon: Kaydedilen seste hoparlörler arasında ayrım.
Toplu transkripsiyon şu şekilde kullanılabilir:
Konuşmayı metne dönüştürme REST API'si: RESTful çağrılarının esnekliğiyle toplu işlemeyi kolaylaştırır. Başlamak için bkz . Toplu transkripsiyon ve Batch transkripsiyon örneklerini kullanma.
Konuşma CLI'sı: Hem gerçek zamanlı hem de toplu transkripsiyonu destekleyip transkripsiyon görevlerini yönetmeyi kolaylaştırır. Toplu transkripsiyonlarla ilgili Konuşma CLI'sı yardımı için aşağıdaki komutu çalıştırın:
spx help batch transcription
Özel konuşma
Özel konuşma ile uygulamalarınız ve ürünleriniz için konuşma tanımanın doğruluğunu değerlendirebilir ve geliştirebilirsiniz. Özel konuşma modeli, gerçek zamanlı konuşmayı metne dönüştürme, konuşma çevirisi ve toplu transkripsiyon için kullanılabilir.
İpucu
Batch transkripsiyon API'siyle özel konuşma kullanmak için barındırılan dağıtım uç noktası gerekmez. Özel konuşma modeli yalnızca toplu transkripsiyon için kullanılıyorsa kaynakları tasarruf edebilirsiniz. Daha fazla bilgi için bkz . Konuşma hizmeti fiyatlandırması.
Konuşma tanıma, Microsoft'un sahip olduğu verilerle eğitilen ve yaygın olarak kullanılan konuşulan dili yansıtan bir temel model olarak Evrensel Dil Modeli'ni kullanır. Temel model, çeşitli ortak etki alanlarını temsil eden diyalektler ve fonetiklerle önceden eğitilir. Bir konuşma tanıma isteği yaptığınızda, desteklenen her dil için en son temel model varsayılan olarak kullanılır. Temel model çoğu konuşma tanıma senaryosunda iyi çalışır.
Özel konuşma, konuşma tanıma modelini uygulamanızın özel gereksinimlerine daha uygun olacak şekilde uyarlamanıza olanak tanır. Bu özellikle şunlar için yararlı olabilir:
- Etki alanına özgü sözcük dağarcığının tanınmasını geliştirme: Alanınızla ilgili metin verileriyle modeli eğitin.
- Belirli ses koşulları için doğruluğu geliştirme: Modeli geliştirmek için başvuru transkripsiyonlarıyla ses verilerini kullanın.
Özel konuşma hakkında daha fazla bilgi için özel konuşmaya genel bakış ve konuşmayı metne dönüştürme REST API belgelerine bakın.
Dil ve yerel ayara göre özelleştirme seçenekleri hakkında ayrıntılı bilgi için Konuşma hizmeti belgeleri için dil ve ses desteğine bakın.
Kullanım Örnekleri
Azure AI konuşmasını metne dönüştürmeye nasıl kullanabileceğinize dair bazı pratik örnekler aşağıda verilmiştir:
Kullanım örneği | Senaryo | Çözüm |
---|---|---|
Canlı toplantı transkripsiyonları ve açıklamalı alt yazılar | Sanal olay platformlarının web seminerleri için gerçek zamanlı açıklamalı alt yazılar sağlaması gerekir. | Konuşma SDK'sını kullanarak gerçek zamanlı konuşmayı metne tümleştirerek konuşma içeriğini etkinlik sırasında canlı olarak görüntülenen açıklamalı alt yazılara dönüştürin. |
Müşteri hizmetleri geliştirmesi | Çağrı merkezi, müşteri aramalarının gerçek zamanlı transkripsiyonlarını sağlayarak aracılara yardımcı olmak ister. | Konuşma CLI'sı aracılığıyla metinlere gerçek zamanlı konuşma kullanarak çağrıların dökümünü alma ve aracıların müşteri sorgularını daha iyi anlayıp yanıtlamasını sağlama. |
Video alt başlığı | Video barındırma platformu, bir video için hızla bir alt yazı kümesi oluşturmak istiyor. | Videonun tamamı için hızlı bir alt yazı kümesi almak için hızlı transkripsiyonu kullanın. |
Eğitim araçları | Bir e-öğrenme platformu, video dersleri için transkripsiyonlar sağlamayı amaçlar. | Önceden kaydedilmiş ders videolarını işlemek ve öğrenciler için metin transkriptleri oluşturmak için konuşmayı metne dönüştürme REST API'sinde toplu transkripsiyon uygulayın. |
Sağlık belgeleri | Bir sağlık hizmeti sağlayıcısının hasta danışmanlıklarını belgelemesi gerekir. | Dikte için metin yazmak için gerçek zamanlı konuşma kullanın ve sağlık uzmanlarının notlarını konuşmalarına ve anında dökümlerini almalarına olanak tanıyın. Belirli tıbbi terimlerin tanınmasını geliştirmek için özel bir model kullanın. |
Medya ve eğlence | Bir medya şirketi, büyük bir video arşivi için alt yazılar oluşturmak istiyor. | Toplu transkripsiyon kullanarak video dosyalarını toplu olarak işleyin ve her video için doğru alt yazılar oluşturun. |
Pazar araştırması | Bir pazar araştırma firmasının ses kayıtlarından gelen müşteri geri bildirimlerini analiz etmesi gerekiyor. | Sesli geri bildirimleri metne dönüştürerek daha kolay analiz ve içgörü ayıklaması sağlamak için toplu transkripsiyon kullanın. |
Sorumlu AI
Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.
- Saydamlık notu ve kullanım örnekleri
- Özellikler ve sınırlamalar
- Tümleştirme ve sorumlu kullanım
- Veri, gizlilik ve güvenlik
İlgili içerik
- Konuşmayı metne dönüştürmeyi kullanmaya başlama
- Toplu transkripsiyon oluşturma
- Ayrıntılı fiyatlandırma bilgileri için Konuşma hizmeti fiyatlandırma sayfasını ziyaret edin.