Azure'daki konuşma özelliklerini kullanmaya başlama

3 dakika

Microsoft Azure, aşağıdaki uygulama programlama arabirimlerini (API' ler) içeren Azure AI Konuşma Tanıma hizmeti aracılığıyla hem konuşma tanıma hem de konuşma sentezi özellikleri sunar:

Konuşmayı metne dönüştürme API'si
Metin okuma API'si

Azure AI Konuşma için Azure kaynakları

Bir uygulamada Azure AI Konuşma özelliğini kullanmak için Azure aboneliğinizde uygun bir kaynak oluşturmanız gerekir. Aşağıdaki kaynak türlerinden birini oluşturmayı seçebilirsiniz:

Konuşma kaynağı - Yalnızca Azure AI Konuşma kullanmayı planlıyorsanız veya kaynağın erişimini ve faturalamasını diğer hizmetlerden ayrı olarak yönetmek istiyorsanız bu kaynak türünü seçin.
Azure AI hizmetleri kaynağı - Azure AI Konuşma özelliğini diğer Azure AI hizmetleriyle birlikte kullanmayı planlıyorsanız ve bu hizmetler için erişimi ve faturalamayı birlikte yönetmek istiyorsanız bu kaynak türünü seçin.

Konuşmayı metne dönüştürme API'si

Sesin gerçek zamanlı veya toplu dökümünü metin biçiminde gerçekleştirmek için Azure AI Konuşmayı metin API'sine kullanabilirsiniz. Transkripsiyon için kullanılacak ses kaynağı, mikrofondan gelen gerçek zamanlı ses akışı veya bir ses dosyası olabilir.

Konuşmayı metne dönüştürme API'sinin kullandığı model, Microsoft tarafından eğitilen Evrensel Dil Modeli'ni temel alır. Microsoft Azure'a dağıtılmış olan modelin verileri Microsoft'a aittir. Model, konuşma ve dikte olmak üzere iki farklı senaryo için iyileştirilmiştir. Ayrıca Microsoft tarafından sağlanan önceden oluşturulmuş modeller sizin için uygun değilse akustik, dil ve telaffuz ayarlarını değiştirerek kendi özel modellerinizi oluşturup eğitebilirsiniz.

Gerçek zamanlı transkripsiyon

Gerçek zamanlı konuşmayı metne dönüştürme, ses akışlarındaki metinlerin dökümünü almanızı sağlar. Gerçek zamanlı transkripsiyonu sunumlar, tanıtımlar veya bir konuşmacının bulunduğu farklı senaryolar için kullanabilirsiniz.

Gerçek zamanlı transkripsiyonun çalışması için uygulamanızın mikrofondan gelen sesi veya ses dosyası gibi farklı bir giriş kaynağını dinlemesi gerekir. Uygulama kodunuz sesi hizmete aktarır, hizmet de metin olarak döndürür.

Toplu transkripsiyon

Metin senaryolarının tümü gerçek zamanlı değildir. Ses kayıtlarınız bir dosya paylaşımında, uzak sunucuda, hatta Azure depolamada depolanmış olabilir. Paylaşılan erişim imzası (SAS) URI'si kullanarak ses dosyalarınızı işaret edebilir ve transkripsiyon sonuçlarını zaman uyumsuz bir şekilde alabilirsiniz.

Toplu işler mümkün olan en iyi şekilde zamanlandığından iki transkripsiyon da zaman uyumsuz şekilde çalıştırılmalıdır. Normalde işler istek gönderildikten itibaren birkaç dakika içinde çalıştırılmaya başlar ancak işin ne zaman çalışmaya başlayacağına dair bir garanti sunulmaz.

Metin okuma API'si

Metin okuma API'si, metin girişini doğrudan bir bilgisayar hoparlörü aracılığıyla çalınabilen veya bir ses dosyasına yazılan sesli konuşmaya dönüştürmenizi sağlar.

Konuşma sentezi sesleri

Konuşmayı yapmak için metin API'sini kullandığınızda, metni seslendirmek için kullanılacak sesi belirtebilirsiniz. Bu özellik sayesinde konuşma sentezi çözümünüzü kişiselleştirebilir ve karakter kazandırabilirsiniz.

Hizmet, ses tonlaması ile ilgili olarak konuşma sentezindeki yaygın sınırlamaların üstesinden gelmek için sinir ağlarından yararlanan sinir sesleri de dahil olmak üzere birden çok dil ve bölgesel söylenişi destekleyen önceden tanımlanmış birden çok ses içerir ve bu da daha doğal bir ses sunar. Ayrıca özel sesler geliştirebilir ve bunları metin okuma API'si ile kullanabilirsiniz

Desteklenen Diller

Hem konuşmayı metne dönüştürme hem de metin okuma API'leri çeşitli dilleri destekler. Desteklenen diller hakkında ayrıntılı bilgi için aşağıdaki bağlantıları kullanın:

Metin dillerine konuşma.
Metin okuma dilleri.

Devam et