Metin okuma nedir?

Bu genel bakışta, Azure AI hizmetlerinin bir parçası olan Konuşma tanıma hizmetinin metin okuma özelliğinin avantajları ve özellikleri hakkında bilgi ediniyorsunuz.

Metin okuma, uygulamalarınızın, araçlarınızın veya cihazlarınızın metni sentezlenmiş konuşma gibi insana dönüştürmesini sağlar. Metin okuma özelliği, konuşma sentezi olarak da bilinir. Kutudan çıkarak insan gibi önceden oluşturulmuş sinir seslerini kullanın veya ürününüz veya markanıza özel bir sinir sesi oluşturun. Desteklenen seslerin, dillerin ve yerel ayarların tam listesi için bkz . Konuşma hizmeti için dil ve ses desteği.

Temel özellikler

Metin okuma aşağıdaki özellikleri içerir:

Özellik Özet Tanıtım
Önceden oluşturulmuş sinir sesi (fiyatlandırma sayfasında Nöral olarak adlandırılır) Çok doğal, ilk çıkan sesler. Bir Azure hesabı ve Konuşma hizmeti aboneliği oluşturun, ardından Konuşma SDK'sını kullanın veya Speech Studio portalını ziyaret edin ve başlamak için önceden oluşturulmuş nöral sesler'i seçin. Fiyatlandırma ayrıntılarını denetleyin. Ses Galerisi'ni kontrol edin ve iş gereksinimleriniz için doğru sesi belirleyin.
Özel sinir sesi (fiyatlandırma sayfasında Özel Sinir olarak adlandırılır) Sorumlu kullanım için sınırlı erişime sahip, doğal bir marka sesi oluşturmak için kullanımı kolay self servis. Azure hesabı ve Konuşma hizmeti aboneliği (S0 katmanıyla) oluşturun ve özel sinir özelliğini kullanmak için uygulayın . Size erişim verildikten sonra, başlamak için Speech Studio portalını ziyaret edin ve Özel ses'i seçin. Fiyatlandırma ayrıntılarını denetleyin. Ses örneklerini kontrol edin.

Nöral metin okuma özellikleri hakkında daha fazla bilgi

Metin okuma, bilgisayarların seslerini insanların kayıtlarından neredeyse ayırt edilemez hale getirmek için derin sinir ağları kullanır. Sözcüklerin net bir şekilde ifadesiyle, sinir metninden konuşmaya geçmek, kullanıcılar yapay zeka sistemleriyle etkileşime geçtiğinde dinleme yorgunluğunu önemli ölçüde azaltır.

Konuşulan dilde stres ve intonasyon desenleri prosody olarak adlandırılır. Geleneksel metin okuma sistemleri, bağımsız modeller tarafından yönetilen ayrı dil analizi ve akustik tahmin adımlarına ayrılır. Bu da boğuk, baş döndürücü ses sentezi ile sonuçlanabilir.

Konuşma tanıma hizmetindeki nöral metinden konuşmaya özellikleri ve geleneksel metin ile konuşma sistemlerinin sınırlarını nasıl aştıkları hakkında daha fazla bilgi aşağıdadır:

  • Gerçek zamanlı konuşma sentezi: Önceden oluşturulmuş sinir seslerini veya özel sinir seslerini kullanarak metni konuşmaya dönüştürmek için Konuşma SDK'sını veya REST API'sini kullanın.

  • Uzun sesin zaman uyumsuz sentezi: Toplu sentez API'sini (Önizleme) kullanarak metni 10 dakikadan uzun bir süre (örneğin, sesli kitaplar veya dersler) konuşma dosyalarıyla zaman uyumsuz olarak sentezleyin. Konuşma SDK'sı veya Konuşmayı metne dönüştürme REST API'si aracılığıyla gerçekleştirilen sentezden farklı olarak yanıtlar gerçek zamanlı olarak döndürülemez. İsteklerin zaman uyumsuz olarak gönderilmesi, yanıtların yoklenmesi ve hizmet kullanıma sunulduğunda sentezlenmiş sesin indirilmiş olması beklenir.

  • Önceden oluşturulmuş sinir sesleri: Microsoft nöral metinden konuşmaya özelliği, konuşma dilinde stres ve tonlama ile ilgili geleneksel konuşma sentezinin sınırlarını aşmak için derin sinir ağları kullanır. Prosody tahmin ve ses sentezi aynı anda gerçekleşir ve bu da daha akıcı ve doğal ses çıkışlarına neden olur. Önceden oluşturulmuş her nöral ses modeli 24 kHz ve yüksek aslına uygun 48 kHz'de mevcuttur. Sinir seslerini kullanarak:

    • Sohbet botları ve sesli yardımcılarla etkileşimleri daha doğal ve ilgi çekici hale getirin.
    • E-kitaplar gibi dijital metinleri sesli kitaplara dönüştürün.
    • Araç içi navigasyon sistemlerini geliştirin.

    Platform sinir seslerinin tam listesi için bkz . Konuşma hizmeti için dil ve ses desteği.

  • SSML ile metinden konuşma çıkışına ince ayar: Konuşma Sentezi Biçimlendirme Dili (SSML), metni konuşma çıkışlarına özelleştirmek için kullanılan XML tabanlı bir işaretleme dilidir. SSML ile perdeyi ayarlayabilir, duraklamalar ekleyebilir, söylenişi iyileştirebilir, konuşma hızını değiştirebilir, ses düzeyini ayarlayabilir ve birden çok sesi tek bir belgeyle ilişkilendirebilirsiniz.

    Kendi sözcük sözcüklerinizi tanımlamak veya farklı konuşma stillerine geçmek için SSML kullanabilirsiniz. Çok dilli seslerle, SSML aracılığıyla konuşma dillerini de ayarlayabilirsiniz. Senaryonuzun ses çıkışında ince ayar yapmak için bkz. Ses İçeriği Oluşturma aracıyla Konuşma Sentezi İşaretlemeyi Dilive Konuşma sentezi ile sentezi geliştirme.

  • Visemes: Visemeler , belirli bir fonem üretmede dudakların, çenenin ve dilin konumu da dahil olmak üzere gözlemlenen konuşmada önemli pozlardır. Visemes'in seslerle ve seslerle güçlü bir bağıntısı vardır.

    Konuşma SDK'sında viseme olayları kullanarak yüz animasyonu verileri oluşturabilirsiniz. Bu veriler dudak okuma iletişimi, eğitim, eğlence ve müşteri hizmetlerindeki yüzlere animasyon eklemek için kullanılabilir. Viseme şu anda yalnızca (ABD İngilizcesi en-US ) sinir sesleri için desteklenmektedir.

Not

Geleneksel/standart sesleri ve nöral olmayan özel sesi 2024'te kullanımdan kaldırmayı planlıyoruz. Bundan sonra artık onları desteklemeyeceğiz.

Uygulamalarınız, araçlarınız veya ürünleriniz standart seslerden ve özel seslerden herhangi birini kullanıyorsa sinirsel sürüme geçmeniz gerekir. Daha fazla bilgi için bkz . Sinir seslerine geçiş.

Kullanmaya başlayın

Metin okuma ile çalışmaya başlamak için hızlı başlangıç bölümüne bakın. Metin okuma, Konuşma SDK'sı, REST API ve Konuşma CLI'sı aracılığıyla kullanılabilir.

İpucu

Kod içermeyen bir yaklaşımla metni konuşmaya dönüştürmek için Speech Studio'da Ses İçeriği Oluşturma aracını deneyin.

Örnek kod

Metin okuma için örnek kod GitHub'da kullanılabilir. Bu örnekler, en popüler programlama dillerinde metinden konuşmaya dönüştürmeyi kapsar:

Özel sinir sesi

Önceden oluşturulmuş sinir seslerine ek olarak, ürününüz veya markanız için benzersiz özel sinir sesleri oluşturabilir ve ince ayarlar yapabilirsiniz. Başlamak için gereken tek şey, birkaç ses dosyası ve ilişkili transkripsiyonlardır. Daha fazla bilgi için bkz . Özel sinir sesini kullanmaya başlama.

Fiyatlandırma notu

Faturalanabilir karakterler

Metin okuma özelliğini kullandığınızda, noktalama işaretleri de dahil olmak üzere konuşmaya dönüştürülen her karakter için faturalandırılırsınız. SSML belgesinin kendisi faturalanabilir olmasa da, metnin konuşma sesi ve perde gibi konuşmaya nasıl dönüştürüldüğünü ayarlamak için kullanılan isteğe bağlı öğeler faturalanabilir karakterler olarak sayılır. Faturalanabilenlerin listesi aşağıdadır:

  • İsteğin SSML gövdesindeki metin okuma özelliğine geçirilen metin
  • ve <voice> etiketleri dışında<speak>, istek gövdesinin metin alanındaki SSML biçimindeki tüm işaretlemeler
  • Harfler, noktalama işaretleri, boşluklar, sekmeler, işaretlemeler ve tüm boşluk karakterleri
  • Unicode'da tanımlanan her kod noktası

Ayrıntılı bilgi için bkz . Konuşma hizmeti fiyatlandırması.

Önemli

Her Çince karakter, Japonca kullanılan kanji, Korece kullanılan hanja veya diğer dillerde kullanılan hanzi de dahil olmak üzere faturalama için iki karakter olarak sayılır.

Özel sinir sesi için model eğitimi ve barındırma süresi

Özel nöral ses eğitimi ve barındırma hem saat hem de saniye başına faturalandırılır. Faturalama birimi fiyatı için bkz . Konuşma hizmeti fiyatlandırması.

Özel nöral ses (CNV) eğitim süresi 'işlem saati' (makinenin çalışma süresini ölçmek için bir birim) ile ölçülür. Genellikle bir ses modelini eğitirken iki bilgi işlem görevi paralel olarak çalışır. Bu nedenle, hesaplanan işlem saatleri gerçek eğitim süresinden daha uzun olur. Bir CNV Lite sesini eğitmek ortalama olarak bir işlem saatinden daha az sürer; CNV Pro için ise tek stilli bir sesi eğitmek genellikle 20-40 işlem saati ve çok stilli bir sesi eğitmek için yaklaşık 90 işlem saati sürer. CNV eğitim süresi, 96 işlem saati üst sınırıyla faturalandırılır. Bu nedenle bir ses modelinin 98 işlem saatinde eğitilmesi durumunda yalnızca 96 işlem saatiyle ücretlendirilirsiniz.

Özel nöral ses (CNV) uç nokta barındırma gerçek saat (saat) ile ölçülür. Her uç nokta için barındırma süresi (saat), önceki 24 saat için her gün 00:00 UTC olarak hesaplanır. Örneğin, uç nokta birinci günde 24 saat etkinse, ikinci gün saat 00:00 UTC'de 24 saat için faturalandırılır. Uç nokta gün boyunca yeni oluşturulduysa veya askıya alındıysa, ikinci gün 00:00 UTC'ye kadar birikmiş çalışma süresi için faturalandırılır. Uç nokta şu anda barındırılmıyorsa faturalandırılamaz. Her gün saat 00:00 UTC'de yapılan günlük hesaplamaya ek olarak, bir uç nokta silindiğinde veya askıya alındığında faturalama da hemen tetikleniyor. Örneğin, 1 Aralık'ta 08:00 UTC'de oluşturulan bir uç nokta için barındırma saati 2 Aralık'ta 00:00 UTC'de 16 saat ve 3 Aralık'ta 00:00 UTC'de 24 saat olarak hesaplanır. Kullanıcı 3 Aralık'ta saat 16:30 UTC'de uç noktayı barındırmayı askıya alırsa, 3 Aralık'ta saat 00:00 ile 16:30 UTC arası süre (16,5 saat) faturalama için hesaplanır.

Başvuru belgeleri

Sorumlu AI

Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.

Sonraki adımlar