Metin okuma nedir?

2025-06-02

Bu genel bakışta, Azure AI hizmetlerinin bir parçası olan Konuşma tanıma hizmetinin metin okuma özelliğinin avantajları ve özellikleri hakkında bilgi ediniyorsunuz.

Metin okuma, uygulamalarınızın, araçlarınızın veya cihazlarınızın metni sentezlenmiş konuşma gibi insana dönüştürmesini sağlar. Metin okuma özelliği, konuşma sentezi olarak da bilinir. Kutudan çıkan standart sesler gibi insan sesi kullanın veya ürününüz veya markanız için benzersiz bir özel ses oluşturun. Desteklenen seslerin, dillerin ve yerel ayarların tam listesi için bkz . Konuşma hizmeti için dil ve ses desteği.

Temel özellikler

Metin okuma aşağıdaki özellikleri içerir:

Özellik	Özet	Tanıtım
Standart ses (fiyatlandırma sayfasındaNöral olarak adlandırılır)	Çok doğal, ilk çıkan sesler. Bir Azure aboneliği ve Konuşma kaynağı oluşturun, ardından Konuşma SDK'sını kullanın veya Speech Studio portalını ziyaret edin ve başlamak için standart sesleri seçin. Fiyatlandırma ayrıntılarını denetleyin.	Ses Galerisi'ni kontrol edin ve iş gereksinimleriniz için doğru sesi belirleyin.
Özel ses	Sorumlu kullanım için sınırlı erişime sahip, doğal bir marka sesi oluşturmak için kullanımı kolay self servis. Bir Azure aboneliği ve Azure AI Foundry kaynağı oluşturun ve ardından özel ses kullanımı için başvurun. Size erişim verildikten sonra, başlamak için profesyonel ses ince ayarı belgelerine gidin. Fiyatlandırma ayrıntılarını denetleyin.	Ses örneklerini kontrol edin.

Nöral metin okuma özellikleri hakkında daha fazla bilgi

Metin okuma, bilgisayarların seslerini insanların kayıtlarından neredeyse ayırt edilemez hale getirmek için derin sinir ağları kullanır. Sözcüklerin net bir şekilde ifadesiyle, sinir metninden konuşmaya geçmek, kullanıcılar yapay zeka sistemleriyle etkileşime geçtiğinde dinleme yorgunluğunu önemli ölçüde azaltır.

Konuşulan dilde stres ve intonasyon desenleri prosody olarak adlandırılır. Geleneksel metin okuma sistemleri, bağımsız modeller tarafından yönetilen ayrı dil analizi ve akustik tahmin adımlarına ayrılır. Bu da boğuk, baş döndürücü ses sentezi ile sonuçlanabilir.

Konuşma tanıma hizmetindeki nöral metinden konuşmaya özellikleri ve geleneksel metin ile konuşma sistemlerinin sınırlarını nasıl aştıkları hakkında daha fazla bilgi aşağıdadır:

Gerçek zamanlı konuşma sentezi: Standart sesleri veya özel sesleri kullanarak metni konuşmaya dönüştürmek için Konuşma SDK'sını veya REST API'sini kullanın.
Uzun sesin zaman uyumsuz sentezi: 10 dakikadan uzun bir süre (örneğin, sesli kitaplar veya dersler) metni konuşma dosyalarıyla zaman uyumsuz olarak sentezlemek için toplu sentez API'sini kullanın. Konuşma SDK'sı veya Konuşmayı metne dönüştürme REST API'si aracılığıyla gerçekleştirilen sentezden farklı olarak yanıtlar gerçek zamanlı olarak döndürülemez. İsteklerin zaman uyumsuz olarak gönderilmesi, yanıtların yoklenmesi ve hizmet kullanıma sunulduğunda sentezlenmiş sesin indirilmiş olması beklenir.
Standart sesler: Azure AI Konuşma, konuşma dilinde stres ve tonlama ile ilgili geleneksel konuşma sentezinin sınırlarını aşmak için derin sinir ağlarını kullanır. Prosody tahmin ve ses sentezi aynı anda gerçekleşir ve bu da daha akıcı ve doğal ses çıkışlarına neden olur. Her bir standart ses modeli 24 kHz ve yüksek kaliteli 48 kHz'de kullanılabilir. Sinir seslerini kullanarak:
- Sohbet botları ve sesli yardımcılarla etkileşimleri daha doğal ve ilgi çekici hale getirin.
- E-kitaplar gibi dijital metinleri sesli kitaplara dönüştürün.
- Araç içi navigasyon sistemlerini geliştirin.
Standart Azure AI Konuşma sinir seslerinin tam listesi için bkz. Konuşma hizmeti için dil ve ses desteği.
SSML ile metin okuma çıkışını geliştirme: Konuşma Sentezi biçimlendirme dili (SSML), metinden konuşmaya çıkışları özelleştirmek için kullanılan XML tabanlı bir işaretleme dilidir. SSML ile perdeyi ayarlayabilir, duraklamalar ekleyebilir, söylenişi iyileştirebilir, konuşma hızını değiştirebilir, ses düzeyini ayarlayabilir ve birden çok sesi tek bir belgeyle ilişkilendirebilirsiniz.

Kendi sözcük sözcüklerinizi tanımlamak veya farklı konuşma stillerine geçmek için SSML kullanabilirsiniz. Çok dilli seslerle, SSML aracılığıyla konuşma dillerini de ayarlayabilirsiniz. Senaryonuzun ses çıkışını geliştirmek için bkz . Konuşma Sentezi Biçimlendirme Dili ile sentezi geliştirme ve Ses İçeriği Oluşturma aracıyla Konuşma sentezi.
Visemes: Visemeler , belirli bir fonem üretmede dudakların, çenenin ve dilin konumu da dahil olmak üzere gözlemlenen konuşmada önemli pozlardır. Visemes'in seslerle ve seslerle güçlü bir bağıntısı vardır.

Konuşma SDK'sında viseme olayları kullanarak yüz animasyonu verileri oluşturabilirsiniz. Bu veriler dudak okuma iletişimi, eğitim, eğlence ve müşteri hizmetlerindeki yüzlere animasyon eklemek için kullanılabilir. Viseme şu anda yalnızca (ABD İngilizcesi en-US ) sinir sesleri için desteklenmektedir.

Not

Azure AI Konuşma sinirsel (HD olmayan) seslere ek olarak, Azure AI Konuşma yüksek tanımlı (HD) sesleri ve Azure OpenAI sinir (HD ve HD olmayan) sesleri de kullanabilirsiniz. HD sesleri, daha çok yönlü senaryolar için daha yüksek kalite sağlar.

Bazı sesler tüm Konuşma Sentezi Biçimlendirme Dili (SSML) etiketlerini desteklemez. Buna nöral metinden konuşma HD seslerine, kişisel seslere ve ekli seslere dahildir.

Azure AI Konuşma yüksek tanımlı (HD) sesler için buradan SSML desteğine bakın.
Kişisel ses için SSML desteğini burada bulabilirsiniz.
Katıştırılmış sesler için buradan SSML desteğine bakın.

Kullanmaya başlayın

Metin okuma ile çalışmaya başlamak için hızlı başlangıç bölümüne bakın. Metin okuma, Konuşma SDK'sı, REST API ve Konuşma CLI'sı aracılığıyla kullanılabilir.

İpucu

Kod içermeyen bir yaklaşımla metni konuşmaya dönüştürmek için Speech Studio'da Ses İçeriği Oluşturma aracını deneyin.

Örnek kod

Metin okuma için örnek kod GitHub'da kullanılabilir. Bu örnekler, en popüler programlama dillerinde metinden konuşmaya dönüştürmeyi kapsar:

Özel ses

Standart seslere ek olarak, ürününüz veya markanız için benzersiz özel sesler oluşturabilirsiniz. Özel ses, profesyonel ses ayarlaması ve kişisel sesi içeren geniş kapsamlı bir terimdir. Başlamak için gereken tek şey, birkaç ses dosyası ve ilişkili transkripsiyonlardır. Daha fazla bilgi için profesyonel ses ince ayarı belgelerine bakın.

Fiyatlandırma notu

Faturalanabilir karakterler

Metin okuma özelliğini kullandığınızda, noktalama işaretleri de dahil olmak üzere konuşmaya dönüştürülen her karakter için faturalandırılırsınız. SSML belgesinin kendisi faturalanabilir olmasa da, metnin konuşma sesi ve perde gibi konuşmaya nasıl dönüştürüldüğünü ayarlamak için kullanılan isteğe bağlı öğeler faturalanabilir karakterler olarak sayılır. Faturalanabilenlerin listesi aşağıdadır:

İsteğin SSML gövdesindeki metin okuma özelliğine geçirilen metin
ve <speak> etiketleri dışında<voice>, istek gövdesinin metin alanındaki SSML biçimindeki tüm işaretlemeler
Harfler, noktalama işaretleri, boşluklar, sekmeler, işaretlemeler ve tüm boşluk karakterleri
Unicode'da tanımlanan her kod noktası

Ayrıntılı bilgi için bkz . Konuşma hizmeti fiyatlandırması.

Önemli

Her Çince karakter, Japonca kullanılan kanji, Korece kullanılan hanja veya diğer dillerde kullanılan hanzi de dahil olmak üzere faturalama için iki karakter olarak sayılır.

Özel ses için model eğitimi ve barındırma süresi

Özel ses eğitimi ve barındırma hem saat hem de saniye başına faturalandırılır. Faturalama birimi fiyatı için bkz . Konuşma hizmeti fiyatlandırması.

Profesyonel ses ince ayarlama süresi "işlem saati" (makinenin çalışma süresini ölçmek için bir birim) ile ölçülür. Genellikle bir ses modelini eğitirken iki bilgi işlem görevi paralel olarak çalışır. Bu nedenle, hesaplanan işlem saatleri gerçek eğitim süresinden daha uzun olur. Profesyonel ses ince ayarı için, tek stilli bir sesi eğitmek için genellikle 20 ile 40 arasında işlem saati ve çok stilli bir sesi eğitmek için yaklaşık 90 işlem saati gerekir. Profesyonel ses ince ayar süresi, 96 işlem saati üst sınırıyla faturalandırılır. Bu nedenle bir ses modelinin 98 işlem saatinde eğitilmesi durumunda yalnızca 96 işlem saatiyle ücretlendirilirsiniz.

Özel ses uç noktası barındırma gerçek saat (saat) ile ölçülür. Her uç nokta için barındırma süresi (saat), önceki 24 saat için her gün 00:00 UTC olarak hesaplanır. Örneğin, uç nokta birinci günde 24 saat etkinse, ikinci gün saat 00:00 UTC'de 24 saat için faturalandırılır. Uç nokta gün boyunca yeni oluşturulduysa veya askıya alındıysa, ikinci gün 00:00 UTC'ye kadar birikmiş çalışma süresi için faturalandırılır. Uç nokta şu anda barındırılmıyorsa faturalandırılamaz. Her gün saat 00:00 UTC'de yapılan günlük hesaplamaya ek olarak, bir uç nokta silindiğinde veya askıya alındığında faturalama da hemen tetikleniyor. Örneğin, 1 Aralık'ta 08:00 UTC'de oluşturulan bir uç nokta için barındırma saati 2 Aralık'ta 00:00 UTC'de 16 saat ve 3 Aralık'ta 00:00 UTC'de 24 saat olarak hesaplanır. Kullanıcı 3 Aralık'ta saat 16:30 UTC'de uç noktayı barındırmayı askıya alırsa, 3 Aralık'ta saat 00:00 ile 16:30 UTC arası süre (16,5 saat) faturalama için hesaplanır.

Kişisel ses

Kişisel ses özelliğini kullandığınızda hem profil depolama hem de sentez için faturalandırılırsınız.

Profil depolama: Kişisel ses profili oluşturulduktan sonra sistemden kaldırılana kadar faturalandırılır. Faturalama birimi her gün ses başınadır. Ses depolama alanı 24 saatten az sürüyorsa, yine de tam bir gün olarak faturalandırılır.
Sentez: Karakter başına faturalandırılır. Faturalanabilir karakterlerle ilgili ayrıntılar için yukarıdaki faturalanabilir karakterlere bakın.

Metin okuma avatarı

Metin okuma avatarı özelliğini kullandığınızda, video çıkışının uzunluğuna göre ücretler saniye başına faturalandırılır. Ancak gerçek zamanlı avatar için, konuşma veya sessiz kalma fark etmeksizin, avatarın etkin olduğu zamana göre ücretler saniye başına faturalandırılır. Gerçek zamanlı avatar kullanımı maliyetlerini iyileştirmek için avatar sohbeti örnek kodunda sağlanan "Boşta Kalma için Yerel Video kullanma" ipuçlarına bakın.

Özel metinden konuşmaya avatar eğitimi, süre "işlem saati" (makine çalışma süresi) ile ölçülür ve saniye başına faturalandırılır. Eğitim süresi, ne kadar veri kullandığınıza bağlı olarak değişir. Özel bir avatarı eğitmek normalde ortalama 20-40 işlem saati sürer. Avatar eğitim süresi 96 işlem saati üst sınırıyla faturalandırılır. Bu nedenle bir avatar modelinin 98 işlem saatinde eğitilmiş olması durumunda yalnızca 96 işlem saati için ücretlendirilirsiniz.

Avatar barındırma, uç nokta başına saniye başına faturalandırılır. Maliyet tasarrufu yapmak için uç noktanızı askıya alabilirsiniz. Uç noktanızı askıya almak istiyorsanız, doğrudan silebilirsiniz. Yeniden kullanmak için uç noktayı yeniden dağıtın.

Azure metin okuma ölçümlerini izleme

Metin okuma hizmetleriyle ilişkili temel ölçümlerin izlenmesi, kaynak kullanımını yönetmek ve maliyetleri denetlemek için çok önemlidir. Bu bölüm, Azure portalında kullanım bilgilerini bulma ve önemli ölçümlerin ayrıntılı tanımlarını sağlama konusunda size yol gösterir. Azure izleyici ölçümleri hakkında daha fazla bilgi için bkz . Azure İzleyici Ölçümlerine genel bakış.

Azure portalında kullanım bilgilerini bulma

Azure kaynaklarınızı etkili bir şekilde yönetmek için kullanım bilgilerine düzenli olarak erişmek ve bunları gözden geçirmek çok önemlidir. Kullanım bilgilerini şu şekilde bulabilirsiniz:

Azure portalına gidin ve Azure hesabınızla oturum açın.
Kaynaklar'a gidin ve izlemek istediğiniz kaynağı seçin.
Sol taraftaki menüden İzleme'nin altında Ölçümler'i seçin.
Ölçüm görünümlerini özelleştirin.

İzleme gereksinimlerinize uygun özel görünümler oluşturmak için verileri kaynak türüne, ölçüm türüne, zaman aralığına ve diğer parametrelere göre filtreleyebilirsiniz. Ayrıca sık kullanılan ölçümlere kolay erişim için Panoya kaydet'i seçerek ölçüm görünümünü panolara kaydedebilirsiniz.
Uyarıları ayarlayın.

Kullanımı daha etkili bir şekilde yönetmek için sol taraftaki menüden İzleme'nin altındaki Uyarılar sekmesine giderek uyarıları ayarlayın. Uyarılar, kullanımınız belirli eşiklere ulaştığında sizi bilgilendirerek beklenmeyen maliyetleri önlemeye yardımcı olabilir.

Ölçümlerin tanımı

Aşağıda, Azure metninden konuşmaya yönelik temel ölçümleri özetleyen bir tablo yer alır.

Ölçüm adı	Açıklama
Birleştirilmiş Karakterler	Standart ses ve özel ses dahil olmak üzere konuşmaya dönüştürülen karakter sayısını izler. Faturalanabilir karakterlerle ilgili ayrıntılar için bkz . Faturalanabilir karakterler.
Video Saniye Sentezi	Toplu avatar sentezi, gerçek zamanlı avatar sentezi ve özel avatar sentezi dahil olmak üzere sentezlenen videonun toplam süresini ölçer.
Avatar Modeli Barındırma Saniyeleri	Özel avatar modelinizin barındırıldığını saniyeler içinde toplam süreyi izler.
Ses Modeli Barındırma Saatleri	Özel ses modelinizin barındırıldığını saat cinsinden toplam süreyi izler.
Ses Modeli Eğitim Dakikaları	Özel ses modelinizi eğiten toplam süreyi dakika cinsinden ölçer.

Başvuru belgeleri

Sorumlu AI

Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.