Aracılığıyla paylaş


Metin okuma avatarlarına genel bakış

Metin okuma avatarı, doğal bir sesle konuşan bir fotorealistik insanın (önceden oluşturulmuş avatar veya özel metin okuma avatarı) dijital bir videosuna dönüştürür. Metin okuma avatarı videosu zaman uyumsuz veya gerçek zamanlı olarak sentezlenebilir. Geliştiriciler API aracılığıyla metinden konuşmaya avatarla tümleştirilmiş uygulamalar oluşturabilir veya kodlama yapmadan video içeriği oluşturmak için Speech Studio'da içerik oluşturma aracı kullanabilir.

Metin okuma avatarlarının gelişmiş sinir ağı modelleriyle bu özellik, kullanıcıların sorumlu yapay zeka uygulamalarına bağlı kalarak çeşitli uygulamalar için yaşam benzeri ve yüksek kaliteli sentetik konuşma avatarı videoları sunmalarını sağlar.

Azure AI metinden konuşmaya avatar özelliği özellikleri şunlardır:

  • Metni, Azure yapay zeka metniyle desteklenen doğal seslere sahip fotorealistik bir insan konuşmasının dijital videosuna dönüştürür.
  • Önceden oluşturulmuş avatarlardan oluşan bir koleksiyon sağlar.
  • Avatarın sesi, Azure AI metin okuma tarafından oluşturulur. Daha fazla bilgi için bkz . Avatar sesi ve dili.
  • Toplu sentez API'siyle veya gerçek zamanlı olarak metni konuşma avatarı videosunu zaman uyumsuz olarak sentezler.
  • Speech Studio'da kodlama olmadan video içeriği oluşturmak için bir içerik oluşturma aracı sağlar.
  • Speech Studio'daki canlı sohbet avatar aracı aracılığıyla gerçek zamanlı avatar konuşmalarını etkinleştirir.

Metin okuma avatarlarının gelişmiş sinir ağı modelleriyle bu özellik, sorumlu yapay zeka uygulamalarına bağlı kalarak çeşitli uygulamalar için canlı ve kaliteli sentetik konuşma avatarı videoları sunmanızı sağlar.

İpucu

Kod içermeyen bir yaklaşımla metni konuşmaya dönüştürmek için Speech Studio'da Metin okuma avatar aracını deneyin.

Avatar sesi ve dili

Avatar için önceden oluşturulmuş bir dizi ses arasından seçim yapabilirsiniz. Metin okuma avatarı için dil desteği, metin okuma için dil desteğiyle aynıdır. Ayrıntılar için bkz . Konuşma hizmeti için dil ve ses desteği. Konuşma avatarlarına önceden oluşturulmuş metinlere Speech Studio portalından veya API aracılığıyla erişilebilir.

Yapay videodaki ses, Azure AI Konuşmasında bulunan önceden oluşturulmuş bir sinir sesi veya sizin seçtiğiniz ses yeteneğinin özel sinir sesi olabilir.

Avatar video çıkışı

Hem toplu sentez hem de gerçek zamanlı sentez çözünürlüğü 1920 x 1080 ve saniye başına kare sayısı (FPS) 25'tir. Toplu sentez codec'i, biçim mp4 ise h264 veya h265 olabilir ve biçim webmise codec'i vp9 olarak ayarlayabilir; yalnızca webm bir alfa kanalı içerebilir. Gerçek zamanlı sentez codec'i h264'dür. Video bit hızı, istekte hem toplu sentez hem de gerçek zamanlı sentez için yapılandırılabilir; varsayılan değer 2000000'dir; daha ayrıntılı yapılandırmalar örnek kodda bulunabilir.

Toplu sentez Gerçek zamanlı sentez
Çözünürlük 1920 x 1080 1920 x 1080
FPS 25 25
Codec h264/h265/vp9 h264

Özel metin okuma avatarı

Ürününüz veya markanız için benzersiz olan konuşma avatarları için özel metin oluşturabilirsiniz. Başlamak için gereken tek şey 10 dakikalık video kayıtları almaktır. Ayrıca aktör için özel bir sinir sesi oluşturuyorsanız avatar son derece gerçekçi olabilir. Daha fazla bilgi için bkz . Özel metin okuma avatarı nedir?

Özel sinir sesi ve özel metinden konuşmaya avatar ayrı özelliklerdir. Bunları bağımsız olarak veya birlikte kullanabilirsiniz. Ayrıca metin okuma avatarı ile özel sinir sesi kullanmayı planlıyorsanız, özel sinir sesi modelinizi avatar tarafından desteklenen bölgelerden birine dağıtmanız veya kopyalamanız gerekir.

Örnek kod

Metin okuma avatarı için örnek kod GitHub'da kullanılabilir. Bu örnekler en popüler senaryoları kapsar:

Fiyatlandırma

Kullanılabilir konumlar

Metin okuma avatarı özelliği yalnızca şu hizmet bölgelerinde kullanılabilir: Güneydoğu Asya, Kuzey Avrupa, Batı Avrupa, Orta İsveç, Orta Güney ABD ve Batı ABD 2.

Sorumlu AI

Yapay zeka kullanan kişilere ve bundan etkilenecek kişilere teknoloji kadar önem veririz. Daha fazla bilgi için bkz. Sorumlu yapay zeka saydamlık notları ve ses ve avatar yeteneği için açıklama.

Sonraki adımlar