Aracılığıyla paylaş


Azure Konuşma nedir?

Foundry Araçları'nda Azure Konuşma , Bir Microsoft Foundry kaynağı aracılığıyla konuşmayı metne dönüştürme, metin okuma ve diğer özellikleri sağlar. Konuşmayı yüksek doğrulukla metne dönüştürebilir, doğal sesli metin okuma sesleri üretebilir, konuşulan sesi çevirebilir ve canlı yapay zeka sesli konuşmaları gerçekleştirebilirsiniz.

Bazı Azure Konuşma özelliklerini vurgulayan kutucukların ekran görüntüsü.

Özel sesler oluşturabilir, temel kelime dağarcığınıza belirli sözcükler ekleyebilir veya kendi modellerinizi oluşturabilirsiniz. Azure Speech hizmetini her yerde, bulutta veya uç bilişim ortamında konteynerlerde çalıştırın. Konuşma CLI'sını, Konuşma SDK'sını ve REST API'lerini kullanarak uygulamalarınızı, araçlarınızı ve cihazlarınızı konuşma için etkinleştirin.

Azure Konuşma birçok dil, bölge ve fiyat noktası için kullanılabilir.

Senaryo

Konuşma için yaygın senaryolar şunlardır:

  • Resim yazısı: Açıklamalı altyazıları giriş sesinizle eşitlemeyi, küfür filtreleri uygulamayı, kısmi sonuçlar almayı, özelleştirmeleri uygulamayı ve çok dilli senaryolar için konuşulan dilleri tanımlamayı öğrenin.
  • Ses içeriği oluşturma: Sohbet botları ve ses aracılarıyla etkileşimleri daha doğal ve ilgi çekici hale getirmek, e-kitap gibi dijital metinleri sesli kitaplara dönüştürmek ve araç içi gezinti sistemlerini geliştirmek için sinir seslerini kullanın.
  • Çağrı merkezi: Çağrıları gerçek zamanlı olarak yazın veya bir grup aramayı işleyin, kişisel bilgileri maskeleyin ve çağrı merkezi kullanım örneğinize yardımcı olmak için duygu analizi gibi içgörüleri çıkarın.
  • Dil öğrenmesi: Dil öğrencilerine söyleniş değerlendirmesi geri bildirimi sağlayın, uzaktan öğrenme konuşmaları için gerçek zamanlı transkripsiyonu destekleyin ve nöral seslerle sesli öğretim materyallerini okuyun.
  • Voice Live: Uygulamalar ve deneyimler için doğal, insansı konuşma arabirimleri oluşturun. Voice Live özelliği, bir insan ve aracı uygulaması arasında hızlı ve güvenilir etkileşim sağlar.
  • Konuşma çevirisi: Gerçek zamanlı olarak yüksek kaliteli konuşmadan konuşmaya çeviri oluşturun veya çok çeşitli dillerde otomatik olarak çevrilmiş videolar oluşturun.
  • Video avatarı oluşturma: Sorumlu yapay zeka uygulamalarına bağlı kalarak çeşitli gerçek zamanlı ve toplu uygulamalar için canlı ve yüksek kaliteli sentetik konuşma avatar videoları oluşturun.

Microsoft, Microsoft Teams'de açıklamalı alt yazı, Microsoft Office 365'te dikte etme ve Microsoft Edge tarayıcısında Sesli Okuma gibi birçok senaryo için Azure Konuşma'yı kullanır.

Azure Konuşma kullanan Microsoft ürünlerinin logolarını gösteren ekran görüntüsü.

Capabilities

Aşağıdaki bölümlerde Azure Konuşma özellikleri özetlenmiştir ve daha fazla bilgi için bağlantılar sağlanmaktadır.

Konuşmayı metne dönüştürme

Konuşma metin dönüştürme kullanarak sesi metne dönüştürün. Aralarından seçim yapın:

Ses ortam gürültüsü içeriyorsa veya sektöre ve etki alanına özgü jargon içeriyorsa temel model yeterli olmayabilir. Bu gibi durumlarda akustik, dil ve söyleniş verileriyle özel konuşma modelleri oluşturabilir ve eğitebilirsiniz. Özel konuşma modelleri özeldir ve rekabet avantajı sunabilir.

Metin okuma

Metin okuma ile giriş metnini insan gibi sentezlenmiş konuşmaya dönüştürebilirsiniz. Derin sinir ağları tarafından desteklenen insansı sesler olan sinir seslerini kullanın. Konuşma Sentezi Biçimlendirme Dili'ni (SSML) kullanarak tonlama, telaffuz, konuşma hızı, ses seviyesi ve daha fazlası için ince ayar yapın.

Ses seçenekleri şunlardır:

  • Standart ses: Son derece doğal hazır sesler arasından seçim yapabilirsiniz. Ses Galerisi'ndeki standart ses örneklerini denetleyin ve iş gereksinimleriniz için doğru sesi belirleyin.
  • Özel ses: Markanız veya ürününüz için tanınabilir ve benzersiz bir özel ses oluşturabilirsiniz. Kişiye özel sesler gizli tutulur ve rekabet avantajı sağlayabilir. Özel ses örneklerini denetleyin.

Metin okuma avatarı

Metin okuma avatarı , metni doğal bir sesle fotorealistik bir insan konuşmasının dijital videosuna dönüştürür. Video zaman uyumsuz veya gerçek zamanlı olarak sentezlenebilir. API aracılığıyla metin okuma avatarıyla tümleştirilmiş uygulamalar oluşturabilir veya Foundry'de metin okuma avatarı kullanarak kodlama yapmadan video içeriği oluşturabilirsiniz. Bu özellik, sorumlu yapay zeka uygulamalarına bağlı kalarak çeşitli uygulamalar için gerçekçi ve yüksek kaliteli sentetik konuşan avatar videoları sunmanızı sağlar.

Avatar için bir dizi standart ses arasından seçim yapabilirsiniz. Metin okuma avatarı için dil desteği, metin okuma için dil desteğiyle aynıdır.

Konuşma çevirisi

Konuşma çevirisi uygulamalarınıza, araçlarınıza ve cihazlarınıza gerçek zamanlı, çok dilli konuşma çevirisi sağlar. Konuşmayı konuşmaya dönüştürme ve konuşmayı metne dönüştürme için bu özelliği kullanın.

LLM konuşma (önizleme)

LLM konuşmasında büyük dil modeli (LLM) gelişmiş konuşma modelinden yararlanın. Bu özellik şu anda aşağıdaki görevleri destekler:

  • transcribe: Önceden kaydedilmiş sesi metne dönüştürün.
  • translate: Önceden kaydedilmiş sesi belirtilen hedef dilde metne dönüştürün.

LLM tarafından geliştirilmiş konuşma modeli, gelişmiş kalite, derin bağlamsal anlama, çok dilli destek ve istem ayarlama özellikleri sunar. LLM konuşması, hızlı transkripsiyonla aynı ultra hızlı çıkarım performansına sahiptir. Kullanım örnekleri arasında ses dosyalarından açıklamalı alt yazılar ve alt yazılar oluşturma, toplantı notlarını özetleme, çağrı merkezi aracılarına yardımcı olun, sesli mesajların çevirisi ve daha fazlası yer alır.

Dil belirleme

Dil belirleme , seste konuşulan dilleri desteklenen diller listesiyle karşılaştırarak tanımlamanıza yardımcı olur. Dil tanımlamayı tek başına, konuşmayı metne tanımayla veya konuşma çevirisiyle kullanın.

Söyleniş değerlendirmesi

Söyleniş değerlendirmesi , konuşma söylenişini değerlendirir ve konuşmacılara konuşulan sesin doğruluğu ve akıcılığı hakkında geri bildirim sağlar. Dil öğrenenler, söyleniş değerlendirmesini kullanarak pratik yapabilir, anında geri bildirim alabilir ve telaffuzlarını geliştirebilir, böylece güvenle konuşabilir ve sunum yapabilir.

Teslim ve iletişim durumu

Azure Konuşma özelliklerini bulutta veya şirket içinde dağıtabilirsiniz.

Kapsayıcıları kullanarak uyumluluk, güvenlik veya diğer operasyonel nedenlerle hizmeti verilerinize yaklaştırabilirsiniz.

Bağımsız bulutlarda Azure Konuşma dağıtımı, bazı kamu kuruluşları ve iş ortakları tarafından kullanılabilir. Örneğin, Azure Kamu bulutu ABD kamu kuruluşları ve iş ortakları tarafından kullanılabilir. 21Vianet bulutu tarafından sağlanan Azure, Çin'de iş varlığı olan kuruluşlar tarafından kullanılabilir. Daha fazla bilgi için bkz . Bağımsız bulutlarda konuşma hizmeti.

Azure Konuşma'nın dağıtılıp erişilebildiği yerleri gösteren diyagram.

Uygulamanızda Azure Konuşma tümleştirmesi

Speech Studio , Uygulamalarınızda Azure Konuşma'dan özellikler oluşturmaya ve tümleştirmeye yönelik kullanıcı arabirimi tabanlı bir araç kümesidir. Speech Studio'da kod içermeyen bir yaklaşım kullanarak projeler oluşturursunuz. Daha sonra aşağıdakini kullanarak uygulamalarınızdaki bu varlıklara başvurabilirsiniz:

  • Konuşma SDK'sı. Bu SDK, konuşma özellikli uygulamalar geliştirmek için kullanabileceğiniz birçok Azure Konuşma özelliğini kullanıma sunar. Konuşma SDK'sı birçok programlama dilinde ve tüm platformlarda kullanılabilir.

  • Konuşma CLI'sı. Bu komut satırı aracıyla herhangi bir kod yazmak zorunda kalmadan Azure Konuşma'yı kullanabilirsiniz. Konuşma SDK'sındaki özelliklerin çoğu Konuşma CLI'sinde kullanılabilir; ayrıca bazı gelişmiş özellikler ve özelleştirmeler Konuşma CLI'sinde basitleştirilmiştir.

  • REST API'leri. Bazı durumlarda Konuşma SDK'sını kullanamaz veya kullanmamalısınız. Böyle durumlarda, Azure Konuşma'ya erişmek için REST API'lerini kullanabilirsiniz. Örneğin, toplu transkripsiyon için REST API'lerini kullanın.

Kod örnekleri

Azure Konuşma için örnek kod GitHub'da kullanılabilir. Bu örnekler dosya veya akıştan ses okuma, sürekli ve tek seferlik tanıma ve özel modellerle çalışma gibi yaygın senaryoları kapsar. SDK ve REST örneklerini görüntülemek için şu bağlantıları kullanın:

Sorumlu AI

Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için aşağıdaki kaynakları kullanın.

Konuşmayı metne dönüştürme

Söyleniş değerlendirmesi

Özel ses

Azure Konuşma özellikleri için aşağıdaki hızlı başlangıç kılavuzları mevcuttur. Her hızlı başlangıçta birçok popüler programlama dilinde temel tasarım desenleri öğretilmiştir ve kodu 10 dakikadan kısa bir sürede çalıştırmanız gerekir.