Özet

Tamamlandı

Uyarı

Daha fazla ayrıntı için Metin ve resimler sekmesine bakın!

Bu modülde yapay zeka uygulamalarında doğal ses etkileşimlerine olanak tanıyan temel konuşma teknolojilerini incelediniz. Konuşma tanımanın konuşulan sözcükleri metne nasıl dönüştürdüğünü ve konuşma sentezlerinin yazılı içerikten insan benzeri ses üretmesini öğrendinsiniz.

Bu modül boyunca şunları keşfettiniz:

  • Konuşma senaryoları ve uygulamaları: Konuşma teknolojileri müşteri hizmetleri, erişilebilirlik, konuşma yapay zekası, sağlık belgeleri ve e-öğrenme genelinde kullanıcı deneyimlerini dönüştürür. Konuşma tanıma ve sentezi birleştirmenin doğal hissettiren ve kullanıcı uyuşmalarını azaltan akıcı iki yönlü konuşmalar oluşturduğunu keşfettiniz.

  • Konuşma tanımanın temelleri: Ses dalgalarını yakalamaktan biçimlendirilmiş transkripsiyonlar üretmeye kadar sesi metne dönüştüren altı aşamalı işlem hattını incelediniz. MFCC özelliklerinin sesten anlamlı desenleri nasıl ayıkladığı, transformatör tabanlı akustik modellerin fonemleri nasıl tahmin ettiği ve dil modellerinin sözlük ve dil bilgisi bilgisi uygulayarak belirsizliği nasıl çözdüğü hakkında bilgi edindi.

  • Konuşma sentezinin temelleri: Metni doğal konuşmaya dönüştüren dört aşamalı süreci keşfettiniz: metin normalleştirmesi, dil analizi, prosody oluşturma ve ses sentezi. Grapheme-to-phoneme dönüştürmenin yazım çeşitlemelerini nasıl işlediğini, transformer modellerinin doğal ritmi ve vurguyu nasıl tahmin ettiğini ve nöral vokoderlerin yüksek aslına uygun ses dalga formlarını nasıl oluşturduğunu keşfettiniz.

Tavsiye

Daha fazla bilgi için bkz. Azure'da konuşmayı kullanmaya başlama.