สรุป

เสร็จสมบูรณ์เมื่อ

ในโมดูลนี้ คุณได้เรียนรู้เกี่ยวกับสองแง่มุมสําคัญของเทคโนโลยีเสียง: การรู้จําเสียงและการสังเคราะห์ การรู้จําเสียงเกี่ยวข้องกับการแปลงคําที่พูดเป็นข้อมูล ซึ่งมักจะแปลเป็นข้อความโดยใช้แบบจําลองเสียงและแบบจําลองภาษา ข้อความนี้สามารถใช้เพื่อวัตถุประสงค์ต่าง ๆ เช่น คําบรรยายทดแทนการได้ยิน ทรานสคริปต์ การบอกบันทึกย่ออัตโนมัติ และการประมวลผลการป้อนข้อมูลของผู้ใช้ ในทางกลับกันการสังเคราะห์คําพูดเป็นเรื่องเกี่ยวกับการใช้เสียงพูดข้อมูลโดยทั่วไปแล้วโดยการแปลงข้อความเป็นคําพูด ประโยคสามารถใช้สําหรับการสร้างการตอบสนองด้วยคําพูด สร้างเมนูเสียงอ่านอีเมลหรือข้อความออกเสียงและประกาศการออกอากาศ คุณยังได้เรียนรู้เกี่ยวกับบริการ AI Speech ของ Microsoft Azure ซึ่งให้ความสามารถในการรู้จําเสียงและความสามารถในการสังเคราะห์ผ่านคุณลักษณะเช่น คําพูดเป็นข้อความและข้อความไปยัง Api คําพูด

ประเด็นหลักจากโมดูลนี้คือฟังก์ชันการทํางานของบริการ Azure Speech Api เสียงพูดเป็นข้อความอนุญาตให้มีการถอดเสียงในเวลาจริงหรือเป็นชุดงาน โดยใช้แบบจําลองที่ยึดตามรูปแบบภาษาสากลที่ได้รับการฝึกโดย Microsoft ซึ่งสามารถใช้สําหรับสําเนาบทสนทนาแบบเรียลไทม์ในระหว่างการนําเสนอหรือการสาธิต หรือสําหรับการถอดเสียงแบตช์ของไฟล์เสียงที่จัดเก็บ Text to Speech API แปลงการป้อนข้อความเป็นเสียงพูด ซึ่งสามารถปรับแต่งได้ด้วยเสียง ภาษา และการออกเสียงในภูมิภาคที่แตกต่างกัน

คุณสามารถค้นหาข้อมูลเพิ่มเติมเกี่ยวกับ Azure Speech ได้ในเอกสารประกอบบริการ