แนะ นำ

5 นาที

คุณเคยสงสัยว่าผู้ช่วยเสียงทํางานอย่างไรบ้าง พวกเขาเข้าใจคําที่เราพูดอย่างไร? เมื่อคุณคิดเกี่ยวกับผู้ช่วยเสียงคุณมีขั้นตอนแรกซึ่งเป็นคําพูดเป็นข้อความจากนั้นขั้นตอนการประมวลผลภาษาธรรมชาติ (NLP) ซึ่งเป็นการฝังคํา (เปลี่ยนคําเป็นตัวเลข) จากนั้นคุณมีการจําแนกประเภทคําพูด (สิ่งที่ผู้คนพูด) ตามเจตนา (สิ่งที่พวกเขาต้องการให้ผู้ช่วยเสียงทํา) ถ้าคุณกําลังทําตามเส้นทางการเรียนรู้นี้ คุณจะได้เรียนรู้วิธีการทํางานของส่วน NLP อยู่แล้ว ตอนนี้เราต้องการดูว่าเราได้รับข้อความจากเสียงที่พูดได้อย่างไร การจัดประเภทเสียงสามารถใช้สําหรับสิ่งต่าง ๆ มากมายไม่เพียง แต่ผู้ช่วยคําพูด ตัวอย่างเช่นในเพลงคุณสามารถจําแนกประเภทหรือตรวจจับความเจ็บป่วยด้วยน้ําเสียงของใครบางคนและแอพพลิเคชั่นเพิ่มเติมที่เรายังไม่เคยคิด

ในโมดูลการเรียนรู้นี้ เราจะได้เรียนรู้วิธีการจัดประเภทเสียงด้วย TensorFlow มีหลายวิธีในการสร้างแบบจําลองการจัดประเภทเสียง คุณสามารถใช้รูปคลื่น แท็กส่วนของไฟล์คลื่น หรือแม้แต่ใช้การมองเห็นคอมพิวเตอร์บนรูปสเปกโตรแกรมได้ ในบทช่วยสอนนี้ เราจะแบ่งย่อยวิธีทําความเข้าใจข้อมูลเสียงจากอนาล็อกเป็นตัวแทนแบบดิจิทัล จากนั้นเราจะสร้างแบบจําลองโดยใช้วิสัยทัศน์คอมพิวเตอร์บนรูปภาพสเปกโตรแกรม ถูกต้องคุณสามารถเปลี่ยนเสียงให้เป็นการแสดงภาพจากนั้นใช้วิสัยทัศน์คอมพิวเตอร์เพื่อจัดประเภทคําที่พูด! เราจะสร้างแบบจําลองอย่างง่ายที่เข้าใจ yes และ no ชุดข้อมูลที่เราจะใช้คือ คําสั่งคําพูดของชุดข้อมูลแบบเปิด ซึ่งถูกสร้างขึ้นในชุดข้อมูล TensorFlow ชุดข้อมูลนี้มี 36 คํา/เสียงที่แตกต่างกันทั้งหมดที่จะใช้สําหรับการจัดประเภท เปล่งคําพูดแต่ละชุดจะถูกจัดเก็บเป็นไฟล์รูปแบบ WAVE หนึ่งวินาที (หรือน้อยกว่า) เราจะใช้ yes และ no สําหรับการจัดประเภทไบนารีเท่านั้น

วัตถุประสงค์การเรียนรู้

ทําความเข้าใจคุณลักษณะสําคัญบางประการของข้อมูลเสียง
บทนําสู่วิธีการสร้างแบบจําลองการเรียนรู้ของเครื่องเสียง
เรียนรู้วิธีการสร้างแบบจําลองการจัดประเภทไบนารีจากไฟล์ Wave

ข้อกําหนดเบื้องต้น

ความรู้เกี่ยวกับ Python
ทําความเข้าใจพื้นฐานของการเรียนรู้ของเครื่อง

คำติชม

หน้านี้มีประโยชน์หรือไม่