مقدمة

مكتمل

هل تساءلت يوما كيف يعمل مساعدات الصوت فعلاً؟ كيف يفهمون الكلمات التي نقولها؟ عندما تفكر في مساعدات الصوت لديك الخطوة الأولى، وهي تحويل الكلام إلى النص، ثم خطوة معالجة اللغة الطبيعية (NLP)، وهي كلمة تضمين (تحويل الكلمات إلى أرقام)، ثم لديك تصنيف للعبارات المنطوقة (ما يقوله الناس) حسب الهدف (ما يريدون من المساعد الصوتي القيام به). إذا كنت تتبع هذا المسار التعليمي، ستكون قد تعلمت كيف يعمل جزء البرمجة اللغة الطبيعية بالفعل. الآن نريد أن نتعرف على كيفية الحصول على النص من الصوت المنطوق. يُستخدم التصنيف الصوتي في أشياء كثيرة وليس فقط مساعدي الكلام. على سبيل المثال، في الموسيقى، يمكنك تصنيف أنواعها أو اكتشاف المشكلة من خلال نغمة صوت شخص ما، ومزيد من التطبيقات التي لم نفكر فيها حتى الآن.

في وحدة التعلم هذه سوف نتعرف على كيفية تصنيف الصوت باستخدام TensorFlow. هناك طرق متعددة لبناء نموذج تصنيف الصوت. يمكنك استخدام الشكل الموجي، أو وضع علامات على أقسام ملف الموجة، أو حتى استخدام الرؤية الحاسوبية على صورة المخطط الطيفي. في هذا البرنامج التعليمي، سنشرح أولاً كيفية فهم البيانات الصوتية، من التمثيلات التناظرية إلى التمثيلات الرقمية، ثم نبني النموذج باستخدام الرؤية الحاسوبية على صور التخطيط الطيفي. هذا صحيح، يمكنك تحويل الصوت إلى تمثيل صورة ثم القيام برؤية حاسوبية لتصنيف الكلمة المنطوقة! سنقوم ببناء نموذج بسيط يمكنه فهم yes وno. مجموعة البيانات التي سنستخدمها هي مجموعة البيانات المفتوحة لـ Speech Commands التي تم بناؤها في مجموعات بيانات TensorFlow. تحتوي مجموعة البيانات هذه على إجمالي 36 كلمة/صوت مختلفة لاستخدامها في التصنيف. يتم تخزين كل الكلام كملف بتنسيق WAVE مدته ثانية واحدة (أو أقل). سنستخدم فقط yes وno للتصنيف الثنائي.

الأهداف التعليمية

  • فهم بعض الميزات الرئيسية للبيانات الصوتية.
  • مقدمة حول كيفية بناء نماذج التعلم الآلي الصوتي.
  • تعرف على كيفية إنشاء نموذج تصنيف ثنائي من ملفات الموجات.

المتطلبات الأساسية

  • معرفة «Python»
  • أساسيات التعلم الآلي