استخدام Azure OpenAI لمعالجة ملفات صوت بودكاست

Azure الذكاء الاصطناعي Search
Azure OpenAI Service

أفكار الحل

تصف هذه المقالة فكرة الحل. يمكن لمهندس السحابة الخاص بك استخدام هذه الإرشادات للمساعدة في تصور المكونات الرئيسية لتنفيذ نموذجي لهذه البنية. استخدم هذه المقالة كنقطة بداية لتصميم حل جيد التصميم يتوافق مع المتطلبات المحددة لحمل العمل الخاص بك.

توفر هذه المقالة مثالا لتصميم البنية الأساسية لبرنامج ربط العمليات التجارية التي يمكنك استخدامها لمعالجة الملفات الصوتية. تستخدم البنية الأساسية لبرنامج ربط العمليات التجارية خدمات Azure الذكاء الاصطناعي لتحويل الكلام إلى نص وخدمة Azure OpenAI للتحليل. تتكون البنية من تطبيق ويب ثابت يوفر لوحة معلومات تشغيلية وثلاث وظائف Azure التي تنسق ملفات الوسائط وتعالجها. يمكنك استخدام هذا الحل لأحمال عمل الوسائط التي تتطلب تحليلا تلقائيا وقابلا للتطوير الذكاء الاصطناعي.

بناء الأنظمة

رسم تخطيطي يوضح بنية معالجة الملفات الصوتية باستخدام Azure OpenAI للتحليل.

قم بتنزيل ملف Visio لهذه البنية.

‏‏سير العمل‬

  1. ينتقل المستخدم إلى صفحة ويب تحتوي على واجهة مستخدم لتحميل الملفات الصوتية.

  2. يحتوي تطبيق الويب الثابت على تعليمات برمجية تقوم بتحميل الملف الصوتي إلى Azure Blob Storage.

  3. يتفاعل المستخدم مع صفحة الويب، التي تقوم بتشغيل دالة تستخدم نقطة نهاية HTTP لبدء نقل الملف الصوتي إلى حاوية معينة داخل حساب التخزين.

  4. بعد أن يكتشف Blob Storage أنه يتم تحميل ملف جديد، يتم استدعاء وظيفة أخرى تحول الصوت إلى نص باستخدام Azure الذكاء الاصطناعي Speech. يتم تخزين نتائج النسخ بتنسيق ملف نصي وتحميلها إلى حاوية أخرى.

  5. تستخدم الدالة الثالثة الذكاء الاصطناعي التوليدية للكشف عن النسخ ومعالجتها وإنشاء الملخصات والكلمات الأساسية المحسنة لمحرك البحث والترجمات.

المكونات

  • Static Web Apps هي خدمة يمكنك استخدامها لتبسيط استضافة تطبيقات الويب الثابتة ونشرها. توفر تطبيقات الويب الثابتة تكاملا سلسا مع مستودعات GitHub للتوزيع التلقائي والتكامل المستمر والبنية الأساسية لبرنامج ربط العمليات التجارية للتوزيع المستمر (CI/CD).

  • Azure Functions هي خدمة حوسبة بلا خادم يمكن للمطورين استخدامها لتشغيل التعليمات البرمجية دون الحاجة إلى إدارة البنية الأساسية.

  • Blob Storage هي خدمة تخزين يمكنك استخدامها لتخزين كميات كبيرة من البيانات غير المنظمة، مثل النص أو البيانات الثنائية.

  • الذكاء الاصطناعي الخدمات هي مجموعة من واجهات برمجة التطبيقات المستندة إلى السحابة ونماذج الذكاء الاصطناعي مسبقة الإنشاء توفر قدرات مثل التعرف على الكلام وفهم اللغة الطبيعية ورؤية الكمبيوتر.

  • Azure OpenAI هي شراكة بين Microsoft Azure وOpenAI توفر الوصول إلى نماذج وتقنيات OpenAI من خلال النظام الأساسي ل Azure.

تفاصيل السيناريو

تعد وسائط بودكاست وسيلة فعالة لمشاركة أفكارك وقصصك ووجهات نظرك. اكتشف العديد من المؤسسات والأفراد قوة استخدام وسائط بودكاست للاتصال بجمهورهم وتنمية جمهورهم. للوصول إلى جمهور أوسع، يمكن للمنشئين استخدام ملخص بودكاست وترجمة المحتوى لجعل محتواهم أكثر سهولة لمتحدثي اللغات الأخرى.

يعد ملخص بودكاست طريقة سريعة وسهلة للمبدعين لإعلام المستمعين حول حلقة بودكاست الخاصة بهم. يمكن أن يساعد ملخص بودكاست المستمعين في تحديد ما إذا كانوا يريدون الضبط أم لا. يسهل الخلاصة المترجمة على المستمعين الدوليين المحتملين اكتشاف البودكاست والتعرف على ما يقدمه.

الترجمة هي عملية تكييف محتوى بودكاست الخاص بك مع لغة وثقافة معينة. تتجاوز الترجمة الترجمة وتراعي الفروق الدقيقة والتفضيلات والتوقعات لجمهورك المستهدف. يمكن أن تساعدك الترجمة على التواصل مع المستمعين على مستوى أعمق وزيادة تفاعلهم وولاءهم.

من الصعب إنتاج المحتوى ونشره. يمكن أن تساعدك الذكاء الاصطناعي في أتمتة العمليات وتوسيع نطاق إنتاج وتوزيع وسائط بودكاست. يمكنك استخدام الذكاء الاصطناعي والبنية التحتية الذكاء الاصطناعي لنسخ صوت بودكاست الخاص بك، وترجمة ملخصك، وإنشاء ميزة صوتية بلغات ولغات مختلفة.

توضح هذه المقالة كيفية استخدام الذكاء الاصطناعي لإنشاء ملخص بودكاست، وترجمة وسائط بودكاست إلى لغات متعددة، وإنشاء كلمات أساسية للتسويق وتحسين محرك البحث (SEO) تلقائيا تساعد على توسيع جمهور المحتوى الخاص بك. يوضح هذا الحل كيفية استخدام قوة GPT لأتمتة جزء كبير من هذه العملية باستخدام Speech وAzure OpenAI. يمكنك استخدام GPT لتدوين الصوت تلقائيا في نص، وإنشاء ملخص بنمط ونغمة معينين، واقتراح خطوط علامات جذابة وكلمات SEO الرئيسية، وترجمة الخلاصة إلى لغات متعددة للوصول إلى جمهور عالمي، كل ذلك في غضون دقائق.

تطبيق الويب

يعرض تطبيق ويب ثابت وظائف هذا التطبيق. تتم كتابة التطبيق باستخدام مكتبة ويب React. يمكنك استخدام مكتبة ويب React لتحميل الملفات الصوتية. بعد معالجة الملفات الصوتية، ينشئ React نتائج قابلة للعرض وقابلة للتنزيل تتضمن:

  • ملخص.
  • ملخص مترجم.
  • عنوان بديل.
  • الكلمات الأساسية ل SEO.

التخزين

يستخدم هذا الحل حساب تخزين Azure واحد مع حاويات متعددة لتخزين الملفات الأولية (الصوت) والنسخ (النسخ النصية للصوت) ونتائج Azure OpenAI.

Compute

يستخدم هذا الحل ثلاث وظائف Azure في سير عمل معين لمعالجة الملفات الصوتية. تتم كتابة جميع الدالات الثلاث بلغة Python.

الدالة التي يتم تشغيلها من قبل HTTP

يستهلك موقع الويب الثابت أول وظيفة يتم تشغيلها من قبل HTTP. تحتوي الوظيفة على إطار عمل تطبيق Flask وتعرض نقطتي نهاية:

  • عملية POST لتحميل الملف الصوتي إلى Blob Storage
  • عملية GET لاسترداد نتائج رؤى الذكاء الاصطناعي التي تم إنشاؤها

الدالة التي يتم تشغيلها باستخدام Blob لحاوية الملفات الأولية

الدالة الثانية هي دالة يتم تشغيلها من قبل كائن ثنائي كبير الحجم تحتوي على روابط معينة لاستخدام حاوية الملفات الأولية لحساب التخزين. يتم تشغيل الدالة تلقائيا عند تحميل ملف إلى هذه الحاوية. تستفيد هذه الدالة ffmpeg أيضا من أداة CLI التي يتم تحميلها باستخدام Azure Files لتحويل الملفات الصوتية إلى WAV. يستخدم الكلام تنسيق WAV. بعد تحويل الملف إلى تنسيق ملف WAV، يتم تمريره بعد ذلك إلى الكلام. ينشئ الكلام نسخا نصيا للملف الصوتي. ثم يتم تحميل النسخ النصي إلى حاوية النسخ داخل حساب التخزين.

الدالة التي يتم تشغيلها باستخدام Blob لحاوية النسخ

الدالة الثالثة والأخيرة هي دالة يتم تشغيلها بواسطة كائن ثنائي كبير الحجم تحتوي على روابط معينة لاستخدام حاوية النسخ لحساب التخزين. يؤدي أي ملف تم تحميله إلى هذه الحاوية إلى تشغيل الوظيفة. تتكون هذه الدالة النهائية من سلسلة من المطالبات في Azure OpenAI تلخص النسخ، وتنشئ خطوط علامات وكلمات SEO الرئيسية، وتترجم النسخة المكتوبة إلى لغات غير إنجليزية.

بعد إنشاء الخلاصة وكلمات SEO الرئيسية والترجمة، يتم تحميل استجابات Azure OpenAI إلى حاوية open-ai-results في حساب التخزين.

الذكاء الاصطناعي والتعلم الآلي

يستخدم هذا الحل أحمال عمل الذكاء الاصطناعي Azure:

  • الكلام
  • Azure OpenAI

تنسخ قدرات تحويل الكلام إلى نص في الكلام الصوت إلى نص. تعالج نماذج Azure OpenAI GPT النص. تستخدم النماذج قدرات إنشاء لإنشاء علامات وكلمات SEO الرئيسية والملخص وخدمة الترجمة. يستخدمون النسخ لتنفيذ مهام إنشاء محتوى النص.

حالات الاستخدام المحتملة

تم تصميم إطار العمل المعماري لمهام الوسائط التي الذكاء الاصطناعي تحليلها تلقائيا. هذا الإطار مخصص لتطبيقات الوسائط ولكن يمكن استخدامه للتطبيقات الأوسع، خاصة للمهام التي تتطلب تلخيصا نصيا للتسجيلات الصوتية واستخدام المحتوى الذي تم إنشاؤه الذكاء الاصطناعي للنصوص والملخصات وخطوط العلامات والملخصات.

المساهمون

تحتفظ Microsoft بهذه المقالة. وهي مكتوبة في الأصل من قبل المساهمين التاليين.

الكتاب الرئيسيون:

مساهمون آخرون:

  • أندي بيتش | الرئيس التقني لوسائط الإعلام والترفيه في جميع أنحاء العالم
  • Simon Powell | مدير البرنامج الأساسي

لمشاهدة ملفات تعريف LinkedIn غير العامة، سجل الدخول إلى LinkedIn.

الخطوات التالية