التشغيل السريع: ابدأ باستخدام Azure الذكاء الاصطناعي Speech CLI

في هذه المقالة، ستتعلم كيفية استخدام Azure الذكاء الاصطناعي Speech CLI (يسمى أيضا SPX) للوصول إلى خدمات الكلام مثل تحويل الكلام إلى نص ونص إلى كلام وترجمة الكلام، دون الحاجة إلى كتابة أي تعليمة برمجية. يعد Speech CLI جاهزًا للإنتاج، ويمكنك استخدامه لأتمتة عمليات سير العمل البسيطة في خدمة الكلام باستخدام البرامج النصية .batأو shell.

تفترض هذه المقالة أن لديك معرفة عملية بنافذة موجه الأوامر أو المحطة الطرفية أو PowerShell.

إشعار

في PowerShell، يجب أن يتبع الرمز المميز(--%) للإيقاف spx. على سبيل المثال، قم بتشغيل spx --% config @region لعرض قيمة تكوين المنطقة الحالية.

التنزيل والتثبيت

اتبع الخطوات التالية لتثبيت Speech CLI على Windows:

  1. قم بتثبيت Microsoft Visual C ++ Redistributable لـ Visual Studio 2019 لنظامك الأساسي. يتطلب تثبيته لأول مرة إعادة تشغيل.

  2. تثبيت .NET 6.

  3. ركب Speech CLI عبر .NET CLI عن طريق إدخال هذا الأمر:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    لتحديث Speech CLI، أدخل هذا الأمر:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

أدخل spxأوspx help لعرض المساعدة الخاصة بـ Speech CLI.

حدود الخط

في نظام التشغيل Windows، يمكن لـ Speech CLI إظهار الخطوط المتوفرة فحسب لموجه الأوامر على الكمبيوتر المحلي. Windows Terminal يدعم جميع الخطوط التي ينتجها Speech CLI بشكل تفاعلي.

إذا قمت بالإخراج إلى ملف ، فيمكن أيضاً لمحرر نصوص مثل Notepad أو متصفح ويب مثل Microsoft Edge عرض جميع الخطوط.

إنشاء تكوين مورد

للبدء، تحتاج إلى مفتاح مورد الكلام ومعرف المنطقة (على سبيل المثال، eastus، ). westus إنشاء مورد Speech على مدخل Azure. لمزيد من المعلومات، راجع إنشاء مورد متعدد الخدمات.

لتكوين مفتاح المورد ومعرف المنطقة، قم بتشغيل الأوامر التالية:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

يتم تخزين المفتاح والمنطقة لأوامر Speech CLI المستقبلية. لعرض التكوين الحالي، قم بتشغيل الأوامر التالية:

spx config @key
spx config @region

حسب الحاجة، قم بتضمين clear خيار إزالة القيمة المخزنة:

spx config @key --clear
spx config @region --clear

الاستخدام الأساسي

هام

عند استخدام Speech CLI في حاوية، قم بتضمين --host الخيار . يجب عليك أيضا تحديد --key none للتأكد من أن CLI لا يحاول استخدام مفتاح الكلام للمصادقة. على سبيل المثال، قم بتشغيل spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav للتعرف على الكلام من ملف صوتي في حاوية كلام إلى نص.

يعرض هذا القسم بعض أوامر SPX الأساسية التي غالبًا ما تكون مفيدة للاختبار والتجريب لأول مرة. قم بتشغيل الأمر التالي لعرض التعليمات داخل الأداة:

spx

يمكنك البحث في موضوعات التعليمات حسب الكلمة الرئيسية. على سبيل المثال، لمشاهدة قائمة بأمثلة استخدام Speech CLI، قم بتشغيل الأمر التالي:

spx help find --topics "examples"

للاطلاع على recognize خيارات الأمر، قم بتشغيل الأمر التالي:

spx help recognize

يتم سرد المزيد من أوامر التعليمات في إخراج وحدة التحكم. يمكنك إدخال هذه الأوامر للحصول على تعليمات مفصلة حول الأوامر الفرعية.

الكلام إلى النص (التعرف على الكلام)

إشعار

لا يمكنك استخدام ميكروفون الكمبيوتر عند تشغيل Speech CLI داخل حاوية Docker. مع ذلك، يمكنك القراءة من الملفات الصوتية وحفظها في الدليل المحلي الخاص بك.

لتحويل الكلام إلى نص (التعرف على الكلام) باستخدام الميكروفون الافتراضي للنظام، قم بتشغيل الأمر التالي:

spx recognize --microphone

بعد تشغيل الأمر، يبدأ SPX في الاستماع إلى الصوت على جهاز الإدخال النشط الحالي. يتوقف عن الاستماع عند تحديد إدخال. ثم يتم التعرف على الصوت المنطوق وتحويله إلى نص في إخراج وحدة التحكم.

مع Speech CLI، يمكنك أيضًا التعرف على الكلام من ملف صوتي. شغّل الأمر التالي:

spx recognize --file /path/to/file.wav

تلميح

إذا واجهتك مشكلة أو كنت تريد معرفة المزيد حول خيارات التعرف على Speech CLI، يمكنك تشغيل spx help recognize.

نص إلى كلام (تجميع الكلام)

يأخذ الأمر التالي النص كإدخال ثم يخرج الكلام المركب إلى جهاز الإخراج النشط الحالي (على سبيل المثال، مكبرات صوت الكمبيوتر).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

يمكنك أيضًا حفظ الإخراج المركب إلى ملف. في هذا المثال، دعنا ننشئ ملفًا باسم my-sample.wav في الدليل حيث تشغل الأمر.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

تفترض هذه الأمثلة أنك تختبر باللغة الإنجليزية. مع ذلك، تدعم خدمة الكلام تركيب الكلام في العديد من اللغات. يمكنك سحب قائمة كاملة من الأصوات إما عن طريق تشغيل الأمر التالي أو من خلال زيارة صفحة دعم اللغة.

spx synthesize --voices

إليك أمر لاستخدام أحد الأصوات التي اكتشفتها.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

تلميح

إذا واجهتك مشكلة أو كنت تريد معرفة المزيد حول خيارات التعرف على Speech CLI، يمكنك تشغيل spx help synthesize.

ترجمة الكلام إلى نص

مع Speech CLI، يمكنك أيضًا تحويل الكلام إلى ترجمة النص. قم بتشغيل الأمر التالي لالتقاط الصوت من الميكروفون الافتراضي الخاص بك وإخراج الترجمة كنص. ضع في اعتبارك أنك بحاجة إلى تزويد source و target باللغة بالأمر translate .

spx translate --microphone --source en-US --target ru-RU

عند الترجمة إلى لغات متعددة، افصل رموز اللغات بفواصل منقوطة (;).

spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'

إذا كنت تريد حفظ إخراج الترجمة، فاستخدم العلامة --output . في هذا المثال، يمكنك أيضا القراءة من ملف.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

تلميح

إذا واجهتك مشكلة أو كنت تريد معرفة المزيد حول خيارات التعرف على Speech CLI، يمكنك تشغيل spx help translate.

الخطوات التالية