التشغيل السريع: ابدأ باستخدام Azure الذكاء الاصطناعي Speech CLI

مقالة
01/22/2024

في هذه المقالة، ستتعلم كيفية استخدام Azure الذكاء الاصطناعي Speech CLI (يسمى أيضا SPX) للوصول إلى خدمات الكلام مثل تحويل الكلام إلى نص ونص إلى كلام وترجمة الكلام، دون الحاجة إلى كتابة أي تعليمة برمجية. يعد Speech CLI جاهزًا للإنتاج، ويمكنك استخدامه لأتمتة عمليات سير العمل البسيطة في خدمة الكلام باستخدام البرامج النصية .batأو shell.

تفترض هذه المقالة أن لديك معرفة عملية بنافذة موجه الأوامر أو المحطة الطرفية أو PowerShell.

إشعار

في PowerShell، يجب أن يتبع الرمز المميز(--%) للإيقاف spx. على سبيل المثال، قم بتشغيل spx --% config @region لعرض قيمة تكوين المنطقة الحالية.

التنزيل والتثبيت

اتبع الخطوات التالية لتثبيت Speech CLI على Windows:

قم بتثبيت Microsoft Visual C ++ Redistributable لـ Visual Studio 2019 لنظامك الأساسي. يتطلب تثبيته لأول مرة إعادة تشغيل.
تثبيت .NET 6.

ركب Speech CLI عبر .NET CLI عن طريق إدخال هذا الأمر:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

لتحديث Speech CLI، أدخل هذا الأمر:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

أدخل spxأوspx help لعرض المساعدة الخاصة بـ Speech CLI.

حدود الخط

في نظام التشغيل Windows، يمكن لـ Speech CLI إظهار الخطوط المتوفرة فحسب لموجه الأوامر على الكمبيوتر المحلي. Windows Terminal يدعم جميع الخطوط التي ينتجها Speech CLI بشكل تفاعلي.

إذا قمت بالإخراج إلى ملف ، فيمكن أيضاً لمحرر نصوص مثل Notepad أو متصفح ويب مثل Microsoft Edge عرض جميع الخطوط.

تنبيه

تشير هذه المقالة إلى CentOS، وهو توزيع Linux هو حالة نهاية العمر الافتراضي (EOL). يرجى مراعاة استخدامك والتخطيط وفقا لذلك. لمزيد من المعلومات، راجع إرشادات نهاية العمر الافتراضي CentOS.

توزيعات Linux التالية مدعومة لهياكل x64 باستخدام Speech CLI:

Ubuntu 20.04/22.04
دبيان 11/12
Red Hat Enterprise Linux (RHEL) 7
CentOS 7

إشعار

يدعم Speech SDK (ليس Speech CLI) بنيات إضافية. لمزيد من المعلومات، يرجى الاطلاع على About the Speech SDK.

اتبع هذه الخطوات لتثبيت Speech CLI على Linux على وحدة المعالجة المركزية x64:

تثبيت .NET 6.

ركب Speech CLI عبر .NET CLI عن طريق إدخال هذا الأمر:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

لتحديث Speech CLI، أدخل هذا الأمر:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

على RHEL/CentOS Linux، قم بتكون OpenSSL for Linux.
على Ubuntu 20.04 Linux، قم بتثبيت GStreamer.

أدخل spx لمشاهدة تعليمات لـ Speech CLI.

اتبع هذه الخطوات لتثبيت Speech CLI على macOS 10.14 أو أحدث:

تثبيت .NET 6.

ركب Speech CLI عبر .NET CLI عن طريق إدخال هذا الأمر:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

لتحديث Speech CLI، أدخل هذا الأمر:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

أدخل spxأوspx help لعرض المساعدة الخاصة بـ Speech CLI.

يسحب المثال التالي صورة حاوية عامة من Docker Hub. نوصي بالمصادقة باستخدام حساب Docker Hub (docker login) أولاً بدلاً من إجراء طلب سحب مجهول. لتحسين الموثوقية عندما تستخدم المحتوى العام، قم باستيراد الصورة وإدارتها في سجل حاويات Azure خاص. تعرف على المزيد حول العمل مع الصور العامة.

اتبع هذه الخطوات لتثبيت Speech CLI في حاوية Docker:

قم بتثبيت Docker Desktop لمنصتك إذا لم يكن مثبتاً بالفعل.
في موجه أوامر أو محطة طرفية جديدة، أدخل هذا الأمر:
```
docker pull msftspeech/spx
```

أدخل هذا الأمر لعرض معلومات التعليمات لـ Speech CLI:

docker run -it --rm msftspeech/spx help

تحميل دليل في الحاوية

تحفظ أداة Speech CLI إعدادات التكوين كملفات. يقوم بتحميل هذه الملفات عند تنفيذ أي أمر (باستثناء أوامر التعليمات).

عند استخدام Speech CLI داخل حاوية Docker، يجب تحميل دليل محلي من الحاوية، حتى تتمكن الأداة من:

تخزين إعدادات التكوين أو العثور عليها.
قراءة أو كتابة أي ملفات يتطلبها الأمر، مثل ملفات الصوت للكلام.

في نظام تشغيل Windows، أدخل هذا الأمر لإنشاء دليل محلي يمكن استخدام Speech CLI من داخل الحاوية:

mkdir c:\spx-data

أو في نظام تشغيل Linux أو macOS، أدخل هذا الأمر في محطة طرفية لإنشاء دليل ورؤية مساره المطلق:

mkdir ~/spx-data
cd ~/spx-data
pwd

سوف تستخدم المسار المطلق عند استدعاء Speech CLI.

تشغيل Speech CLI في الحاوية

تظهر هذه الوثائق أمر Speech CLI spx المستخدم في عمليات التثبيت بخلاف عمليات Docker. عندما تستدعى الأمر spx في حاوية Docker، يجب عليك تحميل دليل في الحاوية إلى نظام الملفات الخاص بك حتى يمكن لـ Speech CLI تخزين قيم التكوين والعثور عليها وقراءة الملفات وكتابتها.

في نظام تشغيل Windows، ستبدأ الأوامر على النحو هذا:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

في Linux أو macOS، تبدو أوامرك مثل النموذج التالي. استبدال ABSOLUTE_PATH بالمسار المطلق للدليل المثبت لديك. أرجع pwd الأمر هذا المسار في القسم السابق. إذا قمت بتشغيل هذا الأمر قبل تعيين مفتاحك ومنطقتك، فستتلقى خطأ يعلمك بتعيين مفتاحك ومنطقتك.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

لاستخدام spxالأمر المثبت في حاوية، أدخل الأمر الكامل دائمًا كما هو موضح في النموذج السابق، متبوعًا بمعلمات طلبك. على سبيل المثال، في نظام تشغيل Windows، يعين هذا الأمر المفتاح الخاص بك:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

لمزيد من التفاعل الممتد مع أداة سطر الأوامر، يمكنك بدء حاوية بصدفة Bash تفاعلية عن طريق إضافة معلمة entrypoint. في نظام تشغيل Windows، أدخل هذا الأمر لبدء تشغيل حاوية تعرض واجهة سطر أوامر تفاعلية حتى يمكنك إدخال spx أوامر متعددة:

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

يمكنك دمج ذلك مع تسجيل الدخول إلى AZ ودليل SPX Init لك من خلال إنشاء مفاتيح الكلام وتحديد منطقة بيانات مطابقة دون الحاجة إلى استخدام مدخل Microsoft Azure. سيتم تخزين المفاتيح تلقائيا لاستخدامها لاحقًا.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

للبدء، تحتاج إلى مفتاح مورد الكلام ومعرف المنطقة (على سبيل المثال، eastus، ). westus إنشاء مورد Speech على مدخل Azure. لمزيد من المعلومات، راجع إنشاء مورد متعدد الخدمات.

لتكوين مفتاح المورد ومعرف المنطقة، قم بتشغيل الأوامر التالية:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

يتم تخزين المفتاح والمنطقة لأوامر Speech CLI المستقبلية. لعرض التكوين الحالي، قم بتشغيل الأوامر التالية:

spx config @key
spx config @region

حسب الحاجة، قم بتضمين clear خيار إزالة القيمة المخزنة:

spx config @key --clear
spx config @region --clear

لتكوين مفتاح مورد الكلام ومعرف المنطقة، قم بتشغيل الأوامر التالية في PowerShell:

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

يتم تخزين المفتاح والمنطقة لأوامر SPX المستقبلية. لعرض التكوين الحالي، قم بتشغيل الأوامر التالية:

spx --% config @key
spx --% config @region

حسب الحاجة، قم بتضمين clear خيار إزالة القيمة المخزنة:

spx --% config @key --clear
spx --% config @region --clear

الاستخدام الأساسي

هام

عند استخدام Speech CLI في حاوية، قم بتضمين --host الخيار . يجب عليك أيضا تحديد --key none للتأكد من أن CLI لا يحاول استخدام مفتاح الكلام للمصادقة. على سبيل المثال، قم بتشغيل spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav للتعرف على الكلام من ملف صوتي في حاوية كلام إلى نص.

يعرض هذا القسم بعض أوامر SPX الأساسية التي غالبًا ما تكون مفيدة للاختبار والتجريب لأول مرة. قم بتشغيل الأمر التالي لعرض التعليمات داخل الأداة:

spx

يمكنك البحث في موضوعات التعليمات حسب الكلمة الرئيسية. على سبيل المثال، لمشاهدة قائمة بأمثلة استخدام Speech CLI، قم بتشغيل الأمر التالي:

spx help find --topics "examples"

للاطلاع على recognize خيارات الأمر، قم بتشغيل الأمر التالي:

spx help recognize

يتم سرد المزيد من أوامر التعليمات في إخراج وحدة التحكم. يمكنك إدخال هذه الأوامر للحصول على تعليمات مفصلة حول الأوامر الفرعية.

الكلام إلى النص (التعرف على الكلام)

إشعار

لا يمكنك استخدام ميكروفون الكمبيوتر عند تشغيل Speech CLI داخل حاوية Docker. مع ذلك، يمكنك القراءة من الملفات الصوتية وحفظها في الدليل المحلي الخاص بك.

لتحويل الكلام إلى نص (التعرف على الكلام) باستخدام الميكروفون الافتراضي للنظام، قم بتشغيل الأمر التالي:

spx recognize --microphone

بعد تشغيل الأمر، يبدأ SPX في الاستماع إلى الصوت على جهاز الإدخال النشط الحالي. يتوقف عن الاستماع عند تحديد إدخال. ثم يتم التعرف على الصوت المنطوق وتحويله إلى نص في إخراج وحدة التحكم.

مع Speech CLI، يمكنك أيضًا التعرف على الكلام من ملف صوتي. شغّل الأمر التالي:

spx recognize --file /path/to/file.wav

تلميح

إذا واجهتك مشكلة أو كنت تريد معرفة المزيد حول خيارات التعرف على Speech CLI، يمكنك تشغيل spx help recognize.

نص إلى كلام (تجميع الكلام)

يأخذ الأمر التالي النص كإدخال ثم يخرج الكلام المركب إلى جهاز الإخراج النشط الحالي (على سبيل المثال، مكبرات صوت الكمبيوتر).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

يمكنك أيضًا حفظ الإخراج المركب إلى ملف. في هذا المثال، دعنا ننشئ ملفًا باسم my-sample.wav في الدليل حيث تشغل الأمر.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

تفترض هذه الأمثلة أنك تختبر باللغة الإنجليزية. مع ذلك، تدعم خدمة الكلام تركيب الكلام في العديد من اللغات. يمكنك سحب قائمة كاملة من الأصوات إما عن طريق تشغيل الأمر التالي أو من خلال زيارة صفحة دعم اللغة.

spx synthesize --voices

إليك أمر لاستخدام أحد الأصوات التي اكتشفتها.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

تلميح

إذا واجهتك مشكلة أو كنت تريد معرفة المزيد حول خيارات التعرف على Speech CLI، يمكنك تشغيل spx help synthesize.

ترجمة الكلام إلى نص

مع Speech CLI، يمكنك أيضًا تحويل الكلام إلى ترجمة النص. قم بتشغيل الأمر التالي لالتقاط الصوت من الميكروفون الافتراضي الخاص بك وإخراج الترجمة كنص. ضع في اعتبارك أنك بحاجة إلى تزويد source و target باللغة بالأمر translate .

spx translate --microphone --source en-US --target ru-RU

عند الترجمة إلى لغات متعددة، افصل رموز اللغات بفواصل منقوطة (;).

spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'

إذا كنت تريد حفظ إخراج الترجمة، فاستخدم العلامة --output . في هذا المثال، يمكنك أيضا القراءة من ملف.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

تلميح

إذا واجهتك مشكلة أو كنت تريد معرفة المزيد حول خيارات التعرف على Speech CLI، يمكنك تشغيل spx help translate.

مشاركة عبر

التشغيل السريع: ابدأ باستخدام Azure الذكاء الاصطناعي Speech CLI

التنزيل والتثبيت

حدود الخط

تحميل دليل في الحاوية

تشغيل Speech CLI في الحاوية

إنشاء تكوين مورد

الاستخدام الأساسي

الكلام إلى النص (التعرف على الكلام)

نص إلى كلام (تجميع الكلام)

ترجمة الكلام إلى نص

الخطوات التالية

الملاحظات

الملاحظات

الموارد الإضافية