تحويل الكلام إلى حاويات نصية باستخدام Docker

مقالة
01/22/2024

تنسخ حاوية Speech to text تسجيلات الكلام أو الصوت الدفعي في الوقت الفعلي مع نتائج متوسطة. في هذه المقالة، ستتعلم كيفية تنزيل الكلام إلى حاوية نصية وتثبيته وتشغيله.

لمزيد من المعلومات حول المتطلبات الأساسية، والتحقق من تشغيل حاوية، وتشغيل حاويات متعددة على نفس المضيف، وتشغيل حاويات غير متصلة، راجع تثبيت حاويات الكلام وتشغيلها باستخدام Docker.

صور الحاوية

يمكن العثور على صورة حاوية الكلام إلى نص لجميع الإصدارات و المحلية المدعومة في نقابة سجل حاويات Microsoft (MCR ). موجودة داخل المستودع azure-cognitive-services/speechservices/ ويطلق عليها اسم speech-to-text.

اسم نسخة الحاوية المؤهل بالكامل هو mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text. إما إلحاق إصدار معين أو إلحاق :latest للحصول على أحدث إصدار.

إصدار	المسار
الأحدث	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest` تسحب `latest` العلامة أحدث صورة لللغة `en-US` المحلية.
4.6.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:4.6.0-amd64-mr-in`

تكون جميع العلامات، باستثناء latest، بالتنسيق التالي وهي حساسة لحالة الأحرف:

<major>.<minor>.<patch>-<platform>-<locale>-<prerelease>

تتوفر العلامات أيضا بتنسيق JSON لراحتك. يتضمن النص الأساسي مسار الحاوية وقائمة العلامات. لا يتم فرز العلامات حسب الإصدار، ولكن "latest" يتم تضمينها دائما في نهاية القائمة كما هو موضح في هذه القصاصة البرمجية:

{
  "name": "azure-cognitive-services/speechservices/speech-to-text",
  "tags": [
    "2.10.0-amd64-ar-ae",
    "2.10.0-amd64-ar-bh",
    "2.10.0-amd64-ar-eg",
    "2.10.0-amd64-ar-iq",
    "2.10.0-amd64-ar-jo",
    <--redacted for brevity-->
    "latest"
  ]
}

الحصول على صورة الحاوية باستخدام docker pull

تحتاج إلى المتطلبات الأساسية بما في ذلك الأجهزة المطلوبة. راجع أيضا التخصيص الموصى به للموارد لكل حاوية Speech.

استخدم الأمر سحب docker لتنزيل صورة حاوية من Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest

هام

تسحب latest العلامة أحدث صورة لللغة en-US المحلية. للحصول على إصدارات و الإعدادات المحلية الإضافية، راجع تحويل الكلام إلى صور حاوية نصية.

تشغيل الحاوية باستخدام تشغيل docker

استخدم الأمر docker run لتشغيل الحاوية.

تحويل الكلام إلى نص
الكلام غير المتصل بالنص

يمثل الجدول التالي معلمات docker run المختلفة والأوصاف المقابلة لها:

المعلمة	‏‏الوصف‬
`{ENDPOINT_URI}`	نقطة النهاية مطلوبة للقياس والفوترة. لمزيد من المعلومات، راجع وسيطات الفوترة.
`{API_KEY}`	مفتاح API مطلوب. لمزيد من المعلومات، راجع وسيطات الفوترة.

عند تشغيل الكلام إلى حاوية نصية، قم بتكوين المنفذ والذاكرة وCPU وفقا للكلام لمتطلبات وتوصيات حاوية النص.

فيما يلي مثال docker run على الأمر مع قيم العنصر النائب. يجب تحديد ENDPOINT_URI قيم و API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

هذا الأمر:

speech-to-text تشغيل حاوية من صورة الحاوية.
يخصص 4 ذاكرات أساسية لوحدة المعالجة المركزية و8 غيغابايت من الذاكرة.
يعرض منفذ TCP 5000 ويخصص TTY زائف للحاوية.
يزيل الحاوية تلقائياً بعد إنهائها. صورة الحاوية لا تزال متوفرة على الكمبيوتر المضيف.

لتشغيل حاويات غير متصلة (غير متصلة بالإنترنت)، يجب إرسال نموذج الطلب هذا وانتظار الموافقة. لمزيد من المعلومات حول تطبيق خطة التزام وشراءها لاستخدام الحاويات في بيئات غير متصلة، راجع استخدام الحاويات في بيئات غير متصلة في وثائق خدمات Azure الذكاء الاصطناعي.

إذا تمت الموافقة على تشغيل الحاوية غير المتصلة بالإنترنت، يوضح المثال التالي تنسيق docker run الأمر الذي يجب استخدامه، مع قيم العنصر النائب. استبدل قيم العناصر النائبة هذه بقيمك الخاصة.

تقوم DownloadLicense=True المعلمة في الأمر بتنزيل docker run ملف ترخيص لتمكين تشغيل حاوية Docker عندما لا تكون متصلة بالإنترنت. كما يحتوي على تاريخ انتهاء صلاحية، وبعد ذلك يكون ملف الترخيص غير صالح لتشغيل الحاوية. يمكنك فقط استخدام ملف ترخيص مع الحاوية المناسبة التي تمت الموافقة عليها. على سبيل المثال، لا يمكنك استخدام ملف ترخيص لحاوية speech-to-text مع neural-text-to-speech حاوية.

Placeholder	‏‏الوصف
`{IMAGE}`	صورة الحاوية التي تريد استخدامها. على سبيل المثال: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`
`{LICENSE_MOUNT}`	المسار حيث يتم تنزيل الترخيص وتركيبه. على سبيل المثال: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	نقطة النهاية للمصادقة على طلب واجهة برمجة التطبيقات. يمكنك العثور عليه في صفحة المفتاح ونقطة النهاية الخاصة بموردك، على مدخل Microsoft Azure. على سبيل المثال: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	المفتاح لمورد الكلام الخاص بك. يمكنك العثور عليه في صفحة المفتاح ونقطة النهاية الخاصة بموردك، على مدخل Microsoft Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	موقع مجلد الترخيص على نظام الملفات المحلي للحاوية. على سبيل المثال: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

بمجرد تنزيل ملف الترخيص، يمكنك تشغيل الحاوية في بيئة غير متصلة. يوضح المثال التالي تنسيق الأمر الذي تستخدمه docker run ، مع قيم العنصر النائب. استبدل قيم العناصر النائبة هذه بقيمك الخاصة.

أينما يتم تشغيل الحاوية، يجب تحميل ملف الترخيص إلى الحاوية ويجب تحديد موقع مجلد الترخيص على نظام الملفات المحلي للحاوية باستخدام Mounts:License=. يجب أيضا تحديد تحميل الإخراج بحيث يمكن كتابة سجلات استخدام الفوترة.

Placeholder	القيمة‬	شكل أو مثال
`{IMAGE}`	صورة الحاوية التي تريد استخدامها. على سبيل المثال: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`
`{MEMORY_SIZE}`	الحجم المناسب للذاكرة لتخصيصها للحاوية الخاصة بك. على سبيل المثال: `4g`
`{NUMBER_CPUS}`	العدد المناسب من وحدات المعالجة المركزية لتخصيصها للحاوية الخاصة بك. على سبيل المثال: `4`
`{LICENSE_MOUNT}`	المسار حيث يوجد الترخيص ويتم تحميله. على سبيل المثال: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	مسار الإخراج للتسجيل. على سبيل المثال: `/host/output:/path/to/output/directory` لمزيد من المعلومات، راجع سجلات الاستخدام في وثائق خدمات Azure الذكاء الاصطناعي.
`{CONTAINER_LICENSE_DIRECTORY}`	موقع مجلد الترخيص على نظام الملفات المحلي للحاوية. على سبيل المثال: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	موقع مجلد الإخراج على نظام الملفات المحلي للحاوية. على سبيل المثال: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

توفر حاويات الكلام دليلا افتراضيا لكتابة ملف الترخيص وسجل الفوترة في وقت التشغيل. الدلائل الافتراضية هي /license و/output على التوالي.

عند تحميل هذه الدلائل إلى الحاوية docker run -v باستخدام الأمر ، تأكد من تعيين ملكية دليل الجهاز المحلي إلى user:group nonroot:nonroot قبل تشغيل الحاوية.

فيما يلي نموذج أمر لتعيين ملكية الملف/الدليل.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

لمزيد من المعلومات حول docker run حاويات الكلام، راجع تثبيت حاويات الكلام وتشغيلها باستخدام Docker.

استخدام الحاوية

توفر حاويات الكلام واجهات برمجة تطبيقات نقطة نهاية الاستعلام المستندة إلى websocket التي يتم الوصول إليها من خلال Speech SDK و Speech CLI. بشكل افتراضي، يستخدم Speech SDK و Speech CLI خدمة Speech العامة. لاستخدام الحاوية، تحتاج إلى تغيير أسلوب التهيئة.

هام

عند استخدام خدمة Speech مع حاويات، تأكد من استخدام مصادقة المضيف. إذا قمت بتكوين المفتاح والمنطقة، فستنتقل الطلبات إلى خدمة الكلام العامة. قد لا تكون النتائج من خدمة الكلام كما تتوقع. ستفشل الطلبات من الحاويات غير المتصلة.