تحويل النص إلى حاويات الكلام باستخدام Docker

مقالة
01/22/2024

يحول النص العصبي إلى حاوية الكلام النص إلى كلام طبيعي السبر باستخدام تقنية الشبكة العصبية العميقة، والتي تسمح بالكلام المركب الطبيعي. في هذه المقالة، ستتعلم كيفية تنزيل حاوية تحويل النص إلى كلام وتثبيتها وتشغيلها.

لمزيد من المعلومات حول المتطلبات الأساسية، والتحقق من تشغيل حاوية، وتشغيل حاويات متعددة على نفس المضيف، وتشغيل حاويات غير متصلة، راجع تثبيت حاويات الكلام وتشغيلها باستخدام Docker.

صور الحاوية

يمكن العثور على النص العصبي لصورة حاوية الكلام لجميع الإصدارات و المحلية المدعومة في نقابة Microsoft Container Registry (MCR ). موجودة داخل المستودع azure-cognitive-services/speechservices/ ويطلق عليها اسم neural-text-to-speech.

اسم نسخة الحاوية المؤهل بالكامل هو mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech. إما إلحاق إصدار معين أو إلحاق :latest للحصول على أحدث إصدار.

إصدار	المسار
الأحدث	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest` تسحب العلامة `latest` الإعداد المحلي `en-US` و`en-us-arianeural` الصوت.
3.1.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:3.1.0-amd64-en-us-arianeural`

تكون جميع العلامات، باستثناء latest، بالتنسيق التالي وهي حساسة لحالة الأحرف:

<major>.<minor>.<patch>-<platform>-<voice>-<preview>

تتوفر العلامات أيضا بتنسيق JSON لراحتك. يتضمن النص الأساسي مسار الحاوية وقائمة العلامات. لا يتم فرز العلامات حسب الإصدار، ولكن "latest" يتم تضمينها دائما في نهاية القائمة كما هو موضح في هذه القصاصة البرمجية:

{
  "name": "azure-cognitive-services/speechservices/neural-text-to-speech",
  "tags": [
    <--redacted for brevity-->
    "3.1.0-amd64-en-us-arianeural",
    "3.1.0-amd64-en-us-guyneural",
    "3.1.0-amd64-en-us-jennymultilingualneural",
    "3.1.0-amd64-en-us-jennyneural",
    "3.1.0-amd64-en-us-michelleneural",
    "3.1.0-amd64-es-es-alvaroneural",
    "3.1.0-amd64-es-es-elviraneural",
    "3.1.0-amd64-es-mx-candelaneural",
    "3.1.0-amd64-es-mx-dalianeural",
    "3.1.0-amd64-es-mx-jorgeneural",
    <--redacted for brevity-->
    "latest"
  ]
}

هام

قمنا بإيقاف أصوات تركيب الكلام القياسية والنص القياسي إلى حاوية الكلام في 31 أغسطس 2021. يجب عليك استخدام الأصوات العصبية مع حاوية العصبية النص إلى كلام الإصدار 3.0 وأعلى بدلا من ذلك.

بدءا من 29 فبراير 2024، لا يتم دعم النص إلى الكلام والنص العصبي إلى إصدارات حاوية الكلام 2.19 والإصدارات السابقة. لمزيد من المعلومات حول تحديث التطبيق الخاص بك، راجع الترحيل من صوت قياسي إلى صوت عصبي تم إنشاؤه مسبقاً.

الحصول على صورة الحاوية باستخدام docker pull

تحتاج إلى المتطلبات الأساسية بما في ذلك الأجهزة المطلوبة. راجع أيضا التخصيص الموصى به للموارد لكل حاوية Speech.

استخدم الأمر سحب docker لتنزيل صورة حاوية من Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech:latest

هام

تسحب العلامة latest الإعداد المحلي en-US وen-us-arianeural الصوت. للحصول على لغات وأصوات إضافية، راجع النص إلى صور حاوية الكلام.

تشغيل الحاوية باستخدام تشغيل docker

استخدم الأمر docker run لتشغيل الحاوية.

النص العصبي إلى كلام
نص عصبي غير متصل بالكلام

يمثل الجدول التالي معلمات docker run المختلفة والأوصاف المقابلة لها:

المعلمة	‏‏الوصف‬
`{ENDPOINT_URI}`	نقطة النهاية مطلوبة للقياس والفوترة. لمزيد من المعلومات، راجع وسيطات الفوترة.
`{API_KEY}`	مفتاح API مطلوب. لمزيد من المعلومات، راجع وسيطات الفوترة.

عند تشغيل النص إلى حاوية الكلام، قم بتكوين المنفذ والذاكرة وCPU وفقا للنص إلى متطلبات وتوصيات حاوية الكلام.

فيما يلي مثال docker run على الأمر مع قيم العنصر النائب. يجب تحديد ENDPOINT_URI قيم و API_KEY :

docker run --rm -it -p 5000:5000 --memory 12g --cpus 6 \
mcr.microsoft.com/azure-cognitive-services/speechservices/neural-text-to-speech \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

هذا الأمر:

تشغيل نص عصبي إلى حاوية الكلام من صورة الحاوية.
يخصص 6 ذاكرات أساسية للمعالج و12 غيغابايت من الذاكرة.
يعرض منفذ TCP 5000 ويخصص TTY زائف للحاوية.
يزيل الحاوية تلقائياً بعد إنهائها. صورة الحاوية لا تزال متوفرة على الكمبيوتر المضيف.

لتشغيل حاويات غير متصلة (غير متصلة بالإنترنت)، يجب إرسال نموذج الطلب هذا وانتظار الموافقة. لمزيد من المعلومات حول تطبيق خطة التزام وشراءها لاستخدام الحاويات في بيئات غير متصلة، راجع استخدام الحاويات في بيئات غير متصلة في وثائق خدمات Azure الذكاء الاصطناعي.

إذا تمت الموافقة على تشغيل الحاوية غير المتصلة بالإنترنت، يوضح المثال التالي تنسيق docker run الأمر الذي يجب استخدامه، مع قيم العنصر النائب. استبدل قيم العناصر النائبة هذه بقيمك الخاصة.

تقوم DownloadLicense=True المعلمة في الأمر بتنزيل docker run ملف ترخيص لتمكين تشغيل حاوية Docker عندما لا تكون متصلة بالإنترنت. كما يحتوي على تاريخ انتهاء صلاحية، وبعد ذلك يكون ملف الترخيص غير صالح لتشغيل الحاوية. يمكنك فقط استخدام ملف ترخيص مع الحاوية المناسبة التي تمت الموافقة عليها. على سبيل المثال، لا يمكنك استخدام ملف ترخيص لحاوية speech-to-text مع neural-text-to-speech حاوية.

Placeholder	‏‏الوصف
`{IMAGE}`	صورة الحاوية التي تريد استخدامها. على سبيل المثال: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{LICENSE_MOUNT}`	المسار حيث يتم تنزيل الترخيص وتركيبه. على سبيل المثال: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	نقطة النهاية للمصادقة على طلب واجهة برمجة التطبيقات. يمكنك العثور عليه في صفحة المفتاح ونقطة النهاية الخاصة بموردك، على مدخل Microsoft Azure. على سبيل المثال: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	المفتاح لمورد الكلام الخاص بك. يمكنك العثور عليه في صفحة المفتاح ونقطة النهاية الخاصة بموردك، على مدخل Microsoft Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	موقع مجلد الترخيص على نظام الملفات المحلي للحاوية. على سبيل المثال: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

بمجرد تنزيل ملف الترخيص، يمكنك تشغيل الحاوية في بيئة غير متصلة. يوضح المثال التالي تنسيق الأمر الذي تستخدمه docker run ، مع قيم العنصر النائب. استبدل قيم العناصر النائبة هذه بقيمك الخاصة.

أينما يتم تشغيل الحاوية، يجب تحميل ملف الترخيص إلى الحاوية ويجب تحديد موقع مجلد الترخيص على نظام الملفات المحلي للحاوية باستخدام Mounts:License=. يجب أيضا تحديد تحميل الإخراج بحيث يمكن كتابة سجلات استخدام الفوترة.

Placeholder	القيمة‬	شكل أو مثال
`{IMAGE}`	صورة الحاوية التي تريد استخدامها. على سبيل المثال: `mcr.microsoft.com/azure-cognitive-services/neural-text-to-speech:latest`
`{MEMORY_SIZE}`	الحجم المناسب للذاكرة لتخصيصها للحاوية الخاصة بك. على سبيل المثال: `4g`
`{NUMBER_CPUS}`	العدد المناسب من وحدات المعالجة المركزية لتخصيصها للحاوية الخاصة بك. على سبيل المثال: `4`
`{LICENSE_MOUNT}`	المسار حيث يوجد الترخيص ويتم تحميله. على سبيل المثال: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	مسار الإخراج للتسجيل. على سبيل المثال: `/host/output:/path/to/output/directory` لمزيد من المعلومات، راجع سجلات الاستخدام في وثائق خدمات Azure الذكاء الاصطناعي.
`{CONTAINER_LICENSE_DIRECTORY}`	موقع مجلد الترخيص على نظام الملفات المحلي للحاوية. على سبيل المثال: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	موقع مجلد الإخراج على نظام الملفات المحلي للحاوية. على سبيل المثال: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

توفر حاويات الكلام دليلا افتراضيا لكتابة ملف الترخيص وسجل الفوترة في وقت التشغيل. الدلائل الافتراضية هي /license و/output على التوالي.

عند تحميل هذه الدلائل إلى الحاوية docker run -v باستخدام الأمر ، تأكد من تعيين ملكية دليل الجهاز المحلي إلى user:group nonroot:nonroot قبل تشغيل الحاوية.

فيما يلي نموذج أمر لتعيين ملكية الملف/الدليل.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

لمزيد من المعلومات حول docker run حاويات الكلام، راجع تثبيت حاويات الكلام وتشغيلها باستخدام Docker.

استخدام الحاوية

توفر حاويات الكلام واجهات برمجة تطبيقات نقطة نهاية الاستعلام المستندة إلى websocket التي يتم الوصول إليها من خلال Speech SDK و Speech CLI. بشكل افتراضي، يستخدم Speech SDK و Speech CLI خدمة Speech العامة. لاستخدام الحاوية، تحتاج إلى تغيير أسلوب التهيئة.

هام

عند استخدام خدمة Speech مع حاويات، تأكد من استخدام مصادقة المضيف. إذا قمت بتكوين المفتاح والمنطقة، فستنتقل الطلبات إلى خدمة الكلام العامة. قد لا تكون النتائج من خدمة الكلام كما تتوقع. ستفشل الطلبات من الحاويات غير المتصلة.