تحويل الكلام إلى حاويات نصية باستخدام Docker

تنسخ حاوية Speech to text تسجيلات الكلام أو الصوت الدفعي في الوقت الفعلي مع نتائج متوسطة. في هذه المقالة، ستتعلم كيفية تنزيل الكلام إلى حاوية نصية وتثبيته وتشغيله.

لمزيد من المعلومات حول المتطلبات الأساسية، والتحقق من تشغيل حاوية، وتشغيل حاويات متعددة على نفس المضيف، وتشغيل حاويات غير متصلة، راجع تثبيت حاويات الكلام وتشغيلها باستخدام Docker.

صور الحاوية

يمكن العثور على صورة حاوية الكلام إلى نص لجميع الإصدارات و المحلية المدعومة في نقابة سجل حاويات Microsoft (MCR ). موجودة داخل المستودع azure-cognitive-services/speechservices/ ويطلق عليها اسم speech-to-text.

A screenshot of the search connectors and triggers dialog.

اسم نسخة الحاوية المؤهل بالكامل هو mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text. إما إلحاق إصدار معين أو إلحاق :latest للحصول على أحدث إصدار.

إصدار المسار
الأحدث mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest

تسحب latest العلامة أحدث صورة لللغة en-US المحلية.
4.6.0 mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:4.6.0-amd64-mr-in

تكون جميع العلامات، باستثناء latest، بالتنسيق التالي وهي حساسة لحالة الأحرف:

<major>.<minor>.<patch>-<platform>-<locale>-<prerelease>

تتوفر العلامات أيضا بتنسيق JSON لراحتك. يتضمن النص الأساسي مسار الحاوية وقائمة العلامات. لا يتم فرز العلامات حسب الإصدار، ولكن "latest" يتم تضمينها دائما في نهاية القائمة كما هو موضح في هذه القصاصة البرمجية:

{
  "name": "azure-cognitive-services/speechservices/speech-to-text",
  "tags": [
    "2.10.0-amd64-ar-ae",
    "2.10.0-amd64-ar-bh",
    "2.10.0-amd64-ar-eg",
    "2.10.0-amd64-ar-iq",
    "2.10.0-amd64-ar-jo",
    <--redacted for brevity-->
    "latest"
  ]
}

الحصول على صورة الحاوية باستخدام docker pull

تحتاج إلى المتطلبات الأساسية بما في ذلك الأجهزة المطلوبة. راجع أيضا التخصيص الموصى به للموارد لكل حاوية Speech.

استخدم الأمر سحب docker لتنزيل صورة حاوية من Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest

هام

تسحب latest العلامة أحدث صورة لللغة en-US المحلية. للحصول على إصدارات و الإعدادات المحلية الإضافية، راجع تحويل الكلام إلى صور حاوية نصية.

تشغيل الحاوية باستخدام تشغيل docker

استخدم الأمر docker run لتشغيل الحاوية.

يمثل الجدول التالي معلمات docker run المختلفة والأوصاف المقابلة لها:

المعلمة ‏‏الوصف‬
{ENDPOINT_URI} نقطة النهاية مطلوبة للقياس والفوترة. لمزيد من المعلومات، راجع وسيطات الفوترة.
{API_KEY} مفتاح API مطلوب. لمزيد من المعلومات، راجع وسيطات الفوترة.

عند تشغيل الكلام إلى حاوية نصية، قم بتكوين المنفذ والذاكرة وCPU وفقا للكلام لمتطلبات وتوصيات حاوية النص.

فيما يلي مثال docker run على الأمر مع قيم العنصر النائب. يجب تحديد ENDPOINT_URI قيم و API_KEY :

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

هذا الأمر:

  • speech-to-text تشغيل حاوية من صورة الحاوية.
  • يخصص 4 ذاكرات أساسية لوحدة المعالجة المركزية و8 غيغابايت من الذاكرة.
  • يعرض منفذ TCP 5000 ويخصص TTY زائف للحاوية.
  • يزيل الحاوية تلقائياً بعد إنهائها. صورة الحاوية لا تزال متوفرة على الكمبيوتر المضيف.

لمزيد من المعلومات حول docker run حاويات الكلام، راجع تثبيت حاويات الكلام وتشغيلها باستخدام Docker.

استخدام الحاوية

توفر حاويات الكلام واجهات برمجة تطبيقات نقطة نهاية الاستعلام المستندة إلى websocket التي يتم الوصول إليها من خلال Speech SDK و Speech CLI. بشكل افتراضي، يستخدم Speech SDK و Speech CLI خدمة Speech العامة. لاستخدام الحاوية، تحتاج إلى تغيير أسلوب التهيئة.

هام

عند استخدام خدمة Speech مع حاويات، تأكد من استخدام مصادقة المضيف. إذا قمت بتكوين المفتاح والمنطقة، فستنتقل الطلبات إلى خدمة الكلام العامة. قد لا تكون النتائج من خدمة الكلام كما تتوقع. ستفشل الطلبات من الحاويات غير المتصلة.

بدلا من استخدام تكوين تهيئة سحابة Azure هذا:

var config = SpeechConfig.FromSubscription(...);

استخدم هذا التكوين مع مضيف الحاوية:

var config = SpeechConfig.FromHost(
    new Uri("ws://localhost:5000"));

بدلا من استخدام تكوين تهيئة سحابة Azure هذا:

auto speechConfig = SpeechConfig::FromSubscription(...);

استخدم هذا التكوين مع مضيف الحاوية:

auto speechConfig = SpeechConfig::FromHost("ws://localhost:5000");

بدلا من استخدام تكوين تهيئة سحابة Azure هذا:

speechConfig, err := speech.NewSpeechConfigFromSubscription(...)

استخدم هذا التكوين مع مضيف الحاوية:

speechConfig, err := speech.NewSpeechConfigFromHost("ws://localhost:5000")

بدلا من استخدام تكوين تهيئة سحابة Azure هذا:

SpeechConfig speechConfig = SpeechConfig.fromSubscription(...);

استخدم هذا التكوين مع مضيف الحاوية:

SpeechConfig speechConfig = SpeechConfig.fromHost("ws://localhost:5000");

بدلا من استخدام تكوين تهيئة سحابة Azure هذا:

const speechConfig = sdk.SpeechConfig.fromSubscription(...);

استخدم هذا التكوين مع مضيف الحاوية:

const speechConfig = sdk.SpeechConfig.fromHost("ws://localhost:5000");

بدلا من استخدام تكوين تهيئة سحابة Azure هذا:

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:...];

استخدم هذا التكوين مع مضيف الحاوية:

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithHost:"ws://localhost:5000"];

بدلا من استخدام تكوين تهيئة سحابة Azure هذا:

let speechConfig = SPXSpeechConfiguration(subscription: "", region: "");

استخدم هذا التكوين مع مضيف الحاوية:

let speechConfig = SPXSpeechConfiguration(host: "ws://localhost:5000");

بدلا من استخدام تكوين تهيئة سحابة Azure هذا:

speech_config = speechsdk.SpeechConfig(
    subscription=speech_key, region=service_region)

استخدم هذا التكوين مع نقطة نهاية الحاوية:

speech_config = speechsdk.SpeechConfig(
    host="ws://localhost:5000")

عند استخدام Speech CLI في حاوية، قم بتضمين --host ws://localhost:5000/ الخيار . يجب عليك أيضا تحديد --key none للتأكد من أن CLI لا يحاول استخدام مفتاح الكلام للمصادقة. للحصول على معلومات حول كيفية تكوين Speech CLI، راجع بدء استخدام Azure الذكاء الاصطناعي Speech CLI.

جرب التشغيل السريع لتحويل الكلام إلى نص باستخدام مصادقة المضيف بدلا من المفتاح والمنطقة.

الخطوات التالية