الأسئلة المتداولة حول تحويل الكلام إلى نص

تجيب هذه المقالة على الأسئلة الشائعة حول خدمة تحويل الكلام إلى نص. إذا لم تتمكن من العثور على إجابات لأسئلتك هنا، تحقق من خيارات الدعم الأخرى .

عام

ما الفرق بين نموذج أساسي وخطاب مخصص لنموذج نصي؟

يتم تدريب نموذج الكلام الأساسي إلى النص باستخدام البيانات المملوكة ل Microsoft ويتم نشره بالفعل في السحابة. يمكنك إنشاء واستخدام نموذج مخصص لتناسب بشكل أفضل بيئة بها ضوضاء أو لغة محيطة محددة. تتطلب أرضيات المصانع أو السيارات أو الشوارع الصاخبة نموذجًا صوتيًا متكيفًا. تتطلب مواضيع مثل علم الأحياء والفيزياء والأشعة وأسماء المنتجات والمختصرات المخصصة نموذجًا لغويًا معدلًا. إذا كنت ترغب في تدريب نموذج مخصص، فيجب أن تبدأ بالنص ذي الصلة لتحسين التعرف على المصطلحات والعبارات الخاصة.

من أين أبدأ إذا أردت استخدام نموذج أساسي ؟

أولاً، احصل على مفتاح مصدر الكلام والمنطقة في مدخل Microsoft Azure . إذا كنت ترغب في إجراء مكالمات REST إلى نموذج أساسي مسبق التوزيع راجع مستندات REST APIs . إذا كنت ترغب في استخدام WebSockets، فقم بتنزيل Speech SDK .

هل أحتاج دائمًا إلى بناء نموذج خطاب مخصص ؟

‏‏لا. إذا كان التطبيق الخاص بك يستخدم لغة عامة يومية، فلن تحتاج إلى تخصيص نموذج. إذا تم استخدام تطبيقك في بيئة يوجد فيها القليل من الضوضاء في الخلفية أو لا يوجد فيها ضوضاء، فلن تحتاج إلى تخصيص نموذج.

يمكنك توزيع النماذج الأساسية والمخصصة في المدخل ثم إجراء اختبارات الدقة عليها. يمكنك استخدام هذه الميزة لقياس دقة النموذج الأساسي مقابل النموذج المخصص.

كيف أعمل معرفة متى تكتمل معالجة مجموعة البيانات أو النموذج الخاص بي؟

حاليًا، الطريقة الوحيدة للمعرفة هي عرض حالة النموذج أو مجموعة البيانات في الجدول. عندما تكتمل المعالجة، تكون الحالة نجحت .

هل يمكنني إنشاء أكثر من نموذج ؟

لا يوجد حد لعدد الموديلات التي يمكنك الحصول عليها في مجموعتك.

أدركت أنني ارتكبت خطأ. كيف أعمل على إلغاء استيراد البيانات أو إنشاء النموذج الجاري ؟

حاليًا، لا يمكنك التراجع عن عملية التكيف الصوتي أو اللغوي. يمكنك حذف البيانات والنماذج المستوردة عندما تكون في حالة نهائية.

أحصل على عدة نتائج لكل عبارة مع تنسيق المخرجات التفصيلي. أي حزم تطوير برمجيات SDK ينبغي لي استخدامها؟

خذ النتيجة الأولى دائمًا، حتى لو كانت نتيجة أخرى ("N-Best') لها قيمة ثقة أعلى. تعتبر خدمة الكلام أن النتيجة الأولى هي الأفضل. يمكن أن تكون النتيجة أيضًا سلسلة فارغة إذا لم يتم التعرف على أي كلام.

من المحتمل أن تكون النتائج الأخرى أسوأ وقد لا يتم تطبيق رسملة كاملة وعلامات الترقيم. هذه النتائج مفيدة للغاية في السيناريوهات الخاصة، مثل منح المستخدمين خيار اختيار التصحيحات من القائمة أو التعامل مع الأوامر المعترف بها بشكل غير صحيح.

لماذا هناك نماذج أساسية متعددة ؟

يمكنك الاختيار بين أكثر من نموذج أساسي واحد في خدمة الكلام. يحتوي كل اسم نموذج على تاريخ إضافته. عندما تبدأ في تدريب نموذج مخصص، استخدم أحدث طراز للحصول على أفضل دقة. لا تزال النماذج الأساسية القديمة متاحة لبعض الوقت بعد إتاحة نموذج جديد. يمكنك الاستمرار في استخدام النموذج الذي عملت معه حتى يتم إيقافه (راجع دورة حياة النموذج ونقطة النهاية). ما زلنا نوصي بالتحول إلى أحدث طراز أساسي لتحقيق دقة أفضل.

هل يمكنني تحديث نموذجي الحالي (تكديس النموذج)؟

لا يمكنك تحديث النموذج الموجود. كحل، ادمج مجموعة البيانات القديمة مع مجموعة البيانات الجديدة وأعد التعديل.

يجب دمج مجموعة البيانات القديمة ومجموعة البيانات الجديدة في ملف واحد .zip (للبيانات الصوتية) أو في ملف .txt (لبيانات اللغة). عند الانتهاء من التكيف، أعد توزيع نموذج ثلاثي الأبعاد الجديد المحدث للحصول على نقطة نهاية جديدة.

عندما تتوفر نسخة جديدة من النموذج الأساسي، هل يتم تحديث توزيعي تلقائيًا ؟

يتم تحديث عمليات التوزيع وليس تلقائيًا.

إذا قمت بتكييف نموذج ونشره، يبقى النشر الحالي كما هو. يمكنك إيقاف تشغيل النموذج المنشور، وإعادة تشغيله باستخدام الإصدار الأحدث من النموذج الأساسي، وإعادة توزيعه للحصول على دقة أفضل.

يتم إيقاف كل من النماذج الأساسية والنماذج المخصصة بعد مرور بعض الوقت (راجع دورة حياة النموذج ونقطة النهاية).

هل يمكنني تنزيل نموذجي وتشغيله محليًا ؟

يمكنك تشغيل نموذج مخصص محليًا في حاوية Docker .

هل يمكنني نسخ أو نقل مجموعات البيانات والنماذج وعمليات التوزيع الخاصة بي إلى منطقة أو اشتراك آخر ؟

يمكنك استخدام Models_Copy REST API لنسخ نموذج مخصص إلى منطقة أو اشتراك آخر. لا يمكن نسخ مجموعات البيانات وعمليات التوزيع. يمكنك استيراد مجموعة بيانات مرة أخرى في اشتراك آخر وإنشاء نقاط نهاية هناك باستخدام نسخ الطراز.

هل طلباتي مسجلة ؟

افتراضيًا، لا يتم تسجيل الطلبات (لا صوت ولا كتابة الحديث). إذا لزم الأمر، يمكنك تحديد محتوى سجل من خيار نقطة النهاية هذه عندما تنشئ نقطة نهاية مخصصة . يمكنك أيضًا تمكين تسجيل الصوت في Speech SDK على أساس كل طلب، دون الحاجة إلى إنشاء نقطة نهاية مخصصة. في كلتا الحالتين، سيتم تخزين نتائج الطلبات السمعية والتعرف عليها في مخزن آمن. تتوفر الاشتراكات التي تستخدم التخزين المملوك ل Microsoft لمدة 30 يوما.

يمكنك تصدير الملفات المسجلة على صفحة التوزيع في Speech Studio إذا كنت تستخدم نقطة نهاية مخصصة مع سجل المحتوى من نقطة النهاية هذه . إذا تم تمكين تسجيل الصوت عبر SDK، فاتصل بواجهة برمجة التطبيقات للوصول إلى الملفات. يمكنك أيضا استخدام واجهة برمجة التطبيقات لحذف السجلات في أي وقت.

هل طلباتي مقيدة ؟

للمزيد من المعلومات، راجع حصص الخدمة المجمعة وحدودها.

كيف يتم فرض رسوم على صوت القناة المزدوجة ؟

إذا قمت بإرسال كل قناة بشكل منفصل في ملفها الخاص، فستتم محاسبتك على المدة الصوتية لكل ملف. إذا قمت بإرسال ملف واحد مع القنوات متعددة الإرسال معا، فستتم محاسبتك على مدة الملف الفردي. لمزيد من المعلومات حول التسعير، راجع صفحة تسعير خدمات Azure الذكاء الاصطناعي.

هام

إذا كان لديك المزيد من مخاوف الخصوصية التي تمنعك من استخدام خدمة الكلام المخصصة، فاتصل بإحدى قنوات الدعم.

زيادة عملية التزامن

للمزيد من المعلومات، راجع حصص الخدمة المجمعة وحدودها.

استيراد البيانات

ما هو الحد الأقصى لحجم مجموعة البيانات، ولماذا هو الحد الأقصى ؟

يرجع الحد إلى تقييد حجم الملفات لتحميل HTTP. للاطلاع على الحد الفعلي، انظر حصص وحدود خدمة الكلام . يمكنك تقسيم بياناتك إلى مجموعات بيانات متعددة واختيار كل منها لتدريب النموذج.

هل يمكنني سحب (ضغط) ملفاتي النصية حتى أتمكن من تحميل ملف نصي أكبر ؟

‏‏لا. في الوقت الحالي، لا يُسمح إلا بملفات نصية غير مضغوطة.

يقول تقرير البيانات أن هناك تصريحات فاشلة. ما هي المشكلة؟

الفشل في تحميل 100 بالمائة من الأقوال في الملف ليس مشكلة. إذا تم استيراد معظم الألفاظ في مجموعة بيانات صوتية أو لغة (على سبيل المثال، أكثر من 95 بالمائة) بنجاح، يمكن أن تكون مجموعة البيانات قابلة للاستخدام. ومع ذلك، ما زلنا نوصي بمحاولة فهم سبب فشل الأقوال ثم إصلاح المشكلة. من السهل إصلاح المشاكل الأكثر شيوعًا، مثل أخطاء التنسيق.

إنشاء النموذج الصوتي

ما مقدار البيانات الصوتية التي أحتاجها؟

نوصي بالبدء من 30 دقائق إلى 1 ساعة من البيانات الصوتية.

ما هي البيانات التي يجب أن أجمعها ؟

اجمع البيانات القريبة من سيناريو التطبيق واستخدم الحالة قدر الإمكان. يجب أن يتطابق جمع البيانات مع التطبيق المستهدف والمستخدمين من حيث الأجهزة أو الأجهزة والبيئات وأنواع مكبرات الصوت. بشكل عام، يجب عليك جمع البيانات من أكبر مجموعة ممكنة من المتحدثين.

كيف يجب أن أجمع البيانات الصوتية ؟

يمكنك إنشاء تطبيق مستقل لجمع البيانات أو استخدام برنامج تسجيل صوتي جاهز. يمكنك أيضًا إنشاء إصدار من تطبيقك يسجل بيانات الصوت ثم يستخدم البيانات.

هل أحتاج إلى نسخ بيانات التكيف بنفسي ؟

نعم. يمكنك نسخه بنفسك أو استخدام خدمة كتابة الحديث باحترافية. يفضل بعض المستخدمين الناسخين المحترفين، ويستخدم آخرون التعهيد الجماعي أو نسخ البيانات بأنفسهم.

كم من الوقت يستغرق تدريب نموذج مخصص على البيانات الصوتية ؟

يمكن أن يكون تدريب نموذج ببيانات صوتية عملية طويلة. اعتمادًا على كمية البيانات، قد يستغرق إنشاء نموذج مخصص عدة أيام. إذا لم يتم الانتهاء منه في غضون أسبوع واحد، فقد تقوم الخدمة بإجهاض عملية التدريب والإبلاغ عن فشل النموذج.

بشكل عام، تقوم خدمة الكلام بمعالجة ما يقرب من 10 ساعات من البيانات الصوتية يوميًا في المناطق التي لديها أجهزة مخصصة. يكون التدريب باستخدام النص أسرع فقط وعادة ما ينتهي في غضون دقائق.

استخدم إحدى المناطق التي تتوفر بها أجهزة مخصصة للتدريب. تستخدم خدمة الكلام ما يصل إلى 100 ساعة من الصوت للتدريب في هذه المناطق.

اختبارات عملية الدقة

ما هو معدل خطأ الكلمات (WER)، وكيف يتم حسابه ؟

WER يعني مقياس التقييم للتعرف على الكلام. ويحسب سعر الصرف السائد كمجموع عدد الأخطاء (الإدراج والحذف والاستبدال) مقسوماً على مجموع عدد الكلمات في كتابة الحديث المرجعي. لمزيد من المعلومات، انظر نموذج الاختبار كمياً .

كيف أعمل على تحديد ما إذا كانت نتائج اختبار الدقة جيدة ؟

تظهر النتائج مقارنة بين النموذج الأساسي والنموذج الذي خصصته. لجعل التخصيص مفيدًا، يجب أن تهدف إلى التغلب على النموذج الأساسي.

كيف أعمل علي تحديد WER للنموذج الأساسي حتى أتمكن من رؤية ما إذا كان قد تحسن ؟

تظهر نتائج الاختبار غير المتصلة بالإنترنت دقة خط الأساس للنموذج المخصص والتحسن مقارنة بخط الأساس.

إنشاء نموذج اللغة

ما مقدار البيانات النصية التي أحتاج إلى تحميلها ؟

يتوقف ذلك على مدى اختلاف المفردات والعبارات المستخدمة في تطبيقك عن نماذج لغة البداية. بخصوص جميع الكلمات الجديدة، من المفيد تقديم أكبر عدد ممكن من الأمثلة على استخدام هذه الكلمات. بخصوص العبارات الشائعة المستخدمة في تطبيقك، بما في ذلك العبارات الموجودة في بيانات اللغة، فإن تقديم العديد من الأمثلة مفيد لأنه يخبر النظام بالاستماع إلى هذه المصطلحات أيضًا. من الشائع أن يكون لديك 100 على الأقل، وعادة، عدة مئات أو أكثر من الأقوال في مجموعة بيانات اللغة. أيضًا، إذا كان من المتوقع أن تكون بعض أنواع الاستفسارات أكثر شيوعًا من غيرها، فيمكنك إدخال نسخ متعددة من الاستفسارات الشائعة في مجموعة البيانات.

هل يمكنني ببساطة تحميل قائمة بالكلمات ؟

يضيف تحميل قائمة بالكلمات إلى المفردات، لكنه لا يعلم النظام كيفية استخدام الكلمات عادةً. من خلال تقديم كلمات كاملة أو جزئية (جمل أو عبارات من الأشياء التي من المحتمل أن يقولها المستخدمون)، يمكن لنموذج اللغة تعلم الكلمات الجديدة وكيفية استخدامها. نموذج اللغة المخصصة جيد ليس فقط لإضافة كلمات جديدة إلى النظام، ولكن أيضًا لضبط احتمالية الكلمات المعروفة لتطبيقك. يساعد تقديم الأقوال الكاملة النظام على التعلم بشكل أفضل.