Q: عندما تتوفر نسخة جديدة من النموذج الأساسي، هل يتم تحديث توزيعي تلقائيًا ؟

يتم تحديث عمليات التوزيع وليس تلقائيًا. إذا قمت بتكييف نموذج ونشره، يبقى النشر الحالي كما هو. يمكنك إيقاف تشغيل النموذج المنشور، وإعادة تشغيله باستخدام الإصدار الأحدث من النموذج الأساسي، وإعادة توزيعه للحصول على دقة أفضل. يتم إيقاف كل من النماذج الأساسية والنماذج المخصصة بعد مرور بعض الوقت (راجع دورة حياة النموذج ونقطة النهاية).

Question 1

ما الفرق بين نموذج أساسي وخطاب مخصص لنموذج نصي؟

Accepted Answer

يتم تدريب نموذج الكلام الأساسي إلى النص باستخدام البيانات المملوكة ل Microsoft ويتم نشره بالفعل في السحابة. يمكنك إنشاء واستخدام نموذج مخصص لتناسب بشكل أفضل بيئة بها ضوضاء أو لغة محيطة محددة. تتطلب أرضيات المصانع أو السيارات أو الشوارع الصاخبة نموذجًا صوتيًا متكيفًا. تتطلب مواضيع مثل علم الأحياء والفيزياء والأشعة وأسماء المنتجات والمختصرات المخصصة نموذجًا لغويًا معدلًا. إذا كنت ترغب في تدريب نموذج مخصص، فيجب أن تبدأ بالنص ذي الصلة لتحسين التعرف على المصطلحات والعبارات الخاصة.

Question 2

من أين أبدأ إذا أردت استخدام نموذج أساسي ؟

Accepted Answer

أولاً، احصل على مفتاح مصدر الكلام والمنطقة في مدخل Microsoft Azure . إذا كنت ترغب في إجراء مكالمات REST إلى نموذج أساسي مسبق التوزيع راجع مستندات REST APIs . إذا كنت ترغب في استخدام WebSockets، فقم بتنزيل Speech SDK .

Question 3

هل أحتاج دائمًا إلى بناء نموذج خطاب مخصص ؟

Accepted Answer

‏‏لا. إذا كان التطبيق الخاص بك يستخدم لغة عامة يومية، فلن تحتاج إلى تخصيص نموذج. إذا تم استخدام تطبيقك في بيئة يوجد فيها القليل من الضوضاء في الخلفية أو لا يوجد فيها ضوضاء، فلن تحتاج إلى تخصيص نموذج.

يمكنك توزيع النماذج الأساسية والمخصصة في المدخل ثم إجراء اختبارات الدقة عليها. يمكنك استخدام هذه الميزة لقياس دقة النموذج الأساسي مقابل النموذج المخصص.

Question 4

كيف أعمل معرفة متى تكتمل معالجة مجموعة البيانات أو النموذج الخاص بي؟

Accepted Answer

حاليًا، الطريقة الوحيدة للمعرفة هي عرض حالة النموذج أو مجموعة البيانات في الجدول. عندما تكتمل المعالجة، تكون الحالة نجحت .

Question 5

هل يمكنني إنشاء أكثر من نموذج ؟

Accepted Answer

لا يوجد حد لعدد الموديلات التي يمكنك الحصول عليها في مجموعتك.

Question 6

أدركت أنني ارتكبت خطأ. كيف أعمل على إلغاء استيراد البيانات أو إنشاء النموذج الجاري ؟

Accepted Answer

حاليًا، لا يمكنك التراجع عن عملية التكيف الصوتي أو اللغوي. يمكنك حذف البيانات والنماذج المستوردة عندما تكون في حالة نهائية.

Question 7

أحصل على عدة نتائج لكل عبارة مع تنسيق المخرجات التفصيلي. أي حزم تطوير برمجيات SDK ينبغي لي استخدامها؟

Accepted Answer

خذ النتيجة الأولى دائمًا، حتى لو كانت نتيجة أخرى ("N-Best') لها قيمة ثقة أعلى. تعتبر خدمة الكلام أن النتيجة الأولى هي الأفضل. يمكن أن تكون النتيجة أيضًا سلسلة فارغة إذا لم يتم التعرف على أي كلام.

من المحتمل أن تكون النتائج الأخرى أسوأ وقد لا يتم تطبيق رسملة كاملة وعلامات الترقيم. هذه النتائج مفيدة للغاية في السيناريوهات الخاصة، مثل منح المستخدمين خيار اختيار التصحيحات من القائمة أو التعامل مع الأوامر المعترف بها بشكل غير صحيح.

Question 8

لماذا هناك نماذج أساسية متعددة ؟

Accepted Answer

يمكنك الاختيار بين أكثر من نموذج أساسي واحد في خدمة الكلام. يحتوي كل اسم نموذج على تاريخ إضافته. عندما تبدأ في تدريب نموذج مخصص، استخدم أحدث طراز للحصول على أفضل دقة. لا تزال النماذج الأساسية القديمة متاحة لبعض الوقت بعد إتاحة نموذج جديد. يمكنك الاستمرار في استخدام النموذج الذي عملت معه حتى يتم إيقافه (راجع دورة حياة النموذج ونقطة النهاية). ما زلنا نوصي بالتحول إلى أحدث طراز أساسي لتحقيق دقة أفضل.

Question 9

هل يمكنني تحديث نموذجي الحالي (تكديس النموذج)؟

Accepted Answer

لا يمكنك تحديث النموذج الموجود. كحل، ادمج مجموعة البيانات القديمة مع مجموعة البيانات الجديدة وأعد التعديل.

يجب دمج مجموعة البيانات القديمة ومجموعة البيانات الجديدة في ملف واحد .zip (للبيانات الصوتية) أو في ملف .txt (لبيانات اللغة). عند الانتهاء من التكيف، أعد توزيع نموذج ثلاثي الأبعاد الجديد المحدث للحصول على نقطة نهاية جديدة.

Question 10

عندما تتوفر نسخة جديدة من النموذج الأساسي، هل يتم تحديث توزيعي تلقائيًا ؟

Accepted Answer

يتم تحديث عمليات التوزيع وليس تلقائيًا.

إذا قمت بتكييف نموذج ونشره، يبقى النشر الحالي كما هو. يمكنك إيقاف تشغيل النموذج المنشور، وإعادة تشغيله باستخدام الإصدار الأحدث من النموذج الأساسي، وإعادة توزيعه للحصول على دقة أفضل.

يتم إيقاف كل من النماذج الأساسية والنماذج المخصصة بعد مرور بعض الوقت (راجع دورة حياة النموذج ونقطة النهاية).

Question 11

هل يمكنني تنزيل نموذجي وتشغيله محليًا ؟

Accepted Answer

يمكنك تشغيل نموذج مخصص محليًا في حاوية Docker .

Question 12

هل يمكنني نسخ أو نقل مجموعات البيانات والنماذج وعمليات التوزيع الخاصة بي إلى منطقة أو اشتراك آخر ؟

Accepted Answer

يمكنك استخدام Models_Copy REST API لنسخ نموذج مخصص إلى منطقة أو اشتراك آخر. لا يمكن نسخ مجموعات البيانات وعمليات التوزيع. يمكنك استيراد مجموعة بيانات مرة أخرى في اشتراك آخر وإنشاء نقاط نهاية هناك باستخدام نسخ الطراز.

Question 13

هل طلباتي مسجلة ؟

Accepted Answer

افتراضيًا، لا يتم تسجيل الطلبات (لا صوت ولا كتابة الحديث). إذا لزم الأمر، يمكنك تحديد محتوى سجل من خيار نقطة النهاية هذه عندما تنشئ نقطة نهاية مخصصة . يمكنك أيضًا تمكين تسجيل الصوت في Speech SDK على أساس كل طلب، دون الحاجة إلى إنشاء نقطة نهاية مخصصة. في كلتا الحالتين، سيتم تخزين نتائج الطلبات السمعية والتعرف عليها في مخزن آمن. تتوفر الاشتراكات التي تستخدم التخزين المملوك ل Microsoft لمدة 30 يوما.

يمكنك تصدير الملفات المسجلة على صفحة التوزيع في Speech Studio إذا كنت تستخدم نقطة نهاية مخصصة مع سجل المحتوى من نقطة النهاية هذه . إذا تم تمكين تسجيل الصوت عبر SDK، فاتصل بواجهة برمجة التطبيقات للوصول إلى الملفات. يمكنك أيضا استخدام واجهة برمجة التطبيقات لحذف السجلات في أي وقت.

Question 14

هل طلباتي مقيدة ؟

Accepted Answer

للمزيد من المعلومات، راجع حصص الخدمة المجمعة وحدودها.

Question 15

كيف يتم فرض رسوم على صوت القناة المزدوجة ؟

Accepted Answer

إذا قمت بإرسال كل قناة بشكل منفصل في ملفها الخاص، فستتم محاسبتك على المدة الصوتية لكل ملف. إذا قمت بإرسال ملف واحد مع القنوات متعددة الإرسال معا، فستتم محاسبتك على مدة الملف الفردي. لمزيد من المعلومات حول التسعير، راجع صفحة تسعير خدمات Azure الذكاء الاصطناعي.

هام

إذا كان لديك المزيد من مخاوف الخصوصية التي تمنعك من استخدام خدمة الكلام المخصصة، فاتصل بإحدى قنوات الدعم.

زيادة عملية التزامن

للمزيد من المعلومات، راجع حصص الخدمة المجمعة وحدودها.

Question 16

ما هو الحد الأقصى لحجم مجموعة البيانات، ولماذا هو الحد الأقصى ؟

Accepted Answer

يرجع الحد إلى تقييد حجم الملفات لتحميل HTTP. للاطلاع على الحد الفعلي، انظر حصص وحدود خدمة الكلام . يمكنك تقسيم بياناتك إلى مجموعات بيانات متعددة واختيار كل منها لتدريب النموذج.

Question 17

هل يمكنني سحب (ضغط) ملفاتي النصية حتى أتمكن من تحميل ملف نصي أكبر ؟

Accepted Answer

‏‏لا. في الوقت الحالي، لا يُسمح إلا بملفات نصية غير مضغوطة.

Question 18

يقول تقرير البيانات أن هناك تصريحات فاشلة. ما هي المشكلة؟

Accepted Answer

الفشل في تحميل 100 بالمائة من الأقوال في الملف ليس مشكلة. إذا تم استيراد معظم الألفاظ في مجموعة بيانات صوتية أو لغة (على سبيل المثال، أكثر من 95 بالمائة) بنجاح، يمكن أن تكون مجموعة البيانات قابلة للاستخدام. ومع ذلك، ما زلنا نوصي بمحاولة فهم سبب فشل الأقوال ثم إصلاح المشكلة. من السهل إصلاح المشاكل الأكثر شيوعًا، مثل أخطاء التنسيق.

Question 19

ما مقدار البيانات الصوتية التي أحتاجها؟

Accepted Answer

نوصي بالبدء من 30 دقائق إلى 1 ساعة من البيانات الصوتية.

Question 20

ما هي البيانات التي يجب أن أجمعها ؟

Accepted Answer

اجمع البيانات القريبة من سيناريو التطبيق واستخدم الحالة قدر الإمكان. يجب أن يتطابق جمع البيانات مع التطبيق المستهدف والمستخدمين من حيث الأجهزة أو الأجهزة والبيئات وأنواع مكبرات الصوت. بشكل عام، يجب عليك جمع البيانات من أكبر مجموعة ممكنة من المتحدثين.

Question 21

كيف يجب أن أجمع البيانات الصوتية ؟

Accepted Answer

يمكنك إنشاء تطبيق مستقل لجمع البيانات أو استخدام برنامج تسجيل صوتي جاهز. يمكنك أيضًا إنشاء إصدار من تطبيقك يسجل بيانات الصوت ثم يستخدم البيانات.

Question 22

هل أحتاج إلى نسخ بيانات التكيف بنفسي ؟

Accepted Answer

نعم. يمكنك نسخه بنفسك أو استخدام خدمة كتابة الحديث باحترافية. يفضل بعض المستخدمين الناسخين المحترفين، ويستخدم آخرون التعهيد الجماعي أو نسخ البيانات بأنفسهم.

Question 23

كم من الوقت يستغرق تدريب نموذج مخصص على البيانات الصوتية ؟

Accepted Answer

يمكن أن يكون تدريب نموذج ببيانات صوتية عملية طويلة. اعتمادًا على كمية البيانات، قد يستغرق إنشاء نموذج مخصص عدة أيام. إذا لم يتم الانتهاء منه في غضون أسبوع واحد، فقد تقوم الخدمة بإجهاض عملية التدريب والإبلاغ عن فشل النموذج.

بشكل عام، تقوم خدمة الكلام بمعالجة ما يقرب من 10 ساعات من البيانات الصوتية يوميًا في المناطق التي لديها أجهزة مخصصة. يكون التدريب باستخدام النص أسرع فقط وعادة ما ينتهي في غضون دقائق.

استخدم إحدى المناطق التي تتوفر بها أجهزة مخصصة للتدريب. تستخدم خدمة الكلام ما يصل إلى 100 ساعة من الصوت للتدريب في هذه المناطق.

Question 24

ما هو معدل خطأ الكلمات (WER)، وكيف يتم حسابه ؟

Accepted Answer

WER يعني مقياس التقييم للتعرف على الكلام. ويحسب سعر الصرف السائد كمجموع عدد الأخطاء (الإدراج والحذف والاستبدال) مقسوماً على مجموع عدد الكلمات في كتابة الحديث المرجعي. لمزيد من المعلومات، انظر نموذج الاختبار كمياً .

Question 25

كيف أعمل على تحديد ما إذا كانت نتائج اختبار الدقة جيدة ؟

Accepted Answer

تظهر النتائج مقارنة بين النموذج الأساسي والنموذج الذي خصصته. لجعل التخصيص مفيدًا، يجب أن تهدف إلى التغلب على النموذج الأساسي.

Question 26

كيف أعمل علي تحديد WER للنموذج الأساسي حتى أتمكن من رؤية ما إذا كان قد تحسن ؟

Accepted Answer

تظهر نتائج الاختبار غير المتصلة بالإنترنت دقة خط الأساس للنموذج المخصص والتحسن مقارنة بخط الأساس.

Question 27

ما مقدار البيانات النصية التي أحتاج إلى تحميلها ؟

Accepted Answer

يتوقف ذلك على مدى اختلاف المفردات والعبارات المستخدمة في تطبيقك عن نماذج لغة البداية. بخصوص جميع الكلمات الجديدة، من المفيد تقديم أكبر عدد ممكن من الأمثلة على استخدام هذه الكلمات. بخصوص العبارات الشائعة المستخدمة في تطبيقك، بما في ذلك العبارات الموجودة في بيانات اللغة، فإن تقديم العديد من الأمثلة مفيد لأنه يخبر النظام بالاستماع إلى هذه المصطلحات أيضًا. من الشائع أن يكون لديك 100 على الأقل، وعادة، عدة مئات أو أكثر من الأقوال في مجموعة بيانات اللغة. أيضًا، إذا كان من المتوقع أن تكون بعض أنواع الاستفسارات أكثر شيوعًا من غيرها، فيمكنك إدخال نسخ متعددة من الاستفسارات الشائعة في مجموعة البيانات.

Question 28

هل يمكنني ببساطة تحميل قائمة بالكلمات ؟

Accepted Answer

يضيف تحميل قائمة بالكلمات إلى المفردات، لكنه لا يعلم النظام كيفية استخدام الكلمات عادةً. من خلال تقديم كلمات كاملة أو جزئية (جمل أو عبارات من الأشياء التي من المحتمل أن يقولها المستخدمون)، يمكن لنموذج اللغة تعلم الكلمات الجديدة وكيفية استخدامها. نموذج اللغة المخصصة جيد ليس فقط لإضافة كلمات جديدة إلى النظام، ولكن أيضًا لضبط احتمالية الكلمات المعروفة لتطبيقك. يساعد تقديم الأقوال الكاملة النظام على التعلم بشكل أفضل.

مشاركة عبر

الأسئلة المتداولة حول تحويل الكلام إلى نص

عام