كيفية إعداد عرض بيانات التدريب على تنسيق النص للكلام المخصص

مقالة
01/19/2024

يمكن عرض خدمة Azure الذكاء الاصطناعي Speech كمكونين: التعرف على الكلام وتنسيق النص المعروض. تنسخ ميزة التعرف على الكلام الصوت إلى نص معجمي، ثم يتم تحويل النص المعجمي لعرض النص.

هذه هي الإعدادات المحلية التي تدعم ميزة تنسيق نص العرض: da-DK، de-DE، en-AU، en-CA، en-GB، en-HK، en-IE، en-IN، en-NG، en-NZ، en-PH، en-SG، en-US، es-ES، es-MX، fi-FI، fr-CA، fr-FR، hi-IN، it-IT، ja-JP، ko-KR، nb-NO، nl-NL، pl-PL، pt-BR، pt-PT، sv-SE، tr-TR، zh-CN، zh-HK.

تنسيق نص العرض الافتراضي

يتكون مسار نص العرض من خلال سلسلة من منشئات تنسيق العرض. يتوافق كل منشئ مع مهمة تنسيق العرض مثل ITN والأحرف الكبيرة وتصفية الألفاظ النابية.

تسوية النص العكسي (ITN) - لتحويل نص أرقام النماذج المنطوقة إلى نموذج عرض. على سبيل المثال: "I spend twenty dollars" -> "I spend $20"
الكتابة بالأحرف الكبيرة - إلى أسماء كيانات الأحرف الكبيرة أو الاختصارات أو الحرف الأول من الجملة. على سبيل المثال: "she is from microsoft" -> "She is from Microsoft"
تصفية الألفاظ النابية - إخفاء أو إزالة الكلمات النابية من جملة. على سبيل المثال، بافتراض أن "abcd" هي كلمة نابية، ثم يتم إخفاء الكلمة عن طريق إخفاء الألفاظ النابية: "I never say abcd" -> "I never say ****"

تحتفظ Microsoft بالمنشئين الأساسيين لمسار نص العرض لمهام معالجة العرض للأغراض العامة. تحصل على المنشئين الأساسيين بشكل افتراضي عند استخدام خدمة الكلام. لمزيد من المعلومات حول التنسيق الجاهز، راجع عرض تنسيق النص.

تنسيق نص العرض المخصص

بالإضافة إلى البنيات الأساسية التي تحتفظ بها Microsoft، يمكنك تعريف قواعد تنسيق نص العرض المخصصة لتخصيص مسار تنسيق نص العرض للسيناريوهات المحددة. يتم تعريف قواعد تنسيق نص العرض المخصص في ملف تنسيق نص عرض مخصص.

ITN المخصص - توسيع وظائف ITN الأساسي، من خلال تطبيق نموذج ITN مخصص يستند إلى قاعدة من العميل.
إعادة كتابة مخصصة - أعد كتابة عبارة إلى أخرى استنادا إلى نموذج يستند إلى قاعدة من العميل.
تصفية الألفاظ النابية المخصصة - تنفيذ معالجة الألفاظ النابية استنادا إلى قائمة الكلمات النابية من العميل.

يتم توضيح ترتيب مسار تنسيق نص العرض في هذا الرسم التخطيطي.

ITN مخصص

فلسفة ITN المخصصة المستندة إلى النمط هي أنه يمكنك تحديد الإخراج النهائي الذي تريد رؤيته. تحدد خدمة الكلام كيفية نطق الكلمات وتعيين التعبيرات المنطوقة المتوقعة إلى تنسيق الإخراج المحدد.

تم إنشاء نموذج ITN مخصص من مجموعة من قواعد ITN. قاعدة ITN هي تعبير عادي مثل سلسلة النمط، والتي تصف:

نمط مطابق لسلسلة الإدخال
التنسيق المطلوب لسلسلة الإخراج

يتم تطبيق قواعد ITN الافتراضية التي توفرها Microsoft أولا. يتم استخدام إخراج نموذج ITN الافتراضي كمدخل لنموذج ITN المخصص. الخوارزمية المطابقة داخل نموذج ITN المخصص غير حساسة لحالة الأحرف.

هناك أربع فئات من مطابقة النمط مع قواعد ITN المخصصة.

أنماط ذات قيم حرفية
أنماط مع أحرف البدل
أنماط مع تدوين على نمط Regex
أنماط مع استبدال صريح

أنماط ذات قيم حرفية

على سبيل المثال، قد يكون لدى المطور عنصر (مثل منتج) يسمى بالنموذج JO:500الأبجدي الرقمي . توضح خدمة الكلام أن المستخدمين قد يقولون جزء الحرف ك J O، أو قد يقولون joe، وجزء الرقم ك five hundred أو five zero zero أو five oh oh ، five double zeroثم ينشئون نموذجا يعين كل هذه الاحتمالات مرة أخرى إلى JO:500 (بما في ذلك إدراج علامة النقطتين).

يمكن تطبيق الأنماط بالتوازي عن طريق تحديد قاعدة واحدة لكل سطر في ملف تنسيق نص العرض. فيما يلي مثال لملف تنسيق نص العرض الذي يحدد قاعدتين:

JO:500
MM:760

أنماط مع أحرف البدل

يمكنك الرجوع إلى سلسلة كاملة من العناصر الأبجدية الرقمية (مثل JO:500، JO:600، JO:700) دون الحاجة إلى توضيح جميع الاحتمالات بعدة طرق.

يمكن تحديد نطاقات الأحرف مع الرمز [...]، لذلك JO:[5-7]00 يعادل كتابة ثلاثة أنماط.

هناك أيضا مجموعة من عناصر أحرف البدل التي يمكن استخدامها. واحد من هذه هو \d، وهو ما يعني أي رقم. لذلك JO:\d00 يغطي JO:000، JO:100و، وغيرها حتى JO:900.

مثل التعبير العادي، هناك عدة فئات أحرف معرفة مسبقا لقاعدة ITN:

\d - مطابقة رقم من "0" إلى "9"، وإخراجه مباشرة
\l - يطابق حرفا (غير حساس لحالة الأحرف) ويحوله إلى أحرف صغيرة
\u - يطابق حرفا (غير حساس لحالة الأحرف) ويحوله إلى أحرف كبيرة
\a - مطابقة حرف (غير حساس لحالة الأحرف) وإخراجه مباشرة

هناك أيضا تعبيرات إلغاء للإشارة إلى الأحرف التي لها معنى بناء جملة خاص:

\\ - مطابقة وإخراج الحرف \
$ و$
\{ و\}
\|
\+و و \?\*

أنماط ذات تدوين على نمط regex

لتعزيز مرونة كتابة الأنماط، يتم دعم بناء عبارات عادية تشبه التعبير مع البدائل وإغلاق كلين.

تتم الإشارة إلى العبارة بأقواس، مثل (...) - لا يتم حساب الأقواس حرفيا كأحرف لمطابقتها.
يمكنك الإشارة إلى بدائل ضمن عبارة ذات | حرف مثل (AB|CDE).
يمكنك لاحقة عبارة بها ? للإشارة إلى أنها اختيارية، + للإشارة إلى أنه يمكن تكرارها، أو * للإشارة إلى كليهما. يمكنك فقط العبارات اللاحقة مع هذه الأحرف وليس الأحرف الفردية (وهو أكثر تقييدا من معظم تطبيقات التعبير العادية).

نمط مثل (AB|CD)-(\d)+ يمثل بنيات مثل "AB-9" أو "CD-22" ويتم توسيعه إلى كلمات منطوقة مثل A B nine و C D twenty two (أو C D two two).

أنماط مع استبدال صريح

الفلسفة العامة هي "أنت تظهر لنا كيف يجب أن تبدو المخرجات، وتكتشف خدمة الكلام كيف يقولها الناس." ولكن هذا لا يعمل دائما لأن بعض السيناريوهات قد يكون لها طرق غير متوقعة غير متوقعة لقول الأشياء، أو قد تحتوي قواعد خلفية خدمة الكلام على ثغرات. على سبيل المثال، يمكن أن يكون هناك نطق عامي للأحرف الأولى والاختصارات - ZPI قد يتم التحدث باسم zippy. في هذه الحالة، من غير المحتمل أن يعمل نمط مثل ZPI-\d\d إذا قال zippy twenty twoالمستخدم . لهذا النوع من المواقف، هناك رمز {spoken>written}تنسيق نص العرض . يمكن كتابة {zippy>ZPI}-\d\dهذه الحالة الخاصة .

يمكن أن يكون هذا مفيدا لمعالجة الأشياء التي قواعد تعيين الكلام ولكنها لا تدعمها بعد. على سبيل المثال، قد تكتب نمطا \d0-\d0 يتوقع أن يفهم النظام أن "-" يمكن أن يعني نطاقا، ويجب أن يكون واضحا to، كما هو الحال في twenty to thirty. لكن ربما لا يحدث ذلك حتى تتمكن من كتابة نمط أكثر وضوحا مثل \d0{to>-}\d0 وإخباره كيف تتوقع قراءة الشرطة.

يمكنك أيضا ترك > النموذج المكتوب التالي والإشارة إلى الكلمات التي يجب التعرف عليها ولكن تجاهلها. لذلك نمط مثل {write} (\u.)+ يتعرف write A B C والإخراج A.B.C--إسقاط write الجزء.

أمثلة ITN مخصصة

أرقام المجموعة

لتجميع 6 أرقام في مجموعتين وإضافة حرف '-' بينهما:

قاعدة ITN: \d\d\d-\d\d\d عينة: "cadence one oh five one fifteen" -> "cadence 105-115"

تنسيق اسم فيلم

الفضاء: 1999 هو فيلم مشهور, لدعمه:

قاعدة ITN: Space: 1999 عينة: "watching space nineteen ninety nine" -> "watching Space: 1999"

نمط مع استبدال

قاعدة ITN: \d[05]{ to >-}\d[05] عينة: fifteen to twenty -> 15-20

إعادة كتابة مخصصة

بشكل عام، بالنسبة لسلسلة إدخال، يحاول نموذج إعادة الكتابة استبدال original phrase في سلسلة الإدخال بالمطابقة new phrase لكل قاعدة إعادة كتابة. نموذج إعادة الكتابة هو مجموعة من قواعد إعادة الكتابة.

قاعدة إعادة الكتابة هي زوج من عبارتين: العبارة الأصلية والعبارة الجديدة.
يتم فصل العبارتين بحرف TAB. على سبيل المثال، original phrase{TAB}new phrase.
تتم مطابقة العبارة الأصلية (غير حساسة لحالة الأحرف) واستبدالها بالعبارة الجديدة (حساسة لحالة الأحرف). يتم تجاهل أحرف الترقيم النحوية في العبارة الأصلية أثناء المطابقة.
إذا تعارضت أي قواعد إعادة كتابة، يتم استخدام القواعد ذات الأطول original phrase كمطابقة.

يدعم نموذج إعادة الكتابة الكتابة النحوية بالأحرف الكبيرة بشكل افتراضي، مما يؤدي إلى كتابة الحرف الأول من الجملة مثل en-US الإعدادات المحلية. يتم إيقاف تشغيله إذا تم إيقاف تشغيل ميزة الكتابة بالأحرف الكبيرة لتنسيق نص العرض في طلب التعرف على الكلام.

علامات الترقيم النحوية

تستخدم أحرف الترقيم النحوية لفصل جملة أو عبارة، وتوضيح كيفية قراءة جملة أو عبارة.

. , ? 、 ! : ; ？。， ¿ ¡ । ؟ ،

فيما يلي قواعد علامات الترقيم النحوية:

تكون أحرف الترقيم المعتمدة لعلامات الترقيم النحوية إذا كانت متبوعة بمسافة أو في بداية جملة أو عبارة أو نهايتها. على سبيل المثال، . في x. y (مع مسافة بين . و y) هي علامات ترقيم نحوية.
أحرف الترقيم التي تقع في وسط كلمة (باستثناء zh-cn و ja-jp) ليست علامات ترقيم نحوية. في هذه الحالة، هم أحرف عادية. على سبيل المثال، . في x.y ليس ترقيم نحوي.
بالنسبة للغات zh-cn المحلية و ja-jp (غير المستخدمة)، يتم دائما استخدام أحرف الترقيم كعلامات ترقيم نحوية حتى لو كانت بين أحرف. على سبيل المثال، في . 中.文 هو ترقيم نحوي.

أمثلة مخصصة لإعادة الكتابة

تصحيح إملائي

قد يتم التعرف على الاسم COVID-19 على أنه covered 19. للتأكد من عرض COVID-19 is a virus بدلا من covered 19 is a virus، استخدم قاعدة إعادة الكتابة التالية:

#rewrite
covered 19{TAB}COVID-19

كتابة الاسم بالأحرف الكبيرة

(غوتفرييد فيلهلم لايبنيز) كان عالم رياضيات ألماني للتأكد من الكتابة Gottfried Wilhelm Leibniz بأحرف كبيرة، استخدم قاعدة إعادة الكتابة التالية:

#rewrite
gottfried leibniz{TAB}Gottfried Leibniz

ألفاظ نابية مخصصة

يعمل نموذج الألفاظ النابية المخصصة نفس نموذج الألفاظ النابية الأساسية، باستثناء أنه يستخدم قائمة عبارات نابية مخصصة. بالإضافة إلى ذلك، يحاول نموذج الألفاظ النابية المخصص مطابقة (غير حساس لحالة الأحرف) جميع عبارات الألفاظ النابية المحددة في ملف تنسيق نص العرض.

يتم مطابقة عبارات الألفاظ النابية (غير حساسة لحالة الأحرف).
إذا تعارضت أي عبارات نابية، يتم استخدام أطول عبارة كمطابقة.
أحرف الترقيم هذه غير معتمدة في عبارة الألفاظ النابية: . , ? 、 ! : ; ？。， ¿ ¡ । ؟ ، .
بالنسبة إلى zh-CN واللغات ja-JP المحلية، لا يتم دعم عبارات الألفاظ النابية باللغة الإنجليزية. يتم دعم كلمات الألفاظ النابية باللغة الإنجليزية. يتم دعم عبارات الألفاظ النابية للواجهات zh-CN المحلية.ja-JP

تتم إزالة الألفاظ النابية أو إخفاها استنادا إلى إعدادات طلب التعرف على الكلام.

بمجرد إضافة الألفاظ النابية في ملف قاعدة تنسيق نص العرض وتدريب النموذج المخصص، يتم استخدامه للإخراج الافتراضي في الكلام الدفعي إلى النص والكلام في الوقت الحقيقي إلى النص.

أمثلة الألفاظ النابية المخصصة

فيما يلي بعض الأمثلة حول كيفية إخفاء كلمات وعبارات الألفاظ النابية في ملف تنسيق نص العرض.

إخفاء مثال كلمة نابية مفردة

افترض xyz أنها كلمة نابية. لإضافته:

#profanity
xyz

فيما يلي عينة اختبار: Turned on profanity masking to mask xyz -> Turned on profanity masking to mask ***

إخفاء عبارة الألفاظ النابية

افترض abc lmn أن عبارة نابية. لإضافته:

#profanity
abc lmn

فيما يلي عينة اختبار: Turned on profanity masking to mask abc lmn -> Turned on profanity masking to mask *** ***

مشاركة عبر