كيفية إنشاء نسخ مكتوبة باسم الإنسان

النسخ المكتوبة بتسمية بشرية هي نسخ مكتوبة من كلمة إلى كلمة لملف صوتي. يمكنك استخدام النسخ المكتوبة باسم الإنسان لتحسين دقة التعرف، خاصة عند حذف الكلمات أو استبدالها بشكل غير صحيح. يمكن أن يساعدك هذا الدليل في إنشاء نُسخ مكتوبة عالية الجودة.

مطلوب عينة كبيرة من بيانات النسخ لتحسين التعرف. نقترح توفير ما بين ساعة و20 ساعة من البيانات الصوتية. تستخدم خدمة الكلام ما يصل إلى 20 ساعة من الصوت للتدريب. يحتوي هذا الدليل على أقسام للغة الإنجليزية الأمريكية والصينية الماندارينية والألمانية.

يتم تضمين النسخ لجميع ملفات WAV في ملف نص عادي واحد (.txt أو .tsv). يحتوي كل سطر من ملف كتابة الحديث على اسم أحد الملفات الصوتية، متبوعا بكتابة الحديث المطابقة. يتم فصل اسم الملف وكتابته بعلامة تبويب (\t).

على سبيل المثال:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

تتم تسوية النسخ النصية حتى يتمكن النظام من معالجتها. مع ذلك، يجب إجراء بعض عمليات التسوية الهامة قبل تحميل مجموعة البيانات.

يجب ترميز النُسخ التي كتبها الإنسان للغات أخرى غير الإنجليزية والصينية الماندارين بترميز UTF-8 بعلامة ترتيب البايت. للحصول على متطلبات النسخ المحلية الأخرى، راجع الأقسام التالية.

ar

يجب توفير النسخ المكتوبة بواسطة الإنسان للصوت الإنجليزية كنص عادي، باستخدام أحرف ASCII فقط. تجنب استخدام أحرف ترقيم Latin-1 أو Unicode. غالبا ما تتم إضافة هذه الأحرف عن غير قصد عند نسخ النص من تطبيق معالجة الكلمات أو استخراج البيانات من صفحات الويب. إذا كانت هذه الأحرف موجودة، فتأكد من تحديثها باستخدام استبدال ASCII المناسب.

فيما يلي بعض الأمثلة على ذلك:

الأحرف التي يجب تجنبها استبدال ملاحظات
“Hello world” "Hello world" يتم استبدال علامات اقتباس الفتح والإغلاق بأحرف ASCII المناسبة.
John’s day John's day يتم استبدال الفاصلة العليا بحرف ASCII المناسب.
It was good—no, it was great! it was good--no, it was great! يتم استبدال شرطة em بواصلتين.

تسوية النص للغة الإنجليزية الأمريكية

تطبيع النص هو تحويل الكلمات إلى تنسيق متناسق يستخدم عند تدريب نموذج. يتم تطبيق بعض قواعد التطبيع على النص تلقائيا، ومع ذلك، نوصي باستخدام هذه الإرشادات أثناء إعداد بيانات النسخ المسماة من قبل الإنسان:

  • كتابة اختصارات بالكلمات.
  • اكتب سلاسل رقمية غير قياسية في كلمات (مثل مصطلحات المحاسبة).
  • يجب كتابة الأحرف غير الأبجدية أو الأحرف الأبجدية الرقمية المختلطة كما هو واضح.
  • لا ينبغي تحرير الاختصارات التي تنطق ككلمات (مثل "radar" أو "laser" أو "RAM" أو "NATO").
  • اكتب الاختصارات التي تنطق كأحرف منفصلة مع كل حرف مفصول بمسافة.
  • إذا كنت تستخدم الصوت، فقم بنسخ الأرقام ككلمات تطابق الصوت (على سبيل المثال، يمكن نطق "101" على أنها "one oh one" أو "one hundred and one").
  • تجنب تكرار الأحرف أو الكلمات أو مجموعات الكلمات أكثر من ثلاث مرات، مثل "yeah yeah yeah yeah". قد تسقط خدمة الكلام خطوطا مع مثل هذا التكرار.

فيما يلي بعض الأمثلة على التطبيع الذي يجب عليك تنفيذه على النسخ:

النص الأصلي النص بعد التطبيع (بشري)
Dr. Bruce Banner Doctor Bruce Banner
James Bond, 007 James Bond, double oh seven
Ke$ha Kesha
How long is the 2x4 How long is the two by four
The meeting goes from 1-3pm The meeting goes from one to three pm
My blood type is O+ My blood type is O positive
Water is H20 Water is H 2 O
Play OU812 by Van Halen Play O U 8 1 2 by Van Halen
UTF-8 with BOM U T F 8 with BOM
It costs $3.14 It costs three fourteen

يتم تطبيق قواعد التطبيع التالية تلقائيا على النسخ:

  • استخدم أحرف صغيرة.
  • قم بإزالة كافة علامات الترقيم باستثناء علامات الاقتباس العليا داخل الكلمات.
  • قم بتوسيع الأرقام إلى كلمات/نموذج منطوق، مثل المبالغ بالدولار.

فيما يلي بعض الأمثلة على التطبيع الذي يتم تنفيذه تلقائيا على النسخ:

النص الأصلي النص بعد التطبيع (تلقائي)
"Holy cow!" said Batman. holy cow said batman
"What?" said Batman's sidekick, Robin. what said batman's sidekick robin
Go get -em! go get em
I'm double-jointed I'm double jointed
104 Elm Street one oh four Elm street
Tune to 102.7 tune to one oh two point seven
Pi is about 3.14 pi is about three point one four

de-DE

يجب ترميز النُسخ التي كتبها الإنسان للصوت الألماني بترميز UTF-8 بعلامة ترتيب البايت.

تسوية النص للألمانية

تطبيع النص هو تحويل الكلمات إلى تنسيق متناسق يستخدم عند تدريب نموذج. يتم تطبيق بعض قواعد التطبيع على النص تلقائيا، ومع ذلك، نوصي باستخدام هذه الإرشادات أثناء إعداد بيانات النسخ المسماة من قبل الإنسان:

  • اكتب النقاط العشرية ك "," وليس ".".
  • كتابة فواصل الوقت كـ":" وليس "." (على سبيل المثال: 12:00 Uhr).
  • لا يتم استبدال الاختصارات مثل "ca". نوصي باستخدام النموذج الكامل المنطوق.
  • تتم إزالة عوامل التشغيل الرياضية الرئيسية الأربعة (+و-و*و/). نوصي باستبدالها بالشكل المكتوب: "plus" و"علامة الطرح" و"mal" و"geteilt".
  • تتم إزالة عوامل المقارنة (= و< و>). نوصي باستبدالها بـ"gleich" و"kleiner als" و"grösser als".
  • كتابة كسور، مثل 3/4، في شكل مكتوب (على سبيل المثال: "drei viertel" بدلًا من 3/4).
  • استبدل الرمز "€" بالشكل المكتوب "Euro".

فيما يلي بعض الأمثلة على التطبيع الذي يجب عليك تنفيذه على النسخ:

النص الأصلي النص بعد تسوية المستخدم النص بعد تسوية النظام
Es ist 12.23 Uhr Es ist 12:23 Uhr es ist zwölf uhr drei und zwanzig uhr
{12.45} {12,45} zwölf komma vier fünf
2 + 3 - 4 2 plus 3 minus 4 zwei plus drei minus vier

يتم تطبيق قواعد التطبيع التالية تلقائيا على النسخ:

  • استخدم أحرف صغيرة لكل النص.
  • قم بإزالة جميع علامات الترقيم، بما في ذلك أنواع مختلفة من علامات الاقتباس ("test" و'test' و"test„ و«test» لا بأس بها).
  • تجاهل الصفوف بأي أحرف خاصة من هذه المجموعة: ¢ ¤ ¦ ª ¬ © ¬ ® ° ± ² μ × ÿ ج¬.
  • قم بتوسيع الأرقام إلى النموذج المنطوق، بما في ذلك مبالغ الدولار أو اليورو.
  • اقبل umlauts فقط لـa، o، ولك. يتم استبدال الآخرين ب "th" أو تجاهلها.

فيما يلي بعض الأمثلة على التطبيع الذي يتم تنفيذه تلقائيا على النسخ:

النص الأصلي النص بعد التسوية
Frankfurter Ring frankfurter ring
¡Eine Frage! eine frage
Wir, haben wir haben

ja-JP

في اللغة اليابانية (ja-JP)، يبلغ الحد الأقصى للطول 90 حرفًا لكل جملة. يتم تجاهل الأسطر ذات الجمل الأطول. لإضافة نص أطول، قم بإدراج نقطة بينهما.

zh-CN

يجب ترميز النسخ المكتوبة بواسطة الإنسان للصوت الصيني الماندارين UTF-8 بعلامة ترتيب البايت. تجنب استخدام أحرف الترقيم ذات العرض النصفي. يمكن تضمين هذه الأحرف عن غير قصد عند إعداد البيانات في برنامج معالجة الكلمات أو استخراج البيانات من صفحات الويب. إذا كانت هذه الأحرف موجودة، فتأكد من تحديثها بالاستعاضة المناسبة بالعرض الكامل.

فيما يلي بعض الأمثلة على ذلك:

الأحرف التي يجب تجنبها استبدال ملاحظات
"你好" "你好" يتم استبدال علامات اقتباس الفتح والإغلاق بالأحرف المناسبة.
需要什么帮助? 需要什么帮助? يتم استبدال علامة الاستفهام بالحرف المناسب.

تطبيع النص للغة الصينية الماندارين

تطبيع النص هو تحويل الكلمات إلى تنسيق متناسق يستخدم عند تدريب نموذج. يتم تطبيق بعض قواعد التطبيع على النص تلقائيا، ومع ذلك، نوصي باستخدام هذه الإرشادات أثناء إعداد بيانات النسخ المسماة من قبل الإنسان:

  • كتابة اختصارات بالكلمات.
  • اكتب السلاسل الرقمية في شكل منطوق.

فيما يلي بعض الأمثلة على التطبيع الذي يجب عليك تنفيذه على النسخ:

النص الأصلي النص بعد التسوية
我今年 21 我今年二十一
3 号楼 504 三号 楼 五 零 四

يتم تطبيق قواعد التطبيع التالية تلقائيا على النسخ:

  • إزالة كافة علامات الترقيم.
  • توسيع الأرقام إلى النموذج المنطوق.
  • تحويل أحرف كاملة العرض إلى أحرف نصفية العرض.
  • استخدام الأحرف الكبيرة لجميع الكلمات الإنجليزية.

فيما يلي بعض الأمثلة على التطبيع التلقائي للنسخ:

النص الأصلي النص بعد التسوية
3.1415 三 点 一 四 一 五
¥ 3.5 三 元 五 角
w f y z W F Y Z
1992 年 8 月 8 日 一 九 九 二 年 八 月 八 日
你吃饭了吗? 你 吃饭 了 吗
下午 5:00 的航班 下午 五点 的 航班
我今年 21 岁 我 今年 二十 一 岁

الخطوات التالية