ما هي ترجمة الكلام؟

في هذه المقالة، ستتعرف على مزايا الترجمة وقدراتها باستخدام Azure الذكاء الاصطناعي Speech. تدعم خدمة Speech الكلام في الوقت الحقيقي متعدد اللغات إلى الكلام والكلام إلى ترجمة نصية للتدفقات الصوتية.

باستخدام Speech SDK أو Speech CLI، يمكنك منح التطبيقات والأدوات والأجهزة حق الوصول إلى النسخ المصدر ومخرجات الترجمة للصوت المقدم. يتم إرجاع النسخ المكتوبة المؤقتة ونتائج الترجمة أثناء الكشف عن الكلام، ويمكن تحويل النتائج النهائية إلى كلام مركب.

للحصول على قائمة باللغات المعتمدة لترجمة الكلام، راجع دعم اللغة والصوت.

تلميح

انتقل إلى Speech Studio لاختبار الكلام وترجمته بسرعة إلى لغات أخرى من اختيارك مع زمن انتقال منخفض.

الميزات الأساسية

تتضمن الميزات الأساسية لترجمة الكلام ما يلي:

ترجمة الكلام إلى نص

الميزة القياسية التي تقدمها خدمة الكلام هي القدرة على أخذ دفق صوت إدخال بلغة المصدر المحددة، وترجمتها وإخراجها كنص في اللغة المستهدفة المحددة.

ترجمة الكلام إلى الكلام

كتكملة للميزة المذكورة أعلاه، توفر خدمة Speech أيضا خيار قراءة النص المترجم بصوت عال باستخدام قاعدة البيانات الكبيرة الخاصة بنا من الأصوات المدربة مسبقا، ما يسمح بإخراج طبيعي لخطاب الإدخال.

ترجمة الكلام متعددة اللغات (معاينة)

تنفذ ترجمة الكلام متعددة اللغات مستوى جديدا من تقنية ترجمة الكلام التي تفتح قدرات مختلفة، بما في ذلك عدم وجود لغة إدخال محددة، ومعالجة مفاتيح تبديل اللغة داخل نفس الجلسة، ودعم ترجمات البث المباشر إلى اللغة الإنجليزية. تتيح هذه الميزات مستوى جديدا من صلاحيات ترجمة الكلام التي يمكن تنفيذها في منتجاتك.

  • لغة إدخال غير محددة. يمكن أن تتلقى ترجمة الكلام متعددة اللغات الصوت بمجموعة واسعة من اللغات، وليس هناك حاجة لتحديد لغة الإدخال المتوقعة.
  • تبديل اللغة. تسمح ترجمة الكلام متعددة اللغات بالتحدث بلغات متعددة أثناء نفس الجلسة، وترجمتها جميعا إلى نفس اللغة المستهدفة. ليست هناك حاجة لإعادة تشغيل جلسة عمل عند تغيير لغة الإدخال أو أي إجراءات أخرى من قبلك.
  • النسخ. تنتج الخدمة نسخا بلغة الهدف المحددة. نسخ لغة المصدر غير متوفر حتى الآن.

تتضمن بعض حالات الاستخدام لترجمة الكلام متعددة اللغات ما يلي:

  • مترجم السفر. عند السفر إلى الخارج، توفر ترجمة الكلام متعددة اللغات القدرة على إنشاء حل يسمح للعملاء بترجمة أي صوت إدخال من وإلى اللغة المحلية. وهذا يسمح لهم بالتواصل مع السكان المحليين وفهم محيطهم بشكل أفضل.
  • اجتماع عمل. في اجتماع مع أشخاص يتحدثون لغات مختلفة، تسمح ترجمة الكلام متعددة اللغات لأعضاء الاجتماع بالتواصل مع بعضهم البعض بشكل طبيعي كما لو لم يكن هناك حاجز لغوي.

لترجمة الكلام متعددة اللغات، هذه هي اللغات التي يمكن لخدمة Speech اكتشافها تلقائيا والتبديل بينها من الإدخال: العربية (ar)، الباسكية (eu)، البوسنية (bs)، البلغارية (bg)، الصينية المبسطة (zh)، الصينية التقليدية (zhh)، التشيكية (cs)، الدنماركية (da)، الهولندية (nl)، الإنجليزية (en)، الإستونية (et)، الفنلندية (fi)، الفرنسية (fr)، الجاليسية (gl)، الألمانية (de)، اليونانية (el)، الهندية (مرحبا)، الهنغارية (hu)، الإندونيسية (المعرف)، الإيطالية (it)، اليابانية (ja)، الكورية (كو)، اللاتفية (lv)، الليتوانية (lt)، المقدونية (mk)، النرويجية (nb)، البولندية (pl)، البرتغالية (pt)، الرومانية (ro)، الروسية (ru)، الصربية (sr)، السلوفاكية (sk)، السلوفينية (sl)، الإسبانية (es)، السويدية (sv)، التايلاندية (th)، التركية (tr)، الأوكرانية (المملكة المتحدة)، الفيتنامية (vi)، والويلزية (cy).

للحصول على قائمة بلغات الإخراج (الهدف) المدعومة، راجع جدول ترجمة إلى لغة نصية في وثائق اللغة والدعم الصوتي.

لمزيد من المعلومات حول ترجمة الكلام متعددة اللغات، راجع ترجمة الكلام كيفية توجيه ونماذج ترجمة الكلام على GitHub.

ترجمة لغات مستهدفة متعددة

في السيناريوهات التي تريد الإخراج فيها بلغات متعددة، توفر خدمة الكلام مباشرة القدرة على ترجمة لغة الإدخال إلى لغتين مستهدفتين. وهذا يمكنهم من تلقي مخرجين ومشاركة هذه الترجمات إلى جمهور أوسع مع استدعاء واجهة برمجة تطبيقات واحد. إذا كانت هناك حاجة إلى المزيد من لغات الإخراج، يمكنك إنشاء مورد متعدد الخدمات أو استخدام خدمات ترجمة منفصلة.

إذا كنت بحاجة إلى الترجمة إلى أكثر من لغتين مستهدفتين، فأنت بحاجة إما إلى إنشاء مورد متعدد الخدمات أو استخدام خدمات ترجمة منفصلة لمزيد من اللغات بعد الثانية. إذا اخترت الاتصال بخدمة ترجمة الكلام باستخدام مورد متعدد الخدمات، فالرجاء ملاحظة أن رسوم الترجمة تنطبق على كل لغة بعد الثانية، استنادا إلى عدد أحرف الترجمة.

لحساب رسوم الترجمة المطبقة، يرجى الرجوع إلى تسعير Azure الذكاء الاصطناعي المترجم.

تسعير ترجمة لغات مستهدفة متعددة

من المهم ملاحظة أن خدمة ترجمة الكلام تعمل في الوقت الحقيقي، ويتم ترجمة نتائج الكلام الوسيطة لإنشاء نتائج ترجمة وسيطة. لذلك، يكون مبلغ الترجمة الفعلي أكبر من الرموز المميزة لصوت الإدخال. يتم تحصيل رسوم منك مقابل كتابة الكلام إلى نص والترجمة النصية لكل لغة مستهدفة.

على سبيل المثال، لنفترض أنك تريد ترجمات نصية من ملف صوتي لمدة ساعة واحدة إلى ثلاث لغات مستهدفة. إذا كان الكلام الأولي إلى كتابة النص يحتوي على 10000 حرف، فقد يتم تحصيل 2.80 دولار.

تحذير

الأسعار في هذا المثال هي لأغراض توضيحية فقط. يرجى الرجوع إلى تسعير Azure الذكاء الاصطناعي Speech وأسعار Azure الذكاء الاصطناعي المترجم للحصول على أحدث معلومات التسعير.

تم حساب سعر المثال السابق البالغ 2.80 دولارا عن طريق الجمع بين الكلام إلى كتابة النص وتكاليف الترجمة النصية. إليك كيفية إجراء العملية الحسابية:

  • سعر قائمة ترجمة الكلام هو 2.50 دولار في الساعة، تغطي ما يصل إلى لغتين مستهدفتين. يتم استخدام السعر كمثال على كيفية حساب التكاليف. راجع Pay as You Go>Speech translation>Standard في جدول تسعير Azure الذكاء الاصطناعي Speech للحصول على أحدث معلومات التسعير.
  • تبلغ تكلفة ترجمة اللغة الثالثة 30 سنتا في هذا المثال. سعر قائمة الترجمة هو 10 دولارات لكل مليون حرف. نظرا لأن الملف الصوتي يحتوي على 10,000 حرف، فإن تكلفة الترجمة هي 10 دولارات * 10,000 / 1,000,000 * 3 = 0.3 دولار. يمثل الرقم "3" في هذه المعادلة معامل ترجيح لنسبة استخدام الشبكة المتوسطة، والتي قد تختلف وفقا للغات المعنية. يتم استخدام السعر كمثال على كيفية حساب التكاليف. راجع ترجمة نص الترجمة القياسية للدفع>حسب الاستخدام>في جدول تسعير Azure الذكاء الاصطناعي المترجم للحصول على أحدث معلومات التسعير.

الشروع في العمل

كخطوة أولى، جرب التشغيل السريع لترجمة الكلام. خدمة ترجمة الكلام تتوفر عبر Speech SDK وSpeech CLI.

يمكنك العثور على الكلام SDK الكلام إلى نماذج النص والترجمة على GitHub. تُغطي هذه العينات السيناريوهات الشائعة، مثل قراءة الصوت من ملف أو دفق، والتعرف المستمر والتعرف على لقطة واحدة والترجمة والعمل مع النماذج المخصصة.

الخطوات التالية