استخدم واجهة برمجة تطبيقات تحويل الكلام إلى نص في Azure

مكتمل

تدعم خدمة Azure Speech التعرف على الكلام من خلال الميزات التالية:

  • النسخ في الوقت الحقيقي: النسخ الفوري مع نتائج وسيطة لإدخالات الصوت المباشر.
  • النسخ السريع: أسرع إخراج متزامن للحالات ذات زمن انتقال يمكن التنبؤ به.
  • النسخ الدفعي: معالجة فعالة لكميات كبيرة من الصوت المسجل مسبقا.
  • الكلام المخصص: نماذج بدقة محسنة لمجالات وشروط محددة.

استخدام حزمة تطوير البرمجيات الخاصة ب Azure Speech

بينما تختلف التفاصيل المحددة، اعتمادا على SDK المستخدمة (Python وC#، وما إلى ذلك)؛ هناك نمط متناسق لاستخدام Speech to text API:

رسم تخطيطي يوضح كيفية إنشاء كائن SpeechRecognizer من SpeechConfig و AudioConfig، ويتم استخدام أسلوب RecognizeOnceAsync الخاص به لاستدعاء Speech API.

  1. استخدم كائن SpeechConfig لتغليف المعلومات المطلوبة للاتصال بمورد Azure Speech الخاص بك. على وجه التحديد، موقعهومفتاحه.
  2. اختياريا، استخدم audioConfig لتعريف مصدر الإدخال للصوت المراد نسخه. بشكل افتراضي، هذا هو ميكروفون النظام الافتراضي، ولكن يمكنك أيضا تحديد ملف صوتي.
  3. استخدم SpeechConfig و AudioConfig لإنشاء كائن SpeechRecognizer . هذا الكائن هو عميل وكيل لواجهة برمجة تطبيقات Speech to text .
  4. استخدم أساليب كائن SpeechRecognizer لاستدعاء وظائف واجهة برمجة التطبيقات الأساسية. على سبيل المثال، تستخدم طريقة RecognizeOnceAsync() خدمة Azure Speech لنسخ تعبير منطوق واحد بشكل غير متزامن.
  5. معالجة الرد من خدمة Azure Speech. في حالة الأسلوب RecognizeOnceAsync() ، تكون النتيجة كائن SpeechRecognitionResult الذي يتضمن الخصائص التالية:
    • المدة
    • OffsetInTicks
    • خصائص
    • السبب
    • معرف النتيجة
    • النص

إذا كانت العملية ناجحة، تحتوي الخاصية Reason على القيمة تعداد RecognizedSpeech، وتحتوي الخاصية Text على النسخ. تتضمن القيم المحتملة الأخرى للنتيجةNoMatch (تشير إلى أنه تم تحليل الصوت بنجاح ولكن لم يتم التعرف على الكلام) أو Canceled، مما يشير إلى حدوث خطأ (في هذه الحالة، يمكنك التحقق من مجموعة Propertiesلخاصية CancelReason لتحديد الخطأ الذي حدث).