speech الحزمة

Microsoft Speech SDK ل Python

الوحدات النمطية

audio

الفئات المعنية بمعالجة إدخال الصوت إلى أدوات التعرف المختلفة، وإخراج الصوت من تركيب الكلام.

dialog

الفئات المتعلقة بموصل خدمة مربع الحوار.

enums

Microsoft Speech SDK ل Python

intent

الفئات المتعلقة بالتعرف على الهدف من الكلام.

interop

Microsoft Speech SDK ل Python

languageconfig

الفئات المعنية بمعالجة تكوينات اللغة

properties

Microsoft Speech SDK ل Python

speech

الفئات المتعلقة بالتعرف على النص من الكلام، وتجميع الكلام من النص، والفئات العامة المستخدمة في أدوات التعرف المختلفة.

transcription

الفئات المتعلقة بنسخ المحادثة.

translation

الفئات المتعلقة بترجمة الكلام إلى لغات أخرى.

version

Microsoft Speech SDK ل Python

الفصول

AudioDataStream

يمثل دفق البيانات الصوتية المستخدم لتشغيل البيانات الصوتية كتدفق.

إنشاء دفق بيانات صوتية من نتيجة تركيب الكلام (اكتب SpeechSynthesisResult) أو نتيجة التعرف على الكلمة الأساسية (اكتب KeywordRecognitionResult).

AutoDetectSourceLanguageResult

يمثل نتيجة لغة مصدر الكشف التلقائي.

يمكن تهيئة النتيجة من نتيجة التعرف على الكلام.

CancellationDetails

Microsoft Speech SDK ل Python

Connection

فئة الوكيل لإدارة الاتصال بخدمة الكلام المحددة Recognizer.

بشكل افتراضي، Recognizer يدير الاتصال بالخدمة بشكل مستقل عند الحاجة. Connection توفر الفئة أساليب إضافية للمستخدمين لفتح اتصال أو إغلاقه بشكل صريح والاشتراك في تغييرات حالة الاتصال. استخدام Connection اختياري. وهو مخصص للسيناريوهات التي تكون فيها هناك حاجة إلى ضبط دقيق لسلوك التطبيق استنادا إلى حالة الاتصال. يمكن للمستخدمين اختياريا الاتصال open ببدء اتصال خدمة يدويا قبل بدء التعرف على Recognizer المقترن بهذا Connection. بعد بدء التعرف، قد يفشل الاتصال open أو close . لن يؤثر هذا على Recognizer أو التعرف المستمر. قد ينخفض الاتصال لأسباب مختلفة، سيحاول Recognizer دائما إعادة إنشاء الاتصال كما هو مطلوب لضمان العمليات الجارية. في جميع هذه الحالات connected/disconnected ، ستشير الأحداث إلى تغيير حالة الاتصال.

ملاحظة

تم التحديث في الإصدار 1.17.0.

الدالة الإنشائية للاستخدام الداخلي.

ConnectionEventArgs

يوفر بيانات ل ConnectionEvent.

ملاحظة

تمت إضافته في الإصدار 1.2.0

الدالة الإنشائية للاستخدام الداخلي.

EventSignal

يمكن للعملاء الاتصال بإشارة الحدث لتلقي الأحداث، أو قطع الاتصال بإشارة الحدث لإيقاف تلقي الأحداث.

الدالة الإنشائية للاستخدام الداخلي.

KeywordRecognitionEventArgs

فئة وسيطات حدث التعرف على الكلمة الأساسية.

الدالة الإنشائية للاستخدام الداخلي.

KeywordRecognitionModel

يمثل نموذج التعرف على الكلمات الأساسية.

KeywordRecognitionResult

نتيجة عملية التعرف على الكلمة الأساسية.

الدالة الإنشائية للاستخدام الداخلي.

KeywordRecognizer

أداة التعرف على الكلمات الأساسية.

NoMatchDetails

Microsoft Speech SDK ل Python

PhraseListGrammar

الفئة التي تسمح بإضافة وقت التشغيل لتلميحات العبارة للمساعدة في التعرف على الكلام.

العبارات المضافة إلى أداة التعرف فعالة في بداية التعرف التالي، أو في المرة التالية التي يجب فيها على أداة التعرف على الكلام إعادة الاتصال بخدمة الكلام.

ملاحظة

تمت إضافته في الإصدار 1.5.0.

الدالة الإنشائية للاستخدام الداخلي.

PronunciationAssessmentConfig

يمثل تكوين تقييم النطق

ملاحظة

تمت إضافته في الإصدار 1.14.0.

يمكن تهيئة التكوين بطريقتين:

  • من المعلمات: تمرير النص المرجعي، ونظام الدرجات، والنقاوة، وتمكين الخطأ ومعرف السيناريو.

  • من json: تمرير سلسلة json

للحصول على تفاصيل المعلمات، راجع https://docs.microsoft.com/azure/cognitive-services/speech-service/rest-speech-to-text#pronunciation-assessment-parameters

PronunciationAssessmentPhonemeResult

يحتوي على نتيجة تقييم النطق على مستوى الهاتف

ملاحظة

تمت إضافته في الإصدار 1.14.0.

PronunciationAssessmentResult

يمثل نتيجة تقييم النطق.

ملاحظة

تمت إضافته في الإصدار 1.14.0.

يمكن تهيئة النتيجة من نتيجة التعرف على الكلام.

PronunciationAssessmentWordResult

يحتوي على نتيجة تقييم النطق على مستوى الكلمات

ملاحظة

تمت إضافته في الإصدار 1.14.0.

PropertyCollection

فئة لاسترداد قيمة خاصية أو تعيينها من مجموعة خصائص.

RecognitionEventArgs

يوفر بيانات ل RecognitionEvent.

الدالة الإنشائية للاستخدام الداخلي.

RecognitionResult

معلومات مفصلة حول نتيجة عملية التعرف.

الدالة الإنشائية للاستخدام الداخلي.

Recognizer

الفئة الأساسية لمتعرفين مختلفين

ResultFuture

نتيجة عملية غير متزامنة.

الدالة الإنشائية الخاصة

SessionEventArgs

الفئة الأساسية لوسائط حدث جلسة العمل.

الدالة الإنشائية للاستخدام الداخلي.

SourceLanguageRecognizer

يمكن استخدام أداة التعرف على اللغة المصدر - أداة التعرف على اللغة المستقلة، للغة الواحدة أو الكشف المستمر عن اللغة.

ملاحظة

تمت إضافته في الإصدار 1.18.0.

SpeechConfig

الفئة التي تحدد تكوينات التعرف على الكلام / الهدف وتركيب الكلام.

يمكن تهيئة التكوين بطرق مختلفة:

  • من الاشتراك: تمرير مفتاح اشتراك ومنطقة

  • من نقطة النهاية: مرر نقطة نهاية. مفتاح الاشتراك أو الرمز المميز للتخويل اختياري.

  • من المضيف: قم بتمرير عنوان مضيف. مفتاح الاشتراك أو الرمز المميز للتخويل اختياري.

  • من رمز التخويل المميز: تمرير رمز التخويل المميز والمنطقة

SpeechRecognitionCanceledEventArgs

فئة التعرف على الكلام التي ألغيت وسيطات الحدث.

الدالة الإنشائية للاستخدام الداخلي.

SpeechRecognitionEventArgs

فئة وسيطات حدث التعرف على الكلام.

الدالة الإنشائية للاستخدام الداخلي.

SpeechRecognitionResult

الفئة الأساسية لنتائج التعرف على الكلام.

الدالة الإنشائية للاستخدام الداخلي.

SpeechRecognizer

أداة التعرف على الكلام. إذا كنت بحاجة إلى تحديد معلومات اللغة المصدر، يرجى تحديد واحدة فقط من هذه المعلمات الثلاثة أو اللغة أو source_language_config أو auto_detect_source_language_config.

SpeechSynthesisBookmarkEventArgs

فئة وسيطات حدث إشارة مرجعية لتركيب الكلام.

ملاحظة

تمت إضافته في الإصدار 1.16.0.

الدالة الإنشائية للاستخدام الداخلي.

SpeechSynthesisCancellationDetails

يحتوي على معلومات مفصلة حول سبب إلغاء النتيجة.

SpeechSynthesisEventArgs

فئة وسيطات حدث تركيب الكلام.

الدالة الإنشائية للاستخدام الداخلي.

SpeechSynthesisResult

نتيجة عملية تركيب الكلام.

الدالة الإنشائية للاستخدام الداخلي.

SpeechSynthesisVisemeEventArgs

فئة وسيطات حدث viseme لتركيب الكلام.

ملاحظة

تمت إضافته في الإصدار 1.16.0.

الدالة الإنشائية للاستخدام الداخلي.

SpeechSynthesisWordBoundaryEventArgs

فئة وسيطات حدث حد كلمة تركيب الكلام.

ملاحظة

تم التحديث في الإصدار 1.21.0.

الدالة الإنشائية للاستخدام الداخلي.

SpeechSynthesizer

مزج الكلام.

SyllableLevelTimingResult

يحتوي على نتيجة توقيت مستوى مقطعي

ملاحظة

تمت إضافته في الإصدار 1.20.0.

SynthesisVoicesResult

يحتوي على معلومات مفصلة حول قائمة أصوات التركيب التي تم استردادها.

ملاحظة

تمت إضافته في الإصدار 1.16.0.

الدالة الإنشائية للاستخدام الداخلي.

VoiceInfo

يحتوي على معلومات مفصلة حول معلومات صوت التركيب.

ملاحظة

تم التحديث في الإصدار 1.17.0.

الدالة الإنشائية للاستخدام الداخلي.

التعدادات

AudioStreamContainerFormat

يحدد تنسيق حاوية دفق الصوت المدعوم.

AudioStreamWaveFormat

يمثل التنسيق المحدد داخل حاوية WAV.

CancellationErrorCode

يحدد رمز الخطأ في حالة أن CancellationReason هو Error.

CancellationReason

يحدد الأسباب المحتملة لإلغاء نتيجة التعرف.

NoMatchReason

يحدد الأسباب المحتملة لعدم التعرف على نتيجة التعرف.

OutputFormat

تنسيق الإخراج.

ProfanityOption

يزيل الألفاظ النابية (الشتائم)، أو يستبدل أحرف الكلمات النابية بالنجوم.

PronunciationAssessmentGradingSystem

يحدد نظام النقاط لمعايرة درجة النطق؛ القيمة الافتراضية هي FivePoint.

PronunciationAssessmentGranularity

يحدد دقة تقييم النطق؛ القيمة الافتراضية هي Phoneme.

PropertyId

يحدد معرفات خصائص الكلام.

ResultReason

يحدد الأسباب المحتملة لإنشاء نتيجة التعرف.

ServicePropertyChannel

يحدد القنوات المستخدمة لتمرير إعدادات الخاصية إلى الخدمة.

SpeechSynthesisOutputFormat

يحدد تنسيقات الصوت الممكنة لإخراج تركيب الكلام.

StreamStatus

يحدد الحالة المحتملة لدفق البيانات الصوتية.

SynthesisVoiceGender

يحدد جنس أصوات التركيب

SynthesisVoiceType

يحدد نوع أصوات التركيب