ترحيل التعليمات البرمجية من v3.0 إلى v3.1 من واجهة برمجة تطبيقات REST

يتم استخدام Speech to text REST API للنسخ الدفعي والكلام المخصص. يتم وصف التغييرات من الإصدار 3.0 إلى 3.1 في الأقسام أدناه.

هام

Speech to text REST API v3.2 هو أحدث إصدار متوفر بشكل عام. ستتم إزالة إصدارات المعاينة 3.2-preview.1 و3.2-preview.2* في سبتمبر 2024. سيتم إيقاف Speech to text REST API v3.1 في تاريخ سيتم الإعلان عنه. سيتم إيقاف Speech to text REST API v3.0 في 1 أبريل 2026.

المسار الأساسي

يجب تحديث المسار الأساسي في التعليمات البرمجية الخاصة بك من /speechtotext/v3.0 إلى /speechtotext/v3.1. على سبيل المثال، للحصول على نماذج أساسية في eastus المنطقة، استخدم https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base بدلا من https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.

لاحظ هذه التغييرات الأخرى:

  • /models/{id}/copyto يتم استبدال العملية (بما في ذلك '/') في الإصدار 3.0 بالعملية /models/{id}:copyto (بما في ذلك ':') في الإصدار 3.1.
  • /webhooks/{id}/ping يتم استبدال العملية (بما في ذلك '/') في الإصدار 3.0 بالعملية /webhooks/{id}:ping (بما في ذلك ':') في الإصدار 3.1.
  • /webhooks/{id}/test يتم استبدال العملية (بما في ذلك '/') في الإصدار 3.0 بالعملية /webhooks/{id}:test (بما في ذلك ':') في الإصدار 3.1.

لمزيد من المعلومات، راجع معرفات العملية لاحقا في هذا الدليل.

كتابة حديث دُفعة

إشعار

لا تستخدم Speech للنص REST API v3.0 لاسترداد نسخة تم إنشاؤها عبر Speech إلى نص REST API v3.1. سترى رسالة خطأ مثل ما يلي: "لا يمكن استخدام إصدار واجهة برمجة التطبيقات للوصول إلى هذا النسخ. يرجى استخدام إصدار API v3.1 أو أعلى."

في عملية Transcriptions_Create تتم إضافة الخصائص الثلاث التالية:

  • displayFormWordLevelTimestampsEnabled يمكن استخدام الخاصية لتمكين الإبلاغ عن الطوابع الزمنية على مستوى الكلمات على نموذج عرض نتائج النسخ. يتم إرجاع النتائج في displayWords خاصية ملف النسخ.
  • diarization يمكن استخدام الخاصية لتحديد تلميحات للحد الأدنى والحد الأقصى لعدد تسميات المتحدث التي سيتم إنشاؤها عند إجراء يوميات اختيارية (فصل المتحدث). باستخدام هذه الميزة، أصبحت الخدمة الآن قادرة على إنشاء ملصقات مكبر صوت لأكثر من مكبرين صوتيين. لاستخدام هذه الخاصية، يجب أيضا تعيين الخاصية diarizationEnabled إلى true. مع v3.1 API، قمنا بزيادة عدد المتكلمين الذين يمكن تحديدهم من خلال اليوميات من المتحدثين المدعومين من قبل v3.0 API. يوصى بالإبقاء على عدد المتكلمين أقل من 30 للحصول على أداء أفضل.
  • languageIdentification يمكن استخدام الخاصية لتحديد الإعدادات لتحديد اللغة على الإدخال قبل النسخ. يتم دعم ما يصل إلى 10 مواقع محلية لتحديد اللغة. يتضمن النسخ الذي تم إرجاعه خاصية جديدة locale للغة المعترف بها أو اللغة المحلية التي قدمتها.

filter تتم إضافة الخاصية إلى عمليات Transcriptions_List Transcriptions_ListFiles Projects_ListTranscriptions. filter يمكن استخدام التعبير لتحديد مجموعة فرعية من الموارد المتوفرة. يمكنك التصفية حسب displayNameو descriptioncreatedDateTimeو lastActionDateTimestatusو.locale على سبيل المثال: filter=createdDateTime gt 2022-02-01T11:00:00Z

إذا كنت تستخدم خطاف الويب لتلقي إشعارات حول حالة النسخ، لاحظ أن خطافات الويب التي تم إنشاؤها عبر V3.0 API لا يمكنها تلقي إشعارات لطلبات النسخ V3.1. تحتاج إلى إنشاء نقطة نهاية إخطار على الويب جديدة عبر V3.1 API من أجل تلقي إشعارات لطلبات النسخ V3.1.

الكلام المخصص

مجموعات البيانات

تتم إضافة العمليات التالية لتحميل وإدارة كتل بيانات متعددة لمجموعة بيانات:

  • Datasets_UploadBlock - تحميل كتلة من البيانات لمجموعة البيانات. الحجم الأقصى للكتلة هو 8 ميغابايت.
  • Datasets_GetBlocks - احصل على قائمة الكتل التي تم تحميلها لمجموعة البيانات هذه.
  • Datasets_CommitBlocks - تثبيت قائمة الحظر لإكمال تحميل مجموعة البيانات.

لدعم تكييف النموذج مع النص المنظم في بيانات markdown، تدعم عملية Datasets_Create الآن نوع بيانات LanguageMarkdown. لمزيد من المعلومات، راجع تحميل مجموعات البيانات.

النماذج

وترجع عمليات Models_ListBaseModels Models_GetBaseModel معلومات عن نوع التكيف الذي يدعمه كل نموذج أساسي.

"features": {
    "supportsAdaptationsWith": [
        "Acoustic",
        "Language",
        "LanguageMarkdown",
        "Pronunciation"
    ]
}

تحتوي عملية Models_Create على خاصية جديدة customModelWeightPercent حيث يمكنك تحديد الوزن المستخدم عند دمج نموذج اللغة المخصصة (المدرب من بيانات نصية عادية أو منظمة) مع نموذج اللغة الأساسية. القيم الصالحة هي الأعداد الصحيحة بين 1 و100. القيمة الافتراضية حالياً هي 30.

filter تتم إضافة الخاصية إلى العمليات التالية:

filter يمكن استخدام التعبير لتحديد مجموعة فرعية من الموارد المتوفرة. يمكنك التصفية حسب displayNameو descriptioncreatedDateTimeو lastActionDateTimeو statuslocaleو.kind على سبيل المثال: filter=locale eq 'en-US'

تمت إضافة عملية Models_ListFiles للحصول على ملفات النموذج التي تم تحديدها بواسطة المعرف المحدد.

تمت إضافة عملية Models_GetFile للحصول على ملف محدد واحد (معرف بمعرف الملف) من نموذج (معرف بالمعرف). يتيح لك هذا استرداد ملف ModelReport الذي يوفر معلومات عن البيانات التي تمت معالجتها أثناء التدريب.

معرفات العملية

يجب تحديث المسار الأساسي في التعليمات البرمجية الخاصة بك من /speechtotext/v3.0 إلى /speechtotext/v3.1. على سبيل المثال، للحصول على نماذج أساسية في eastus المنطقة، استخدم https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base بدلا من https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.

اسم كل operationId في الإصدار 3.1 مسبوق باسم الكائن. على سبيل المثال، operationId تم تغيير ل "إنشاء نموذج" من CreateModel في الإصدار 3.0 إلى Models_Create في الإصدار 3.1.

/models/{id}/copyto يتم استبدال العملية (بما في ذلك '/') في الإصدار 3.0 بالعملية /models/{id}:copyto (بما في ذلك ':') في الإصدار 3.1.

/webhooks/{id}/ping يتم استبدال العملية (بما في ذلك '/') في الإصدار 3.0 بالعملية /webhooks/{id}:ping (بما في ذلك ':') في الإصدار 3.1.

/webhooks/{id}/test يتم استبدال العملية (بما في ذلك '/') في الإصدار 3.0 بالعملية /webhooks/{id}:test (بما في ذلك ':') في الإصدار 3.1.

الخطوات التالية