ما الجديد في Azure الذكاء الاصطناعي Speech؟

2025-05-02

يتم تحديث Azure الذكاء الاصطناعي Speech بشكل مستمر. للبقاء up-to-التاريخ مع التطورات الأخيرة، توفر لك هذه المقالة معلومات حول الإصدارات والميزات الجديدة.

أهم النقاط الأخيرة

لنسخ المحتويات متعددة اللغات بشكل مستمر ودقيق في ملف صوتي، يمكنك الآن استخدام أحدث نموذج متعدد اللغات دون تحديد الرموز المحلية عبر واجهة برمجة تطبيقات النسخ السريع. لمزيد من المعلومات، راجع النسخ متعدد اللغات في النسخ السريع.
النسخ السريع متاح الآن بشكل عام. يمكنه نسخ الصوت بشكل أسرع بكثير من مدة الصوت الفعلية. لمزيد من المعلومات، راجع دليل واجهة برمجة تطبيقات النسخ السريع.
يتوفر ملحق Azure الذكاء الاصطناعي Speech Toolkit الآن لمستخدمي Visual Studio Code. يحتوي على قائمة بالبدايات السريعة للكلام وعينات السيناريو التي يمكن إنشاؤها وتشغيلها بسهولة بنقرات بسيطة. لمزيد من المعلومات، راجع Azure الذكاء الاصطناعي Speech Toolkit في Visual Studio Code Marketplace.
تتوفر أصوات الكلام عالية الدقة (HD) في Azure الذكاء الاصطناعي في المعاينة العامة. يمكن لأصوات HD فهم المحتوى، واكتشاف المشاعر تلقائيا في نص الإدخال، وضبط نغمة التحدث في الوقت الفعلي لمطابقة المشاعر. لمزيد من المعلومات، راجع ما هي أصوات Azure الذكاء الاصطناعي Speech عالية الدقة (HD)؟.
تتوفر ترجمة الفيديو الآن في خدمة Azure الذكاء الاصطناعي Speech. لمزيد من المعلومات، راجع ما المقصود بترجمة الفيديو؟.

ملاحظات حول الإصدار

اختيار خدمة أو مورد

هام

يتم إيقاف تقييم المحتوى (معاينة) عبر Speech SDK في يوليو 2025. بدلا من ذلك، يمكنك استخدام نماذج Azure OpenAI للحصول على نتائج تقييم المحتوى كما هو موضح في وثائق تقييم المحتوى.

Speech SDK 1.44.1: إصدار التصحيح

يتم إصدار SDK الإصدار 1.44.1 ل JavaScript فقط مع 4 إصلاحات للأخطاء:

إصلاحات الأخطاء

تم إصلاح استثناء خارج النطاق عند توفير معلمة تحكم تجزئة واحدة فقط.
لم يتم تمرير enableDictation بشكل صحيح إلى خدمة الكلام.
لم يستخدم ConversationTranscriber مسار URL الصحيح عند إنشائه باستخدام أسلوب fromEndpoint.
تم إصلاح الخطأ عند دفع البيانات إلى دفق إدخال بعد فصلها.

Speech SDK 1.44: إصدار 2025-May

هام

يتغير دعم الأنظمة الأساسية المستهدفة:

الحد الأدنى لإصدار Android المدعوم هو الآن Android 8.0 (مستوى واجهة برمجة التطبيقات 26).
يتم تعليق نشر حزم Speech SDK Unity بعد هذا الإصدار.

الميزات الجديدة:

دعم إضافي لأحجام صفحات ذاكرة Android 16 كيلوبايت.
تقليل زمن انتقال أحداث SpeechStartDetected في التعرف على الكلام المضمن.
[C++، Python] تمت إضافة أسلوب للحصول على الحجم المتاح ل AudioDataStream.
[C++، Python] دعم إضافي لعناوين URL المعجمية المخصصة و الإعدادات المحلية المفضلة في طلبات تركيب الكلام.
[Java, Python] تمت إضافة دعم للمصادقة المستندة إلى الرمز المميز ل Microsoft Entra مع تحديث الرمز المميز التلقائي.
[Go] دعم إضافي لنسخ المحادثة.

إصلاحات الأخطاء

لا يعمل تركيب كلام الترجمة الثابتة عند استخدام الكشف عن لغة المصدر.
مسارات الملفات الثابتة ذات الأحرف غير ASCII لا تعمل لنماذج الكلام المضمنة أو نماذج KWS أو ملفات السجل (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288).
تم إصلاح حلقة NoMatch في التعرف على الكلام المضمن في ظروف معينة.
تم إصلاح إلغاء هيكلة الكائنات الأصلية التي يتم حظرها بسبب عدم وضع علامة على التعرف على أنها متوقفة عند قطع اتصال الأحداث.
لا تعمل مطابقة نمط IntentRecognizer الثابت بشكل صحيح مع الأحرف متعددة البايت في ظروف معينة.
لم يكن الاتصال Close() على كائن اتصال متزامنا.
تم إصلاح حالة تعارض في إلغاء تخصيص الاتصال الذي قد يؤدي إلى تعطل.
[macOS] تم إصلاح رسائل "المعلومات:" التي تظهر على وحدة التحكم (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610).

العينات

[Python] تمت إضافة نموذج التعليمات البرمجية recognizer لاستخدام بيانات اعتماد الرمز المميز ل Microsoft Entra.

Speech SDK ل JavaScript

الميزات الجديدة:

تبعية التطوير المحدثة: TypeScript 3.5.3 → 4.5
تم تحديث TranslationRecognizer لاستخدام نقاط النهاية V2 بشكل افتراضي.
SpeechRecongizer المحدث لاستخدام نقاط النهاية V2.
- يؤدي هذا إلى عدم تلقي نتائج NoMatch بعد الآن.
دعم إضافي للمصادقة المستندة إلى الرمز المميز ل Microsoft Entra للتعرف على الكلام والترجمة.
تم تحديث واجهة برمجة تطبيقات FromEndpoint لتكون الطريقة الموصى بها لإنشاء SpeechConfig لمعظم السيناريوهات.
- ينطبق على استخدام:
  - التعرف على الكلام
  - TranslationRecognizer (عبر SpeechTranslationConfig)
  - ناسخ المحادثة
  - SpeechSynthesizer
- يمكنك الآن استخدام نقطة النهاية من مدخل Microsoft Azure لموارد Speech وAzure الذكاء الاصطناعي Foundry لإنشاء كائن SpeechConfig.
- تستمر جميع الأساليب الأخرى لإنشاء SpeechConfig في العمل ويتم دعمها.

إصلاحات الأخطاء

تم إصلاح حلقة إعادة محاولة اتصال لا نهائية على رموز إغلاق الاتصال غير المدعومة (https://github.com/microsoft/cognitive-services-speech-sdk-js/issues/896).

Speech CLI (SPX)

الميزات الجديدة

إضافة دعم للمصادقة باستخدام بيانات اعتماد الرمز المميز ل Microsoft Entra.
دعم إضافي لواجهة برمجة تطبيقات النسخ السريع.

إصلاحات الأخطاء

تم إصلاح عناوين URL للإدخال المفصولة بفواصل منقوطة وقوائم ملف الإدخال/عنوان URL من ملف.

Speech SDK 1.43: إصدار 2025-مارس

ملاحظة

تنتهي صلاحية "صيانة الأمان القياسية" ل Ubuntu 20.04 في أبريل 2025 ولن تكون متوفرة كعوامل ADO Build. تتطلب إصدارات Speech SDK المستقبلية Ubuntu 22.04 LTS (بدلا من Ubuntu 20.04) كحد أدنى للإصدار المدعوم.

الميزات الجديدة:

تم تحديث واجهة برمجة تطبيقات FromEndpoint لتكون الطريقة الموصى بها لإنشاء SpeechConfig لمعظم السيناريوهات.
- ينطبق على استخدام:
  - التعرف على الكلام
  - TranslationRecognizer (عبر SpeechTranslationConfig)
  - ناسخ المحادثة
  - SpeechSynthesizer في جميع لغات البرمجة باستثناء JavaScript.
- يمكنك الآن استخدام نقطة النهاية من مدخل Microsoft Azure لموارد الكلام والخدمات المعرفية لإنشاء كائن SpeechConfig.
- تستمر جميع الأساليب الأخرى لإنشاء SpeechConfig في العمل ويتم دعمها.
تم تحديث TranslationRecognizer لاستخدام نقاط النهاية V2 بشكل افتراضي.
- يؤدي ذلك إلى نقل معلمات التحكم من عنوان URL إلى الرسائل داخل القناة عند استخدام نقطة نهاية V2.
- تغيير السلوك: اللغة الافتراضية التي تم إرجاعها ل "zh" هي الآن "zh-CN" بدلا من "zh-hans"
معرفات الخصائص المضافة SpeechSynthesis_FrameTimeoutInterval SpeechSynthesis_RtfTimeoutThreshold.
تم تحسين عدد المرات التي يعيد فيها SDK الاتصال للتعرفات طويلة الأمد.
[C++، Python] إضافة دعم لتحديد النمط ودرجة الحرارة في طلبات تدفق النص.
[C#] تمت إضافة دعم لتحديث الرمز المميز التلقائي ل AAD عند استخدام FromEndpoint لإنشاء كائن تكوين.
- يضيف هذا تبعية من Speech SDK إلى حزمة Nuget Azure.Core.
- يمكن ل Speech SDK الآن قبول الكائنات المشتقة TokenCredential للمصادقة عند استخدام:
  - التعرف على الكلام
  - TranslationRecognizer
  - ناسخ المحادثة
[Objective-C] SPXTranslationRecognizer المحدث لدعم الكشف التلقائي للغة المصدر من النطاق المفتوح.
[Objective-C ، Python] تمت إضافة تشخيص واجهات برمجة التطبيقات EventLogger وFilyLogger و MemoryLogger.
[Go]: تمت إضافة دعم TranslationRecognizer

إصلاحات الأخطاء

تم إصلاح دعم OpenSSL 3 على Linux arm32 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2736).
تم إصلاح حقل الحالة المفقود في القائمة الصوتية لتركيب الكلام (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2771).
نمط IntentRecognizer الثابت المطابق لموزع اللغة اليابانية لا يحدد أحرفا صحيحة بشكل صحيح.
تم إصلاح مشكلة محتملة في النتائج المكررة من التعرف على الكلام المضمن.
[Java] تم إصلاح المشاركين الفارغين في ConversationParticipantsChangedEventArgs على Android 12 والأحدث (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2687).

العينات

[C++] تمت إضافة عينة للتعرف على الهدف المستقل باستخدام مطابقة النمط.
- مع إيقاف خدمة LUIS في أكتوبر 2025، ستقوم Speech SDK أيضا بإيقاف عائلة كائن IntentRecognizer.
- وقبل ذلك، أردنا مشاركة التنفيذ لمطابقة النمط.
[C++، C#، Java، Python] تم تحديث معظم العينات لاستخدام FromEndpoint API بدلا من FromSubscription.
[C#] تمت إضافة نموذج سيناريو لتطبيق التعرف على الكلام متعدد المستويات.
- يوضح منهجية لإعادة تشغيل الصوت وإعادة الاتصال من جهاز حافة إلى خدمة الطبقة المتوسطة التي تقوم بعد ذلك بإعادة توجيه الصوت إلى خدمة الكلام عبر Speech SDK
[C#] العينات المحدثة لاستخدام التحديث التلقائي لقمز AAD المميز.
[Python] تمت إضافة عينات لواجهات برمجة تطبيقات التشخيص الجديدة.
[Unity] تمت إضافة إرشادات لتثبيت تبعية Azure.Core الجديدة.

Speech SDK 1.42.0: إصدار 2024-ديسمبر

الميزات الجديدة

Java: تمت إضافة واجهات برمجة تطبيقات تسجيل التشخيص باستخدام فئات FileLogger و MemoryLogger و EventLogger و SpxTrace.
دعم إرسال خاصية JSON "تفاصيل" المشارك في الاجتماع إلى الخدمة
Go: تمت إضافة معرف الخاصية العامة SpeechServiceConnection_ProxyHostBypass لتحديد المضيفين الذين لم يتم استخدام الوكيل له.
JavaScript، Go: تمت إضافة معرف الخاصية العامة Speech_SegmentationStrategy لتحديد وقت انتهاء عبارة منطوقة ويجب إنشاء نتيجة نهائية معترف بها (بما في ذلك التجزئة الدلالية)
JavaScript، Go: معرف الخاصية العامة المضافة Speech_SegmentationMaximumTimeMs تحديد نهاية عبارة منطوقة استنادا إلى الوقت في Java، Python، C#، C++‎

إصلاحات الأخطاء

تم تحميل صوت TTS المضمن الثابت (re) لكل تركيب إذا لم يتم تعيين اسم الصوت.
تم إصلاح مشاكل حساب الإزاحة عند استخدام MeetingTranscriber في بعض السيناريوهات.
تم إصلاح حالة التوقف التام المحتملة عند تسجيل العديد من مستمعي الأحداث التشخيصية بالتوازي.
(JavaScript) تم إصلاح نتائج NoMatch المفقودة المحتملة عند نهاية الصوت. يعمل هذا الإصلاح أيضا على محاذاة السلوك في نهاية الكلام مع لغات SDK الأخرى وقد يؤدي إلى عدم رفع بعض الأحداث الفارغة.
(JavaScript) إصلاح الإزاحات في النتيجة JSON للمحاذاة مع الإزاحة على كائنات النتيجة. في السابق تم إصلاح خاصية إزاحة كائن النتيجة فقط لحساب عمليات إعادة توصيل الخدمة.
Go language: تم إصلاح خطأ التحويل البرمجي https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
إزاحات النتيجة الثابتة في كتابة الاجتماع عند حدوث إعادة الاتصال بالخدمة.
تم إصلاح حالة توقف تام في التسجيل.

العينات

عينات C# المحدثة لاستخدام .NET 8.0.
نموذج Java يستخدم Diagnostics logging API يظهر استخدام فئات Diagnostics Logging الجديدة.

إصدار 2024-نوفمبر

ملحق Azure الذكاء الاصطناعي Speech Toolkit ل Visual Studio Code

يتوفر ملحق Azure الذكاء الاصطناعي Speech Toolkit الآن لمستخدمي Visual Studio Code. يحتوي على قائمة بالبدايات السريعة للكلام وعينات السيناريو التي يمكن إنشاؤها وتشغيلها بسهولة بنقرات بسيطة. لمزيد من المعلومات، راجع Azure الذكاء الاصطناعي Speech Toolkit في Visual Studio Code Marketplace.

نماذج التعليمات البرمجية للكلام إلى كلام

أضفنا نصا إلى نماذج التعليمات البرمجية للكلام الرمز الرمزي لنظامي التشغيل Android وiOS. توضح هذه العينات كيفية استخدام النص في الوقت الحقيقي إلى أفاتار الكلام في تطبيقات الجوال الخاصة بك.

Speech SDK 1.41.1: إصدار 2024-أكتوبر

الميزات الجديدة

دعم إضافي ل Amazon Linux 2023 وAzure Linux 3.0.
تمت إضافة معرف الخاصية العامة SpeechServiceConnection_ProxyHostBypass لتحديد المضيفين الذين لا يتم استخدام الوكيل له.
تمت إضافة خصائص للتحكم في استراتيجيات تجزئة العبارة الجديدة.

إصلاحات الأخطاء

تم إصلاح الدعم غير المكتمل للتعرف على الكلمة الأساسية النماذج المتقدمة التي تم إنتاجها بعد أغسطس 2024.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- لاحظ أنه باستخدام Swift على iOS، يجب أن يستخدم مشروعك إما MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (من https://aka.ms/csspeech/iosbinaryembedded) أو MicrosoftCognitiveServicesSpeechEmbedded-iOS التي تتضمن دعم النموذج المتقدم.
تم إصلاح تسرب الذاكرة في C# المتعلق باستخدام السلسلة.
تم إصلاح عدم القدرة على الحصول على SPXAutoDetectSourceLanguageResult من SPXConversationTranscriptionResult في Objective-C وSwift.
تم إصلاح تعطل عرضي عند استخدام مكدس الصوت من Microsoft في التعرف.
تم إصلاح تلميحات النوع في Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
تم إصلاح عدم القدرة على إحضار قائمة أصوات TTS عند استخدام نقطة نهاية مخصصة.
تم إصلاح إعادة تهيئة TTS المضمنة لكل طلب كلام عند تحديد الصوت باسم قصير.
تم إصلاح الوثائق المرجعية لواجهة برمجة التطبيقات للمدة القصوى لصوت RecognizeOnce.
إصلاح الأخطاء في معالجة معدلات أخذ العينات العشوائية في JavaScript
- شكرا ل rseanhall على هذه المساهمة.
إصلاح خطأ في حساب إزاحة الصوت في JavaScript
- نشكرك على هذه المساهمة .

التغييرات العاجلة

تمت إزالة دعم التعرف على الكلمة الأساسية على Windows ARM 32 بت بسبب وقت تشغيل ONNX المطلوب غير المتوفر لهذا النظام الأساسي.

Speech SDK 1.40: إصدار 2024-أغسطس

ملاحظة

كان Speech SDK الإصدار 1.39.0 إصدارا داخليا ولا يفتقد.

الميزات الجديدة

دعم إضافي لتدفق G.722 الصوت المضغوط في التعرف على الكلام.
دعم إضافي لإعداد درجة الصوت والمعدل ومستوى الصوت في تدفق نص الإدخال في تركيب الكلام.
إضافة دعم لتدفق نص إدخال الصوت الشخصي من خلال تقديم PersonalVoiceSynthesisRequest في تركيب الكلام. واجهة برمجة التطبيقات هذه قيد المعاينة وتخضع للتغيير في الإصدارات المستقبلية.
دعم إضافي لتدوين النتائج الوسيطة عند ConversationTranscriber استخدامها.
تمت إزالة دعم CentOS/RHEL 7 بسبب CentOS 7 EOL ونهاية دعم صيانة RHEL 7 2.
يتطلب استخدام نماذج الكلام المضمنة الآن ترخيص نموذج بدلا من مفتاح نموذج. إذا كنت من عملاء الكلام المضمنين الحاليين وتريد الترقية، فيرجى الاتصال بمسؤول الدعم في Microsoft للحصول على تفاصيل حول تحديثات النموذج.

إصلاحات الأخطاء

ثنائيات Speech SDK المضمنة لنظام التشغيل Windows مع علامة _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR كتخفيف لقضية وقت تشغيل Visual C++‎ انتهاك الوصول مع std::mutex::lock بعد الترقية إلى VS 2022 الإصدار 17.10.0 - مجتمع المطورين (visualstudio.com). قد تحتاج تطبيقات Windows C++ التي تستخدم Speech SDK إلى تطبيق نفس علامة تكوين البنية إذا كانت التعليمات البرمجية الخاصة بهم تستخدم std::mutex (راجع التفاصيل في المشكلة المرتبطة).
تم إصلاح الكشف عن OpenSSL 3.x الذي لا يعمل على Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
تم إصلاح المشكلة التي تفيد بأنه عند نشر تطبيق UWP والمكتبات والنموذج من حزمة MAS NuGet لن يتم نسخها إلى موقع النشر.
تم إصلاح تعارض موفر المحتوى في حزم Android (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
خيارات المعالجة اللاحقة الثابتة التي لا تنطبق على نتائج التعرف على الكلام الوسيطة.
تم إصلاح تحذير .NET 8 حول توزيع معرفات وقت التشغيل المحددة (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).

العينات

عينات الكلام المضمنة المحدثة لاستخدام ترخيص نموذج بدلا من مفتاح.

Speech SDK 1.38.0: إصدار 2024-يونيو

الميزات الجديدة

ترقية متطلبات النظام الأساسي Speech SDK Linux:
- الحد الأدنى الجديد للأساس هو Ubuntu 20.04 LTS أو متوافق مع glibc 2.31 أو أحدث.
- تتم إزالة ثنائيات Linux x86 وفقا لدعم النظام الأساسي Ubuntu 20.04.
- لاحظ أن RHEL/CentOS 7 يظل مدعوما حتى 30 يونيو (نهاية CentOS 7 ونهاية دعم صيانة RHEL 7 2). ستتم إزالة الثنائيات الخاصة بها في إصدار Speech SDK 1.39.0.
إضافة دعم ل OpenSSL 3 على Linux.
أضف دعما لتنسيق إخراج الصوت g722-16khz-64kbps باستخدام speech synthesizer.
إضافة دعم لإرسال الرسائل من خلال كائن اتصال مع تركيب الكلام.
أضف واجهات برمجة التطبيقات Start/StopKeywordRecognition في Objective-C وSwift.
إضافة واجهة برمجة تطبيقات لتحديد فئة نموذج ترجمة مخصصة.
تحديث استخدام GStreamer باستخدام تركيب الكلام.

إصلاحات الأخطاء

إصلاح الخطأ "لا يمكن أن يتجاوز حجم رسالة Websocket 65536 بايت" أثناء البدء/StopKeywordRecognition.
إصلاح خطأ تجزئة Python أثناء تركيب الكلام.

العينات

تحديث نماذج C# لاستخدام .NET 6.0 بشكل افتراضي.

Speech SDK 1.37.0: إصدار 2024-أبريل

الميزات الجديدة

أضف دعما لتدفق نص الإدخال في تركيب الكلام.
تغيير صوت تركيب الكلام الافتراضي إلى en-US-AvaMultilingualNeural.
تحديث إصدارات Android لاستخدام OpenSSL 3.x.

إصلاحات الأخطاء

إصلاح أعطال JVM العرضية أثناء التخلص من SpeechRecognizer عند استخدام MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
تحسين الكشف عن أجهزة الصوت الافتراضية على Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

العينات

تم تحديثه للميزات الجديدة.

Speech SDK 1.36.0: إصدار 2024-مارس

الميزات الجديدة

إضافة دعم لتعريف اللغة في الترجمة متعددة اللغات على نقاط النهاية v2 باستخدام AutoDetectSourceLanguageConfig::FromOpenRange().

إصلاحات الأخطاء

لم يتم تشغيل حدث Fix SynthesisCanceled إذا تم استدعاء الإيقاف أثناء حدث SynthesisStarted.
إصلاح مشكلة الضوضاء في تركيب الكلام المضمن.
إصلاح عطل في التعرف على الكلام المضمن عند تشغيل عدة أدوات التعرف بالتوازي.
إصلاح إعداد وضع الكشف عن العبارة على نقاط النهاية v1/v2.
تصحيحات لمختلف المشكلات المتعلقة ب Microsoft Audio Stack.

العينات

تحديثات للميزات الجديدة.

Speech SDK 1.35.0: إصدار فبراير 2024

الميزات الجديدة

تغيير النص الافتراضي إلى صوت الكلام من en-US-JennyMultilingualNeural إلى en-US-AvaNeural.
دعم التفاصيل على مستوى الكلمات في نتائج ترجمة الكلام المضمنة باستخدام تنسيق الإخراج التفصيلي.

إصلاحات الأخطاء

إصلاح AudioDataStream position getter API في Python.
إصلاح ترجمة الكلام باستخدام نقاط النهاية v2 دون الكشف عن اللغة.
إصلاح تعطل عشوائي وتكرار أحداث حد الكلمات في نص مضمن إلى كلام.
إرجاع رمز خطأ إلغاء صحيح لخطأ خادم داخلي على اتصالات WebSocket.
إصلاح الفشل في تحميل مكتبة FPIEProcessor.dll عند استخدام MAS مع C#‎.

العينات

تحديثات التنسيق الثانوية لعينات التعرف المضمنة.

Speech SDK 1.34.1: إصدار يناير 2024

التغييرات الجذرية

إصلاحات الأخطاء فقط

الميزات الجديدة

إصلاحات الأخطاء فقط

إصلاحات الأخطاء

إصلاح الانحدار الذي تم تقديمه في 1.34.0 حيث تم إنشاء عنوان URL لنقطة نهاية الخدمة مع معلومات محلية سيئة للمستخدمين في العديد من مناطق الصين.

Speech SDK 1.34.0: إصدار نوفمبر 2023

التغييرات الجذرية

SpeechRecognizer يتم تحديث لاستخدام نقطة نهاية جديدة بشكل افتراضي (أي عند عدم تحديد عنوان URL بشكل صريح) التي لم تعد تدعم معلمات سلسلة الاستعلام لمعظم الخصائص. بدلا من تعيين معلمات سلسلة الاستعلام مباشرة باستخدام ServicePropertyChannel.UriQueryParameter، يرجى استخدام وظائف واجهة برمجة التطبيقات المقابلة.

الميزات الجديدة

التوافق مع .NET 8 (إصلاح باستثناء https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 التحذير حول centos7-x64)
دعم مقاييس أداء الكلام المضمنة التي يمكن استخدامها لتقييم قدرة الجهاز على تشغيل الكلام المضمن.
دعم تحديد لغة المصدر في الترجمة متعددة اللغات المضمنة.
دعم تحويل الكلام إلى نص المضمن والنص إلى كلام والترجمة لنظامي التشغيل iOS وSwift/Objective-C إصدارهما في المعاينة.
يتم توفير الدعم المضمن في MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

إصلاحات الأخطاء

إصلاح ل iOS SDK x2 مرات نمو الحجم الثنائي · المشكلة رقم 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
إصلاح تعذر الحصول على الطوابع الزمنية على مستوى الكلمات من Azure speech إلى واجهة برمجة التطبيقات النصية · المشكلة رقم 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
إصلاح مرحلة تدمير DialogServiceConnector لقطع اتصال الأحداث بشكل صحيح. كان هذا يسبب أعطال في بعض الأحيان.
إصلاح الاستثناء أثناء إنشاء أداة التعرف عند استخدام MAS.
FPIEProcessor.dll من حزمة Microsoft.CognitiveServices.Speech.Extension.MAS NuGet ل Windows UWP x64 وArm64 كانت تعتمد على مكتبات وقت تشغيل VC ل C++الأصلية. تم تصحيح المشكلة عن طريق تحديث التبعية لتصحيح مكتبات وقت تشغيل VC (ل UWP).
إصلاح استدعاءات [MAS] المتكررة لقراءات الوصول إلى عميل متوقع ل recognizeOnceAsync إلى SPXERR_ALREADY_INITIALIZED عند استخدام MAS · المشكلة رقم 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
إصلاح تعطل التعرف على الكلام المضمن عند استخدام قوائم العبارات.

العينات

نماذج iOS المضمنة لتحويل الكلام إلى نص والنص إلى كلام والترجمة.

Speech CLI 1.34.0: إصدار نوفمبر 2023

الميزات الجديدة

دعم إخراج أحداث حدود الكلمة عند تركيب الكلام.

إصلاحات الأخطاء

تحديث تبعية JMESPath إلى أحدث إصدار، وتحسين تقييمات السلسلة

Speech SDK 1.33.0: إصدار أكتوبر 2023

إشعار التغيير العاجل

مطلوب الآن تضمين حزمة NuGet الجديدة المضافة ل Microsoft Audio Stack (MAS) من قبل التطبيقات التي تستخدم MAS في ملفات تكوين الحزمة الخاصة بها.

الميزات الجديدة

تمت إضافة حزمة NuGet الجديدة Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg، والتي توفر أداء محسنا لإلغاء الارتداد عند استخدام مكدس الصوت من Microsoft
تقييم النطق: دعم إضافي لتقييم التجسيد والمحتوى، والذي يمكن أن يقيم الكلام المنطوق من حيث التجسيد والمفردات والنحو والموضوع.

إصلاحات الأخطاء

يتم إزاحة نتيجة التعرف على الكلمة الأساسية الثابتة بحيث تتطابق بشكل صحيح مع دفق صوت الإدخال منذ البداية. ينطبق الإصلاح على كل من التعرف على الكلمة الأساسية المستقلة والتعرف على الكلام الذي يتم تشغيله بالكلمة الأساسية.
لا يرجع Synthesizer stopSpeaking الثابت طريقة SPXSpeechSynthesizer stopSpeaking() فورا على iOS 17 - المشكلة #2081
تم إصلاح مشكلة استيراد محفز Mac على وحدة Swift دعم محفز mac مع apple silicon. المشكلة رقم 1948
JS: تستخدم أحمال وحدة AudioWorkletNode الآن عنوان URL موثوق به، مع تضمين النسخ الاحتياطي لمستعرض CDN.
JS: تستهدف ملفات lib المحزمة الآن ES6 JS، مع إزالة دعم ES5 JS.
JS: تتم معالجة الأحداث المتوسطة لسيناريو الترجمة التي تستهدف نقطة نهاية الإصدار 2 بشكل صحيح
JS: تم الآن تعيين خاصية اللغة ل TranslationRecognitionEventArgs لأحداث translation.hypothesis.
تجميع الكلام: يضمن إصدار حدث تركيبي بعد جميع أحداث بيانات التعريف، بحيث يمكن استخدامه للإشارة إلى نهاية الأحداث. كيفية الكشف عن متى يتم تلقي visemes تماما؟ المشكلة رقم 2093 Azure-Samples/cognitive-services-speech-sdk

العينات

تمت إضافة عينة لإثبات تدفق MULAW باستخدام Python)
إصلاح نموذج NAudio لتحويل الكلام إلى نص

Speech CLI 1.33.0: إصدار أكتوبر 2023

الميزات الجديدة

دعم إخراج أحداث حدود الكلمة عند تركيب الكلام.

إصلاحات الأخطاء

بلا

Speech SDK 1.32.1: إصدار سبتمبر 2023

إصلاحات الأخطاء

حزم تحديثات Android مع أحدث إصلاحات الأمان من OpenSSL1.1.1v
JS – تمت إضافة خاصية WebWorkerLoadType للسماح بتجاوز تحميل عنوان URL للبيانات لعامل المهلة
JS – إصلاح قطع اتصال ترجمة المحادثة بعد 10 دقائق
JS – يتم الآن نشر الرمز المميز لمصادقة ترجمة المحادثة من المحادثة إلى اتصال خدمة الترجمة

العينات

كتابة المحادثة باستخدام واجهات برمجة تطبيقات Swift

Speech SDK 1.31.0: إصدار أغسطس 2023

الميزات الجديدة

يتوفر دعم اليوميات في الوقت الحقيقي في المعاينة العامة باستخدام Speech SDK 1.31.0. تتوفر هذه الميزة في SDKs التالية: C# وC++وJava وJavaScript وPython و Objective-C/Swift.
حد كلمة تجميع الكلام المتزامن وأحداث viseme مع تشغيل الصوت

التغييرات الجذرية

تتم إعادة تسمية سيناريو "كتابة المحادثة" السابق إلى "نسخ الاجتماع". على سبيل المثال، استخدم MeetingTranscriber بدلا من ConversationTranscriber، واستخدم CreateMeetingAsync بدلا من CreateConversationAsync. على الرغم من تغيير أسماء كائنات SDK وأساليبها، فإن إعادة التسمية لا تغير الميزة نفسها. استخدم كائنات نسخ الاجتماعات لنسخ الاجتماعات باستخدام ملفات تعريف المستخدمين والتوقيعات الصوتية. لا تتأثر كائنات وأساليب "ترجمة المحادثة" بهذه التغييرات. لا يزال بإمكانك استخدام ConversationTranslator الكائن وأساليبه لسيناريوهات ترجمة الاجتماع.
لليوميات في الوقت الحقيقي، يتم تقديم عنصر جديد ConversationTranscriber . نموذج عنصر "كتابة المحادثة" الجديد وأنماط الاستدعاء مشابهة للتعرف المستمر مع SpeechRecognizer الكائن. يتمثل الاختلاف الرئيسي في ConversationTranscriber أن العنصر مصمم لاستخدامه في سيناريو محادثة حيث تريد تمييز عدة مكبرات صوت (يوميات). ملفات تعريف المستخدمين والتوقيعات الصوتية غير قابلة للتطبيق. راجع البدء السريع للمذكرات في الوقت الحقيقي لمزيد من المعلومات.

يعرض هذا الجدول أسماء الكائنات السابقة والجديدة لليوميات في الوقت الحقيقي وكتابة الاجتماع. يوجد اسم السيناريو في العمود الأول، وأسماء الكائنات السابقة في العمود الثاني، وأسماء الكائنات الجديدة موجودة في العمود الثالث.

اسم السيناريو	أسماء الكائنات السابقة	أسماء الكائنات الجديدة
يوميات في الوقت الحقيقي	غير متوفر	`ConversationTranscriber`
نسخ الاجتماع	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant` ¹ `ParticipantChangedReason` ¹ `User` ¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting` ²

¹ParticipantParticipantChangedReasonتنطبق العناصر و و User على كل من سيناريوهات كتابة الاجتماع وترجمة الاجتماع.

² الكائن Meeting جديد ويستخدم مع MeetingTranscriber الكائن.

إصلاحات الأخطاء

تم إصلاح الحد الأدنى من إصدار macOS المدعوم https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
تم إصلاح خطأ تقييم النطق:
- معالجة مشكلة درجات دقة الهاتف، مع التأكد من أنها تعكس الآن بدقة فقط الهاتف المحدد الذي تم تفسيره بشكل خاطئ. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- تم حل مشكلة حيث كانت ميزة تقييم النطق تحدد بشكل غير دقيق النطق الصحيح تماما على أنه خطأ، خاصة في الحالات التي يمكن أن يكون فيها للكلمات نطق صالح متعدد. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

العينات

Speech SDK 1.30.0: إصدار يوليو 2023

الميزات الجديدة

C++، C#، Java - تمت إضافة دعم ل DisplayWords في النتيجة التفصيلية للتعرف على الكلام المضمنة.
Objective-C/Swift - دعم إضافي للحدث ConnectionMessageReceived في Objective-C/Swift.
Objective-C/Swift - نماذج محسنة لتحديد الكلمة الأساسية لنظام التشغيل iOS. أدى هذا التغيير إلى زيادة حجم حزم معينة، والتي تحتوي على ثنائيات iOS (مثل NuGet وXCFramework). نحن نعمل على تقليل حجم الإصدارات المستقبلية.

إصلاحات الأخطاء

تم إصلاح تسرب الذاكرة عند استخدام أداة التعرف على الكلام مع PhraseListGrammar، كما تم الإبلاغ عنه من قبل العميل (مشكلة GitHub).
تم إصلاح حالة توقف تام في واجهة برمجة تطبيقات اتصال فتح النص إلى الكلام.

العينات

نماذج جديدة لتقييم النطق حول كيفية تحديد لغة تعلم في تطبيقك الخاص
- C#‎: راجع نموذج التعليمات البرمجية.
- C++‎: راجع نموذج التعليمات البرمجية.
- JavaScript: راجع نموذج التعليمات البرمجية.
- Objective-C: راجع نموذج التعليمات البرمجية.
- Python: راجع نموذج التعليمات البرمجية.
- Swift: راجع نموذج التعليمات البرمجية.

Speech SDK 1.29.0: إصدار يونيو 2023

الميزات الجديدة

C++، C#، Java - معاينة واجهات برمجة تطبيقات ترجمة الكلام المضمنة. الآن يمكنك القيام بترجمة الكلام دون اتصال سحابي!
JavaScript - تعريف اللغة المستمر (LID) ممكن الآن لترجمة الكلام.
JavaScript - مساهمة المجتمع لإضافة LocaleName خاصية إلى VoiceInfo الفئة. شكرا لك مستخدم GitHub shivsarthak لطلب السحب.
C++، C#، Java - تمت إضافة دعم لإعادة تعيين النص المضمن إلى إخراج الكلام من معدل عينة 16 كيلوهرتز إلى 48 كيلوهرتز.
تمت إضافة دعم للإعدادات hi-IN المحلية في Intent Recognizer باستخدام Simple Pattern Matching.

إصلاحات الأخطاء

تم إصلاح العطل الناجم عن حالة تعارض في Speech Recognizer أثناء تدمير الكائنات، كما هو الحال في بعض اختبارات Android
تم إصلاح حالات التوقف التام المحتملة في Intent Recognizer باستخدام Simple Pattern Matcher

العينات

نماذج ترجمة الكلام المضمنة الجديدة

Speech SDK 1.28.0: إصدار مايو 2023

كسر التغيير

JavaScript SDK: تمت إزالة بروتوكول حالة الشهادة عبر الإنترنت (OCSP). يسمح هذا للعملاء بالتوافق بشكل أفضل مع معايير المتصفح والعقدة لمعالجة الشهادات. لن يتضمن الإصدار 1.28 وما بعده وحدة OCSP المخصصة.

الميزات الجديدة

يتم الآن إرجاع NoMatchReason::EndSilenceTimeout" عند حدوث مهلة الصمت في نهاية التعبير. يطابق هذا السلوك عند إجراء التعرف باستخدام خدمة الكلام في الوقت الحقيقي.
JavaScript SDK: تعيين الخصائص على SpeechTranslationConfig استخدام PropertyId قيم التعداد.

إصلاحات الأخطاء

C# على Windows - إصلاح حالة السباق المحتملة/حالة التوقف التام في ملحق صوت Windows. في السيناريوهات التي يقوم كل منهما بالتخلص من عارض الصوت بسرعة وأيضا استخدام أسلوب Synthesizer للتوقف عن الكلام، لم تتم إعادة تعيين الحدث الأساسي عن طريق الإيقاف، وقد يتسبب في عدم التخلص من كائن العارض مطلقا، كل ذلك في حين أنه قد يكون يحمل تأمينا عموميا للتخلص منه، وتجميد مؤشر ترابط dotnet GC.

العينات

تمت إضافة نموذج كلام مضمن ل MAUI.
تحديث نموذج الكلام المضمن ل Android Java لتضمين نص إلى كلام.

Speech SDK 1.27.0: إصدار أبريل 2023

إعلام حول التغييرات القادمة

نخطط لإزالة بروتوكول حالة الشهادة عبر الإنترنت (OCSP) في إصدار JavaScript SDK التالي. يسمح هذا للعملاء بالتوافق بشكل أفضل مع معايير المتصفح والعقدة لمعالجة الشهادات. الإصدار 1.27 هو الإصدار الأخير الذي يتضمن وحدة OCSP المخصصة.

الميزات الجديدة

JavaScript – دعم إضافي لإدخال الميكروفون من المتصفح باستخدام تعريف السماعة والتحقق منها.
التعرف على الكلام المضمن - تحديث دعم PropertyId::Speech_SegmentationSilenceTimeoutMs الإعداد.

إصلاحات الأخطاء

عام - تحديثات الموثوقية في منطق إعادة توصيل الخدمة (جميع لغات البرمجة باستثناء JavaScript).
عام - إصلاح تحويلات السلسلة التي تسرب الذاكرة على Windows (جميع لغات البرمجة ذات الصلة باستثناء JavaScript).
التعرف على الكلام المضمن - إصلاح العطل في التعرف على الكلام الفرنسي عند استخدام إدخالات معينة في القائمة النحوية.
وثائق التعليمات البرمجية المصدر - تصحيحات لتعليقات الوثائق المرجعية ل SDK المتعلقة بتسجيل الصوت على الخدمة.
التعرف على الهدف - إصلاح أولويات مطابق النمط المتعلقة بكيانات القائمة.

العينات

معالجة فشل المصادقة بشكل صحيح في نموذج كتابة محادثة C# (CTS).
إضافة مثال لتقييم النطق المتدفق ل Python وJavaScript Objective-C وSwift.

Speech SDK 1.26.0: إصدار مارس 2023

التغييرات الجذرية

تم تعطيل Bitcode في جميع أهداف iOS في الحزم التالية: Cocoapod مع xcframework وNuGet (ل Xamarin وMAUI) وUnity. ويرجع التغيير إلى إهمال Apple لدعم bitcode من Xcode 14 وما بعده. يعني هذا التغيير أيضا إذا كنت تستخدم إصدار Xcode 13 أو قمت بتمكين رمز البت بشكل صريح على التطبيق الخاص بك باستخدام Speech SDK، فقد تواجه خطأ يقول "إطار العمل لا يحتوي على bitcode ويجب إعادة إنشائه". لحل هذه المشكلة، تأكد من تعطيل bitcode لأهدافك.
تتم ترقية الحد الأدنى لهدف نشر iOS إلى 11.0 في هذا الإصدار، مما يعني أن armv7 HW لم يعد مدعوما.

الميزات الجديدة

يدعم التعرف على الكلام المضمن (على الجهاز) الآن صوت إدخال معدل أخذ العينات 8 و16 كيلوهرتز (16 بت لكل عينة، PCM أحادي).
يبلغ Speech Synthesis الآن عن زمن انتقال الاتصال والشبكة والخدمة في النتيجة للمساعدة في تحسين زمن الانتقال من طرف إلى طرف.
قواعد جديدة لكسر التعادل للتعرف على الهدف مع مطابقة نمط بسيط. كلما زاد عدد وحدات بايت الأحرف المتطابقة، ستفوز على تطابقات النمط مع عدد البايت الأقل للأحرف. مثال: سيفوز النمط "Select {something} في أعلى اليمين" على "Select {something}"

إصلاحات الأخطاء

تركيب الكلام: قم بإصلاح خطأ حيث لا يكون رمز المشاعر صحيحا في أحداث حدود الكلمات.
التعرف على الهدف باستخدام فهم لغة المحادثة (CLU):
- تظهر الأهداف من سير عمل CLU Orchestrator الآن بشكل صحيح.
- تتوفر نتيجة JSON الآن عبر معرف LanguageUnderstandingServiceResponse_JsonResultالخاصية .
التعرف على الكلام مع تنشيط الكلمة الأساسية: إصلاح للصوت المفقود ~150 مللي ثانية بعد التعرف على الكلمة الأساسية.
إصلاح إصدار Speech SDK NuGet iOS MAUI، الذي أبلغ عنه العميل (مشكلة GitHub)

العينات

إصلاح عينة Swift iOS، التي أبلغ عنها العميل (مشكلة GitHub)

Speech SDK 1.25.0: إصدار يناير 2023

التغييرات الجذرية

تم تبسيط واجهات برمجة التطبيقات لتحديد اللغة (معاينة). إذا قمت بتحديث Speech SDK 1.25 وشاهدت فاصل بناء، فيرجى زيارة صفحة تحديد اللغة للتعرف على الخاصية SpeechServiceConnection_LanguageIdModeالجديدة . تحل هذه الخاصية الفردية محل الخاصيتين السابقتين SpeechServiceConnection_SingleLanguageIdPriority و SpeechServiceConnection_ContinuousLanguageIdPriority. لم يعد تحديد الأولويات بين زمن الانتقال المنخفض والدقة العالية ضروريا بعد تحسينات النموذج الأخيرة. الآن، تحتاج فقط إلى تحديد ما إذا كنت تريد تشغيل تعريف اللغة في البداية أو المستمر عند إجراء التعرف المستمر على الكلام أو الترجمة.

الميزات الجديدة

C#/C++/Java: تم الآن إصدار Embedded Speech SDK ضمن معاينة عامة مسورة. راجع وثائق الكلام المضمن (معاينة). يمكنك الآن إجراء تحويل الكلام إلى نص ونص إلى كلام على الجهاز عندما يكون الاتصال السحابي متقطعا أو غير متوفر. مدعوم على الأنظمة الأساسية Android وLinux وmacOS وWindows
C# MAUI: تمت إضافة الدعم لأهداف iOS وMac Catalyst في Speech SDK NuGet (مشكلة العميل)
Unity: تمت إضافة بنية android x86_64 إلى حزمة Unity (مشكلة العميل)
الانتقال:
- تمت إضافة دعم الدفق المباشر ALAW/MULAW للتعرف على الكلام (مشكلة العميل)
- دعم إضافي ل PhraseListGrammar. شكرا لك مستخدم GitHub czkoko لمساهمة المجتمع!
C#/C++: يدعم Intent Recognizer الآن نماذج Conversational Language Understanding في C++ وC# مع التنسيق على خدمة Microsoft

إصلاحات الأخطاء

إصلاح تعليق عرضي في KeywordRecognizer عند محاولة إيقافه
Python:
- إصلاح للحصول على نتائج تقييم النطق عند PronunciationAssessmentGranularity.FullText تعيين (مشكلة العميل)
- إصلاح خاصية الجنس لأصوات الذكور التي لا يتم استردادها، عند الحصول على أصوات تركيب الكلام
JavaScript
- إصلاح لتحليل بعض ملفات WAV التي تم تسجيلها على أجهزة iOS (مشكلة العميل)
- يتم الآن إنشاء JS SDK دون استخدام npm-force-resolutions (مشكلة العميل)
- يقوم "مترجم المحادثة" الآن بتعيين نقطة نهاية الخدمة بشكل صحيح عند استخدام مثيل speechConfig تم إنشاؤه باستخدام SpeechConfig.fromEndpoint()

العينات

عينات مضافة توضح كيفية استخدام الكلام المضمن
تمت إضافة Speech إلى نموذج نصي ل MAUI

راجع مستودع عينات Speech SDK.

Speech SDK 1.24.2: إصدار نوفمبر 2022

الميزات الجديدة

لا توجد ميزات جديدة، فقط إصلاح محرك مضمن لدعم ملفات النموذج الجديدة.

إصلاحات الأخطاء

جميع لغات البرمجة
- تم إصلاح مشكلة تتعلق بتشفير نماذج التعرف على الكلام المضمنة.

Speech SDK 1.24.1: إصدار نوفمبر 2022

الميزات الجديدة

الحزم المنشورة لمعاينة الكلام المضمن. راجع https://aka.ms/embedded-speech لمزيد من المعلومات.

إصلاحات الأخطاء

جميع لغات البرمجة
- إصلاح تعطل TTS المضمن عندما لا يكون الخط الصوتي مدعوما
- لا يمكن لإصلاح stopSpeaking() إيقاف التشغيل على Linux (#1686)
JavaScript SDK
- تم إصلاح الانحدار في كيفية قيام ناسخ المحادثة ببوابة الصوت.
جاوة
- تم نشر ملفات POM وJavadocs المحدثة مؤقتا إلى Maven Central لتمكين مسار المستندات من تحديث المستندات المرجعية عبر الإنترنت.
بايثون
- إصلاح الانحدار حيث ترجع Python speak_text (ssml) فراغا.

Speech SDK 1.24.0: إصدار أكتوبر 2022

الميزات الجديدة

جميع لغات البرمجة: تمت إضافة AMR-WB (16khz) إلى القائمة المعتمدة من تنسيقات إخراج النص إلى صوت الكلام
Python: تمت إضافة حزمة ل Linux Arm64 لتوزيعات Linux المدعومة.
C#/C++/Java/Python: تمت إضافة الدعم للتدفق المباشر ل ALAW و MULAW إلى خدمة الكلام (بالإضافة إلى دفق PCM الحالي) باستخدام AudioStreamWaveFormat.
C# MAUI: تم تحديث حزمة NuGet لدعم أهداف Android لمطوري .NET MAUI (مشكلة العميل)
Mac: تمت إضافة XCframework منفصل لنظام التشغيل Mac، والذي لا يحتوي على أي ثنائيات iOS. يوفر هذا خيارا للمطورين الذين يحتاجون إلى ثنائيات Mac فقط باستخدام حزمة XCframework أصغر.
مكدس الصوت من Microsoft (MAS):
- عند تحديد زوايا تشكيل الحزم، سيتم منع الصوت الذي ينشأ خارج النطاق المحدد بشكل أفضل.
- ما يقرب من 70% تقليل في libMicrosoft.CognitiveServices.Speech.extension.mas.so حجم ل Linux ARM32 وLinux Arm64.
التعرف على الهدف باستخدام مطابقة النمط:
- إضافة دعم تقويم اللغات frو deو esو jp
- تمت إضافة دعم عدد صحيح تم إنشاؤه مسبقا للغة es.

إصلاحات الأخطاء

iOS: إصلاح خطأ تركيب الكلام على iOS 16 بسبب فشل فك ترميز الصوت المضغوط (مشكلة العميل).
JavaScript:
- إصلاح الرمز المميز للمصادقة الذي لا يعمل عند الحصول على قائمة صوت تجميع الكلام (مشكلة العميل).
- استخدم عنوان URL للبيانات لتحميل العامل (مشكلة العميل).
- إنشاء worklet لمعالج الصوت فقط عندما يكون AudioWorklet مدعوما في المستعرض (مشكلة العميل). كانت هذه مساهمة مجتمعية من قبل ويليام وونغ. شكرا لك ويليام!
- إصلاح رد الاتصال الذي تم التعرف عليه عندما تكون استجابة connectionMessage LUIS فارغة (مشكلة العميل).
- تعيين مهلة تجزئة الكلام بشكل صحيح.
التعرف على الهدف باستخدام مطابقة النمط:
- يتم الآن تحميل الأحرف غير json داخل النماذج بشكل صحيح.
- إصلاح مشكلة معلقة عند recognizeOnceAsync(text) استدعاؤها أثناء التعرف المستمر.

Speech SDK 1.23.0: إصدار يوليو 2022

الميزات الجديدة

C#، C++، Java: تمت إضافة دعم للغات zh-cn وفي zh-hk التعرف على الهدف باستخدام مطابقة الأنماط.
C#‎: دعم إضافي لبنيات AnyCPU .NET Framework

إصلاحات الأخطاء

Android: تم إصلاح ثغرة OpenSSL الأمنية CVE-2022-2068 عن طريق تحديث OpenSSL إلى 1.1.1q
Python: إصلاح التعطل عند استخدام PushAudioInputStream
iOS: إصلاح "EXC_BAD_ACCESS: حاول إلغاء مرجعية المؤشر الفارغ" كما تم الإبلاغ عنه في iOS (مشكلة GitHub)

Speech SDK 1.22.0: إصدار يونيو 2022

الميزات الجديدة

Java: IntentRecognitionResult API ل getEntities()، وتطبيقLanguageModels()، و recognizeOnceAsync(text) المضافة لدعم محرك "مطابقة النمط البسيط".
Unity: دعم إضافي ل Mac M1 (Apple Silicon) لحزمة Unity (مشكلة GitHub)
C#‎: دعم إضافي x86_64 ل Xamarin Android (مشكلة GitHub)
C#‎: تم تحديث الإصدار الأدنى من .NET framework إلى الإصدار 4.6.2 لحزمة SDK C# كما تم إيقاف الإصدار 4.6.1 (راجع نهج دورة حياة مكون Microsoft .NET Framework)
Linux: دعم إضافي ل Debian 11 وUbuntu 22.04 LTS. يتطلب Ubuntu 22.04 LTS التثبيت اليدوي ل libssl1.1 إما كحزمة ثنائية من هنا (على سبيل المثال، libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb أو أحدث للإصدار x64)، أو عن طريق التحويل البرمجي من المصادر.

إصلاحات الأخطاء

UWP: تمت إزالة تبعية OpenSSL من مكتبات UWP واستبدالها ب WinRT websocket وHTTP APIs لتلبية التوافق الأمني والبصمة الثنائية الأصغر.
Mac: تم إصلاح مشكلة "MicrosoftCognitiveServicesSpeech Module Not Found" عند استخدام مشاريع Swift التي تستهدف نظام macOS الأساسي
Windows، Mac: تم إصلاح مشكلة خاصة بالنظام الأساسي حيث تكون مصادر الصوت التي تم تكوينها عبر الخصائص للبث بمعدل الوقت الحقيقي متخلفة في بعض الأحيان وتجاوزت السعة في النهاية

عينات (GitHub)

C#‎: تم تحديث نماذج إطار عمل .NET لاستخدام الإصدار 4.6.2
Unity: تم إصلاح عينة المساعد الظاهري لنظامي التشغيل Android وUWP
Unity: تم تحديث نماذج Unity لإصدار Unity 2020 LTS

Speech SDK 1.21.0: إصدار أبريل 2022

الميزات الجديدة

Java وJavaScript: دعم إضافي لتحديد اللغة المستمرة عند استخدام كائن SpeechRecognizer
JavaScript: تمت إضافة واجهات برمجة تطبيقات التشخيص لتمكين مستوى تسجيل وحدة التحكم وتسجيل الملفات (العقدة فقط)، لمساعدة Microsoft على استكشاف المشكلات التي أبلغ عنها العميل وإصلاحها
Python: دعم إضافي لنسخ المحادثة
Go: دعم إضافي للتعرف على المتحدث
C++ وC#: تمت إضافة دعم لمجموعة مطلوبة من الكلمات في Intent Recognizer (مطابقة النمط البسيط). على سبيل المثال: "(set|start|begin) مؤقت" حيث يجب أن تكون "set" أو "start" أو "begin" موجودة للهدف الذي سيتم التعرف عليه.
جميع لغات البرمجة، تجميع الكلام: خاصية المدة المضافة في أحداث حدود الكلمات. دعم إضافي لحدود علامات الترقيم ونقط الجملة
Objective-C/Swift/Java: تمت إضافة نتائج على مستوى الكلمات على كائن نتيجة تقييم النطق (مشابه ل C#). لم يعد التطبيق بحاجة إلى تحليل سلسلة نتائج JSON للحصول على معلومات على مستوى الكلمات (مشكلة GitHub)
منصة iOS: دعم تجريبي إضافي لبنية ARMv7

إصلاحات الأخطاء

نظام iOS الأساسي: إصلاح للسماح بإنشاء الهدف "أي جهاز iOS"، عند استخدام CocoaPod (مشكلة GitHub)
نظام Android الأساسي: تم تحديث إصدار OpenSSL إلى 1.1.1n لإصلاح الثغرة الأمنية CVE-2022-0778
JavaScript: إصلاح مشكلة عدم تحديث رأس wav بحجم الملف (مشكلة GitHub)
JavaScript: إصلاح مشكلة إلغاء مزامنة معرف الطلب لسيناريوهات الترجمة (مشكلة GitHub)
JavaScript: إصلاح المشكلة عند إنشاء مثيل SpeakerAudioDestination بدون دفق (مشكلة GitHub]
C++‎: إصلاح رؤوس C++ لإزالة تحذير عند التحويل البرمجي ل C++17 أو إصدار أحدث

عينات GitHub

عينات Java جديدة للتعرف على الكلام باستخدام تعريف اللغة
عينات PythonوJava جديدة لنسخ المحادثة
نموذج Go جديد للتعرف على المتحدث
أداة C++ وC# جديدة لنظام التشغيل Windows تقوم بتعداد جميع أجهزة التقاط الصوت وعرضها، للعثور على معرف الجهاز الخاص بها. هذا المعرف مطلوب بواسطة Speech SDK إذا كنت تخطط لالتقاط الصوت من جهاز غير افتراضي أو عرض الصوت عليه.

Speech SDK 1.20.0: إصدار يناير 2022

الميزات الجديدة

Objective-C وSwift وPython: دعم إضافي ل DialogServiceConnector، المستخدم لسيناريوهات المساعد الصوتي.
Python: تمت إضافة دعم Python 3.10. تمت إزالة دعم Python 3.6، لكل نهاية عمر Python ل 3.6.
Unity: يتم الآن دعم Speech SDK لتطبيقات Unity على Linux.
C++، C#‎: IntentRecognizer باستخدام مطابقة النمط مدعوم الآن في C#. بالإضافة إلى ذلك، يتم الآن دعم السيناريوهات ذات الكيانات المخصصة والمجموعات الاختيارية وأدوار الكيان في C++ وC#.
C++، C#‎: تسجيل تتبع التشخيص المحسن باستخدام فئات جديدة FileLogger و MemoryLogger و EventLogger. تعد سجلات SDK أداة مهمة ل Microsoft لتشخيص المشكلات التي أبلغ عنها العميل. تسهل هذه الفئات الجديدة على العملاء دمج سجلات Speech SDK في نظام التسجيل الخاص بهم.
جميع لغات البرمجة: يحتوي PronunciationAssessmentConfig الآن على خصائص لتعيين الأبجدية الهاتفية المطلوبة (IPA أو SAPI) وN-Best Phoneme Count (تجنب الحاجة إلى تأليف تكوين JSON وفقا لإصدار GitHub 1284). أيضا، يتم الآن دعم إخراج مستوى المقطع.
Android وiOS وmacOS (جميع لغات البرمجة): لم تعد هناك حاجة إلى GStreamer لدعم شبكات النطاق الترددي المحدود. يستخدم SpeechSynthesizer الآن قدرات فك ترميز الصوت لنظام التشغيل لفك تشفير الصوت المضغوط المتدفق من النص إلى خدمة الكلام.
جميع لغات البرمجة: يدعم SpeechSynthesizer الآن ثلاثة تنسيقات Opus جديدة للإخراج الخام (بدون حاوية)، والتي تستخدم على نطاق واسع في سيناريوهات البث المباشر.
JavaScript: تمت إضافة واجهة برمجة تطبيقات getVoicesAsync() إلى SpeechSynthesizer لاسترداد قائمة الأصوات التركيبية المدعومة (إصدار GitHub 1350)
JavaScript: تمت إضافة واجهة برمجة تطبيقات getWaveFormat() إلى AudioStreamFormat لدعم تنسيقات موجة غير PCM (إصدار GitHub 452)
JavaScript: تمت إضافة واجهة برمجة تطبيقات getter/setter و mute()/unmute() إلى SpeakerAudioDestination (إصدار GitHub 463)

إصلاحات الأخطاء

C++، وC#، وJava، وJavaScript، و Objective-C، و Swift: إصلاح لإزالة تأخير 10 ثوان أثناء إيقاف أداة التعرف على الكلام التي تستخدم PushAudioInputStream. هذا هو الحال حيث لا يتم دفع أي صوت جديد بعد استدعاء StopContinuousRecognition (مشكلات GitHub 1318، 331)
Unity على Android وUWP: تم إصلاح ملفات تعريف Unity ل UWP وAndroid Arm64 وWindows Subsystem for Android (WSA) Arm64 (GitHub issue 1360)
iOS: تم الآن إصلاح تجميع تطبيق Speech SDK على أي جهاز iOS عند استخدام CocoaPods (إصدار GitHub 1320)
iOS: عند تكوين SpeechSynthesizer لإخراج الصوت مباشرة إلى مكبر الصوت، توقف التشغيل في البداية في حالات نادرة. تم إصلاح ذلك.
JavaScript: استخدم النسخ الاحتياطي لمعالج البرنامج النصي لإدخال الميكروفون إذا لم يتم العثور على أي عمل صوتي (مشكلة GitHub 455)
JavaScript: إضافة بروتوكول إلى العامل للتخفيف من الأخطاء التي تم العثور عليها مع تكامل Sentry (GitHub المشكلة 465)

عينات GitHub

نماذج C++‎، وC#، وPython، وJava توضح كيفية الحصول على نتائج التعرف التفصيلية. تتضمن التفاصيل نتائج التعرف البديلة، ودرجة الثقة، والنموذج المعجمي، والنموذج العادي، والنموذج المقنع العادي، مع توقيت على مستوى الكلمات لكل منها.
تمت إضافة نموذج iOS باستخدام AVFoundation كمصدر صوت خارجي.
تمت إضافة نموذج Java لإظهار كيفية الحصول على تنسيق SRT (نص SubRip) باستخدام حدث WordBoundary.
عينات Android لتقييم النطق.
C++‎، C#‎ يعرض استخدام فئات تسجيل التشخيص الجديدة.

Speech SDK 1.19.0: إصدار 2021-نوفمبر

يبرز

خدمة التعرف على المتحدث متاحة بشكل عام (GA) الآن. تتوفر واجهات برمجة تطبيقات Speech SDK على C++، وC#، وJava، وJavaScript. باستخدام "التعرف على المتحدث"، يمكنك التحقق من السماعات وتحديدها بدقة من خلال خصائصها الصوتية الفريدة. لمزيد من المعلومات حول هذا الموضوع، راجع الوثائق.
لقد أسقطنا الدعم ل Ubuntu 16.04 بالاقتران مع Azure DevOps وGitHub. وصل Ubuntu 16.04 إلى نهاية العمر الافتراضي في أبريل 2021. ترحيل مهام سير عمل Ubuntu 16.04 إلى Ubuntu 18.04 أو أحدث.
تم تغيير ارتباط OpenSSL في ثنائيات Linux إلى ديناميكية. تم تقليل حجم Linux الثنائي بنحو 50%.
تمت إضافة دعم السيليكون المستند إلى Mac M1 ARM.

الميزات الجديدة

C++/C#/Java: تمت إضافة واجهات برمجة تطبيقات جديدة لتمكين دعم معالجة الصوت لإدخال الكلام باستخدام مكدس الصوت من Microsoft. الوثائق هنا.
C++‎: واجهات برمجة تطبيقات جديدة للتعرف على الهدف لتسهيل مطابقة النمط الأكثر تقدما. ويشمل ذلك كيانات القائمة والأعداد الصحيحة التي تم إنشاؤها مسبقا بالإضافة إلى دعم أهداف التجميع والكيانات كنماذج (الوثائق والتحديثات والعينات قيد التطوير وسيتم نشرها في المستقبل القريب).
Mac: دعم حزم Arm64 (M1) المستندة إلى السيليكون ل CocoaPod وPython وJava وNuGet المتعلقة بإصدار GitHub 1244.
iOS/Mac: يتم الآن حزم ثنائيات iOS وmacOS في xcframework المتعلقة بإصدار GitHub 919.
iOS/Mac: دعم محفز Mac المتعلق بإصدار GitHub 1171.
Linux: تمت إضافة حزمة tar جديدة ل CentOS7 حول Speech SDK. تحتوي حزمة linux .tar الآن على مكتبات محددة ل RHEL/CentOS 7 في lib/centos7-x64. لا تزال مكتبات Speech SDK في lib/x64 قابلة للتطبيق على جميع توزيعات Linux x64 المدعومة الأخرى (بما في ذلك RHEL/CentOS 8) ولن تعمل على RHEL/CentOS 7.
JavaScript: واجهات برمجة تطبيقات VoiceProfile و SpeakerRecognizer غير متزامنة/قابلة للانتظار.
JavaScript: تمت إضافة الدعم لمناطق Azure الحكومية الأمريكية.
Windows: تمت إضافة الدعم للتشغيل على النظام الأساسي العام ل Windows (UWP).

إصلاحات الأخطاء

Android: تحديث أمان OpenSSL (تم تحديثه إلى الإصدار 1.1.1l) لحزم Android.
Python: تم حل الخطأ حيث يفشل تحديد جهاز السماعة على Python.
Core: إعادة الاتصال تلقائيا عند فشل محاولة الاتصال.
iOS: تم تعطيل ضغط الصوت على حزم iOS بسبب عدم الاستقرار ومشاكل إنشاء bitcode عند استخدام GStreamer. تتوفر التفاصيل عبر إصدار GitHub 1209.

عينات GitHub

Mac/iOS: العينات المحدثة وقوالب التشغيل السريع لاستخدام حزمة xcframework.
.NET: تم تحديث العينات لاستخدام إصدار .NET core 3.1.
JavaScript: عينة إضافية للمساعدين الصوتيين.

Speech SDK 1.18.0: إصدار 2021-يوليو

ملاحظة: ابدأ باستخدام Speech SDK هنا.

ملخص أهم النقاط

وصل Ubuntu 16.04 إلى نهاية العمر الافتراضي في أبريل 2021. باستخدام Azure DevOps وGitHub، سنسقط الدعم ل 16.04 في سبتمبر 2021. ترحيل مهام سير عمل ubuntu-16.04 إلى ubuntu-18.04 أو أحدث قبل ذلك.

الميزات الجديدة

C++‎: تسهل مطابقة نمط اللغة البسيط مع Intent Recognizer الآن تنفيذ سيناريوهات التعرف على الهدف البسيطة.
C++/C#/Java: أضفنا واجهة برمجة تطبيقات جديدة إلى GetActivationPhrasesAsync()VoiceProfileClient الفئة لتلقي قائمة بعبارات التنشيط الصالحة في مرحلة تسجيل التعرف على المتحدث لسيناريوهات التعرف المستقل.
- هام: ميزة التعرف على المتحدث في المعاينة. سيتم إيقاف جميع ملفات التعريف الصوتية التي تم إنشاؤها في المعاينة بعد 90 يوما من نقل ميزة التعرف على المتحدث خارج المعاينة إلى التوفر العام. عند هذه النقطة، ستتوقف ملفات تعريف الصوت المعاينة عن العمل.
Python: دعم إضافي لتعريف اللغة المستمر (LID) على العناصر الموجودة SpeechRecognizer والعناصر TranslationRecognizer .
Python: تمت إضافة كائن Python جديد باسم SourceLanguageRecognizer للقيام ب LID لمرة واحدة أو مستمرة (دون التعرف أو الترجمة).
JavaScript: getActivationPhrasesAsync تمت إضافة واجهة برمجة التطبيقات إلى VoiceProfileClient الفئة لتلقي قائمة بعبارات التنشيط الصالحة في مرحلة تسجيل التعرف على المتحدث لسيناريوهات التعرف المستقل.
JavaScriptVoiceProfileClient' s enrollProfileAsync API الآن غير متزامنة في انتظار. راجع رمز التعريف المستقل هذا، على سبيل المثال، الاستخدام.

التحسينات

Java: تمت إضافة دعم AutoCloseable إلى العديد من كائنات Java. الآن يتم دعم نموذج try-with-resources لتحرير الموارد. راجع هذا النموذج الذي يستخدم try-with-resources. راجع أيضا البرنامج التعليمي لوثائق Oracle Java لبيان تجربة الموارد للتعرف على هذا النمط.
تم تقليل بصمة القرص بشكل كبير للعديد من الأنظمة الأساسية والبنى. أمثلة للثنائي Microsoft.CognitiveServices.Speech.core : x64 Linux أصغر ب 475 كيلوبايت (8.0% تقليل)؛ Arm64 Windows UWP أصغر ب 464 كيلوبايت (تقليل 11.5%)؛ x86 Windows أصغر ب 343 كيلوبايت (17.5% تقليل)؛ وx64 Windows أصغر ب 451 كيلوبايت (19.4% تقليل).

إصلاحات الأخطاء

Java: تم إصلاح خطأ التركيب عندما يحتوي نص التجميع على أحرف بديلة. التفاصيل هنا.
JavaScript: تستخدم AudioWorkletNode معالجة صوت ميكروفون المستعرض الآن بدلا من إهمال .ScriptProcessorNode التفاصيل هنا.
JavaScript: حافظ على المحادثات على قيد الحياة بشكل صحيح أثناء سيناريوهات ترجمة المحادثات طويلة الأمد. التفاصيل هنا.
JavaScript: تم إصلاح مشكلة إعادة اتصال أداة التعرف ب mediastream في التعرف المستمر. التفاصيل هنا.
JavaScript: تم إصلاح مشكلة إعادة اتصال أداة التعرف ب pushStream في التعرف المستمر. التفاصيل هنا.
JavaScript: تصحيح حساب إزاحة مستوى الكلمات في نتائج التعرف التفصيلية. التفاصيل هنا.

العينات

تم تحديث نماذج التشغيل السريع ل Java هنا.
تم تحديث نماذج التعرف على مكبر صوت JavaScript لإظهار الاستخدام الجديد ل enrollProfileAsync(). انظر العينات هنا.

Speech SDK 1.17.0: 2021-May release

ملاحظة

ابدأ باستخدام Speech SDK هنا.

ملخص أهم النقاط

بصمة أصغر - نواصل تقليل الذاكرة وبصمة القرص ل Speech SDK ومكوناته.
تتيح لك واجهة برمجة تطبيقات تعريف اللغة المستقلة الجديدة التعرف على اللغة التي يتم التحدث بها.
تطوير تطبيقات الحقيقة المختلطة والألعاب الممكنة للكلام باستخدام Unity على macOS.
يمكنك الآن استخدام النص إلى كلام بالإضافة إلى التعرف على الكلام من لغة البرمجة Go.
تم وضع علامة على GitHub العديد من إصلاحات الأخطاء لمعالجة المشكلات التي قمت أنت، عملاؤنا القيمون، بوضع علامة عليها! شكرا! استمر في تقديم الملاحظات!

الميزات الجديدة

C++/C#: At-Start مستقل جديد واكتشاف اللغة المستمرة عبر SourceLanguageRecognizer واجهة برمجة التطبيقات. إذا كنت تريد فقط الكشف عن اللغة (اللغات) المنطوقة في محتوى الصوت، فهذه هي واجهة برمجة التطبيقات للقيام بذلك. راجع تفاصيل C++‎وC#.
C++/C#: تدعم ميزة التعرف على الكلام والتعرف على الترجمة الآن تعريف اللغة في البداية والمستمر حتى تتمكن من تحديد اللغة (اللغات) التي يتم التحدث بها برمجيا قبل نسخها أو ترجمتها. راجع الوثائق هنا للتعرف على الكلام وهنا لترجمة الكلام.
C#‎: دعم إضافي لدعم Unity إلى macOS (x64). هذا يفتح التعرف على الكلام وحالات استخدام تركيب الكلام في الحقيقة المختلطة والألعاب!
Go: أضفنا دعما لنص تركيب الكلام إلى الكلام إلى لغة برمجة Go لجعل تركيب الكلام متاحا في المزيد من حالات الاستخدام. راجع دليل التشغيل السريع أو وثائقنا المرجعية.
C++/C#/Java/Python/Objective-C/Go: يدعم connection تركيب الكلام الآن الكائن. يساعدك هذا على إدارة ومراقبة الاتصال بخدمة Speech، وهو مفيد بشكل خاص للاتصال المسبق لتقليل زمن الانتقال. راجع الوثائق هنا.
C++/C#/Java/Python/Objective-C/Go: نكشف الآن زمن الانتقال ونقل وقت التشغيل لمساعدتك في SpeechSynthesisResult مراقبة مشكلات زمن انتقال تركيب الكلام وتشخيصها. راجع تفاصيل C++‎، C#‎، Java، Python، Objective-C وGo.
C++/C#/Java/Python/Objective-C: يستخدم النص إلى كلام الآن الأصوات العصبية بشكل افتراضي عندما لا تحدد صوتا لاستخدامه. يمنحك هذا إخراج دقة أعلى بشكل افتراضي، ولكنه يزيد أيضا السعر الافتراضي.
C++/C#/Java/Python/Objective-C/Go: أضفنا خاصية الجنس إلى المعلومات الصوتية التركيبية لتسهيل تحديد الأصوات بناء على نوع الجنس. يعالج هذا مشكلة GitHub #1055.
C++، وC#، وJava، وJavaScript: ندعم retrieveEnrollmentResultAsyncالآن ، getAuthorizationPhrasesAsyncو، و getAllProfilesAsync() في التعرف على المتحدث لتسهيل إدارة المستخدم لجميع ملفات التعريف الصوتية لحساب معين. راجع وثائق C++‎، وC#، وJava، وJavaScript. يعالج هذا مشكلة GitHub #338.
JavaScript: أضفنا إعادة المحاولة لفشل الاتصال الذي سيجعل تطبيقات الكلام المستندة إلى JavaScript أكثر قوة.

التحسينات

تم تحديث ثنائيات Linux وAndroid Speech SDK لاستخدام أحدث إصدار من OpenSSL (1.1.1k)
تحسينات حجم التعليمات البرمجية:
- يتم الآن تقسيم فهم اللغة إلى مكتبة "lu" منفصلة.
- انخفض حجم ثنائي Windows x64 الأساسي بمقدار 14.4%.
- انخفض حجم ثنائي Android Arm64 الأساسي بمقدار 13.7%.
- كما انخفض حجم المكونات الأخرى.

إصلاحات الأخطاء

الكل: تم إصلاح مشكلة GitHub #842 ل ServiceTimeout. يمكنك الآن نسخ ملفات صوتية طويلة باستخدام Speech SDK دون الاتصال بالخدمة التي تنتهي بهذا الخطأ. ومع ذلك، ما زلنا نوصي باستخدام النسخ الدفعي للملفات الطويلة.
C#‎: تم إصلاح مشكلة GitHub #947 حيث لا يمكن لإدخال الكلام ترك تطبيقك في حالة سيئة.
Java: تم إصلاح مشكلة GitHub #997 حيث يتعطل Speech SDK ل Java 1.16 عند استخدام DialogServiceConnector دون اتصال بالشبكة أو مفتاح اشتراك غير صالح.
تم إصلاح العطل عند إيقاف التعرف على الكلام فجأة (على سبيل المثال، استخدام CTRL+C على تطبيق وحدة التحكم).
Java: تمت إضافة إصلاح لحذف الملفات المؤقتة على Windows عند استخدام Speech SDK ل Java.
Java: تم إصلاح مشكلة GitHub #994 حيث قد يؤدي الاستدعاء DialogServiceConnector.stopListeningAsync إلى حدوث خطأ.
Java: تم إصلاح مشكلة العميل في التشغيل السريع المساعد الظاهري.
JavaScript: تم إصلاح مشكلة GitHub #366 حيث ConversationTranslator ألقى خطأ 'this.cancelSpeech ليست دالة'.
JavaScript: تم إصلاح مشكلة GitHub #298 حيث تم تشغيل نموذج "الحصول على النتيجة كتدفق في الذاكرة" بصوت عال.
JavaScript: تم إصلاح مشكلة GitHub #350 حيث قد يؤدي الاستدعاء AudioConfig إلى 'ReferenceError: MediaStream غير محدد'.
JavaScript: تم إصلاح تحذير UnhandledPromiseRejection في Node.js لجلسات العمل طويلة الأمد.

العينات

وثائق عينات Unity المحدثة لنظام التشغيل macOS هنا.
يتوفر الآن نموذج React Native لخدمة التعرف على الكلام الذكاء الاصطناعي Azure هنا.

Speech SDK 1.16.0: إصدار 2021-مارس

ملاحظة

يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك ل Visual Studio 2015 و2017 و2019.

الميزات الجديدة

C++/C#/Java/Python: انتقل إلى أحدث إصدار من GStreamer (1.18.3) لإضافة دعم لنسخ أي تنسيق وسائط على Windows وLinux وAndroid. راجع الوثائق هنا.
C++/C#/Java/Objective-C/Python: تمت إضافة دعم لفك ترميز الصوت المضغوط TTS/المركب إلى SDK. إذا قمت بتعيين تنسيق صوت الإخراج إلى PCM وكان GStreamer متوفرا على النظام الخاص بك، فسيطلب SDK تلقائيا الصوت المضغوط من الخدمة لحفظ النطاق الترددي وفك تشفير الصوت على العميل. يمكنك التعيين SpeechServiceConnection_SynthEnableCompressedAudioTransmission إلى false لتعطيل هذه الميزة. تفاصيل C++‎، C#‎، Java، Objective-C، Python.
JavaScript: يمكن للمستخدمين Node.js الآن استخدام AudioConfig.fromWavFileInput واجهة برمجة التطبيقات. هذا يعالج مشكلة GitHub #252.
C++/C#/Java/Objective-C/Python: أسلوب إضافي GetVoicesAsync() ل TTS لإرجاع جميع الأصوات التركيبية المتوفرة. تفاصيل C++‎، وC#، وJava، و Objective-C، وPython.
C++/C#/Java/JavaScript/Objective-C/Python: حدث إضافي VisemeReceived لتركيب الكلام/TTS لإرجاع حركة viseme المتزامنة. راجع الوثائق هنا.
C++/C#/Java/JavaScript/Objective-C/Python: حدث مضاف BookmarkReached ل TTS. يمكنك تعيين الإشارات المرجعية في إدخال SSML والحصول على إزاحات الصوت لكل إشارة مرجعية. راجع الوثائق هنا.
Java: دعم إضافي لواجهات برمجة تطبيقات التعرف على المتحدث. التفاصيل هنا.
C++/C#/Java/JavaScript/Objective-C/Python: تمت إضافة تنسيقين جديدين لصوت الإخراج باستخدام حاوية WebM ل TTS (Webm16Khz16BitMonoOpus وWebm24Khz16BitMonoOpus). هذه تنسيقات أفضل لبث الصوت باستخدام برنامج ترميز Opus. تفاصيل C ++، C#‎، Java، JavaScript، Objective-C، Python.
C++/C#/Java: تمت إضافة دعم لاسترداد ملف التعريف الصوتي لسيناريو التعرف على المتحدث. تفاصيل C++‎، وC#، وJava.
C++/C#/Java/Objective-C/Python: تمت إضافة دعم لمكتبة مشتركة منفصلة لميكروفون الصوت والتحكم في السماعة. يسمح هذا للمطور باستخدام SDK في البيئات التي لا تحتوي على تبعيات مكتبة الصوت المطلوبة.
Objective-C/Swift: دعم إضافي لإطار عمل الوحدة النمطية مع رأس مظلة. يسمح هذا للمطور باستيراد Speech SDK كوحدة نمطية في تطبيقات iOS/Mac Objective-C/Swift. يعالج هذا مشكلة GitHub #452.
Python: دعم إضافي ل Python 3.9 وتراجع الدعم ل Python 3.5 لكل نهاية عمر Python لمدة 3.5.

المشاكل المعروفة

C++/C#/Java: DialogServiceConnector لا يمكن استخدام CustomCommandsConfig للوصول إلى تطبيق أوامر مخصصة وسيواجه بدلا من ذلك خطأ في الاتصال. يمكن حل هذه المشكلة عن طريق إضافة معرف التطبيق يدويا إلى الطلب باستخدام config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). سيتم استعادة السلوك المتوقع في CustomCommandsConfig الإصدار التالي.

التحسينات

كجزء من جهودنا متعددة الإصدارات لتقليل استخدام ذاكرة Speech SDK وبصمة القرص، أصبحت ثنائيات Android الآن أصغر من 3% إلى 5%.
أقسام محسنة للدقة وقابلية القراءة والاطلاع أيضا على الوثائق المرجعية ل C#‎ هنا.

إصلاحات الأخطاء

JavaScript: يتم الآن تحليل رؤوس ملفات WAV الكبيرة بشكل صحيح (يزيد شريحة الرأس إلى 512 بايت). هذا يعالج مشكلة GitHub #962.
JavaScript: تم تصحيح مشكلة توقيت الميكروفون إذا انتهى دفق الميكروفون قبل إيقاف التعرف، مع معالجة مشكلة عدم عمل ميزة التعرف على الكلام في Firefox.
JavaScript: نتعامل الآن بشكل صحيح مع وعد التهيئة عندما يفرض المستعرض إيقاف تشغيل الميكروفون قبل اكتمال turnOn.
JavaScript: استبدلنا تبعية عنوان URL بتحليل url. يعالج هذا مشكلة GitHub #264.
Android: عمليات رد الاتصال الثابتة لا تعمل عند minifyEnabled تعيينها إلى true.
C++/C#/Java/Objective-C/Python: TCP_NODELAY سيتم تعيينه بشكل صحيح إلى IO مأخذ التوصيل الأساسي ل TTS لتقليل زمن الانتقال.
C++/C#/Java/Python/Objective-C/Go: تم إصلاح تعطل عرضي عند تدمير أداة التعرف بعد بدء التعرف.
C++/C#/Java: تم إصلاح تعطل عرضي في تدمير أداة التعرف على المتحدث.

العينات

JavaScript: لم تعد عينات المستعرض تتطلب تنزيل ملف مكتبة JavaScript منفصلا.

Speech SDK 1.15.0: 2021-January release

ملاحظة

يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك ل Visual Studio 2015 و2017 و2019.

ملخص أهم النقاط

ذاكرة أصغر وبصمة قرص ما يجعل SDK أكثر كفاءة.
تتوفر تنسيقات إخراج دقة أعلى للمعاينة الخاصة بالصوت العصبي المخصص.
يمكن ل Intent Recognizer الآن الحصول على العائد أكثر من الهدف الأعلى، مما يمنحك القدرة على إجراء تقييم منفصل حول هدف عميلك.
أصبح إعداد المساعدين الصوتيين والروبوتات أسهل الآن، ويمكنك جعله يتوقف عن الاستماع على الفور، وممارسة تحكم أكبر في كيفية استجابته للأخطاء.
تحسين أداء الجهاز من خلال جعل الضغط اختياريا.
استخدم Speech SDK على Windows ARM/Arm64.
تحسين تصحيح الأخطاء منخفض المستوى.
تتوفر الآن ميزة تقييم النطق على نطاق أوسع.
تم وضع علامة على GitHub العديد من إصلاحات الأخطاء لمعالجة المشكلات التي قمت أنت، عملاؤنا القيمون، بوضع علامة عليها! شكرا! استمر في تقديم الملاحظات!

التحسينات

أصبح Speech SDK الآن أكثر كفاءة وخفة الوزن. لقد بدأنا جهدا متعدد الإصدارات لتقليل استخدام ذاكرة Speech SDK وبصمة القرص. كخطوة أولى، قمنا بإجراء تخفيضات كبيرة في حجم الملفات في المكتبات المشتركة على معظم الأنظمة الأساسية. مقارنة بإصدار 1.14:
- مكتبات Windows المتوافقة مع UWP 64 بت أصغر بحوالي 30%.
- مكتبات Windows 32 بت لا ترى بعد تحسنا في الحجم.
- مكتبات Linux أصغر من 20-25%.
- مكتبات Android أصغر من 3 إلى 5%.

الميزات الجديدة

الكل: تنسيقات إخراج جديدة 48 كيلوهرتز متوفرة للمعاينة الخاصة للصوت العصبي المخصص من خلال واجهة برمجة تطبيقات تركيب الكلام TTS: Audio48Khz192KBitRateMonoMp3، audio-48khz-192kbitrate-mono-mp3، Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
الكل: الصوت المخصص أسهل أيضا في الاستخدام. دعم إضافي لإعداد الصوت المخصص عبر EndpointId (C++‎، C#‎، Java، JavaScript، Objective-C، Python). قبل هذا التغيير، احتاج مستخدمو الصوت المخصصون إلى تعيين عنوان URL لنقطة النهاية عبر FromEndpoint الأسلوب . الآن يمكن للعملاء استخدام FromSubscription الأسلوب تماما مثل الأصوات القياسية، ثم توفير معرف النشر عن طريق إعداد EndpointId. وهذا يبسط إعداد الأصوات المخصصة.
C++/C#/Java/Objective-C/Python: احصل على أكثر من الهدف الأعلى منIntentRecognizer. وهو يدعم الآن تكوين نتيجة JSON التي تحتوي على جميع الأهداف وليس فقط هدف تسجيل النقاط الأعلى عبر LanguageUnderstandingModel FromEndpoint الأسلوب باستخدام verbose=true معلمة uri. يعالج هذا مشكلة GitHub #880. راجع الوثائق المحدثة هنا.
C++/C#/Java: اجعل مساعدك الصوتي أو الروبوت يتوقف عن الاستماع على الفور. DialogServiceConnector (C++‎، C#‎، Java) الآن لديه StopListeningAsync() أسلوب لمرافقته ListenOnceAsync(). سيؤدي ذلك إلى إيقاف التقاط الصوت على الفور والانتظار بأمان للحصول على نتيجة، ما يجعله مثاليا للاستخدام مع سيناريوهات الضغط على الزر "إيقاف الآن".
C++/C#/Java/JavaScript: اجعل مساعدك الصوتي أو الروبوت يتفاعل بشكل أفضل مع أخطاء النظام الأساسية. DialogServiceConnector (C++‎، C#‎، Java، JavaScript) الآن لديه معالج أحداث جديد TurnStatusReceived . تتوافق هذه الأحداث الاختيارية مع كل ITurnContext دقة على الروبوت وستبلغ عن فشل التنفيذ عند حدوثها، على سبيل المثال، نتيجة استثناء غير معالج أو مهلة أو انخفاض في الشبكة بين Direct Line Speech والروبوت. TurnStatusReceived يسهل الاستجابة لظروف الفشل. على سبيل المثال، إذا استغرق الروبوت وقتا طويلا في استعلام قاعدة بيانات الواجهة الخلفية (على سبيل المثال، البحث عن منتج)، TurnStatusReceived يسمح للعميل بمعرفة التكرار مع "عذرا، لم أحصل على ذلك تماما، هل يمكنك المحاولة مرة أخرى" أو شيء مماثل.
C++/C#: استخدم Speech SDK على المزيد من الأنظمة الأساسية. تدعم حزمة Speech SDK NuGet الآن ثنائيات سطح المكتب الأصلية ل Windows ARM/Arm64 (تم دعم UWP بالفعل) لجعل Speech SDK أكثر فائدة على المزيد من أنواع الأجهزة.
Java: DialogServiceConnector الآن لديه setSpeechActivityTemplate() أسلوب تم استبعاده عن غير قصد من اللغة مسبقا. وهذا يعادل تعيين الخاصية Conversation_Speech_Activity_Template وسيطلب أن تقوم جميع أنشطة Bot Framework المستقبلية التي تم إنشاؤها بواسطة خدمة Direct Line Speech بدمج المحتوى المقدم في حمولات JSON الخاصة بهم.
Java: تصحيح الأخطاء منخفض المستوى محسن. تحتوي Connection الفئة الآن على MessageReceived حدث، مشابه للغات البرمجة الأخرى (C++، C#). يوفر هذا الحدث وصولا منخفض المستوى إلى البيانات الواردة من الخدمة ويمكن أن يكون مفيدا للتشخيص وتصحيح الأخطاء.
JavaScript: إعداد أسهل للمساعدين الصوتيين والروبوتات من خلال BotFrameworkConfig، والتي تحتوي fromHost() الآن على أساليب المصنع fromEndpoint() التي تبسط استخدام مواقع الخدمة المخصصة مقابل تعيين الخصائص يدويا. كما قمنا بتوحيد المواصفات الاختيارية botId لاستخدام روبوت غير افتراضي عبر مصانع التكوين.
JavaScript: تم تحسين أداء الجهاز من خلال خاصية التحكم في السلسلة المضافة لضغط websocket. لأسباب تتعلق بالأداء، قمنا بتعطيل ضغط websocket بشكل افتراضي. يمكن إعادة تمكين هذا لسيناريوهات النطاق الترددي المنخفض. مزيد من التفاصيل هنا. يعالج هذا مشكلة GitHub #242.
JavaScript: دعم إضافي لتقييم lPronunciation لتمكين تقييم نطق الكلام. راجع التشغيل السريع هنا.

إصلاحات الأخطاء

الكل (باستثناء JavaScript): تم إصلاح الانحدار في الإصدار 1.14، حيث تم تخصيص الكثير من الذاكرة من قبل أداة التعرف.
C++‎: تم إصلاح مشكلة تجميع البيانات المهملة مع DialogServiceConnector، ومعالجة مشكلة GitHub #794.
C#‎: تم إصلاح مشكلة في إيقاف تشغيل مؤشر الترابط الذي تسبب في حظر العناصر لمدة ثانية تقريبا عند التخلص منها.
C++/C#/Java: تم إصلاح استثناء يمنع التطبيق من تعيين الرمز المميز لتخويل الكلام أو قالب النشاط أكثر من مرة على DialogServiceConnector.
C++/C#/Java: تم إصلاح تعطل أداة التعرف بسبب حالة تعارض في التمزق.
JavaScript: DialogServiceConnector لم يحترم مسبقا المعلمة الاختيارية botId المحددة في BotFrameworkConfigمصانع . جعل ذلك من الضروري تعيين معلمة botId سلسلة الاستعلام يدويا لاستخدام روبوت غير افتراضي. تم تصحيح botId الخطأ وسيتم احترام القيم المقدمة إلى BotFrameworkConfigمصانع 's واستخدامها، بما في ذلك الجديد fromHost() والإضافات fromEndpoint() . ينطبق هذا أيضا على المعلمة applicationId ل CustomCommandsConfig.
JavaScript: تم إصلاح مشكلة GitHub #881، ما يسمح بإعادة استخدام كائن أداة التعرف.
JavaScript: تم إصلاح مشكلة إرسال speech.config SKD عدة مرات في جلسة TTS واحدة، وإهدار النطاق الترددي.
JavaScript: معالجة الأخطاء المبسطة على تخويل الميكروفون، ما يسمح بظرف رسالة وصفية أكثر عندما لا يسمح المستخدم بإدخال الميكروفون على متصفحه.
JavaScript: تم إصلاح مشكلة GitHub #249 حيث أخطاء النوع في ConversationTranslator وسببت ConversationTranscriber خطأ في التحويل البرمجي لمستخدمي TypeScript.
Objective-C: تم إصلاح مشكلة فشل إنشاء GStreamer لنظام التشغيل iOS على Xcode 11.4، حيث يعالج مشكلة GitHub #911.
Python: تم إصلاح مشكلة GitHub #870، وإزالة "DeprecationWarning: يتم إهمال وحدة imp لصالح importlib".

العينات

يستخدم نموذج من ملف لمستعرض JavaScript الآن ملفات للتعرف على الكلام. يعالج هذا مشكلة GitHub #884.

Speech SDK 1.14.0: إصدار 2020-أكتوبر

ملاحظة

يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك ل Visual Studio 2015 و2017 و2019.

الميزات الجديدة

Linux: دعم إضافي ل Debian 10 وUbuntu 20.04 LTS.
Python/Objective-C: دعم إضافي لواجهة KeywordRecognizer برمجة التطبيقات. ستكون الوثائق هنا.
C++/Java/C#: تمت إضافة دعم لتعيين أي HttpHeader مفتاح/قيمة عبر ServicePropertyChannel::HttpHeader.
JavaScript: دعم إضافي لواجهة ConversationTranscriber برمجة التطبيقات. اقرأ الوثائق هنا.
C++/C#: تمت إضافة أسلوب جديد AudioDataStream FromWavFileInput (لقراءة . ملفات WAV) هنا (C++)وهنا (C#).
C++/C#/Java/Python/Objective-C/Swift: تمت إضافة stopSpeakingAsync() طريقة لإيقاف النص إلى تركيب الكلام. اقرأ الوثائق المرجعية هنا (C++)، هنا (C#)، هنا (Java)، هنا (Python)، وهنا (Objective-C/Swift).
C#، C++، Java: تمت إضافة دالة FromDialogServiceConnector()Connection إلى الفئة التي يمكن استخدامها لمراقبة أحداث الاتصال وقطع الاتصال ل DialogServiceConnector. اقرأ الوثائق المرجعية هنا (C#)، هنا (C++)، وهنا (Java).
C++/C#/Java/Python/Objective-C/Swift: دعم إضافي لتقييم النطق، الذي يقيم نطق الكلام ويعطي المتحدثين ملاحظات حول دقة الصوت المنطوق وطلاقته. اقرأ الوثائق هنا.

كسر التغيير

JavaScript: يحتوي PullAudioOutputStream.read() على تغيير نوع إرجاع من وعد داخلي إلى وعد JavaScript أصلي.

إصلاحات الأخطاء

الكل: تم إصلاح الانحدار 1.13 حيث SetServiceProperty تم تجاهل القيم التي لها أحرف خاصة معينة.
C#‎: فشلت عينات وحدة تحكم Windows الثابتة في Visual Studio 2019 في العثور على مكتبات DLL الأصلية.
C#‎: تم إصلاح العطل مع إدارة الذاكرة إذا تم استخدام الدفق كمدخل KeywordRecognizer .
ObjectiveC/Swift: تم إصلاح العطل مع إدارة الذاكرة إذا تم استخدام الدفق كإدخل أداة التعرف.
Windows: تم إصلاح مشكلة التعايش مع BT HFP/A2DP على UWP.
JavaScript: تعيين ثابت لمعرفات الجلسة لتحسين التسجيل والمساعدة في ارتباطات التصحيح/الخدمة الداخلية.
JavaScript: تمت إضافة إصلاح لتعطيل DialogServiceConnectorListenOnce المكالمات بعد إجراء المكالمة الأولى.
JavaScript: تم إصلاح المشكلة حيث سيكون إخراج النتيجة "بسيطا" فقط.
JavaScript: تم إصلاح مشكلة التعرف المستمر في Safari على macOS.
JavaScript: تخفيف تحميل وحدة المعالجة المركزية لسيناريو معدل نقل الطلب العالي.
JavaScript: السماح بالوصول إلى تفاصيل نتيجة تسجيل ملف التعريف الصوتي.
JavaScript: تمت إضافة إصلاح للتعرف المستمر في IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: تم إصلاح عنوان url غير الصحيح ل australiaeast و brazilsouth في IntentRecognizer.
C++/C#: تمت إضافته VoiceProfileType كوسيطة عند إنشاء كائن VoiceProfile .
C++/C#/Java/Python/Swift/ObjectiveC: إمكانية SPX_INVALID_ARG ثابتة عند محاولة القراءة AudioDataStream من موضع معين.
IOS: تم إصلاح العطل مع التعرف على الكلام على Unity

العينات

ObjectiveC: تمت إضافة عينة للتعرف على الكلمة الأساسية هنا.
C#/JavaScript: تمت إضافة التشغيل السريع لنسخ المحادثة هنا (C#)وهنا (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: تمت إضافة عينة لتقييم النطق هنا

مشكلة معروفة

شهادة DigiCert Global Root G2 غير مدعومة بشكل افتراضي في HoloLens 2 وAndroid 4.4 (KitKat) ويجب إضافتها إلى النظام لجعل Speech SDK يعمل. ستتم إضافة الشهادة إلى صور نظام التشغيل HoloLens 2 في المستقبل القريب. يحتاج عملاء Android 4.4 إلى إضافة الشهادة المحدثة إلى النظام.

اختبار COVID-19 المختصر

نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء اختبار التحقق اليدوي كما نفعل عادة. لم نجر أي تغييرات نعتقد أنه كان من الممكن أن تكسر أي شيء، وتم اجتياز جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، يرجى إعلامنا على GitHub.
حافظ على صحة جيدة!

Speech SDK 1.13.0: إصدار 2020-يوليو

ملاحظة

يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك ل Visual Studio 2015 و2017 و2019.

الميزات الجديدة

C#‎: دعم إضافي لنسخ المحادثة غير المتزامنة. راجع الوثائق هنا.
JavaScript: تمت إضافة دعم التعرف على المتحدث لكل من المتصفح Node.js.
JavaScript: دعم إضافي لتعريف اللغة/معرف اللغة. راجع الوثائق هنا.
Objective-C: دعم إضافي للمحادثة متعددة الأجهزة وكتابة المحادثة.
Python: تمت إضافة دعم صوت مضغوط ل Python على Windows وLinux. راجع الوثائق هنا.

إصلاحات الأخطاء

الكل: تم إصلاح مشكلة تسببت في عدم تحريك التدفقات إلى الأمام بعد التعرف على الكلمات الأساسية.
الكل: تم إصلاح مشكلة تسببت في عدم احتواء الدفق الذي تم الحصول عليه من KeywordRecognitionResult على الكلمة الأساسية.
الكل: تم إصلاح مشكلة عدم قيام SendMessageAsync بإرسال الرسالة عبر السلك بعد انتهاء المستخدمين من انتظارها.
الكل: تم إصلاح عطل في واجهات برمجة تطبيقات التعرف على السماعات عندما يتصل المستخدمون بالأسلوب VoiceProfileClient::SpeakerRecEnrollProfileAsync عدة مرات ولم ينتظروا حتى تنتهي المكالمات.
الكل: تم إصلاح تمكين تسجيل الملفات في فئتي VoiceProfileClient و SpeakerRecognizer.
JavaScript: تم إصلاح مشكلة التقييد عند تصغير المستعرض.
JavaScript: تم إصلاح مشكلة تسرب الذاكرة على التدفقات.
JavaScript: إضافة التخزين المؤقت لاستجابات OCSP من NodeJS.
Java: تم إصلاح مشكلة كانت تتسبب في إرجاع حقول BigInteger دائما 0.
iOS: تم إصلاح مشكلة نشر التطبيقات المستندة إلى Speech SDK في متجر تطبيقات iOS.

العينات

C++‎: تمت إضافة نموذج التعليمات البرمجية للتعرف على المتحدث هنا.

اختبار COVID-19 المختصر

Speech SDK 1.12.1: إصدار 2020-يونيو

الميزات الجديدة

C#، C++‎: معاينة التعرف على المتحدث: تتيح هذه الميزة تحديد المتحدث (من يتحدث؟) والتحقق من المتحدث (هل هو المتحدث الذي يدعي أنه؟). راجع وثائق النظرة العامة.

إصلاحات الأخطاء

C#، C++‎: لم يكن تسجيل الميكروفون الثابت يعمل في 1.12 في التعرف على السماعة.
JavaScript: إصلاحات لتحويل النص إلى كلام في Firefox وSafari على macOS وiOS.
إصلاح تعطل انتهاك الوصول إلى مدقق تطبيق Windows عند كتابة المحادثة عند استخدام دفق ثماني قنوات.
إصلاح تعطل انتهاك الوصول إلى مدقق تطبيق Windows على ترجمة المحادثات متعددة الأجهزة.

العينات

C#‎: نموذج التعليمات البرمجية للتعرف على المتحدث.
C++‎: نموذج التعليمات البرمجية للتعرف على المتحدث.
Java: نموذج التعليمات البرمجية للتعرف على الهدف على Android.

اختبار COVID-19 المختصر

Speech SDK 1.12.0: إصدار 2020-May

الميزات الجديدة

Go: دعم لغة Go الجديدة للتعرف على الكلام والمساعد الصوتي المخصص. قم بإعداد بيئة التطوير الخاصة بك هنا. للحصول على نموذج التعليمات البرمجية، راجع قسم Samples أدناه.
JavaScript: دعم مستعرض إضافي لتحويل النص إلى كلام. راجع الوثائق هنا.
C++، C#، Java: كائن جديد KeywordRecognizer وواجهات برمجة التطبيقات مدعومة على أنظمة Windows وAndroid وLinux وiOS الأساسية. اقرأ الوثائق هنا. للحصول على نموذج التعليمات البرمجية، راجع قسم Samples أدناه.
Java: تمت إضافة محادثة متعددة الأجهزة مع دعم الترجمة. راجع المستند المرجعي هنا.

التحسينات والتحسينات

JavaScript: تحسين تطبيق ميكروفون المستعرض لتحسين دقة التعرف على الكلام.
Java: الروابط المعاد بناء التعليمات البرمجية باستخدام تنفيذ JNI المباشر دون SWIG. يقلل هذا التغيير بمقدار 10 أضعاف حجم الروابط لجميع حزم Java المستخدمة في Windows وAndroid وLinux وMac ويسهل تطوير تطبيق Speech SDK Java.
Linux: وثائق الدعم المحدثة مع أحدث ملاحظات RHEL 7 المحددة.
تحسين منطق الاتصال لمحاولة الاتصال عدة مرات عند حدوث أخطاء في الخدمة والشبكة.
حدث صفحة portal.azure.com Speech Quickstart لمساعدة المطورين على اتخاذ الخطوة التالية في رحلة Azure الذكاء الاصطناعي Speech.

إصلاحات الأخطاء

C#، Java: تم إصلاح مشكلة في تحميل مكتبات SDK على Linux ARM (كل من 32 بت و64 بت).
C#‎: تم تصحيح التخلص الصريح من المقابض الأصلية ل TranslationRecognizer و IntentRecognizer وعناصر الاتصال.
C#‎: تم إصلاح إدارة مدة بقاء إدخال الصوت لكائن ConversationTranscriber.
تم إصلاح مشكلة IntentRecognizer عدم تعيين سبب النتيجة بشكل صحيح عند التعرف على الأهداف من العبارات البسيطة.
تم إصلاح مشكلة SpeechRecognitionEventArgs عدم تعيين إزاحة النتيجة بشكل صحيح.
تم إصلاح حالة تعارض حيث كانت SDK تحاول إرسال رسالة شبكة قبل فتح اتصال websocket. كان قابلا للتكرار أثناء TranslationRecognizer إضافة المشاركين.
تسرب الذاكرة الثابتة في محرك أداة التعرف على الكلمة الأساسية.

العينات

Go: تمت إضافة قوالب التشغيل السريع للتعرف على الكلام والمساعد الصوتي المخصص. ابحث عن نموذج التعليمات البرمجية هنا.
JavaScript: تمت إضافة قوالب تشغيل سريعة للنص إلى كلام وترجمة والتعرف على الهدف.
نماذج التعرف على الكلمات الأساسية ل C#‎وJava (Android).

اختبار COVID-19 المختصر

نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء اختبار التحقق اليدوي كما نفعل عادة. لم نجر أي تغييرات نعتقد أنه كان من الممكن أن تكسر أي شيء، وتم اجتياز جميع اختباراتنا التلقائية. إذا فاتنا شيء ما، فالرجاء إعلامنا على GitHub.
حافظ على صحة جيدة!

Speech SDK 1.11.0: إصدار 2020-مارس

الميزات الجديدة

Linux: دعم إضافي ل Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
Linux: دعم إضافي ل .NET Core C# على Linux ARM32 و Arm64. اقرأ المزيد هنا.
C#، C++: تمت إضافته UtteranceId في ConversationTranscriptionResult، وهو معرف متناسق عبر جميع الوسيطات ونتيجة التعرف على الكلام النهائية. تفاصيل C#‎، C++‎.
Python: دعم إضافي ل Language ID. راجع speech_sample.py في مستودع GitHub.
Windows: تمت إضافة دعم تنسيق إدخال الصوت المضغوط على نظام Windows الأساسي لجميع تطبيقات وحدة تحكم win32. التفاصيل هنا.
JavaScript: دعم تركيب الكلام (نص إلى كلام) في NodeJS. تعرف على المزيد هنا.
JavaScript: أضف واجهات برمجة تطبيقات جديدة لتمكين فحص جميع الرسائل المرسلة والمستلمة. تعرف على المزيد هنا.

إصلاحات الأخطاء

C#، C++: تم إصلاح مشكلة، لذا SendMessageAsync يرسل الآن رسالة ثنائية كنوع ثنائي. تفاصيل C#‎، C++‎.
C#, C++: تم إصلاح مشكلة حيث قد يتسبب استخدام Connection MessageReceived الحدث في حدوث عطل إذا Recognizer تم التخلص منه قبل Connection الكائن. تفاصيل C#‎، C++‎.
Android: انخفض حجم المخزن المؤقت للصوت من الميكروفون من 800 مللي ثانية إلى 100 مللي ثانية لتحسين زمن الانتقال.
Android: تم إصلاح مشكلة في محاكي x86 Android في Android Studio.
JavaScript: دعم إضافي للمناطق في الصين باستخدام fromSubscription واجهة برمجة التطبيقات. التفاصيل هنا.
JavaScript: أضف المزيد من معلومات الخطأ لفشل الاتصال من NodeJS.

العينات

Unity: تم إصلاح العينة العامة للتعرف على الهدف، حيث فشل استيراد LUIS json. التفاصيل هنا.
Python: تمت إضافة عينة ل Language ID. التفاصيل هنا.

اختبار Covid19 المختصر: نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء اختبار التحقق اليدوي من الجهاز كما نفعل عادة. على سبيل المثال، تعذر علينا اختبار إدخال الميكروفون وإخراج السماعة على Linux وiOS وmacOS. لم نجر أي تغييرات نعتقد أنها قد كسرت أي شيء على هذه الأنظمة الأساسية، وتم اجتياز جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، أخبرنا على GitHub.
نشكرك على دعمك المستمر. كما هو الحال دائما، يرجى نشر الأسئلة أو الملاحظات على GitHub أو Stack Overflow.
حافظ على صحة جيدة!

Speech SDK 1.10.0: إصدار 2020-فبراير

الميزات الجديدة

تمت إضافة حزم Python لدعم الإصدار الجديد 3.8 من Python.
دعم Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++، C#، Java، Python).

ملاحظة

يجب على العملاء تكوين OpenSSL وفقا لهذه الإرشادات.
دعم Linux ARM32 ل Debian وUbuntu.
يدعم DialogServiceConnector الآن معلمة اختيارية "معرف الروبوت" على BotFrameworkConfig. تسمح هذه المعلمة باستخدام عدة روبوتات Direct Line Speech مع مورد Speech واحد. بدون تحديد المعلمة، سيتم استخدام الروبوت الافتراضي (كما تحدده صفحة تكوين قناة Direct Line Speech).
يحتوي DialogServiceConnector الآن على خاصية SpeechActivityTemplate. سيتم استخدام محتويات سلسلة JSON هذه بواسطة Direct Line Speech لملء مجموعة واسعة من الحقول المدعومة مسبقا في جميع الأنشطة التي تصل إلى روبوت Direct Line Speech، بما في ذلك الأنشطة التي يتم إنشاؤها تلقائيا استجابة لأحداث مثل التعرف على الكلام.
يستخدم TTS الآن مفتاح الاشتراك للمصادقة، ما يقلل من زمن انتقال البايت الأول من نتيجة التركيب الأولى بعد إنشاء توليف.
نماذج التعرف على الكلام المحدثة ل 19 لغة لمتوسط تقليل معدل خطأ الكلمات 18.6% (es-ESes-MXfr-CAfr-FRit-ITja-JPko-KRpt-BR، zh-CN، zh-HK، nb-NO، fi-FL، ru-RU، pl-PL، ca-ES، zh-TW، th-TH، pt-PT، tr-TR). تجلب النماذج الجديدة تحسينات كبيرة عبر مجالات متعددة بما في ذلك الإملاء Call-Center النسخ وسيناريوهات فهرسة الفيديو.

إصلاحات الأخطاء

تم إصلاح الخطأ حيث لم ينتظر ناسخ المحادثة بشكل صحيح في واجهات برمجة تطبيقات JAVA.
إضافة مفقود (الحصول على|تعيين) أساليب الخاصية إلى AudioConfig.
إصلاح خطأ TTS حيث لا يمكن إيقاف audioDataStream عند فشل الاتصال.
قد يؤدي استخدام نقطة نهاية بدون منطقة إلى فشل USP لمترجم المحادثة.
يستخدم إنشاء المعرف في Universal Windows Applications الآن خوارزمية GUID فريدة بشكل مناسب؛ كان افتراضيا في السابق وغير مقصود لتنفيذ متقلب غالبا ما ينتج عنه تضاربات على مجموعات كبيرة من التفاعلات.

العينات

نموذج Unity لاستخدام Speech SDK مع ميكروفون Unity وتدفق وضع الدفع

تغييرات أخرى

تم تحديث وثائق تكوين OpenSSL لنظام Linux

Speech SDK 1.9.0: إصدار 2020-يناير

الميزات الجديدة

محادثة متعددة الأجهزة: قم بتوصيل أجهزة متعددة بنفس الكلام أو المحادثة النصية، وترجمة الرسائل المرسلة بينها اختياريا. تعرف على المزيد في هذه المقالة.
تمت إضافة دعم التعرف على الكلمات الأساسية لحزمة Android .aar وإضافة دعم لنكهتي x86 وx64.
Objective-C: SendMessage والأساليب SetMessageProperty المضافة إلى Connection الكائن. راجع الوثائق هنا.
يدعم std::wstring TTS C++ api الآن كإدخال نص تركيبي، مما يزيل الحاجة إلى تحويل wstring إلى سلسلة قبل تمريره إلى SDK. راجع التفاصيل هنا.
C#: معرف اللغة وتكوين لغة المصدر متوفران الآن.
JavaScript: تمت إضافة ميزة إلى Connection الكائن لتمريرها عبر الرسائل المخصصة من خدمة الكلام كرد اتصال receivedServiceMessage.
JavaScript: دعم FromHost API إضافي لتسهيل الاستخدام مع الحاويات المحلية والسحب السيادية. راجع الوثائق هنا.
JavaScript: نكرم NODE_TLS_REJECT_UNAUTHORIZED الآن بفضل مساهمة من المؤسسات. راجع التفاصيل هنا.

التغييرات العاجلة

OpenSSL تم تحديثه إلى الإصدار 1.1.1b وهو مرتبط بشكل ثابت بمكتبة Speech SDK الأساسية ل Linux. قد يؤدي هذا إلى انقطاع إذا لم يتم تثبيت علبة الوارد OpenSSL على /usr/lib/ssl الدليل في النظام. تحقق من وثائقنا ضمن مستندات Speech SDK لحل المشكلة.
لقد قمنا بتغيير نوع البيانات التي تم إرجاعها ل C#‎ WordLevelTimingResult.Offset من int إلى long للسماح بالوصول إلى WordLevelTimingResults عندما تكون بيانات الكلام أطول من دقيقتين.
PushAudioInputStream والآن PullAudioInputStream أرسل معلومات رأس wav إلى خدمة الكلام استنادا AudioStreamFormatإلى ، التي تم تحديدها اختياريا عند إنشائها. يجب على العملاء الآن استخدام تنسيق إدخال الصوت المدعوم. ستحصل أي تنسيقات أخرى على نتائج التعرف دون المستوى الأمثل أو قد تتسبب في مشكلات أخرى.

إصلاحات الأخطاء

OpenSSL راجع التحديث ضمن كسر التغييرات أعلاه. لقد أصلحنا كلا من العطل المتقطع ومشكلات الأداء (قفل الخلاف تحت الحمل العالي) في Linux وJava.
Java: تم إجراء تحسينات على إغلاق الكائن في سيناريوهات التزامن العالية.
إعادة هيكلة حزمة NuGet الخاصة بنا. قمنا بإزالة النسخ الثلاث من Microsoft.CognitiveServices.Speech.core.dll مجلدات lib وضمنها Microsoft.CognitiveServices.Speech.extension.kws.dll ، مما جعل حزمة NuGet أصغر وأسرع للتنزيل، وأضفنا الرؤوس اللازمة لتجميع بعض تطبيقات C++ الأصلية.
تم إصلاح نماذج التشغيل السريع هنا. كانت هذه الإنهاء دون عرض استثناء "الميكروفون غير موجود" على Linux وmacOS وWindows.
تم إصلاح تعطل SDK مع نتائج التعرف على الكلام الطويلة على مسارات تعليمات برمجية معينة مثل هذه العينة.
تم إصلاح خطأ نشر SDK في بيئة Azure Web App لمعالجة مشكلة العميل هذه.
تم إصلاح خطأ TTS أثناء استخدام علامة أو <voice> علامة متعددة <audio> لمعالجة مشكلة العميل هذه.
تم إصلاح خطأ TTS 401 عند استرداد SDK من معلق.
JavaScript: تم إصلاح استيراد دائري للبيانات الصوتية بفضل مساهمة من euirim.
JavaScript: تمت إضافة دعم لإعداد خصائص الخدمة، كما هو مضاف في 1.7.
JavaScript: تم إصلاح مشكلة حيث قد يؤدي خطأ الاتصال إلى محاولات إعادة اتصال مستمرة وغير ناجحة على websocket.

العينات

تمت إضافة نموذج التعرف على الكلمة الأساسية لنظام التشغيل Android هنا.
تمت إضافة نموذج TTS لسيناريو الخادم هنا.
تمت إضافة قوالب تشغيل سريعة للمحادثة متعددة الأجهزة ل C# وC++ هنا.

تغييرات أخرى

حجم مكتبة SDK الأساسية المحسنة على Android.
تدعم SDK في الإصدار 1.9.0 وما بعده كلا النوعين int و string في حقل إصدار التوقيع الصوتي ل "ناسخ المحادثة".

Speech SDK 1.8.0: إصدار 2019-نوفمبر

الميزات الجديدة

تمت إضافة FromHost() واجهة برمجة تطبيقات، لتسهيل الاستخدام مع الحاويات المحلية والسحب السيادية.
تمت إضافة تعريف لغة المصدر للتعرف على الكلام (بلغة Java وC++)
تمت إضافة SourceLanguageConfig كائن للتعرف على الكلام، يستخدم لتحديد لغات المصدر المتوقعة (في Java وC++)
دعم إضافي KeywordRecognizer على Windows (UWP) وAndroid وiOS من خلال حزم NuGet وUnity
تمت إضافة واجهة برمجة تطبيقات Java للمحادثة عن بعد لإجراء نسخ المحادثة في دفعات غير متزامنة.

التغييرات العاجلة

تم نقل وظائف ناسخ المحادثة ضمن مساحة Microsoft.CognitiveServices.Speech.Transcriptionالاسم .
يتم نقل أجزاء من أساليب ناسخ المحادثة إلى فئة جديدة Conversation .
تم إسقاط الدعم لنظام التشغيل iOS 32 بت (ARMv7 وx86)

إصلاحات الأخطاء

إصلاح التعطل إذا تم استخدام محلي KeywordRecognizer بدون مفتاح اشتراك خدمة الكلام صالح

العينات

عينة Xamarin ل KeywordRecognizer
عينة Unity ل KeywordRecognizer
نماذج C++ وJava لتحديد لغة المصدر التلقائي.

Speech SDK 1.7.0: إصدار 2019-سبتمبر

الميزات الجديدة

تمت إضافة دعم بيتا ل Xamarin على النظام الأساسي العام ل Windows (UWP) وAndroid وiOS
إضافة دعم iOS ل Unity
إضافة Compressed دعم إدخال ل ALaw و Mulaw و FLAC و على Android و iOS و Linux
تمت الإضافة SendMessageAsync في Connection فئة لإرسال رسالة إلى الخدمة
تمت إضافته SetMessageProperty في Connection فئة لإعداد خاصية لرسالة
أضافت TTS روابط ل Java (JRE وAndroid) وPython وSwift Objective-C
أضاف TTS دعم التشغيل ل macOS وiOS وAndroid.
تمت إضافة معلومات "حد كلمة" ل TTS.

إصلاحات الأخطاء

تم إصلاح مشكلة إصدار IL2CPP على Unity 2019 for Android
تم إصلاح مشكلة معالجة الرؤوس غير الصحيحة في إدخال ملف wav بشكل غير صحيح
تم إصلاح مشكلة عدم كون UUIDs فريدة في بعض خصائص الاتصال
تم إصلاح بعض التحذيرات حول محددات قابلية القيم الخالية في روابط Swift (قد تتطلب تغييرات صغيرة في التعليمات البرمجية)
إصلاح خطأ تسبب في إغلاق اتصالات websocket بشكل غير لائق ضمن تحميل الشبكة
تم إصلاح مشكلة على Android تؤدي في بعض الأحيان إلى تكرار معرفات الظهور المستخدمة من قبل DialogServiceConnector
تحسينات على استقرار الاتصالات عبر التفاعلات متعددة الأدوار والإبلاغ عن حالات الفشل (عبر Canceled الأحداث) عند حدوثها مع DialogServiceConnector
DialogServiceConnector ستوفر جلسة العمل التي تبدأ الآن الأحداث بشكل صحيح، بما في ذلك عند الاتصال ListenOnceAsync() أثناء نشط StartKeywordRecognitionAsync()
معالجة عطل مرتبط بالأنشطة DialogServiceConnector التي يتم تلقيها

العينات

التشغيل السريع ل Xamarin
تحديث CPP Quickstart مع معلومات Linux Arm64
التشغيل السريع ل Unity المحدث مع معلومات iOS

Speech SDK 1.6.0: إصدار 2019-يونيو

العينات

نماذج التشغيل السريع ل Text To Speech على UWP وUnity
نموذج التشغيل السريع ل Swift على iOS
نماذج Unity للتعرف على الكلام والقصد والترجمة
نماذج التشغيل السريع المحدثة ل DialogServiceConnector

التحسينات / التغييرات

مساحة اسم مربع الحوار:
- SpeechBotConnector تمت إعادة تسميته إلى DialogServiceConnector
- BotConfig تمت إعادة تسميته إلى DialogServiceConfig
- BotConfig::FromChannelSecret() تم إعادة تعيينه إلى DialogServiceConfig::FromBotSecret()
- يستمر دعم جميع عملاء Direct Line Speech الحاليين بعد إعادة التسمية
تحديث محول TTS REST لدعم الوكيل والاتصال المستمر
تحسين رسالة الخطأ عند تمرير منطقة غير صالحة
Swift/Objective-C:
- تحسين الإبلاغ عن الأخطاء: الأساليب التي يمكن أن تؤدي إلى حدوث خطأ موجودة الآن في إصدارين: أحدهما يعرض كائنا NSError لمعالجة الأخطاء، والآخر يثير استثناء. الأول معرض ل Swift. يتطلب هذا التغيير تعديلات على التعليمات البرمجية Swift الموجودة.
- معالجة الأحداث المحسنة

إصلاحات الأخطاء

إصلاح TTS: المكان الذي SpeakTextAsync تم إرجاعه في المستقبل دون الانتظار حتى يكتمل العرض الصوتي
إصلاح تنظيم السلاسل في C# لتمكين دعم اللغة الكامل
إصلاح مشكلة تطبيق .NET core لتحميل المكتبة الأساسية باستخدام إطار عمل الهدف net461 في العينات
إصلاح المشكلات العرضية لنشر المكتبات الأصلية إلى مجلد الإخراج في العينات
إصلاح إغلاق مأخذ توصيل الويب بشكل موثوق
إصلاح الأعطال المحتملة أثناء فتح اتصال تحت حمولة ثقيلة على Linux
إصلاح بيانات التعريف المفقودة في مجموعة إطار العمل لنظام التشغيل macOS
إصلاح المشكلات المتعلقة ب pip install --user Windows

Speech SDK 1.5.1

هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلي/المدار. لا يؤثر على إصدار JavaScript من SDK.

إصلاحات الأخطاء

إصلاح FromSubscription عند استخدامه مع كتابة المحادثة.
إصلاح الخطأ في تحديد الكلمة الأساسية للمساعدين الصوتيين.

Speech SDK 1.5.0: إصدار 2019-May

الميزات الجديدة

يتوفر الآن اكتشاف الكلمات الأساسية (KWS) لنظامي التشغيل Windows وLinux. قد تعمل وظيفة KWS مع أي نوع ميكروفون، دعم KWS الرسمي، ومع ذلك، يقتصر حاليا على صفائف الميكروفون الموجودة في أجهزة Azure Kinect DK أو أجهزة الكلام SDK.
تتوفر وظيفة تلميح العبارة من خلال SDK. لمزيد من المعلومات، راجع هنا.
تتوفر وظيفة كتابة المحادثة من خلال SDK.
إضافة دعم المساعدين الصوتيين باستخدام قناة Direct Line Speech.

العينات

تمت إضافة عينات للميزات الجديدة أو الخدمات الجديدة التي يدعمها SDK.

التحسينات / التغييرات

تمت إضافة خصائص أداة التعرف المختلفة لضبط سلوك الخدمة أو نتائج الخدمة (مثل إخفاء الألفاظ النابية وغيرها).
يمكنك الآن تكوين أداة التعرف من خلال خصائص التكوين القياسية، حتى إذا قمت بإنشاء أداة FromEndpointالتعرف .
Objective-C: OutputFormat تمت إضافة الخاصية إلى SPXSpeechConfiguration.
تدعم SDK الآن Debian 9 ك توزيع Linux.

إصلاحات الأخطاء

تم إصلاح مشكلة حيث تم إلغاء هيكلة مورد السماعة مبكرا جدا في النص إلى كلام.

Speech SDK 1.4.2

هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلي/المدار. لا يؤثر على إصدار JavaScript من SDK.

Speech SDK 1.4.1

هذا إصدار JavaScript فقط. لم تتم إضافة أي ميزات. تم إجراء الإصلاحات التالية:

منع حزمة الويب من تحميل https-proxy-agent.

Speech SDK 1.4.0: إصدار 2019-أبريل

الميزات الجديدة

يدعم SDK الآن خدمة تحويل النص إلى كلام كإصدار بيتا. وهو مدعوم على Windows وLinux Desktop من C++ وC#. لمزيد من المعلومات، راجع نظرة عامة على النص إلى كلام.
يدعم SDK الآن ملفات الصوت MP3 وOpus/OGG كملفات إدخال دفق. تتوفر هذه الميزة فقط على Linux من C++ وC# وهي حاليا في الإصدار التجريبي (مزيد من التفاصيل هنا).
حصلت Speech SDK ل Java و.NET core وC++ Objective-C على دعم macOS. دعم Objective-C لنظام التشغيل macOS حاليا في الإصدار التجريبي.
iOS: يتم الآن نشر Speech SDK لنظام التشغيل iOS (Objective-C) أيضا ك CocoaPod.
JavaScript: دعم الميكروفون غير الافتراضي كجهاز إدخال.
JavaScript: دعم الوكيل Node.js.

العينات

تمت إضافة نماذج لاستخدام Speech SDK مع C++ ومع Objective-C على macOS.
تمت إضافة نماذج توضح استخدام خدمة النص إلى الكلام.

التحسينات / التغييرات

Python: يتم الآن عرض خصائص إضافية لنتائج التعرف عبر الخاصية properties .
للحصول على دعم إضافي للتطوير وتصحيح الأخطاء، يمكنك إعادة توجيه معلومات تسجيل SDK والتشخيص إلى ملف سجل (مزيد من التفاصيل هنا).
JavaScript: تحسين أداء معالجة الصوت.

إصلاحات الأخطاء

Mac/iOS: تم إصلاح الخطأ الذي أدى إلى انتظار طويل عند تعذر تأسيس اتصال بخدمة الكلام.
Python: تحسين معالجة الأخطاء للوسيطات في عمليات رد اتصال Python.
JavaScript: انتهت تقارير حالة الكلام الخاطئة الثابتة على RequestSession.

Speech SDK 1.3.1: تحديث 2019-فبراير

هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلي/المدار. لا يؤثر على إصدار JavaScript من SDK.

إصلاح الأخطاء

تم إصلاح تسرب الذاكرة عند استخدام إدخال الميكروفون. لا يتأثر الإدخال المستند إلى الدفق أو الملف.

Speech SDK 1.3.0: إصدار 2019-فبراير

الميزات الجديدة

يدعم Speech SDK تحديد ميكروفون الإدخال من خلال AudioConfig الفئة. يسمح لك هذا ببث البيانات الصوتية إلى خدمة الكلام من ميكروفون غير افتراضي. لمزيد من المعلومات، راجع الوثائق التي تصف تحديد جهاز إدخال الصوت. هذه الميزة غير متوفرة بعد من JavaScript.
يدعم Speech SDK الآن Unity في إصدار بيتا. تقديم ملاحظات من خلال قسم المشكلة في مستودع عينة GitHub. يدعم هذا الإصدار Unity على Windows x86 وx64 (تطبيقات سطح المكتب أو النظام الأساسي العام ل Windows)، وAndroid (ARM32/64، x86). يتوفر المزيد من المعلومات في التشغيل السريع ل Unity.
لم تعد هناك حاجة إلى الملف Microsoft.CognitiveServices.Speech.csharp.bindings.dll (الذي تم شحنه في الإصدارات السابقة). تم دمج الوظيفة الآن في SDK الأساسي.

العينات

يتوفر المحتوى الجديد التالي في مستودع العينة الخاص بنا:

عينات إضافية ل AudioConfig.FromMicrophoneInput.
عينات Python إضافية للتعرف على الهدف والترجمة.
نماذج إضافية لاستخدام Connection الكائن في iOS.
عينات Java إضافية للترجمة مع إخراج الصوت.
عينة جديدة لاستخدام واجهة برمجة تطبيقات REST للنسخ الدفعي.

التحسينات / التغييرات

بايثون
- تحسين التحقق من المعلمة ورسائل الخطأ في SpeechConfig.
- إضافة دعم للكائن Connection .
- دعم Python 32 بت (x86) على Windows.
- Speech SDK ل Python خارج بيتا.
دائره الرقابه الداخليه
- تم الآن إنشاء SDK مقابل الإصدار 12.1 من iOS SDK.
- يدعم SDK الآن إصدارات iOS 9.2 والإصدارات الأحدث.
- تحسين الوثائق المرجعية وإصلاح العديد من أسماء الخصائص.
JavaScript
- إضافة دعم للكائن Connection .
- إضافة ملفات تعريف النوع ل JavaScript المجمعة
- الدعم الأولي والتنفيذ لتلميحات العبارة.
- إرجاع مجموعة الخصائص مع خدمة JSON للتعرف
تحتوي DLLs ل Windows الآن على مورد إصدار.
إذا قمت بإنشاء أداة FromEndpointالتعرف ، يمكنك إضافة معلمات مباشرة إلى عنوان URL لنقطة النهاية. FromEndpoint لا يمكنك استخدام تكوين أداة التعرف من خلال خصائص التكوين القياسية.

إصلاحات الأخطاء

لم يتم التعامل مع اسم المستخدم الوكيل الفارغ وكلمة مرور الوكيل بشكل صحيح. باستخدام هذا الإصدار، إذا قمت بتعيين اسم المستخدم الوكيل وكلمة مرور الوكيل إلى سلسلة فارغة، فلن يتم إرسالهما عند الاتصال بالوكيل.
لم يكن SessionId الذي تم إنشاؤه بواسطة SDK دائما عشوائيا حقا لبعض اللغات / البيئات. تمت إضافة تهيئة منشئ عشوائي لإصلاح هذه المشكلة.
تحسين معالجة رمز التخويل المميز. إذا كنت تريد استخدام رمز مميز للتخويل، فحدد في SpeechConfig واترك مفتاح API فارغا. ثم قم بإنشاء أداة التعرف كالمعتاد.
في بعض الحالات، Connection لم يتم تحرير الكائن بشكل صحيح. تم إصلاح هذه المشكلة.
تم إصلاح عينة JavaScript لدعم الإخراج الصوتي لتركيب الترجمة أيضا على Safari.

Speech SDK 1.2.1

هذا إصدار JavaScript فقط. لم تتم إضافة أي ميزات. تم إجراء الإصلاحات التالية:

نهاية إطلاق الدفق عند turn.end، وليس في speech.end.
إصلاح الخلل في مضخة الصوت التي لم تقم بجدولة الإرسال التالي إذا فشل الإرسال الحالي.
إصلاح التعرف المستمر باستخدام رمز المصادقة المميز.
إصلاح الأخطاء لمتعرف / نقاط نهاية مختلفة.
تحسينات الوثائق.

Speech SDK 1.2.0: إصدار 2018-ديسمبر

الميزات الجديدة

بايثون
- يتوفر الإصدار بيتا من دعم Python (3.5 وما فوق) مع هذا الإصدار. لمزيد من المعلومات، راجع هنا](.. /.. /quickstart-python.md).
JavaScript
- تم فتح مصدر Speech SDK ل JavaScript. تتوفر التعليمات البرمجية المصدر على GitHub.
- ندعم الآن Node.js، يمكن العثور على مزيد من المعلومات هنا.
- تمت إزالة قيود الطول لجلسات الصوت، وستحدث إعادة الاتصال تلقائيا تحت الغطاء.
Connection كائن
- Recognizerمن ، يمكنك الوصول إلى كائنConnection. يسمح لك هذا الكائن ببدء اتصال الخدمة بشكل صريح والاشتراك في أحداث الاتصال وقطع الاتصال. (هذه الميزة غير متوفرة بعد من JavaScript وPython.)
دعم Ubuntu 18.04.
الروبوت
- دعم ProGuard الممكن أثناء إنشاء APK.

التحسينات

تحسينات في استخدام مؤشر الترابط الداخلي، ما يقلل من عدد مؤشرات الترابط، والأقفال، وكتم الصوت.
تحسين الإبلاغ عن الأخطاء / المعلومات. في عدة حالات، لم يتم نشر رسائل الخطأ على طول الطريق.
تبعيات التطوير المحدثة في JavaScript لاستخدام وحدات up-to-date.

إصلاحات الأخطاء

تم إصلاح تسرب الذاكرة بسبب عدم تطابق النوع في RecognizeAsync.
وفي بعض الحالات تسريب استثناءات.
إصلاح تسرب الذاكرة في وسيطات حدث الترجمة.
تم إصلاح مشكلة تأمين عند إعادة الاتصال في جلسات عمل طويلة الأمد.
تم إصلاح مشكلة قد تؤدي إلى فقدان النتيجة النهائية للترجمات الفاشلة.
C#: إذا async لم يتم انتظار عملية في مؤشر الترابط الرئيسي، فمن الممكن التخلص من أداة التعرف قبل اكتمال المهمة غير المتزامنة.
Java: تم إصلاح مشكلة تؤدي إلى تعطل جهاز Java الظاهري.
Objective-C: تعيين قائمة تعداد ثابتة؛ تم إرجاع RecognizedIntent بدلا من RecognizingIntent.
JavaScript: تعيين تنسيق الإخراج الافتراضي إلى "بسيط" في SpeechConfig.
JavaScript: إزالة عدم التناسق بين الخصائص على كائن التكوين في JavaScript واللغات الأخرى.

العينات

تم تحديث العديد من العينات وإصلاحها (على سبيل المثال أصوات الإخراج للترجمة، وما إلى ذلك).
تمت إضافة عينات Node.js في مستودع العينة.

Speech SDK 1.1.0

الميزات الجديدة

دعم Android x86/x64.
دعم الوكيل: في SpeechConfig الكائن، يمكنك الآن استدعاء دالة لتعيين معلومات الوكيل (اسم المضيف والمنفذ واسم المستخدم وكلمة المرور). هذه الميزة غير متوفرة بعد على iOS.
رمز الخطأ والرسائل المحسنة. إذا أرجع التعرف خطأ، فهذا قد تم تعيينه Reason بالفعل (في حدث تم إلغاؤه) أو CancellationDetails (في نتيجة التعرف) إلى Error. يحتوي الحدث الذي تم إلغاؤه الآن على عضوين إضافيين، ErrorCode و ErrorDetails. إذا أرجع الخادم معلومات خطأ إضافية مع الخطأ الذي تم الإبلاغ عنه، فسيكون متوفرا الآن في الأعضاء الجدد.

التحسينات

تمت إضافة تحقق إضافي في تكوين أداة التعرف، وإضافة رسالة خطأ إضافية.
معالجة محسنة للصمت لفترة طويلة في منتصف ملف صوتي.
حزمة NuGet: لمشاريع .NET Framework، تمنع البناء باستخدام تكوين AnyCPU.

إصلاحات الأخطاء

تم إصلاح العديد من الاستثناءات الموجودة في أدوات التعرف. بالإضافة إلى ذلك، يتم التقاط الاستثناءات وتحويلها إلى Canceled حدث.
إصلاح تسرب الذاكرة في إدارة الخصائص.
تم إصلاح الخطأ حيث يمكن أن يتعطل ملف إدخال الصوت في أداة التعرف.
تم إصلاح خطأ حيث يمكن تلقي الأحداث بعد حدث إيقاف جلسة العمل.
تم إصلاح بعض شروط السباق في الترابط.
تم إصلاح مشكلة توافق iOS التي قد تؤدي إلى حدوث عطل.
تحسينات الثبات لدعم ميكروفون Android.
تم إصلاح خطأ حيث يتجاهل أداة التعرف في JavaScript لغة التعرف.
تم إصلاح خطأ يمنع إعداد EndpointId (في بعض الحالات) في JavaScript.
تغيير ترتيب المعلمة في AddIntent في JavaScript، وإضافة توقيع JavaScript مفقود AddIntent .

العينات

تمت إضافة عينات C++ وC# لسحب ودفع استخدام الدفق في مستودع العينة.

Speech SDK 1.0.1

تحسينات الموثوقية وإصلاحات الأخطاء:

إصلاح الخطأ الفاديح المحتمل بسبب حالة السباق في أداة التعرف على التخلص
تم إصلاح الخطأ الفاديح المحتمل عند حدوث خصائص غير محددة.
تمت إضافة تدقيق إضافي للخطأ والمعلمة.
Objective-C: تم إصلاح الخطأ الفادحي المحتمل الناجم عن تجاوز الاسم في NSString.
Objective-C: الرؤية المعدلة لواجهة برمجة التطبيقات
JavaScript: تم إصلاحه فيما يتعلق بالأحداث والحمولات الخاصة بها.
تحسينات الوثائق.

في مستودع العينة لدينا، تمت إضافة عينة جديدة ل JavaScript.

Azure الذكاء الاصطناعي Speech SDK 1.0.0: إصدار 2018-سبتمبر

الميزات الجديدة

دعم Objective-C على iOS. تحقق من التشغيل السريعObjective-C لنظام التشغيل iOS.
دعم JavaScript في المستعرض. تحقق من التشغيل السريع ل JavaScript.

التغييرات العاجلة

مع هذا الإصدار، يتم تقديم عدد من التغييرات العاجلة. تحقق من هذه الصفحة للحصول على التفاصيل.

Azure الذكاء الاصطناعي Speech SDK 0.6.0: إصدار 2018-أغسطس

الميزات الجديدة

يمكن لتطبيقات UWP التي تم إنشاؤها باستخدام Speech SDK الآن تمرير حزمة مصادقة تطبيقات Windows (WACK). تحقق من التشغيل السريع للنظام UWP.
دعم .NET Standard 2.0 على Linux (Ubuntu 16.04 x64).
تجريبي: دعم Java 8 على Windows (64 بت) وLinux (Ubuntu 16.04 x64). تحقق من التشغيل السريع لبيئة وقت تشغيل Java.

تغيير وظيفي

كشف معلومات تفاصيل الخطأ الإضافية حول أخطاء الاتصال.

التغييرات العاجلة

في Java (Android)، SpeechFactory.configureNativePlatformBindingWithDefaultCertificate لم تعد الوظيفة تتطلب معلمة مسار. الآن يتم الكشف عن المسار تلقائيا على جميع الأنظمة الأساسية المدعومة.
تمت إزالة ملحق الحصول على الخاصية EndpointUrl في Java وC# .

إصلاحات الأخطاء

في Java، يتم تنفيذ نتيجة تركيب الصوت على أداة التعرف على الترجمة الآن.
تم إصلاح خطأ قد يسبب مؤشرات ترابط غير نشطة وعدد متزايد من مآخذ التوصيل المفتوحة وغير المستخدمة.
تم إصلاح مشكلة، حيث يمكن إنهاء التعرف طويل الأمد في منتصف الإرسال.
تم إصلاح حالة تعارض في إيقاف تشغيل أداة التعرف.

Azure الذكاء الاصطناعي Speech SDK 0.5.0: إصدار 2018-يوليو

الميزات الجديدة

دعم نظام Android الأساسي (API 23: Android 6.0 Marshmallow أو أعلى). اطلع على التشغيل السريع ل Android.
دعم .NET Standard 2.0 على Windows. تحقق من التشغيل السريع ل .NET Core.
تجريبي: دعم UWP على Windows (الإصدار 1709 أو أحدث).
- تحقق من التشغيل السريع للنظام UWP.
- لاحظ أن تطبيقات UWP التي تم إنشاؤها باستخدام Speech SDK لا تمرر بعد حزمة مصادقة تطبيقات Windows (WACK).
دعم التعرف طويل الأمد مع إعادة الاتصال التلقائي.

التغييرات الوظيفية

StartContinuousRecognitionAsync() يدعم التعرف طويل الأمد.
تحتوي نتيجة التعرف على المزيد من الحقول. تتم إزاحتها من بداية الصوت ومدته (سواء في علامات التجزئة) للنص الذي تم التعرف عليه والقيم الإضافية التي تمثل حالة التعرف، على سبيل المثال، InitialSilenceTimeout و InitialBabbleTimeout.
دعم AuthorizationToken لإنشاء مثيلات المصنع.

التغييرات العاجلة

أحداث التعرف: NoMatch تم دمج نوع الحدث في Error الحدث.
تمت إعادة تسمية OutputFormat SpeechOutputFormat في C# للبقاء على محاذاة مع C++‎.
تغير نوع الإرجاع لبعض أساليب الواجهة AudioInputStream قليلا:
- في Java، read يرجع long الأسلوب الآن بدلا من int.
- في C#، Read يرجع uint الأسلوب الآن بدلا من int.
- في C++، يتم إرجاع Read الأسلوبين GetFormat و size_t الآن بدلا من int.
C++: يمكن تمرير مثيلات تدفقات إدخال الصوت الآن فقط ك shared_ptr.

إصلاحات الأخطاء

تم إصلاح قيم الإرجاع غير الصحيحة في النتيجة عند RecognizeAsync() المهلة.
تمت إزالة التبعية على مكتبات أساس الوسائط على Windows. تستخدم SDK الآن واجهات برمجة تطبيقات الصوت الأساسية.
إصلاح الوثائق: تمت إضافة صفحة مناطق لوصف المناطق المدعومة.

مشكلة معروفة

لا يبلغ Speech SDK لنظام التشغيل Android عن نتائج تركيب الكلام للترجمة. سيتم إصلاح هذه المشكلة في الإصدار التالي.

Azure الذكاء الاصطناعي Speech SDK 0.4.0: إصدار 2018-يونيو

التغييرات الوظيفية

AudioInputStream

يمكن لأداة التعرف الآن استهلاك دفق كمصدر الصوت. لمزيد من المعلومات، راجع الدليل الإرشادي ذي الصلة.
تنسيق الإخراج التفصيلي

عند إنشاء SpeechRecognizer، يمكنك طلب Detailed تنسيق أو Simple إخراجه. DetailedSpeechRecognitionResult يحتوي على درجة الثقة والنص المتعرف عليه والنموذج المعجمي الخام والنموذج الذي تمت تسويته والنموذج الذي تمت تسويته بألفاظ نابية مقنعة.

كسر التغيير

تم التغيير إلى SpeechRecognitionResult.Text من SpeechRecognitionResult.RecognizedText في C#‎.

إصلاحات الأخطاء

تم إصلاح مشكلة رد الاتصال المحتملة في طبقة USP أثناء إيقاف التشغيل.
إذا استهلك أداة التعرف ملف إدخال صوتي، فإنه كان يحتفظ بمقبض الملف لفترة أطول من اللازم.
إزالة العديد من حالات التوقف التام بين مضخة الرسائل وأداة التعرف.
إطلاق نتيجة NoMatch عند انتهاء مهلة الاستجابة من الخدمة.
يتم تحميل مكتبات أساس الوسائط على Windows. هذه المكتبة مطلوبة لإدخال الميكروفون فقط.
تقتصر سرعة تحميل البيانات الصوتية على ضعف سرعة الصوت الأصلية تقريبا.
في Windows، أصبحت تجميعات C# .NET الآن قوية مسماة.
إصلاح الوثائق: Region هو المعلومات المطلوبة لإنشاء أداة التعرف.

تمت إضافة المزيد من العينات ويجري تحديثها باستمرار. للحصول على أحدث مجموعة من العينات، راجع مستودع GitHub لعينات Speech SDK.

Azure الذكاء الاصطناعي Speech SDK 0.2.12733: إصدار 2018-May

هذا الإصدار هو أول إصدار معاينة عامة من Azure الذكاء الاصطناعي Speech SDK.

Speech CLI 1.43: إصدار 2025-مارس

الميزات الجديدة

تم تحديث SPX لاستخدام .NET 8.

إصلاحات الأخطاء

لا تعمل حاوية SPX Docker الثابتة في سيناريوهات الدفعة الجاهزة.

Speech CLI 1.40.0: إصدار أغسطس 2024

تم التحديث لاستخدام Speech SDK 1.40.0

الميزات الجديدة

بلا

إصلاحات الأخطاء

بلا

Speech CLI 1.38.0: إصدار يونيو 2024

تم التحديث لاستخدام Speech SDK 1.38.0

الميزات الجديدة

بلا

إصلاحات الأخطاء

بلا

Speech CLI 1.37.0: إصدار أبريل 2024

تم التحديث لاستخدام Speech SDK 1.37.0

الميزات الجديدة

بلا

إصلاحات الأخطاء

بلا

Speech CLI 1.36.0: إصدار مارس 2024

تم التحديث لاستخدام Speech SDK 1.36.0

الميزات الجديدة

بلا

إصلاحات الأخطاء

بلا

Speech CLI 1.35.0: إصدار فبراير 2024

تم التحديث لاستخدام Speech SDK 1.35.0

الميزات الجديدة

بلا

إصلاحات الأخطاء

تحديث تبعية JMESPath إلى الأحدث

Speech CLI 1.34.0: إصدار نوفمبر 2023

تم التحديث لاستخدام Speech SDK 1.34.0

Speech CLI 1.33.0: إصدار أكتوبر 2023

تم التحديث لاستخدام Speech SDK 1.33.0

Speech CLI 1.31.0: إصدار أغسطس 2023

تم التحديث لاستخدام Speech SDK 1.31.0

Speech CLI 1.30.0: إصدار يوليو 2023

تم التحديث لاستخدام Speech SDK 1.30.0

Speech CLI 1.29.0: إصدار يونيو 2023

تم التحديث لاستخدام Speech SDK 1.29.0

Speech CLI 1.28.0: إصدار مايو 2023

تم التحديث لاستخدام Speech SDK 1.28.0

Speech CLI 1.27.0: إصدار أبريل 2023

التحديثات

تم التحديث لاستخدام Speech SDK 1.27.0
قم بتحديث نقطة النهاية الافتراضية لاستخدام واجهات برمجة تطبيقات REST v3.1 للتعرف على الكلام المخصص والتعرف على الكلام الدفعي.

إصلاحات الأخطاء

الإصلاحات المتعلقة بكيفية تحليل/تكوين معلمات الاستعلام.

Speech CLI 1.26.0: إصدار مارس 2023

تم التحديث لاستخدام Speech SDK 1.26.0.

Speech CLI 1.25.0: إصدار يناير 2023

تم التحديث لاستخدام Speech SDK 1.25.0.

Speech CLI 1.24.0: إصدار أكتوبر 2022

يستخدم Speech SDK 1.24.0.

الميزات الجديدة

توسيع "فحص spx" لدعم استعلامات JMESPath مقابل جميع أحداث spx

إصلاحات الأخطاء

تحسينات مختلفة على القوة مقابل تقييمات استعلام JMESPath
إصلاح الاقتطاعات لكتابات الملفات التي قد تحدث على الأجهزة المقيدة بالموارد

Speech CLI 1.23.0: إصدار يوليو 2022

يستخدم Speech SDK 1.23.0.

الميزات الجديدة

تسمية توضيحية أفضل (--output vtt و --output srt) تقسيم نتائج كبيرة (37 حرفا كحد أقصى، 3 أسطر)
الخيارات الموثقة spx synthesize--format (راجع spx help synthesize format)
معظم spx csr الأوامر/الخيارات الموثقة (راجع spx help csr)
الأمر المضاف spx csr model copy (راجع spx help csr model copy)
الخيار المضاف --check result باستخدام استعلامات JMES (راجع spx help check result)
رسائل الخطأ المحسنة عند تحديد خيارات أوامر غير صحيحة
تم نقله من .NET Core 3.1 إلى .NET 6.0. لتشغيل Speech CLI، تحتاج إلى تثبيت وقت تشغيل .NET 6.0 (أو أعلى).

إصلاحات الأخطاء

تحديث كافة عناوين URL لإزالة اللغة (على سبيل المثال، "en-US")
تم إصلاح معلومات الإصدار للإبلاغ بشكل صحيح في جميع الحالات (في السابق كانت تظهر أحيانا فارغة)

Speech CLI 1.22.0: إصدار يونيو 2022

يستخدم Speech SDK 1.22.0.

الميزات الجديدة

تمت إضافة spx init الأمر لتوجيه المستخدمين من خلال إنشاء مفتاح مورد الكلام دون الانتقال إلى مدخل ويب Azure.
تحتوي حاويات Speech docker الآن على Azure CLI مضمنة، لذلك spx init يعمل الأمر خارج الصندوق.
تمت إضافة الطابع الزمني كخيار إخراج حدث، لجعل SPX أكثر فائدة عند حساب زمن الانتقال.

Speech CLI 1.21.0: إصدار أبريل 2022

يستخدم Speech SDK 1.21.0.

الميزات الجديدة

إنشاء تسمية توضيحية ل WEBVTT
- تمت إضافة --output vtt دعم إلى spx translate
- يدعم --output vtt file FILENAME تجاوز اسم ملف VTT الافتراضي
- يدعم --output vtt file - الكتابة إلى الإخراج القياسي
- يتم إنشاء ملفات VTT الفردية لكل لغة مستهدفة (على سبيل المثال --target en;de;fr)
إنشاء تسمية توضيحية ل SRT
- إضافة --output srt دعم إلى spx recognizeو spx intentو spx translate
- يدعم --output srt file FILENAME تجاوز اسم ملف SRT الافتراضي
- يدعم --output srt file - الكتابة إلى الإخراج القياسي
- بالنسبة إلى spx translate، يتم إنشاء ملفات SRT الفردية لكل لغة مستهدفة (على سبيل المثال --target en;de;fr)

إصلاحات الأخطاء

إخراج الفترة الزمنية WEBVTT المصحح لاستخدام hh:mm:ss.fff التنسيق بشكل صحيح

Speech CLI 1.20.0: إصدار يناير 2022

الميزات الجديدة

التعرف على المتحدث
- spx profile enroll والآن spx speaker [identify/verify] دعم إدخال الميكروفون
التعرف على الهدف (spx intent)
- --keyword FILE.table
- --pattern و--patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once --once+ ، --continuous(افتراضي مستمر الآن)
- --output all/each connection EVENT
- --output all/each connection message(على سبيل المثال، text، ) path
التحقق من/تأليف توقعات إخراج وحدة تحكم CLI:
- --expect PATTERN والدعم --not expect PATTERN على جميع الأوامر
- --auto expect لمساعدة تأليف الأنماط المتوقعة
التحقق من/تأليف توقع إخراج تسجيل SDK
- --log expect PATTERN والدعم --not log expect PATTERN على جميع الأوامر
- --log auto expect [FILTER] دعم على جميع الأوامر
- --log FILE دعم في spx profile و spx speaker
إدخال ملف الصوت
- --format ANY دعم على جميع الأوامر
- --file - الدعم (القراءة من الإدخال القياسي، تمكين سيناريوهات الأنابيب)
إخراج ملف الصوت
- --audio output - الكتابة إلى الإخراج القياسي، وتمكين سيناريوهات الأنابيب
ملفات الإخراج
- --output all/each file - الكتابة إلى الإخراج القياسي
- --output batch file - الكتابة إلى الإخراج القياسي
- --output vtt file - الكتابة إلى الإخراج القياسي
- --output json file -الكتابة إلى الإخراج القياسي، ل spx csr والأوامر و spx batch
خصائص الإخراج
- --output […] result XXX property (PropertyId أو سلسلة)
- --output […] connection message received XXX property (PropertyId أو سلسلة)
- --output […] recognizer XXX property (PropertyId أو سلسلة)
تكامل Azure WebJob
- spx webjob يتبع الآن نمط الأمر الفرعي
- تعليمات WebJob المحدثة لتعكس نمط الأمر الفرعي (راجع spx help webjob)

إصلاحات الأخطاء

تم إصلاح الخطأ عند استخدام كل من --output vtt FILE و --output batch FILE في نفس الوقت
spx [...] --zip ZIPFILENAME يتضمن الآن جميع الثنائيات المطلوبة لجميع السيناريوهات (إذا كانت موجودة)
spx profile وترجع spx speaker الأوامر الآن معلومات مفصلة عن الخطأ عند الإلغاء

إصدار 2021-مايو

الميزات الجديدة

دعم إضافي لملف التعريف ومعرف المتحدث والتحقق من المتحدث - حاول spx profilespx speaker ومن سطر الأوامر.
أضفنا أيضا دعم مربع الحوار - حاول spx dialog من سطر الأوامر.
تعليمات محسنة spx . قدم لنا ملاحظات حول كيفية عمل هذا نيابة عنك عن طريق فتح مشكلة GitHub.
قمنا بتقليص حجم تثبيت أداة .NET.

اختبار COVID-19 المختصر

نظرا لأن الوباء المستمر لا يزال يتطلب من مهندسينا العمل من المنزل، يتم تقليل برامج التحقق اليدوية قبل الجائحة لاختبارها على عدد أقل من الأجهزة ذات التكوينات الأقل، وقد تزداد احتمالية تراجع الأخطاء الخاصة بالبيئة. ما زلنا نتحقق بدقة من صحة مجموعة كبيرة من الأتمتة. في حالة عدم احتمالية فاتتنا شيء ما أخبرنا به على GitHub.
حافظ على صحة جيدة!

إصدار 2021-مارس

الميزات الجديدة

تمت إضافة spx intent الأمر للتعرف على الهدف، واستبدال spx recognize intent.
يمكن للتعرف على والغرض الآن استخدام وظائف Azure لحساب معدل خطأ الكلمات باستخدام spx recognize --wer url <URL>.
يمكن ل Recognize الآن إخراج النتائج كملفات VTT باستخدام spx recognize --output vtt file <FILENAME>.
تم حجب معلومات المفتاح الحساسة الآن في إخراج التصحيح/الإسهاب.
تمت إضافة التحقق من عنوان URL ورسالة الخطأ لحقل المحتوى في إنشاء النسخ الدفعي.

اختبار COVID-19 المختصر

إصدار 2021-يناير

الميزات الجديدة

يتوفر Speech CLI الآن كحزمة NuGet ويمكن تثبيته عبر .NET CLI كأداة عمومية .NET يمكنك الاتصال بها من shell/command-line.
تم تحديث speech DevOps Template repo المخصص لاستخدام Speech CLI لسير عمل الكلام المخصص الخاص به.

اختبار COVID-19 المختصر

إصدار 2020-أكتوبر

SPX هي واجهة سطر الأوامر لاستخدام خدمة الكلام دون كتابة التعليمات البرمجية. قم بتنزيل أحدث إصدار هنا.

الميزات الجديدة

spx csr dataset upload --kind audio|language|acoustic - إنشاء مجموعات بيانات من البيانات المحلية، وليس فقط من عناوين URL.
spx csr evaluation create|status|list|update|delete – قارن النماذج الجديدة مع الحقيقة الأساسية/النماذج الأخرى.
spx * list – يدعم تجربة غير صفحات (لا يتطلب --top X --skip X).
spx * --http header A=B - دعم العناوين المخصصة (تمت إضافتها ل Office للمصادقة المخصصة).
spx help – نص محسن ولون نص علامة خلفية مرمز (أزرق).

إصدار 2020-يونيو

تمت إضافة ميزات البحث في التعليمات في CLI:
- spx help find --text TEXT
- spx help find --topic NAME
تم تحديثه للعمل مع الإصدار 3.0 من Batch وواجهات برمجة تطبيقات الكلام المخصصة التي تم نشرها حديثا:
- spx help batch examples
- spx help csr examples

اختبار COVID-19 المختصر

نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء اختبار التحقق اليدوي كما نفعل عادة. لم نجر أي تغييرات نعتقد أنه كان من الممكن أن تكسر أي شيء، وتم اجتياز جميع اختباراتنا التلقائية. في حالة عدم احتمالية فاتتنا شيء ما أخبرنا به على GitHub.
حافظ على صحة جيدة!

Speech CLI (المعروف أيضا باسم SPX): إصدار 2020-May

SPX هي أداة سطر أوامر جديدة تسمح لك بإجراء التعرف والتركيب والترجمة وكتابة الدفعات وإدارة الكلام المخصصة من سطر الأوامر. استخدمه لاختبار خدمة الكلام، أو لبرمجة مهام خدمة الكلام التي تحتاج إلى تنفيذها. قم بتنزيل الأداة واقرأ الوثائق هنا.

إصدار أبريل 2025

معاينة عامة لأصوات عالية الجودة جديدة

تتوفر الآن الأصوات عالية الدقة التالية للمعاينة:

إعدادات محلية (BCP-47)	اسم الصوت
`en-US`	`en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeural` (محايد)
`en-US`	`en-US-Bree:DragonHDLatestNeural` (أنثى)
`en-US`	`en-US-AshTurboMultilingualNeural` (ذكر)

إصدار مارس 2025

التوفر العام لبعض الأصوات عالية الدقة

تتوفر الآن الأصوات عالية الدقة التالية بشكل عام:

إعدادات محلية (BCP-47)	اسم الصوت
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (ذكر)
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (أنثى)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (أنثى)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Emma:DragonHDLatestNeural` (أنثى)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (أنثى)
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (ذكر)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (ذكر)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (أنثى)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (ذكر)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (أنثى)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (ذكر)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (أنثى)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (أنثى)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (ذكر)

أصوات متعددة المتحدثين لسيناريوهات بودكاست (معاينة)

إعدادات محلية (BCP-47)	اسم الصوت
`en-US`	`en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural` (محايد)

أصوات عالية الدقة جديدة (معاينة)

إعدادات محلية (BCP-47)	اسم الصوت
`en-US`	`en-US-Ava3:DragonHDLatestNeural` (أنثى) - محسن لأجهزة بودكاست
`en-US`	`en-US-Andrew3:DragonHDLatestNeural` (ذكر) - محسن لأجهزة بودكاست

نماذج Dragon HD Flash (معاينة)

إعدادات محلية (BCP-47)	اسم الصوت
`zh-CN`	`zh-CN-Xiaochen:DragonHDFlashLatestNeural` (أنثى)
`zh-CN`	`zh-CN-Xiaoxiao:DragonHDFlashLatestNeural` (أنثى)
`zh-CN`	`zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural` (أنثى، محسنة للتحدث الحر)
`zh-CN`	`zh-CN-Yunxiao:DragonHDFlashLatestNeural` (ذكر)
`zh-CN`	`zh-CN-Yunyi:DragonHDFlashLatestNeural` (ذكر)

إصدار فبراير 2025

أصوات عالية الدقة محدثة (معاينة)

تم تحديث 13 صوتا عالي الدقة حاليا لدعم الأصوات متعددة اللغات.

إعدادات محلية (BCP-47)	اسم الصوت
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (أنثى)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (أنثى)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (ذكر) - محسن للكلام الحر
`en-US`	`en-US-Emma:DragonHDLatestNeural` (أنثى)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (أنثى) - محسنة للكلام الحر
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Aria:DragonHDLatestNeural` (أنثى)
`en-US`	`en-US-Jenny:DragonHDLatestNeural` (أنثى)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (ذكر)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (أنثى)

أصوات عالية الدقة جديدة (معاينة)

إضافة 14 صوتا عالي الدقة

إعدادات محلية (BCP-47)	اسم الصوت
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Phoebe:DragonHDLatestNeural` (أنثى)
`en-US`	`en-US-Serena:DragonHDLatestNeural` (أنثى)
`en-US`	`en-US-Alloy:DragonHDLatestNeural` (ذكر)
`en-US`	`en-US-Nova:DragonHDLatestNeural` (أنثى)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (أنثى)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (ذكر)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (أنثى)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (ذكر)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (أنثى)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (ذكر)

تقديم أصوات جديدة متعددة اللغات (معاينة)

تمت إضافة 4 أصوات متعددة اللغات أخرى مع en-US دعم العواطف.

إعدادات محلية (BCP-47)	اسم الصوت	انماط
`en-US`	`DerekMultilingualNeural` (ذكر)	`empathetic`، ، `excited`، `relievedshy`
`en-US`	`PhoebeMultilingualNeural` (أنثى)	`empathetic`، ، `sadserious`
`en-US`	`DavisMultilingualNeural` (ذكر)	`empathetic`، ، `funnyrelieved`
`en-US`	`NancyMultilingualNeural` (أنثى)	`excited`، `friendly`، `funny`، ، `relievedshy`

Azure OpenAI في Azure الذكاء الاصطناعي Foundry Models turbo voices (متوفر بشكل عام)

هذه الأصوات توربو 6 متاحة الآن بشكل عام:

إعدادات محلية (BCP-47)	اسم الصوت
`en-US`	`en-US-AlloyTurboMultilingualNeural` (ذكر)
`en-US`	`en-US-EchoTurboMultilingualNeural` (ذكر)
`en-US`	`en-US-FableTurboMultilingualNeural` (محايد)
`en-US`	`en-US-NovaTurboMultilingualNeural` (أنثى)
`en-US`	`en-US-OnyxTurboMultilingualNeural` (ذكر)
`en-US`	`en-US-ShimmerTurboMultilingualNeural` (أنثى)

تحسينات جودة الصوت (متوفرة بشكل عام)

تحسين نوعية 16 صوتا.

إعدادات محلية (BCP-47)	اسم الصوت
`ar-EG`	`ar-EG-ShakirNeural` (ذكر)
`ca-ES`	`ca-ES-EnricNeural` (ذكر)
`en-IE`	`en-IE-EmilyNeural` (أنثى)
`fi-FI`	`fi-FI-HarriNeural` (ذكر)
`fi-FI`	`fi-FI-SelmaNeural` (أنثى)
`fr-CH`	`fr-CH-FabriceNeural` (أنثى)
`hr-HR`	`hr-HR-GabrijelaNeural` (أنثى)
`nl-NL`	`nl-NL-MaartenNeural` (ذكر)
`pt-PT`	`pt-PT-RaquelNeural` (أنثى)
`ro-RO`	`ro-RO-AlinaNeural` (أنثى)
`sv-SE`	`sv-SE-MattiasNeural` (ذكر)
`sv-SE`	`sv-SE-SofieNeural` (أنثى)
`vi-VN`	`vi-VN-HoaiMyNeural` (أنثى)
`vi-VN`	`vi-VN-NamMinhNeural` (ذكر)
`zh-HK`	`zh-HK-HiuMaanNeural` (أنثى)
`zh-HK`	`zh-HK-WanLungNeural` (ذكر)

جيني المضمنة متعددة الأنماط (متوفرة بشكل عام)

تمت إضافة دعم النمط ل en-US-JennyNeural في الكلام المضمن. يتم دعم نفس الأنماط كما هو الحال في السحابة. يتم دعم الأنماط التالية: angryو assistantو chatcheerfulو و customerserviceexcitedوfriendly.hopefulnewscastsadshoutingterrifiedunfriendlywhispering

إصدار يناير 2025

تدريب أفاتار مخصص

يمكنك الآن تدريب الأفاتار المخصصة في Speech Studio. في السابق، كان عليك الانتظار حتى تقوم Microsoft بتدريب الأفاتار المخصص.

لمزيد من التفاصيل حول كيفية إنشاء أفاتار مخصص، راجع إنشاء نص مخصص إلى أفاتار الكلام.

إصدار أكتوبر 2024

صوت قياسي

قدم 4 إصدار توربو من أصوات Azure OpenAI في المعاينة العامة: en-US-EchoTurboMultilingualNeuralو en-US-FableTurboMultilingualNeuralen-US-OnyxTurboMultilingualNeuralو وen-US-ShimmerTurboMultilingualNeural. يحتوي إصدار Turbo من أصوات Azure OpenAI على شخصية صوتية مماثلة لأصوات Azure OpenAI ولكنه يدعم ميزات إضافية. تدعم أصوات Turbo المجموعة الكاملة من عناصر SSML والمزيد من الميزات مثل حدود الكلمات، تماما مثل أصوات Azure الذكاء الاصطناعي Speech الأخرى. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

هذه الأصوات متاحة الآن بشكل عام:

إعدادات محلية (BCP-47)	اسم الصوت
`de-DE`	`SeraphinaMultilingualNeural`
`de-DE`	`FlorianMultilingualNeural`
`en-GB`	`AdaMultilingualNeural`
`en-GB`	`OllieMultilingualNeural`
`en-US`	`LunaNeural`
`en-US`	`KaiNeural`
`en-US`	`CoraMultilingualNeural`
`en-US`	`ChristopherMultilingualNeural`
`en-US`	`BrandonMultilingualNeural`
`es-ES`	`IsidoraMultilingualNeural`
`es-ES`	`ArabellaMultilingualNeural`
`es-ES`	`TristanMultilingualNeural`
`es-ES`	`XimenaMultilingualNeural`
`fr-FR`	`LucienMultilingualNeural`
`fr-FR`	`VivienneMultilingualNeural`
`fr-FR`	`RemyMultilingualNeural`
`it-IT`	`IsabellaMultilingualNeural`
`it-IT`	`MarcelloMultilingualNeural`
`it-IT`	`AlessioMultilingualNeural`
`it-IT`	`GiuseppeMultilingualNeural`
`ko-KR`	`HyunsuMultilingualNeural`
`pt-BR`	`ThalitaMultilingualNeural`
`pt-BR`	`MacerioMultilingualNeural`

صوت قياسي عالي الجودة (HD)

تتوفر أصوات الكلام عالية الدقة (HD) في Azure الذكاء الاصطناعي في المعاينة العامة. يمكن لأصوات HD فهم المحتوى، واكتشاف المشاعر تلقائيا في نص الإدخال، وضبط نغمة التحدث في الوقت الفعلي لمطابقة المشاعر. تحتفظ الأصوات عالية الدقة بشخصية صوتية متسقة من نظيراتها العصبية (وغير عالية الجودة)، وتوفر قيمة أكبر من خلال الميزات المحسنة. لمزيد من المعلومات، راجع ما هي أصوات Azure الذكاء الاصطناعي Speech عالية الدقة (HD)؟.

الصوت العصبي المخصص

في السابق، كانت بعض الإعدادات المحلية مدعومة فقط مع V3 لوصفة التدريب. تدعم هذه الإعدادات المحلية الآن أيضا الإصدار 9، ما يتيح تحسين جودة التدريب والميزات الموسعة. لهذه الإعدادات المحلية، راجع الجدول التالي:

إعدادات محلية (BCP-47)	لغة
`ar-EG`	‏‏العربية (مصر)
`ar-SA`	العربية (المملكة العربية السعودية)
`ca-ES`	الكتالانية
`cs-CZ`	التشيكية (تشيكيا)
`da-DK`	الدانمركية (الدانمرك)
`de-AT`	الألمانية (النمسا)
`de-CH`	الألمانية (سويسرا)
`el-GR`	اليونانية (اليونان)
`en-IN`	الإنجليزية (الهند)
`fi-FI`	الفنلندية (فنلندا)
`fr-CH`	الفرنسية (سويسرا)
`he-IL`	‏‏العبرية (إسرائيل)
`hi-IN`	الهندية (الهند)
`hu-HU`	المجرية (المجر)
`ms-MY`	الماليزية (ماليزيا)‏
`nb-NO`	النرويجية بوكمال، (النرويج)
`nl-NL`	البلجيكية (هولندا)
`pl-PL`	البولندية (بولندا)
`pt-PT`	البرتغالية (البرتغال)
`ro-RO`	الرومانية (رومانيا)
`ru-RU`	الروسية (روسيا)
`sk-SK`	السلوفاكية (سلوفاكيا)
`sv-SE`	السويدية (السويد)‏‏
`th-TH`	التايلاندية (تايلاند)
`r-TR`	التركية (تركيا)
`vi-VN`	الفيتنامية (فيتنام)
`zh-HK`	الصينية (الكانتونية، التقليدية)
`zh-TW`	الصينية (الماندارين التايوانية، التقليدية)

يدعم الصوت العصبي المخصص Pro الآن لغة جديدة التالية:
- en-NZ: الإنجليزية (نيوزيلندا)
- es-CL: الأسبانية (تشيلي)
- es-US: الأسبانية (الولايات المتحدة)
- ta-MY: التاميلية (ماليزيا)
راجع قائمة اللغات للصوت العصبي المخصص للحصول على القائمة الكاملة للغات المحلية المدعومة.

تدعم الميزة عبر اللغات الآن اللغات الجديدة التالية كلغة مصدر:

إعدادات محلية (BCP-47)	لغة
`da-DK`	الدانمركية (الدانمرك)
`de-AT`	الألمانية (النمسا)
`de-CH`	الألمانية (سويسرا)
`de-DE`	‏‏الألمانية (ألمانيا)
`en-CA`	الإنجليزية (كندا)
`fi-FI`	الفنلندية (فنلندا)
`fr-CH`	الفرنسية (سويسرا)
`hu-HU`	المجرية (المجر)
`ms-MY`	الماليزية (ماليزيا)‏
`nb-NO`	النرويجية بوكمال، (النرويج)
`pt-PT`	البرتغالية (البرتغال)
`sv-SE`	السويدية (السويد)‏‏
`tr-TR`	التركية (تركيا)
`ta-IN`	‏‏التاميلية (الهند)
`zh-HK`	الصينية (الكانتونية، التقليدية)

راجع قائمة اللغات للصوت العصبي المخصص للحصول على القائمة الكاملة للغات المحلية المدعومة.

تدعم ميزة الصوت متعددة الأنماط الآن لغة جديدة التالية:

إعدادات محلية (BCP-47)	لغة
`ar-EG`	‏‏العربية (مصر)
`ar-SA`	العربية (المملكة العربية السعودية)
`ca-ES`	الكتالانية
`cs-CZ`	التشيكية (تشيكيا)
`da-DK`	الدانمركية (الدانمرك)
`de-AT`	الألمانية (النمسا)
`de-CH`	الألمانية (سويسرا)
`de-DE`	‏‏الألمانية (ألمانيا)
`el-GR`	اليونانية (اليونان)
`en-AU`	الإنجليزية (أستراليا)
`en-CA`	الإنجليزية (كندا)
`en-GB`	الإنجليزية (المملكة المتحدة)
`en-IN`	الإنجليزية (الهند)
`es-ES`	الأسبانية (إسبانيا)
`es-MX`	الإسبانية (المكسيك)
`fi-FI`	الفنلندية (فنلندا)
`fr-CA`	الفرنسية (كندا)
`fr-CH`	الفرنسية (سويسرا)
`fr-FR`	‏‏الفرنسية (فرنسا)
`he-IL`	‏‏العبرية (إسرائيل)
`hi-IN`	الهندية (الهند)
`hu-HU`	المجرية (المجر)
`it-IT`	‏‏الإيطالية (إيطاليا)
`ko-KR`	الكورية (كوريا الجنوبية)
`ms-MY`	الماليزية (ماليزيا)‏
`nb-NO`	النرويجية بوكمال، (النرويج)
`nl-BE`	الهولندية (بلجيكا)
`nl-NL`	البلجيكية (هولندا)
`pl-PL`	البولندية (بولندا)
`pt-BR`	البرتغالية (البرازيل)
`pt-PT`	البرتغالية (البرتغال)
`ro-RO`	الرومانية (رومانيا)
`ru-RU`	الروسية (روسيا)
`sk-SK`	السلوفاكية (سلوفاكيا)
`sv-SE`	السويدية (السويد)‏‏
`th-TH`	التايلاندية (تايلاند)
`tr-TR`	التركية (تركيا)
`vi-VN`	الفيتنامية (فيتنام)
`zh-HK`	الصينية (الكانتونية، التقليدية)
`zh-TW`	الصينية (الماندارين التايوانية، التقليدية)

راجع قائمة اللغات للصوت العصبي المخصص للحصول على القائمة الكاملة للغات المحلية المدعومة.

إصدار سبتمبر 2024

صوت قياسي

دعم إضافي وتوافر عام للأصوات الجديدة في الشبكات المحلية التالية:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`as-IN`	الأسامية (الهند)	`as-IN-YashicaNeural` (أنثى) `as-IN-PriyomNeural` (ذكر)
`or-IN`	أوديا (الهند)	`or-IN-SubhasiniNeural` (أنثى) `or-IN-SukantNeural` (ذكر)
`pa-IN`	البنجابية (الهند)	`pa-IN-OjasNeural` (ذكر) `pa-IN-VaaniNeural` (أنثى)

يتوفر الصوت الواحد في هذا الجدول بشكل عام ويدعم الإعدادات المحلية "en-IN".

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`en-IN`	الإنجليزية (الهند)	`en-IN-AashiNeural` (أنثى)

الأصوات الخمسة في هذا الجدول متاحة بشكل عام وتدعم كلا من "en-IN" و"hi-IN" المحلية.

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`en-IN`	الإنجليزية (الهند)	`en-IN-AaravNeural` (ذكر) `en-IN-AnanyaNeural` (أنثى) `en-IN-KavyaNeural` (أنثى) `en-IN-KunalNeural` (ذكر) `en-IN-RehaanNeural` (ذكر)
`hi-IN`	الهندية (الهند)	`hi-IN-AaravNeural` (ذكر) `hi-IN-AnanyaNeural` (أنثى) `hi-IN-KavyaNeural` (أنثى) `hi-IN-KunalNeural` (ذكر) `hi-IN-RehaanNeural` (ذكر)

أنماط الصوت وأدواره

تمت إضافة newscast، cheerfulو، empathetic وأنماط الدعم للأصوات en-IN-NeerjaNeural و hi-IN-SwaraNeural .

تمت إضافة أنماط جديدة للأصوات التالية:

es-MX-DaliaNeural: whispering، ، sadcheerful
fr-FR-DeniseNeural: whispering، ، sadexcited
it-IT-IsabellaNeural: whispering، sad، ، excitedcheerful
pt-PT-RaquelNeural: ، whisperingsad
de-DE-ConradNeural: ، sadcheerful
en-GB-RyanNeural: ، whisperingsad
es-MX-JorgeNeural: whispering، sad، ، excitedcheerful
fr-FR-HenriNeural: whispering، ، sadexcited
it-IT-DiegoNeural: sad، ، excitedcheerful
es-ES-AlvaroNeural: ، cheerfulsad
ko-KR-InjoonNeural: sad

راجع أنماط الصوت وأدواره للحصول على مزيد من المعلومات.

إصدار أغسطس 2024

صوت قياسي

تقديم أصوات جديدة متعددة اللغات في المعاينة العامة. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

أصوات جديدة متعددة اللغات

الإعدادات المحلية	اللغة	الجنس	اسم الصوت
ar	الإنجليزية (الولايات المتحدة)	ذكر	en-US-AdamMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	أنثى	en-US-AmandaMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	ذكر	en-US-DerekMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	ذكر	en-US-LewisMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	أنثى	en-US-LolaMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	أنثى	en-US-PhoebeMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	ذكر	en-US-SamuelMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	أنثى	en-US-SerenaMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	ذكر	en-US-DustinMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	أنثى	en-US-EvelynMultilingualNeural
es-ES	الأسبانية (إسبانيا)	ذكر	es-ES-TristanMultilingualNeural
fr-FR	‏‏الفرنسية (فرنسا)	ذكر	fr-FR-LucienMultilingualNeural
pt-BR	البرتغالية (البرازيل)	ذكر	pt-BR-MacerioMultilingualNeural
zh-CN	الصينية (الماندارين، المبسطة)	ذكر	zh-CN-YunfanMultilingualNeural
zh-CN	الصينية (الماندارين، المبسطة)	ذكر	zh-CN-YunxiaoMultilingualNeural
zh-CN	الصينية (الماندارين، المبسطة)	ذكر	zh-CN-YunyiMultilingualNeural

تم تحديث النماذج أحادية اللغات إلى أصوات متعددة اللغات مع تحسينات في الطبيعة

الإعدادات المحلية	اللغة	الجنس	اسم الصوت
ar	الإنجليزية (الولايات المتحدة)	أنثى	en-US-NancyMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	ذكر	en-US-BrandonMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	ذكر	en-US-ChristopherMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	أنثى	en-US-CoraMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	ذكر	en-US-DavisMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	ذكر	en-US-SteffanMultilingualNeural
es-ES	الأسبانية (إسبانيا)	أنثى	es-ES-XimenaMultilingualNeural
it-IT	‏‏الإيطالية (إيطاليا)	ذكر	it-IT-GiuseppeMultilingualNeural
ko-KR	الكورية (كوريا الجنوبية)	ذكر	ko-KR-HyunsuMultilingualNeural

تحسين الأصوات الحالية متعددة اللغات التالية بجودة أفضل.

الإعدادات المحلية	اللغة	الجنس	اسم الصوت
ar	الإنجليزية (الولايات المتحدة)	ذكر	en-US-أندروMultilingualNeural
ar	الإنجليزية (الولايات المتحدة)	أنثى	en-US-AvaMultilingualNeural

تدعم الآن ثلاثة أصوات متعددة اللغات الأنماط. راجع أنماط الصوت وأدواره للحصول على مزيد من المعلومات.
- en-US-SerenaMultilingualNeural: empatheticوexcitedfriendlyshyseriousrelieved.sad
- en-US-أندروMultilingualNeural: empathetic و relieved.
- zh-CN-XiaoxiaoMultilingualNeural: affectionateو cheerfulempatheticوexcitedpoetry-readingsorry.story

إصدار يوليو 2024

أفاتار نص إلى كلام (GA)

النص إلى أفاتار الكلام متاح الآن بشكل عام. لمزيد من المعلومات، راجع النص إلى أفاتار الكلام.

صوت قياسي

قدم إصدارين توربو من أصوات Azure OpenAI في المعاينة العامة: en-US-AlloyTurboMultilingualNeural و en-US-NovaTurboMultilingualNeural. يحتوي إصدار Turbo من أصوات Azure OpenAI على شخصية صوتية مماثلة لأصوات Azure OpenAI ولكنه يدعم ميزات إضافية. تدعم أصوات Turbo المجموعة الكاملة من عناصر SSML والمزيد من الميزات مثل حدود الكلمات، تماما مثل أصوات Azure الذكاء الاصطناعي Speech الأخرى. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.
تقديم صوتين جديدين متعددي اللغات في المعاينة العامة: zh-CN-YunfanMultilingualNeural و zh-CN-YunxiaoMultilingualNeural. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

صوت عصبي مضمن

en-US-JennyMultilingual يتم إصدار الصوت في الإنتاج، مما يدعم ما يصل إلى 24 لغة للتجربة على الجهاز. للحصول على لغة معتمدة، راجع الجدول أدناه.

الإعدادات المحلية	اللغة
`da-DK`	الدانمركية (الدانمرك)
`de-DE`	‏‏الألمانية (ألمانيا)
`en-AU`	الإنجليزية (أستراليا)
`en-GB`	الإنجليزية (المملكة المتحدة)
`en-IN`	الإنجليزية (الهند)
`en-US`	الإنجليزية (الولايات المتحدة)
`es-ES`	الأسبانية (إسبانيا)
`es-MX`	الإسبانية (المكسيك)
`fr-CA`	الفرنسية (كندا)
`fr-FR`	‏‏الفرنسية (فرنسا)
`he-IL`	‏‏العبرية (إسرائيل)
`it-IT`	‏‏الإيطالية (إيطاليا)
`ja-JP`	اليابانية (اليابان)
`ko-KR`	الكورية (كوريا الجنوبية)
`nb-NO`	النرويجية بوكمال، (النرويج)
`nl-NL`	البلجيكية (هولندا)
`pl-PL`	البولندية (بولندا)
`pt-PT`	البرتغالية (البرتغال)
`sv-SE`	السويدية (السويد)‏‏
`th-TH`	التايلاندية (تايلاند)
`tr-TR`	التركية (تركيا)
`zh-CN`	الصينية (الماندارين، المبسطة)
`zh-HK`	الصينية (الكانتونية، التقليدية)
`zh-TW`	الصينية (الماندارين التايوانية، التقليدية)

إصدار يونيو 2024

صوت قياسي

تقديم 6 أصوات جديدة في المعاينة العامة المتوفرة في مناطق محددة: شرق آسيا وجنوب شرق آسيا وشرق الولايات المتحدة وغرب الولايات المتحدة ووسط الهند.

الإعدادات المحلية	اللغة	أصوات تحويل النص إلى كلام
`or-IN`	أوديا (الهند)	`or-IN-SubhasiniNeural` (أنثى)
`or-IN`	أوديا (الهند)	`or-IN-SukantNeural` (ذكر)
`pa-IN`	البنجابية (الهند)	`pa-IN-VaaniNeural` (أنثى)
`pa-IN`	البنجابية (الهند)	`pa-IN-OjasNeural` (ذكر)
`as-IN`	الأسامية (الهند)	`as-IN-YashicaNeural` (أنثى)
`as-IN`	الأسامية (الهند)	`as-IN-PriyomNeural` (ذكر)

راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

أفاتار تحويل النص إلى كلام

يدعم النص إلى كلام الأفاتار الآن المناطق التالية: جنوب شرق آسيا وشمال أوروبا وغرب أوروبا ووسط السويد وجنوب وسط الولايات المتحدة وغرب الولايات المتحدة 2. لمزيد من المعلومات، راجع مناطق خدمة الكلام.

إصدار مايو 2024

الصوت الشخصي (GA)

يتوفر الصوت الشخصي الآن بشكل عام. باستخدام الصوت الشخصي، يمكنك الحصول على النسخ المتماثل الذكاء الاصطناعي الذي تم إنشاؤه لصوتك (أو مستخدمي التطبيق الخاص بك) في ثوان قليلة. يمكنك توفير عينة كلام مدتها دقيقة واحدة كمطالبة صوتية، ثم استخدامها لإنشاء الكلام في أي من أكثر من 90 لغة مدعومة عبر أكثر من 100 لغة. لمزيد من المعلومات، راجع نظرة عامة على الصوت الشخصي.

صوت قياسي

تقديم 8 أصوات جديدة متعددة اللغات في المعاينة العامة: en-GB-AdaMultilingualNeuralو en-GB-OllieMultilingualNeurales-ES-ArabellaMultilingualNeuralوes-ES-IsidoraMultilingualNeuralit-IT-AlessioMultilingualNeuralit-IT-IsabellaMultilingualNeuralit-IT-MarcelloMultilingualNeural.pt-BR-ThalitaMultilingualNeural راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.
تقديم صوتين جديدين en-US محسنين لسيناريو مركز الاتصال في المعاينة العامة: en-US-LunaNeural و en-US-KaiNeural. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إصدار أبريل 2024

أفاتار تحويل النص إلى كلام

يمكنك الآن تعيين صورة خلفية ثابتة للصور الرمزية الخاصة بك. لاستخدام هذه الميزة، ما عليك سوى استخدام الخاصية avatarConfig.backgroundImage وتحديد عنوان URL يشير إلى الصورة المطلوبة. للحصول على التفاصيل، راجع كيفية تحرير الخلفية.

إصدار مارس 2024

صوت قياسي

تتوفر 9 أصوات متعددة اللغات بشكل عام في جميع المناطق: en-US-AvaMultilingualNeuralوen-US-AndrewMultilingualNeuralen-US-EmmaMultilingualNeuralen-US-BrianMultilingualNeuralde-DE-FlorianMultilingualNeuralde-DE-SeraphinaMultilingualNeuralfr-FR-RemyMultilingualNeuralfr-FR-VivienneMultilingualNeural.zh-CN-XiaoxiaoMultilingualNeural راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.
تقديم صوت جديد متعدد اللغات للمعاينة العامة: ja-JP-MasaruMultilingualNeural. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.
تحديثات إضافية:
- en-US-RyanMultilingualNeural يتوفر بشكل عام في جميع المناطق.
- en-US-JennyMultilingualV2Neural تتوفر بشكل عام في جميع المناطق، مدمجة مع en-US-JennyMultilingualNeural.
- تتوفر المعاينة للمحدث en-IN-NeerjaNeural ومع hi-IN-SwaraNeural 3 أنماط جديدة في شرق الولايات المتحدة وغرب أوروبا وجنوب شرق آسيا.
- معاينة متاحة للأصوات النسائية الجديدة في وسط الهند: en-IN-KavyaNeuralو en-IN-AnanyaNeuralen-IN-AashiNeuralhi-IN-KavyaNeuralو.hi-IN-AnanyaNeural

أفاتار تحويل النص إلى كلام

تمت إزالة التبعية على Azure Communication Services (ACS) TURN للافاتار في الوقت الحقيقي. تم تحديث نموذج التعليمات البرمجية وفقا لذلك ليعكس هذا التغيير.
نص منشور إلى تسعير أفاتار الكلام. لمزيد من التفاصيل، راجع صفحة التسعير. لاحظ أن تسعير الأفاتار سيكون مرئيا فقط لمناطق الخدمة حيث تتوفر الميزة.

إصدار فبراير 2024

أصوات OpenAI

تدعم خدمة Azure الذكاء الاصطناعي Speech نص OpenAI لأصوات الكلام في المناطق التالية: شمال وسط الولايات المتحدة ووسط السويد. مثل Azure الذكاء الاصطناعي أصوات الكلام، يقدم نص OpenAI إلى أصوات الكلام تركيب كلام عالي الجودة لتحويل النص المكتوب إلى صوت منطوق طبيعي سبر. وهذا يفتح مجموعة واسعة من الاحتمالات لتجارب المستخدم الشاملة والتفاعلية. لمزيد من المعلومات، راجع ما هو نص OpenAI لأصوات الكلام؟.

ملاحظة

يتوفر نص OpenAI لأصوات الكلام أيضا في Azure OpenAI.
مع هذا التحديث، قمنا بتعديل أسعار الأصوات القياسية باستخدام Azure الذكاء الاصطناعي Speech. تحقق من الأسعار المحدثة هنا.

صوت شخصي

تدعم DragonLatestNeural ميزة الصوت الشخصية الآن النماذج و PhoenixLatestNeural . تعزز هذه النماذج الجديدة طبيعية الأصوات التي تم تركيبها، وتستبدل خصائص الكلام الخاصة بالصوت في المطالبة بشكل أفضل. لمزيد من التفاصيل، راجع دمج الصوت الشخصي في تطبيقك.

إصدار ديسمبر 2023

واجهة برمجة تطبيقات الصوت المخصصة

تتوفر واجهة برمجة التطبيقات الصوتية المخصصة لإنشاء وإدارة نماذج الصوت العصبية المخصصة المهنية والشخصية .

الصوت العصبي المخصص

تدعم النماذج الصوتية المدربة حديثا الآن معدل عينة 48 كيلوهرتز، بغض النظر عن إصدار النموذج. بالنسبة للنماذج الصوتية المدربة مسبقا، من الضروري ترقية إصدار المحرك إلى إصدار2023.11.13.0 على الأقل لتحسين معدل العينة إلى 48 كيلوهرتز.

صوت قياسي

تقديم أصوات جديدة متعددة اللغات للمعاينة العامة:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`de-DE`	‏‏الألمانية (ألمانيا)	`de-DE-FlorianMultilingualNeural` (ذكر)
`de-DE`	‏‏الألمانية (ألمانيا)	`de-DE-SeraphinaMultilingualNeural` (أنثى)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-AvaMultilingualNeural` (أنثى)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-EmmaMultilingualNeural` (أنثى)
`fr-FR`	‏‏الفرنسية (فرنسا)	`fr-FR-RemyMultilingualNeural` (ذكر)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-BrianMultilingualNeural` (ذكر)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-AndrewMultilingualNeural` (ذكر)
`fr-FR`	‏‏الفرنسية (فرنسا)	`fr-FR-VivienneMultilingualNeural` (أنثى)
`zh-CN`	الصينية (الماندارين، المبسطة)	`zh-CN-XiaoxiaoMultilingualNeural` (أنثى)
`zh-CN`	الصينية (الماندارين، المبسطة)	`zh-CN-XiaochenMultilingualNeural` (أنثى)
`zh-CN`	الصينية (الماندارين، المبسطة)	`zh-CN-YunyiMultilingualNeural` (ذكر)

تقديم أصوات جديدة zh-CN-XiaoxiaoDialectsNeural للمعاينة العامة التي تدعم العديد من اللهجات واللهجات الصينية:

اسم الصوت	اللغة الثانوية	اللهجة/التمييز
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	الصينية (تشونغيوان ماندارين شنشي، مبسطة)
	`zh-CN-sichuan`	الصينية (الماندارين الجنوبية الغربية، المبسطة)
	`zh-CN-shanxi`	الصينية (شانشي التمييز الماندارين، مبسطة)
	`nan-CN`	الصينية (الحد الأدنى الجنوبي، المبسطة)
	`zh-CN-anhui`	الصينية (جيانغهوي ماندارين آنهوي، مبسطة)
	`zh-CN-hunan`	الصينية (هونان التمييز الماندارين، مبسطة)
	`zh-CN-gansu`	الصينية (لانين ماندارين جانسو، مبسطة)
	`zh-CN-shandong`	الصينية (جيلو الماندارين، المبسطة)
	`zh-CN-henan`	الصينية (تشونغيوان ماندارين هينان، مبسطة)
	`zh-CN-liaoning`	الصينية (الماندارين الشمالية الشرقية، المبسطة)
	`zh-TW`	الصينية (الماندارين التايوانية، التقليدية)

إصدار نوفمبر 2023

صوت شخصي

يتوفر الصوت الشخصي في المعاينة في المناطق التالية: غرب أوروبا وشرق الولايات المتحدة وجنوب شرق آسيا. باستخدام الصوت الشخصي (معاينة)، يمكنك الحصول على النسخ المتماثل الذكاء الاصطناعي الذي تم إنشاؤه لصوتك (أو مستخدمي التطبيق الخاص بك) في بضع ثوان. يمكنك توفير عينة كلام مدتها دقيقة واحدة كمطالبة صوتية، ثم استخدامها لإنشاء الكلام في أي من أكثر من 90 لغة مدعومة عبر أكثر من 100 لغة.

لمزيد من المعلومات، راجع الصوت الشخصي.

أفاتار تحويل النص إلى كلام

يتوفر النص إلى أفاتار الكلام في المعاينة في المناطق التالية: غرب الولايات المتحدة 2 وغرب أوروبا وجنوب شرق آسيا.

يحول النص إلى أفاتار الكلام النص إلى فيديو رقمي لإنسان مصور (إما أفاتار قياسي أو نص مخصص إلى أفاتار الكلام) يتحدث بصوت طبيعي. يمكن تركيب النص إلى فيديو أفاتار الكلام بشكل غير متزامن أو في الوقت الحقيقي. يمكن للمطورين إنشاء تطبيقات متكاملة مع النص إلى أفاتار الكلام من خلال واجهة برمجة التطبيقات، أو استخدام أداة إنشاء محتوى على Speech Studio لإنشاء محتوى فيديو دون ترميز.

لمزيد من المعلومات، راجع النص إلى أفاتار الكلام وملاحظات الشفافية والكشف عن موهبة الصوت والأفاتار.

الصوت العصبي المخصص

دعم إضافي للإعدادات المحلية ال 24 الجديدة للصوت عبر اللغات. راجع قائمة اللغات الكاملة للحصول على مزيد من المعلومات.

صوت قياسي

تقديم أصوات جديدة للمعاينة العامة:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`de-DE`	‏‏الألمانية (ألمانيا)	`SeraphinaNeural` (أنثى)
`es-ES`	الأسبانية (إسبانيا)	`XimenaNeural` (أنثى)
`fr-CA`	الفرنسية (كندا)	`ThierryNeural` (ذكر)
`fr-FR`	‏‏الفرنسية (فرنسا)	`VivienneNeural` (أنثى)
`it-IT`	‏‏الإيطالية (إيطاليا)	`GiuseppeNeural` (ذكر)
`ko-KR`	الكورية (كوريا الجنوبية)	`HyunsuNeural` (ذكر)
`pt-BR`	البرتغالية (البرازيل)	`ThalitaNeural` (أنثى)

النماذج المحدثة مع إصلاح الأخطاء وتحسين الجودة:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`es-ES`	الأسبانية (إسبانيا)	`AlvaroNeural` (ذكر)
`en-GB`	الإنجليزية (المملكة المتحدة)	`RyanNeural` (ذكر)
`ko-KR`	الكورية (كوريا الجنوبية)	`InjoonNeural` (ذكر)

راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إصدار أكتوبر 2023

الصوت العصبي المخصص

دعم إضافي للإعدادات المحلية ال 12 الجديدة مع الصوت العصبي المخصص Pro. راجع قائمة اللغات الكاملة للحصول على مزيد من المعلومات.

إصدار سبتمبر 2023

صوت قياسي

تقديم أصوات جديدة للمعاينة العامة:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-EmmaNeural` (أنثى)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-AndrewNeural` (ذكر)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-BrianNeural` (ذكر)

راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

صوت عصبي مضمن

جميع اللغات ال 147 هنا (باستثناء fa-IRوالفارسية (إيران)) متاحة خارج الصندوق مع إما 1 أنثى مختارة و/أو 1 صوت ذكر محدد.

إصدار أغسطس 2023

الصوت العصبي المخصص

تم إصدار أحدث إصدار من وصفة التدريب CNV Lite الآن. يقدم هذا الإصدار العديد من التحسينات على جودة نماذج اللغة الخاصة بك. جرب Speech Studio.

إصدار يوليو 2023

الصوت العصبي المخصص

يتوفر الصوت متعدد الأنماط بشكل عام.
تمت إضافة اثنين من لغة جديدة في المعاينة العامة للصوت متعدد الأنماط: ja-JP و zh-CN. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات. راجع قائمة الأنماط المعينة مسبقا للغات مختلفة.
يتوفر الصوت عبر اللغات بشكل عام.
تمت إضافة اثنين من اللغات الجديدة للصوت عبر اللغات: id-ID و nl-NL. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

الأصوات القياسية

تقديم صوت محايد جديد en-US للجنسين للمعاينة العامة:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-BlueNeural` (محايد)

تقديم أصوات جديدة متعددة اللغات للمعاينة العامة:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-JennyMultilingualV2Neural` (أنثى)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-RyanMultilingualNeural` (ذكر)

الأصوات en-US-JennyMultilingualV2Neural متعددة اللغات والكشف en-US-RyanMultilingualNeural التلقائي عن لغة نص الإدخال. ومع ذلك، لا يزال بإمكانك استخدام <lang> العنصر لضبط لغة التحدث لهذه الأصوات.

يمكن أن تتحدث هذه الأصوات الجديدة متعددة اللغات ب 41 لغة ولغةArabic (Egypt)Arabic (Saudi Arabia)CatalanCzech (Czechia)Danish (Denmark)German (Austria)German (Switzerland)German (Germany)English (Australia)English (Canada)English (United Kingdom)English (Hong Kong SAR)English (Ireland)English (India)English (United States)Spanish (Spain)Spanish (Mexico)Finnish (Finland)French (Belgium)French (Canada)French (Switzerland)French (France)Hindi (India)Hungarian (Hungary)Indonesian (Indonesia)Italian (Italy)Japanese (Japan)Korean (Korea)Norwegian Bokmål (Norway)Dutch (Belgium)Dutch (Netherlands)Polish (Poland)Portuguese (Brazil)Portuguese (Portugal)Russian (Russia)Swedish (Sweden)Thai (Thailand)Turkish (Türkiye)Chinese (Mandarin, Simplified)Chinese (Cantonese, Traditional)Chinese (Taiwanese Mandarin, Traditional): و.

لا تدعم هذه الأصوات متعددة اللغات عناصر SSML معينة بشكل كامل، مثل التوقف والتأكيد والصمت والفرع.

هام

en-US-JennyMultilingualV2Neural يتم توفير الصوت مؤقتا في المعاينة العامة لأغراض التقييم فقط. ستتم إزالتها في المستقبل.

من أجل التحدث بلغة أخرى غير الإنجليزية، يتطلب التنفيذ الحالي للصوت en-US-JennyMultilingualNeural تعيين <lang xml:lang> العنصر. نتوقع أنه خلال السنة التقويمية Q4 2023، en-US-JennyMultilingualNeural سيتم تحديث الصوت ليتحدث بلغة نص الإدخال بدون <lang xml:lang> العنصر . سيكون هذا في تماثل مع en-US-JennyMultilingualV2Neural الصوت.

تقديم ميزات جديدة في المعاينة العامة للأصوات أدناه:

تمت إضافة مدخلات لاتينية لأصوات الصربية (صربيا): sr-RSsr-latn-RS-SophieNeural و sr-latn-RS-NicholasNeural.
إضافة دعم النطق باللغة الإنجليزية للأصوات sq-AL الألبانية (ألبانيا): sq-AL-AnilaNeural وsq-AL-IlirNeural.

إصدار مايو 2023

إنشاء محتوى صوتي

تدعم جميع الأصوات القياسية مع أنماط التحدث والأصوات المخصصة متعددة الأنماط تعديل درجة النمط.
يمكنك الآن إصلاح نطق الكلمة عن طريق نطق الكلمة وتسجيلها. يمكن التعرف على الرسائل الصوتية تلقائيا من التسجيل. ميزة التعرف عن طريق التحدث الآن في المعاينة العامة.

إصدار أبريل 2023

الأصوات القياسية

تم نقل الميزات التالية لهذه الأصوات من المعاينة العامة إلى GA:

نمط	أصوات تحويل النص إلى كلام
style="chat"	`en-GB-RyanNeural`و `es-MX-JorgeNeural`و و `it-IT-IsabellaNeural`
style="مرح"	`en-GB-RyanNeural`و `en-GB-SoniaNeural`و `es-MX-JorgeNeuralfr-FR-DeniseNeuralfr-FR-HenriNeuralit-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`، `fr-FR-DeniseNeural` و `fr-FR-HenriNeural`

تحسين النطق باللغة الإنجليزية ل hi-IN، ta-IN والأصوات te-IN ، يتم الآن إصدار التقييم في مناطق المعاينة العامة

لمزيد من المعلومات، راجع القائمة الصوتية واللغة.

إصدار مارس 2023

الميزات الجديدة

يتم تحديث لغة ترميز تركيب الكلام (SSML) لدعم عناصر معالج التأثير الصوتي التي تعمل على تحسين جودة إخراج الكلام المركب لسيناريوهات معينة على الأجهزة. تعرف على المزيد في علامات تركيب الكلام.

الصوت العصبي المخصص

دعم إضافي للإعدادات nl-BE المحلية باستخدام Custom Neural voice Pro. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

الأصوات القياسية

الأصوات التالية متاحة الآن بشكل عام. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`en-AU`	الإنجليزية (أستراليا)	`en-AU-AnnetteNeural` (أنثى) `en-AU-CarlyNeural` (أنثى) `en-AU-DarrenNeural` (ذكر) `en-AU-DuncanNeural` (ذكر) `en-AU-ElsieNeural` (أنثى) `en-AU-FreyaNeural` (أنثى) `en-AU-JoanneNeural` (أنثى) `en-AU-KenNeural` (ذكر) `en-AU-KimNeural` (أنثى) `en-AU-NeilNeural` (ذكر) `en-AU-TimNeural` (ذكر) `en-AU-TinaNeural` (أنثى) `en-AU-WilliamNeural` (ذكر)
`en-GB`	الإنجليزية (المملكة المتحدة)	`en-GB-RyanNeural` (ذكر) `en-GB-SoniaNeural` (أنثى)
`es-ES`	الأسبانية (إسبانيا)	`es-ES-AbrilNeural` (أنثى) `es-ES-ArnauNeural` (ذكر) `es-ES-DarioNeural` (ذكر) `es-ES-EliasNeural` (ذكر) `es-ES-EstrellaNeural` (أنثى) `es-ES-IreneNeural` (أنثى) `es-ES-LaiaNeural` (أنثى) `es-ES-LiaNeural` (أنثى) `es-ES-NilNeural` (ذكر) `es-ES-SaulNeural` (ذكر) `es-ES-TeoNeural` (ذكر) `es-ES-TrianaNeural` (أنثى) `es-ES-VeraNeural` (أنثى)
`es-MX`	الإسبانية (المكسيك)	`es-MX-JorgeNeural` (ذكر)
`fr-FR`	‏‏الفرنسية (فرنسا)	`fr-FR-HenriNeural` (ذكر)
`it-IT`	‏‏الإيطالية (إيطاليا)	`it-IT-IsabellaNeural` (أنثى)
`ja-JP`	اليابانية (اليابان)	`ja-JP-AoiNeural` (أنثى) `ja-JP-DaichiNeural` (ذكر) `ja-JP-MayuNeural` (أنثى) `ja-JP-NaokiNeural` (ذكر) `ja-JP-ShioriNeural` (أنثى)

إضافة دعم للنمط cheerful مع de-DE-ConradNeural الصوت.

إصدار فبراير 2023

الأصوات القياسية

الأصوات التالية متاحة الآن بشكل عام. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`zh-CN`	الصينية (الماندارين، المبسطة)	`zh-CN-XiaomengNeural` (أنثى) `zh-CN-XiaoyiNeural` (أنثى) `zh-CN-XiaozhenNeural` (أنثى) `zh-CN-YunfengNeural` (ذكر) `zh-CN-YunhaoNeural` (ذكر) `zh-CN-YunjianNeural` (ذكر) `zh-CN-YunxiaNeural` (ذكر) `zh-CN-YunzeNeural` (ذكر)
`zh-CN-henan`	الصينية (تشونغيوان ماندارين هينان، مبسطة)	`zh-CN-henan-YundengNeural` (ذكر)

إصدار ديسمبر 2022

Batch synthesis REST API (معاينة)

واجهة برمجة تطبيقات تجميع الدفعات حاليا في المعاينة العامة. بمجرد توفره بشكل عام، يتم إهمال Long Audio API. لمزيد من المعلومات، راجع الترحيل إلى واجهة برمجة تطبيقات تجميع الدفعات.

إصدار نوفمبر 2022

الأصوات القياسية (GA)

الأصوات التالية متاحة الآن بشكل عام. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`es-MX`	الإسبانية (المكسيك)	`es-MX-BeatrizNeural` (أنثى) `es-MX-CandelaNeural` (أنثى) `es-MX-CarlotaNeural` (أنثى) `es-MX-CecilioNeural` (ذكر) `es-MX-GerardoNeural` (ذكر) `es-MX-LarissaNeural` (أنثى) `es-MX-LibertoNeural` (ذكر) `es-MX-LucianoNeural` (ذكر) `es-MX-MarinaNeural` (أنثى) `es-MX-NuriaNeural` (أنثى) `es-MX-PelayoNeural` (ذكر) `es-MX-RenataNeural` (أنثى) `es-MX-YagoNeural` (ذكر)
`it-IT`	‏‏الإيطالية (إيطاليا)	`it-IT-BenignoNeural` (ذكر) `it-IT-CalimeroNeural` (ذكر) `it-IT-CataldoNeural` (ذكر) `it-IT-FabiolaNeural` (أنثى) `it-IT-FiammaNeural` (أنثى) `it-IT-GianniNeural` (ذكر) `it-IT-ImeldaNeural` (أنثى) `it-IT-IrmaNeural` (أنثى) `it-IT-LisandroNeural` (ذكر) `it-IT-PalmiraNeural` (أنثى) `it-IT-PierinaNeural` (أنثى) `it-IT-RinaldoNeural` (ذكر)
`pt-BR`	البرتغالية (البرازيل)	`pt-BR-BrendaNeural` (أنثى) `pt-BR-DonatoNeural` (ذكر) `pt-BR-ElzaNeural` (أنثى) `pt-BR-FabioNeural` (ذكر) `pt-BR-GiovannaNeural` (أنثى) `pt-BR-HumbertoNeural` (ذكر) `pt-BR-JulioNeural` (ذكر) `pt-BR-LeilaNeural` (أنثى) `pt-BR-LeticiaNeural` (أنثى) `pt-BR-ManuelaNeural` (أنثى) `pt-BR-NicolauNeural` (ذكر) `pt-BR-ValerioNeural` (ذكر) `pt-BR-YaraNeural` (أنثى)

الصوت العصبي المخصص

تتم إضافة دعم اللغة التالية للصوت العصبي المخصص. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

تمت إضافة دعم للإعدادات fr-BE المحلية باستخدام الصوت العصبي المخصص Pro.
دعم إضافي للإعدادات es-ES المحلية مع lite صوت عصبي مخصص.

إصدار أكتوبر 2022

الأصوات القياسية (GA)

الأصوات التالية متاحة الآن بشكل عام. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`eu-ES`	الباسكية	`eu-ES-AinhoaNeural` (أنثى) `eu-ES-AnderNeural` (ذكر)
`hy-AM`	‏‏الأرمينية (أرمينيا)	`hy-AM-AnahitNeural` (أنثى) `hy-AM-HaykNeural` (ذكر)

الأصوات القياسية (معاينة)

تتوفر الأصوات التالية الآن في المعاينة العامة. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`en-AU`	الإنجليزية (أستراليا)	`en-AU-AnnetteNeural`(أنثى) `en-AU-CarlyNeural`(أنثى) `en-AU-DarrenNeural`(ذكر) `en-AU-DuncanNeural`(ذكر) `en-AU-ElsieNeural`(أنثى) `en-AU-FreyaNeural`(أنثى) `en-AU-JoanneNeural`(أنثى) `en-AU-KenNeural`(ذكر) `en-AU-KimNeural`(أنثى) `en-AU-NeilNeural`(ذكر) `en-AU-TimNeural`(ذكر) `en-AU-TinaNeural`(أنثى)
`es-ES`	الأسبانية (إسبانيا)	`es-ES-AbrilNeural`(أنثى) `es-ES-AlvaroNeural`(ذكر) `es-ES-ArnauNeural`(ذكر) `es-ES-DarioNeural`(ذكر) `es-ES-EliasNeural`(ذكر) `es-ES-EstrellaNeural`(أنثى) `es-ES-IreneNeural`(أنثى) `es-ES-LaiaNeural`(أنثى) `es-ES-LiaNeural`(أنثى) `es-ES-NilNeural`(ذكر) `es-ES-SaulNeural`(ذكر) `es-ES-TeoNeural`(ذكر) `es-ES-TrianaNeural`(أنثى) `es-ES-VeraNeural`(أنثى)
`ja-JP`	اليابانية (اليابان)	`ja-JP-AoiNeural`(أنثى) `ja-JP-DaichiNeural`(ذكر) `ja-JP-MayuNeural`(أنثى) `ja-JP-NaokiNeural`(ذكر) `ja-JP-ShioriNeural`(أنثى)
`ko-KR`	الكورية (كوريا الجنوبية)	`ko-KR-BongJinNeural`(ذكر) `ko-KR-GookMinNeural`(ذكر) `ko-KR-JiMinNeural`(أنثى) `ko-KR-SeoHyeonNeural`(أنثى) `ko-KR-SoonBokNeural`(أنثى) `ko-KR-YuJinNeural`(أنثى)
`wuu-CN`	الصينية (الوو، مبسطة)	`wuu-CN-XiaotongNeural` (أنثى) `wuu-CN-YunzheNeural` (ذكر)
`yue-CN`	الصينية (الكانتونية، المبسطة)	`yue-CN-XiaoMinNeural` (أنثى) `yue-CN-YunSongNeural` (ذكر)

التحديثات الصوتية العامة ل TTS

تحسين الجودة للأصوات fil-PH-AngeloNeural و fil-PH-BlessicaNeural .
يتم تحديث قواعد تطبيع النص للأصوات باستخدام es-CL الإعدادات المحلية الإسبانية (شيلي) والأوزبكية uz-UZ (أوزبكستان).
إضافة رسائل إنجليزية مكتوبة للأصوات مع sq-AL اللغات الألبانية (ألبانيا) والأذربيجانية az-AZ (أذربيجان).
تحسين نطق اللغة الإنجليزية للصوت zh-HK-WanLungNeural .
تحسين نغمة السؤال للأصوات nl-NL-MaartenNeural و pt-BR-AntonioNeural .
دعم إضافي للعلامة <lang ="en-US"> للحصول على نطق أفضل للغة الإنجليزية مع الأصوات التالية: de-DE-ConradNeuralو.de-DE-KatjaNeurales-ES-AlvaroNeurales-MX-DaliaNeurales-MX-JorgeNeuralfr-CA-SylvieNeuralfr-FR-DeniseNeuralfr-FR-HenriNeuralit-IT-DiegoNeuralit-IT-IsabellaNeural
دعم إضافي للعلامة style="chat" مع الأصوات التالية: en-GB-RyanNeuralو es-MX-JorgeNeuralو it-IT-IsabellaNeural.
دعم إضافي للعلامة style="cheerful" بالأصوات التالية: en-GB-RyanNeuralوen-GB-SoniaNeurales-MX-JorgeNeuralfr-FR-DeniseNeuralfr-FR-HenriNeural.it-IT-IsabellaNeural
دعم إضافي للعلامة style="sad" مع الأصوات التالية: en-GB-SoniaNeuralو fr-FR-DeniseNeuralfr-FR-HenriNeural.

إصدار سبتمبر 2022

صوت قياسي

تمت ترقية جميع الأصوات القياسية إلى أصوات عالية الدقة بمعدل عينة 48 كيلوهرتز.

إصدار أغسطس 2022

صوت قياسي

إصدار أصوات جديدة في المعاينة العامة:

أصوات للغة الإنجليزية (الولايات المتحدة): en-US-AIGenerate1Neural و en-US-AIGenerate2Neural.
أصوات للغات الإقليمية الصينية: zh-CN-henan-YundengNeuralو zh-CN-shaanxi-XiaoniNeuralو.zh-CN-shandong-YunxiangNeural

لمزيد من المعلومات، راجع القائمة الصوتية واللغة.

إصدار يوليو 2022

صوت قياسي

تمت إضافة 5 أصوات جديدة من zh-CN الصينية (الماندارين، المبسطة) وصوت جديد واحد للغة en-US الإنجليزية (الولايات المتحدة) في المعاينة العامة. راجع اللغة الكاملة والقائمة الصوتية.

اللغة	الإعدادات المحلية	الجنس	اسم الصوت	دعم النمط
الصينية (الماندارين، المبسطة)	`zh-CN`	أنثى	`zh-CN-XiaomengNeural` ^الجديد	أنماط عامة متعددة متوفرة باستخدام SSML
الصينية (الماندارين، المبسطة)	`zh-CN`	أنثى	`zh-CN-XiaoyiNeural` ^الجديد	أنماط عامة متعددة متوفرة باستخدام SSML
الصينية (الماندارين، المبسطة)	`zh-CN`	أنثى	`zh-CN-XiaozhenNeural` ^الجديد	أنماط عامة متعددة متوفرة باستخدام SSML
الصينية (الماندارين، المبسطة)	`zh-CN`	ذكر	`zh-CN-YunxiaNeural` ^الجديد	أنماط عامة متعددة متوفرة باستخدام SSML
الصينية (الماندارين، المبسطة)	`zh-CN`	ذكر	`zh-CN-YunzeNeural` ^الجديد	أنماط عامة متعددة متوفرة باستخدام SSML
الإنجليزية (الولايات المتحدة)	`en-US`	ذكر	`en-US-RogerNeural` ^الجديد	عام

الأنماط والأدوار المدعومة للأصوات العصبية المضافة.

الصوت	أنماط	درجة النمط	الأدوار
zh-CN-XiaomengNeural ^{المعاينة العامة}	`chat`	مدعوم
zh-CN-XiaoyiNeural ^{المعاينة العامة}	`affectionate`، ، `angrycheerful`، `disgruntled`، `embarrassed`، `fearful`، `gentle`، ، `sad`،`serious`	مدعوم
zh-CN-XiaozhenNeural ^{المعاينة العامة}	`angry`، `cheerful`، `disgruntled`، `fearful`، ، `sadserious`	مدعوم
zh-CN-YunxiaNeural ^{المعاينة العامة}	`angry`، `calm`، `cheerful`، ، `fearfulsad`	مدعوم
zh-CN-YunzeNeural ^{المعاينة العامة}	`angry`، ، `calmcheerful`، `depressed`، `disgruntled`، `documentary-narration`، `fearful`، ، `sad`،`serious`	مدعوم	مدعوم

الحصول على موضع الوجه باستخدام viseme

دعم إضافي لمزج الأشكال لدفع حركات الوجه لحرف ثلاثي الأبعاد قمت بتصميمه. تعرف على المزيد حول كيفية الحصول على موضع الوجه باستخدام viseme.
تم تحديث SSML لدعم عنصر viseme. راجع علامات تركيب الكلام.

إصدار يونيو 2022

صوت قياسي

تمت إضافة 9 لغات ومتغيرات جديدة للنص العصبي إلى كلام:

اللغة	الإعدادات المحلية	الجنس	اسم الصوت	دعم النمط
‏‏العربية (لبنان)	`ar-LB`	أنثى	`ar-LB-LaylaNeural` ^الجديد	عام
‏‏العربية (لبنان)	`ar-LB`	ذكر	`ar-LB-RamiNeural` ^الجديد	عام
العربية (عمان)	`ar-OM`	أنثى	`ar-OM-AyshaNeural` ^الجديد	عام
العربية (عمان)	`ar-OM`	ذكر	`ar-OM-AbdullahNeural` ^الجديد	عام
الأذربيجانية (أذربيجان)	`az-AZ`	أنثى	`az-AZ-BabekNeural` ^الجديد	عام
الأذربيجانية (أذربيجان)	`az-AZ`	ذكر	`az-AZ-BanuNeural` ^الجديد	عام
البوسنية (البوسنة والهرسك)	`bs-BA`	أنثى	`bs-BA-VesnaNeural` ^الجديد	عام
البوسنية (البوسنة والهرسك)	`bs-BA`	ذكر	`bs-BA-GoranNeural` ^الجديد	عام
‏‏الجورجية (جورجيا)	`ka-GE`	أنثى	`ka-GE-EkaNeural` ^الجديد	عام
‏‏الجورجية (جورجيا)	`ka-GE`	ذكر	`ka-GE-GiorgiNeural` ^الجديد	عام
المنغولية (منغوليا)	`mn-MN`	أنثى	`mn-MN-YesuiNeural` ^الجديد	عام
المنغولية (منغوليا)	`mn-MN`	ذكر	`mn-MN-BataaNeural` ^الجديد	عام
‏‏النيبالية (نيبال)	`ne-NP`	أنثى	`ne-NP-HemkalaNeural` ^الجديد	عام
‏‏النيبالية (نيبال)	`ne-NP`	ذكر	`ne-NP-SagarNeural` ^الجديد	عام
‏‏الألبانية (ألبانيا)	`sq-AL`	أنثى	`sq-AL-AnilaNeural` ^الجديد	عام
‏‏الألبانية (ألبانيا)	`sq-AL`	ذكر	`sq-AL-IlirNeural` ^الجديد	عام
التاميلية (ماليزيا)	`ta-MY`	أنثى	`ta-MY-KaniNeural` ^الجديد	عام
التاميلية (ماليزيا)	`ta-MY`	ذكر	`ta-MY-SuryaNeural` ^الجديد	عام

أصوات GA 36 من المعاينة العامة للغة en-GB الإنجليزية (المملكة المتحدة) fr-FR والفرنسية (فرنسا) والألمانية de-DE (ألمانيا):

اللغة	الإعدادات المحلية	الجنس	اسم الصوت	دعم النمط
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-AbbiNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-BellaNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-HollieNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-MaisieNeural`	صوت عام، صوت طفل
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-OliviaNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-SoniaNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-AlfieNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-ElliotNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-EthanNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-NoahNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-OliverNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-ThomasNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-BrigitteNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-CelesteNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-CoralieNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-EloiseNeural`	صوت عام، صوت طفل
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-JacquelineNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-JosephineNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-YvetteNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-AlainNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-ClaudeNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-JeromeNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-MauriceNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-YvesNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-AmalaNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-ElkeNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-GiselaNeural`	صوت عام، صوت طفل
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-KlarissaNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-LouisaNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-MajaNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-TanjaNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-BerndNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-ChristophNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-KasperNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-KillianNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-KlausNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-RalfNeural`	عام

إضافة 40 صوتا جديدا من es-MX الإسبانية (المكسيك) والإيطالية it-IT (إيطاليا) pt-BR والبرتغالية (البرازيل) و2 لهجات للغة zh-CN الصينية (الماندارين، المبسطة) في المعاينة العامة:

اللغة	الإعدادات المحلية	الجنس	اسم الصوت	دعم النمط
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-BeatrizNeural` ^الجديد	عام
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-CarlotaNeural` ^الجديد	عام
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-NuriaNeural` ^الجديد	عام
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-RenataNeural` ^الجديد	عام
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-LarissaNeural` ^الجديد	عام
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-CandelaNeural` ^الجديد	عام
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-MarinaNeural` ^الجديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	أنثى	`it-IT-FiammaNeural` ^الجديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	أنثى	`it-IT-IrmaNeural` ^الجديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	أنثى	`it-IT-FabiolaNeural` ^الجديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	أنثى	`it-IT-PalmiraNeural` ^الجديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	أنثى	`it-IT-ImeldaNeural` ^الجديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	أنثى	`it-IT-PierinaNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-ElzaNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-ManuelaNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-BrendaNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-LeilaNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-YaraNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-GiovannaNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-LeticiaNeural` ^الجديد	عام
الإسبانية (المكسيك)	`es-MX`	ذكر	`es-MX-CecilioNeural` ^الجديد	عام
الإسبانية (المكسيك)	`es-MX`	ذكر	`es-MX-LibertoNeural` ^الجديد	عام
الإسبانية (المكسيك)	`es-MX`	ذكر	`es-MX-LucianoNeural` ^الجديد	عام
الإسبانية (المكسيك)	`es-MX`	ذكر	`es-MX-PelayoNeural` ^الجديد	عام
الإسبانية (المكسيك)	`es-MX`	ذكر	`es-MX-YagoNeural` ^الجديد	عام
الإسبانية (المكسيك)	`es-MX`	ذكر	`es-MX-GerardoNeural` ^الجديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	ذكر	`it-IT-BenignoNeural` ^الجديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	ذكر	`it-IT-CataldoNeural` ^الجديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	ذكر	`it-IT-LisandroNeural` ^الجديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	ذكر	`it-IT-CalimeroNeural` ^الجديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	ذكر	`it-IT-RinaldoNeural` ^الجديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	ذكر	`it-IT-GianniNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	ذكر	`pt-BR-DonatoNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	ذكر	`pt-BR-HumbertoNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	ذكر	`pt-BR-FabioNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	ذكر	`pt-BR-JulioNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	ذكر	`pt-BR-ValerioNeural` ^الجديد	عام
البرتغالية (البرازيل)	`pt-BR`	ذكر	`pt-BR-NicolauNeural` ^الجديد	عام
الصينية (الماندارين، المبسطة)	`zh-CN-sichuan`	ذكر	`zh-CN-sichuan-YunxiSichuanNeural` ^الجديد	عام، لهجة سيشوان
الصينية (الماندارين، المبسطة)	`zh-CN-liaoning`	أنثى	`zh-CN-liaoning-XiaobeiNeural` ^الجديد	عام، لهجة لياونينغ

تحسين الجودة ل en-SG-LunaNeural و en-SG-WayneNeural
دعم إخراج 48 كيلوهرتز للمعاينة العامة مع en-US-JennyNeural، en-US-AriaNeural، وzh-CN-XiaoxiaoNeural

الصوت العصبي المخصص

تم تمكينه لإصلاح مشكلات البيانات عبر الإنترنت. تعرف على المزيد حول كيفية حل مشكلات البيانات في Speech Studio.
تمت إضافة إصدار وصفة التدريب. تعرف على المزيد حول تحديد إصدار وصفة التدريب لنموذج الصوت الخاص بك.

أداة إنشاء محتوى الصوت

ترقيم الصفحات المدعوم.
تم تمكين الفرز بشكل عمومي حسب الاسم ونوع الملف ووقت التحديث على صفحة ملف العمل.

إصدار مايو 2022

صوت قياسي

إصدار 5 أصوات جديدة في المعاينة العامة مع أنماط متعددة لإثراء التنوع باللغة الإنجليزية الأمريكية. راجع اللغة الكاملة والقائمة الصوتية.
دعم هذه الأنماط Angryالجديدة و ExcitedFriendlyو Hopefulو SadShoutingUnfriendlyTerrifiedفي Whispering المعاينة العامة ل .en-US-AriaNeural
دعم هذه الأنماط Angryالجديدة و Cheerfulو ExcitedFriendlyو HopefulSadShoutingUnfriendlyTerrifiedفي Whispering المعاينة العامة ل en-US-GuyNeuralو. en-US-JennyNeural
دعم هذه الأنماط Excitedالجديدة و FriendlyHopefulو ShoutingUnfriendlyTerrified في Whispering المعاينة العامة ل .en-US-SaraNeural راجع أنماط الصوت وأدواره.
إصدار أصوات zh-CN-YunjianNeuralجديدة و zh-CN-YunhaoNeuralو في zh-CN-YunfengNeural المعاينة العامة. راجع اللغة الكاملة والقائمة الصوتية.
دعم نمطين sports-commentaryجديدين ، sports-commentary-excited في المعاينة العامة ل zh-CN-YunjianNeural. راجع أنماط الصوت وأدواره.
دعم نمط advertisement-upbeat جديد 1 في المعاينة العامة ل zh-CN-YunhaoNeural. راجع أنماط الصوت وأدواره.
cheerful تتوفر أنماط sad و fr-FR-DeniseNeural بشكل عام في جميع المناطق.
تم تحديث SSML لدعم عناصر MathML en-US وأصوات en-AU. تعرف على المزيد في علامات تركيب الكلام.

الصوت العصبي المخصص

تم تمكينه لإلغاء التدريب أثناء تدريب النموذج الصوتي. تعرف على المزيد حول كيفية إلغاء التدريب.
تم تمكينه لاستنساخ النموذج (إعادة تسمية النموذج الصوتي). تعرف على المزيد حول كيفية إعادة تسمية نموذج الصوت الخاص بك.
تم تمكينه لاختبار نموذج الصوت الخاص بك عن طريق إضافة البرنامج النصي للاختبار الخاص بك. تعرف على المزيد حول كيفية تحميل البرنامج النصي للاختبار.
تم تمكين تحديث إصدار المحرك لنموذج الصوت الخاص بك. تعرف على المزيد حول كيفية تحديث إصدار محرك النموذج.
دعم المزيد من مناطق التدريب. راجع دعم المنطقة.
10 إعدادات محلية معتمدة للنص الصوتي العصبي المخصص (معاينة). راجع دعم اللغة.

أداة إنشاء محتوى الصوت

ممكن لتجربة أداة إنشاء محتوى الصوت دون تسجيل الدخول.
تخطيط محسن لضبط الهواتف.
الأداء المحسن: حدد الحد الأقصى لعدد الملفات (200) التي سيتم تحميلها في وقت واحد.
الأداء المحسن: حدد الحد الأقصى لمستوى عمق الدليل (5 مستويات).

إصدار مارس 2022

صوت قياسي

تمت إضافة دعم في المعاينة Cheerful العامة للأنماط و Sad باستخدام fr-FR-DeniseNeural. راجع أنماط الصوت وأدواره.
إصدار أصوات قياسية للحاويات غير المتصلة في المعاينة العامة. راجع استخدام حاويات Docker في بيئات غير متصلة.

الصوت العصبي المخصص

التحكم في الوصول المستند إلى الدور المدعوم. تعرف على المزيد حول التحكم في الوصول المستند إلى الدور في Azure في Speech Studio
نقاط النهاية الخاصة المدعومة ونقاط نهاية خدمة الشبكة الظاهرية. تعرف على المزيد حول كيفية استخدام نقاط النهاية الخاصة مع خدمة الكلام.

أداة إنشاء محتوى الصوت

تحديث حجم الملف وحدود التزامن لموارد الطبقة الحرة (F0) لجعل التجربة متسقة مع Speech SDK وواجهات برمجة التطبيقات. راجع حصص وحدود خدمة الكلام.

إصدار فبراير 2022

الصوت العصبي المخصص

إصدار lite صوت عصبي مخصص في المعاينة العامة. تعرف على المزيد حول ما هو مخصص لايت الصوت العصبي.
دعم اللغة الموسعة إلى 49 لغة. راجع دعم اللغة.
دعم المزيد من المناطق/مراكز البيانات. راجع دعم المنطقة.

أداة إنشاء محتوى الصوت

إزالة حد طول الإخراج لتنزيل الصوت.

إصدار يناير 2022

لغات وأصوات جديدة

تمت إضافة 10 لغات ومتغيرات جديدة للنص العصبي إلى كلام:

اللغة	الإعدادات المحلية	الجنس	اسم الصوت	دعم النمط
البنغالية (الهند)	`bn-IN`	أنثى	`bn-IN-TanishaaNeural` ^الجديد	عام
البنغالية (الهند)	`bn-IN`	ذكر	`bn-IN-BashkarNeural` ^الجديد	عام
‏‏الأيسلندية (أيسلندا)	`is-IS`	أنثى	`is-IS-GudrunNeural` ^الجديد	عام
‏‏الأيسلندية (أيسلندا)	`is-IS`	ذكر	`is-IS-GunnarNeural` ^الجديد	عام
‏‏الكانادية (الهند)	`kn-IN`	أنثى	`kn-IN-SapnaNeural` ^الجديد	عام
‏‏الكانادية (الهند)	`kn-IN`	ذكر	`kn-IN-GaganNeural` ^الجديد	عام
الكازاخستانية (كازاخستان)	`kk-KZ`	أنثى	`kk-KZ-AigulNeural` ^الجديد	عام
الكازاخستانية (كازاخستان)	`kk-KZ`	ذكر	`kk-KZ-DauletNeural` ^الجديد	عام
لاو (لاوس)	`lo-LA`	أنثى	`lo-LA-KeomanyNeural` ^الجديد	عام
لاو (لاوس)	`lo-LA`	ذكر	`lo-LA-ChanthavongNeural` ^الجديد	عام
المقدونية (جمهورية مقدونيا الشمالية)	`mk-MK`	أنثى	`mk-MK-MarijaNeural` ^الجديد	عام
المقدونية (جمهورية مقدونيا الشمالية)	`mk-MK`	ذكر	`mk-MK-AleksandarNeural` ^الجديد	عام
‏‏المالايالامية (الهند)	`ml-IN`	أنثى	`ml-IN-SobhanaNeural` ^الجديد	عام
‏‏المالايالامية (الهند)	`ml-IN`	ذكر	`ml-IN-MidhunNeural` ^الجديد	عام
‏‏البشتونية (أفغانستان)	`ps-AF`	أنثى	`ps-AF-LatifaNeural` ^الجديد	عام
‏‏البشتونية (أفغانستان)	`ps-AF`	ذكر	`ps-AF-GulNawazNeural` ^الجديد	عام
الصربية (صربيا، السيريلية)	`sr-RS`	أنثى	`sr-RS-SophieNeural` ^الجديد	عام
الصربية (صربيا، السيريلية)	`sr-RS`	ذكر	`sr-RS-NicholasNeural` ^الجديد	عام
‏‏السنهالية (سريلانكا)	`si-LK`	أنثى	`si-LK-ThiliniNeural` ^الجديد	عام
‏‏السنهالية (سريلانكا)	`si-LK`	ذكر	`si-LK-SameeraNeural` ^الجديد	عام

للحصول على القائمة الكاملة للأصوات المتوفرة، راجع دعم اللغة.

أصوات جديدة في المعاينة

تمت إضافة أصوات جديدة en-GBfr-FR de-DE في المعاينة:

اللغة	الإعدادات المحلية	الجنس	اسم الصوت	دعم النمط
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-AbbiNeural` ^الجديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-BellaNeural` ^الجديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-HollieNeural` ^الجديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-OliviaNeural` ^الجديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	بنت	`en-GB-MaisieNeural` ^الجديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-AlfieNeural` ^الجديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-ElliotNeural` ^الجديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-EthanNeural` ^الجديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-NoahNeural` ^الجديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-OliverNeural` ^الجديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-ThomasNeural` ^الجديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-BrigitteNeural` ^الجديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-CelesteNeural` ^الجديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-CoralieNeural` ^الجديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-JacquelineNeural` ^الجديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-JosephineNeural` ^الجديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-YvetteNeural` ^الجديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	بنت	`fr-FR-EloiseNeural` ^الجديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-AlainNeural` ^الجديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-ClaudeNeural` ^الجديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-JeromeNeural` ^الجديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-MauriceNeural` ^الجديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-YvesNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-AmalaNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-ElkeNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-KlarissaNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-LouisaNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-MajaNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-TanjaNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	بنت	`de-DE-GiselaNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-BerndNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-ChristophNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-KasperNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-KillianNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-KlausNeural` ^الجديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-RalfNeural` ^الجديد	عام

للحصول على القائمة الكاملة للأصوات المتوفرة، راجع دعم اللغة.

دقة النطق

تحسين نطق الكلمة الإنجليزية لجميع he-IL الأصوات.
تحسين دقة النطق على مستوى الكلمات ل cs-CZ و da-DK.
تحسين التشكيلات العربية ومعالجة نيكود العبرية.
تحسين قراءة الكيان ل ja-JP

Speech Studio

الصوت العصبي المخصص: تمكين اختبار نموذج إضافي باستخدام واجهة برمجة تطبيقات الدفعة (واجهة برمجة تطبيقات الصوت الطويلة)
إنشاء محتوى الصوت: تمكين المزيد من تنسيقات الإخراج

إصدار أكتوبر 2021

لغات وأصوات جديدة

تمت إضافة 49 لغة جديدة و98 صوتا للنص العصبي إلى الكلام:

الأدري في af-ZA الأفريكانية (جنوب أفريقيا)، وليم في af-ZA الأفريكانية (جنوب أفريقيا)، مكديس في am-ET الأمهرية (إثيوبيا)، أمها في am-ET الأمهرية (إثيوبيا)، فاطمة باللغة ar-AE العربية (الإمارات العربية المتحدة)، حمدان بالعربية ar-AE (الإمارات العربية المتحدة)، ليلى بالعربية ar-BH (البحرين)، علي بالعربية ar-BH (البحرين)، أمينة بالعربية ar-DZ (الجزائر)، اسماعيل بالعربية ar-DZ (الجزائر)، رنا بالعربية ar-IQ (العراق)، باسل باللغة ar-IQ العربية (العراق)، صنعاء باللغة ar-JO العربية (الأردن)، تيم باللغة ar-JO العربية (الأردن)، نورا باللغة ar-KW العربية (الكويت)، فهد باللغة ar-KW العربية (الكويت)، إيمان باللغة ar-LY العربية (ليبيا)، عمر باللغة ar-LY العربية (ليبيا)، منى ar-MA باللغة العربية (المغرب)، جمال باللغة ar-MA العربية (المغرب)، أمل باللغة ar-QA العربية (قطر)، معاز باللغة ar-QA العربية (قطر)، أماني باللغة ar-SY العربية (سوريا)، الليث باللغة ar-SY العربية (سوريا)، ريم باللغة ar-TN العربية (تونس)، هيدي باللغة ar-TN العربية (تونس)، مريم باللغة ar-YE العربية (اليمن)، صالح باللغة ar-YE العربية (اليمن)، نابانيتا في bn-BD بنغالا (بنغلاديش)، براديب في bn-BD بنغالا (بنغلاديش)، أسيليا باللغة en-KE الإنجليزية (كينيا)، تشيليمبا باللغة en-KE الإنجليزية (كينيا)، إزنين باللغة en-NG الإنجليزية (نيجيريا)، أبيو باللغة en-NG الإنجليزية (نيجيريا)، إيماني باللغة en-TZ الإنجليزية (تنزانيا)، إليمو باللغة en-TZ الإنجليزية (تنزانيا)، صوفيا باللغة es-BO الإسبانية (بوليفيا)، مارسيلو باللغة es-BO الإسبانية (بوليفيا)، كاتالينا باللغة es-CL الإسبانية (شيلي)، لورينزو باللغة es-CL الإسبانية (تشيلي)، ماريا في es-CR الإسبانية (كوستاريكا)، خوان باللغة es-CR الإسبانية (كوستاريكا)، بلقاس باللغة es-CU الإسبانية (كوبا)، مانويل باللغة es-CU الإسبانية (كوبا)، رامونا باللغة es-DO الإسبانية (جمهورية الدومينيكان)، إميليو باللغة es-DO الإسبانية (جمهورية الدومينيكان)، أندريا باللغة es-EC الإسبانية (إكوادور)، لويس باللغة es-EC الإسبانية (إكوادور)، تيريزا باللغة es-GQ الإسبانية (غينيا الاستوائية)، خافيير باللغة es-GQ الإسبانية (غينيا الاستوائية)، مارتا باللغة es-GT الإسبانية (غواتيمالا)، أندريس باللغة es-GT الإسبانية (غواتيمالا)، كارلا في es-HN الإسبانية (هندوراس)، كارلوس باللغة es-HN الإسبانية (هندوراس)، يولاندا باللغة es-NI الإسبانية (نيكاراغوا)، فيديريكو باللغة es-NI الإسبانية (نيكاراغوا)، مارغريتا باللغة es-PA الإسبانية (بنما)، روبرتو باللغة es-PA الإسبانية (بنما)، كاميلا باللغة es-PE الإسبانية (بيرو)، أليكس باللغة es-PE الإسبانية (بيرو)، كارينا باللغة es-PR الإسبانية (بورتوريكو)، فيكتور باللغة es-PR الإسبانية (بورتوريكو)، تانيا باللغة es-PY الإسبانية (باراغواي)، ماريو باللغة es-PY الإسبانية (باراغواي)، لورينا باللغة es-SV الإسبانية (السلفادور)، رودريغو في es-SV الأسبانية (السلفادور)، فالنتينا باللغة es-UY الإسبانية (أوروغواي)، ماتيو باللغة es-UY الإسبانية (أوروغواي)، باولا باللغة es-VE الإسبانية (فنزويلا)، سيباستيان باللغة es-VE الإسبانية (فنزويلا)، ديلارا باللغة fa-IR الفارسية (إيران)، فريد باللغة fa-IR الفارسية (إيران)، بركاتيكا في fil-PH الفلبين (الفلبين)، أنجيلو في fil-PH الفلبين (الفلبين)، سابيلا في gl-ES غاليسيا، روي في gl-ES غاليسيا، سيتي في jv-ID Javanese (إندونيسيا)، ديماس في jv-ID Javanese (إندونيسيا)، سريمام في km-KH الخمير (كمبوديا)، بيسيث في km-KH الخمير (كمبوديا)، نيلار في my-MM البورمية (ميانمار)، ثيها في my-MM البورمية (ميانمار)، أوباكس في so-SO الصومال (الصومال)، موسي في so-SO الصومال (الصومال)، توتي في su-ID سوندانسي (إندونيسيا)، جاجانج في su-ID الصندانسية (إندونيسيا)، ريهيما في sw-TZ السواحلية (تنزانيا) )، دودي في sw-TZ السواحلية (تنزانيا)، سارانيا في ta-LK التاميلية (سري لانكا)، كومار في ta-LK التاميلية (سري لانكا)، فنبا في ta-SG التاميلية (سنغافورة)، أنبو في ta-SG التاميلية (سنغافورة)، غول في ur-IN الأوردية (الهند)، سلمان في ur-IN الأوردية (الهند)، مادينا في uz-UZ الأوزبكية (أوزبكستان)، ساردور في uz-UZ الأوزبكية (أوزبكستان)، ثاندو في zu-ZA الزولو (جنوب أفريقيا)، ثيبا في zu-ZA الزولو (جنوب أفريقيا).

إصدار سبتمبر 2021

صوت روبوت الدردشة الجديد في en-US الإنجليزية (الولايات المتحدة):تمثل سارة شابة بالغة تتحدث بشكل عارض أكثر وتناسب سيناريوهات روبوت الدردشة بشكل أفضل.
تمت إضافة أنماط جديدة ل ja-JP اليابانية صوت نانامي : ثلاثة أنماط جديدة متاحة الآن مع Nanami : الدردشة ، وخدمة العملاء ، ومبهجة.
تحسين النطق الكلي: Ardi في id-ID، Premwadee في th-TH، كريستيل في da-DK، HoaiMy و NamMinh في vi-VN.
صوتان جديدان في zh-CN الصينية (الماندارين، الصين) في المعاينة: Xiaochen و Xiaoyan، محسنة لسيناريوهات الكلام التلقائي وخدمة العملاء.

إصدار يوليو 2021

النص العصبي لتحديثات الكلام

تقليل أخطاء النطق باللغة العبرية بمقدار 20%.

تحديثات Speech Studio

الصوت العصبي المخصص: تم تحديث مسار التدريب إلى UniTTSv3 الذي يتم من خلاله تحسين جودة النموذج بينما يتم تقليل وقت التدريب بمقدار 50% للنماذج الصوتية.
إنشاء محتوى الصوت: تم إصلاح مشكلة الأداء "تصدير" والخطأ في تحديد الصوت العصبي المخصص.

إصدار يونيو 2021

تحديثات Speech Studio

الصوت العصبي المخصص: تم توسيع التدريب الصوتي العصبي المخصص لدعم جنوب شرق آسيا. الميزات الجديدة التي تم إصدارها لدعم التحقق من حالة تحميل البيانات.
إنشاء محتوى صوتي: تم إصدار ميزة جديدة لدعم المعجم المخصص. باستخدام هذه الميزة، يمكن للمستخدمين بسهولة إنشاء ملفات المعجم الخاصة بهم وتحديد النطق المخصص لإخراج الصوت الخاص بهم.

إصدار مايو 2021

اللغات والأصوات الجديدة المضافة ل TTS العصبية

عشر لغات جديدة تم تقديمها - تمت إضافة 20 صوتا جديدا في 10 لغات جديدة إلى قائمة اللغات العصبية TTS: Yan باللغة en-HK الإنجليزية (هونغ كونغ)، سام باللغة en-HK الإنجليزية (هونغ كونغ)، مولي باللغة en-NZ الإنجليزية (نيوزيلندا)، ميتشل باللغة en-NZ الإنجليزية (نيوزيلندا)، لونا باللغة en-SG الإنجليزية (سنغافورة)، واين باللغة en-SG الإنجليزية (سنغافورة)، ليا باللغة en-ZA الإنجليزية (جنوب أفريقيا)، لوك باللغة en-ZA الإنجليزية (جنوب أفريقيا)، Dhwani في gu-IN الجيوجاراتي (الهند)، نيرانجان في gu-IN الجيوجاراتية (الهند)، آروهي في mr-IN ماراتيهي (الهند)، مانوهار في mr-IN ماراتثي (الهند)، إيلينا باللغة es-AR الإسبانية (الأرجنتين)، توماس باللغة es-AR الإسبانية (الأرجنتين)، سالومي باللغة es-CO الإسبانية (كولومبيا)، غونزالو باللغة es-CO الإسبانية (كولومبيا)، بالوما باللغة es-US الإسبانية (الولايات المتحدة)، ألونسو باللغة es-US الإسبانية (الولايات المتحدة)، زري باللغة sw-KE السواحلية (كينيا)، رافيكي في sw-KE سواهيلي (كينيا).
أحد عشر صوتا جديدا en-US في المعاينة - تتم إضافة 11 صوتا en-US جديدا في المعاينة إلى الإنجليزية الأمريكية، وهي آشلي، آمبر، آنا، براندون، كريستوفر، كورا، إليزابيث، إريك، ميشيل، مونيكا، يعقوب.
خمسة zh-CN الأصوات الصينية (الماندارين، المبسطة) متاحة بشكل عام - يتم تغيير 5 أصوات صينية (الماندارين، المبسطة) من المعاينة إلى متوفرة بشكل عام. وهم يونشى ، شياومو ، شياومان ، شياو شوان ، شياو روى . الآن، تتوفر هذه الأصوات في جميع المناطق. تتم إضافة Yunxi بنمط "مساعد" جديد، وهو مناسب لروبوت الدردشة وعامل الصوت. يتم تحسين أنماط صوت Xiaomo لتكون أكثر طبيعية وميزة.

إصدار أبريل 2021

يتوفر النص العصبي إلى كلام عبر 21 منطقة

12 منطقة جديدة تمت إضافتها - النص العصبي إلى الكلام متاح الآن في هذه المناطق ال 12 الجديدة: Japan East، ، Japan WestKorea Central، North Central US، North EuropeSouth Central US، Southeast Asia، UK South، ، west Central US، West Europe، West US. West US 2 تحقق هنا للحصول على قائمة كاملة من 21 منطقة مدعومة.

إصدار مارس 2021

اللغات والأصوات الجديدة المضافة ل TTS العصبية

تم تقديم ست لغات جديدة - تمت إضافة 12 صوتا جديدا في 6 لغات جديدة إلى قائمة اللغات العصبية TTS: نيا في cy-GB الويلزية (المملكة المتحدة)، Aled في cy-GB الويلزية (المملكة المتحدة)، روزا باللغة en-PH الإنجليزية (الفلبين)، جيمس باللغة en-PH الإنجليزية (الفلبين)، شارلين باللغة fr-BE الفرنسية (بلجيكا)، جيرارد بالفرنسية fr-BE (بلجيكا)، دينا باللغة nl-BE الهولندية (بلجيكا)، أرنو باللغة nl-BE الهولندية (بلجيكا)، بولينا باللغة uk-UA الأوكرانية (أوكرانيا)، أوستاب باللغة uk-UA الأوكرانية (أوكرانيا)، أوزما في ur-PK الأوردية (باكستان)، أساد في ur-PK الأوردية (باكستان).
خمس لغات من المعاينة إلى GA - 10 أصوات في 5 لغات تم تقديمها في نوفمبر هي الآن GA: Kert في et-EE الإستونية (إستونيا)، كولم في ga-IE الأيرلندية (أيرلندا)، نيلز في lv-LV لاتفيا (لاتفيا)، ليونا في lt-LT الليتوانية (ليتوانيا)، جوزيف في mt-MT المالطية (مالطا).
تمت إضافة صوت ذكر جديد للفرنسية (كندا) - يتوفر صوت جديد أنطوان للفرنسية fr-CA (كندا).
تحسين الجودة - خفض معدل خطأ النطق على hu-HU المجرية - 48.17%، nb-NO النرويجية - 52.76%، nl-NL الهولندية (هولندا) - 22.11%.

مع هذا الإصدار، ندعم الآن ما مجموعه 142 صوتا عصبيا عبر 60 لغة/لغة. بالإضافة إلى ذلك، يتوفر أكثر من 70 صوتا قياسيا في 49 لغة/لغة. تفضل بزيارة دعم اللغة للحصول على القائمة الكاملة.

الحصول على أحداث وضع الوجه لتحريك الأحرف

يتضمن النص العصبي إلى الكلام الآن حدث viseme. تسمح أحداث Viseme للمستخدمين بالحصول على سلسلة من أوضاع الوجه جنبا إلى جنب مع الكلام المركب. يمكن استخدام Visemes للتحكم في حركة نماذج الأفاتار ثلاثية الأبعاد و2D، ومطابقة حركات الفم مع الكلام المركب. تتوفر أحداث Viseme للصوت en-US-AriaNeural فقط في الوقت الحالي.

إضافة عنصر الإشارة المرجعية في Speech Synthesis Markup Language (SSML)

يسمح لك عنصر الإشارة المرجعية بإدراج علامات مخصصة في SSML للحصول على إزاحة كل علامة في دفق الصوت. يمكن استخدامه للإشارة إلى موقع معين في تسلسل النص أو العلامة.

إصدار فبراير 2021

التوفر العام للصوت العصبي المخصص

الصوت العصبي المخصص هو GA في فبراير ب 13 لغة: الصينية (الماندارين، المبسطة)، الإنجليزية (أستراليا)، الإنجليزية (الهند)، الإنجليزية (المملكة المتحدة)، الإنجليزية (الولايات المتحدة)، الفرنسية (كندا)، الفرنسية (فرنسا)، الألمانية (ألمانيا)، الإيطالية (إيطاليا)، اليابانية (اليابان)، الكورية (كوريا)، البرتغالية (البرازيل)، الإسبانية (المكسيك)، والإسبانية (إسبانيا). تعرف على المزيد حول ما هو الصوت العصبي المخصص وكيفية استخدامه بمسؤولية. تتطلب الميزة الصوتية العصبية المخصصة التسجيل وقد تحد Microsoft من الوصول استنادا إلى معايير الأهلية من Microsoft. تعرف على المزيد حول الوصول المحدود.

إصدار ديسمبر 2020

أصوات عصبية جديدة في GA والمعاينة

تم إصدار 51 صوتا جديدا لما مجموعه 129 صوتا عصبيا عبر 54 لغة/لغة:

46 صوتا جديدا في لغات الجمعية العامة: شاكر باللغة ar-EG العربية (مصر)، حامد باللغة ar-SA العربية (المملكة العربية السعودية)، بوريسلاف باللغة bg-BG البلغارية (بلغاريا)، جوانا في ca-ES كاتالان، أنتونين في cs-CZ التشيك (الجمهورية التشيكية)، جيبي باللغة da-DK الدنماركية (الدنمارك)، جوناس باللغة de-AT الألمانية (النمسا)، يناير باللغة de-CH الألمانية (سويسرا)، نستوراس في el-GR اليونانية (اليونان)، ليام باللغة en-CA الإنجليزية (كندا)، كونور باللغة en-IE الإنجليزية (أيرلندا)، مادور باللغة en-IN الهندية (الهند)، موهان في en-IN التيلوج (الهند)، Prabhat باللغة en-IN الإنجليزية (الهند)، فالوفار باللغة en-IN التاميلية (الهند)، إنريك باللغة es-ES الكتالونية، كيرت باللغة et-EE الإستونية (إستونيا)، هاري باللغة fi-FI الفنلندية (فنلندا)، سلمى باللغة fi-FI الفنلندية (فنلندا)، فابريس باللغة fr-CH الفرنسية (سويسرا)، كولم باللغة ga-IE الأيرلندية (أيرلندا)، أفري باللغة he-IL العبرية (إسرائيل)، ريبكو باللغة hr-HR الكرواتية (كرواتيا)، تاماز باللغة hu-HU المجرية (المجر)، غادي باللغة id-ID الإندونيسية (إندونيسيا)، ليونا في lt-LT الليتوانية (ليتوانيا)، نيلز في lv-LV اللاتفية (لاتفيا)، عثمان في ms-MY الماليزية (ماليزيا)، يوسف في mt-MT المالطية (مالطا)، فين nb-NO باللغة النرويجية، بوكمال (النرويج)، برينيل باللغة nb-NO النرويجية، بوكمال (النرويج)، فينا باللغة nl-NL الهولندية (هولندا)، مارتن باللغة nl-NL الهولندية (هولندا)، أغنيزسكا باللغة pl-PL البولندية (بولندا)، ماريك باللغة pl-PL البولندية (بولندا)، دوارتي باللغة pt-BR البرتغالية (البرازيل)، راكيل باللغة pt-PT البرتغالية (بوتغال)، إميل باللغة ro-RO الرومانية (رومانيا)، ديمتري بالروسية ru-RU (روسيا)، سفيتلانا في ru-RU الروسية (روسيا)، لوكاس في sk-SK السلوفاكية (سلوفاكيا)، روك في sl-SI السلوفينية (سلوفينيا)، ماتياس باللغة sv-SE السويدية (السويد)، صوفيا باللغة sv-SE السويدية (السويد)، نيوات باللغة th-TH التايلاندية (تايلاند)، أحمد باللغة tr-TR التركية (توركي)، ناممينه باللغة vi-VN الفيتنامية (فيتنام)، هسياوشين في zh-TW الماندارين التايوانية (تايوان)، يون جيه في zh-TW الماندارين التايوانية (تايوان)، هيومان في zh-HK الكانتونية الصينية (منطقة هونغ كونغ الإدارية الخاصة)، وانلونغ في zh-HK الكانتونية الصينية (هونغ كونغ SAR).
5 أصوات جديدة في لغات المعاينة: Kert في et-EE الإستونية (إستونيا)، كولم في ga-IE الأيرلندية (أيرلندا)، نيلز في lv-LV لاتفيا (لاتفيا)، ليونا في lt-LT الليتوانية (ليتوانيا)، جوزيف في mt-MT المالطية (مالطا).

مع هذا الإصدار، ندعم الآن ما مجموعه 129 صوتا عصبيا عبر 54 لغة/لغة. بالإضافة إلى ذلك، يتوفر أكثر من 70 صوتا قياسيا في 49 لغة/لغة. تفضل بزيارة دعم اللغة للحصول على القائمة الكاملة.

تحديثات لإنشاء محتوى صوتي

تحسين واجهة مستخدم تحديد الصوت مع فئات الصوت والأوصاف الصوتية التفصيلية.
تمكين ضبط النغمات لجميع الأصوات العصبية عبر لغات مختلفة.
أتمتة ترجمة واجهة المستخدم استنادا إلى لغة المستعرض.
عناصر التحكم الممكنة StyleDegree لجميع zh-CN الأصوات العصبية. تفضل بزيارة أداة إنشاء محتوى الصوت للتحقق من الميزات الجديدة.

تحديثات أصوات zh-CN

تحديث جميع zh-CN الأصوات العصبية لدعم التحدث باللغة الإنجليزية.
تمكين جميع zh-CN الأصوات العصبية لدعم تعديل الترتيب. يمكن استخدام أداة SSML أو إنشاء محتوى صوتي لضبط أفضل ترميز.
تحديث جميع zh-CN الأصوات العصبية متعددة الأنماط لدعم StyleDegree التحكم. شدة المشاعر (لينة أو قوية) قابلة للتعديل.
تم التحديث zh-CN-YunyeNeural لدعم أنماط متعددة يمكن أن تؤدي إلى عواطف مختلفة.

إصدار نوفمبر 2020

إعدادات محلية وأصوات جديدة في المعاينة

يتم تقديم خمس أصوات ولغات جديدة إلى قائمة مشاريع النص العصبي إلى الكلام. وهم: غريس في مالطا (مالطا)، أونا في الليتوانية (ليتوانيا)، أنو في استونيا (إستونيا)، أورلينا في الأيرلندية (أيرلندا) وإيفيريتا في لاتفيا (لاتفيا).
خمسة أصوات جديدة zh-CN مع دعم أنماط وأدوار متعددة: Xiaohan و Xiaomo و Xiaorui و Xiaoxuan و Yunxi.

تتوفر هذه الأصوات في المعاينة العامة في ثلاث مناطق Azure: EastUS و SouthEastAsia و WestEurope.

نص عصبي إلى SPEECH Container GA

باستخدام النص العصبي إلى حاوية الكلام، يمكن للمطورين تشغيل تركيب الكلام مع الأصوات الرقمية الأكثر طبيعية في بيئتهم الخاصة لمتطلبات أمان وإدارة بيانات محددة. تحقق من كيفية تثبيت حاويات الكلام.

الميزات الجديدة

الصوت المخصص: تمكين المستخدمين من نسخ نموذج صوتي من منطقة إلى أخرى؛ تعليق نقطة النهاية المدعومة واستئنائها. انتقل إلى مدخل Microsoft Azure هنا.
دعم علامة الصمت SSML.
تحسينات عامة على جودة صوت TTS: تحسين دقة النطق على مستوى الكلمات في nb-NO. تم تقليل 53% خطأ في النطق.

اقرأ المزيد في هذه المدونة التقنية.

إصدار أكتوبر 2020

الميزات الجديدة

تدعم جيني أسلوبا جديدا newscast . تعرف على كيفية استخدام أنماط التحدث في SSML.
تمت ترقية الأصوات العصبية إلى HiFiNet vocoder، مع دقة صوت أعلى وسرعة تركيب أسرع. وهذا يفيد العملاء الذين يعتمد سيناريوهم على hi-fi التفاعلات الصوتية أو الطويلة، بما في ذلك ترجمة الفيديو أو الكتب الصوتية أو المواد التعليمية عبر الإنترنت. اقرأ المزيد عن القصة واسمع عينات الصوت على مدونة مجتمعنا التقني
الصوت المخصص وإنشاء محتوى الصوت Studio مترجم إلى 17 لغة. يمكن للمستخدمين بسهولة تبديل واجهة المستخدم إلى لغة محلية للحصول على تجربة أكثر سهولة.
إنشاء محتوى الصوت: تمت إضافة عنصر تحكم درجة النمط ل XiaoxiaoNeural؛ تحسين ميزة التوقف المخصصة لتضمين فواصل تزايدية تبلغ 50 مللي ثانية.

تحسينات عامة على جودة صوت TTS

تحسين دقة النطق على مستوى الكلمات في pl-PL (تقليل معدل الخطأ: 51%) و fi-FI (تقليل معدل الخطأ: 58%)
تحسين ja-JP قراءة كلمة واحدة لسيناريو القاموس. تم تقليل خطأ النطق بمقدار 80%.
zh-CN-XiaoxiaoNeural: تحسين التوجه/CustomerService/Newscast/بهجة/جودة صوت بنمط غاضب.
zh-CN: تحسين نطق Erhua والنبرة الخفيفة والبروسودي الفضاء المكرر، والذي يحسن إلى حد كبير وضوح.

إصدار سبتمبر 2020

الميزات الجديدة

النص العصبي إلى كلام
- موسع لدعم 18 لغة/لغة جديدة. وهي بلغارية وتشيكية وألمانية (النمسا) والألمانية (سويسرا) واليونانية والإنجليزية (أيرلندا) والفرنسية (سويسرا) والعبرية والكرواتية والمجرية والإندونيسية والماليزية والرومانية والسلوفاكية والسلوفينية والتاميلية والتيلوجوية والفييتنامية.
- إصدار 14 صوتا جديدا لإثراء التنوع في اللغات الحالية. راجع اللغة الكاملة والقائمة الصوتية.
- أنماط حديث جديدة ل en-US وأصوات zh-CN . تدعم جيني، الصوت الجديد باللغة الإنجليزية (الولايات المتحدة)، روبوت الدردشة وخدمة العملاء وأنماط المساعد. تتوفر 10 أنماط حديثة جديدة مع صوتنا zh-CN، XiaoXiao. بالإضافة إلى ذلك، يدعم StyleDegree الصوت العصبي XiaoXiao الضبط. تعرف على كيفية استخدام أنماط التحدث في SSML.
الحاويات: النص العصبي إلى حاوية الكلام التي تم إصدارها في المعاينة العامة مع 16 صوتا متوفرة في 14 لغة. تعرف على المزيد حول كيفية نشر حاويات الكلام للنص العصبي على الكلام

اقرأ الإعلان الكامل عن تحديثات TTS ل Ignite 2020

إصدار أغسطس 2020

الميزات الجديدة

نص عصبي إلى كلام: نمط حديث جديد ل en-US صوت أريا. يمكن أن يبدو AriaNeural كقائم أخبار عند قراءة الأخبار. يبدو نمط "نشرة الأخبار الرسمية" أكثر خطورة، في حين أن نمط "newscast-casual" أكثر استرخاء وغير رسمي. تعرف على كيفية استخدام أنماط التحدث في SSML.
صوت مخصص: يتم إصدار ميزة جديدة للتحقق تلقائيا من جودة بيانات التدريب. عند تحميل بياناتك، سيفحص النظام جوانب مختلفة من بيانات الصوت والنسخة، ويصلح تلقائيا المشكلات أو يقوم بتصفيتها لتحسين جودة النموذج الصوتي. وهذا يغطي حجم الصوت، ومستوى الضوضاء، ودقة النطق للكلام، ومحاذاة الكلام مع النص الذي تمت تسويته، والصمت في الصوت، بالإضافة إلى تنسيق الصوت والبرنامج النصي.
إنشاء محتوى صوتي: مجموعة من الميزات الجديدة لتمكين قدرات ضبط الصوت وإدارة الصوت الأكثر قوة.
- النطق: يتم تحديث ميزة ضبط النطق إلى أحدث مجموعة phoneme. يمكنك اختيار عنصر phoneme الصحيح من المكتبة وتحسين نطق الكلمات التي حددتها.
- تنزيل: يتم تحسين ميزة الصوت "Download"/"Export" لدعم إنشاء الصوت حسب الفقرة. يمكنك تحرير المحتوى في نفس الملف/SSML، أثناء إنشاء مخرجات صوت متعددة. يتم تحسين بنية ملف "Download" أيضا. الآن، يمكنك بسهولة الحصول على جميع الملفات الصوتية في مجلد واحد.
- حالة المهمة: تم تحسين تجربة التصدير متعدد الملفات. عند تصدير ملفات متعددة في الماضي، إذا فشل أحد الملفات، فستفشل المهمة بأكملها. ولكن الآن، سيتم تصدير جميع الملفات الأخرى بنجاح. ويتم إثراء تقرير المهمة بمعلومات أكثر تفصيلا وهيكلة. يمكنك التحقق من السجلات لجميع الملفات والجمل الفاشلة الآن مع التقرير.
- وثائق SSML: مرتبطة بمستند SSML لمساعدتك في التحقق من القواعد المتعلقة بكيفية استخدام جميع ميزات الضبط.
يتم تحديث واجهة برمجة تطبيقات القائمة الصوتية لتضمين اسم عرض سهل الاستخدام وأنماط التحدث المدعومة للأصوات العصبية.

تحسينات عامة على جودة صوت TTS

تم تقليل خطأ النطق على مستوى الكلمات % ل ru-RU (تم تقليل الأخطاء بمقدار 56%) و sv-SE (تم تقليل الأخطاء بمقدار 49%)
تحسين قراءة الكلمات متعددة الأصوات على en-US الأصوات العصبية من قبل 40%. ومن أمثلة الكلمات المتعددة الأصوات "قراءة" و"مباشر" و"محتوى" و"سجل" و"كائن" وما إلى ذلك.
تحسين طبيعية نغمة السؤال في fr-FR. مكاسب MOS (متوسط درجة الرأي): +0.28
تحديث vocoders للأصوات التالية، مع تحسينات الدقة وسرعة الأداء الإجمالية بنسبة 40%.

الإعدادات المحلية الصوت

en-GB ميا

es-MX داليا

fr-CA سيلفي

fr-FR دينيس

ja-JP نانامي

ko-KR Sun-Hi

الإعدادات المحلية	الصوت
`en-GB`	ميا
`es-MX`	داليا
`fr-CA`	سيلفي
`fr-FR`	دينيس
`ja-JP`	نانامي
`ko-KR`	Sun-Hi

إصلاحات الأخطاء

تم إصلاح عدد من الأخطاء باستخدام أداة إنشاء محتوى الصوت
- تم إصلاح مشكلة التحديث التلقائي.
- تم إصلاح المشكلات المتعلقة بأنماط الصوت في zh-CN في منطقة جنوب شرق آسيا.
- تم إصلاح مشكلة الثبات، بما في ذلك خطأ تصدير مع علامة "الفاصل"، وأخطاء في علامات الترقيم.

إصدار يونيو 2025

نموذج تقييم النطق المحسن

لقد طرحنا ترقيات كبيرة لنماذج تقييم النطق ل ta-IN و ms-MY. سترى قفزة ملحوظة في معاملات الارتباط Pearson (PCC)، ما يعني تقييمات أكثر دقة ويمكن الاعتماد عليها.

هذه النماذج المحدثة جاهزة للاستخدام من خلال واجهة برمجة التطبيقات وملعب Azure الذكاء الاصطناعي Foundry، تماما كما كان من قبل.

تحسين الكلام إلى نماذج النص

يتم تحسين دقة الكلام إلى نماذج النص في النسخ السريع ل de-DEو en-USen-GBes-ESes-MXfr-FRit-ITja-JPko-KRpt-BRzh-CNب 10%-25% بالمئة على التوالي، خاصة مع تحسين قابلية القراءة والتعرف على الكيانات.

إصدار مايو 2025

تحسين الكلام إلى نماذج النص

يتم تحسين دقة الكلام إلى نماذج النص ل ta-INو te-INen-INو و hu-HU و المحلية بنسبة 5-10 بالمائة على التوالي. نحن أيضا تقريب خفض 20x في الكلمات الشبح للنماذج ta-IN و te-IN .

واجهة برمجة تطبيقات النسخ السريع - كتابة الكلام متعدد اللغات

لنسخ المحتويات متعددة اللغات بشكل مستمر ودقيق في ملف صوتي، يمكنك الآن استخدام أحدث نموذج متعدد اللغات دون تحديد الرموز المحلية عبر واجهة برمجة تطبيقات النسخ السريع. لمزيد من المعلومات، راجع النسخ متعدد اللغات في النسخ السريع.

لغة جديدة مدعومة في النسخ السريع

يدعم النسخ السريع الآن لغات إضافية بما في ذلك fi-FIhe-ILid-IDpl-PLpt-PTsv-SEوما إلى ذلك. لمزيد من المعلومات، راجع اللغات المعتمدة لتحويل الكلام إلى نص.

إصدار أبريل 2025

تقييم النطق

يسعدنا الإعلان عن تحسينات كبيرة في نماذج تقييم النطق لهذه الإعدادات المحلية: de-DEوes-MXit-ITja-JPko-KR.pt-BR تجلب هذه التحسينات تقدما كبيرا في معاملات Pearson Correlation (PCC)، ما يضمن تقييمات أكثر دقة وموثوقية.

كما كان الحال من قبل، تتوفر النماذج من خلال API وملعب Azure الذكاء الاصطناعي Foundry.

إصدار مارس 2025

يوميات كتابة المحادثة متعددة القنوات (متوقفة)

ستتوقف يوميات كتابة المحادثات متعددة القنوات في 28 مارس 2025.

لمتابعة استخدام الكلام إلى نص مع يوميات، استخدم الميزات التالية بدلا من ذلك:

تدعم ميزات الكلام إلى النص هذه اليوميات فقط للصوت أحادي القناة. الصوت متعدد القنوات الذي استخدمته مع كتابة كتابة المحادثة متعددة القنوات غير مدعوم.

إصدار يناير 2025

ميزة جديدة - التجزئة الدلالية

الإعلان عن إصدار ميزة جديدة: التجزئة الدلالية. تدمج هذه الميزة وحدة نمطية لعلامات الترقيم داخل أداة فك التشفير التي تقوم بتقسيم الصوت استنادا إلى المعلومات الدلالية، ما يؤدي إلى حدود تقسيم أكثر منطقية ودقيقة. الفوائد الرئيسية:

دقة التجزئة المحسنة: باستخدام المعلومات الدلالية، تقلل هذه الميزة بشكل كبير من مثيلات المقاطع الطويلة بسبب عدم وجود توقف مؤقت في صوت الإدخال.
تقليل زمن الانتقال الناجم عن نقص التجزئة: يتم تقليل زمن الانتقال الإجمالي للتعرف على الكلام، مع تقليل 40%-60% في طول أطول 5% من الشرائح.
Over-Segmentation التخفيف: تساعد هذه الميزة أيضا على منع الإفراط في التجزئة عن طريق تأخير التجزئة عندما يمكن تشكيل جملة أفضل.

لغة معتمدة:

الإنجليزية (en-US، en-GB)
الصينية (zh-CN، zh-HK)
اليابانية (ja-JP)
الكورية (ko-KR)
الألمانية (de-DE)
الفرنسية (fr-FR)
الإيطالية (it-IT)
الأسبانية (es-ES، es-MX)
الهندية (hi-IN)
البرتغالية (pt-BR، pt-PT)
التركية (tr-TR)
الروسية (ru-RU)
التايلاندية (th-TH)
الإندونيسية (id-ID)

للحصول على تفاصيل التنفيذ، يرجى الرجوع إلى الوثائق: كيفية التعرف على الكلام في قسم "التجزئة الدلالية".

تحويل الكلام في الوقت الحقيقي إلى نص - إصدار نموذج اللغة الإنجليزية الجديد

الإعلان عن إصدار أحدث نموذج كلام إنجليزي (en-US، en-CA)، والذي يجلب تحسينات كبيرة عبر مقاييس الأداء المختلفة. فيما يلي أهم النقاط الرئيسية لهذا الإصدار:

تحسينات إمكانية وصول ذوي الاحتياجات الخاصة: حققت انخفاضا بنسبة 36% في معدل خطأ Word (WER) على مجموعات اختبار إمكانية وصول ذوي الاحتياجات الخاصة الداخلية من Microsoft، مما يجعل التعرف على الكلام أكثر دقة وموثوقية للتعرف على الكلام من الأفراد ذوي إعاقات الكلام.
الشبح الحد من الكلمات: انخفاض ملحوظ 90% في الكلمات الشبح على مجموعة تطوير كلمة شبح والتخفيضات تتراوح من 63% إلى 100% عبر مجموعات بيانات الكلمة الشبح الأخرى، مما يعزز بشكل كبير وضوح ودقة النسخ.

كما حسن النموذج الجديد الأداء العام، بما في ذلك التعرف على الكيان والتعرف بشكل أفضل على الرسائل المهجأة.

ومن المتوقع أن توفر هذه التطورات تجربة أكثر دقة وكفاءة وإرضاء لجميع المستخدمين. يتوفر النموذج الجديد من خلال API وملعب Azure الذكاء الاصطناعي Foundry. يتم تشجيع التعليقات على تحسين قدراتها بشكل أكبر.

إصدار نوفمبر 2024

تحويل الكلام إلى نص REST API الإصدار 2024-11-15

يتم إصدار الكلام إلى نص REST API الإصدار 2024-11-15 للتوفر العام. لمزيد من المعلومات، راجع وثائق مرجع Speech to text REST API ودليل Speech to text REST API.

ملاحظة

تم إهمال الكلام إلى نص REST API الإصدار 2024-05-15-preview.

النسخ السريع (GA)

النسخ السريع متاح الآن بشكل عام عبر تحويل الكلام إلى نص REST API الإصدار 2024-11-15. يسمح لك النسخ السريع بنسخ الملف الصوتي إلى نص بدقة ومتزامنة، مع عامل سرعة عالية. يمكنه نسخ الصوت بشكل أسرع من مدة الصوت الفعلية. لمزيد من المعلومات، راجع دليل واجهة برمجة تطبيقات النسخ السريع.

إصدار أكتوبر 2024

تحويل الكلام في الوقت الحقيقي إلى نص (ثنائي اللغة)

وقد أدخلت تحسينات كبيرة على جودة الاعتراف بالمصطلحات الإسبانية القصيرة عن طريق النماذج es-US ثنائية اللغة. النموذج ثنائي اللغة ويدعم أيضا اللغة الإنجليزية. كما تم تحسين جودة التعرف على اللغة الإنجليزية.

ترجمة الفيديو (معاينة)

تتوفر واجهة برمجة تطبيقات ترجمة الفيديو الآن في المعاينة العامة. لمزيد من المعلومات، راجع كيفية استخدام ترجمة الفيديو.

إصدار سبتمبر 2024

تحويل الكلام إلى نص في الوقت الحقيقي

أصدر الكلام إلى النص في الوقت الحقيقي نماذج جديدة، بجودة أفضل، للغات التالية.

fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ

النسخ السريع (معاينة)

النسخ السريع الآن يدعم اليوميات للتعرف على عدة مكبرات صوت وفصلها على ملف صوت قناة أحادية. لمزيد من المعلومات، راجع دليل واجهة برمجة تطبيقات النسخ السريع.

إصدار أغسطس 2024

تعلم اللغة (معاينة)

يتوفر تعلم اللغة الآن في المعاينة العامة. يمكن أن يجعل تعلم اللغة التفاعلي تجربة التعلم الخاصة بك أكثر جاذبية وفعالية. لمزيد من المعلومات، راجع تعلم اللغة التفاعلية مع تقييم النطق.

تقييم النطق

يدعم تقييم نطق الكلام الآن 33 لغة متوفرة بشكل عام، وتتوفر كل لغة على جميع مناطق الكلام إلى النص. لمزيد من المعلومات، راجع قائمة اللغات الكاملة لتقييم النطق.

اللغة	إعدادات محلية (BCP-47)
‏‏العربية (مصر)	`ar-EG`
العربية (المملكة العربية السعودية)	`ar-SA`
الكتالانية	`ca-ES`
الصينية (الكانتونية، التقليدية)	`zh-HK`
الصينية (الماندارين، المبسطة)	`zh-CN`
الصينية (الماندارين التايوانية، التقليدية)	`zh-TW`
الدانمركية (الدانمرك)	`da-DK`
البلجيكية (هولندا)	`nl-NL`
الإنجليزية (أستراليا)	`en-AU`
الإنجليزية (كندا)	`en-CA`
الإنجليزية (الهند)	`en-IN`
الإنجليزية (المملكة المتحدة)	`en-GB`
الإنجليزية (الولايات المتحدة)	`en-US`
الفنلندية (فنلندا)	`fi-FI`
الفرنسية (كندا)	`fr-CA`
‏‏الفرنسية (فرنسا)	`fr-FR`
‏‏الألمانية (ألمانيا)	`de-DE`
الهندية (الهند)	`hi-IN`
‏‏الإيطالية (إيطاليا)	`it-IT`
اليابانية (اليابان)	`ja-JP`
الكورية (كوريا الجنوبية)	`ko-KR`
الماليزية (ماليزيا)‏	`ms-MY`
النرويجية بوكمال، (النرويج)	`nb-NO`
البولندية (بولندا)	`pl-PL`
البرتغالية (البرازيل)	`pt-BR`
البرتغالية (البرتغال)	`pt-PT`
الروسية (روسيا)	`ru-RU`
الإسبانية (المكسيك)	`es-MX`
الأسبانية (إسبانيا)	`es-ES`
السويدية (السويد)‏‏	`sv-SE`
‏‏التاميلية (الهند)	`ta-IN`
التايلاندية (تايلاند)	`th-TH`
الفيتنامية (فيتنام)	`vi-VN`

إصدار يوليو 2024

واجهة برمجة تطبيقات النسخ السريع (معاينة)

النسخ السريع متاح الآن في المعاينة العامة. يسمح لك النسخ السريع بنسخ الملف الصوتي إلى نص بدقة ومتزامنة، مع عامل سرعة عالية. يمكنه نسخ الصوت بشكل أسرع من مدة الصوت الفعلية. لمزيد من المعلومات، راجع دليل واجهة برمجة تطبيقات النسخ السريع.

تلميح

جرب النسخ السريع في مدخل Azure الذكاء الاصطناعي Foundry.

إصدار يونيو 2024

التوفر العام لواجهة برمجة تطبيقات REST V3.2 لتحويل الكلام إلى نص

يتوفر الآن الإصدار 3.2 من Speech to text REST API بشكل عام. لمزيد من المعلومات حول تحويل الكلام إلى نص REST API v3.2، راجع وثائق مرجع Speech to text REST API v3.2 ودليل Speech to text REST API.

ملاحظة

تم إيقاف إصدارات المعاينة 3.2-preview.1و3.2-preview.2 اعتبارا من سبتمبر 2024.

سيتم إيقاف Speech to text REST API v3.1 في تاريخ سيتم الإعلان عنه. سيتم إيقاف Speech to text REST API v3.0 في 31 مارس 2026. لمزيد من المعلومات حول الترقية، راجع دلائل الترحيل Speech to text REST API v3.0 إلى v3.1 وv3.1 إلى v3.2 .

إصدار مايو 2024

ترجمة الفيديو (معاينة)

تتوفر الآن ترجمة الفيديو في المعاينة العامة. ترجمة الفيديو هي ميزة في Azure الذكاء الاصطناعي Speech تمكنك من ترجمة مقاطع الفيديو وإنشاءها بلغات متعددة تلقائيا بسلاسة. تم تصميم هذه الميزة لمساعدتك على ترجمة محتوى الفيديو الخاص بك لتلبية احتياجات الجماهير المتنوعة في جميع أنحاء العالم. يمكنك إنشاء مقاطع فيديو شاملة ومترجمة بكفاءة عبر حالات الاستخدام المختلفة مثل vlogs والتعليم والأخبار وتدريب المؤسسات والإعلانات والأفلام والعروض التلفزيونية والمزيد. لمزيد من المعلومات، راجع نظرة عامة على ترجمة الفيديو.

تقييم النطق

يدعم تقييم نطق الكلام الآن 24 لغة متوفرة بشكل عام (مع إضافة لغة جديدة واحدة)، مع 7 لغات أخرى متوفرة في المعاينة العامة. لمزيد من المعلومات، راجع قائمة اللغات الكاملة لتقييم النطق.

إصدار أبريل 2024

ترجمة الكلام التلقائية متعددة اللغات (معاينة)

تتوفر ترجمة الكلام التلقائية متعددة اللغات في المعاينة العامة. تحدث هذه الميزة المبتكرة ثورة في الطريقة التي يتم بها التغلب على حواجز اللغة، وتقدم قدرات لا مثيل لها للاتصال السلس عبر المناظر الطبيعية اللغوية المتنوعة.

أهم النقاط الرئيسية

لغة إدخال غير محددة: يمكن أن تتلقى ترجمة الكلام متعددة اللغات الصوت بمجموعة واسعة من اللغات، وليس هناك حاجة لتحديد لغة الإدخال المتوقعة. إنها تجعل من فهم السياقات العالمية والتعاون فيها ميزة لا تقدر بثمن دون الحاجة إلى الإعداد المسبق.
تبديل اللغة: تسمح ترجمة الكلام متعددة اللغات بالتحدث بلغات متعددة أثناء نفس الجلسة، وترجمتها جميعا إلى نفس اللغة المستهدفة. ليست هناك حاجة لإعادة تشغيل جلسة عمل عند تغيير لغة الإدخال أو أي إجراءات أخرى من قبلك.

كيف تعمل هذه الميزة

مترجم السفر: يمكن أن تعزز ترجمة الكلام متعددة اللغات تجربة السياح الذين يزورون الوجهات الأجنبية من خلال تزويدهم بالمعلومات والمساعدة بلغتهم المفضلة. يمكن لخدمات الفندق والجولات الإرشادية ومراكز الزوار الاستفادة من هذه التقنية لتلبية الاحتياجات اللغوية المتنوعة.
المؤتمرات الدولية: يمكن لترجمة الكلام متعددة اللغات تسهيل التواصل بين المشاركين من مناطق مختلفة الذين قد يتحدثون لغات مختلفة باستخدام تسمية توضيحية مترجمة مباشرة. يمكن للحضور التحدث بلغاتهم الأصلية دون الحاجة إلى تحديدها، ما يضمن فهما سلسا والتعاون.
الاجتماعات التعليمية: في الفصول الدراسية متعددة الثقافات أو بيئات التعلم عبر الإنترنت، يمكن أن تدعم ترجمة الكلام متعددة اللغات التنوع اللغوي بين الطلاب والمعلمين. يسمح بالاتصال والمشاركة السلسة دون الحاجة إلى تحديد لغة كل طالب أو معلم.

كيفية الوصول

للحصول على مقدمة مفصلة، تفضل بزيارة نظرة عامة على ترجمة الكلام. بالإضافة إلى ذلك، يمكنك الرجوع إلى نماذج التعليمات البرمجية في كيفية ترجمة الكلام. هذه الميزة الجديدة مدعومة بالكامل من قبل جميع إصدارات SDK من 1.37.0 فصاعدا.

الكلام في الوقت الحقيقي إلى نص مع يوميات (GA)

أصبح الكلام إلى النص في الوقت الحقيقي مع يوميات متاحا الآن بشكل عام.

يمكنك إنشاء الكلام إلى تطبيقات نصية تستخدم يوميات للتمييز بين المتحدثين المختلفين الذين يشاركون في المحادثة. لمزيد من المعلومات حول اليوميات في الوقت الحقيقي، راجع البدء السريع للمذكرات في الوقت الحقيقي.

تحديث نموذج تحويل الكلام إلى نص

أصدر الكلام إلى النص في الوقت الحقيقي نماذج جديدة ذات قدرات ثنائية اللغة. en-IN يدعم النموذج الآن كلا من السيناريوهات ثنائية اللغة الإنجليزية والهندية ويوفر دقة محسنة. تم الآن تجهيز اللغات العربية (ar-AE، ar-BH، ar-DZ، ar-IL، ar-IQ، ar-KWar-LBar-LYar-MAar-OMar-PSar-QAar-SAar-SY، ar-TN، ) ar-YEبدعم ثنائي اللغة للغة الإنجليزية، والدقة المحسنة، ودعم مركز الاتصال.

يوفر النسخ الدفعي نماذج مع بنية جديدة لهذه الإعدادات المحلية: es-ESوes-MXfr-FRit-ITja-JPko-KRpt-BR.zh-CN تعزز هذه النماذج بشكل كبير قابلية القراءة والتعرف على الكيان.

إصدار مارس 2024

التوفر العام للهمس (GA)

يتوفر الآن نموذج الكلام الهمس إلى نص مع Azure الذكاء الاصطناعي Speech بشكل عام.

راجع ما هو نموذج الهمس؟ لمعرفة المزيد حول وقت استخدام Azure الذكاء الاصطناعي Speech مقابل Azure OpenAI في Azure الذكاء الاصطناعي Foundry Models.

إصدار فبراير 2024

تقييم النطق

يدعم تقييم نطق الكلام الآن 23 لغة متوفرة بشكل عام (مع إضافة 5 لغات جديدة)، مع 3 لغات أخرى متوفرة في المعاينة العامة. لمزيد من المعلومات، راجع قائمة اللغات الكاملة لتقييم النطق.

قائمة العبارات

دعم قائمة العبارات المضافة للإعدادات المحلية التالية: ar-SAde-CHen-IEen-ZAes-USid-IDnl-NLpl-PLpt-PTru-RUsv-SEth-THvi-VNzh-HKzh-TW.

إصدار نوفمبر 2023

تقديم نمذجة الكلام ثنائية اللغة!

يسعدنا الكشف عن إضافة رائدة إلى نمذجة الكلام في الوقت الحقيقي - نمذجة الكلام ثنائية اللغة. يسمح هذا التحسين الكبير لنموذج الكلام لدينا بدعم أزواج اللغة الثنائية اللغة بسلاسة، مثل الإنجليزية والإسبانية، بالإضافة إلى الإنجليزية والفرنسية. تمكن هذه الميزة المستخدمين من التبديل بين اللغات دون عناء أثناء التفاعلات في الوقت الحقيقي، مما يمثل لحظة محورية في التزامنا بتعزيز تجارب الاتصال.

أهم النقاط الرئيسية:

الدعم ثنائي اللغة: باستخدام أحدث إصدار لدينا، يمكن للمستخدمين التبديل بسلاسة بين الإنجليزية والإسبانية أو بين الإنجليزية والفرنسية أثناء تفاعلات الكلام في الوقت الحقيقي. تم تصميم هذه الوظيفة لاستيعاب المتحدثين ثنائيي اللغة الذين ينتقلون بشكل متكرر بين هاتين اللغتين.
تجربة المستخدم المحسنة: سيجد المتحدثون ثنائيو اللغة، سواء في العمل أو المنزل أو في مختلف إعدادات المجتمع، هذه الميزة مفيدة للغاية. إن قدرة النموذج على فهم كل من الإنجليزية والإسبانية والاستجابة لها في الوقت الحقيقي تفتح إمكانيات جديدة للاتصال الفعال والسوائل.

كيفية الاستخدام:

اختر es-US (الإسبانية والإنجليزية) أو fr-CA (الفرنسية والإنجليزية) عند الاتصال بواجهة برمجة تطبيقات خدمة الكلام أو تجربتها على Speech Studio. لا تتردد في التحدث بأي لغة أو مزجها معا - تم تصميم النموذج للتكيف ديناميكيا، مما يوفر استجابات دقيقة وواعية بالسياق بكلتا اللغتين.

حان الوقت لرفع مستوى لعبة الاتصال الخاصة بك مع أحدث إصدار من الميزات لدينا - اتصال سلس متعدد اللغات في متناول يدك!

تحديث نماذج تحويل الكلام إلى نص

نحن متحمسون لتقديم تحديث كبير لنماذج الكلام لدينا، واعدين بدقة محسنة، وقابلية قراءة محسنة، والتعرف على الكيان المحسن. تأتي هذه الترقية مع بنية جديدة قوية، مدعومة بمجموعة بيانات تدريب موسعة، ما يضمن تقدما ملحوظا في الأداء العام. ويتضمن نماذج تم إصدارها حديثا en-USzh-CNja-JPit-ITpt-BRes-MXes-ESfr-FRde-DEko-KRtr-TRsv-SEhe-IL.

يبرز:

دقة أفضل مع بنية النموذج الجديد: ترفع بنية النموذج المعاد تعريفها، إلى جانب مجموعة بيانات تدريب أكثر ثراء، مستويات الدقة، واعدة بإخراج كلام أكثر دقة.
تحسين قابلية القراءة: يقدم أحدث نموذج لدينا دفعة كبيرة لسهولة القراءة، ما يعزز اتساق المحتوى المنطوق ووضوحه.
التعرف المتقدم على الكيان: يتلقى التعرف على الكيان ترقية كبيرة، ما يؤدي إلى نتائج أكثر دقة ودقة.

التأثيرات المحتملة: على الرغم من هذه التطورات، من الضروري مراعاة التأثيرات المحتملة:

ميزة مهلة الصمت المخصص: قد يواجه المستخدمون الذين يستخدمون مهلة الصمت المخصصة، خاصة مع الإعدادات المنخفضة، تجزئة زائدة وإغفالات محتملة لعبارة من كلمة واحدة.
قد يعرض النموذج الجديد مشكلات التوافق مع ميزة بادئة الكلمة الأساسية، وينصح المستخدمون بتقييم أدائه في تطبيقاتهم المحددة.
تقليل كلمات أو عبارات الثراء: قد يلاحظ المستخدمون انخفاضا في كلمات أو عبارات الثراء مثل "um" أو "uh" في إخراج الكلام.
عدم الدقة في مدة الطابع الزمني للكلمات: قد تعرض بعض كلمات التباعد عدم الدقة في مدة الطابع الزمني، مما يتطلب الانتباه في التطبيقات التي تعتمد على التوقيت الدقيق.
تباين توزيع نقاط الثقة: يجب أن يكون المستخدمون الذين يعتمدون على درجات الثقة والحدود المرتبطة بها على دراية بالتباينات المحتملة في التوزيع، مما يتطلب تعديلات للأداء الأمثل.
قد يتأثر تحسين دقة ميزة قائمة العبارات بسوء فهم بعض العبارات.

نحن نشجعك على استكشاف هذه التحسينات والنظر في المشكلات المحتملة لانتقال سلس، وكما هو الحال دائما، فإن ملاحظاتك مفيدة في تحسين خدماتنا وتطويرها.

تقييم النطق

يدعم تقييم نطق الكلام الآن 18 لغة متوفرة بشكل عام، مع ست لغات أخرى متوفرة في المعاينة العامة. لمزيد من المعلومات، راجع قائمة اللغات الكاملة لتقييم النطق.
يسعدنا أن نعلن أن تقييم النطق يقدم ميزات جديدة بدءا من 1 نوفمبر 2023: Prosody و Grammar و Vocabulary و Topic. تهدف هذه التحسينات إلى توفير تجربة تعلم لغة أكثر شمولا لتقييمات القراءة والتحدث. قم بالترقية إلى الإصدار 1.35.0 من SDK أو أحدث لاستكشاف مزيد من التفاصيل في كيفية استخدام تقييم النطق وتقييم النطق في Speech Studio.

إصدار سبتمبر 2023

الهمس المعاينة العامة

يدعم Azure الذكاء الاصطناعي Speech الآن نموذج الهمس من OpenAI عبر واجهة برمجة تطبيقات النسخ الدفعي. لمعرفة المزيد، راجع دليل إنشاء نسخ دفعي .

ملاحظة

يدعم Azure OpenAI أيضا نموذج الهمس الخاص ب OpenAI لتحويل الكلام إلى نص باستخدام واجهة برمجة تطبيقات REST المتزامنة. لمعرفة المزيد، تحقق من التشغيل السريع.

راجع ما هو نموذج الهمس؟ لمعرفة المزيد حول وقت استخدام Azure الذكاء الاصطناعي Speech مقابل Azure OpenAI.

معاينة عامة لواجهة برمجة تطبيقات REST V3.2 لتحويل الكلام إلى نص

يتوفر Speech to text REST API v3.2 في المعاينة. يتوفر الكلام إلى نص REST API v3.1 بشكل عام. سيتم إيقاف Speech to text REST API v3.0 في 31 مارس 2026. لمزيد من المعلومات، راجع دلائل الترحيل Speech to text REST API v3.0 إلى v3.1 وv3.1 إلى v3.2 .

إصدار أغسطس 2023

الكلام الجديد إلى إعدادات النص المحلية:

يدعم تحويل الكلام إلى نص محليين جديدين كما هو موضح في الجدول التالي. راجع قائمة اللغات الكاملة هنا.

الإعدادات المحلية	اللغة
`pa-IN`	البنجابية (الهند)
`ur-IN`	‏‏الأردية (الهند)

تقييم النطق

يدعم تقييم نطق الكلام الآن 3 لغات إضافية متوفرة بشكل عام باللغة الإنجليزية (كندا) والإنجليزية (الهند) والفرنسية (كندا)، مع 3 لغات إضافية متوفرة في المعاينة. لمزيد من المعلومات، راجع قائمة اللغات الكاملة لتقييم النطق.

إصدار مايو 2023

تقييم النطق

يدعم تقييم نطق الكلام الآن 3 لغات إضافية متوفرة بشكل عام باللغة الألمانية (ألمانيا) واليابانية (اليابان) والأسبانية (المكسيك)، مع توفر 4 لغات إضافية في المعاينة. لمزيد من المعلومات، راجع قائمة اللغات الكاملة لتقييم النطق.
يمكنك الآن استخدام مستوى التزام الكلام إلى النص القياسي لتقييم النطق في جميع المناطق العامة. إذا قمت بشراء مستوى التزام لتحويل الكلام القياسي إلى نص، فإن الإنفاق على تقييم النطق يذهب نحو الوفاء بالالتزام. راجع تسعير مستوى الالتزام.

إصدار فبراير 2023

تقييم النطق

يدعم تقييم نطق الكلام الآن 5 لغات إضافية متوفرة بشكل عام باللغة الإنجليزية (المملكة المتحدة) والإنجليزية (أستراليا) والفرنسية (فرنسا) والإسبانية (أسبانيا) والصينية (الماندارين والمبسطة)، مع لغات أخرى متوفرة في المعاينة.
تمت إضافة نماذج رموز توضح كيفية استخدام تقييم النطق في وضع الدفق في التطبيق الخاص بك.
- C#‎: راجع نموذج التعليمات البرمجية.
- C++‎: راجع نموذج التعليمات البرمجية.
- java: راجع نموذج التعليمات البرمجية.
- javascript: راجع نموذج التعليمات البرمجية.
- Objective-C: راجع نموذج التعليمات البرمجية.
- Python: راجع نموذج التعليمات البرمجية.
- Swift: راجع نموذج التعليمات البرمجية.

الكلام المخصص

تتم إضافة دعم الصوت + النسخة المكتوبة بعلامة بشرية للإعدادات de-AT المحلية.

إصدار يناير 2023

الكلام المخصص

تتم إضافة دعم الصوت + النسخة المكتوبة بتسمية بشرية للإعدادات المحلية الإضافية: ar-BHوar-DZar-EGar-MAar-SAar-TNar-YE.ja-JP

تتم إضافة دعم تكييف النص المنظم للإعدادات de-ATالمحلية .

إصدار ديسمبر 2022

Speech to text REST API

يتوفر الإصدار 3.1 من Speech to text REST API بشكل عام. سيتم إيقاف الإصدار 3.0 من Speech to text REST API . لمزيد من المعلومات حول كيفية الترحيل، راجع الدليل.

إصدار أكتوبر 2022

الكلام الجديد إلى اللغة النصية

دعم إضافي لملايلام (الهند) بالإعدادات ml-IN المحلية. راجع قائمة اللغات الكاملة هنا.

إصدار يوليو 2022

الكلام الجديد إلى إعدادات النص المحلية:

تمت إضافة 7 إعدادات محلية جديدة كما هو موضح في الجدول التالي. راجع قائمة اللغات الكاملة هنا.

الإعدادات المحلية	اللغة
`bs-BA`	البوسنية (البوسنة والهرسك)
`yue-CN`	الصينية (الكانتونية، المبسطة)
`zh-CN-sichuan`	الصينية (الماندارين الجنوبية الغربية، المبسطة)
`wuu-CN`	الصينية (الوو، مبسطة)
`ps-AF`	‏‏البشتونية (أفغانستان)
`so-SO`	‏‏الصومالية (الصومال)
`cy-GB`	‏‏الويلزية (المملكة المتحدة)

إصدار يونيو 2022

الكلام الجديد إلى إعدادات النص المحلية:

تمت إضافة 10 إعدادات محلية جديدة كما هو موضح في الجدول التالي. راجع قائمة اللغات الكاملة هنا.

الإعدادات المحلية	اللغة
`sq-AL`	‏‏الألبانية (ألبانيا)
`hy-AM`	‏‏الأرمينية (أرمينيا)
`az-AZ`	الأذربيجانية (أذربيجان)
`eu-ES`	الباسكية
`gl-ES`	الجاليشية
`ka-GE`	‏‏الجورجية (جورجيا)
`it-CH`	الإيطالية (سويسرا)
`kk-KZ`	الكازاخستانية (كازاخستان)
`mn-MN`	المنغولية (منغوليا)
`ne-NP`	‏‏النيبالية (نيبال)

إصدار أبريل 2022

الكلام الجديد إلى إعدادات النص المحلية:

فيما يلي قائمة ب المحلية الجديدة. راجع قائمة اللغات الكاملة هنا.

الإعدادات المحلية	اللغة
`bn-IN`	البنغالية (الهند)

إصدار يناير 2022

الكلام الجديد إلى إعدادات النص المحلية:

فيما يلي قائمة ب المحلية الجديدة. راجع قائمة اللغات الكاملة هنا.

الإعدادات المحلية	اللغة
`af-ZA`	‏‏الأفريقية (جنوب أفريقيا)
`am-ET`	‏‏الأمهرية (أثيوبيا)‏
`de-CH`	الألمانية (سويسرا)
`fr-BE`	الفرنسية (بلجيكا)
`is-IS`	‏‏الأيسلندية (أيسلندا)
`jv-ID`	Javanese (إندونيسيا)
`km-KH`	‏‏الخميرية (كمبوديا)
`kn-IN`	‏‏الكانادية (الهند)
`lo-LA`	لاو (لاوس)
`mk-MK`	المقدونية (شمال مقدونيا)
`my-MM`	البورمية (ميانمار)
`nl-BE`	الهولندية (بلجيكا)
`si-LK`	‏‏السنهالية (سريلانكا)
`sr-RS`	الصربية (صربيا)
`sw-TZ`	السواحيلية (تنزانيا)
`uk-UA`	الأوكرانية (أوكرانيا)
`uz-UZ`	الأوزبكية (أوزبكستان)
`zu-ZA`	زولو (جنوب أفريقيا)

إصدار يوليو 2021

الكلام الجديد إلى إعدادات النص المحلية:

فيما يلي قائمة ب المحلية الجديدة. راجع قائمة اللغات الكاملة هنا.

الإعدادات المحلية	اللغة
`ar-DZ`	‏‏العربية (الجزائر)
`ar-LY`	‏‏العربية (ليبيا)
`ar-MA`	‏‏العربية (المغرب)
`ar-TN`	العربية (تونس)
`ar-YE`	‏‏العربية (اليمن)
`bg-BG`	البلغارية (بلغاريا)
`el-GR`	اليونانية (اليونان)
`et-EE`	الإستونية (إستونيا)
`fa-IR`	الفارسية (إيران)
`ga-IE`	‏‏الأيرلندية (أيرلندا)‏
`hr-HR`	الكرواتية (كرواتيا)
`lt-LT`	الليتوانية (ليتوانيا)
`lv-LV`	اللاتفية (لاتفيا)
`mt-MT`	‏‏المالطية (مالطة)
`ro-RO`	الرومانية (رومانيا)
`sk-SK`	السلوفاكية (سلوفاكيا)
`sl-SI`	السلوفانية (سلوفينيا)
`sw-KE`	‏‏السواحيلية (كينيا)

إصدار يناير 2021

الكلام الجديد إلى إعدادات النص المحلية:

فيما يلي قائمة ب المحلية الجديدة. راجع قائمة اللغات الكاملة هنا.

الإعدادات المحلية	اللغة
`ar-AE`	العربية (الإمارات العربية المتحدة)
`ar-IL`	العربية (إسرائيل)
`ar-IQ`	‏‏العربية (العراق)
`ar-OM`	العربية (عمان)
`ar-PS`	اللغة العربية (السلطة الفلسطينية)
`de-AT`	الألمانية (النمسا)
`en-GH`	الإنجليزية (غانا)
`en-KE`	الإنجليزية (كينيا)
`en-NG`	الإنجليزية (نيجيريا)
`en-TZ`	الإنجليزية (تنزانيا)
`es-GQ`	الإسبانية (غينيا الاستوائية)
`fil-PH`	‏‏الفلبينية (الفلبين)
`fr-CH`	الفرنسية (سويسرا)
`he-IL`	‏‏العبرية (إسرائيل)
`id-ID`	الإندونيسية (إندونيسيا)
`ms-MY`	الماليزية (ماليزيا)‏
`vi-VN`	الفيتنامية (فيتنام)

إصدار أغسطس 2020

الكلام الجديد إلى لغة النص:

أصدرت ميزة "الكلام إلى النص" 26 لغة جديدة في أغسطس: لغتان cs-CZ أوروبيتان و5 hu-HUلغات إنجليزية و19 لغة إسبانية تغطي معظم بلدان/مناطق أمريكا الجنوبية. فيما يلي قائمة ب المحلية الجديدة. راجع قائمة اللغات الكاملة هنا.

الإعدادات المحلية	اللغة
`cs-CZ`	التشيكية (جمهورية التشيك)
`en-HK`	الإنجليزية (منطقة هونغ كونغ الإدارية الخاصة)
`en-IE`	الإنجليزية (أيرلندا)
`en-PH`	‏‏الإنجليزية (الفلبين)
`en-SG`	الإنجليزية (سنغافورة)
`en-ZA`	الإنجليزية (جنوب أفريقيا)
`es-AR`	الإسبانية (الأرجنتين)
`es-BO`	‏‏الإسبانية (بوليفيا)
`es-CL`	الأسبانية (تشيلي)
`es-CO`	‏‏الإسبانية (كولومبيا)
`es-CR`	‏‏الإسبانية (كوستاريكا)
`es-CU`	الأسبانية (كوبا)
`es-DO`	‏‏الإسبانية (جمهورية الدومينيك)
`es-EC`	‏‏الإسبانية (إكوادور)
`es-GT`	‏‏الإسبانية (غواتيمالا)‏‏
`es-HN`	‏‏الإسبانية (هندوراس)
`es-NI`	‏‏الإسبانية (نيكاراجوا)
`es-PA`	‏‏الإسبانية (بنما)
`es-PE`	‏‏الإسبانية (بيرو)
`es-PR`	‏‏الإسبانية (بورتوريكو)
`es-PY`	‏‏الإسبانية (باراجواي)
`es-SV`	‏‏الإسبانية (السلفادور)
`es-US`	الأسبانية (الولايات المتحدة الأمريكية)
`es-UY`	‏‏الإسبانية (الأوروجواي)
`es-VE`	الأسبانية (فنزويلا)
`hu-HU`	المجرية (المجر)

إصدار 2025-يونيو

نص عصبي إلى كلام 3.11.0

تم إصدار نص عصبي إلى إصدار الكلام 3.11.0.

دعم إضافي للأصوات العصبية الجديدة: de-DE-SeraphinaMultilingualNeural، ، es-ES-XimenaMultilingualNeural، fi-FI-SelmaNeural. nb-NO-FinnNeural
دعم إضافي للمعجم المخصص متعدد اللغات.

إصدار 2025-مايو

إضافة دعم لأحدث إصدارات النموذج:

نص عصبي إلى كلام 3.10.0

لتحويل النص إلى كلام:

تحديث النص إلى الواجهة الخلفية للكلام ومحرك الواجهة الأمامية إلى أحدث الإصدارات.
دعم إضافي للمعجم المخصص متعدد اللغات.
تحسين وظيفة التحقق من الصحة. نقطة نهاية التحقق من الصحة هي الآن /synthesize/health. عندما تكون الخدمة سليمة، تقوم نقطة النهاية هذه بإرجاع حالة HTTP 200؛ إذا كانت الخدمة غير صحية، فإنها ترجع حالة HTTP 503.
تم تحديث الصورة الأساسية إلى AspNet 8.0.16 لمعالجة الثغرات الأمنية من تحديث الأمان الأساسي ل Microsoft ASP.NET مارس/أبريل 2025.

إصدار 2025-مارس

إضافة دعم لأحدث إصدارات النموذج:

نص عصبي إلى كلام 3.9.0
تحويل الكلام إلى نص 5.0.1 (معاينة)
تحويل الكلام المخصص إلى نص 5.0.1 (معاينة)

بالنسبة إلى تحويل الكلام إلى نص والكلام المخصص إلى نص، يتم تضمين الميزات التالية:

دعم الكلام الجديد إلى نماذج النص
تغيير نظام التشغيل إلى Azure Linux 3.0
دعم لغة جديدة: ar-dzas-ines-gq or-inpa-in ur-in
تحديث أداة فك التشفير
القدرة على استخدام نماذج مخصصة أحدث (2023+) في الحاوية

لتحويل النص إلى كلام، تمت إضافة دعم للأصوات العصبية الجديدة: en-GB-OliviaNeuralوen-US-ChristopherNeural.nl-NL-FennaNeural

إصدار 2025-فبراير

إضافة دعم لأحدث إصدارات النموذج:

تعريف لغة الكلام 1.18.0
نص عصبي إلى كلام 3.7.0
تحويل الكلام إلى نص 4.12.0
تحويل الكلام المخصص إلى نص 4.12.0

فيما يلي أهم الإصدارات:

تحديث الميزات	الكلام إلى النص	تحويل الكلام المخصص إلى نص	النص العصبي إلى كلام	تعريف لغة الكلام
إصلاحات الثغرات الأمنية	✅	✅	✅	✅
نظام التشغيل الذي تم ترحيله من Ubuntu 20.04 إلى Ubuntu 22.04	✅	✅	✅	✅
إعدادات محلية جديدة: ar-lyfr-benl-be uz-uz	✅	✅
حزم nuget المحدثة، إصدار Go	✅	✅
تمت إضافة توازي تنزيل النموذج لتقليل وقت تنزيل النموذج	✅	✅	✅

إصدار 2024-أكتوبر

إضافة دعم لأحدث إصدارات النموذج:

تعريف لغة الكلام 1.16.0
نص عصبي إلى كلام 3.5.0
- إنشاء en-us-ariacpuneural اسم مستعار إلى en-us-jessacpuneural
- تحديث النص إلى إصدار محرك الواجهة الخلفية للكلام
تحويل الكلام إلى نص 4.10.0
- استعادة الدعم للترجمة المحلية uk-UA
- إصلاح إعدادات الصمت للعمل مع فترات طويلة من الصمت في الصوت
- استبدال النماذج المهملة: cs-CZ، da-DK، en-GB، fr-CA، hu-HU، ، it-CH، ، tr-TRzh-CN-sichuan
تحويل الكلام المخصص إلى نص 4.10.0

إصدار 2024-سبتمبر

إضافة دعم لأحدث إصدارات النموذج:

تعريف لغة الكلام 1.15.0
- التخفيف من الثغرات الأمنية
نص عصبي إلى كلام 3.4.0
- أصوات جديدة: en-us-andrewmultilingualneural، en-us-jessaneural، es-us-alonsoneural، ، es-us-palomaneuralit-it-isabellamultilingualneural
- التخفيف من الثغرات الأمنية
تحويل الكلام إلى نص 4.9.0
- إعدادات محلية جديدة: ar-YEو af-ZAو am-ETو ar-MAو ar-TNو و sw-KEو sw-TZو zu-ZA
- التخفيف من الثغرات الأمنية
- تحديث النماذج المهملة
تحويل الكلام المخصص إلى نص 4.9.0
- التخفيف من الثغرات الأمنية

إصدار 2024-أغسطس

إضافة دعم لأحدث إصدارات النموذج:

تعريف لغة الكلام 1.14.0
- ترقية .NET 8.0
- التخفيف من الثغرات الأمنية
نص عصبي إلى كلام 3.3.0
- ترقية .NET 8.0
- التخفيف من الثغرات الأمنية
تحويل الكلام إلى نص 4.8.0
- ترقية .NET 8.0
- التخفيف من الثغرات الأمنية
- محرك التعرف على الترقية
- إصلاح المشكلة التي PropertyId.Speech_SegmentationSilenceTimeoutMs تم تجاهلها فيها.
- تحديث النماذج المهملة
- إزالة إعدادات uk-UA محلية

إصدار 2024-فبراير

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 4.6.0
تحويل الكلام إلى نص 4.6.0
نص عصبي إلى كلام 3.1.0

ترقية الكلام إلى مكونات النص إلى الأحدث. ترقية جميع es نماذج لغة إلى الأحدث. زيادة المخزن المؤقت لتحويل الوسائط لحالات استخدام الكلام إلى النص.

إصدار 2023-نوفمبر

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 4.5.0
تحويل الكلام إلى نص 4.5.0
نص عصبي إلى كلام 2.19.0

إصدار 2023-أكتوبر

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 4.4.0
تحويل الكلام إلى نص 4.4.0
نص عصبي إلى كلام 2.18.0

إصلاح مجموعة من مشكلات الثغرات الأمنية عالية المخاطر.

إزالة السجلات المكررة في الحاويات.

ترقية مكون الوسائط الداخلية إلى الأحدث.

إضافة دعم للصوت en-IN-NeerjaNeural.

إصدار 2023-سبتمبر

إضافة دعم لأحدث إصدارات النموذج:

تعريف لغة الكلام 1.12.0
تحويل الكلام المخصص إلى نص 4.3.0
تحويل الكلام إلى نص 4.3.0
نص عصبي إلى كلام 2.17.0

ترقية الكلام المخصص إلى نص والكلام إلى نص إلى أحدث إطار عمل.

إصلاح مشكلات الثغرات الأمنية.

إضافة دعم للصوت ar-AE-FatimaNeural.

إصدار 2023-يوليو

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 4.1.0
تحويل الكلام إلى نص 4.1.0
نص عصبي إلى كلام 2.15.0

إصلاح مشكلة تشغيل الكلام إلى حاوية نصية عبر docker خيارات التحميل مع ملفات النموذج المخصصة المحلية.

إصلاح المشكلة التي في بعض الحالات RECOGNIZING لا يظهر الحدث استجابة من خلال Speech SDK.

إصلاح مشكلات الثغرات الأمنية.

إصدار 2023-يونيو

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 4.0.0
تحويل الكلام إلى نص 4.0.0
نص عصبي إلى كلام 2.14.0

تتم ترقية الكلام المحلي إلى الصور النصية إلى .NET 6.0

ترقية نماذج العرض للترجمة بما في ذلك en-usوالمزيدar-egar-bhja-jpko-kr.

ترقية الكلام إلى مكون حاوية نصية لمعالجة مشكلات الثغرات الأمنية.

إضافة دعم للأصوات de-DE-AmalaNeuralالمحلية وde-AT-IngridNeuralde-AT-JonasNeural وen-US-JennyMultilingualNeural

إصدار 2023-مايو

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.14.0
تحويل الكلام إلى نص 3.14.0
نص عصبي إلى كلام 2.13.0

he-IL إصلاح مشكلة علامات الترقيم

إصلاح مشكلات الثغرات الأمنية

إضافة صوت en-US-MichelleNeuralمحلي جديد و es-MX-CandelaNeural

إصدار 2023-أبريل

تحديثات الأمان

إصلاح مشكلات الثغرات الأمنية

إصدار 2023-مارس

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.12.0
تحويل الكلام إلى نص 3.12.0
تعريف لغة الكلام 1.11.0
نص عصبي إلى كلام 2.11.0

إصلاح مشكلات الثغرات الأمنية

إصلاح مشكلة الكتابة بالأحرف tr-TR الكبيرة

ترقية الكلام إلى نماذج عرض النص en-US

إضافة دعم للصوت ar-AE-HamdanNeural القياسي.

إصدار 2023-فبراير

إصدارات حاوية جديدة

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.11.0
تحويل الكلام إلى نص 3.11.0
نص عصبي إلى كلام 2.10.0

إصلاح مشكلات الثغرات الأمنية

الترقية المنتظمة لنماذج الكلام

إضافة لغة أبهرية جديدة:

ar-IL
ar-PS

ترقية نماذج العرض العبرية والتركية

إصدار 2023-يناير

إصدارات حاوية جديدة

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.10.0
تحويل الكلام إلى نص 3.10.0
نص عصبي إلى كلام 2.9.0

إصلاح مشكلة وضع الفرضية

إصلاح مشكلة وكيل HTTP

وضع قطع اتصال الكلام المخصص إلى حاوية نصية

إضافة دعم حاوية CNV غير المتصلة إلى واجهة TTS الأمامية

أضف دعما لأصوات الإعدادات المحلية هذه:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

إصدار 2022-ديسمبر

إصدارات حاوية جديدة

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.9.0
تحويل الكلام إلى نص 3.9.0
نص عصبي إلى كلام 2.8.0

إصلاح مشكلة ipv4/ipv6

إصلاح مشكلة الثغرات الأمنية

إصدار 2022-نوفمبر

إصدارات حاوية جديدة

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.8.0
تحويل الكلام إلى نص 3.8.0
نص عصبي إلى كلام 2.7.0

إصدار 2022-أكتوبر

إصدارات حاوية جديدة

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.7.0
تحويل الكلام إلى نص 3.7.0
نص عصبي إلى كلام 2.6.0

إصدار 2022-سبتمبر

تحويل الكلام إلى نص 3.6.0-amd64

إضافة دعم لأحدث إصدارات النموذج.

إضافة دعم لهذه الإعدادات المحلية:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

تحديثات شهرية منتظمة بما في ذلك ترقيات الأمان وإصلاحات الثغرات الأمنية.

تحويل الكلام المخصص إلى نص 3.6.0-amd64

تحديثات شهرية منتظمة بما في ذلك ترقيات الأمان وإصلاحات الثغرات الأمنية.

نص عصبي إلى كلام v2.5.0

أضف دعما لهذه الأصوات القياسية:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

تحديثات شهرية منتظمة بما في ذلك ترقيات الأمان وإصلاحات الثغرات الأمنية.

إصدار 2022-مايو

Speech-language-detection Container v1.9.0-amd64-preview

إصلاحات الأخطاء للكشف عن لغة الكلام.

إصدار 2022-مارس

تحويل الكلام المخصص إلى نص Container v3.1.0

إضافة دعم للحصول على نماذج العرض.

إصدار 2022-يناير

تحويل الكلام إلى نص Container v3.0.0

إضافة دعم لاستخدام الحاويات في بيئات غير متصلة.

تحويل الكلام إلى نص Container v2.18.0

تحديثات شهرية منتظمة بما في ذلك ترقيات الأمان وإصلاحات الثغرات الأمنية.

Neural-Neural النص إلى speech Container v1.12.0

أضف دعما لهذه الأصوات القياسية: am-et-amehaneuralو am-et-mekdesneuralso-so-muuseneuralو و.so-so-ubaxneural

تحديثات شهرية منتظمة بما في ذلك ترقيات الأمان وإصلاحات الثغرات الأمنية.

مشاركة عبر

ما الجديد في Azure الذكاء الاصطناعي Speech؟

أهم النقاط الأخيرة

ملاحظات حول الإصدار

Speech SDK 1.44.1: إصدار التصحيح

إصلاحات الأخطاء

Speech SDK 1.44: إصدار 2025-May

الميزات الجديدة:

إصلاحات الأخطاء

العينات

Speech SDK ل JavaScript

الميزات الجديدة:

إصلاحات الأخطاء

Speech CLI (SPX)

الميزات الجديدة

إصلاحات الأخطاء

Speech SDK 1.43: إصدار 2025-مارس

الميزات الجديدة:

إصلاحات الأخطاء

العينات

Speech SDK 1.42.0: إصدار 2024-ديسمبر

الميزات الجديدة

إصلاحات الأخطاء

العينات

إصدار 2024-نوفمبر

ملحق Azure الذكاء الاصطناعي Speech Toolkit ل Visual Studio Code

نماذج التعليمات البرمجية للكلام إلى كلام

Speech SDK 1.41.1: إصدار 2024-أكتوبر

الميزات الجديدة

إصلاحات الأخطاء

التغييرات العاجلة

Speech SDK 1.40: إصدار 2024-أغسطس

الميزات الجديدة

إصلاحات الأخطاء

العينات

Speech SDK 1.38.0: إصدار 2024-يونيو

الميزات الجديدة

إصلاحات الأخطاء

العينات

Speech SDK 1.37.0: إصدار 2024-أبريل

الميزات الجديدة

إصلاحات الأخطاء

العينات

Speech SDK 1.36.0: إصدار 2024-مارس

الميزات الجديدة

إصلاحات الأخطاء

العينات

Speech SDK 1.35.0: إصدار فبراير 2024

الميزات الجديدة

إصلاحات الأخطاء

العينات

Speech SDK 1.34.1: إصدار يناير 2024

التغييرات الجذرية

الميزات الجديدة

إصلاحات الأخطاء

Speech SDK 1.34.0: إصدار نوفمبر 2023

التغييرات الجذرية

الميزات الجديدة

إصلاحات الأخطاء

العينات

Speech CLI 1.34.0: إصدار نوفمبر 2023

الميزات الجديدة

إصلاحات الأخطاء

Speech SDK 1.33.0: إصدار أكتوبر 2023

إشعار التغيير العاجل

الميزات الجديدة

إصلاحات الأخطاء

العينات

Speech CLI 1.33.0: إصدار أكتوبر 2023

الميزات الجديدة

إصلاحات الأخطاء

Speech SDK 1.32.1: إصدار سبتمبر 2023

إصلاحات الأخطاء

العينات

Speech SDK 1.31.0: إصدار أغسطس 2023

الميزات الجديدة

التغييرات الجذرية

إصلاحات الأخطاء

العينات

Speech SDK 1.30.0: إصدار يوليو 2023