ملاحظة
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
يتم تحديث Azure الذكاء الاصطناعي Speech بشكل مستمر. للبقاء up-to-التاريخ مع التطورات الأخيرة، توفر لك هذه المقالة معلومات حول الإصدارات والميزات الجديدة.
أهم النقاط الأخيرة
- لنسخ المحتويات متعددة اللغات بشكل مستمر ودقيق في ملف صوتي، يمكنك الآن استخدام أحدث نموذج متعدد اللغات دون تحديد الرموز المحلية عبر واجهة برمجة تطبيقات النسخ السريع. لمزيد من المعلومات، راجع النسخ متعدد اللغات في النسخ السريع.
- النسخ السريع متاح الآن بشكل عام. يمكنه نسخ الصوت بشكل أسرع بكثير من مدة الصوت الفعلية. لمزيد من المعلومات، راجع دليل واجهة برمجة تطبيقات النسخ السريع.
- يتوفر ملحق Azure الذكاء الاصطناعي Speech Toolkit الآن لمستخدمي Visual Studio Code. يحتوي على قائمة بالبدايات السريعة للكلام وعينات السيناريو التي يمكن إنشاؤها وتشغيلها بسهولة بنقرات بسيطة. لمزيد من المعلومات، راجع Azure الذكاء الاصطناعي Speech Toolkit في Visual Studio Code Marketplace.
- تتوفر أصوات الكلام عالية الدقة (HD) في Azure الذكاء الاصطناعي في المعاينة العامة. يمكن لأصوات HD فهم المحتوى، واكتشاف المشاعر تلقائيا في نص الإدخال، وضبط نغمة التحدث في الوقت الفعلي لمطابقة المشاعر. لمزيد من المعلومات، راجع ما هي أصوات Azure الذكاء الاصطناعي Speech عالية الدقة (HD)؟.
- تتوفر ترجمة الفيديو الآن في خدمة Azure الذكاء الاصطناعي Speech. لمزيد من المعلومات، راجع ما المقصود بترجمة الفيديو؟.
ملاحظات حول الإصدار
اختيار خدمة أو مورد
هام
يتم إيقاف تقييم المحتوى (معاينة) عبر Speech SDK في يوليو 2025. بدلا من ذلك، يمكنك استخدام نماذج Azure OpenAI للحصول على نتائج تقييم المحتوى كما هو موضح في وثائق تقييم المحتوى.
Speech SDK 1.44.1: إصدار التصحيح
يتم إصدار SDK الإصدار 1.44.1 ل JavaScript فقط مع 4 إصلاحات للأخطاء:
إصلاحات الأخطاء
- تم إصلاح استثناء خارج النطاق عند توفير معلمة تحكم تجزئة واحدة فقط.
- لم يتم تمرير enableDictation بشكل صحيح إلى خدمة الكلام.
- لم يستخدم ConversationTranscriber مسار URL الصحيح عند إنشائه باستخدام أسلوب fromEndpoint.
- تم إصلاح الخطأ عند دفع البيانات إلى دفق إدخال بعد فصلها.
Speech SDK 1.44: إصدار 2025-May
هام
يتغير دعم الأنظمة الأساسية المستهدفة:
- الحد الأدنى لإصدار Android المدعوم هو الآن Android 8.0 (مستوى واجهة برمجة التطبيقات 26).
- يتم تعليق نشر حزم Speech SDK Unity بعد هذا الإصدار.
الميزات الجديدة:
- دعم إضافي لأحجام صفحات ذاكرة Android 16 كيلوبايت.
- تقليل زمن انتقال أحداث SpeechStartDetected في التعرف على الكلام المضمن.
- [C++، Python] تمت إضافة أسلوب للحصول على الحجم المتاح ل AudioDataStream.
- [C++، Python] دعم إضافي لعناوين URL المعجمية المخصصة و الإعدادات المحلية المفضلة في طلبات تركيب الكلام.
- [Java, Python] تمت إضافة دعم للمصادقة المستندة إلى الرمز المميز ل Microsoft Entra مع تحديث الرمز المميز التلقائي.
- [Go] دعم إضافي لنسخ المحادثة.
إصلاحات الأخطاء
- لا يعمل تركيب كلام الترجمة الثابتة عند استخدام الكشف عن لغة المصدر.
- مسارات الملفات الثابتة ذات الأحرف غير ASCII لا تعمل لنماذج الكلام المضمنة أو نماذج KWS أو ملفات السجل (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288).
- تم إصلاح حلقة NoMatch في التعرف على الكلام المضمن في ظروف معينة.
- تم إصلاح إلغاء هيكلة الكائنات الأصلية التي يتم حظرها بسبب عدم وضع علامة على التعرف على أنها متوقفة عند قطع اتصال الأحداث.
- لا تعمل مطابقة نمط IntentRecognizer الثابت بشكل صحيح مع الأحرف متعددة البايت في ظروف معينة.
- لم يكن الاتصال
Close()
على كائن اتصال متزامنا. - تم إصلاح حالة تعارض في إلغاء تخصيص الاتصال الذي قد يؤدي إلى تعطل.
- [macOS] تم إصلاح رسائل "المعلومات:" التي تظهر على وحدة التحكم (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610).
العينات
- [Python] تمت إضافة نموذج التعليمات البرمجية
recognizer
لاستخدام بيانات اعتماد الرمز المميز ل Microsoft Entra.
Speech SDK ل JavaScript
الميزات الجديدة:
- تبعية التطوير المحدثة: TypeScript 3.5.3 → 4.5
- تم تحديث TranslationRecognizer لاستخدام نقاط النهاية V2 بشكل افتراضي.
- SpeechRecongizer المحدث لاستخدام نقاط النهاية V2.
- يؤدي هذا إلى عدم تلقي نتائج NoMatch بعد الآن.
- دعم إضافي للمصادقة المستندة إلى الرمز المميز ل Microsoft Entra للتعرف على الكلام والترجمة.
- تم تحديث واجهة برمجة تطبيقات FromEndpoint لتكون الطريقة الموصى بها لإنشاء SpeechConfig لمعظم السيناريوهات.
- ينطبق على استخدام:
- التعرف على الكلام
- TranslationRecognizer (عبر SpeechTranslationConfig)
- ناسخ المحادثة
- SpeechSynthesizer
- يمكنك الآن استخدام نقطة النهاية من مدخل Microsoft Azure لموارد Speech وAzure الذكاء الاصطناعي Foundry لإنشاء كائن SpeechConfig.
- تستمر جميع الأساليب الأخرى لإنشاء SpeechConfig في العمل ويتم دعمها.
- ينطبق على استخدام:
إصلاحات الأخطاء
- تم إصلاح حلقة إعادة محاولة اتصال لا نهائية على رموز إغلاق الاتصال غير المدعومة (https://github.com/microsoft/cognitive-services-speech-sdk-js/issues/896).
Speech CLI (SPX)
الميزات الجديدة
- إضافة دعم للمصادقة باستخدام بيانات اعتماد الرمز المميز ل Microsoft Entra.
- دعم إضافي لواجهة برمجة تطبيقات النسخ السريع.
إصلاحات الأخطاء
- تم إصلاح عناوين URL للإدخال المفصولة بفواصل منقوطة وقوائم ملف الإدخال/عنوان URL من ملف.
Speech SDK 1.43: إصدار 2025-مارس
ملاحظة
تنتهي صلاحية "صيانة الأمان القياسية" ل Ubuntu 20.04 في أبريل 2025 ولن تكون متوفرة كعوامل ADO Build. تتطلب إصدارات Speech SDK المستقبلية Ubuntu 22.04 LTS (بدلا من Ubuntu 20.04) كحد أدنى للإصدار المدعوم.
الميزات الجديدة:
- تم تحديث واجهة برمجة تطبيقات FromEndpoint لتكون الطريقة الموصى بها لإنشاء SpeechConfig لمعظم السيناريوهات.
- ينطبق على استخدام:
- التعرف على الكلام
- TranslationRecognizer (عبر SpeechTranslationConfig)
- ناسخ المحادثة
- SpeechSynthesizer في جميع لغات البرمجة باستثناء JavaScript.
- يمكنك الآن استخدام نقطة النهاية من مدخل Microsoft Azure لموارد الكلام والخدمات المعرفية لإنشاء كائن SpeechConfig.
- تستمر جميع الأساليب الأخرى لإنشاء SpeechConfig في العمل ويتم دعمها.
- ينطبق على استخدام:
- تم تحديث TranslationRecognizer لاستخدام نقاط النهاية V2 بشكل افتراضي.
- يؤدي ذلك إلى نقل معلمات التحكم من عنوان URL إلى الرسائل داخل القناة عند استخدام نقطة نهاية V2.
- تغيير السلوك: اللغة الافتراضية التي تم إرجاعها ل "zh" هي الآن "zh-CN" بدلا من "zh-hans"
- معرفات الخصائص المضافة SpeechSynthesis_FrameTimeoutInterval SpeechSynthesis_RtfTimeoutThreshold.
- تم تحسين عدد المرات التي يعيد فيها SDK الاتصال للتعرفات طويلة الأمد.
- [C++، Python] إضافة دعم لتحديد النمط ودرجة الحرارة في طلبات تدفق النص.
- [C#] تمت إضافة دعم لتحديث الرمز المميز التلقائي ل AAD عند استخدام FromEndpoint لإنشاء كائن تكوين.
- يضيف هذا تبعية من Speech SDK إلى حزمة Nuget Azure.Core.
- يمكن ل Speech SDK الآن قبول الكائنات المشتقة TokenCredential للمصادقة عند استخدام:
- التعرف على الكلام
- TranslationRecognizer
- ناسخ المحادثة
- [Objective-C] SPXTranslationRecognizer المحدث لدعم الكشف التلقائي للغة المصدر من النطاق المفتوح.
- [Objective-C ، Python] تمت إضافة تشخيص واجهات برمجة التطبيقات EventLogger وFilyLogger و MemoryLogger.
- [Go]: تمت إضافة دعم TranslationRecognizer
إصلاحات الأخطاء
- تم إصلاح دعم OpenSSL 3 على Linux arm32 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2736).
- تم إصلاح حقل الحالة المفقود في القائمة الصوتية لتركيب الكلام (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2771).
- نمط IntentRecognizer الثابت المطابق لموزع اللغة اليابانية لا يحدد أحرفا صحيحة بشكل صحيح.
- تم إصلاح مشكلة محتملة في النتائج المكررة من التعرف على الكلام المضمن.
- [Java] تم إصلاح المشاركين الفارغين في ConversationParticipantsChangedEventArgs على Android 12 والأحدث (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2687).
العينات
- [C++] تمت إضافة عينة للتعرف على الهدف المستقل باستخدام مطابقة النمط.
- مع إيقاف خدمة LUIS في أكتوبر 2025، ستقوم Speech SDK أيضا بإيقاف عائلة كائن IntentRecognizer.
- وقبل ذلك، أردنا مشاركة التنفيذ لمطابقة النمط.
- [C++، C#، Java، Python] تم تحديث معظم العينات لاستخدام FromEndpoint API بدلا من FromSubscription.
- [C#] تمت إضافة نموذج سيناريو لتطبيق التعرف على الكلام متعدد المستويات.
- يوضح منهجية لإعادة تشغيل الصوت وإعادة الاتصال من جهاز حافة إلى خدمة الطبقة المتوسطة التي تقوم بعد ذلك بإعادة توجيه الصوت إلى خدمة الكلام عبر Speech SDK
- [C#] العينات المحدثة لاستخدام التحديث التلقائي لقمز AAD المميز.
- [Python] تمت إضافة عينات لواجهات برمجة تطبيقات التشخيص الجديدة.
- [Unity] تمت إضافة إرشادات لتثبيت تبعية Azure.Core الجديدة.
Speech SDK 1.42.0: إصدار 2024-ديسمبر
الميزات الجديدة
- Java: تمت إضافة واجهات برمجة تطبيقات تسجيل التشخيص باستخدام فئات FileLogger و MemoryLogger و EventLogger و SpxTrace.
- دعم إرسال خاصية JSON "تفاصيل" المشارك في الاجتماع إلى الخدمة
- Go: تمت إضافة معرف الخاصية العامة SpeechServiceConnection_ProxyHostBypass لتحديد المضيفين الذين لم يتم استخدام الوكيل له.
- JavaScript، Go: تمت إضافة معرف الخاصية العامة Speech_SegmentationStrategy لتحديد وقت انتهاء عبارة منطوقة ويجب إنشاء نتيجة نهائية معترف بها (بما في ذلك التجزئة الدلالية)
- JavaScript، Go: معرف الخاصية العامة المضافة Speech_SegmentationMaximumTimeMs تحديد نهاية عبارة منطوقة استنادا إلى الوقت في Java، Python، C#، C++
إصلاحات الأخطاء
- تم تحميل صوت TTS المضمن الثابت (re) لكل تركيب إذا لم يتم تعيين اسم الصوت.
- تم إصلاح مشاكل حساب الإزاحة عند استخدام MeetingTranscriber في بعض السيناريوهات.
- تم إصلاح حالة التوقف التام المحتملة عند تسجيل العديد من مستمعي الأحداث التشخيصية بالتوازي.
- (JavaScript) تم إصلاح نتائج NoMatch المفقودة المحتملة عند نهاية الصوت. يعمل هذا الإصلاح أيضا على محاذاة السلوك في نهاية الكلام مع لغات SDK الأخرى وقد يؤدي إلى عدم رفع بعض الأحداث الفارغة.
- (JavaScript) إصلاح الإزاحات في النتيجة JSON للمحاذاة مع الإزاحة على كائنات النتيجة. في السابق تم إصلاح خاصية إزاحة كائن النتيجة فقط لحساب عمليات إعادة توصيل الخدمة.
- Go language: تم إصلاح خطأ التحويل البرمجي https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
- إزاحات النتيجة الثابتة في كتابة الاجتماع عند حدوث إعادة الاتصال بالخدمة.
- تم إصلاح حالة توقف تام في التسجيل.
العينات
- عينات C# المحدثة لاستخدام .NET 8.0.
- نموذج Java يستخدم Diagnostics logging API يظهر استخدام فئات Diagnostics Logging الجديدة.
إصدار 2024-نوفمبر
ملحق Azure الذكاء الاصطناعي Speech Toolkit ل Visual Studio Code
يتوفر ملحق Azure الذكاء الاصطناعي Speech Toolkit الآن لمستخدمي Visual Studio Code. يحتوي على قائمة بالبدايات السريعة للكلام وعينات السيناريو التي يمكن إنشاؤها وتشغيلها بسهولة بنقرات بسيطة. لمزيد من المعلومات، راجع Azure الذكاء الاصطناعي Speech Toolkit في Visual Studio Code Marketplace.
نماذج التعليمات البرمجية للكلام إلى كلام
أضفنا نصا إلى نماذج التعليمات البرمجية للكلام الرمز الرمزي لنظامي التشغيل AndroidوiOS. توضح هذه العينات كيفية استخدام النص في الوقت الحقيقي إلى أفاتار الكلام في تطبيقات الجوال الخاصة بك.
Speech SDK 1.41.1: إصدار 2024-أكتوبر
الميزات الجديدة
- دعم إضافي ل Amazon Linux 2023 وAzure Linux 3.0.
- تمت إضافة معرف الخاصية العامة SpeechServiceConnection_ProxyHostBypass لتحديد المضيفين الذين لا يتم استخدام الوكيل له.
- تمت إضافة خصائص للتحكم في استراتيجيات تجزئة العبارة الجديدة.
إصلاحات الأخطاء
- تم إصلاح الدعم غير المكتمل للتعرف على الكلمة الأساسية النماذج المتقدمة التي تم إنتاجها بعد أغسطس 2024.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- لاحظ أنه باستخدام Swift على iOS، يجب أن يستخدم مشروعك إما MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (من https://aka.ms/csspeech/iosbinaryembedded) أو MicrosoftCognitiveServicesSpeechEmbedded-iOS التي تتضمن دعم النموذج المتقدم.
- تم إصلاح تسرب الذاكرة في C# المتعلق باستخدام السلسلة.
- تم إصلاح عدم القدرة على الحصول على SPXAutoDetectSourceLanguageResult من SPXConversationTranscriptionResult في Objective-C وSwift.
- تم إصلاح تعطل عرضي عند استخدام مكدس الصوت من Microsoft في التعرف.
- تم إصلاح تلميحات النوع في Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- تم إصلاح عدم القدرة على إحضار قائمة أصوات TTS عند استخدام نقطة نهاية مخصصة.
- تم إصلاح إعادة تهيئة TTS المضمنة لكل طلب كلام عند تحديد الصوت باسم قصير.
- تم إصلاح الوثائق المرجعية لواجهة برمجة التطبيقات للمدة القصوى لصوت RecognizeOnce.
- إصلاح الأخطاء في معالجة معدلات أخذ العينات العشوائية في JavaScript
- شكرا ل rseanhall على هذه المساهمة.
- إصلاح خطأ في حساب إزاحة الصوت في JavaScript
- نشكرك على هذه المساهمة .
التغييرات العاجلة
- تمت إزالة دعم التعرف على الكلمة الأساسية على Windows ARM 32 بت بسبب وقت تشغيل ONNX المطلوب غير المتوفر لهذا النظام الأساسي.
Speech SDK 1.40: إصدار 2024-أغسطس
ملاحظة
كان Speech SDK الإصدار 1.39.0 إصدارا داخليا ولا يفتقد.
الميزات الجديدة
- دعم إضافي لتدفق
G.722
الصوت المضغوط في التعرف على الكلام. - دعم إضافي لإعداد درجة الصوت والمعدل ومستوى الصوت في تدفق نص الإدخال في تركيب الكلام.
- إضافة دعم لتدفق نص إدخال الصوت الشخصي من خلال تقديم
PersonalVoiceSynthesisRequest
في تركيب الكلام. واجهة برمجة التطبيقات هذه قيد المعاينة وتخضع للتغيير في الإصدارات المستقبلية. - دعم إضافي لتدوين النتائج الوسيطة عند
ConversationTranscriber
استخدامها. - تمت إزالة دعم CentOS/RHEL 7 بسبب CentOS 7 EOLونهاية دعم صيانة RHEL 7 2.
- يتطلب استخدام نماذج الكلام المضمنة الآن ترخيص نموذج بدلا من مفتاح نموذج. إذا كنت من عملاء الكلام المضمنين الحاليين وتريد الترقية، فيرجى الاتصال بمسؤول الدعم في Microsoft للحصول على تفاصيل حول تحديثات النموذج.
إصلاحات الأخطاء
- ثنائيات Speech SDK المضمنة لنظام التشغيل Windows مع علامة _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR كتخفيف لقضية وقت تشغيل Visual C++ انتهاك الوصول مع std::mutex::lock بعد الترقية إلى VS 2022 الإصدار 17.10.0 - مجتمع المطورين (visualstudio.com). قد تحتاج تطبيقات Windows C++ التي تستخدم Speech SDK إلى تطبيق نفس علامة تكوين البنية إذا كانت التعليمات البرمجية الخاصة بهم تستخدم std::mutex (راجع التفاصيل في المشكلة المرتبطة).
- تم إصلاح الكشف عن OpenSSL 3.x الذي لا يعمل على Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
- تم إصلاح المشكلة التي تفيد بأنه عند نشر تطبيق UWP والمكتبات والنموذج من حزمة MAS NuGet لن يتم نسخها إلى موقع النشر.
- تم إصلاح تعارض موفر المحتوى في حزم Android (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
- خيارات المعالجة اللاحقة الثابتة التي لا تنطبق على نتائج التعرف على الكلام الوسيطة.
- تم إصلاح تحذير .NET 8 حول توزيع معرفات وقت التشغيل المحددة (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).
العينات
- عينات الكلام المضمنة المحدثة لاستخدام ترخيص نموذج بدلا من مفتاح.
Speech SDK 1.38.0: إصدار 2024-يونيو
الميزات الجديدة
- ترقية متطلبات النظام الأساسي Speech SDK Linux:
- الحد الأدنى الجديد للأساس هو Ubuntu 20.04 LTS أو متوافق مع
glibc
2.31 أو أحدث. - تتم إزالة ثنائيات Linux x86 وفقا لدعم النظام الأساسي Ubuntu 20.04.
- لاحظ أن RHEL/CentOS 7 يظل مدعوما حتى 30 يونيو (نهاية CentOS 7 ونهاية دعم صيانة RHEL 7 2). ستتم إزالة الثنائيات الخاصة بها في إصدار Speech SDK 1.39.0.
- الحد الأدنى الجديد للأساس هو Ubuntu 20.04 LTS أو متوافق مع
- إضافة دعم ل OpenSSL 3 على Linux.
- أضف دعما لتنسيق إخراج الصوت g722-16khz-64kbps باستخدام speech synthesizer.
- إضافة دعم لإرسال الرسائل من خلال كائن اتصال مع تركيب الكلام.
- أضف واجهات برمجة التطبيقات Start/StopKeywordRecognition في Objective-C وSwift.
- إضافة واجهة برمجة تطبيقات لتحديد فئة نموذج ترجمة مخصصة.
- تحديث استخدام GStreamer باستخدام تركيب الكلام.
إصلاحات الأخطاء
- إصلاح الخطأ "لا يمكن أن يتجاوز حجم رسالة Websocket 65536 بايت" أثناء البدء/StopKeywordRecognition.
- إصلاح خطأ تجزئة Python أثناء تركيب الكلام.
العينات
- تحديث نماذج C# لاستخدام .NET 6.0 بشكل افتراضي.
Speech SDK 1.37.0: إصدار 2024-أبريل
الميزات الجديدة
- أضف دعما لتدفق نص الإدخال في تركيب الكلام.
- تغيير صوت تركيب الكلام الافتراضي إلى en-US-AvaMultilingualNeural.
- تحديث إصدارات Android لاستخدام OpenSSL 3.x.
إصلاحات الأخطاء
- إصلاح أعطال JVM العرضية أثناء التخلص من SpeechRecognizer عند استخدام MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
- تحسين الكشف عن أجهزة الصوت الافتراضية على Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)
العينات
- تم تحديثه للميزات الجديدة.
Speech SDK 1.36.0: إصدار 2024-مارس
الميزات الجديدة
- إضافة دعم لتعريف اللغة في الترجمة متعددة اللغات على نقاط النهاية v2 باستخدام AutoDetectSourceLanguageConfig::FromOpenRange().
إصلاحات الأخطاء
لم يتم تشغيل حدث Fix SynthesisCanceled إذا تم استدعاء الإيقاف أثناء حدث SynthesisStarted.
إصلاح مشكلة الضوضاء في تركيب الكلام المضمن.
إصلاح عطل في التعرف على الكلام المضمن عند تشغيل عدة أدوات التعرف بالتوازي.
إصلاح إعداد وضع الكشف عن العبارة على نقاط النهاية v1/v2.
تصحيحات لمختلف المشكلات المتعلقة ب Microsoft Audio Stack.
العينات
- تحديثات للميزات الجديدة.
Speech SDK 1.35.0: إصدار فبراير 2024
الميزات الجديدة
- تغيير النص الافتراضي إلى صوت الكلام من en-US-JennyMultilingualNeural إلى en-US-AvaNeural.
- دعم التفاصيل على مستوى الكلمات في نتائج ترجمة الكلام المضمنة باستخدام تنسيق الإخراج التفصيلي.
إصلاحات الأخطاء
- إصلاح AudioDataStream position getter API في Python.
- إصلاح ترجمة الكلام باستخدام نقاط النهاية v2 دون الكشف عن اللغة.
- إصلاح تعطل عشوائي وتكرار أحداث حد الكلمات في نص مضمن إلى كلام.
- إرجاع رمز خطأ إلغاء صحيح لخطأ خادم داخلي على اتصالات WebSocket.
- إصلاح الفشل في تحميل مكتبة FPIEProcessor.dll عند استخدام MAS مع C#.
العينات
- تحديثات التنسيق الثانوية لعينات التعرف المضمنة.
Speech SDK 1.34.1: إصدار يناير 2024
التغييرات الجذرية
- إصلاحات الأخطاء فقط
الميزات الجديدة
- إصلاحات الأخطاء فقط
إصلاحات الأخطاء
- إصلاح الانحدار الذي تم تقديمه في 1.34.0 حيث تم إنشاء عنوان URL لنقطة نهاية الخدمة مع معلومات محلية سيئة للمستخدمين في العديد من مناطق الصين.
Speech SDK 1.34.0: إصدار نوفمبر 2023
التغييرات الجذرية
-
SpeechRecognizer
يتم تحديث لاستخدام نقطة نهاية جديدة بشكل افتراضي (أي عند عدم تحديد عنوان URL بشكل صريح) التي لم تعد تدعم معلمات سلسلة الاستعلام لمعظم الخصائص. بدلا من تعيين معلمات سلسلة الاستعلام مباشرة باستخدام ServicePropertyChannel.UriQueryParameter، يرجى استخدام وظائف واجهة برمجة التطبيقات المقابلة.
الميزات الجديدة
- التوافق مع .NET 8 (إصلاح باستثناء https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 التحذير حول centos7-x64)
- دعم مقاييس أداء الكلام المضمنة التي يمكن استخدامها لتقييم قدرة الجهاز على تشغيل الكلام المضمن.
- دعم تحديد لغة المصدر في الترجمة متعددة اللغات المضمنة.
- دعم تحويل الكلام إلى نص المضمن والنص إلى كلام والترجمة لنظامي التشغيل iOS وSwift/Objective-C إصدارهما في المعاينة.
- يتم توفير الدعم المضمن في MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.
إصلاحات الأخطاء
- إصلاح ل iOS SDK x2 مرات نمو الحجم الثنائي · المشكلة رقم 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- إصلاح تعذر الحصول على الطوابع الزمنية على مستوى الكلمات من Azure speech إلى واجهة برمجة التطبيقات النصية · المشكلة رقم 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- إصلاح مرحلة تدمير DialogServiceConnector لقطع اتصال الأحداث بشكل صحيح. كان هذا يسبب أعطال في بعض الأحيان.
- إصلاح الاستثناء أثناء إنشاء أداة التعرف عند استخدام MAS.
- FPIEProcessor.dll من حزمة Microsoft.CognitiveServices.Speech.Extension.MAS NuGet ل Windows UWP x64 وArm64 كانت تعتمد على مكتبات وقت تشغيل VC ل C++الأصلية. تم تصحيح المشكلة عن طريق تحديث التبعية لتصحيح مكتبات وقت تشغيل VC (ل UWP).
- إصلاح استدعاءات [MAS] المتكررة لقراءات الوصول إلى عميل متوقع ل recognizeOnceAsync إلى SPXERR_ALREADY_INITIALIZED عند استخدام MAS · المشكلة رقم 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- إصلاح تعطل التعرف على الكلام المضمن عند استخدام قوائم العبارات.
العينات
- نماذج iOS المضمنة لتحويل الكلام إلى نص والنص إلى كلام والترجمة.
Speech CLI 1.34.0: إصدار نوفمبر 2023
الميزات الجديدة
- دعم إخراج أحداث حدود الكلمة عند تركيب الكلام.
إصلاحات الأخطاء
- تحديث تبعية JMESPath إلى أحدث إصدار، وتحسين تقييمات السلسلة
Speech SDK 1.33.0: إصدار أكتوبر 2023
إشعار التغيير العاجل
- مطلوب الآن تضمين حزمة NuGet الجديدة المضافة ل Microsoft Audio Stack (MAS) من قبل التطبيقات التي تستخدم MAS في ملفات تكوين الحزمة الخاصة بها.
الميزات الجديدة
- تمت إضافة حزمة NuGet الجديدة Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg، والتي توفر أداء محسنا لإلغاء الارتداد عند استخدام مكدس الصوت من Microsoft
- تقييم النطق: دعم إضافي لتقييم التجسيد والمحتوى، والذي يمكن أن يقيم الكلام المنطوق من حيث التجسيد والمفردات والنحو والموضوع.
إصلاحات الأخطاء
- يتم إزاحة نتيجة التعرف على الكلمة الأساسية الثابتة بحيث تتطابق بشكل صحيح مع دفق صوت الإدخال منذ البداية. ينطبق الإصلاح على كل من التعرف على الكلمة الأساسية المستقلة والتعرف على الكلام الذي يتم تشغيله بالكلمة الأساسية.
- لا يرجع Synthesizer stopSpeaking الثابت طريقة SPXSpeechSynthesizer stopSpeaking() فورا على iOS 17 - المشكلة #2081
- تم إصلاح مشكلة استيراد محفز Mac على وحدة Swift دعم محفز mac مع apple silicon. المشكلة رقم 1948
- JS: تستخدم أحمال وحدة AudioWorkletNode الآن عنوان URL موثوق به، مع تضمين النسخ الاحتياطي لمستعرض CDN.
- JS: تستهدف ملفات lib المحزمة الآن ES6 JS، مع إزالة دعم ES5 JS.
- JS: تتم معالجة الأحداث المتوسطة لسيناريو الترجمة التي تستهدف نقطة نهاية الإصدار 2 بشكل صحيح
- JS: تم الآن تعيين خاصية اللغة ل TranslationRecognitionEventArgs لأحداث translation.hypothesis.
- تجميع الكلام: يضمن إصدار حدث تركيبي بعد جميع أحداث بيانات التعريف، بحيث يمكن استخدامه للإشارة إلى نهاية الأحداث. كيفية الكشف عن متى يتم تلقي visemes تماما؟ المشكلة رقم 2093 Azure-Samples/cognitive-services-speech-sdk
العينات
- تمت إضافة عينة لإثبات تدفق MULAW باستخدام Python)
- إصلاح نموذج NAudio لتحويل الكلام إلى نص
Speech CLI 1.33.0: إصدار أكتوبر 2023
الميزات الجديدة
- دعم إخراج أحداث حدود الكلمة عند تركيب الكلام.
إصلاحات الأخطاء
- بلا
Speech SDK 1.32.1: إصدار سبتمبر 2023
إصلاحات الأخطاء
- حزم تحديثات Android مع أحدث إصلاحات الأمان من OpenSSL1.1.1v
- JS – تمت إضافة خاصية WebWorkerLoadType للسماح بتجاوز تحميل عنوان URL للبيانات لعامل المهلة
- JS – إصلاح قطع اتصال ترجمة المحادثة بعد 10 دقائق
- JS – يتم الآن نشر الرمز المميز لمصادقة ترجمة المحادثة من المحادثة إلى اتصال خدمة الترجمة
العينات
Speech SDK 1.31.0: إصدار أغسطس 2023
الميزات الجديدة
يتوفر دعم اليوميات في الوقت الحقيقي في المعاينة العامة باستخدام Speech SDK 1.31.0. تتوفر هذه الميزة في SDKs التالية: C# وC++وJava وJavaScript وPython و Objective-C/Swift.
حد كلمة تجميع الكلام المتزامن وأحداث viseme مع تشغيل الصوت
التغييرات الجذرية
تتم إعادة تسمية سيناريو "كتابة المحادثة" السابق إلى "نسخ الاجتماع". على سبيل المثال، استخدم
MeetingTranscriber
بدلا منConversationTranscriber
، واستخدمCreateMeetingAsync
بدلا منCreateConversationAsync
. على الرغم من تغيير أسماء كائنات SDK وأساليبها، فإن إعادة التسمية لا تغير الميزة نفسها. استخدم كائنات نسخ الاجتماعات لنسخ الاجتماعات باستخدام ملفات تعريف المستخدمين والتوقيعات الصوتية. لا تتأثر كائنات وأساليب "ترجمة المحادثة" بهذه التغييرات. لا يزال بإمكانك استخدامConversationTranslator
الكائن وأساليبه لسيناريوهات ترجمة الاجتماع.لليوميات في الوقت الحقيقي، يتم تقديم عنصر جديد
ConversationTranscriber
. نموذج عنصر "كتابة المحادثة" الجديد وأنماط الاستدعاء مشابهة للتعرف المستمر معSpeechRecognizer
الكائن. يتمثل الاختلاف الرئيسي فيConversationTranscriber
أن العنصر مصمم لاستخدامه في سيناريو محادثة حيث تريد تمييز عدة مكبرات صوت (يوميات). ملفات تعريف المستخدمين والتوقيعات الصوتية غير قابلة للتطبيق. راجع البدء السريع للمذكرات في الوقت الحقيقي لمزيد من المعلومات.
يعرض هذا الجدول أسماء الكائنات السابقة والجديدة لليوميات في الوقت الحقيقي وكتابة الاجتماع. يوجد اسم السيناريو في العمود الأول، وأسماء الكائنات السابقة في العمود الثاني، وأسماء الكائنات الجديدة موجودة في العمود الثالث.
اسم السيناريو | أسماء الكائنات السابقة | أسماء الكائنات الجديدة |
---|---|---|
يوميات في الوقت الحقيقي | غير متوفر | ConversationTranscriber |
نسخ الاجتماع | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant
1ParticipantChangedReason
1User
1 |
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting
2 |
1Participant
ParticipantChangedReason
تنطبق العناصر و و User
على كل من سيناريوهات كتابة الاجتماع وترجمة الاجتماع.
2 الكائن Meeting
جديد ويستخدم مع MeetingTranscriber
الكائن.
إصلاحات الأخطاء
- تم إصلاح الحد الأدنى من إصدار macOS المدعوم https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
- تم إصلاح خطأ تقييم النطق:
- معالجة مشكلة درجات دقة الهاتف، مع التأكد من أنها تعكس الآن بدقة فقط الهاتف المحدد الذي تم تفسيره بشكل خاطئ. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- تم حل مشكلة حيث كانت ميزة تقييم النطق تحدد بشكل غير دقيق النطق الصحيح تماما على أنه خطأ، خاصة في الحالات التي يمكن أن يكون فيها للكلمات نطق صالح متعدد. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
العينات
CSharp
JavaScript
Speech SDK 1.30.0: إصدار يوليو 2023
الميزات الجديدة
-
C++، C#، Java - تمت إضافة دعم ل
DisplayWords
في النتيجة التفصيلية للتعرف على الكلام المضمنة. -
Objective-C/Swift - دعم إضافي للحدث
ConnectionMessageReceived
في Objective-C/Swift. - Objective-C/Swift - نماذج محسنة لتحديد الكلمة الأساسية لنظام التشغيل iOS. أدى هذا التغيير إلى زيادة حجم حزم معينة، والتي تحتوي على ثنائيات iOS (مثل NuGet وXCFramework). نحن نعمل على تقليل حجم الإصدارات المستقبلية.
إصلاحات الأخطاء
- تم إصلاح تسرب الذاكرة عند استخدام أداة التعرف على الكلام مع PhraseListGrammar، كما تم الإبلاغ عنه من قبل العميل (مشكلة GitHub).
- تم إصلاح حالة توقف تام في واجهة برمجة تطبيقات اتصال فتح النص إلى الكلام.
المزيد من الملاحظات
-
Java - تم تغيير بعض أساليب واجهة برمجة تطبيقات Java المستخدمة
public
داخليا إلى حزمةinternal
أوprotected
.private
لا ينبغي أن يكون لهذا التغيير تأثير على المطورين، لأننا لا نتوقع أن تستخدم التطبيقات هذه التطبيقات. تمت الإشارة هنا من أجل الشفافية.
العينات
- نماذج جديدة لتقييم النطق حول كيفية تحديد لغة تعلم في تطبيقك الخاص
- C#: راجع نموذج التعليمات البرمجية.
- C++: راجع نموذج التعليمات البرمجية.
- JavaScript: راجع نموذج التعليمات البرمجية.
- Objective-C: راجع نموذج التعليمات البرمجية.
- Python: راجع نموذج التعليمات البرمجية.
- Swift: راجع نموذج التعليمات البرمجية.
Speech SDK 1.29.0: إصدار يونيو 2023
الميزات الجديدة
- C++، C#، Java - معاينة واجهات برمجة تطبيقات ترجمة الكلام المضمنة. الآن يمكنك القيام بترجمة الكلام دون اتصال سحابي!
- JavaScript - تعريف اللغة المستمر (LID) ممكن الآن لترجمة الكلام.
-
JavaScript - مساهمة المجتمع لإضافة
LocaleName
خاصية إلىVoiceInfo
الفئة. شكرا لك مستخدم GitHub shivsarthak لطلب السحب. - C++، C#، Java - تمت إضافة دعم لإعادة تعيين النص المضمن إلى إخراج الكلام من معدل عينة 16 كيلوهرتز إلى 48 كيلوهرتز.
- تمت إضافة دعم للإعدادات
hi-IN
المحلية في Intent Recognizer باستخدام Simple Pattern Matching.
إصلاحات الأخطاء
- تم إصلاح العطل الناجم عن حالة تعارض في Speech Recognizer أثناء تدمير الكائنات، كما هو الحال في بعض اختبارات Android
- تم إصلاح حالات التوقف التام المحتملة في Intent Recognizer باستخدام Simple Pattern Matcher
العينات
- نماذج ترجمة الكلام المضمنة الجديدة
Speech SDK 1.28.0: إصدار مايو 2023
كسر التغيير
- JavaScript SDK: تمت إزالة بروتوكول حالة الشهادة عبر الإنترنت (OCSP). يسمح هذا للعملاء بالتوافق بشكل أفضل مع معايير المتصفح والعقدة لمعالجة الشهادات. لن يتضمن الإصدار 1.28 وما بعده وحدة OCSP المخصصة.
الميزات الجديدة
- يتم الآن إرجاع
NoMatchReason::EndSilenceTimeout
" عند حدوث مهلة الصمت في نهاية التعبير. يطابق هذا السلوك عند إجراء التعرف باستخدام خدمة الكلام في الوقت الحقيقي. -
JavaScript SDK: تعيين الخصائص على
SpeechTranslationConfig
استخدامPropertyId
قيم التعداد.
إصلاحات الأخطاء
- C# على Windows - إصلاح حالة السباق المحتملة/حالة التوقف التام في ملحق صوت Windows. في السيناريوهات التي يقوم كل منهما بالتخلص من عارض الصوت بسرعة وأيضا استخدام أسلوب Synthesizer للتوقف عن الكلام، لم تتم إعادة تعيين الحدث الأساسي عن طريق الإيقاف، وقد يتسبب في عدم التخلص من كائن العارض مطلقا، كل ذلك في حين أنه قد يكون يحمل تأمينا عموميا للتخلص منه، وتجميد مؤشر ترابط dotnet GC.
العينات
- تمت إضافة نموذج كلام مضمن ل MAUI.
- تحديث نموذج الكلام المضمن ل Android Java لتضمين نص إلى كلام.
Speech SDK 1.27.0: إصدار أبريل 2023
إعلام حول التغييرات القادمة
- نخطط لإزالة بروتوكول حالة الشهادة عبر الإنترنت (OCSP) في إصدار JavaScript SDK التالي. يسمح هذا للعملاء بالتوافق بشكل أفضل مع معايير المتصفح والعقدة لمعالجة الشهادات. الإصدار 1.27 هو الإصدار الأخير الذي يتضمن وحدة OCSP المخصصة.
الميزات الجديدة
- JavaScript – دعم إضافي لإدخال الميكروفون من المتصفح باستخدام تعريف السماعة والتحقق منها.
-
التعرف على الكلام المضمن - تحديث دعم
PropertyId::Speech_SegmentationSilenceTimeoutMs
الإعداد.
إصلاحات الأخطاء
- عام - تحديثات الموثوقية في منطق إعادة توصيل الخدمة (جميع لغات البرمجة باستثناء JavaScript).
- عام - إصلاح تحويلات السلسلة التي تسرب الذاكرة على Windows (جميع لغات البرمجة ذات الصلة باستثناء JavaScript).
- التعرف على الكلام المضمن - إصلاح العطل في التعرف على الكلام الفرنسي عند استخدام إدخالات معينة في القائمة النحوية.
- وثائق التعليمات البرمجية المصدر - تصحيحات لتعليقات الوثائق المرجعية ل SDK المتعلقة بتسجيل الصوت على الخدمة.
- التعرف على الهدف - إصلاح أولويات مطابق النمط المتعلقة بكيانات القائمة.
العينات
- معالجة فشل المصادقة بشكل صحيح في نموذج كتابة محادثة C# (CTS).
- إضافة مثال لتقييم النطق المتدفق ل Python وJavaScript Objective-C وSwift.
Speech SDK 1.26.0: إصدار مارس 2023
التغييرات الجذرية
- تم تعطيل Bitcode في جميع أهداف iOS في الحزم التالية: Cocoapod مع xcframework وNuGet (ل Xamarin وMAUI) وUnity. ويرجع التغيير إلى إهمال Apple لدعم bitcode من Xcode 14 وما بعده. يعني هذا التغيير أيضا إذا كنت تستخدم إصدار Xcode 13 أو قمت بتمكين رمز البت بشكل صريح على التطبيق الخاص بك باستخدام Speech SDK، فقد تواجه خطأ يقول "إطار العمل لا يحتوي على bitcode ويجب إعادة إنشائه". لحل هذه المشكلة، تأكد من تعطيل bitcode لأهدافك.
- تتم ترقية الحد الأدنى لهدف نشر iOS إلى 11.0 في هذا الإصدار، مما يعني أن armv7 HW لم يعد مدعوما.
الميزات الجديدة
- يدعم التعرف على الكلام المضمن (على الجهاز) الآن صوت إدخال معدل أخذ العينات 8 و16 كيلوهرتز (16 بت لكل عينة، PCM أحادي).
- يبلغ Speech Synthesis الآن عن زمن انتقال الاتصال والشبكة والخدمة في النتيجة للمساعدة في تحسين زمن الانتقال من طرف إلى طرف.
- قواعد جديدة لكسر التعادل للتعرف على الهدف مع مطابقة نمط بسيط. كلما زاد عدد وحدات بايت الأحرف المتطابقة، ستفوز على تطابقات النمط مع عدد البايت الأقل للأحرف. مثال: سيفوز النمط "Select {something} في أعلى اليمين" على "Select {something}"
إصلاحات الأخطاء
- تركيب الكلام: قم بإصلاح خطأ حيث لا يكون رمز المشاعر صحيحا في أحداث حدود الكلمات.
-
التعرف على الهدف باستخدام فهم لغة المحادثة (CLU):
- تظهر الأهداف من سير عمل CLU Orchestrator الآن بشكل صحيح.
- تتوفر نتيجة JSON الآن عبر معرف
LanguageUnderstandingServiceResponse_JsonResult
الخاصية .
- التعرف على الكلام مع تنشيط الكلمة الأساسية: إصلاح للصوت المفقود ~150 مللي ثانية بعد التعرف على الكلمة الأساسية.
- إصلاح إصدار Speech SDK NuGet iOS MAUI، الذي أبلغ عنه العميل (مشكلة GitHub)
العينات
- إصلاح عينة Swift iOS، التي أبلغ عنها العميل (مشكلة GitHub)
Speech SDK 1.25.0: إصدار يناير 2023
التغييرات الجذرية
- تم تبسيط واجهات برمجة التطبيقات لتحديد اللغة (معاينة). إذا قمت بتحديث Speech SDK 1.25 وشاهدت فاصل بناء، فيرجى زيارة صفحة تحديد اللغة للتعرف على الخاصية
SpeechServiceConnection_LanguageIdMode
الجديدة . تحل هذه الخاصية الفردية محل الخاصيتين السابقتينSpeechServiceConnection_SingleLanguageIdPriority
وSpeechServiceConnection_ContinuousLanguageIdPriority
. لم يعد تحديد الأولويات بين زمن الانتقال المنخفض والدقة العالية ضروريا بعد تحسينات النموذج الأخيرة. الآن، تحتاج فقط إلى تحديد ما إذا كنت تريد تشغيل تعريف اللغة في البداية أو المستمر عند إجراء التعرف المستمر على الكلام أو الترجمة.
الميزات الجديدة
- C#/C++/Java: تم الآن إصدار Embedded Speech SDK ضمن معاينة عامة مسورة. راجع وثائق الكلام المضمن (معاينة). يمكنك الآن إجراء تحويل الكلام إلى نص ونص إلى كلام على الجهاز عندما يكون الاتصال السحابي متقطعا أو غير متوفر. مدعوم على الأنظمة الأساسية Android وLinux وmacOS وWindows
- C# MAUI: تمت إضافة الدعم لأهداف iOS وMac Catalyst في Speech SDK NuGet (مشكلة العميل)
- Unity: تمت إضافة بنية android x86_64 إلى حزمة Unity (مشكلة العميل)
-
الانتقال:
- تمت إضافة دعم الدفق المباشر ALAW/MULAW للتعرف على الكلام (مشكلة العميل)
- دعم إضافي ل PhraseListGrammar. شكرا لك مستخدم GitHub czkoko لمساهمة المجتمع!
- C#/C++: يدعم Intent Recognizer الآن نماذج Conversational Language Understanding في C++ وC# مع التنسيق على خدمة Microsoft
إصلاحات الأخطاء
- إصلاح تعليق عرضي في KeywordRecognizer عند محاولة إيقافه
-
Python:
- إصلاح للحصول على نتائج تقييم النطق عند
PronunciationAssessmentGranularity.FullText
تعيين (مشكلة العميل) - إصلاح خاصية الجنس لأصوات الذكور التي لا يتم استردادها، عند الحصول على أصوات تركيب الكلام
- إصلاح للحصول على نتائج تقييم النطق عند
-
JavaScript
- إصلاح لتحليل بعض ملفات WAV التي تم تسجيلها على أجهزة iOS (مشكلة العميل)
- يتم الآن إنشاء JS SDK دون استخدام npm-force-resolutions (مشكلة العميل)
- يقوم "مترجم المحادثة" الآن بتعيين نقطة نهاية الخدمة بشكل صحيح عند استخدام مثيل speechConfig تم إنشاؤه باستخدام SpeechConfig.fromEndpoint()
العينات
عينات مضافة توضح كيفية استخدام الكلام المضمن
تمت إضافة Speech إلى نموذج نصي ل MAUI
راجع مستودع عينات Speech SDK.
Speech SDK 1.24.2: إصدار نوفمبر 2022
الميزات الجديدة
- لا توجد ميزات جديدة، فقط إصلاح محرك مضمن لدعم ملفات النموذج الجديدة.
إصلاحات الأخطاء
-
جميع لغات البرمجة
- تم إصلاح مشكلة تتعلق بتشفير نماذج التعرف على الكلام المضمنة.
Speech SDK 1.24.1: إصدار نوفمبر 2022
الميزات الجديدة
- الحزم المنشورة لمعاينة الكلام المضمن. راجع https://aka.ms/embedded-speech لمزيد من المعلومات.
إصلاحات الأخطاء
-
جميع لغات البرمجة
- إصلاح تعطل TTS المضمن عندما لا يكون الخط الصوتي مدعوما
- لا يمكن لإصلاح stopSpeaking() إيقاف التشغيل على Linux (#1686)
-
JavaScript SDK
- تم إصلاح الانحدار في كيفية قيام ناسخ المحادثة ببوابة الصوت.
-
جاوة
- تم نشر ملفات POM وJavadocs المحدثة مؤقتا إلى Maven Central لتمكين مسار المستندات من تحديث المستندات المرجعية عبر الإنترنت.
-
بايثون
- إصلاح الانحدار حيث ترجع Python speak_text (ssml) فراغا.
Speech SDK 1.24.0: إصدار أكتوبر 2022
الميزات الجديدة
- جميع لغات البرمجة: تمت إضافة AMR-WB (16khz) إلى القائمة المعتمدة من تنسيقات إخراج النص إلى صوت الكلام
- Python: تمت إضافة حزمة ل Linux Arm64 لتوزيعات Linux المدعومة.
-
C#/C++/Java/Python: تمت إضافة الدعم للتدفق المباشر ل ALAW و MULAW إلى خدمة الكلام (بالإضافة إلى دفق PCM الحالي) باستخدام
AudioStreamWaveFormat
. - C# MAUI: تم تحديث حزمة NuGet لدعم أهداف Android لمطوري .NET MAUI (مشكلة العميل)
- Mac: تمت إضافة XCframework منفصل لنظام التشغيل Mac، والذي لا يحتوي على أي ثنائيات iOS. يوفر هذا خيارا للمطورين الذين يحتاجون إلى ثنائيات Mac فقط باستخدام حزمة XCframework أصغر.
-
مكدس الصوت من Microsoft (MAS):
- عند تحديد زوايا تشكيل الحزم، سيتم منع الصوت الذي ينشأ خارج النطاق المحدد بشكل أفضل.
- ما يقرب من 70% تقليل في
libMicrosoft.CognitiveServices.Speech.extension.mas.so
حجم ل Linux ARM32 وLinux Arm64.
-
التعرف على الهدف باستخدام مطابقة النمط:
- إضافة دعم تقويم اللغات
fr
وde
وes
وjp
- تمت إضافة دعم عدد صحيح تم إنشاؤه مسبقا للغة
es
.
- إضافة دعم تقويم اللغات
إصلاحات الأخطاء
- iOS: إصلاح خطأ تركيب الكلام على iOS 16 بسبب فشل فك ترميز الصوت المضغوط (مشكلة العميل).
-
JavaScript:
- إصلاح الرمز المميز للمصادقة الذي لا يعمل عند الحصول على قائمة صوت تجميع الكلام (مشكلة العميل).
- استخدم عنوان URL للبيانات لتحميل العامل (مشكلة العميل).
- إنشاء worklet لمعالج الصوت فقط عندما يكون AudioWorklet مدعوما في المستعرض (مشكلة العميل). كانت هذه مساهمة مجتمعية من قبل ويليام وونغ. شكرا لك ويليام!
- إصلاح رد الاتصال الذي تم التعرف عليه عندما تكون استجابة
connectionMessage
LUIS فارغة (مشكلة العميل). - تعيين مهلة تجزئة الكلام بشكل صحيح.
-
التعرف على الهدف باستخدام مطابقة النمط:
- يتم الآن تحميل الأحرف غير json داخل النماذج بشكل صحيح.
- إصلاح مشكلة معلقة عند
recognizeOnceAsync(text)
استدعاؤها أثناء التعرف المستمر.
Speech SDK 1.23.0: إصدار يوليو 2022
الميزات الجديدة
-
C#، C++، Java: تمت إضافة دعم للغات
zh-cn
وفيzh-hk
التعرف على الهدف باستخدام مطابقة الأنماط. -
C#: دعم إضافي لبنيات
AnyCPU
.NET Framework
إصلاحات الأخطاء
- Android: تم إصلاح ثغرة OpenSSL الأمنية CVE-2022-2068 عن طريق تحديث OpenSSL إلى 1.1.1q
- Python: إصلاح التعطل عند استخدام PushAudioInputStream
- iOS: إصلاح "EXC_BAD_ACCESS: حاول إلغاء مرجعية المؤشر الفارغ" كما تم الإبلاغ عنه في iOS (مشكلة GitHub)
Speech SDK 1.22.0: إصدار يونيو 2022
الميزات الجديدة
- Java: IntentRecognitionResult API ل getEntities()، وتطبيقLanguageModels()، و recognizeOnceAsync(text) المضافة لدعم محرك "مطابقة النمط البسيط".
- Unity: دعم إضافي ل Mac M1 (Apple Silicon) لحزمة Unity (مشكلة GitHub)
- C#: دعم إضافي x86_64 ل Xamarin Android (مشكلة GitHub)
- C#: تم تحديث الإصدار الأدنى من .NET framework إلى الإصدار 4.6.2 لحزمة SDK C# كما تم إيقاف الإصدار 4.6.1 (راجع نهج دورة حياة مكون Microsoft .NET Framework)
- Linux: دعم إضافي ل Debian 11 وUbuntu 22.04 LTS. يتطلب Ubuntu 22.04 LTS التثبيت اليدوي ل libssl1.1 إما كحزمة ثنائية من هنا (على سبيل المثال، libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb أو أحدث للإصدار x64)، أو عن طريق التحويل البرمجي من المصادر.
إصلاحات الأخطاء
- UWP: تمت إزالة تبعية OpenSSL من مكتبات UWP واستبدالها ب WinRT websocket وHTTP APIs لتلبية التوافق الأمني والبصمة الثنائية الأصغر.
- Mac: تم إصلاح مشكلة "MicrosoftCognitiveServicesSpeech Module Not Found" عند استخدام مشاريع Swift التي تستهدف نظام macOS الأساسي
- Windows، Mac: تم إصلاح مشكلة خاصة بالنظام الأساسي حيث تكون مصادر الصوت التي تم تكوينها عبر الخصائص للبث بمعدل الوقت الحقيقي متخلفة في بعض الأحيان وتجاوزت السعة في النهاية
عينات (GitHub)
- C#: تم تحديث نماذج إطار عمل .NET لاستخدام الإصدار 4.6.2
- Unity: تم إصلاح عينة المساعد الظاهري لنظامي التشغيل Android وUWP
- Unity: تم تحديث نماذج Unity لإصدار Unity 2020 LTS
Speech SDK 1.21.0: إصدار أبريل 2022
الميزات الجديدة
- Java وJavaScript: دعم إضافي لتحديد اللغة المستمرة عند استخدام كائن SpeechRecognizer
- JavaScript: تمت إضافة واجهات برمجة تطبيقات التشخيص لتمكين مستوى تسجيل وحدة التحكم وتسجيل الملفات (العقدة فقط)، لمساعدة Microsoft على استكشاف المشكلات التي أبلغ عنها العميل وإصلاحها
- Python: دعم إضافي لنسخ المحادثة
- Go: دعم إضافي للتعرف على المتحدث
- C++ وC#: تمت إضافة دعم لمجموعة مطلوبة من الكلمات في Intent Recognizer (مطابقة النمط البسيط). على سبيل المثال: "(set|start|begin) مؤقت" حيث يجب أن تكون "set" أو "start" أو "begin" موجودة للهدف الذي سيتم التعرف عليه.
- جميع لغات البرمجة، تجميع الكلام: خاصية المدة المضافة في أحداث حدود الكلمات. دعم إضافي لحدود علامات الترقيم ونقط الجملة
- Objective-C/Swift/Java: تمت إضافة نتائج على مستوى الكلمات على كائن نتيجة تقييم النطق (مشابه ل C#). لم يعد التطبيق بحاجة إلى تحليل سلسلة نتائج JSON للحصول على معلومات على مستوى الكلمات (مشكلة GitHub)
- منصة iOS: دعم تجريبي إضافي لبنية ARMv7
إصلاحات الأخطاء
- نظام iOS الأساسي: إصلاح للسماح بإنشاء الهدف "أي جهاز iOS"، عند استخدام CocoaPod (مشكلة GitHub)
- نظام Android الأساسي: تم تحديث إصدار OpenSSL إلى 1.1.1n لإصلاح الثغرة الأمنية CVE-2022-0778
- JavaScript: إصلاح مشكلة عدم تحديث رأس wav بحجم الملف (مشكلة GitHub)
- JavaScript: إصلاح مشكلة إلغاء مزامنة معرف الطلب لسيناريوهات الترجمة (مشكلة GitHub)
- JavaScript: إصلاح المشكلة عند إنشاء مثيل SpeakerAudioDestination بدون دفق (مشكلة GitHub]
- C++: إصلاح رؤوس C++ لإزالة تحذير عند التحويل البرمجي ل C++17 أو إصدار أحدث
عينات GitHub
- عينات Java جديدة للتعرف على الكلام باستخدام تعريف اللغة
- عينات PythonوJava جديدة لنسخ المحادثة
- نموذج Go جديد للتعرف على المتحدث
- أداة C++ وC# جديدة لنظام التشغيل Windows تقوم بتعداد جميع أجهزة التقاط الصوت وعرضها، للعثور على معرف الجهاز الخاص بها. هذا المعرف مطلوب بواسطة Speech SDK إذا كنت تخطط لالتقاط الصوت من جهاز غير افتراضي أو عرض الصوت عليه.
Speech SDK 1.20.0: إصدار يناير 2022
الميزات الجديدة
- Objective-C وSwift وPython: دعم إضافي ل DialogServiceConnector، المستخدم لسيناريوهات المساعد الصوتي.
- Python: تمت إضافة دعم Python 3.10. تمت إزالة دعم Python 3.6، لكل نهاية عمر Python ل 3.6.
- Unity: يتم الآن دعم Speech SDK لتطبيقات Unity على Linux.
- C++، C#: IntentRecognizer باستخدام مطابقة النمط مدعوم الآن في C#. بالإضافة إلى ذلك، يتم الآن دعم السيناريوهات ذات الكيانات المخصصة والمجموعات الاختيارية وأدوار الكيان في C++ وC#.
- C++، C#: تسجيل تتبع التشخيص المحسن باستخدام فئات جديدة FileLogger و MemoryLogger و EventLogger. تعد سجلات SDK أداة مهمة ل Microsoft لتشخيص المشكلات التي أبلغ عنها العميل. تسهل هذه الفئات الجديدة على العملاء دمج سجلات Speech SDK في نظام التسجيل الخاص بهم.
- جميع لغات البرمجة: يحتوي PronunciationAssessmentConfig الآن على خصائص لتعيين الأبجدية الهاتفية المطلوبة (IPA أو SAPI) وN-Best Phoneme Count (تجنب الحاجة إلى تأليف تكوين JSON وفقا لإصدار GitHub 1284). أيضا، يتم الآن دعم إخراج مستوى المقطع.
- Android وiOS وmacOS (جميع لغات البرمجة): لم تعد هناك حاجة إلى GStreamer لدعم شبكات النطاق الترددي المحدود. يستخدم SpeechSynthesizer الآن قدرات فك ترميز الصوت لنظام التشغيل لفك تشفير الصوت المضغوط المتدفق من النص إلى خدمة الكلام.
- جميع لغات البرمجة: يدعم SpeechSynthesizer الآن ثلاثة تنسيقات Opus جديدة للإخراج الخام (بدون حاوية)، والتي تستخدم على نطاق واسع في سيناريوهات البث المباشر.
- JavaScript: تمت إضافة واجهة برمجة تطبيقات getVoicesAsync() إلى SpeechSynthesizer لاسترداد قائمة الأصوات التركيبية المدعومة (إصدار GitHub 1350)
- JavaScript: تمت إضافة واجهة برمجة تطبيقات getWaveFormat() إلى AudioStreamFormat لدعم تنسيقات موجة غير PCM (إصدار GitHub 452)
- JavaScript: تمت إضافة واجهة برمجة تطبيقات getter/setter و mute()/unmute() إلى SpeakerAudioDestination (إصدار GitHub 463)
إصلاحات الأخطاء
- C++، وC#، وJava، وJavaScript، و Objective-C، و Swift: إصلاح لإزالة تأخير 10 ثوان أثناء إيقاف أداة التعرف على الكلام التي تستخدم PushAudioInputStream. هذا هو الحال حيث لا يتم دفع أي صوت جديد بعد استدعاء StopContinuousRecognition (مشكلات GitHub 1318، 331)
- Unity على Android وUWP: تم إصلاح ملفات تعريف Unity ل UWP وAndroid Arm64 وWindows Subsystem for Android (WSA) Arm64 (GitHub issue 1360)
- iOS: تم الآن إصلاح تجميع تطبيق Speech SDK على أي جهاز iOS عند استخدام CocoaPods (إصدار GitHub 1320)
- iOS: عند تكوين SpeechSynthesizer لإخراج الصوت مباشرة إلى مكبر الصوت، توقف التشغيل في البداية في حالات نادرة. تم إصلاح ذلك.
- JavaScript: استخدم النسخ الاحتياطي لمعالج البرنامج النصي لإدخال الميكروفون إذا لم يتم العثور على أي عمل صوتي (مشكلة GitHub 455)
- JavaScript: إضافة بروتوكول إلى العامل للتخفيف من الأخطاء التي تم العثور عليها مع تكامل Sentry (GitHub المشكلة 465)
عينات GitHub
- نماذج C++، وC#، وPython، وJava توضح كيفية الحصول على نتائج التعرف التفصيلية. تتضمن التفاصيل نتائج التعرف البديلة، ودرجة الثقة، والنموذج المعجمي، والنموذج العادي، والنموذج المقنع العادي، مع توقيت على مستوى الكلمات لكل منها.
- تمت إضافة نموذج iOS باستخدام AVFoundation كمصدر صوت خارجي.
- تمت إضافة نموذج Java لإظهار كيفية الحصول على تنسيق SRT (نص SubRip) باستخدام حدث WordBoundary.
- عينات Android لتقييم النطق.
- C++، C# يعرض استخدام فئات تسجيل التشخيص الجديدة.
Speech SDK 1.19.0: إصدار 2021-نوفمبر
يبرز
خدمة التعرف على المتحدث متاحة بشكل عام (GA) الآن. تتوفر واجهات برمجة تطبيقات Speech SDK على C++، وC#، وJava، وJavaScript. باستخدام "التعرف على المتحدث"، يمكنك التحقق من السماعات وتحديدها بدقة من خلال خصائصها الصوتية الفريدة. لمزيد من المعلومات حول هذا الموضوع، راجع الوثائق.
لقد أسقطنا الدعم ل Ubuntu 16.04 بالاقتران مع Azure DevOps وGitHub. وصل Ubuntu 16.04 إلى نهاية العمر الافتراضي في أبريل 2021. ترحيل مهام سير عمل Ubuntu 16.04 إلى Ubuntu 18.04 أو أحدث.
تم تغيير ارتباط OpenSSL في ثنائيات Linux إلى ديناميكية. تم تقليل حجم Linux الثنائي بنحو 50%.
تمت إضافة دعم السيليكون المستند إلى Mac M1 ARM.
الميزات الجديدة
C++/C#/Java: تمت إضافة واجهات برمجة تطبيقات جديدة لتمكين دعم معالجة الصوت لإدخال الكلام باستخدام مكدس الصوت من Microsoft. الوثائق هنا.
C++: واجهات برمجة تطبيقات جديدة للتعرف على الهدف لتسهيل مطابقة النمط الأكثر تقدما. ويشمل ذلك كيانات القائمة والأعداد الصحيحة التي تم إنشاؤها مسبقا بالإضافة إلى دعم أهداف التجميع والكيانات كنماذج (الوثائق والتحديثات والعينات قيد التطوير وسيتم نشرها في المستقبل القريب).
Mac: دعم حزم Arm64 (M1) المستندة إلى السيليكون ل CocoaPod وPython وJava وNuGet المتعلقة بإصدار GitHub 1244.
iOS/Mac: يتم الآن حزم ثنائيات iOS وmacOS في xcframework المتعلقة بإصدار GitHub 919.
iOS/Mac: دعم محفز Mac المتعلق بإصدار GitHub 1171.
Linux: تمت إضافة حزمة tar جديدة ل CentOS7 حول Speech SDK. تحتوي حزمة linux .tar الآن على مكتبات محددة ل RHEL/CentOS 7 في
lib/centos7-x64
. لا تزال مكتبات Speech SDK في lib/x64 قابلة للتطبيق على جميع توزيعات Linux x64 المدعومة الأخرى (بما في ذلك RHEL/CentOS 8) ولن تعمل على RHEL/CentOS 7.JavaScript: واجهات برمجة تطبيقات VoiceProfile و SpeakerRecognizer غير متزامنة/قابلة للانتظار.
JavaScript: تمت إضافة الدعم لمناطق Azure الحكومية الأمريكية.
Windows: تمت إضافة الدعم للتشغيل على النظام الأساسي العام ل Windows (UWP).
إصلاحات الأخطاء
Android: تحديث أمان OpenSSL (تم تحديثه إلى الإصدار 1.1.1l) لحزم Android.
Python: تم حل الخطأ حيث يفشل تحديد جهاز السماعة على Python.
Core: إعادة الاتصال تلقائيا عند فشل محاولة الاتصال.
iOS: تم تعطيل ضغط الصوت على حزم iOS بسبب عدم الاستقرار ومشاكل إنشاء bitcode عند استخدام GStreamer. تتوفر التفاصيل عبر إصدار GitHub 1209.
عينات GitHub
Mac/iOS: العينات المحدثة وقوالب التشغيل السريع لاستخدام حزمة xcframework.
.NET: تم تحديث العينات لاستخدام إصدار .NET core 3.1.
JavaScript: عينة إضافية للمساعدين الصوتيين.
Speech SDK 1.18.0: إصدار 2021-يوليو
ملاحظة: ابدأ باستخدام Speech SDK هنا.
ملخص أهم النقاط
- وصل Ubuntu 16.04 إلى نهاية العمر الافتراضي في أبريل 2021. باستخدام Azure DevOps وGitHub، سنسقط الدعم ل 16.04 في سبتمبر 2021. ترحيل مهام سير عمل ubuntu-16.04 إلى ubuntu-18.04 أو أحدث قبل ذلك.
الميزات الجديدة
- C++: تسهل مطابقة نمط اللغة البسيط مع Intent Recognizer الآن تنفيذ سيناريوهات التعرف على الهدف البسيطة.
-
C++/C#/Java: أضفنا واجهة برمجة تطبيقات جديدة إلى
GetActivationPhrasesAsync()
VoiceProfileClient
الفئة لتلقي قائمة بعبارات التنشيط الصالحة في مرحلة تسجيل التعرف على المتحدث لسيناريوهات التعرف المستقل.- هام: ميزة التعرف على المتحدث في المعاينة. سيتم إيقاف جميع ملفات التعريف الصوتية التي تم إنشاؤها في المعاينة بعد 90 يوما من نقل ميزة التعرف على المتحدث خارج المعاينة إلى التوفر العام. عند هذه النقطة، ستتوقف ملفات تعريف الصوت المعاينة عن العمل.
-
Python: دعم إضافي لتعريف اللغة المستمر (LID) على العناصر الموجودة
SpeechRecognizer
والعناصرTranslationRecognizer
. -
Python: تمت إضافة كائن Python جديد باسم
SourceLanguageRecognizer
للقيام ب LID لمرة واحدة أو مستمرة (دون التعرف أو الترجمة). -
JavaScript:
getActivationPhrasesAsync
تمت إضافة واجهة برمجة التطبيقات إلىVoiceProfileClient
الفئة لتلقي قائمة بعبارات التنشيط الصالحة في مرحلة تسجيل التعرف على المتحدث لسيناريوهات التعرف المستقل. -
JavaScript
VoiceProfileClient
' senrollProfileAsync
API الآن غير متزامنة في انتظار. راجع رمز التعريف المستقل هذا، على سبيل المثال، الاستخدام.
التحسينات
- Java: تمت إضافة دعم AutoCloseable إلى العديد من كائنات Java. الآن يتم دعم نموذج try-with-resources لتحرير الموارد. راجع هذا النموذج الذي يستخدم try-with-resources. راجع أيضا البرنامج التعليمي لوثائق Oracle Java لبيان تجربة الموارد للتعرف على هذا النمط.
- تم تقليل بصمة القرص بشكل كبير للعديد من الأنظمة الأساسية والبنى. أمثلة للثنائي
Microsoft.CognitiveServices.Speech.core
: x64 Linux أصغر ب 475 كيلوبايت (8.0% تقليل)؛ Arm64 Windows UWP أصغر ب 464 كيلوبايت (تقليل 11.5%)؛ x86 Windows أصغر ب 343 كيلوبايت (17.5% تقليل)؛ وx64 Windows أصغر ب 451 كيلوبايت (19.4% تقليل).
إصلاحات الأخطاء
- Java: تم إصلاح خطأ التركيب عندما يحتوي نص التجميع على أحرف بديلة. التفاصيل هنا.
-
JavaScript: تستخدم
AudioWorkletNode
معالجة صوت ميكروفون المستعرض الآن بدلا من إهمال .ScriptProcessorNode
التفاصيل هنا. - JavaScript: حافظ على المحادثات على قيد الحياة بشكل صحيح أثناء سيناريوهات ترجمة المحادثات طويلة الأمد. التفاصيل هنا.
- JavaScript: تم إصلاح مشكلة إعادة اتصال أداة التعرف ب mediastream في التعرف المستمر. التفاصيل هنا.
- JavaScript: تم إصلاح مشكلة إعادة اتصال أداة التعرف ب pushStream في التعرف المستمر. التفاصيل هنا.
- JavaScript: تصحيح حساب إزاحة مستوى الكلمات في نتائج التعرف التفصيلية. التفاصيل هنا.
العينات
- تم تحديث نماذج التشغيل السريع ل Java هنا.
- تم تحديث نماذج التعرف على مكبر صوت JavaScript لإظهار الاستخدام الجديد ل
enrollProfileAsync()
. انظر العينات هنا.
Speech SDK 1.17.0: 2021-May release
ملاحظة
ابدأ باستخدام Speech SDK هنا.
ملخص أهم النقاط
- بصمة أصغر - نواصل تقليل الذاكرة وبصمة القرص ل Speech SDK ومكوناته.
- تتيح لك واجهة برمجة تطبيقات تعريف اللغة المستقلة الجديدة التعرف على اللغة التي يتم التحدث بها.
- تطوير تطبيقات الحقيقة المختلطة والألعاب الممكنة للكلام باستخدام Unity على macOS.
- يمكنك الآن استخدام النص إلى كلام بالإضافة إلى التعرف على الكلام من لغة البرمجة Go.
- تم وضع علامة على GitHub العديد من إصلاحات الأخطاء لمعالجة المشكلات التي قمت أنت، عملاؤنا القيمون، بوضع علامة عليها! شكرا! استمر في تقديم الملاحظات!
الميزات الجديدة
-
C++/C#: At-Start مستقل جديد واكتشاف اللغة المستمرة عبر
SourceLanguageRecognizer
واجهة برمجة التطبيقات. إذا كنت تريد فقط الكشف عن اللغة (اللغات) المنطوقة في محتوى الصوت، فهذه هي واجهة برمجة التطبيقات للقيام بذلك. راجع تفاصيل C++وC#. - C++/C#: تدعم ميزة التعرف على الكلام والتعرف على الترجمة الآن تعريف اللغة في البداية والمستمر حتى تتمكن من تحديد اللغة (اللغات) التي يتم التحدث بها برمجيا قبل نسخها أو ترجمتها. راجع الوثائق هنا للتعرف على الكلاموهنا لترجمة الكلام.
- C#: دعم إضافي لدعم Unity إلى macOS (x64). هذا يفتح التعرف على الكلام وحالات استخدام تركيب الكلام في الحقيقة المختلطة والألعاب!
- Go: أضفنا دعما لنص تركيب الكلام إلى الكلام إلى لغة برمجة Go لجعل تركيب الكلام متاحا في المزيد من حالات الاستخدام. راجع دليل التشغيل السريع أو وثائقنا المرجعية.
-
C++/C#/Java/Python/Objective-C/Go: يدعم
connection
تركيب الكلام الآن الكائن. يساعدك هذا على إدارة ومراقبة الاتصال بخدمة Speech، وهو مفيد بشكل خاص للاتصال المسبق لتقليل زمن الانتقال. راجع الوثائق هنا. -
C++/C#/Java/Python/Objective-C/Go: نكشف الآن زمن الانتقال ونقل وقت التشغيل لمساعدتك في
SpeechSynthesisResult
مراقبة مشكلات زمن انتقال تركيب الكلام وتشخيصها. راجع تفاصيل C++، C#، Java، Python، Objective-CوGo. - C++/C#/Java/Python/Objective-C: يستخدم النص إلى كلام الآن الأصوات العصبية بشكل افتراضي عندما لا تحدد صوتا لاستخدامه. يمنحك هذا إخراج دقة أعلى بشكل افتراضي، ولكنه يزيد أيضا السعر الافتراضي.
- C++/C#/Java/Python/Objective-C/Go: أضفنا خاصية الجنس إلى المعلومات الصوتية التركيبية لتسهيل تحديد الأصوات بناء على نوع الجنس. يعالج هذا مشكلة GitHub #1055.
-
C++، وC#، وJava، وJavaScript: ندعم
retrieveEnrollmentResultAsync
الآن ،getAuthorizationPhrasesAsync
و، وgetAllProfilesAsync()
في التعرف على المتحدث لتسهيل إدارة المستخدم لجميع ملفات التعريف الصوتية لحساب معين. راجع وثائق C++، وC#، وJava، وJavaScript. يعالج هذا مشكلة GitHub #338. - JavaScript: أضفنا إعادة المحاولة لفشل الاتصال الذي سيجعل تطبيقات الكلام المستندة إلى JavaScript أكثر قوة.
التحسينات
- تم تحديث ثنائيات Linux وAndroid Speech SDK لاستخدام أحدث إصدار من OpenSSL (1.1.1k)
- تحسينات حجم التعليمات البرمجية:
- يتم الآن تقسيم فهم اللغة إلى مكتبة "lu" منفصلة.
- انخفض حجم ثنائي Windows x64 الأساسي بمقدار 14.4%.
- انخفض حجم ثنائي Android Arm64 الأساسي بمقدار 13.7%.
- كما انخفض حجم المكونات الأخرى.
إصلاحات الأخطاء
- الكل: تم إصلاح مشكلة GitHub #842 ل ServiceTimeout. يمكنك الآن نسخ ملفات صوتية طويلة باستخدام Speech SDK دون الاتصال بالخدمة التي تنتهي بهذا الخطأ. ومع ذلك، ما زلنا نوصي باستخدام النسخ الدفعي للملفات الطويلة.
- C#: تم إصلاح مشكلة GitHub #947 حيث لا يمكن لإدخال الكلام ترك تطبيقك في حالة سيئة.
- Java: تم إصلاح مشكلة GitHub #997 حيث يتعطل Speech SDK ل Java 1.16 عند استخدام DialogServiceConnector دون اتصال بالشبكة أو مفتاح اشتراك غير صالح.
- تم إصلاح العطل عند إيقاف التعرف على الكلام فجأة (على سبيل المثال، استخدام CTRL+C على تطبيق وحدة التحكم).
- Java: تمت إضافة إصلاح لحذف الملفات المؤقتة على Windows عند استخدام Speech SDK ل Java.
-
Java: تم إصلاح مشكلة GitHub #994 حيث قد يؤدي الاستدعاء
DialogServiceConnector.stopListeningAsync
إلى حدوث خطأ. - Java: تم إصلاح مشكلة العميل في التشغيل السريع المساعد الظاهري.
-
JavaScript: تم إصلاح مشكلة GitHub #366 حيث
ConversationTranslator
ألقى خطأ 'this.cancelSpeech ليست دالة'. - JavaScript: تم إصلاح مشكلة GitHub #298 حيث تم تشغيل نموذج "الحصول على النتيجة كتدفق في الذاكرة" بصوت عال.
-
JavaScript: تم إصلاح مشكلة GitHub #350 حيث قد يؤدي الاستدعاء
AudioConfig
إلى 'ReferenceError: MediaStream غير محدد'. - JavaScript: تم إصلاح تحذير UnhandledPromiseRejection في Node.js لجلسات العمل طويلة الأمد.
العينات
- وثائق عينات Unity المحدثة لنظام التشغيل macOS هنا.
- يتوفر الآن نموذج React Native لخدمة التعرف على الكلام الذكاء الاصطناعي Azure هنا.
Speech SDK 1.16.0: إصدار 2021-مارس
ملاحظة
يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك ل Visual Studio 2015 و2017 و2019.
الميزات الجديدة
- C++/C#/Java/Python: انتقل إلى أحدث إصدار من GStreamer (1.18.3) لإضافة دعم لنسخ أي تنسيق وسائط على Windows وLinux وAndroid. راجع الوثائق هنا.
-
C++/C#/Java/Objective-C/Python: تمت إضافة دعم لفك ترميز الصوت المضغوط TTS/المركب إلى SDK. إذا قمت بتعيين تنسيق صوت الإخراج إلى PCM وكان GStreamer متوفرا على النظام الخاص بك، فسيطلب SDK تلقائيا الصوت المضغوط من الخدمة لحفظ النطاق الترددي وفك تشفير الصوت على العميل. يمكنك التعيين
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
إلىfalse
لتعطيل هذه الميزة. تفاصيل C++، C#، Java، Objective-C، Python. -
JavaScript: يمكن للمستخدمين Node.js الآن استخدام
AudioConfig.fromWavFileInput
واجهة برمجة التطبيقات. هذا يعالج مشكلة GitHub #252. -
C++/C#/Java/Objective-C/Python: أسلوب إضافي
GetVoicesAsync()
ل TTS لإرجاع جميع الأصوات التركيبية المتوفرة. تفاصيل C++، وC#، وJava، و Objective-C، وPython. -
C++/C#/Java/JavaScript/Objective-C/Python: حدث إضافي
VisemeReceived
لتركيب الكلام/TTS لإرجاع حركة viseme المتزامنة. راجع الوثائق هنا. -
C++/C#/Java/JavaScript/Objective-C/Python: حدث مضاف
BookmarkReached
ل TTS. يمكنك تعيين الإشارات المرجعية في إدخال SSML والحصول على إزاحات الصوت لكل إشارة مرجعية. راجع الوثائق هنا. - Java: دعم إضافي لواجهات برمجة تطبيقات التعرف على المتحدث. التفاصيل هنا.
- C++/C#/Java/JavaScript/Objective-C/Python: تمت إضافة تنسيقين جديدين لصوت الإخراج باستخدام حاوية WebM ل TTS (Webm16Khz16BitMonoOpus وWebm24Khz16BitMonoOpus). هذه تنسيقات أفضل لبث الصوت باستخدام برنامج ترميز Opus. تفاصيل C ++، C#، Java، JavaScript، Objective-C، Python.
- C++/C#/Java: تمت إضافة دعم لاسترداد ملف التعريف الصوتي لسيناريو التعرف على المتحدث. تفاصيل C++، وC#، وJava.
- C++/C#/Java/Objective-C/Python: تمت إضافة دعم لمكتبة مشتركة منفصلة لميكروفون الصوت والتحكم في السماعة. يسمح هذا للمطور باستخدام SDK في البيئات التي لا تحتوي على تبعيات مكتبة الصوت المطلوبة.
- Objective-C/Swift: دعم إضافي لإطار عمل الوحدة النمطية مع رأس مظلة. يسمح هذا للمطور باستيراد Speech SDK كوحدة نمطية في تطبيقات iOS/Mac Objective-C/Swift. يعالج هذا مشكلة GitHub #452.
- Python: دعم إضافي ل Python 3.9 وتراجع الدعم ل Python 3.5 لكل نهاية عمر Python لمدة 3.5.
المشاكل المعروفة
-
C++/C#/Java:
DialogServiceConnector
لا يمكن استخدامCustomCommandsConfig
للوصول إلى تطبيق أوامر مخصصة وسيواجه بدلا من ذلك خطأ في الاتصال. يمكن حل هذه المشكلة عن طريق إضافة معرف التطبيق يدويا إلى الطلب باستخدامconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
. سيتم استعادة السلوك المتوقع فيCustomCommandsConfig
الإصدار التالي.
التحسينات
- كجزء من جهودنا متعددة الإصدارات لتقليل استخدام ذاكرة Speech SDK وبصمة القرص، أصبحت ثنائيات Android الآن أصغر من 3% إلى 5%.
- أقسام محسنة للدقة وقابلية القراءة والاطلاع أيضا على الوثائق المرجعية ل C# هنا.
إصلاحات الأخطاء
- JavaScript: يتم الآن تحليل رؤوس ملفات WAV الكبيرة بشكل صحيح (يزيد شريحة الرأس إلى 512 بايت). هذا يعالج مشكلة GitHub #962.
- JavaScript: تم تصحيح مشكلة توقيت الميكروفون إذا انتهى دفق الميكروفون قبل إيقاف التعرف، مع معالجة مشكلة عدم عمل ميزة التعرف على الكلام في Firefox.
- JavaScript: نتعامل الآن بشكل صحيح مع وعد التهيئة عندما يفرض المستعرض إيقاف تشغيل الميكروفون قبل اكتمال turnOn.
- JavaScript: استبدلنا تبعية عنوان URL بتحليل url. يعالج هذا مشكلة GitHub #264.
-
Android: عمليات رد الاتصال الثابتة لا تعمل عند
minifyEnabled
تعيينها إلى true. -
C++/C#/Java/Objective-C/Python:
TCP_NODELAY
سيتم تعيينه بشكل صحيح إلى IO مأخذ التوصيل الأساسي ل TTS لتقليل زمن الانتقال. - C++/C#/Java/Python/Objective-C/Go: تم إصلاح تعطل عرضي عند تدمير أداة التعرف بعد بدء التعرف.
- C++/C#/Java: تم إصلاح تعطل عرضي في تدمير أداة التعرف على المتحدث.
العينات
- JavaScript: لم تعد عينات المستعرض تتطلب تنزيل ملف مكتبة JavaScript منفصلا.
Speech SDK 1.15.0: 2021-January release
ملاحظة
يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك ل Visual Studio 2015 و2017 و2019.
ملخص أهم النقاط
- ذاكرة أصغر وبصمة قرص ما يجعل SDK أكثر كفاءة.
- تتوفر تنسيقات إخراج دقة أعلى للمعاينة الخاصة بالصوت العصبي المخصص.
- يمكن ل Intent Recognizer الآن الحصول على العائد أكثر من الهدف الأعلى، مما يمنحك القدرة على إجراء تقييم منفصل حول هدف عميلك.
- أصبح إعداد المساعدين الصوتيين والروبوتات أسهل الآن، ويمكنك جعله يتوقف عن الاستماع على الفور، وممارسة تحكم أكبر في كيفية استجابته للأخطاء.
- تحسين أداء الجهاز من خلال جعل الضغط اختياريا.
- استخدم Speech SDK على Windows ARM/Arm64.
- تحسين تصحيح الأخطاء منخفض المستوى.
- تتوفر الآن ميزة تقييم النطق على نطاق أوسع.
- تم وضع علامة على GitHub العديد من إصلاحات الأخطاء لمعالجة المشكلات التي قمت أنت، عملاؤنا القيمون، بوضع علامة عليها! شكرا! استمر في تقديم الملاحظات!
التحسينات
- أصبح Speech SDK الآن أكثر كفاءة وخفة الوزن. لقد بدأنا جهدا متعدد الإصدارات لتقليل استخدام ذاكرة Speech SDK وبصمة القرص. كخطوة أولى، قمنا بإجراء تخفيضات كبيرة في حجم الملفات في المكتبات المشتركة على معظم الأنظمة الأساسية. مقارنة بإصدار 1.14:
- مكتبات Windows المتوافقة مع UWP 64 بت أصغر بحوالي 30%.
- مكتبات Windows 32 بت لا ترى بعد تحسنا في الحجم.
- مكتبات Linux أصغر من 20-25%.
- مكتبات Android أصغر من 3 إلى 5%.
الميزات الجديدة
- الكل: تنسيقات إخراج جديدة 48 كيلوهرتز متوفرة للمعاينة الخاصة للصوت العصبي المخصص من خلال واجهة برمجة تطبيقات تركيب الكلام TTS: Audio48Khz192KBitRateMonoMp3، audio-48khz-192kbitrate-mono-mp3، Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
-
الكل: الصوت المخصص أسهل أيضا في الاستخدام. دعم إضافي لإعداد الصوت المخصص عبر
EndpointId
(C++، C#، Java، JavaScript، Objective-C، Python). قبل هذا التغيير، احتاج مستخدمو الصوت المخصصون إلى تعيين عنوان URL لنقطة النهاية عبرFromEndpoint
الأسلوب . الآن يمكن للعملاء استخدامFromSubscription
الأسلوب تماما مثل الأصوات القياسية، ثم توفير معرف النشر عن طريق إعدادEndpointId
. وهذا يبسط إعداد الأصوات المخصصة. -
C++/C#/Java/Objective-C/Python: احصل على أكثر من الهدف الأعلى من
IntentRecognizer
. وهو يدعم الآن تكوين نتيجة JSON التي تحتوي على جميع الأهداف وليس فقط هدف تسجيل النقاط الأعلى عبرLanguageUnderstandingModel FromEndpoint
الأسلوب باستخدامverbose=true
معلمة uri. يعالج هذا مشكلة GitHub #880. راجع الوثائق المحدثة هنا. -
C++/C#/Java: اجعل مساعدك الصوتي أو الروبوت يتوقف عن الاستماع على الفور.
DialogServiceConnector
(C++، C#، Java) الآن لديهStopListeningAsync()
أسلوب لمرافقتهListenOnceAsync()
. سيؤدي ذلك إلى إيقاف التقاط الصوت على الفور والانتظار بأمان للحصول على نتيجة، ما يجعله مثاليا للاستخدام مع سيناريوهات الضغط على الزر "إيقاف الآن". -
C++/C#/Java/JavaScript: اجعل مساعدك الصوتي أو الروبوت يتفاعل بشكل أفضل مع أخطاء النظام الأساسية.
DialogServiceConnector
(C++، C#، Java، JavaScript) الآن لديه معالج أحداث جديدTurnStatusReceived
. تتوافق هذه الأحداث الاختيارية مع كلITurnContext
دقة على الروبوت وستبلغ عن فشل التنفيذ عند حدوثها، على سبيل المثال، نتيجة استثناء غير معالج أو مهلة أو انخفاض في الشبكة بين Direct Line Speech والروبوت.TurnStatusReceived
يسهل الاستجابة لظروف الفشل. على سبيل المثال، إذا استغرق الروبوت وقتا طويلا في استعلام قاعدة بيانات الواجهة الخلفية (على سبيل المثال، البحث عن منتج)،TurnStatusReceived
يسمح للعميل بمعرفة التكرار مع "عذرا، لم أحصل على ذلك تماما، هل يمكنك المحاولة مرة أخرى" أو شيء مماثل. - C++/C#: استخدم Speech SDK على المزيد من الأنظمة الأساسية. تدعم حزمة Speech SDK NuGet الآن ثنائيات سطح المكتب الأصلية ل Windows ARM/Arm64 (تم دعم UWP بالفعل) لجعل Speech SDK أكثر فائدة على المزيد من أنواع الأجهزة.
-
Java:
DialogServiceConnector
الآن لديهsetSpeechActivityTemplate()
أسلوب تم استبعاده عن غير قصد من اللغة مسبقا. وهذا يعادل تعيين الخاصيةConversation_Speech_Activity_Template
وسيطلب أن تقوم جميع أنشطة Bot Framework المستقبلية التي تم إنشاؤها بواسطة خدمة Direct Line Speech بدمج المحتوى المقدم في حمولات JSON الخاصة بهم. -
Java: تصحيح الأخطاء منخفض المستوى محسن. تحتوي
Connection
الفئة الآن علىMessageReceived
حدث، مشابه للغات البرمجة الأخرى (C++، C#). يوفر هذا الحدث وصولا منخفض المستوى إلى البيانات الواردة من الخدمة ويمكن أن يكون مفيدا للتشخيص وتصحيح الأخطاء. -
JavaScript: إعداد أسهل للمساعدين الصوتيين والروبوتات من خلال
BotFrameworkConfig
، والتي تحتويfromHost()
الآن على أساليب المصنعfromEndpoint()
التي تبسط استخدام مواقع الخدمة المخصصة مقابل تعيين الخصائص يدويا. كما قمنا بتوحيد المواصفات الاختياريةbotId
لاستخدام روبوت غير افتراضي عبر مصانع التكوين. - JavaScript: تم تحسين أداء الجهاز من خلال خاصية التحكم في السلسلة المضافة لضغط websocket. لأسباب تتعلق بالأداء، قمنا بتعطيل ضغط websocket بشكل افتراضي. يمكن إعادة تمكين هذا لسيناريوهات النطاق الترددي المنخفض. مزيد من التفاصيل هنا. يعالج هذا مشكلة GitHub #242.
- JavaScript: دعم إضافي لتقييم lPronunciation لتمكين تقييم نطق الكلام. راجع التشغيل السريع هنا.
إصلاحات الأخطاء
- الكل (باستثناء JavaScript): تم إصلاح الانحدار في الإصدار 1.14، حيث تم تخصيص الكثير من الذاكرة من قبل أداة التعرف.
-
C++: تم إصلاح مشكلة تجميع البيانات المهملة مع
DialogServiceConnector
، ومعالجة مشكلة GitHub #794. - C#: تم إصلاح مشكلة في إيقاف تشغيل مؤشر الترابط الذي تسبب في حظر العناصر لمدة ثانية تقريبا عند التخلص منها.
-
C++/C#/Java: تم إصلاح استثناء يمنع التطبيق من تعيين الرمز المميز لتخويل الكلام أو قالب النشاط أكثر من مرة على
DialogServiceConnector
. - C++/C#/Java: تم إصلاح تعطل أداة التعرف بسبب حالة تعارض في التمزق.
-
JavaScript:
DialogServiceConnector
لم يحترم مسبقا المعلمة الاختياريةbotId
المحددة فيBotFrameworkConfig
مصانع . جعل ذلك من الضروري تعيين معلمةbotId
سلسلة الاستعلام يدويا لاستخدام روبوت غير افتراضي. تم تصحيحbotId
الخطأ وسيتم احترام القيم المقدمة إلىBotFrameworkConfig
مصانع 's واستخدامها، بما في ذلك الجديدfromHost()
والإضافاتfromEndpoint()
. ينطبق هذا أيضا على المعلمةapplicationId
لCustomCommandsConfig
. - JavaScript: تم إصلاح مشكلة GitHub #881، ما يسمح بإعادة استخدام كائن أداة التعرف.
-
JavaScript: تم إصلاح مشكلة إرسال
speech.config
SKD عدة مرات في جلسة TTS واحدة، وإهدار النطاق الترددي. - JavaScript: معالجة الأخطاء المبسطة على تخويل الميكروفون، ما يسمح بظرف رسالة وصفية أكثر عندما لا يسمح المستخدم بإدخال الميكروفون على متصفحه.
-
JavaScript: تم إصلاح مشكلة GitHub #249 حيث أخطاء النوع في
ConversationTranslator
وسببتConversationTranscriber
خطأ في التحويل البرمجي لمستخدمي TypeScript. - Objective-C: تم إصلاح مشكلة فشل إنشاء GStreamer لنظام التشغيل iOS على Xcode 11.4، حيث يعالج مشكلة GitHub #911.
- Python: تم إصلاح مشكلة GitHub #870، وإزالة "DeprecationWarning: يتم إهمال وحدة imp لصالح importlib".
العينات
- يستخدم نموذج من ملف لمستعرض JavaScript الآن ملفات للتعرف على الكلام. يعالج هذا مشكلة GitHub #884.
Speech SDK 1.14.0: إصدار 2020-أكتوبر
ملاحظة
يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك ل Visual Studio 2015 و2017 و2019.
الميزات الجديدة
- Linux: دعم إضافي ل Debian 10 وUbuntu 20.04 LTS.
-
Python/Objective-C: دعم إضافي لواجهة
KeywordRecognizer
برمجة التطبيقات. ستكون الوثائق هنا. -
C++/Java/C#: تمت إضافة دعم لتعيين أي
HttpHeader
مفتاح/قيمة عبرServicePropertyChannel::HttpHeader
. -
JavaScript: دعم إضافي لواجهة
ConversationTranscriber
برمجة التطبيقات. اقرأ الوثائق هنا. -
C++/C#: تمت إضافة أسلوب جديد
AudioDataStream FromWavFileInput
(لقراءة . ملفات WAV) هنا (C++)وهنا (C#). -
C++/C#/Java/Python/Objective-C/Swift: تمت إضافة
stopSpeakingAsync()
طريقة لإيقاف النص إلى تركيب الكلام. اقرأ الوثائق المرجعية هنا (C++)، هنا (C#)، هنا (Java)، هنا (Python)، وهنا (Objective-C/Swift). -
C#، C++، Java: تمت إضافة دالة
FromDialogServiceConnector()
Connection
إلى الفئة التي يمكن استخدامها لمراقبة أحداث الاتصال وقطع الاتصال لDialogServiceConnector
. اقرأ الوثائق المرجعية هنا (C#)، هنا (C++)، وهنا (Java). - C++/C#/Java/Python/Objective-C/Swift: دعم إضافي لتقييم النطق، الذي يقيم نطق الكلام ويعطي المتحدثين ملاحظات حول دقة الصوت المنطوق وطلاقته. اقرأ الوثائق هنا.
كسر التغيير
- JavaScript: يحتوي PullAudioOutputStream.read() على تغيير نوع إرجاع من وعد داخلي إلى وعد JavaScript أصلي.
إصلاحات الأخطاء
-
الكل: تم إصلاح الانحدار 1.13 حيث
SetServiceProperty
تم تجاهل القيم التي لها أحرف خاصة معينة. - C#: فشلت عينات وحدة تحكم Windows الثابتة في Visual Studio 2019 في العثور على مكتبات DLL الأصلية.
-
C#: تم إصلاح العطل مع إدارة الذاكرة إذا تم استخدام الدفق كمدخل
KeywordRecognizer
. - ObjectiveC/Swift: تم إصلاح العطل مع إدارة الذاكرة إذا تم استخدام الدفق كإدخل أداة التعرف.
- Windows: تم إصلاح مشكلة التعايش مع BT HFP/A2DP على UWP.
- JavaScript: تعيين ثابت لمعرفات الجلسة لتحسين التسجيل والمساعدة في ارتباطات التصحيح/الخدمة الداخلية.
-
JavaScript: تمت إضافة إصلاح لتعطيل
DialogServiceConnector
ListenOnce
المكالمات بعد إجراء المكالمة الأولى. - JavaScript: تم إصلاح المشكلة حيث سيكون إخراج النتيجة "بسيطا" فقط.
- JavaScript: تم إصلاح مشكلة التعرف المستمر في Safari على macOS.
- JavaScript: تخفيف تحميل وحدة المعالجة المركزية لسيناريو معدل نقل الطلب العالي.
- JavaScript: السماح بالوصول إلى تفاصيل نتيجة تسجيل ملف التعريف الصوتي.
-
JavaScript: تمت إضافة إصلاح للتعرف المستمر في
IntentRecognizer
. -
C++/C#/Java/Python/Swift/ObjectiveC: تم إصلاح عنوان url غير الصحيح ل australiaeast و brazilsouth في
IntentRecognizer
. -
C++/C#: تمت إضافته
VoiceProfileType
كوسيطة عند إنشاء كائنVoiceProfile
. -
C++/C#/Java/Python/Swift/ObjectiveC: إمكانية
SPX_INVALID_ARG
ثابتة عند محاولة القراءةAudioDataStream
من موضع معين. - IOS: تم إصلاح العطل مع التعرف على الكلام على Unity
العينات
- ObjectiveC: تمت إضافة عينة للتعرف على الكلمة الأساسية هنا.
- C#/JavaScript: تمت إضافة التشغيل السريع لنسخ المحادثة هنا (C#)وهنا (JavaScript).
- C++/C#/Java/Python/Swift/ObjectiveC: تمت إضافة عينة لتقييم النطق هنا
مشكلة معروفة
- شهادة DigiCert Global Root G2 غير مدعومة بشكل افتراضي في HoloLens 2 وAndroid 4.4 (KitKat) ويجب إضافتها إلى النظام لجعل Speech SDK يعمل. ستتم إضافة الشهادة إلى صور نظام التشغيل HoloLens 2 في المستقبل القريب. يحتاج عملاء Android 4.4 إلى إضافة الشهادة المحدثة إلى النظام.
اختبار COVID-19 المختصر
نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء اختبار التحقق اليدوي كما نفعل عادة. لم نجر أي تغييرات نعتقد أنه كان من الممكن أن تكسر أي شيء، وتم اجتياز جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، يرجى إعلامنا على GitHub.
حافظ على صحة جيدة!
Speech SDK 1.13.0: إصدار 2020-يوليو
ملاحظة
يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك ل Visual Studio 2015 و2017 و2019.
الميزات الجديدة
- C#: دعم إضافي لنسخ المحادثة غير المتزامنة. راجع الوثائق هنا.
- JavaScript: تمت إضافة دعم التعرف على المتحدث لكل من المتصفحNode.js.
- JavaScript: دعم إضافي لتعريف اللغة/معرف اللغة. راجع الوثائق هنا.
- Objective-C: دعم إضافي للمحادثة متعددة الأجهزة وكتابة المحادثة.
- Python: تمت إضافة دعم صوت مضغوط ل Python على Windows وLinux. راجع الوثائق هنا.
إصلاحات الأخطاء
- الكل: تم إصلاح مشكلة تسببت في عدم تحريك التدفقات إلى الأمام بعد التعرف على الكلمات الأساسية.
- الكل: تم إصلاح مشكلة تسببت في عدم احتواء الدفق الذي تم الحصول عليه من KeywordRecognitionResult على الكلمة الأساسية.
- الكل: تم إصلاح مشكلة عدم قيام SendMessageAsync بإرسال الرسالة عبر السلك بعد انتهاء المستخدمين من انتظارها.
- الكل: تم إصلاح عطل في واجهات برمجة تطبيقات التعرف على السماعات عندما يتصل المستخدمون بالأسلوب VoiceProfileClient::SpeakerRecEnrollProfileAsync عدة مرات ولم ينتظروا حتى تنتهي المكالمات.
- الكل: تم إصلاح تمكين تسجيل الملفات في فئتي VoiceProfileClient و SpeakerRecognizer.
- JavaScript: تم إصلاح مشكلة التقييد عند تصغير المستعرض.
- JavaScript: تم إصلاح مشكلة تسرب الذاكرة على التدفقات.
- JavaScript: إضافة التخزين المؤقت لاستجابات OCSP من NodeJS.
- Java: تم إصلاح مشكلة كانت تتسبب في إرجاع حقول BigInteger دائما 0.
- iOS: تم إصلاح مشكلة نشر التطبيقات المستندة إلى Speech SDK في متجر تطبيقات iOS.
العينات
- C++: تمت إضافة نموذج التعليمات البرمجية للتعرف على المتحدث هنا.
اختبار COVID-19 المختصر
نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء اختبار التحقق اليدوي كما نفعل عادة. لم نجر أي تغييرات نعتقد أنه كان من الممكن أن تكسر أي شيء، وتم اجتياز جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، يرجى إعلامنا على GitHub.
حافظ على صحة جيدة!
Speech SDK 1.12.1: إصدار 2020-يونيو
الميزات الجديدة
- C#، C++: معاينة التعرف على المتحدث: تتيح هذه الميزة تحديد المتحدث (من يتحدث؟) والتحقق من المتحدث (هل هو المتحدث الذي يدعي أنه؟). راجع وثائق النظرة العامة.
إصلاحات الأخطاء
- C#، C++: لم يكن تسجيل الميكروفون الثابت يعمل في 1.12 في التعرف على السماعة.
- JavaScript: إصلاحات لتحويل النص إلى كلام في Firefox وSafari على macOS وiOS.
- إصلاح تعطل انتهاك الوصول إلى مدقق تطبيق Windows عند كتابة المحادثة عند استخدام دفق ثماني قنوات.
- إصلاح تعطل انتهاك الوصول إلى مدقق تطبيق Windows على ترجمة المحادثات متعددة الأجهزة.
العينات
- C#: نموذج التعليمات البرمجية للتعرف على المتحدث.
- C++: نموذج التعليمات البرمجية للتعرف على المتحدث.
- Java: نموذج التعليمات البرمجية للتعرف على الهدف على Android.
اختبار COVID-19 المختصر
نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء اختبار التحقق اليدوي كما نفعل عادة. لم نجر أي تغييرات نعتقد أنه كان من الممكن أن تكسر أي شيء، وتم اجتياز جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، يرجى إعلامنا على GitHub.
حافظ على صحة جيدة!
Speech SDK 1.12.0: إصدار 2020-May
الميزات الجديدة
- Go: دعم لغة Go الجديدة للتعرف على الكلام والمساعد الصوتي المخصص. قم بإعداد بيئة التطوير الخاصة بك هنا. للحصول على نموذج التعليمات البرمجية، راجع قسم Samples أدناه.
- JavaScript: دعم مستعرض إضافي لتحويل النص إلى كلام. راجع الوثائق هنا.
-
C++، C#، Java: كائن جديد
KeywordRecognizer
وواجهات برمجة التطبيقات مدعومة على أنظمة Windows وAndroid وLinux وiOS الأساسية. اقرأ الوثائق هنا. للحصول على نموذج التعليمات البرمجية، راجع قسم Samples أدناه. - Java: تمت إضافة محادثة متعددة الأجهزة مع دعم الترجمة. راجع المستند المرجعي هنا.
التحسينات والتحسينات
- JavaScript: تحسين تطبيق ميكروفون المستعرض لتحسين دقة التعرف على الكلام.
- Java: الروابط المعاد بناء التعليمات البرمجية باستخدام تنفيذ JNI المباشر دون SWIG. يقلل هذا التغيير بمقدار 10 أضعاف حجم الروابط لجميع حزم Java المستخدمة في Windows وAndroid وLinux وMac ويسهل تطوير تطبيق Speech SDK Java.
- Linux: وثائق الدعم المحدثة مع أحدث ملاحظات RHEL 7 المحددة.
- تحسين منطق الاتصال لمحاولة الاتصال عدة مرات عند حدوث أخطاء في الخدمة والشبكة.
- حدث صفحة portal.azure.com Speech Quickstart لمساعدة المطورين على اتخاذ الخطوة التالية في رحلة Azure الذكاء الاصطناعي Speech.
إصلاحات الأخطاء
- C#، Java: تم إصلاح مشكلة في تحميل مكتبات SDK على Linux ARM (كل من 32 بت و64 بت).
- C#: تم تصحيح التخلص الصريح من المقابض الأصلية ل TranslationRecognizer و IntentRecognizer وعناصر الاتصال.
- C#: تم إصلاح إدارة مدة بقاء إدخال الصوت لكائن ConversationTranscriber.
- تم إصلاح مشكلة
IntentRecognizer
عدم تعيين سبب النتيجة بشكل صحيح عند التعرف على الأهداف من العبارات البسيطة. - تم إصلاح مشكلة
SpeechRecognitionEventArgs
عدم تعيين إزاحة النتيجة بشكل صحيح. - تم إصلاح حالة تعارض حيث كانت SDK تحاول إرسال رسالة شبكة قبل فتح اتصال websocket. كان قابلا للتكرار أثناء
TranslationRecognizer
إضافة المشاركين. - تسرب الذاكرة الثابتة في محرك أداة التعرف على الكلمة الأساسية.
العينات
- Go: تمت إضافة قوالب التشغيل السريع للتعرف على الكلام والمساعد الصوتي المخصص. ابحث عن نموذج التعليمات البرمجية هنا.
- JavaScript: تمت إضافة قوالب تشغيل سريعة للنص إلى كلاموترجمةوالتعرف على الهدف.
- نماذج التعرف على الكلمات الأساسية ل C#وJava (Android).
اختبار COVID-19 المختصر
نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء اختبار التحقق اليدوي كما نفعل عادة. لم نجر أي تغييرات نعتقد أنه كان من الممكن أن تكسر أي شيء، وتم اجتياز جميع اختباراتنا التلقائية. إذا فاتنا شيء ما، فالرجاء إعلامنا على GitHub.
حافظ على صحة جيدة!
Speech SDK 1.11.0: إصدار 2020-مارس
الميزات الجديدة
- Linux: دعم إضافي ل Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
- Linux: دعم إضافي ل .NET Core C# على Linux ARM32 و Arm64. اقرأ المزيد هنا.
- C#، C++: تمت إضافته
UtteranceId
فيConversationTranscriptionResult
، وهو معرف متناسق عبر جميع الوسيطات ونتيجة التعرف على الكلام النهائية. تفاصيل C#، C++. - Python: دعم إضافي ل
Language ID
. راجع speech_sample.py في مستودع GitHub. - Windows: تمت إضافة دعم تنسيق إدخال الصوت المضغوط على نظام Windows الأساسي لجميع تطبيقات وحدة تحكم win32. التفاصيل هنا.
- JavaScript: دعم تركيب الكلام (نص إلى كلام) في NodeJS. تعرف على المزيد هنا.
- JavaScript: أضف واجهات برمجة تطبيقات جديدة لتمكين فحص جميع الرسائل المرسلة والمستلمة. تعرف على المزيد هنا.
إصلاحات الأخطاء
- C#، C++: تم إصلاح مشكلة، لذا
SendMessageAsync
يرسل الآن رسالة ثنائية كنوع ثنائي. تفاصيل C#، C++. - C#, C++: تم إصلاح مشكلة حيث قد يتسبب استخدام
Connection MessageReceived
الحدث في حدوث عطل إذاRecognizer
تم التخلص منه قبلConnection
الكائن. تفاصيل C#، C++. - Android: انخفض حجم المخزن المؤقت للصوت من الميكروفون من 800 مللي ثانية إلى 100 مللي ثانية لتحسين زمن الانتقال.
- Android: تم إصلاح مشكلة في محاكي x86 Android في Android Studio.
- JavaScript: دعم إضافي للمناطق في الصين باستخدام
fromSubscription
واجهة برمجة التطبيقات. التفاصيل هنا. - JavaScript: أضف المزيد من معلومات الخطأ لفشل الاتصال من NodeJS.
العينات
- Unity: تم إصلاح العينة العامة للتعرف على الهدف، حيث فشل استيراد LUIS json. التفاصيل هنا.
- Python: تمت إضافة عينة ل
Language ID
. التفاصيل هنا.
اختبار Covid19 المختصر: نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء اختبار التحقق اليدوي من الجهاز كما نفعل عادة. على سبيل المثال، تعذر علينا اختبار إدخال الميكروفون وإخراج السماعة على Linux وiOS وmacOS. لم نجر أي تغييرات نعتقد أنها قد كسرت أي شيء على هذه الأنظمة الأساسية، وتم اجتياز جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، أخبرنا على GitHub.
نشكرك على دعمك المستمر. كما هو الحال دائما، يرجى نشر الأسئلة أو الملاحظات على GitHub أو Stack Overflow.
حافظ على صحة جيدة!
Speech SDK 1.10.0: إصدار 2020-فبراير
الميزات الجديدة
- تمت إضافة حزم Python لدعم الإصدار الجديد 3.8 من Python.
- دعم Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++، C#، Java، Python).
ملاحظة
يجب على العملاء تكوين OpenSSL وفقا لهذه الإرشادات.
- دعم Linux ARM32 ل Debian وUbuntu.
- يدعم DialogServiceConnector الآن معلمة اختيارية "معرف الروبوت" على BotFrameworkConfig. تسمح هذه المعلمة باستخدام عدة روبوتات Direct Line Speech مع مورد Speech واحد. بدون تحديد المعلمة، سيتم استخدام الروبوت الافتراضي (كما تحدده صفحة تكوين قناة Direct Line Speech).
- يحتوي DialogServiceConnector الآن على خاصية SpeechActivityTemplate. سيتم استخدام محتويات سلسلة JSON هذه بواسطة Direct Line Speech لملء مجموعة واسعة من الحقول المدعومة مسبقا في جميع الأنشطة التي تصل إلى روبوت Direct Line Speech، بما في ذلك الأنشطة التي يتم إنشاؤها تلقائيا استجابة لأحداث مثل التعرف على الكلام.
- يستخدم TTS الآن مفتاح الاشتراك للمصادقة، ما يقلل من زمن انتقال البايت الأول من نتيجة التركيب الأولى بعد إنشاء توليف.
- نماذج التعرف على الكلام المحدثة ل 19 لغة لمتوسط تقليل معدل خطأ الكلمات 18.6% (es-ESes-MXfr-CAfr-FRit-ITja-JPko-KRpt-BR، zh-CN، zh-HK، nb-NO، fi-FL، ru-RU، pl-PL، ca-ES، zh-TW، th-TH، pt-PT، tr-TR). تجلب النماذج الجديدة تحسينات كبيرة عبر مجالات متعددة بما في ذلك الإملاء Call-Center النسخ وسيناريوهات فهرسة الفيديو.
إصلاحات الأخطاء
- تم إصلاح الخطأ حيث لم ينتظر ناسخ المحادثة بشكل صحيح في واجهات برمجة تطبيقات JAVA.
- إضافة مفقود (الحصول على|تعيين) أساليب الخاصية إلى AudioConfig.
- إصلاح خطأ TTS حيث لا يمكن إيقاف audioDataStream عند فشل الاتصال.
- قد يؤدي استخدام نقطة نهاية بدون منطقة إلى فشل USP لمترجم المحادثة.
- يستخدم إنشاء المعرف في Universal Windows Applications الآن خوارزمية GUID فريدة بشكل مناسب؛ كان افتراضيا في السابق وغير مقصود لتنفيذ متقلب غالبا ما ينتج عنه تضاربات على مجموعات كبيرة من التفاعلات.
العينات
- نموذج Unity لاستخدام Speech SDK مع ميكروفون Unity وتدفق وضع الدفع
تغييرات أخرى
Speech SDK 1.9.0: إصدار 2020-يناير
الميزات الجديدة
- محادثة متعددة الأجهزة: قم بتوصيل أجهزة متعددة بنفس الكلام أو المحادثة النصية، وترجمة الرسائل المرسلة بينها اختياريا. تعرف على المزيد في هذه المقالة.
- تمت إضافة دعم التعرف على الكلمات الأساسية لحزمة Android
.aar
وإضافة دعم لنكهتي x86 وx64. - Objective-C:
SendMessage
والأساليبSetMessageProperty
المضافة إلىConnection
الكائن. راجع الوثائق هنا. - يدعم
std::wstring
TTS C++ api الآن كإدخال نص تركيبي، مما يزيل الحاجة إلى تحويل wstring إلى سلسلة قبل تمريره إلى SDK. راجع التفاصيل هنا. - C#: معرف اللغة وتكوين لغة المصدر متوفران الآن.
- JavaScript: تمت إضافة ميزة إلى
Connection
الكائن لتمريرها عبر الرسائل المخصصة من خدمة الكلام كرد اتصالreceivedServiceMessage
. - JavaScript: دعم
FromHost API
إضافي لتسهيل الاستخدام مع الحاويات المحلية والسحب السيادية. راجع الوثائق هنا. - JavaScript: نكرم
NODE_TLS_REJECT_UNAUTHORIZED
الآن بفضل مساهمة من المؤسسات. راجع التفاصيل هنا.
التغييرات العاجلة
-
OpenSSL
تم تحديثه إلى الإصدار 1.1.1b وهو مرتبط بشكل ثابت بمكتبة Speech SDK الأساسية ل Linux. قد يؤدي هذا إلى انقطاع إذا لم يتم تثبيت علبة الواردOpenSSL
على/usr/lib/ssl
الدليل في النظام. تحقق من وثائقنا ضمن مستندات Speech SDK لحل المشكلة. - لقد قمنا بتغيير نوع البيانات التي تم إرجاعها ل C#
WordLevelTimingResult.Offset
منint
إلىlong
للسماح بالوصول إلىWordLevelTimingResults
عندما تكون بيانات الكلام أطول من دقيقتين. -
PushAudioInputStream
والآنPullAudioInputStream
أرسل معلومات رأس wav إلى خدمة الكلام استناداAudioStreamFormat
إلى ، التي تم تحديدها اختياريا عند إنشائها. يجب على العملاء الآن استخدام تنسيق إدخال الصوت المدعوم. ستحصل أي تنسيقات أخرى على نتائج التعرف دون المستوى الأمثل أو قد تتسبب في مشكلات أخرى.
إصلاحات الأخطاء
-
OpenSSL
راجع التحديث ضمن كسر التغييرات أعلاه. لقد أصلحنا كلا من العطل المتقطع ومشكلات الأداء (قفل الخلاف تحت الحمل العالي) في Linux وJava. - Java: تم إجراء تحسينات على إغلاق الكائن في سيناريوهات التزامن العالية.
- إعادة هيكلة حزمة NuGet الخاصة بنا. قمنا بإزالة النسخ الثلاث من
Microsoft.CognitiveServices.Speech.core.dll
مجلدات lib وضمنهاMicrosoft.CognitiveServices.Speech.extension.kws.dll
، مما جعل حزمة NuGet أصغر وأسرع للتنزيل، وأضفنا الرؤوس اللازمة لتجميع بعض تطبيقات C++ الأصلية. - تم إصلاح نماذج التشغيل السريع هنا. كانت هذه الإنهاء دون عرض استثناء "الميكروفون غير موجود" على Linux وmacOS وWindows.
- تم إصلاح تعطل SDK مع نتائج التعرف على الكلام الطويلة على مسارات تعليمات برمجية معينة مثل هذه العينة.
- تم إصلاح خطأ نشر SDK في بيئة Azure Web App لمعالجة مشكلة العميل هذه.
- تم إصلاح خطأ TTS أثناء استخدام علامة أو
<voice>
علامة متعددة<audio>
لمعالجة مشكلة العميل هذه. - تم إصلاح خطأ TTS 401 عند استرداد SDK من معلق.
- JavaScript: تم إصلاح استيراد دائري للبيانات الصوتية بفضل مساهمة من euirim.
- JavaScript: تمت إضافة دعم لإعداد خصائص الخدمة، كما هو مضاف في 1.7.
- JavaScript: تم إصلاح مشكلة حيث قد يؤدي خطأ الاتصال إلى محاولات إعادة اتصال مستمرة وغير ناجحة على websocket.
العينات
- تمت إضافة نموذج التعرف على الكلمة الأساسية لنظام التشغيل Android هنا.
- تمت إضافة نموذج TTS لسيناريو الخادم هنا.
- تمت إضافة قوالب تشغيل سريعة للمحادثة متعددة الأجهزة ل C# وC++ هنا.
تغييرات أخرى
- حجم مكتبة SDK الأساسية المحسنة على Android.
- تدعم SDK في الإصدار 1.9.0 وما بعده كلا النوعين
int
وstring
في حقل إصدار التوقيع الصوتي ل "ناسخ المحادثة".
Speech SDK 1.8.0: إصدار 2019-نوفمبر
الميزات الجديدة
- تمت إضافة
FromHost()
واجهة برمجة تطبيقات، لتسهيل الاستخدام مع الحاويات المحلية والسحب السيادية. - تمت إضافة تعريف لغة المصدر للتعرف على الكلام (بلغة Java وC++)
- تمت إضافة
SourceLanguageConfig
كائن للتعرف على الكلام، يستخدم لتحديد لغات المصدر المتوقعة (في Java وC++) - دعم إضافي
KeywordRecognizer
على Windows (UWP) وAndroid وiOS من خلال حزم NuGet وUnity - تمت إضافة واجهة برمجة تطبيقات Java للمحادثة عن بعد لإجراء نسخ المحادثة في دفعات غير متزامنة.
التغييرات العاجلة
- تم نقل وظائف ناسخ المحادثة ضمن مساحة
Microsoft.CognitiveServices.Speech.Transcription
الاسم . - يتم نقل أجزاء من أساليب ناسخ المحادثة إلى فئة جديدة
Conversation
. - تم إسقاط الدعم لنظام التشغيل iOS 32 بت (ARMv7 وx86)
إصلاحات الأخطاء
- إصلاح التعطل إذا تم استخدام محلي
KeywordRecognizer
بدون مفتاح اشتراك خدمة الكلام صالح
العينات
- عينة Xamarin ل
KeywordRecognizer
- عينة Unity ل
KeywordRecognizer
- نماذج C++ وJava لتحديد لغة المصدر التلقائي.
Speech SDK 1.7.0: إصدار 2019-سبتمبر
الميزات الجديدة
- تمت إضافة دعم بيتا ل Xamarin على النظام الأساسي العام ل Windows (UWP) وAndroid وiOS
- إضافة دعم iOS ل Unity
- إضافة
Compressed
دعم إدخال ل ALaw و Mulaw و FLAC و على Android و iOS و Linux - تمت الإضافة
SendMessageAsync
فيConnection
فئة لإرسال رسالة إلى الخدمة - تمت إضافته
SetMessageProperty
فيConnection
فئة لإعداد خاصية لرسالة - أضافت TTS روابط ل Java (JRE وAndroid) وPython وSwift Objective-C
- أضاف TTS دعم التشغيل ل macOS وiOS وAndroid.
- تمت إضافة معلومات "حد كلمة" ل TTS.
إصلاحات الأخطاء
- تم إصلاح مشكلة إصدار IL2CPP على Unity 2019 for Android
- تم إصلاح مشكلة معالجة الرؤوس غير الصحيحة في إدخال ملف wav بشكل غير صحيح
- تم إصلاح مشكلة عدم كون UUIDs فريدة في بعض خصائص الاتصال
- تم إصلاح بعض التحذيرات حول محددات قابلية القيم الخالية في روابط Swift (قد تتطلب تغييرات صغيرة في التعليمات البرمجية)
- إصلاح خطأ تسبب في إغلاق اتصالات websocket بشكل غير لائق ضمن تحميل الشبكة
- تم إصلاح مشكلة على Android تؤدي في بعض الأحيان إلى تكرار معرفات الظهور المستخدمة من قبل
DialogServiceConnector
- تحسينات على استقرار الاتصالات عبر التفاعلات متعددة الأدوار والإبلاغ عن حالات الفشل (عبر
Canceled
الأحداث) عند حدوثها معDialogServiceConnector
-
DialogServiceConnector
ستوفر جلسة العمل التي تبدأ الآن الأحداث بشكل صحيح، بما في ذلك عند الاتصالListenOnceAsync()
أثناء نشطStartKeywordRecognitionAsync()
- معالجة عطل مرتبط بالأنشطة
DialogServiceConnector
التي يتم تلقيها
العينات
- التشغيل السريع ل Xamarin
- تحديث CPP Quickstart مع معلومات Linux Arm64
- التشغيل السريع ل Unity المحدث مع معلومات iOS
Speech SDK 1.6.0: إصدار 2019-يونيو
العينات
- نماذج التشغيل السريع ل Text To Speech على UWP وUnity
- نموذج التشغيل السريع ل Swift على iOS
- نماذج Unity للتعرف على الكلام والقصد والترجمة
- نماذج التشغيل السريع المحدثة ل
DialogServiceConnector
التحسينات / التغييرات
- مساحة اسم مربع الحوار:
-
SpeechBotConnector
تمت إعادة تسميته إلىDialogServiceConnector
-
BotConfig
تمت إعادة تسميته إلىDialogServiceConfig
-
BotConfig::FromChannelSecret()
تم إعادة تعيينه إلىDialogServiceConfig::FromBotSecret()
- يستمر دعم جميع عملاء Direct Line Speech الحاليين بعد إعادة التسمية
-
- تحديث محول TTS REST لدعم الوكيل والاتصال المستمر
- تحسين رسالة الخطأ عند تمرير منطقة غير صالحة
- Swift/Objective-C:
- تحسين الإبلاغ عن الأخطاء: الأساليب التي يمكن أن تؤدي إلى حدوث خطأ موجودة الآن في إصدارين: أحدهما يعرض كائنا
NSError
لمعالجة الأخطاء، والآخر يثير استثناء. الأول معرض ل Swift. يتطلب هذا التغيير تعديلات على التعليمات البرمجية Swift الموجودة. - معالجة الأحداث المحسنة
- تحسين الإبلاغ عن الأخطاء: الأساليب التي يمكن أن تؤدي إلى حدوث خطأ موجودة الآن في إصدارين: أحدهما يعرض كائنا
إصلاحات الأخطاء
- إصلاح TTS: المكان الذي
SpeakTextAsync
تم إرجاعه في المستقبل دون الانتظار حتى يكتمل العرض الصوتي - إصلاح تنظيم السلاسل في C# لتمكين دعم اللغة الكامل
- إصلاح مشكلة تطبيق .NET core لتحميل المكتبة الأساسية باستخدام إطار عمل الهدف net461 في العينات
- إصلاح المشكلات العرضية لنشر المكتبات الأصلية إلى مجلد الإخراج في العينات
- إصلاح إغلاق مأخذ توصيل الويب بشكل موثوق
- إصلاح الأعطال المحتملة أثناء فتح اتصال تحت حمولة ثقيلة على Linux
- إصلاح بيانات التعريف المفقودة في مجموعة إطار العمل لنظام التشغيل macOS
- إصلاح المشكلات المتعلقة ب
pip install --user
Windows
Speech SDK 1.5.1
هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلي/المدار. لا يؤثر على إصدار JavaScript من SDK.
إصلاحات الأخطاء
- إصلاح FromSubscription عند استخدامه مع كتابة المحادثة.
- إصلاح الخطأ في تحديد الكلمة الأساسية للمساعدين الصوتيين.
Speech SDK 1.5.0: إصدار 2019-May
الميزات الجديدة
- يتوفر الآن اكتشاف الكلمات الأساسية (KWS) لنظامي التشغيل Windows وLinux. قد تعمل وظيفة KWS مع أي نوع ميكروفون، دعم KWS الرسمي، ومع ذلك، يقتصر حاليا على صفائف الميكروفون الموجودة في أجهزة Azure Kinect DK أو أجهزة الكلام SDK.
- تتوفر وظيفة تلميح العبارة من خلال SDK. لمزيد من المعلومات، راجع هنا.
- تتوفر وظيفة كتابة المحادثة من خلال SDK.
- إضافة دعم المساعدين الصوتيين باستخدام قناة Direct Line Speech.
العينات
- تمت إضافة عينات للميزات الجديدة أو الخدمات الجديدة التي يدعمها SDK.
التحسينات / التغييرات
- تمت إضافة خصائص أداة التعرف المختلفة لضبط سلوك الخدمة أو نتائج الخدمة (مثل إخفاء الألفاظ النابية وغيرها).
- يمكنك الآن تكوين أداة التعرف من خلال خصائص التكوين القياسية، حتى إذا قمت بإنشاء أداة
FromEndpoint
التعرف . - Objective-C:
OutputFormat
تمت إضافة الخاصية إلىSPXSpeechConfiguration
. - تدعم SDK الآن Debian 9 ك توزيع Linux.
إصلاحات الأخطاء
- تم إصلاح مشكلة حيث تم إلغاء هيكلة مورد السماعة مبكرا جدا في النص إلى كلام.
Speech SDK 1.4.2
هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلي/المدار. لا يؤثر على إصدار JavaScript من SDK.
Speech SDK 1.4.1
هذا إصدار JavaScript فقط. لم تتم إضافة أي ميزات. تم إجراء الإصلاحات التالية:
- منع حزمة الويب من تحميل https-proxy-agent.
Speech SDK 1.4.0: إصدار 2019-أبريل
الميزات الجديدة
- يدعم SDK الآن خدمة تحويل النص إلى كلام كإصدار بيتا. وهو مدعوم على Windows وLinux Desktop من C++ وC#. لمزيد من المعلومات، راجع نظرة عامة على النص إلى كلام.
- يدعم SDK الآن ملفات الصوت MP3 وOpus/OGG كملفات إدخال دفق. تتوفر هذه الميزة فقط على Linux من C++ وC# وهي حاليا في الإصدار التجريبي (مزيد من التفاصيل هنا).
- حصلت Speech SDK ل Java و.NET core وC++ Objective-C على دعم macOS. دعم Objective-C لنظام التشغيل macOS حاليا في الإصدار التجريبي.
- iOS: يتم الآن نشر Speech SDK لنظام التشغيل iOS (Objective-C) أيضا ك CocoaPod.
- JavaScript: دعم الميكروفون غير الافتراضي كجهاز إدخال.
- JavaScript: دعم الوكيل Node.js.
العينات
- تمت إضافة نماذج لاستخدام Speech SDK مع C++ ومع Objective-C على macOS.
- تمت إضافة نماذج توضح استخدام خدمة النص إلى الكلام.
التحسينات / التغييرات
- Python: يتم الآن عرض خصائص إضافية لنتائج التعرف عبر الخاصية
properties
. - للحصول على دعم إضافي للتطوير وتصحيح الأخطاء، يمكنك إعادة توجيه معلومات تسجيل SDK والتشخيص إلى ملف سجل (مزيد من التفاصيل هنا).
- JavaScript: تحسين أداء معالجة الصوت.
إصلاحات الأخطاء
- Mac/iOS: تم إصلاح الخطأ الذي أدى إلى انتظار طويل عند تعذر تأسيس اتصال بخدمة الكلام.
- Python: تحسين معالجة الأخطاء للوسيطات في عمليات رد اتصال Python.
- JavaScript: انتهت تقارير حالة الكلام الخاطئة الثابتة على RequestSession.
Speech SDK 1.3.1: تحديث 2019-فبراير
هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلي/المدار. لا يؤثر على إصدار JavaScript من SDK.
إصلاح الأخطاء
- تم إصلاح تسرب الذاكرة عند استخدام إدخال الميكروفون. لا يتأثر الإدخال المستند إلى الدفق أو الملف.
Speech SDK 1.3.0: إصدار 2019-فبراير
الميزات الجديدة
- يدعم Speech SDK تحديد ميكروفون الإدخال من خلال
AudioConfig
الفئة. يسمح لك هذا ببث البيانات الصوتية إلى خدمة الكلام من ميكروفون غير افتراضي. لمزيد من المعلومات، راجع الوثائق التي تصف تحديد جهاز إدخال الصوت. هذه الميزة غير متوفرة بعد من JavaScript. - يدعم Speech SDK الآن Unity في إصدار بيتا. تقديم ملاحظات من خلال قسم المشكلة في مستودع عينة GitHub. يدعم هذا الإصدار Unity على Windows x86 وx64 (تطبيقات سطح المكتب أو النظام الأساسي العام ل Windows)، وAndroid (ARM32/64، x86). يتوفر المزيد من المعلومات في التشغيل السريع ل Unity.
- لم تعد هناك حاجة إلى الملف
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(الذي تم شحنه في الإصدارات السابقة). تم دمج الوظيفة الآن في SDK الأساسي.
العينات
يتوفر المحتوى الجديد التالي في مستودع العينة الخاص بنا:
- عينات إضافية ل
AudioConfig.FromMicrophoneInput
. - عينات Python إضافية للتعرف على الهدف والترجمة.
- نماذج إضافية لاستخدام
Connection
الكائن في iOS. - عينات Java إضافية للترجمة مع إخراج الصوت.
- عينة جديدة لاستخدام واجهة برمجة تطبيقات REST للنسخ الدفعي.
التحسينات / التغييرات
- بايثون
- تحسين التحقق من المعلمة ورسائل الخطأ في
SpeechConfig
. - إضافة دعم للكائن
Connection
. - دعم Python 32 بت (x86) على Windows.
- Speech SDK ل Python خارج بيتا.
- تحسين التحقق من المعلمة ورسائل الخطأ في
- دائره الرقابه الداخليه
- تم الآن إنشاء SDK مقابل الإصدار 12.1 من iOS SDK.
- يدعم SDK الآن إصدارات iOS 9.2 والإصدارات الأحدث.
- تحسين الوثائق المرجعية وإصلاح العديد من أسماء الخصائص.
- JavaScript
- إضافة دعم للكائن
Connection
. - إضافة ملفات تعريف النوع ل JavaScript المجمعة
- الدعم الأولي والتنفيذ لتلميحات العبارة.
- إرجاع مجموعة الخصائص مع خدمة JSON للتعرف
- إضافة دعم للكائن
- تحتوي DLLs ل Windows الآن على مورد إصدار.
- إذا قمت بإنشاء أداة
FromEndpoint
التعرف ، يمكنك إضافة معلمات مباشرة إلى عنوان URL لنقطة النهاية.FromEndpoint
لا يمكنك استخدام تكوين أداة التعرف من خلال خصائص التكوين القياسية.
إصلاحات الأخطاء
- لم يتم التعامل مع اسم المستخدم الوكيل الفارغ وكلمة مرور الوكيل بشكل صحيح. باستخدام هذا الإصدار، إذا قمت بتعيين اسم المستخدم الوكيل وكلمة مرور الوكيل إلى سلسلة فارغة، فلن يتم إرسالهما عند الاتصال بالوكيل.
- لم يكن SessionId الذي تم إنشاؤه بواسطة SDK دائما عشوائيا حقا لبعض اللغات / البيئات. تمت إضافة تهيئة منشئ عشوائي لإصلاح هذه المشكلة.
- تحسين معالجة رمز التخويل المميز. إذا كنت تريد استخدام رمز مميز للتخويل، فحدد في
SpeechConfig
واترك مفتاح API فارغا. ثم قم بإنشاء أداة التعرف كالمعتاد. - في بعض الحالات،
Connection
لم يتم تحرير الكائن بشكل صحيح. تم إصلاح هذه المشكلة. - تم إصلاح عينة JavaScript لدعم الإخراج الصوتي لتركيب الترجمة أيضا على Safari.
Speech SDK 1.2.1
هذا إصدار JavaScript فقط. لم تتم إضافة أي ميزات. تم إجراء الإصلاحات التالية:
- نهاية إطلاق الدفق عند turn.end، وليس في speech.end.
- إصلاح الخلل في مضخة الصوت التي لم تقم بجدولة الإرسال التالي إذا فشل الإرسال الحالي.
- إصلاح التعرف المستمر باستخدام رمز المصادقة المميز.
- إصلاح الأخطاء لمتعرف / نقاط نهاية مختلفة.
- تحسينات الوثائق.
Speech SDK 1.2.0: إصدار 2018-ديسمبر
الميزات الجديدة
- بايثون
- يتوفر الإصدار بيتا من دعم Python (3.5 وما فوق) مع هذا الإصدار. لمزيد من المعلومات، راجع هنا](.. /.. /quickstart-python.md).
- JavaScript
-
Connection
كائن-
Recognizer
من ، يمكنك الوصول إلى كائنConnection
. يسمح لك هذا الكائن ببدء اتصال الخدمة بشكل صريح والاشتراك في أحداث الاتصال وقطع الاتصال. (هذه الميزة غير متوفرة بعد من JavaScript وPython.)
-
- دعم Ubuntu 18.04.
- الروبوت
- دعم ProGuard الممكن أثناء إنشاء APK.
التحسينات
- تحسينات في استخدام مؤشر الترابط الداخلي، ما يقلل من عدد مؤشرات الترابط، والأقفال، وكتم الصوت.
- تحسين الإبلاغ عن الأخطاء / المعلومات. في عدة حالات، لم يتم نشر رسائل الخطأ على طول الطريق.
- تبعيات التطوير المحدثة في JavaScript لاستخدام وحدات up-to-date.
إصلاحات الأخطاء
- تم إصلاح تسرب الذاكرة بسبب عدم تطابق النوع في
RecognizeAsync
. - وفي بعض الحالات تسريب استثناءات.
- إصلاح تسرب الذاكرة في وسيطات حدث الترجمة.
- تم إصلاح مشكلة تأمين عند إعادة الاتصال في جلسات عمل طويلة الأمد.
- تم إصلاح مشكلة قد تؤدي إلى فقدان النتيجة النهائية للترجمات الفاشلة.
- C#: إذا
async
لم يتم انتظار عملية في مؤشر الترابط الرئيسي، فمن الممكن التخلص من أداة التعرف قبل اكتمال المهمة غير المتزامنة. - Java: تم إصلاح مشكلة تؤدي إلى تعطل جهاز Java الظاهري.
- Objective-C: تعيين قائمة تعداد ثابتة؛ تم إرجاع RecognizedIntent بدلا من
RecognizingIntent
. - JavaScript: تعيين تنسيق الإخراج الافتراضي إلى "بسيط" في
SpeechConfig
. - JavaScript: إزالة عدم التناسق بين الخصائص على كائن التكوين في JavaScript واللغات الأخرى.
العينات
- تم تحديث العديد من العينات وإصلاحها (على سبيل المثال أصوات الإخراج للترجمة، وما إلى ذلك).
- تمت إضافة عينات Node.js في مستودع العينة.
Speech SDK 1.1.0
الميزات الجديدة
- دعم Android x86/x64.
- دعم الوكيل: في
SpeechConfig
الكائن، يمكنك الآن استدعاء دالة لتعيين معلومات الوكيل (اسم المضيف والمنفذ واسم المستخدم وكلمة المرور). هذه الميزة غير متوفرة بعد على iOS. - رمز الخطأ والرسائل المحسنة. إذا أرجع التعرف خطأ، فهذا قد تم تعيينه
Reason
بالفعل (في حدث تم إلغاؤه) أوCancellationDetails
(في نتيجة التعرف) إلىError
. يحتوي الحدث الذي تم إلغاؤه الآن على عضوين إضافيين،ErrorCode
وErrorDetails
. إذا أرجع الخادم معلومات خطأ إضافية مع الخطأ الذي تم الإبلاغ عنه، فسيكون متوفرا الآن في الأعضاء الجدد.
التحسينات
- تمت إضافة تحقق إضافي في تكوين أداة التعرف، وإضافة رسالة خطأ إضافية.
- معالجة محسنة للصمت لفترة طويلة في منتصف ملف صوتي.
- حزمة NuGet: لمشاريع .NET Framework، تمنع البناء باستخدام تكوين AnyCPU.
إصلاحات الأخطاء
- تم إصلاح العديد من الاستثناءات الموجودة في أدوات التعرف. بالإضافة إلى ذلك، يتم التقاط الاستثناءات وتحويلها إلى
Canceled
حدث. - إصلاح تسرب الذاكرة في إدارة الخصائص.
- تم إصلاح الخطأ حيث يمكن أن يتعطل ملف إدخال الصوت في أداة التعرف.
- تم إصلاح خطأ حيث يمكن تلقي الأحداث بعد حدث إيقاف جلسة العمل.
- تم إصلاح بعض شروط السباق في الترابط.
- تم إصلاح مشكلة توافق iOS التي قد تؤدي إلى حدوث عطل.
- تحسينات الثبات لدعم ميكروفون Android.
- تم إصلاح خطأ حيث يتجاهل أداة التعرف في JavaScript لغة التعرف.
- تم إصلاح خطأ يمنع إعداد
EndpointId
(في بعض الحالات) في JavaScript. - تغيير ترتيب المعلمة في AddIntent في JavaScript، وإضافة توقيع JavaScript مفقود
AddIntent
.
العينات
- تمت إضافة عينات C++ وC# لسحب ودفع استخدام الدفق في مستودع العينة.
Speech SDK 1.0.1
تحسينات الموثوقية وإصلاحات الأخطاء:
- إصلاح الخطأ الفاديح المحتمل بسبب حالة السباق في أداة التعرف على التخلص
- تم إصلاح الخطأ الفاديح المحتمل عند حدوث خصائص غير محددة.
- تمت إضافة تدقيق إضافي للخطأ والمعلمة.
- Objective-C: تم إصلاح الخطأ الفادحي المحتمل الناجم عن تجاوز الاسم في NSString.
- Objective-C: الرؤية المعدلة لواجهة برمجة التطبيقات
- JavaScript: تم إصلاحه فيما يتعلق بالأحداث والحمولات الخاصة بها.
- تحسينات الوثائق.
في مستودع العينة لدينا، تمت إضافة عينة جديدة ل JavaScript.
Azure الذكاء الاصطناعي Speech SDK 1.0.0: إصدار 2018-سبتمبر
الميزات الجديدة
- دعم Objective-C على iOS. تحقق من التشغيل السريعObjective-C لنظام التشغيل iOS.
- دعم JavaScript في المستعرض. تحقق من التشغيل السريع ل JavaScript.
التغييرات العاجلة
- مع هذا الإصدار، يتم تقديم عدد من التغييرات العاجلة. تحقق من هذه الصفحة للحصول على التفاصيل.
Azure الذكاء الاصطناعي Speech SDK 0.6.0: إصدار 2018-أغسطس
الميزات الجديدة
- يمكن لتطبيقات UWP التي تم إنشاؤها باستخدام Speech SDK الآن تمرير حزمة مصادقة تطبيقات Windows (WACK). تحقق من التشغيل السريع للنظام UWP.
- دعم .NET Standard 2.0 على Linux (Ubuntu 16.04 x64).
- تجريبي: دعم Java 8 على Windows (64 بت) وLinux (Ubuntu 16.04 x64). تحقق من التشغيل السريع لبيئة وقت تشغيل Java.
تغيير وظيفي
- كشف معلومات تفاصيل الخطأ الإضافية حول أخطاء الاتصال.
التغييرات العاجلة
- في Java (Android)،
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
لم تعد الوظيفة تتطلب معلمة مسار. الآن يتم الكشف عن المسار تلقائيا على جميع الأنظمة الأساسية المدعومة. - تمت إزالة ملحق الحصول على الخاصية
EndpointUrl
في Java وC# .
إصلاحات الأخطاء
- في Java، يتم تنفيذ نتيجة تركيب الصوت على أداة التعرف على الترجمة الآن.
- تم إصلاح خطأ قد يسبب مؤشرات ترابط غير نشطة وعدد متزايد من مآخذ التوصيل المفتوحة وغير المستخدمة.
- تم إصلاح مشكلة، حيث يمكن إنهاء التعرف طويل الأمد في منتصف الإرسال.
- تم إصلاح حالة تعارض في إيقاف تشغيل أداة التعرف.
Azure الذكاء الاصطناعي Speech SDK 0.5.0: إصدار 2018-يوليو
الميزات الجديدة
- دعم نظام Android الأساسي (API 23: Android 6.0 Marshmallow أو أعلى). اطلع على التشغيل السريع ل Android.
- دعم .NET Standard 2.0 على Windows. تحقق من التشغيل السريع ل .NET Core.
- تجريبي: دعم UWP على Windows (الإصدار 1709 أو أحدث).
- تحقق من التشغيل السريع للنظام UWP.
- لاحظ أن تطبيقات UWP التي تم إنشاؤها باستخدام Speech SDK لا تمرر بعد حزمة مصادقة تطبيقات Windows (WACK).
- دعم التعرف طويل الأمد مع إعادة الاتصال التلقائي.
التغييرات الوظيفية
-
StartContinuousRecognitionAsync()
يدعم التعرف طويل الأمد. - تحتوي نتيجة التعرف على المزيد من الحقول. تتم إزاحتها من بداية الصوت ومدته (سواء في علامات التجزئة) للنص الذي تم التعرف عليه والقيم الإضافية التي تمثل حالة التعرف، على سبيل المثال،
InitialSilenceTimeout
وInitialBabbleTimeout
. - دعم AuthorizationToken لإنشاء مثيلات المصنع.
التغييرات العاجلة
- أحداث التعرف:
NoMatch
تم دمج نوع الحدث فيError
الحدث. - تمت إعادة تسمية
OutputFormat
SpeechOutputFormat في C# للبقاء على محاذاة مع C++. - تغير نوع الإرجاع لبعض أساليب الواجهة
AudioInputStream
قليلا:- في Java،
read
يرجعlong
الأسلوب الآن بدلا منint
. - في C#،
Read
يرجعuint
الأسلوب الآن بدلا منint
. - في C++، يتم إرجاع
Read
الأسلوبينGetFormat
وsize_t
الآن بدلا منint
.
- في Java،
- C++: يمكن تمرير مثيلات تدفقات إدخال الصوت الآن فقط ك
shared_ptr
.
إصلاحات الأخطاء
- تم إصلاح قيم الإرجاع غير الصحيحة في النتيجة عند
RecognizeAsync()
المهلة. - تمت إزالة التبعية على مكتبات أساس الوسائط على Windows. تستخدم SDK الآن واجهات برمجة تطبيقات الصوت الأساسية.
- إصلاح الوثائق: تمت إضافة صفحة مناطق لوصف المناطق المدعومة.
مشكلة معروفة
- لا يبلغ Speech SDK لنظام التشغيل Android عن نتائج تركيب الكلام للترجمة. سيتم إصلاح هذه المشكلة في الإصدار التالي.
Azure الذكاء الاصطناعي Speech SDK 0.4.0: إصدار 2018-يونيو
التغييرات الوظيفية
AudioInputStream
يمكن لأداة التعرف الآن استهلاك دفق كمصدر الصوت. لمزيد من المعلومات، راجع الدليل الإرشادي ذي الصلة.
تنسيق الإخراج التفصيلي
عند إنشاء
SpeechRecognizer
، يمكنك طلبDetailed
تنسيق أوSimple
إخراجه.DetailedSpeechRecognitionResult
يحتوي على درجة الثقة والنص المتعرف عليه والنموذج المعجمي الخام والنموذج الذي تمت تسويته والنموذج الذي تمت تسويته بألفاظ نابية مقنعة.
كسر التغيير
- تم التغيير إلى
SpeechRecognitionResult.Text
منSpeechRecognitionResult.RecognizedText
في C#.
إصلاحات الأخطاء
- تم إصلاح مشكلة رد الاتصال المحتملة في طبقة USP أثناء إيقاف التشغيل.
- إذا استهلك أداة التعرف ملف إدخال صوتي، فإنه كان يحتفظ بمقبض الملف لفترة أطول من اللازم.
- إزالة العديد من حالات التوقف التام بين مضخة الرسائل وأداة التعرف.
- إطلاق نتيجة
NoMatch
عند انتهاء مهلة الاستجابة من الخدمة. - يتم تحميل مكتبات أساس الوسائط على Windows. هذه المكتبة مطلوبة لإدخال الميكروفون فقط.
- تقتصر سرعة تحميل البيانات الصوتية على ضعف سرعة الصوت الأصلية تقريبا.
- في Windows، أصبحت تجميعات C# .NET الآن قوية مسماة.
- إصلاح الوثائق:
Region
هو المعلومات المطلوبة لإنشاء أداة التعرف.
تمت إضافة المزيد من العينات ويجري تحديثها باستمرار. للحصول على أحدث مجموعة من العينات، راجع مستودع GitHub لعينات Speech SDK.
Azure الذكاء الاصطناعي Speech SDK 0.2.12733: إصدار 2018-May
هذا الإصدار هو أول إصدار معاينة عامة من Azure الذكاء الاصطناعي Speech SDK.