Azure Yapay Zeka Konuşma'daki yenilikler

Azure AI Konuşma sürekli olarak güncelleştirilir. Son gelişmelerden haberdar olmak için bu makalede yeni sürümler ve özellikler hakkında bilgi verilmektedir.

En son öne çıkanlar

Sürüm notları

Hizmet veya kaynak seçin

Linux ve Android kullanıcıları için yaklaşan planlar:

Dikkat

Bu makalede, Kullanım Süresi Sonu (EOL) durumuna yakın bir Linux dağıtımı olan CentOS'a başvuruda bulunur. Lütfen kullanımınızı ve buna uygun planlamayı göz önünde bulundurun. Daha fazla bilgi için bkz . CentOS Kullanım Süresi Sonu kılavuzu.

  • Ubuntu 18.04 ayrıca Nisan 2023'te kullanım ömrünün sonuna geldi, bu nedenle kullanıcılarımız en düşük sürümümüzü Ubuntu 20.04'e taşımaya hazırlanmalı.

Konuşma SDK'sı 1.37.0: 2024-Nisan sürümü

Yeni özellikler

  • Konuşma sentezinde giriş metin akışı için destek ekleyin.
  • Varsayılan konuşma sentezi sesini en-US-AvaMultilingualNeural olarak değiştirin.
  • Android derlemelerini OpenSSL 3.x kullanacak şekilde güncelleştirin.

Hata düzeltmeleri

Örnekler

  • Yeni özellikler için güncelleştirildi.

Konuşma SDK'sı 1.36.0: 2024-Mart sürümü

Yeni özellikler

  • AutoDetectSourceLanguageConfig::FromOpenRange() kullanarak v2 uç noktalarındaki çok dilli çeviride dil tanımlama desteği ekleyin.

Hata düzeltmeleri

  • SynthesisStarted olayı sırasında durdurma çağrılırsa SynthesisCanceled olayının tetiklenmemesi düzeltildi.

  • Tümleşik konuşma sentezindeki bir gürültü sorununu düzeltin.

  • Birden çok tanıyıcıyı paralel olarak çalıştırırken katıştırılmış konuşma tanımadaki kilitlenmeyi düzeltin.

  • v1/v2 uç noktalarındaki tümcecik algılama modu ayarını düzeltin.

  • Microsoft Ses Yığını ile ilgili çeşitli sorunlara yönelik düzeltmeler.

Örnekler

  • Yeni özellikler için Güncelleştirmeler.

Konuşma SDK'sı 1.35.0: Şubat 2024 sürümü

Yeni özellikler

  • Varsayılan metni en-US-JennyMultilingualNeural olan konuşma sesi olarak en-US-AvaNeural olarak değiştirin.
  • Ayrıntılı çıkış biçimini kullanarak ekli konuşma çevirisi sonuçlarında sözcük düzeyi ayrıntısını destekleyin.

Hata düzeltmeleri

  • Python'da AudioDataStream konum alıcı API'sini düzeltin.
  • Dil algılama olmadan v2 uç noktalarını kullanarak konuşma çevirisini düzeltin.
  • Eklenmiş metinden konuşmaya rastgele kilitlenme ve yinelenen sözcük sınırı olaylarını düzeltin.
  • WebSocket bağlantılarında iç sunucu hatası için doğru bir iptal hata kodu döndür.
  • MAS C# ile kullanıldığında FPIEProcessor.dll kitaplığını yükleme hatasını düzeltin.

Örnekler

  • Katıştırılmış tanıma örnekleri için küçük biçimlendirme güncelleştirmeleri.

Konuşma SDK'sı 1.34.1: Ocak 2024 sürümü

Hataya neden olan değişiklikler

  • Yalnızca hata düzeltmeleri

Yeni özellikler

  • Yalnızca hata düzeltmeleri

Hata düzeltmeleri

  • 1.34.0'da sunulan ve çeşitli Çin bölgelerindeki kullanıcılar için hizmet uç noktası URL'si hatalı yerel ayar bilgileriyle oluşturulduğu regresyon düzeltildi.

Konuşma SDK'sı 1.34.0: Kasım 2023 sürümü

Hataya neden olan değişiklikler

  • SpeechRecognizer, özelliklerin çoğu için sorgu dizesi parametrelerini artık desteklemeyen yeni bir uç noktayı varsayılan olarak kullanacak şekilde güncelleştirildi (örneğin, açıkça bir URL belirtilmediğinde). Sorgu dizesi parametrelerini doğrudan ServicePropertyChannel.UriQueryParameter ile ayarlamak yerine lütfen ilgili API işlevlerini kullanın.

Yeni özellikler

  • .NET 8 ile uyumluluk (Centos7-x64 ile ilgili uyarı dışında düzeltme https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 )
  • Bir cihazın katıştırılmış konuşma çalıştırma özelliğini değerlendirmek için kullanılabilecek tümleşik konuşma performansı ölçümleri desteği.
  • Katıştırılmış çok dilli çeviride kaynak dil belirleme desteği.
  • iOS ve Swift/Objective-C için ekli konuşmayı metne dönüştürme, metin okuma ve çeviri desteği önizlemede yayınlandı.
  • MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod'da tümleşik destek sağlanır.

Hata düzeltmeleri

  • iOS SDK x2 kat ikili boyut büyümesi için düzeltme · Sorun #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Azure konuşmadan metin api'sine sözcük düzeyi zaman damgaları alınamıyor için düzeltme · Sorun #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • DialogService Bağlan veya yok etme aşamasındaki olayların bağlantısını doğru kesmek için düzeltildi. Bu, zaman zaman kilitlenmelere neden oldu.
  • MAS kullanıldığında bir tanıyıcı oluşturma sırasında özel durum için düzeltme.
  • Windows UWP x64 ve ARM64 için Microsoft.CognitiveServices.Speech.Extension.MAS NuGet paketinden FPIEProcessor.dll yerel C++ için VC çalışma zamanı kitaplıklarına bağımlılığı vardı. VC çalışma zamanı kitaplıklarını (UWP için) düzeltmek için bağımlılık güncelleştirilerek sorun düzeltildi.
  • [MAS] recognizeOnceAsync için yinelenen çağrılar, MAS kullanırken SPXERR_ALREADY_INITIALIZED yol açıyor · Sorun #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Tümcecik listeleri kullanıldığında eklenmiş konuşma tanıma kilitlenmesi için düzeltme.

Örnekler

  • Konuşmayı metne dönüştürme, metin okuma ve çeviri için ekli iOS örnekleri.

Konuşma CLI 1.34.0: Kasım 2023 sürümü

Yeni özellikler

  • Konuşmayı sentezlerken sözcük sınırı olaylarının çıkışını destekleyin.

Hata düzeltmeleri

  • JMESPath bağımlılığı en son sürüme güncelleştirildi, dize değerlendirmelerini iyileştirir

Konuşma SDK'sı 1.33.0: Ekim 2023 sürümü

Hataya neden olan değişiklik bildirimi

  • Microsoft Ses Yığını (MAS) için eklenen yeni NuGet paketinin artık paket yapılandırma dosyalarına MAS kullanan uygulamalar tarafından eklenmesi gerekiyor.

Yeni özellikler

  • Microsoft Audio Stack kullanırken geliştirilmiş yankı iptal performansı sağlayan yeni NuGet paketi Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg eklendi
  • Söyleniş Değerlendirmesi: Konuşulan konuşmayı prosody, kelime bilgisi, dil bilgisi ve konu açısından değerlendirebilen prosody ve içerik değerlendirmesi desteği eklendi.

Hata düzeltmeleri

Örnekler

Konuşma CLI 1.33.0: Ekim 2023 sürümü

Yeni özellikler

  • Konuşmayı sentezlerken sözcük sınırı olaylarının çıkışını destekleyin.

Hata düzeltmeleri

  • yok

Konuşma SDK'sı 1.32.1: Eylül 2023 sürümü

Hata düzeltmeleri

  • Android, OpenSSL1.1.1v'den en son güvenlik düzeltmeleriyle güncelleştirmeleri paketler
  • JS – Zaman aşımı çalışanı için veri URL'si yükünün atlanmasına izin vermek için WebWorkerLoadType özelliği eklendi
  • JS – 10 dakika sonra Konuşma Çevirisi bağlantısının kesilmesini düzeltme
  • JS – Konuşmadan Konuşma Çevirisi kimlik doğrulama belirteci artık Çeviri hizmeti bağlantısına yayıyor

Örnekler

Konuşma SDK'sı 1.31.0: Ağustos 2023 sürümü

Yeni Özellikler

  • Gerçek zamanlı dillere ayırma desteği, Konuşma SDK'sı 1.31.0 ile genel önizlemede kullanılabilir. Bu özellik şu SDK'larda kullanılabilir: C#, C++, Java, JavaScript, Python ve Objective-C/Swift.

  • Ses kayıttan yürütme ile eşitlenmiş konuşma sentezi sözcük sınırı ve viseme olayları

Hataya neden olan değişiklikler

  • Eski "konuşma transkripsiyonu" senaryosu "toplantı transkripsiyonu" olarak yeniden adlandırıldı. Örneğin, yerine ConversationTranscriberkullanın MeetingTranscriber ve yerine CreateConversationAsynckullanınCreateMeetingAsync. SDK nesnelerinin ve yöntemlerinin adları değişmiş olsa da, yeniden adlandırma özelliğin kendisini değiştirmez. Kullanıcı profilleri ve ses imzalarıyla toplantıların transkripsiyonu için toplantı transkripsiyonu nesnelerini kullanın. Daha fazla bilgi için bkz . Toplantı transkripsiyonu . "Konuşma çevirisi" nesneleri ve yöntemleri bu değişikliklerden etkilenmez. Çeviri senaryolarını ConversationTranslator toplantı için nesnesini ve yöntemlerini kullanmaya devam edebilirsiniz.
  • Gerçek zamanlı silahsızlaştırma için yeni ConversationTranscriber bir nesne tanıtılır. Yeni "konuşma transkripsiyonu" nesne modeli ve çağrı desenleri, nesneyle sürekli tanımaya SpeechRecognizer benzer. Önemli bir fark, nesnenin birden çok konuşmacıyı ConversationTranscriber ayırt etmek istediğiniz bir konuşma senaryosunda kullanılacak şekilde tasarlanmasıdır (dikerleştirme). Kullanıcı profilleri ve ses imzaları geçerli değildir. Daha fazla bilgi için gerçek zamanlı başkalaştırma hızlı başlangıcına bakın.

Bu tabloda, gerçek zamanlı sözlük ve toplantı transkripsiyonu için önceki ve yeni nesne adları gösterilir. Senaryo adı ilk sütunda, önceki nesne adları ikinci sütunda ve yeni nesne adları üçüncü sütunda yer alır.
Senaryo adı Önceki nesne adları Yeni nesne adları
Gerçek zamanlı silahsızlaştırma Yok ConversationTranscriber
Toplantı transkripsiyonu ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant1
ParticipantChangedReason1
User1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting2

1 , ParticipantParticipantChangedReasonve User nesneleri hem toplantı transkripsiyonu hem de toplantı çevirisi senaryoları için geçerlidir.

2Meeting Nesne yenidir ve nesnesiyle birlikte MeetingTranscriber kullanılır.

Hata düzeltmeleri

Örnekler

Konuşma SDK'sı 1.30.0: Temmuz 2023 sürümü

Yeni Özellikler

  • C++, C#, Java - Embedded Konuşma Tanıma'nın ayrıntılı sonucu için DisplayWords destek eklendi.
  • Objective-C/Swift - Objective-C/Swift'te etkinlik desteği ConnectionMessageReceived eklendi.
  • Objective-C/Swift - iOS için geliştirilmiş anahtar sözcük belirleme modelleri. Bu değişiklik, iOS ikili dosyalarını (NuGet, XCFramework gibi) içeren belirli paketlerin boyutunu artırmıştır. Gelecek sürümler için boyutu küçültmeye çalışıyoruz.

Hata düzeltmeleri

  • Bir müşteri tarafından bildirilen phraseListGrammar ile konuşma tanıma kullanılırken bellek sızıntısı düzeltildi (GitHub sorunu).
  • Metinde konuşma açma bağlantı API'sine kilitlenme düzeltildi.

Ek notlar

  • Java - Bazı dahili olarak kullanılan public Java API yöntemleri, protected veya privatepaket internalolarak değiştirildi. Uygulamaların bunları kullanmasını beklemediğimiz için bu değişikliğin geliştiriciler üzerinde bir etkisi olmamalıdır. Saydamlık için burada not edildi.

Örnekler

  • Kendi uygulamanızda öğrenme dili belirtmeye yönelik yeni Söyleniş Değerlendirmesi örnekleri

Konuşma SDK'sı 1.29.0: Haziran 2023 sürümü

Yeni Özellikler

  • C++, C#, Java - Katıştırılmış Konuşma Çevirisi API'lerinin Önizlemesi. Artık bulut bağlantısı olmadan konuşma çevirisi yapabilirsiniz!
  • JavaScript - Sürekli Dil Belirleme (LID) artık konuşma çevirisi için etkinleştirildi.
  • JavaScript - Sınıfa özellik eklemeye LocaleName yönelik VoiceInfo topluluk katkısı. Çekme isteği için GitHub kullanıcısı shivsarthak'a teşekkür ederiz.
  • C++, C#, Java - 16 kHz'den 48 kHz'e kadar örnek hızına kadar katıştırılmış metinden konuşma çıkışına yeniden örnekleme desteği eklendi.
  • Basit Desen Eşleştirme ile Intent Recognizer'da yerel ayar desteği hi-IN eklendi.

Hata düzeltmeleri

  • Bazı Android testlerimizde görüldüğü gibi nesne yok etme sırasında Konuşma Tanıma'daki bir yarış durumunun neden olduğu kilitlenme düzeltildi
  • Basit Desen Eşleştirici ile Amaç Tanıyıcı'da olası kilitlenmeler düzeltildi

Örnekler

  • Yeni Katıştırılmış Konuşma Çevirisi örnekleri

Konuşma SDK'sı 1.28.0: Mayıs 2023 sürümü

Hataya neden olan değişiklik

  • JavaScript SDK'sı: Çevrimiçi Sertifika Durum Protokolü (OCSP) kaldırıldı. Bu, istemcilerin sertifika işleme için tarayıcı ve Node standartlarına daha iyi uymasını sağlar. Sürüm 1.28 ve sonraki sürümler artık özel OCSP modülümüzü içermez.

Yeni Özellikler

  • Katıştırılmış Konuşma Tanıma artık konuşmanın sonunda bir sessizlik zaman aşımı oluştuğunda döndürülüyor NoMatchReason::EndSilenceTimeout . Bu, gerçek zamanlı konuşma hizmetini kullanarak tanıma yaparken davranışla eşleşir.
  • JavaScript SDK'sı: Numaralandırma değerlerini kullanarak PropertyId özelliklerini SpeechTranslationConfig ayarlayın.

Hata düzeltmeleri

  • Windows'da C# - Windows ses uzantısında olası yarış durumunu/kilitlenmeyi düzeltin. Hem ses işleyiciyi hızlı bir şekilde atıp hem de konuşmayı durdurmak için Synthesizer yöntemini kullanan senaryolarda, temel olay durdurma ile sıfırlanmamıştır ve oluşturucu nesnesinin hiçbir zaman atılmamasına neden olabilirken, tüm bunlar atma için genel bir kilit tutarak dotnet GC iş parçacığını dondurabilir.

Örnekler

  • MAUI için eklenmiş bir konuşma örneği eklendi.
  • Android Java için eklenmiş konuşma örneği metin okuma içerecek şekilde güncelleştirildi.

Konuşma SDK'sı 1.27.0: Nisan 2023 sürümü

Yaklaşan değişiklikler hakkında bildirim

  • Bir sonraki JavaScript SDK sürümünde Çevrimiçi Sertifika Durum Protokolü'nü (OCSP) kaldırmayı planlıyoruz. Bu, istemcilerin sertifika işleme için tarayıcı ve Node standartlarına daha iyi uymasını sağlar. Sürüm 1.27, özel OCSP modülümüzü içeren son sürümdür.

Yeni Özellikler

  • JavaScript – Konuşmacı Belirleme ve Doğrulama ile tarayıcıdan mikrofon girişi desteği eklendi.
  • Katıştırılmış Konuşma Tanıma - Ayar desteğini PropertyId::Speech_SegmentationSilenceTimeoutMs güncelleştirin.

Hata düzeltmeleri

  • Genel - Hizmet yeniden bağlantı mantığındaki güvenilirlik güncelleştirmeleri (JavaScript dışındaki tüm programlama dilleri).
  • Genel - Windows'ta bellek sızıntısına neden olan dize dönüştürmelerini düzeltin (JavaScript dışındaki tüm ilgili programlama dilleri).
  • Katıştırılmış Konuşma Tanıma - Belirli dil bilgisi listesi girdilerini kullanırken Fransızca Konuşma Tanıma'daki kilitlenmeyi düzeltin.
  • Kaynak kodu belgeleri - Hizmette ses günlüğüyle ilgili SDK başvuru belgeleri açıklamalarında yapılan düzeltmeler.
  • Amaç tanıma - Liste varlıklarıyla ilgili Desen Eşleştirici önceliklerini düzeltin.

Örnekler

  • C# Konuşma Transkripsiyonu (CTS) örneğinde kimlik doğrulama hatasını düzgün bir şekilde işleyebilir.
  • Python, JavaScript, Objective-C ve Swift için söyleniş akışı değerlendirmesi örneği eklendi.

Konuşma SDK'sı 1.26.0: Mart 2023 sürümü

Hataya neden olan değişiklikler

  • Bitcode şu paketlerde tüm iOS hedeflerinde devre dışı bırakıldı: xcframework ile Cocoapod, NuGet (Xamarin ve MAUI için) ve Unity. Bu değişiklik, Apple'ın Xcode 14 ve sonraki sürümlerden bitcode desteğini kullanımdan kaldırmasından kaynaklanır. Bu değişiklik ayrıca Xcode 13 sürümünü kullanıyorsanız veya Konuşma SDK'sını kullanarak uygulamanızda bit kodunu açıkça etkinleştirdiyseniz "çerçeve bit kodu içermiyor ve yeniden oluşturmanız gerekiyor" hatasıyla karşılaşabileceğiniz anlamına gelir. Bu sorunu çözmek için hedeflerinizin bit kodu devre dışı olduğundan emin olun.
  • En düşük iOS dağıtım hedefi bu sürümde 11.0'a yükseltildi, yani armv7 HW artık desteklenmiyor.

Yeni özellikler

  • Katıştırılmış (cihaz içi) Konuşma Tanıma artık hem 8 hem de 16 kHz örnekleme hızı giriş sesini (örnek başına 16 bit, mono PCM) destekliyor.
  • Konuşma Sentezi artık bağlantı, ağ ve hizmet gecikme sürelerini raporlayarak uçtan uca gecikme süresini iyileştirmeye yardımcı olur.
  • Basit desen eşleştirme ile Amaç Tanıma için yeni bağlama hataya neden olan kurallar. Eşleşen karakter bayt sayısı ne kadar fazla olursa, desen eşleşmelerini daha düşük karakter bayt sayısıyla kazanır. Örnek: "Sağ üstteki {something} öğesini seçin" deseni "{bir şey seçin}" seçeneğinin üzerine gelir

Hata düzeltmeleri

  • Konuşma Sentezi: Sözcük sınırı olaylarında emojinin doğru olmadığı bir hatayı düzeltin.
  • Konuşma Dili Anlama (CLU) ile Amaç Tanıma:
    • CLU Orchestrator İş Akışındaki amaçlar artık doğru görünüyor.
    • JSON sonucu artık özellik kimliği LanguageUnderstandingServiceResponse_JsonResultaracılığıyla kullanılabilir.
  • Anahtar sözcük etkinleştirme ile konuşma tanıma: Anahtar sözcük tanımadan sonra yaklaşık 150 ms ses eksik için düzeltme.
  • Müşteri tarafından bildirilen Konuşma SDK'sı NuGet iOS MAUI Sürümü derlemesi için düzeltme (GitHub sorunu)

Örnekler

  • Müşteri tarafından bildirilen Swift iOS örneği için düzeltme (GitHub sorunu)

Konuşma SDK'sı 1.25.0: Ocak 2023 sürümü

Hataya neden olan değişiklikler

  • Dil Belirleme (önizleme) API'leri basitleştirildi. Konuşma SDK'sı 1.25'e güncelleştirir ve bir derleme sonu görürseniz, yeni özelliği SpeechServiceConnection_LanguageIdModehakkında bilgi edinmek için Lütfen Dil Belirleme sayfasını ziyaret edin. Bu tek özellik, önceki iki özelliğin ve SpeechServiceConnection_ContinuousLanguageIdPriorityöğesinin SpeechServiceConnection_SingleLanguageIdPriority yerini alır. Son model geliştirmelerinin ardından düşük gecikme süresi ile yüksek doğruluk arasında öncelik belirleme artık gerekli değildir. Şimdi, yalnızca sürekli konuşma tanıma veya çeviri yaparken başlangıçta mı yoksa sürekli Dil Belirleme'yi mi çalıştırabileceğinizi seçmeniz gerekir.

Yeni özellikler

  • C#/C++/Java: Embedded Speech SDK artık geçitli genel önizleme altında yayınlanıyor. Ekli Konuşma (önizleme) belgelerine bakın. Artık bulut bağlantısı aralıklı olduğunda veya kullanılamadığında cihazdan metne konuşma ve metin okuma yapabilirsiniz. Android, Linux, macOS ve Windows platformlarında desteklenir
  • C# MAUI: Konuşma SDK'sı NuGet'te iOS ve Mac Catalyst hedefleri desteği eklendi (Müşteri sorunu)
  • Unity: Unity paketine Android x86_64 mimarisi eklendi (Müşteri sorunu)
  • Git:
    • Konuşma tanıma için ALAW/MULAW doğrudan akış desteği eklendi (Müşteri sorunu)
    • PhraseListGrammar desteği eklendi. Topluluk katkınız için GitHub kullanıcısı czkoko'ya teşekkür ederiz!
  • C#/C++: Intent Recognizer artık Microsoft hizmetinde düzenleme ile C++ ve C# dilinde Konuşma Dili Anlama modellerini destekliyor

Hata düzeltmeleri

  • KeywordRecognizer'ı durdurmaya çalışırken ara sıra askıda kalma sorununu düzeltme
  • Python:
    • Ayarlandığında Söyleniş Değerlendirmesi sonuçlarını PronunciationAssessmentGranularity.FullText alma düzeltmesi (Müşteri sorunu)
    • Konuşma sentezi sesleri alınırken Erkek sesleri alınmıyor cinsiyet özelliği için düzeltme
  • JavaScript
    • iOS cihazlarına kaydedilmiş bazı WAV dosyalarını ayrıştırma düzeltmesi (Müşteri sorunu)
    • JS SDK artık npm-force-resolutions kullanmadan derleniyor (Müşteri sorunu)
    • Konuşma Çeviri artık SpeechConfig.fromEndpoint() kullanılarak oluşturulan speechConfig örneği kullanılırken hizmet uç noktasını doğru şekilde ayarlar

Örnekler

Konuşma SDK'sı 1.24.2: Kasım 2022 sürümü

Yeni özellikler

  • Yeni özellik yok, yalnızca yeni model dosyalarını desteklemek için eklenen bir altyapı düzeltmesi.

Hata düzeltmeleri

  • Tüm programlama dilleri
    • Ekli konuşma tanıma modellerinin şifrelenmesinin sorunu düzeltildi.

Konuşma SDK'sı 1.24.1: Kasım 2022 sürümü

Yeni özellikler

Hata düzeltmeleri

  • Tüm programlama dilleri
    • Ses yazı tipi desteklenmediğinde katıştırılmış TTS kilitlenmesi düzeltilir
    • Linux'ta stopSpeaking() kayıttan yürütmeyi durduramıyor (#1686) düzeltmesi
  • JavaScript SDK'sı
    • Konuşma transkriptörlerinin sesi kapılama şeklindeki regresyon düzeltildi.
  • Java
    • Docs işlem hattının çevrimiçi başvuru belgelerini güncelleştirmesini sağlamak için Maven Central'da güncelleştirilmiş POM ve Javadocs dosyaları geçici olarak yayımlandı.
  • Python
    • Python speak_text(ssml) işlevinin void döndürdüğü regresyonu düzeltin.

Konuşma SDK'sı 1.24.0: Ekim 2022 sürümü

Yeni özellikler

  • Tüm programlama dilleri: AMR-WB (16khz) desteklenen Metin okuma ses çıkış biçimleri listesine eklendi
  • Python: Desteklenen Linux dağıtımları için Linux ARM64 paketi eklendi.
  • C#/C++/Java/Python: kullanılarak AudioStreamWaveFormatkonuşma hizmetine ALAW ve MULAW doğrudan akışı (mevcut PCM akışına ek olarak) desteği eklendi.
  • C# MAUI: .NET MAUI geliştiricileri için Android hedeflerini destekleyecek şekilde güncelleştirilen NuGet paketi (Müşteri sorunu)
  • Mac: Mac için iOS ikili dosyaları içermeyen ayrı XCframework eklendi. Bu, daha küçük bir XCframework paketi kullanan yalnızca Mac ikili dosyalarına ihtiyaç duyan geliştiriciler için bir seçenek sunar.
  • Microsoft Ses Yığını (MAS):
    • Kiriş oluşturma açıları belirtildiğinde, belirtilen aralığın dışından gelen ses daha iyi gizlenecektir.
    • Linux ARM32 ve Linux ARM64'ün libMicrosoft.CognitiveServices.Speech.extension.mas.so boyutunda yaklaşık %70 azalma.
  • Desen eşleştirme kullanarak Amaç Tanıma:
    • , deesdilleri friçin ortografi desteği eklemejp
    • dil esiçin önceden oluşturulmuş tamsayı desteği eklendi.

Hata düzeltmeleri

  • iOS: Sıkıştırılmış ses kod çözme hatasının neden olduğu iOS 16'da konuşma sentezi hatasını düzeltin (Müşteri Sorunu).
  • JavaScript:
    • Konuşma sentezi ses listesi alınırken kimlik doğrulama belirtecinin çalışmaması düzeltildi (Müşteri sorunu).
    • Çalışan yüklemesi için veri URL'sini kullanma (Müşteri sorunu).
    • Yalnızca AudioWorklet tarayıcıda desteklendiğinde ses işlemcisi işleyicisi oluşturun (Müşteri sorunu). Bu William Wong'un topluluk katkılarıydı. Teşekkürler William!
    • LUIS yanıtı connectionMessage boş olduğunda tanınan geri çağırma düzeltildi (Müşteri sorunu).
    • Konuşma segmentasyonu zaman aşımını düzgün şekilde ayarlayın.
  • Desen eşleştirme kullanarak Amaç Tanıma:
    • Modellerin içindeki json olmayan karakterler artık düzgün yüklenecek.
    • Sürekli tanıma sırasında çağrıldığında recognizeOnceAsync(text) asılı bırakma sorunu düzeltildi.

Konuşma SDK'sı 1.23.0: Temmuz 2022 sürümü

Yeni özellikler

  • C#, C++, Java: Diller zh-cn için ve zh-hk Desen Eşleştirme ile Amaç Tanıma desteği eklendi.
  • C#: .NET Framework derlemeleri için AnyCPU destek eklendi

Hata düzeltmeleri

  • Android: OpenSSL'yi 1.1.1q'a güncelleştirerek OpenSSL CVE-2022-2068 güvenlik açığı düzeltildi
  • Python: PushAudioInputStream kullanırken kilitlenmeyi düzeltme
  • iOS: iOS'ta bildirilen "EXC_BAD_ACCESS: Null işaretçisi başvurusunu kaldırma girişimi" düzeltildi (GitHub sorunu)

Konuşma SDK'sı 1.22.0: Haziran 2022 sürümü

Yeni özellikler

  • Java: GetEntities(), applyLanguageModels() ve recognizeOnceAsync(text) için IntentRecognitionResult API'sini kullanarak "basit desen eşleştirme" altyapısını destekleyin.
  • Unity: Unity paketi için Mac M1 (Apple Silicon) desteği eklendi (GitHub sorunu)
  • C#: Xamarin Android için x86_64 desteği eklendi (GitHub sorunu)
  • C#: .NET framework en düşük sürümü v4.6.1 kullanımdan kaldırıldı olarak SDK C# paketi için v4.6.2 sürümüne güncelleştirildi (bkz . Microsoft .NET Framework Bileşen Yaşam Döngüsü İlkesi)
  • Linux: Debian 11 ve Ubuntu 22.04 LTS desteği eklendi. Ubuntu 22.04 LTS, libssl1.1'in buradan ikili paket olarak (örneğin, x64 için libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb veya daha yeni) veya kaynaklardan derlenerek el ile yüklenmesini gerektirir.

Hata düzeltmeleri

  • UWP: OpenSSL bağımlılığı UWP kitaplıklarından kaldırıldı ve güvenlik uyumluluğunu ve daha küçük ikili ayak izini karşılamak için WinRT websocket ve HTTP API'leriyle değiştirildi.
  • Mac: MacOS platformlarını hedefleyen Swift projeleri kullanılırken "MicrosoftCognitiveServicesSpeech Modülü Bulunamadı" sorunu düzeltildi
  • Windows, Mac: Özellikler aracılığıyla gerçek zamanlı akış hızıyla akış yapmak üzere yapılandırılan ses kaynaklarının bazen kapasitenin gerisinde ve sonunda kapasiteyi aşmasına neden olan platforma özgü bir sorun düzeltildi

Örnekler (GitHub)

  • C#: .NET framework örnekleri v4.6.2 kullanacak şekilde güncelleştirildi
  • Unity: Android ve UWP için düzeltilen sanal yardımcı örneği
  • Unity: Unity 2020 LTS sürümü için güncelleştirilmiş Unity örnekleri

Konuşma SDK'sı 1.21.0: Nisan 2022 sürümü

Yeni özellikler

  • Java & JavaScript: SpeechRecognizer nesnesi kullanılırken Sürekli Dil Belirleme desteği eklendi
  • JavaScript: Microsoft'un müşteri tarafından bildirilen sorunları gidermesine yardımcı olmak için konsol günlüğü düzeyini ve (Yalnızca düğüm) dosya günlüğünü etkinleştirmek için Tanılama API'leri eklendi
  • Python: Konuşma Transkripsiyonu desteği eklendi
  • Git: Konuşmacı Tanıma desteği eklendi
  • C++ & C#: Amaç Tanıma'da gerekli bir sözcük grubu için destek eklendi (basit desen eşleştirme). Örneğin: "(set|start|begin) zamanlayıcı" burada amacın tanınması için "set", "start" veya "begin" bulunmalıdır.
  • Tüm programlama dilleri, Konuşma Sentezi: Sözcük sınırı olaylarına duration özelliği eklendi. Noktalama sınırı ve cümle sınırı desteği eklendi
  • Objective-C/Swift/Java: Söyleniş Değerlendirmesi sonuç nesnesine sözcük düzeyi sonuçlar eklendi (C#'ye benzer). Uygulamanın artık sözcük düzeyinde bilgi almak için JSON sonuç dizesini ayrıştırması gerekmez (GitHub sorunu)
  • iOS platformu: ARMv7 mimarisi için deneysel destek eklendi

Hata düzeltmeleri

  • iOS platformu: CocoaPod kullanırken hedef "Herhangi bir iOS Cihazı" için derlemeye izin vermek için düzeltme (GitHub sorunu)
  • Android platformu: OpenSSL sürümü CVE-2022-0778 güvenlik açığını düzeltmek için 1.1.1n sürümüne güncelleştirildi
  • JavaScript: Wav üst bilgisinin dosya boyutuyla güncelleştirilmeme sorunu düzeltildi (GitHub sorunu)
  • JavaScript: çeviri senaryolarında hataya neden olan istek kimliği eşitleme sorununu düzeltme (GitHub sorunu)
  • JavaScript: Akış olmadan SpeakerAudioDestination örneği oluşturulurken sorun düzeltildi (GitHub sorunu]
  • C++: C++17 veya daha yeni bir sürüm için derleme yaparken uyarıyı kaldırmak için C++ üst bilgilerini düzeltme

Örnekler GitHub

  • Dil Belirleme ile Konuşma Tanıma için yeni Java örnekleri
  • Konuşma Transkripsiyonu için yeni Python ve Java örnekleri
  • Konuşmacı Tanıma için Yeni Go örneği
  • Cihaz Kimliğini bulmak için tüm ses yakalama ve işleme cihazlarını numaralandıran yeni Windows C++ ve C# aracı. Bu kimlik, varsayılan olmayan bir cihazdan ses yakalamayı veya bu cihaza ses oluşturmayı planlıyorsanız Konuşma SDK'sı tarafından gereklidir.

Konuşma SDK'sı 1.20.0: Ocak 2022 sürümü

Yeni özellikler

  • Objective-C, Swift ve Python: Voice-Assistant senaryoları için kullanılan DialogService Bağlan or desteği eklendi.
  • Python: Python 3.10 desteği eklendi. Python'ın 3.6 için kullanım ömrü sonuna göre Python 3.6 desteği kaldırıldı.
  • Unity: Konuşma SDK'sı artık Linux'ta Unity uygulamaları için destekleniyor.
  • C++, C#: Desen eşleştirme kullanan IntentRecognizer artık C# dilinde destekleniyor. Buna ek olarak, özel varlıklar, isteğe bağlı gruplar ve varlık rolleri içeren senaryolar artık C++ ve C# dilinde desteklenmektedir.
  • C++, C#: FileLogger, MemoryLogger ve EventLogger sınıflarını kullanarak tanılama izleme günlüğü geliştirildi. SDK günlükleri, Microsoft'un müşteri tarafından bildirilen sorunları tanılaması için önemli bir araçtır. Bu yeni sınıflar, müşterilerin Konuşma SDK'sı günlüklerini kendi günlük sistemleriyle tümleştirmesini kolaylaştırır.
  • Tüm programlama dilleri: PronunciationAssessmentConfig artık istenen fone alfabesini (IPA veya SAPI) ve N-Best Telefon me Sayısını ayarlayan özelliklere sahiptir (GitHub sorunu 1284'e göre bir yapılandırma JSON yazma gereğini ortadan kaldırarak). Ayrıca hece düzeyi çıkışı artık desteklenmektedir.
  • Android, iOS ve macOS (tüm programlama dilleri): Sınırlı bant genişliğine sahiptir ağları desteklemek için GStreamer artık gerekli değildir. SpeechSynthesizer artık metinden konuşma hizmetine akışı yapılan sıkıştırılmış sesin kodunu çözmek için işletim sisteminin ses kod çözme özelliklerini kullanıyor.
  • Tüm programlama dilleri: SpeechSynthesizer artık canlı akış senaryolarında yaygın olarak kullanılan üç yeni ham çıkış Opus formatını (kapsayıcı olmadan) destekliyor.
  • JavaScript: Desteklenen sentez seslerinin listesini almak için SpeechSynthesizer'a getVoicesAsync() API eklendi (GitHub sorunu 1350)
  • JavaScript: PCM olmayan dalga biçimlerini desteklemek için AudioStreamFormat'a getWaveFormat() API'sini eklendi (GitHub sorunu 452)
  • JavaScript: SpeakerAudioDestination'a birim getter/setter ve mute()/unmute() API'leri eklendi (GitHub sorunu 463)

Hata düzeltmeleri

  • C++, C#, Java, JavaScript, Objective-C ve Swift: PushAudioInputStream kullanan bir konuşma tanıyıcıyı durdururken 10 saniyelik gecikmeyi kaldırma düzeltmesi. Bu, StopContinuousRecognition çağrıldıktan sonra yeni ses gönderilmediği durum içindir (GitHub sorunları 1318, 331)
  • Android ve UWP'de Unity: Unity meta dosyaları UWP, Android ARM64 ve Android için Windows Alt Sistemi (WSA) ARM64 için düzeltildi (GitHub sorunu 1360)
  • iOS: CocoaPods kullanırken Konuşma SDK'sı uygulamanızı herhangi bir iOS Cihazına derleme işlemi düzeltildi (GitHub sorunu 1320)
  • iOS: SpeechSynthesizer doğrudan hoparlöre ses çıkışı yapmak üzere yapılandırıldığında, nadir durumlarda kayıttan yürütme başlangıçta durdurulur. Bu düzeltildi.
  • JavaScript: Ses çalışma öğesi bulunamazsa mikrofon girişi için betik işlemci geri dönüşünü kullanın (GitHub sorunu 455)
  • JavaScript: Sentry tümleştirmesi ile bulunan hatayı azaltmak için aracıya protokol ekleme (GitHub sorunu 465)

Örnekler GitHub

Konuşma SDK'sı 1.19.0: 2021-Nov sürümü

Önemli Noktalar

  • Konuşmacı Tanıma hizmeti genel kullanıma sunuldu (GA). Konuşma SDK'sı API'leri C++, C#, Java ve JavaScript'te kullanılabilir. Konuşmacı Tanıma ile konuşmacıları benzersiz ses özelliklerine göre doğru bir şekilde doğrulayabilir ve tanımlayabilirsiniz. Bu konu hakkında daha fazla bilgi için belgelere bakın.

  • Azure DevOps ve GitHub ile birlikte Ubuntu 16.04 desteğini bıraktık. Ubuntu 16.04, Nisan 2021'de kullanım ömrüne geri döndü. Ubuntu 16.04 iş akışlarınızı Ubuntu 18.04 veya daha yeni bir sürüme geçirin.

  • Linux ikili dosyalarında OpenSSL bağlantısı dinamik olarak değiştirildi. Linux ikili boyutu yaklaşık %50 azaltıldı.

  • Mac M1 ARM tabanlı silikon desteği eklendi.

Yeni özellikler

  • C++/C#/Java: Microsoft Audio Stack ile konuşma girişi için ses işleme desteğini etkinleştirmek üzere yeni API'ler eklendi. Belgeler burada.

  • C++: Daha gelişmiş desen eşleştirmeyi kolaylaştırmak için amaç tanımaya yönelik yeni API'ler. Buna Liste ve Önceden Oluşturulmuş Tamsayı varlıklarının yanı sıra amaçları ve varlıkları model olarak gruplandırma desteği de dahildir (Belgeler, güncelleştirmeler ve örnekler geliştirme aşamasındadır ve yakın gelecekte yayımlanacaktır).

  • Mac: GitHub sorunu 1244 ile ilgili CocoaPod, Python, Java ve NuGet paketleri için ARM64 (M1) tabanlı silikon desteği.

  • iOS/Mac: iOS ve macOS ikili dosyaları artık GitHub sorunu 919 ile ilgili xcframework olarak paketleniyor.

  • iOS/Mac: GitHub sorunu 1171 ile ilgili Mac katalizör desteği.

  • Linux: Konuşma SDK'sı Hakkında CentOS7 için yeni tar paketi eklendi. Linux .tar paketi artık içinde lib/centos7-x64RHEL/CentOS 7 için belirli kitaplıklar içeriyor. lib/x64'teki Konuşma SDK'sı kitaplıkları, desteklenen diğer tüm Linux x64 dağıtımları (RHEL/CentOS 8 dahil) için hala geçerlidir ve RHEL/CentOS 7 üzerinde çalışmaz.

  • JavaScript: VoiceProfile & SpeakerRecognizer API'leri zaman uyumsuz/beklenebilir hale geldi.

  • JavaScript: ABD kamu Azure bölgeleri için destek eklendi.

  • Windows: Evrensel Windows Platformu (UWP) üzerinde kayıttan yürütme desteği eklendi.

Hata düzeltmeleri

  • Android: Android paketleri için OpenSSL güvenlik güncelleştirmesi (sürüm 1.1.1l'e güncelleştirildi).

  • Python: Python'da konuşmacı cihazı seçmenin başarısız olduğu hata çözüldü.

  • Çekirdek: Bağlantı girişimi başarısız olduğunda otomatik olarak yeniden bağlan.

  • iOS: GStreamer kullanırken kararlılık ve bit kodu derleme sorunları nedeniyle iOS paketlerinde ses sıkıştırma devre dışı bırakıldı. Ayrıntılara GitHub sorunu 1209 aracılığıyla ulaşabilirsiniz.

Örnekler GitHub

  • Mac/iOS: Xcframework paketini kullanmak için örnekler ve hızlı başlangıçlar güncelleştirildi.

  • .NET: Örnekler .NET core 3.1 sürümünü kullanacak şekilde güncelleştirildi.

  • JavaScript: Ses Yardımcıları için örnek eklendi.

Konuşma SDK'sı 1.18.0: 2021-Temmuz sürümü

Not: Konuşma SDK'sını buradan kullanmaya başlayın.

Vurgular özeti

  • Ubuntu 16.04, Nisan 2021'de kullanım ömrüne ulaştı. Azure DevOps ve GitHub ile Eylül 2021'de 16.04 desteğini bırakacağız. Daha önce ubuntu-16.04 iş akışlarını ubuntu-18.04 veya daha yeni bir sürüme geçirin.

Yeni özellikler

  • C++: Amaç Tanıma ile Basit Dil Deseni eşleştirmesi artık basit amaç tanıma senaryolarının uygulanmasını kolaylaştırıyor.
  • C++/C#/Java: Bağımsız tanıma senaryoları için Konuşmacı Tanıma kayıt aşamasında geçerli etkinleştirme tümceciklerinin listesini almak için sınıfına yeni bir API GetActivationPhrasesAsync()VoiceProfileClient ekledik.
    • Önemli: Konuşmacı Tanıma özelliği Önizleme aşamasındadır. Önizleme'de oluşturulan tüm ses profilleri, Konuşmacı Tanıma özelliği Önizlemeden Genel Kullanılabilirlik'e taşındıktan 90 gün sonra sonlandırılır. Bu noktada Önizleme ses profilleri çalışmayı durdurur.
  • Python: Mevcut SpeechRecognizer ve TranslationRecognizer nesnelere sürekli Dil Belirleme (LID) desteği eklendi.
  • Python: Tek seferlik veya sürekli LID (tanıma veya çeviri olmadan) yapmak için adlı SourceLanguageRecognizer yeni bir Python nesnesi eklendi.
  • JavaScript: getActivationPhrasesAsync Bağımsız tanıma senaryoları için Konuşmacı Tanıma kayıt aşamasında geçerli etkinleştirme tümceciklerinin listesini almak için sınıfına api eklendi VoiceProfileClient .
  • JavaScript'inVoiceProfileClient API'si enrollProfileAsync artık zaman uyumsuz olarak beklenebilir. Bu bağımsız tanımlama koduna (örneğin, kullanım) bakın.

İyileştirmeler

  • Java: Birçok Java nesnesine Otomatik Kapatılabilir desteği eklendi. Artık kaynakları serbest bırakmak için kaynaklarla deneme modeli desteklenmektedir. Try-with-resources kullanan bu örneğe bakın. Bu desen hakkında bilgi edinmek için Kaynaklarla deneme Deyimi için Oracle Java belgeleri öğreticisine de bakın.
  • Birçok platform ve mimari için disk ayak izi önemli ölçüde azaltılmıştır. İkili dosya Microsoft.CognitiveServices.Speech.core örnekleri: x64 Linux 475 KB daha küçüktür (%8,0 azalma); ARM64 Windows UWP 464 KB daha küçüktür (%11,5 azalma); x86 Windows 343 KB daha küçüktür (%17,5 azalma); ve x64 Windows 451 KB daha küçüktür (%19,4 azaltma).

Hata düzeltmeleri

  • Java: Sentez metni vekil karakterler içerdiğinde sentez hatası düzeltildi. Ayrıntılar burada.
  • JavaScript: Tarayıcı mikrofonu ses işleme artık kullanım ScriptProcessorNodedışı yerine kullanıyorAudioWorkletNode. Ayrıntılar burada.
  • JavaScript: Uzun süre çalışan konuşma çevirisi senaryolarında konuşmaları doğru bir şekilde canlı tutun. Ayrıntılar burada.
  • JavaScript: Sürekli tanımada bir medya akışına yeniden bağlanan tanıyıcı ile ilgili sorun düzeltildi. Ayrıntılar burada.
  • JavaScript: Sürekli tanımada bir pushStream'e yeniden bağlanan tanıyıcı ile ilgili sorun düzeltildi. Ayrıntılar burada.
  • JavaScript: Ayrıntılı tanıma sonuçlarında sözcük düzeyi uzaklık hesaplaması düzeltildi. Ayrıntılar burada.

Örnekler

  • Java hızlı başlangıç örnekleri burada güncelleştirildi.
  • JavaScript Konuşmacı Tanıma örnekleri yeni kullanımını enrollProfileAsync()gösterecek şekilde güncelleştirildi. Buradaki örneklere bakın.

Konuşma SDK'sı 1.17.0: 2021-Mayıs sürümü

Not

Burada Konuşma SDK'sını kullanmaya başlayın.

Vurgular özeti

  • Daha küçük ayak izi - Konuşma SDK'sının ve bileşenlerinin belleğini ve disk ayak izini azaltmaya devam ediyoruz.
  • Yeni bir tek başına Dil Belirleme API'si, hangi dilin konuşulmakta olduğunu tanımanıza olanak tanır.
  • macOS üzerinde Unity kullanarak konuşma özellikli karma gerçeklik ve oyun uygulamaları geliştirin.
  • Artık Go programlama dilinden konuşma tanımaya ek olarak Metin okuma özelliğini de kullanabilirsiniz.
  • Değerli müşterilerimiz olan SİSTE'nin GitHub'da bayrak eklemesine neden olan sorunları çözmek için çeşitli Hata düzeltmeleri! TEŞEKKÜR EDERİZ! Geri bildirimlerinizi almaya devam edin!

Yeni özellikler

  • C++/C#: API aracılığıyla SourceLanguageRecognizer yeni tek başına Başlangıç ve Sürekli Dil Algılama. Yalnızca ses içeriğinde konuşulan dilleri algılamak istiyorsanız, bunu yapmak için API'dir. C++ ve C# için ayrıntılara bakın.
  • C++/C#: Konuşma Tanıma ve Çeviri Tanıma artık hem başlangıç hem de sürekli Dil Belirleme desteğine sahip olduğundan, hangi dillerin yazılmadan veya çevrilmeden önce konuşulmakta olduğunu program aracılığıyla belirleyebilirsiniz. Konuşma Tanıma için buraya ve Konuşma Çevirisi için buraya bakın.
  • C#: macOS'a Unity desteği eklendi (x64). Bu, karma gerçeklik ve oyunlarda konuşma tanıma ve konuşma sentezi kullanım örneklerinin kilidini açar!
  • Git: Konuşma sentezini daha da fazla kullanım örneğinde kullanılabilir hale getirmek için Go programlama diline konuşma sentezi metni desteği ekledik. Hızlı başlangıcımıza veya başvuru belgelerimize bakın.
  • C++/C#/Java/Python/Objective-C/Go: Konuşma sentezleyici artık nesneyi destekliyor connection . Bu, Konuşma hizmeti bağlantısını yönetmenize ve izlemenize yardımcı olur ve özellikle gecikme süresini azaltmak için önceden bağlanmanıza yardımcı olur. Buradaki belgelere bakın.
  • C++/C#/Java/Python/Objective-C/Go: Konuşma sentezi gecikmesi sorunlarını izlemenize ve tanılamanıza yardımcı olmak için artık gecikme süresini ve yetersiz çalıştırma süresini SpeechSynthesisResult kullanıma sunun. C++, C#, Java, Python, Objective-C ve Go ayrıntılarına bakın.
  • C++/C#/Java/Python/Objective-C: Kullanılacak sesi belirtmediğinizde artık metin okuma özelliği varsayılan olarak sinir seslerini kullanıyor. Bu, varsayılan olarak daha yüksek aslına uygunluk çıkışı sağlar, ancak varsayılan fiyatı da artırır. Varsayılanı değiştirmek için 70'in üzerinde standart sesimizi veya 130'un üzerinde nöral sesimizi belirtebilirsiniz.
  • C++/C#/Java/Python/Objective-C/Go: Cinsiyete göre sesleri seçmeyi kolaylaştırmak için sentez ses bilgilerine bir Gender özelliği ekledik. Bu, GitHub sorunu #1055'i giderir.
  • C++, C#, Java, JavaScript: Artık retrieveEnrollmentResultAsyncbelirli bir hesabın tüm ses profillerinin kullanıcı yönetimini kolaylaştırmak için Konuşmacı Tanıma'da , getAuthorizationPhrasesAsyncve getAllProfilesAsync() desteklenmektedir. C++, C#, Java, JavaScript belgelerine bakın. Bu, GitHub sorunu #338'i giderir.
  • JavaScript: JavaScript tabanlı konuşma uygulamalarınızı daha sağlam hale getirecek bağlantı hataları için yeniden deneme ekledik.

İyileştirmeler

  • Linux ve Android Konuşma SDK'sı ikili dosyaları, OpenSSL'nin en son sürümünü (1.1.1k) kullanacak şekilde güncelleştirildi
  • Kod Boyutu geliştirmeleri:
    • Language Understanding artık ayrı bir "lu" kitaplığına ayrılmıştır.
    • Windows x64 çekirdek ikili boyutu %14,4 azaldı.
    • Android ARM64 çekirdek ikili boyutu %13,7 azaldı.
    • diğer bileşenlerin boyutu da azaldı.

Hata düzeltmeleri

  • Tümü: ServiceTimeout için GitHub sorunu #842 düzeltildi. Artık konuşma SDK'sını kullanarak uzun ses dosyalarının dökümünü alabilirsiniz; hizmet bağlantısı bu hatayla sonlanır. Ancak, uzun dosyalar için toplu transkripsiyon kullanmanızı öneririz.
  • C#: Hiçbir konuşma girişinin uygulamanızı kötü durumda bırakmadığı GitHub sorunu #947 düzeltildi.
  • Java: DialogService Bağlan veya ağ bağlantısı veya geçersiz abonelik anahtarı olmadan Java 1.16 için Konuşma SDK'sının kilitlenmesi sorunu #997 düzeltildi.
  • Konuşma tanımayı (örneğin, konsol uygulamasında CTRL+C kullanarak) aniden durdurduğu zaman meydana gelen kilitlenme düzeltildi.
  • Java: Java için Konuşma SDK'sı kullanılırken Windows'ta geçici dosyaları silmeye yönelik bir düzeltme eklendi.
  • Java: Çağrının DialogServiceConnector.stopListeningAsync hataya neden olabileceği GitHub sorunu #994 düzeltildi.
  • Java: Sanal yardımcı hızlı başlangıcında müşteri sorunu düzeltildi.
  • JavaScript: 'this.cancelSpeech bir işlev değil' hatası veren ConversationTranslator GitHub sorunu #366 düzeltildi.
  • JavaScript: 'Bellek içi akış sonucu alma' örneğinin yüksek sesle çalınmasıyla ilgili GitHub sorunu #298 düzeltildi.
  • JavaScript: Çağrının AudioConfig 'ReferenceError: MediaStream tanımlanmamış' sonucuna neden olabileceği GitHub sorunu #350 düzeltildi.
  • JavaScript: uzun süre çalışan oturumlar için Node.js unhandledPromiseRejection uyarısı düzeltildi.

Örnekler

Konuşma SDK'sı 1.16.0: 2021-Mart sürümü

Not

Windows'da Konuşma SDK'sı, paylaşılan Microsoft Visual Studio için Visual C++ Yeniden Dağıtılabilir 2015, 2017 ve 2019'a bağlıdır. Buradan indirin.

Yeni özellikler

  • C++/C#/Java/Python: Windows, Linux ve Android'de herhangi bir medya biçimini dönüştürme desteği eklemek için GStreamer'ın en son sürümüne (1.18.3) taşındı. Buradaki belgelere bakın.
  • C++/C#/Java/Objective-C/Python: SDK'ya sıkıştırılmış TTS/sentezlenmiş ses kodunu çözme desteği eklendi. Çıkış ses biçimini PCM olarak ayarlarsanız ve sisteminizde GStreamer kullanılabilir durumdaysa, SDK bant genişliğini kaydetmek ve istemcideki sesin kodunu çözmek için otomatik olarak hizmetten sıkıştırılmış ses ister. Bu özelliği devre dışı bırakmak için olarak ayarlayabilirsiniz SpeechServiceConnection_SynthEnableCompressedAudioTransmissionfalse . C++, C#, Java, Objective-C, Python için ayrıntılar.
  • JavaScript: Node.js kullanıcılar artık API'yi AudioConfig.fromWavFileInputkullanabilir. Bu, GitHub sorunu #252'ye gider.
  • C++/C#/Java/Objective-C/Python: Kullanılabilir tüm sentez seslerini döndürmek için TTS yöntemi eklendi GetVoicesAsync() . C++, C#, Java, Objective-C ve Python için ayrıntılar.
  • C++/C#/Java/JavaScript/Objective-C/Python: Zaman uyumlu viseme animasyonu döndürmek için TTS/konuşma sentezi için olay eklendi VisemeReceived . Buradaki belgelere bakın.
  • C++/C#/Java/JavaScript/Objective-C/Python: TTS için olay eklendi BookmarkReached . Giriş SSML'sinde yer işaretleri ayarlayabilir ve her yer işareti için ses uzaklıklarını alabilirsiniz. Buradaki belgelere bakın.
  • Java: Konuşmacı Tanıma API'leri için destek eklendi. Ayrıntılar burada.
  • C++/C#/Java/JavaScript/Objective-C/Python: TTS için WebM kapsayıcısıyla iki yeni çıkış ses biçimi eklendi (Webm16Khz16BitMonoOpus ve Webm24Khz16BitMonoOpus). Bunlar Opus codec bileşeniyle ses akışı için daha iyi biçimlerdir. C++, C#, Java, JavaScript, Objective-C, Python için ayrıntılar.
  • C++/C#/Java: Konuşmacı Tanıma senaryosu için ses profili alma desteği eklendi. C++, C# ve Java için ayrıntılar.
  • C++/C#/Java/Objective-C/Python: Ses mikrofonu ve hoparlör denetimi için ayrı paylaşılan kitaplık desteği eklendi. Bu, geliştiricinin gerekli ses kitaplığı bağımlılıklarına sahip olmayan ortamlarda SDK'yi kullanmasına olanak tanır.
  • Objective-C/Swift: Şemsiye üst bilgisine sahip modül çerçevesi desteği eklendi. Bu, geliştiricinin Konuşma SDK'sını iOS/Mac Objective-C/Swift uygulamalarında modül olarak içeri aktarmasına olanak tanır. Bu, GitHub sorunu #452'ye gider.
  • Python: Python 3.9 desteği eklendi ve Python'ın 3.5 için kullanım ömrü sonu başına Python 3.5 desteği bırakıldı.

Bilinen sorunlar

  • C++/C#/Java: DialogServiceConnector Özel Komutlar uygulamasına erişmek için a kullanamaz CustomCommandsConfig ve bunun yerine bağlantı hatasıyla karşılaşır. Bu, ile config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)isteğe uygulama kimliğinizi el ile ekleyerek geçici bir çözüm olabilir. beklenen davranışı CustomCommandsConfig bir sonraki sürümde geri yüklenir.

İyileştirmeler

  • Konuşma SDK'sının bellek kullanımını ve disk ayak izini azaltmaya yönelik çoklu sürüm çalışmalarımızın bir parçası olarak Android ikili dosyaları artık %3 ile %5 arasında daha küçük.
  • Burada C# başvuru belgelerimizin doğruluk, okunabilirlik ve ayrıca bkz. bölümleri geliştirildi.

Hata düzeltmeleri

  • JavaScript: Büyük WAV dosya üst bilgileri artık doğru ayrıştırılıyor (üst bilgi dilimini 512 bayta yükseltir). Bu, GitHub sorunu #962'ye gider.
  • JavaScript: Mikrofon akışının tanımayı durdurmadan önce bitmesi durumunda mikrofon zamanlama sorunu düzeltildi ve Konuşma Tanıma'nın Firefox'ta çalışmaması sorunu giderildi.
  • JavaScript: Tarayıcı turnOn tamamlanmadan önce mikrofonu kapatmaya zorladığında başlatma sözünü doğru şekilde ele alıyoruz.
  • JavaScript: URL bağımlılığını url ayrıştırma ile değiştirdik. Bu, GitHub sorunu #264'e gider.
  • Android: True olarak ayarlandığında geri çağırmaların çalışmaması minifyEnabled düzeltildi.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY gecikme süresini azaltmak için TTS için temel yuva GÇ'ye doğru şekilde ayarlanır.
  • C++/C#/Java/Python/Objective-C/Go: Tanıma başlatıldıktan hemen sonra tanıyıcı yok edildiğinde zaman zaman karşılaşılan bir kilitlenme düzeltildi.
  • C++/C#/Java: Konuşmacı tanıyıcının yok edilmesinde zaman zaman oluşan bir kilitlenme düzeltildi.

Örnekler

Konuşma SDK'sı 1.15.0: 2021-Ocak sürümü

Not

Windows'da Konuşma SDK'sı, paylaşılan Microsoft Visual Studio için Visual C++ Yeniden Dağıtılabilir 2015, 2017 ve 2019'a bağlıdır. Buradan indirin.

Vurgular özeti

  • Daha küçük bellek ve disk ayak izi, SDK'nın daha verimli hale getirilmesini sağlar.
  • Özel sinirsel ses özel önizlemesi için daha yüksek aslına uygunluk çıkış biçimleri kullanılabilir.
  • Amaç Tanıyıcı artık en önemli amaçtan daha fazla geri dönüş elde edebilir ve böylece müşterinizin amacı hakkında ayrı bir değerlendirme yapabilirsiniz.
  • Sesli yardımcıları ve botları ayarlamak artık daha kolaydır ve dinlemeyi hemen durdurmasını sağlayabilir ve hatalara nasıl yanıt verdiği üzerinde daha fazla denetim gerçekleştirebilirsiniz.
  • Sıkıştırmayı isteğe bağlı hale getirerek cihaz performansı geliştirildi.
  • Windows ARM/ARM64'te Konuşma SDK'sını kullanın.
  • Düşük düzey hata ayıklama iyileştirildi.
  • Söyleniş Değerlendirmesi özelliği artık daha yaygın olarak kullanılabilir.
  • Değerli müşterilerimiz olan SİSTE'nin GitHub'da bayrak eklemesine neden olan sorunları çözmek için çeşitli Hata düzeltmeleri! TEŞEKKÜR EDERİZ! Geri bildirimlerinizi almaya devam edin!

İyileştirmeler

  • Konuşma SDK'sı artık daha verimli ve hafiftir. Konuşma SDK'sının bellek kullanımını ve disk ayak izini azaltmak için çok sürümlü bir çalışma başlattık. İlk adım olarak çoğu platformdaki paylaşılan kitaplıklarda önemli dosya boyutu azaltmaları yaptık. 1.14 sürümüyle karşılaştırıldığında:
    • 64 bit UWP uyumlu Windows kitaplıkları yaklaşık %30 daha küçüktür.
    • 32 bit Windows kitaplıkları henüz boyut geliştirmesi görmüyor.
    • Linux kitaplıkları %20-25 daha küçüktür.
    • Android kitaplıkları %3-5 daha küçüktür.

Yeni özellikler

  • Tümü: TTS konuşma sentezi API'si aracılığıyla özel sinir sesinin özel önizlemesi için kullanılabilecek yeni 48 KHz çıkış biçimleri: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • Tümü: Özel sesi kullanmak da daha kolaydır. (C++, C#, Java, JavaScript, Objective-C, Python) aracılığıyla EndpointId özel ses ayarlama desteği eklendi. Bu değişiklik öncesinde özel ses kullanıcılarının yöntemi aracılığıyla uç nokta URL'sini ayarlaması FromEndpoint gerekiyordu. Müşteriler artık yöntemini önceden oluşturulmuş sesler gibi kullanabilir FromSubscription ve ardından ayarını EndpointIdyaparak dağıtım kimliğini sağlayabilir. Bu, özel sesleri ayarlamayı kolaylaştırır.
  • C++/C#/Java/Objective-C/Python: En önemli amaçtanIntentRecognizer fazlasını alın. Artık uri parametresini kullanarak verbose=true yöntem aracılığıyla LanguageUnderstandingModel FromEndpoint yalnızca en iyi puanlama amacını değil, tüm amaçları içeren JSON sonucunu yapılandırmayı destekliyor. Bu, GitHub sorunu #880'i giderir. Burada güncelleştirilmiş belgelere bakın.
  • C++/C#/Java: Sesli yardımcınızın veya botunuzun dinlemeyi hemen durdurmasını sağlayın. DialogServiceConnector(C++, C#, Java) artık ile birlikte ListenOnceAsync()bir yöntemi vardırStopListeningAsync(). Bu, ses yakalamayı hemen durdurur ve bir sonucu düzgün bir şekilde bekler ve "şimdi durdur" düğmesine basma senaryolarında kullanmak için mükemmel hale getirir.
  • C++/C#/Java/JavaScript: Ses yardımcınızın veya botunuzun temel sistem hatalarına daha iyi tepki göstermesini sağlayın. DialogServiceConnector (C++, C#, Java, JavaScript) artık yeni TurnStatusReceived bir olay işleyicisi var. Bu isteğe bağlı olaylar Bot'ta her ITurnContext çözünürlüğe karşılık gelir ve bunlar gerçekleştiğinde, örneğin Direct Line Speech ile bot arasında işlenmeyen bir özel durum, zaman aşımı veya ağ bırakması nedeniyle dönüş yürütme hatalarını bildirir. TurnStatusReceived hata koşullarına yanıt vermeyi kolaylaştırır. Örneğin, bir bot arka uç veritabanı sorgusunda (örneğin, bir ürün ararken) TurnStatusReceived çok uzun sürüyorsa, istemcinin "ne yazık ki tam olarak bunu alamadım, lütfen yeniden deneyebilir misiniz" veya benzer bir şeyle yeniden üretmesini sağlar.
  • C++/C#: Konuşma SDK'sını daha fazla platformda kullanın. Konuşma SDK'sı NuGet paketi artık Konuşma SDK'sını daha fazla makine türünde daha kullanışlı hale getirmek için Windows ARM/ARM64 masaüstü yerel ikili dosyalarını (UWP zaten destekleniyordu) destekliyor.
  • Java: DialogServiceConnector Artık daha önce kasıtsız olarak dilden dışlanan bir setSpeechActivityTemplate() yönteme sahip. Bu, özelliğin ayarlanmasına Conversation_Speech_Activity_Template eşdeğerdir ve Direct Line Speech hizmetinden kaynaklanan gelecekteki tüm Bot Framework etkinliklerinin sağlanan içeriği JSON yükleriyle birleştirmesini istemektedir.
  • Java: Geliştirilmiş düşük düzeyli hata ayıklama. Sınıfın Connection artık diğer programlama dillerine (C++, C#) benzer bir MessageReceived olayı vardır. Bu olay hizmetten gelen verilere düşük düzeyde erişim sağlar ve tanılama ve hata ayıklama için yararlı olabilir.
  • JavaScript: Artık özel hizmet konumlarının kullanımını basitleştiren ve özellikleri el ile ayarlamaya kıyasla fabrika yöntemlerine sahip fromHost() olan Ve aracılığıyla BotFrameworkConfigSes Yardımcıları ve fromEndpoint() botlar için daha kolay kurulum. Ayrıca isteğe bağlı belirtimini botId yapılandırma fabrikaları genelinde varsayılan olmayan bir bot kullanmak için standartlaştırdık.
  • JavaScript: Websocket sıkıştırması için eklenen dize denetimi özelliğiyle cihaz performansı geliştirildi. Performans nedeniyle websocket sıkıştırmasını varsayılan olarak devre dışı bırakılmıştır. Bu, düşük bant genişliği senaryoları için yeniden kullanılabilir. Diğer ayrıntıları burada bulabilirsiniz. Bu, GitHub sorunu #242'ye gider.
  • JavaScript: Konuşma söylenişinin değerlendirilmesi için lPronunciation Assessment desteği eklendi. Buradaki hızlı başlangıç bölümüne bakın.

Hata düzeltmeleri

  • Tümü (JavaScript hariç): Tanıyıcı tarafından çok fazla bellek ayrıldığı sürüm 1.14'teki bir regresyon düzeltildi.
  • C++: GitHub sorunu #794 ile ilgili bir çöp toplama sorunu DialogServiceConnectordüzeltildi.
  • C#: Nesnelerin atıldığında yaklaşık bir saniye boyunca engellenmesine neden olan iş parçacığı kapatma sorunu düzeltildi.
  • C++/C#/Java: Bir uygulamanın üzerinde konuşma yetkilendirme belirtecini veya etkinlik şablonunu birden çok kez ayarlamasını engelleyen özel DialogServiceConnectordurum düzeltildi.
  • C++/C#/Java: Yırtılma durumundaki bir yarış durumu nedeniyle bir tanıyıcı kilitlenmesi düzeltildi.
  • JavaScript: DialogServiceConnector Daha önce 'nin fabrikalarında BotFrameworkConfigbelirtilen isteğe bağlı botId parametreye saygı göstermiyor. Bu, sorgu dizesi parametresinin botId varsayılan olmayan bir bot kullanacak şekilde el ile ayarlanmasını gerekli hale getirdi. Hata düzeltildi ve botId fabrikalara BotFrameworkConfigsağlanan değerler, yeni fromHost() ve eklemeler de dahil olmak üzere kabul edilecek ve fromEndpoint() kullanılacaktır. Bu, parametresi için applicationIdCustomCommandsConfigde geçerlidir.
  • JavaScript: Tanıyıcı nesnesinin yeniden kullanımına izin veren GitHub sorunu #881 düzeltildi.
  • JavaScript: SKD'nin bir TTS oturumunda birden çok kez göndererek bant genişliğini boşa harcaması speech.config sorunu düzeltildi.
  • JavaScript: Kullanıcı tarayıcılarında mikrofon girişine izin vermediğinde daha açıklayıcı bir iletinin kabarmasına olanak tanıyarak mikrofon yetkilendirmesinde basitleştirilmiş hata işleme.
  • JavaScript: Tür hatalarının ConversationTranslator type in ve neden olduğu Ve ConversationTranscriber TypeScript kullanıcıları için derleme hatasına neden olan GitHub sorunu #249 düzeltildi.
  • Objective-C: Xcode 11.4 üzerinde IOS için GStreamer derlemesi başarısız olduğunda GitHub sorunu #911'i gideren bir sorun düzeltildi.
  • Python: "DeprecationWarning: imp modülü importlib yerine kullanım dışı bırakıldı" kaldırılarak GitHub sorunu #870 düzeltildi.

Örnekler

Konuşma SDK'sı 1.14.0: 2020-Ekim sürümü

Not

Windows'da Konuşma SDK'sı, paylaşılan Microsoft Visual Studio için Visual C++ Yeniden Dağıtılabilir 2015, 2017 ve 2019'a bağlıdır. Buradan indirin.

Yeni özellikler

  • Linux: Debian 10 ve Ubuntu 20.04 LTS desteği eklendi.
  • Python/Objective-C: API için KeywordRecognizer destek eklendi. Belgeler burada olacaktır.
  • C++/Java/C#: aracılığıyla ServicePropertyChannel::HttpHeaderherhangi bir HttpHeader anahtar/değer ayarlamak için destek eklendi.
  • JavaScript: API için ConversationTranscriber destek eklendi. Buradaki belgeleri okuyun.
  • C++/C#: Yeni AudioDataStream FromWavFileInput yöntem eklendi (okumak için). WAV dosyaları) buraya (C++) ve buraya (C#).
  • C++/C#/Java/Python/Objective-C/Swift: Konuşma sentezine metinleri durdurmak için bir stopSpeakingAsync() yöntem eklendi. Başvuru belgelerini buradan (C++), buradan (C#), buradan (Java), buradan (Python)ve buradan (Objective-C/Swift) okuyun.
  • C#, C++, Java: sınıfına Connection için bağlantı ve bağlantı kesme olaylarını izlemek için DialogServiceConnectorkullanılabilecek bir FromDialogServiceConnector() işlev eklendi. Başvuru belgelerini buradan (C#), buradan (C++) ve buradan (Java) okuyun.
  • C++/C#/Java/Python/Objective-C/Swift: Konuşma söylenişini değerlendiren ve konuşmacılara konuşulan sesin doğruluğu ve akıcılığı hakkında geri bildirim sağlayan Söyleniş Değerlendirmesi desteği eklendi. Belgeleri buradan okuyun.

Hataya neden olan değişiklik

  • JavaScript: PullAudioOutputStream.read() iç Promise yerine Yerel JavaScript Promise dönüş türü değişikliğine sahiptir.

Hata düzeltmeleri

  • Tümü: Belirli özel karakterlere sahip değerlerin yoksayıldığı 1,13 regresyonu SetServiceProperty düzeltildi.
  • C#: Visual Studio 2019'daki Windows konsol örneklerinin yerel DLL'leri bulamaması düzeltildi.
  • C#: Akış giriş olarak KeywordRecognizer kullanılıyorsa bellek yönetimiyle ilgili kilitlenme düzeltildi.
  • ObjectiveC/Swift: Akış, tanıyıcı girişi olarak kullanılıyorsa bellek yönetimiyle ilgili kilitlenme düzeltildi.
  • Windows: UWP üzerinde BT HFP/A2DP ile birlikte bulunma sorunu düzeltildi.
  • JavaScript: Günlüğe kaydetmeyi geliştirmek ve iç hata ayıklama/hizmet bağıntılarına yardımcı olmak için oturum kimliklerinin eşlemesi düzeltildi.
  • JavaScript: İlk çağrı yapıldıktan sonra çağrıları ListenOnce devre dışı bırakmak için DialogServiceConnector düzeltme eklendi.
  • JavaScript: Sonuç çıkışının yalnızca "basit" olması sorunu düzeltildi.
  • JavaScript: macOS üzerinde Safari'de sürekli tanıma sorunu düzeltildi.
  • JavaScript: Yüksek istek aktarım hızı senaryosu için CPU yükü azaltma.
  • JavaScript: Ses Profili Kaydı sonucunun ayrıntılarına erişime izin verin.
  • JavaScript: içinde IntentRecognizersürekli tanıma için düzeltme eklendi.
  • C++/C#/Java/Python/Swift/ObjectiveC: içindeki IntentRecognizeraustraliaeast ve brazilsouth için yanlış URL düzeltildi.
  • C++/C#: Nesne oluşturulurken VoiceProfile bağımsız değişken olarak eklenirVoiceProfileType.
  • C++/C#/Java/Python/Swift/ObjectiveC: Belirli bir konumdan okumaya AudioDataStream çalışırken olası bir durum SPX_INVALID_ARG düzeltildi.
  • IOS: Unity'de konuşma tanıma ile kilitlenme düzeltildi

Örnekler

Bilinen Sorun

  • HoloLens 2 ve Android 4.4'te (KitKat) DigiCert Genel Kök G2 sertifikası varsayılan olarak desteklenmez ve Konuşma SDK'sını işlevsel hale getirmek için sisteme eklenmesi gerekir. Sertifika yakın gelecekte HoloLens 2 işletim sistemi görüntülerine eklenecektir. Android 4.4 müşterilerinin güncelleştirilmiş sertifikayı sisteme eklemesi gerekir.

COVID-19 kısaltılmış test

Son birkaç hafta içinde uzaktan çalışma nedeniyle normalde yaptığımız kadar el ile doğrulama testi yapamadık. Herhangi bir şeyi bozabileceğini düşündüğümüz hiçbir değişiklik yapmadık ve otomatikleştirilmiş testlerimizin hepsi geçti. Bir şeyi kaçırma ihtimalimiz düşükse lütfen GitHub'dan bize bildirin.
Sağlıklı kalın!

Konuşma SDK'sı 1.13.0: 2020-Temmuz sürümü

Not

Windows'da Konuşma SDK'sı, paylaşılan Microsoft Visual Studio için Visual C++ Yeniden Dağıtılabilir 2015, 2017 ve 2019'a bağlıdır. Buradan indirip yükleyin.

Yeni özellikler

  • C#: Zaman uyumsuz konuşma transkripsiyonu desteği eklendi. Buradaki belgelere bakın.
  • JavaScript: Hem tarayıcı hem de Node.js için Konuşmacı Tanıma desteği eklendi.
  • JavaScript: Dil Belirleme/dil kimliği desteği eklendi. Buradaki belgelere bakın.
  • Objective-C: Çok cihazlı konuşma ve konuşma transkripsiyonu desteği eklendi.
  • Python: Windows ve Linux üzerinde Python için sıkıştırılmış ses desteği eklendi. Buradaki belgelere bakın.

Hata düzeltmeleri

  • Tümü: KeywordRecognizer'ın bir tanımadan sonra akışları ileri taşımamasına neden olan bir sorun düzeltildi.
  • Tümü: KeywordRecognitionResult'tan alınan akışın anahtar sözcüğü içermesine neden olan bir sorun düzeltildi.
  • Tümü: Kullanıcılar beklemeyi bitirdikten sonra SendMessageAsync'in iletiyi kablo üzerinden göndermemesi sorunu düzeltildi.
  • Tümü: Kullanıcılar VoiceProfileClient::SpeakerRecEnrollProfileAsync yöntemini birden çok kez çağırdığında ve çağrıların bitmesini beklemediğinde Konuşmacı Tanıma API'lerindeki kilitlenme düzeltildi.
  • Tümü: VoiceProfileClient ve SpeakerRecognizer sınıflarında dosya günlüğünü etkinleştirme düzeltildi.
  • JavaScript: Tarayıcı simge durumuna küçültüldüğünde azaltmayla ilgili bir sorun düzeltildi.
  • JavaScript: Akışlarda bellek sızıntısıyla ilgili bir sorun düzeltildi.
  • JavaScript: NodeJS'den OCSP yanıtları için önbelleğe alma eklendi.
  • Java: BigInteger alanlarının her zaman 0 döndürmesine neden olan bir sorun düzeltildi.
  • iOS: iOS App Store'da Konuşma SDK'sı tabanlı uygulamalar yayımlamayla ilgili bir sorun düzeltildi.

Örnekler

COVID-19 kısaltılmış test

Son birkaç hafta içinde uzaktan çalışma nedeniyle normalde yaptığımız kadar el ile doğrulama testi yapamadık. Herhangi bir şeyi bozabileceğini düşündüğümüz hiçbir değişiklik yapmadık ve otomatikleştirilmiş testlerimizin hepsi geçti. Bir şeyi kaçırma ihtimalimiz düşükse lütfen GitHub'dan bize bildirin.
Sağlıklı kalın!

Konuşma SDK'sı 1.12.1: 2020-Haziran sürümü

Yeni özellikler

  • C#, C++: Konuşmacı Tanıma Önizlemesi: Bu özellik konuşmacı belirleme (kim konuşuyor?) ve konuşmacı doğrulaması (iddia ettikleri konuşmacı mı?) sağlar. Genel bir bakışla başlayın, Konuşmacı Tanıma temel bilgileri makalesini veya API başvuru belgelerini okuyun.

Hata düzeltmeleri

  • C#, C++: Hoparlör Tanıma'da mikrofon kaydı 1.12'de çalışmıyordu.
  • JavaScript: Firefox'ta Metin okuma ve macOS ve iOS'ta Safari için düzeltmeler.
  • Sekiz kanallı akış kullanılırken konuşma transkripsiyonunda Windows uygulama doğrulayıcı erişim ihlali kilitlenmesi için düzeltme.
  • Çok cihazlı konuşma çevirisinde Windows uygulama doğrulayıcı erişim ihlali kilitlenmesi için düzeltme.

Örnekler

COVID-19 kısaltılmış test

Son birkaç hafta içinde uzaktan çalışma nedeniyle normalde yaptığımız kadar el ile doğrulama testi yapamadık. Herhangi bir şeyi bozabileceğini düşündüğümüz hiçbir değişiklik yapmadık ve otomatikleştirilmiş testlerimizin hepsi geçti. Bir şeyi kaçırma ihtimalimiz düşükse lütfen GitHub'dan bize bildirin.
Sağlıklı kalın!

Konuşma SDK'sı 1.12.0: 2020-Mayıs sürümü

Yeni özellikler

  • Git: Konuşma Tanıma ve özel ses yardımcısı için Yeni Go dil desteği. Geliştirme ortamınızı burada ayarlayın. Örnek kod için aşağıdaki Örnekler bölümüne bakın.
  • JavaScript: Metin okuma için Tarayıcı desteği eklendi. Buradaki belgelere bakın.
  • C++, C#, Java: Windows, Android, Linux ve iOS platformlarında desteklenen yeni KeywordRecognizer nesne ve API'ler. Belgeleri buradan okuyun. Örnek kod için aşağıdaki Örnekler bölümüne bakın.
  • Java: Çeviri desteğine sahip çok cihazlı konuşma eklendi. Başvuru belgesine buradan bakın.

İyileştirmeler ve İyileştirmeler

  • JavaScript: Konuşma tanıma doğruluğunu geliştiren iyileştirilmiş tarayıcı mikrofonu uygulaması.
  • Java: SWIG olmadan doğrudan JNI uygulaması kullanılarak yeniden düzenlenmiş bağlamalar. Bu değişiklik, Windows, Android, Linux ve Mac için kullanılan tüm Java paketleri için bağlama boyutunu 10 kat azaltır ve Konuşma SDK'sı Java uygulamasının daha fazla geliştirilmesini kolaylaştırır.
  • Linux: En son RHEL 7'ye özgü notlarla güncelleştirilmiş destek belgeleri .
  • Hizmet ve ağ hataları oluştuğunda birden çok kez bağlanmayı deneyecek şekilde geliştirilmiş bağlantı mantığı.
  • Geliştiricilerin Azure AI Konuşma yolculuğunda bir sonraki adıma geçmelerine yardımcı olmak için portal.azure.com Konuşma Hızlı Başlangıç sayfası güncelleştirildi.

Hata düzeltmeleri

  • C#, Java: Linux ARM'de (hem 32 bit hem de 64 bit) SDK kitaplıklarını yüklemeyle ilgili bir sorun düzeltildi.
  • C#: TranslationRecognizer, IntentRecognizer ve Bağlan ion nesneleri için yerel tanıtıcıların açıkça atılması düzeltildi.
  • C#: ConversationTranscriber nesnesi için ses girişi yaşam süresi yönetimi düzeltildi.
  • Basit ifadelerdeki amaçlar tanınırken sonuç nedeninin düzgün ayarlanmaması sorunu IntentRecognizer düzeltildi.
  • Sonuç uzaklığının SpeechRecognitionEventArgs doğru ayarlanmaması sorunu düzeltildi.
  • SDK'nın websocket bağlantısını açmadan önce ağ iletisi göndermeye çalıştığı yarış durumu düzeltildi. Katılımcı eklerken için TranslationRecognizer yeniden üretilebilirdi.
  • Anahtar sözcük tanıma altyapısındaki bellek sızıntıları düzeltildi.

Örnekler

COVID-19 kısaltılmış test

Son birkaç hafta içinde uzaktan çalışma nedeniyle normalde yaptığımız kadar el ile doğrulama testi yapamadık. Herhangi bir şeyi bozabileceğini düşündüğümüz hiçbir değişiklik yapmadık ve otomatikleştirilmiş testlerimizin hepsi geçti. Bir şeyi kaçırdıysak lütfen GitHub'dan bize bildirin.
Sağlıklı kalın!

Konuşma SDK'sı 1.11.0: 2020-Mart sürümü

Yeni özellikler

  • Linux: Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 desteği eklendi ve sistemin Konuşma SDK'sı için nasıl yapılandırılma yönergeleri eklendi.
  • Linux: Linux ARM32 ve ARM64 üzerinde .NET Core C# desteği eklendi. Daha fazla bilgi için buraya bakabilirsiniz.
  • C#, C++: tüm ara bileşenlerde tutarlı bir kimlik ve son konuşma tanıma sonucuna eklendi UtteranceIdConversationTranscriptionResult. C#, C++ için ayrıntılar.
  • Python: için Language IDdestek eklendi. Bkz. GitHub deposundaki speech_sample.py.
  • Windows: Tüm win32 konsol uygulamaları için Windows platformunda sıkıştırılmış ses giriş biçimi desteği eklendi. Ayrıntılar burada.
  • JavaScript: NodeJS'de konuşma sentezi (metin okuma) desteği. Buradan daha fazla bilgi edinin.
  • JavaScript: Tüm gönderilen ve alınan iletilerin denetlenebilmesi için yeni API'ler ekleyin. Buradan daha fazla bilgi edinin.

Hata düzeltmeleri

  • C#, C++: İkili iletinin ikili tür olarak gönderebilmesine neden olan bir sorun SendMessageAsync düzeltildi. C#, C++ için ayrıntılar.
  • C#, C++: Nesneden önce Connection atılırsa Recognizer olayın kullanılması Connection MessageReceived kilitlenmeye neden olabilen bir sorun düzeltildi. C#, C++ için ayrıntılar.
  • Android: Gecikme süresini artırmak için mikrofondan ses arabelleği boyutu 800 ms'den 100 ms'ye düştü.
  • Android: Android Studio'da x86 Android öykünücüsü ile ilgili bir sorun düzeltildi.
  • JavaScript: API ile fromSubscription Çin'deki Bölgeler için destek eklendi. Ayrıntılar burada.
  • JavaScript: NodeJS'den bağlantı hataları için daha fazla hata bilgisi ekleyin.

Örnekler

  • Unity: Luis json içeri aktarmanın başarısız olduğu amaç tanıma genel örneği düzeltildi. Ayrıntılar burada.
  • Python: için Language IDörnek eklendi. Ayrıntılar burada.

Covid19 kısaltılmış test: Son birkaç hafta içinde uzaktan çalışma nedeniyle normalde yaptığımız kadar el ile cihaz doğrulama testi yapamadık. Örneğin Linux, iOS ve macOS'ta mikrofon girişini ve hoparlör çıkışını test edemedik. Bu platformlarda herhangi bir şeyi bozabileceğini düşündüğümüz hiçbir değişiklik yapmadık ve otomatikleştirilmiş testlerimizin hepsi geçti. Bir şeyi kaçırma ihtimalimiz düşükse GitHub'da bize bildirin.
Devam eden desteğiniz için teşekkür ederiz. Her zaman olduğu gibi lütfen GitHub veya Stack Overflow ile ilgili sorular veya geri bildirim gönderin.
Sağlıklı kalın!

Konuşma SDK'sı 1.10.0: 2020-Şubat sürümü

Yeni özellikler

  • Python'ın yeni 3.8 sürümünü desteklemek için Python paketleri eklendi.
  • Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 desteği (C++, C#, Java, Python).

    Not

    Müşterilerin OpenSSL'yi bu yönergelere göre yapılandırmaları gerekir.

  • Debian ve Ubuntu için Linux ARM32 desteği.
  • DialogService Bağlan or artık BotFrameworkConfig üzerinde isteğe bağlı bir "bot kimliği" parametresini destekliyor. Bu parametre, tek bir Konuşma kaynağıyla birden çok Direct Line Speech botunun kullanılmasına olanak tanır. Parametresi belirtilmediğinde, varsayılan bot (Direct Line Speech kanalı yapılandırma sayfası tarafından belirlendiği gibi) kullanılır.
  • DialogService Bağlan veya artık bir SpeechActivityTemplate özelliğine sahip. Bu JSON dizesinin içeriği Direct Line Speech tarafından, konuşma tanıma gibi olaylara yanıt olarak otomatik olarak oluşturulan etkinlikler de dahil olmak üzere bir Direct Line Speech bot'a ulaşan tüm etkinliklerde desteklenen çok çeşitli alanları önceden doldurmak için kullanılır.
  • TTS artık kimlik doğrulaması için abonelik anahtarını kullanarak bir sentezleyici oluşturduktan sonra ilk sentezleme sonucunun ilk bayt gecikme süresini azaltıyor.
  • 19 yerel ayar için %18,6 ortalama sözcük hata oranı azaltması için konuşma tanıma modelleri güncelleştirildi (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Yeni modeller Dikte, Çağrı Merkezi Transkripsiyonu ve Video Dizin Oluşturma senaryoları dahil olmak üzere birden çok etki alanı genelinde önemli geliştirmeler sunar.

Hata düzeltmeleri

  • Konuşma Transcriber'ın JAVA API'lerinde düzgün bekleyememe hatası düzeltildi
  • Xamarin GitHub sorunu için Android x86 öykünücüsü düzeltmesi
  • Eksik ekleme (Get|Set)Property methods to AudioConfig
  • Bağlantı başarısız olduğunda audioDataStream'in durdurulamamasına neden olan TTS hatasını düzeltme
  • Bölge olmadan uç nokta kullanmak konuşma çeviricisinde USP hatalarına neden olabilir
  • Evrensel Windows Uygulamalarında kimlik oluşturma artık uygun şekilde benzersiz bir GUID algoritması kullanıyor; daha önce ve istemeden, genellikle büyük etkileşim kümeleri üzerinde çakışmalar üreten saplanmış bir uygulama olarak varsayılan olarak kullanılırdı.

Örnekler

Diğer değişiklikler

Konuşma SDK'sı 1.9.0: 2020-Ocak sürümü

Yeni özellikler

  • Çok cihazlı konuşma: Birden çok cihazı aynı konuşmaya veya metin tabanlı konuşmaya bağlayın ve isteğe bağlı olarak bunlar arasında gönderilen iletileri çevirin. Bu makalede daha fazla bilgi edinin.
  • Android .aar paketi için anahtar sözcük tanıma desteği eklendi ve x86 ve x64 tatları için destek eklendi.
  • Objective-C: SendMessage ve SetMessageProperty nesnesine Connection eklenen yöntemler. Buradaki belgelere bakın.
  • TTS C++ api'si artık birleştirme metin girişi olarak destekleyerek std::wstring bir wstring'i SDK'ya geçirmeden önce dizeye dönüştürme gereksinimini ortadan kaldırıyor. Ayrıntılar için buraya bakın.
  • C#: Dil kimliği ve kaynak dil yapılandırması artık kullanılabilir.
  • JavaScript: Konuşma hizmetinden gelen özel iletileri geri receivedServiceMessageçağırma olarak geçirmek için Connection nesnesine bir özellik eklendi.
  • JavaScript: Şirket içi kapsayıcılar ve bağımsız bulutlarla kullanımı kolaylaştırmak için FromHost API için desteği eklendi. Buradaki belgelere bakın.
  • JavaScript: Kuruluş kuruluşlarının katkılarından dolayı onur NODE_TLS_REJECT_UNAUTHORIZED duyuyoruz. Ayrıntılar için buraya bakın.

Hataya neden olan değişiklikler

  • OpenSSL 1.1.1b sürümüne güncelleştirildi ve Linux için Konuşma SDK'sı çekirdek kitaplığına statik olarak bağlandı. Gelen kutunuz OpenSSL sistemdeki dizine yüklenmemişse bu bir kesmeye /usr/lib/ssl neden olabilir. Sorunu geçici olarak çözmek için Konuşma SDK'sı belgeleri altındaki belgelerimize bakın.
  • Konuşma verileri 2 dakikadan uzun olduğunda erişime WordLevelTimingResults izin vermek için C# longWordLevelTimingResult.Offsetint için döndürülen veri türünü olarak değiştirdik.
  • PushAudioInputStream ve PullAudioInputStream şimdi wav üst bilgisi bilgilerini, isteğe bağlı olarak oluşturulduklarında belirtilen temelinde AudioStreamFormatKonuşma hizmetine gönderin. Müşterilerin artık desteklenen ses giriş biçimini kullanması gerekir. Diğer biçimler en iyi olmayan tanıma sonuçlarını alır veya başka sorunlara neden olabilir.

Hata düzeltmeleri

  • Yukarıdaki Hataya neden olan OpenSSL değişiklikler'in altındaki güncelleştirmeye bakın. Linux ve Java'da hem aralıklı kilitlenme hem de performans sorununu (yüksek yük altında çakışmayı kilitleme) düzeltildi.
  • Java: Yüksek eşzamanlılık senaryolarında nesne kapatmada geliştirmeler yapıldı.
  • NuGet paketimiz yeniden yapılandırıldı. Lib klasörlerinin Microsoft.CognitiveServices.Speech.core.dll ve Microsoft.CognitiveServices.Speech.extension.kws.dll altındaki üç kopyasını kaldırarak NuGet paketinin indirilmesi daha küçük ve hızlı hale geldik ve bazı C++ yerel uygulamalarını derlemek için gereken üst bilgileri ekledik.
  • Burada hızlı başlangıç örnekleri düzeltildi. Bunlar Linux, macOS, Windows'ta "mikrofon bulunamadı" özel durumu görüntülenmeden çıkıyordu.
  • Bu örnek gibi belirli kod yollarında uzun konuşma tanıma sonuçlarıyla SDK kilitlenmesi düzeltildi.
  • Bu müşteri sorununu gidermek için Azure Web App ortamında SDK dağıtım hatası düzeltildi.
  • Bu müşteri sorununu çözmek için çoklu <voice> etiket veya <audio> etiket kullanılırken TTS hatası düzeltildi.
  • SDK askıya alınmış durumdan kurtarıldığında TTS 401 hatası düzeltildi.
  • JavaScript: euirim'in katkıları sayesinde ses verilerinin döngüsel içeri aktarılması düzeltildi.
  • JavaScript: 1.7'de eklendiği gibi hizmet özelliklerini ayarlama desteği eklendi.
  • JavaScript: Bağlantı hatasının sürekli, başarısız websocket yeniden bağlanma girişimlerine neden olduğu bir sorun düzeltildi.

Örnekler

  • Buraya Android için anahtar sözcük tanıma örneği eklendi.
  • Buraya sunucu senaryosu için TTS örneği eklendi.
  • Buraya C# ve C++ için çok cihazlı konuşma hızlı başlangıçları eklendi.

Diğer değişiklikler

  • Android'de iyileştirilmiş SDK çekirdek kitaplığı boyutu.
  • 1.9.0 ve üzeri sürümlerdeki SDK, Konuşma Dökümleyicisi için ses imzası sürüm alanında hem hem de intstring türlerini destekler.

Konuşma SDK'sı 1.8.0: 2019-Kasım sürümü

Yeni özellikler

  • Şirket içi kapsayıcılar ve bağımsız bulutlarla kullanımı kolaylaştırmak için bir FromHost() API eklendi.
  • Konuşma Tanıma için Kaynak Dil Belirleme eklendi (Java ve C++'da)
  • Konuşma Tanıma için, beklenen kaynak dilleri belirtmek için kullanılan nesne eklendi SourceLanguageConfig (Java ve C++'ta)
  • NuGet ve Unity paketleri aracılığıyla Windows (UWP), Android ve iOS'ta destek eklendi KeywordRecognizer
  • Zaman uyumsuz toplu işlerde Konuşma Transkripsiyonu yapmak için Uzak Konuşma Java API'si eklendi.

Hataya neden olan değişiklikler

  • Konuşma Transkriptör işlevleri ad alanı Microsoft.CognitiveServices.Speech.Transcriptionaltına taşındı.
  • Konuşma Transcriber yöntemlerinin bölümleri yeni Conversation sınıfa taşınır.
  • 32 bit (ARMv7 ve x86) iOS desteği bırakıldı

Hata düzeltmeleri

  • Yerel KeywordRecognizer geçerli bir Konuşma tanıma hizmeti abonelik anahtarı olmadan kullanılıyorsa kilitlenme sorunu düzeltiliyor

Örnekler

  • için Xamarin örneği KeywordRecognizer
  • Unity örneği KeywordRecognizer
  • Otomatik Kaynak Dili Belirleme için C++ ve Java örnekleri.

Konuşma SDK'sı 1.7.0: 2019-Eylül sürümü

Yeni özellikler

  • Evrensel Windows Platformu (UWP), Android ve iOS'ta Xamarin için beta desteği eklendi
  • Unity için iOS desteği eklendi
  • Android, iOS ve Linux'ta ALaw, Mulaw, FLAC için giriş desteği eklendi Compressed
  • Connection hizmete ileti göndermek için sınıfına eklendi SendMessageAsync
  • İletinin Connection özelliğini ayarlamak için sınıfına eklendi SetMessageProperty
  • Java (JRE ve Android), Python, Swift ve Objective-C için TTS bağlamaları eklendi
  • TTS, macOS, iOS ve Android için kayıttan yürütme desteği ekledi.
  • TTS için "sözcük sınırı" bilgileri eklendi.

Hata düzeltmeleri

  • Android için Unity 2019'da IL2CPP derleme sorunu düzeltildi
  • Wav dosya girişinde hatalı biçimlendirilmiş üst bilgilerin yanlış işlenmesiyle ilgili sorun düzeltildi
  • UUID'lerin bazı bağlantı özelliklerinde benzersiz olmaması sorunu düzeltildi
  • Swift bağlamalarındaki nullability tanımlayıcıları hakkında birkaç uyarı düzeltildi (küçük kod değişiklikleri gerekebilir)
  • Ağ yükü altında websocket bağlantılarının düzgün bir şekilde kapatılmasına neden olan bir hata düzeltildi
  • Android'de bazen tarafından kullanılan yinelenen gösterim kimlikleriyle sonuçlanan bir sorun düzeltildi DialogServiceConnector
  • Çoklu dönüş etkileşimleri arasındaki bağlantıların kararlılığında ve hatalarla karşılaşıldığında hataların (olaylar aracılığıyla Canceled ) raporlanmasında iyileştirmeler DialogServiceConnector
  • DialogServiceConnector oturum başlatmaları artık etkin bir süre boyunca arama ListenOnceAsync() da dahil olmak üzere olayları düzgün bir şekilde sağlayacak StartKeywordRecognitionAsync()
  • Alınan etkinliklerle DialogServiceConnector ilişkili kilitlenme giderildi

Örnekler

  • Xamarin için Hızlı Başlangıç
  • Linux ARM64 bilgileriyle güncelleştirilmiş CPP Hızlı Başlangıcı
  • Unity hızlı başlangıcı iOS bilgileriyle güncelleştirildi

Konuşma SDK'sı 1.6.0: 2019-Haziran sürümü

Örnekler

  • UWP ve Unity'de Metin Okuma için hızlı başlangıç örnekleri
  • iOS'ta Swift için hızlı başlangıç örneği
  • Konuşma ve Amaç Tanıma ve Çeviri için Unity örnekleri
  • için güncelleştirilmiş hızlı başlangıç örnekleri DialogServiceConnector

İyileştirmeler / Değişiklikler

  • İletişim kutusu ad alanı:
    • SpeechBotConnector, DialogServiceConnector olarak yeniden adlandırıldı
    • BotConfig, DialogServiceConfig olarak yeniden adlandırıldı
    • BotConfig::FromChannelSecret() yeniden eşlendi DialogServiceConfig::FromBotSecret()
    • Yeniden adlandırmadan sonra tüm mevcut Direct Line Speech istemcileri desteklenmeye devam ediyor
  • TTS REST bağdaştırıcısını ara sunucuyu, kalıcı bağlantıyı destekleyecek şekilde güncelleştirme
  • Geçersiz bölge geçirildiğinde hata iletisini iyileştirme
  • Swift/Objective-C:
    • Geliştirilmiş hata raporlama: Hataya neden olabilecek yöntemler artık iki sürümde mevcuttur: Bir nesnenin hata işleme için kullanıma sunulması NSError ve özel durum oluşturması. İlki Swift'e maruz kaldı. Bu değişiklik için mevcut Swift koduna uyarlama yapılması gerekir.
    • Geliştirilmiş olay işleme

Hata düzeltmeleri

  • TTS için düzeltme: ses işleme tamamlanana kadar beklemeden geleceğin döndürdüğü yer SpeakTextAsync
  • Tam dil desteğini etkinleştirmek için C# dilinde dizeleri hazırlama düzeltmesi
  • Örneklerde net461 hedef çerçevesi ile çekirdek kitaplığını yüklemek için .NET Core uygulama sorunu düzeltildi
  • Örneklerde çıkış klasörüne yerel kitaplıkları dağıtmaya yönelik zaman zaman karşılaşılan sorunlar için düzeltme
  • Web yuvasının güvenilir bir şekilde kapatılması için düzeltme
  • Linux'ta yoğun yük altında bir bağlantı açılırken olası kilitlenme sorunu düzeltilir
  • macOS için çerçeve paketinde eksik meta veriler için düzeltme
  • Windows'ta ile pip install --user ilgili sorunlar için düzeltme

Konuşma SDK'sı 1.5.1

Bu bir hata düzeltme sürümüdür ve yalnızca yerel/yönetilen SDK'yi etkiler. SDK'nın JavaScript sürümünü etkilemez.

Hata düzeltmeleri

  • Konuşma Transkripsiyonu ile kullanıldığında FromSubscription'ı düzeltin.
  • Ses Yardımcıları için anahtar sözcük tespitindeki hatayı düzeltin.

Konuşma SDK'sı 1.5.0: 2019-Mayıs sürümü

Yeni özellikler

  • Anahtar sözcük tespiti (KWS) artık Windows ve Linux için kullanılabilir. KWS işlevselliği herhangi bir mikrofon türüyle çalışabilir ve resmi KWS desteği şu anda Azure Kinect DK donanımında veya Konuşma Cihazları SDK'sında bulunan mikrofon dizileriyle sınırlıdır.
  • tümcecik ipucu işlevselliği SDK aracılığıyla kullanılabilir. Daha fazla bilgi için buraya bakın.
  • Konuşma transkripsiyonu işlevselliği SDK aracılığıyla kullanılabilir.
  • Doğrudan Çizgi Konuşma kanalını kullanarak Sesli Yardımcılar için destek ekleyin.

Örnekler

  • SDK tarafından desteklenen yeni özellikler veya yeni hizmetler için örnekler eklendi.

İyileştirmeler / Değişiklikler

  • Hizmet davranışını veya hizmet sonuçlarını ayarlamak için çeşitli tanıyıcı özellikleri eklendi (küfürleri maskeleme ve diğerleri gibi).
  • Artık tanıyıcıyı oluşturmuş olsanız bile standart yapılandırma özellikleri aracılığıyla tanıyıcıyı FromEndpointyapılandırabilirsiniz.
  • Objective-C: OutputFormat özelliği öğesine SPXSpeechConfigurationeklendi.
  • SDK artık Linux dağıtımı olarak Debian 9'a destek veriyor.

Hata düzeltmeleri

  • Konuşmacı kaynağının metinden konuşmaya çok erken yok edildiği bir sorun düzeltildi.

Konuşma SDK'sı 1.4.2

Bu bir hata düzeltme sürümüdür ve yalnızca yerel/yönetilen SDK'yi etkiler. SDK'nın JavaScript sürümünü etkilemez.

Konuşma SDK'sı 1.4.1

Bu yalnızca JavaScript sürümüdür. Hiçbir özellik eklenmedi. Aşağıdaki düzeltmeler yapıldı:

  • Web paketinin https-proxy-agent yüklemesini engelleyin.

Konuşma SDK'sı 1.4.0: 2019-Nisan sürümü

Yeni özellikler

  • SDK artık Metin okuma hizmetini beta sürümü olarak destekliyor. C++ ve C# ile Windows ve Linux Desktop'ta desteklenir. Daha fazla bilgi için Metne konuşmaya genel bakış'a bakın.
  • SDK artık akış giriş dosyaları olarak MP3 ve Opus/OGG ses dosyalarını destekliyor. Bu özellik yalnızca C++ ve C# ile Linux'ta kullanılabilir ve şu anda beta sürümündedir (burada daha fazla ayrıntı bulabilirsiniz).
  • Java, .NET core, C++ ve Objective-C için Konuşma SDK'sı macOS desteği kazandı. macOS için Objective-C desteği şu anda beta sürümündedir.
  • iOS: iOS için Konuşma SDK'sı (Objective-C) artık CocoaPod olarak da yayımlanmaktadır.
  • JavaScript: Giriş cihazı olarak varsayılan olmayan mikrofon desteği.
  • JavaScript: Node.js için ara sunucu desteği.

Örnekler

  • Konuşma SDK'sını C++ ve macOS üzerinde Objective-C ile kullanma örnekleri eklendi.
  • Metin okuma hizmetinin kullanımını gösteren örnekler eklendi.

İyileştirmeler / Değişiklikler

  • Python: Tanıma sonuçlarının ek özellikleri artık özelliği aracılığıyla properties kullanıma sunuldu.
  • Ek geliştirme ve hata ayıklama desteği için SDK günlüğü ve tanılama bilgilerini bir günlük dosyasına yönlendirebilirsiniz (burada daha fazla ayrıntı bulabilirsiniz).
  • JavaScript: Ses işleme performansını geliştirin.

Hata düzeltmeleri

  • Mac/iOS: Konuşma tanıma hizmetine bağlantı kurulamadığında uzun süre beklemeye neden olan bir hata düzeltildi.
  • Python: Python geri çağırmalarında bağımsız değişkenler için hata işlemeyi geliştirin.
  • JavaScript: RequestSession'da konuşma için yanlış durum bildiriminin sona ermesi düzeltildi.

Konuşma SDK'sı 1.3.1: 2019-Şubat yenilemesi

Bu bir hata düzeltme sürümüdür ve yalnızca yerel/yönetilen SDK'yi etkiler. SDK'nın JavaScript sürümünü etkilemez.

Hata düzeltmesi

  • Mikrofon girişi kullanılırken bellek sızıntısı düzeltildi. Akış tabanlı veya dosya girişi etkilenmez.

Konuşma SDK'sı 1.3.0: 2019-Şubat sürümü

Yeni özellikler

  • Konuşma SDK'sı, giriş mikrofonunun sınıfı üzerinden seçilmesini AudioConfig destekler. Bu, ses verilerini varsayılan olmayan bir mikrofondan Konuşma hizmetine akışla aktarmanızı sağlar. Daha fazla bilgi için ses giriş cihazı seçimini açıklayan belgelere bakın. Bu özellik henüz JavaScript'ten sağlanmamıştır.
  • Konuşma SDK'sı artık beta sürümünde Unity'yi destekliyor. GitHub örnek deposundaki sorun bölümünden geri bildirim sağlayın. Bu sürüm, Windows x86 ve x64 (masaüstü veya Evrensel Windows Platformu uygulamaları) ve Android (ARM32/64, x86) üzerinde Unity'yi destekler. Unity hızlı başlangıcımızda daha fazla bilgi bulabilirsiniz.
  • Dosya Microsoft.CognitiveServices.Speech.csharp.bindings.dll (önceki sürümlerde gönderilir) artık gerekli değildir. İşlev artık çekirdek SDK ile tümleştirilmiştir.

Örnekler

Örnek depomuzda aşağıdaki yeni içerik kullanılabilir:

  • için AudioConfig.FromMicrophoneInputek örnekler.
  • Amaç tanıma ve çeviri için ek Python örnekleri.
  • iOS'ta nesnesini kullanmak Connection için ek örnekler.
  • Ses çıkışıyla çeviri için ek Java örnekleri.
  • Batch Transkripsiyon REST API'sinin kullanımı için yeni örnek.

İyileştirmeler / Değişiklikler

  • Python
    • içindeki SpeechConfigparametre doğrulaması ve hata iletileri iyileştirildi.
    • Nesnesi için Connection destek ekleyin.
    • Windows'da 32 bit Python (x86) desteği.
    • Python için Konuşma SDK'sı beta sürümünden çıktı.
  • Ios
    • SDK artık iOS SDK sürüm 12.1'e göre oluşturulmuş.
    • SDK artık iOS 9.2 ve sonraki sürümleri desteklemektedir.
    • Başvuru belgelerini geliştirin ve çeşitli özellik adlarını düzeltin.
  • JavaScript
    • Nesnesi için Connection destek ekleyin.
    • Paketlenmiş JavaScript için tür tanımı dosyaları ekleme
    • tümcecik ipuçları için ilk destek ve uygulama.
    • Tanıma için JSON hizmetiyle özellik koleksiyonu döndürme
  • Windows DLL'leri artık bir sürüm kaynağı içeriyor.
  • Bir tanıyıcı FromEndpointoluşturursanız, parametreleri doğrudan uç nokta URL'sine ekleyebilirsiniz. Kullanarak FromEndpoint , standart yapılandırma özellikleri aracılığıyla tanıyıcıyı yapılandıramazsınız.

Hata düzeltmeleri

  • Boş proxy kullanıcı adı ve proxy parolası doğru işlenmedi. Bu sürümde, proxy kullanıcı adı ve proxy parolasını boş bir dizeye ayarlarsanız, ara sunucuya bağlanırken gönderilmez.
  • SDK tarafından oluşturulan SessionId, bazı diller /ortamlar için her zaman gerçekten rastgele değildi. Bu sorunu düzeltmek için rastgele oluşturucu başlatması eklendi.
  • Yetkilendirme belirtecinin işlenmesini geliştirin. Yetkilendirme belirteci kullanmak istiyorsanız, içinde belirtin SpeechConfig ve abonelik anahtarını boş bırakın. Ardından her zamanki gibi tanıyıcıyı oluşturun.
  • Bazı durumlarda nesne Connection doğru şekilde serbest bırakılmadı. Bu sorun düzeltilmiştir.
  • JavaScript örneği, Safari'de de çeviri sentezi için ses çıkışını destekleyecek şekilde düzeltildi.

Konuşma SDK'sı 1.2.1

Bu yalnızca JavaScript sürümüdür. Hiçbir özellik eklenmedi. Aşağıdaki düzeltmeler yapıldı:

  • Akışın sonunu speech.end'de değil turn.end'de çalıştır.
  • Geçerli gönderme başarısız olursa bir sonraki göndermeyi zamanlamayan ses pompasındaki hata düzeltildi.
  • Kimlik doğrulama belirteci ile sürekli tanımayı düzeltin.
  • Farklı tanıyıcı / uç noktalar için hata düzeltmesi.
  • Belge geliştirmeleri.

Konuşma SDK'sı 1.2.0: 2018-Aralık sürümü

Yeni özellikler

  • Python
    • Python desteğinin Beta sürümü (3.5 ve üzeri) bu sürümde kullanılabilir. Daha fazla bilgi için buraya bakın](.. /.. /quickstart-python.md).
  • JavaScript
    • JavaScript için Konuşma SDK'sı açık kaynaklıdır. Kaynak kodu GitHub'da kullanılabilir.
    • Artık Node.js destekliyoruz, burada daha fazla bilgi bulabilirsiniz.
    • Ses oturumları için uzunluk kısıtlaması kaldırıldı, yeniden bağlantı kapağın altında otomatik olarak gerçekleşir.
  • Connection Nesne
    • öğesinden Recognizerbir Connection nesneye erişebilirsiniz. Bu nesne, hizmet bağlantısını açıkça başlatmanıza ve olaylara bağlanmak ve bağlantıyı kesmek için abone olmanıza olanak tanır. (Bu özellik henüz JavaScript ve Python'dan sağlanmamıştır.)
  • Ubuntu 18.04 desteği.
  • Android
    • APK oluşturma sırasında ProGuard desteği etkinleştirildi.

İyileştirmeler

  • İş parçacığı, kilit, muteks sayısını azaltarak iç iş parçacığı kullanımındaki geliştirmeler.
  • Geliştirilmiş hata raporlama / bilgi. Bazı durumlarda hata iletileri tamamen yayılmamıştır.
  • JavaScript'teki geliştirme bağımlılıkları güncel modülleri kullanacak şekilde güncelleştirildi.

Hata düzeltmeleri

  • içindeki RecognizeAsyncbir tür uyuşmazlığı nedeniyle bellek sızıntıları düzeltildi.
  • Bazı durumlarda özel durumlar sızdırılıyordu.
  • Çeviri olayı bağımsız değişkenlerinde bellek sızıntısı düzeltildi.
  • Uzun süre çalışan oturumlarda yeniden bağlanmada oluşan bir kilitleme sorunu düzeltildi.
  • Başarısız çeviriler için nihai sonucun eksik olmasıyla sonuçlanabilir bir sorun düzeltildi.
  • C#: Ana iş parçacığında bir async işlem beklenmiyorsa, zaman uyumsuz görev tamamlanmadan önce tanıyıcı atılabilirdi.
  • Java: Java VM'sinin kilitlenmesine neden olan bir sorun düzeltildi.
  • Objective-C: Sabit sabit sabit listesi eşlemesi; yerine RecognizingIntentRecognizedIntent döndürüldü.
  • JavaScript: içinde varsayılan çıkış biçimini 'simple' olarak SpeechConfigayarlayın.
  • JavaScript: JavaScript ve diğer dillerdeki yapılandırma nesnesindeki özellikler arasındaki tutarsızlığı kaldırma.

Örnekler

  • Çeşitli örnekler (örneğin çeviri için çıkış sesleri vb.) güncelleştirildi ve düzeltildi.
  • Örnek depoya Node.js örnekleri eklendi.

Konuşma SDK'sı 1.1.0

Yeni özellikler

  • Android x86/x64 desteği.
  • Proxy Desteği: Nesnesinde SpeechConfig artık proxy bilgilerini (ana bilgisayar adı, bağlantı noktası, kullanıcı adı ve parola) ayarlamak için bir işlev çağırabilirsiniz. Bu özellik henüz iOS'ta kullanılamaz.
  • Geliştirilmiş hata kodu ve iletiler. Bir tanıma hata döndürdüyse, bu zaten (iptal edilen olayda) veya CancellationDetails (tanıma sonucunda) olarak ayarlanmıştır.ErrorReason İptal edilen olay artık ve adlı iki ek üye ErrorCodeErrorDetailsiçerir. Sunucu bildirilen hatayla birlikte ek hata bilgileri döndürdüyse, artık yeni üyelerde kullanılabilir.

İyileştirmeler

  • Tanıyıcı yapılandırmasına ek doğrulama eklendi ve ek hata iletisi eklendi.
  • Ses dosyasının ortasında uzun süreli sessizliğin işlenmesi geliştirildi.
  • NuGet paketi: .NET Framework projeleri için AnyCPU yapılandırmasıyla derlemeyi engeller.

Hata düzeltmeleri

  • Tanıyıcılarda bulunan birkaç özel durum düzeltildi. Ayrıca, özel durumlar yakalanıp olaya dönüştürülür Canceled .
  • Özellik yönetiminde bellek sızıntısını düzeltin.
  • Ses giriş dosyasının tanıyıcıyı kilitleyebildiği hata düzeltildi.
  • Oturum durdurma olayından sonra olayların alınabildiği bir hata düzeltildi.
  • Yazışmadaki bazı yarış koşulları düzeltildi.
  • Kilitlenmeye neden olabilecek bir iOS uyumluluk sorunu düzeltildi.
  • Android mikrofon desteği için kararlılık iyileştirmeleri.
  • JavaScript'teki bir tanıyıcının tanıma dilini yoksaydığı bir hata düzeltildi.
  • JavaScript'te (bazı durumlarda) ayarını EndpointId engelleyen bir hata düzeltildi.
  • JavaScript'te AddIntent parametresi sırası değiştirildi ve eksik AddIntent JavaScript imzası eklendi.

Örnekler

  • Örnek depoda çekme ve gönderme akışı kullanımı için C++ ve C# örnekleri eklendi.

Konuşma SDK'sı 1.0.1

Güvenilirlik iyileştirmeleri ve hata düzeltmeleri:

  • Tanıyıcıyı yok etmede yarış durumundan kaynaklanan olası önemli hata düzeltildi
  • Kümeyi kaldırma özellikleri oluştuğunda olası önemli hata düzeltildi.
  • Ek hata ve parametre denetimi eklendi.
  • Objective-C: NSString'de adı geçersiz kılmanın neden olduğu olası önemli hata düzeltildi.
  • Objective-C: API'nin görünürlüğü ayarlandı
  • JavaScript: Olaylar ve yükleriyle ilgili düzeltildi.
  • Belge geliştirmeleri.

Örnek depomuzda JavaScript için yeni bir örnek eklendi.

Azure AI Konuşma SDK'sı 1.0.0: 2018-Eylül sürümü

Yeni özellikler

Hataya neden olan değişiklikler

  • Bu sürümle birlikte, bir dizi hataya neden olan değişiklik kullanıma sunulmuştur. Ayrıntılar için bu sayfaya bakın.

Azure AI Konuşma SDK'sı 0.6.0: 2018-Ağustos sürümü

Yeni özellikler

  • Konuşma SDK'sı ile oluşturulan UWP uygulamaları artık Windows Uygulama Sertifikasyon Seti'ni (WACK) geçirebilir. UWP hızlı başlangıcına göz atın.
  • Linux üzerinde .NET Standard 2.0 desteği (Ubuntu 16.04 x64).
  • Deneysel: Windows (64 bit) ve Linux üzerinde Java 8'i (Ubuntu 16.04 x64) destekleyin. Java Çalışma Zamanı Ortamı hızlı başlangıcına göz atın.

İşlevsel değişiklik

  • Bağlantı hatalarıyla ilgili ek hata ayrıntı bilgilerini kullanıma sunma.

Hataya neden olan değişiklikler

  • Java'da (Android) SpeechFactory.configureNativePlatformBindingWithDefaultCertificate işlev artık bir yol parametresi gerektirmez. Artık yol desteklenen tüm platformlarda otomatik olarak algılanır.
  • Java ve C# içindeki özelliğin EndpointUrl get-accessor öğesi kaldırıldı.

Hata düzeltmeleri

  • Java'da, çeviri tanıyıcıdaki ses sentezi sonucu şimdi uygulanır.
  • Etkin olmayan iş parçacıklarına ve artan sayıda açık ve kullanılmayan yuvaya neden olabilecek bir hata düzeltildi.
  • Uzun süre çalışan bir tanımanın iletimin ortasında sonlandırıldığı bir sorun düzeltildi.
  • Tanıyıcı kapatma işlemindeki bir yarış durumu düzeltildi.

Azure AI Konuşma SDK'sı 0.5.0: 2018-Temmuz sürümü

Yeni özellikler

  • Android platform desteği (API 23: Android 6.0 Marshmallow veya üzeri). Android hızlı başlangıcına göz atın.
  • Windows üzerinde .NET Standard 2.0 desteği. .NET Core hızlı başlangıcına göz atın.
  • Deneysel: Windows'ta UWP desteği (sürüm 1709 veya üzeri).
    • UWP hızlı başlangıcına göz atın.
    • Konuşma SDK'sı ile oluşturulan UWP uygulamalarının henüz Windows Uygulama Sertifikasyon Seti'ni (WACK) geçirmediğini unutmayın.
  • Otomatik yeniden bağlantı ile uzun süre çalışan tanımayı destekler.

İşlevsel değişiklikler

  • StartContinuousRecognitionAsync() uzun süre çalışan tanımayı destekler.
  • Tanıma sonucu daha fazla alan içerir. Tanınan metnin ses başlangıcı ve süresinden (her ikisi de değer çizgileriyle) ve tanıma durumunu temsil eden ek değerlerden (örneğin InitialSilenceTimeout ve InitialBabbleTimeout) uzaktır.
  • Fabrika örnekleri oluşturmak için AuthorizationToken'i destekleyin.

Hataya neden olan değişiklikler

  • Tanıma olayları: NoMatch olay türü olayla Error birleştirildi.
  • C# dilinde SpeechOutputFormat, C++ ile uyumlu kalacak şekilde yeniden adlandırıldı OutputFormat .
  • Arabirimin bazı yöntemlerinin AudioInputStream dönüş türü biraz değişti:
    • Java'da read yöntemi artık yerine intdöndürürlong.
    • C# dilinde Read yöntemi artık yerine intdöndürüruint.
    • C++Read'ta ve GetFormat yöntemleri artık yerine intdöndürürsize_t.
  • C++: Ses giriş akışlarının örnekleri artık yalnızca olarak shared_ptrgeçirilebilir.

Hata düzeltmeleri

  • Zaman aşımına uğradıklarında RecognizeAsync() sonuçtaki yanlış dönüş değerleri düzeltildi.
  • Windows'ta media foundation kitaplıklarına bağımlılık kaldırıldı. SDK artık Çekirdek Ses API'lerini kullanıyor.
  • Belge düzeltmesi: Desteklenen bölgeleri açıklamak için bir bölgeler sayfası eklendi.

Bilinen Sorun

  • Android için Konuşma SDK'sı çeviri için konuşma sentezi sonuçlarını raporlamaz. Bu sorun bir sonraki sürümde düzeltilecektir.

Azure AI Konuşma SDK'sı 0.4.0: 2018-Haziran sürümü

İşlevsel değişiklikler

  • AudioInputStream

    Bir tanıyıcı artık ses kaynağı olarak bir akış kullanabilir. Daha fazla bilgi için ilgili nasıl yapılır kılavuzuna bakın.

  • Ayrıntılı çıkış biçimi

    Oluşturduğunuzda SpeechRecognizer, istekte Detailed bulunabilir veya Simple çıkış biçimi oluşturabilirsiniz. , DetailedSpeechRecognitionResult güvenilirlik puanı, tanınan metin, ham sözcük biçimi, normalleştirilmiş form ve maskelenmiş küfür içeren normalleştirilmiş form içerir.

Hataya neden olan değişiklik

  • SpeechRecognitionResult.Text C# dilinde olarak SpeechRecognitionResult.RecognizedText değiştirildi.

Hata düzeltmeleri

  • Kapatma sırasında USP katmanında olası geri çağırma sorunu düzeltildi.
  • Bir tanıyıcı bir ses giriş dosyası kullandıysa, dosya tutamacını gerekenden uzun süre tutuyordu.
  • İleti pompası ile tanıyıcı arasındaki birkaç kilitlenme kaldırıldı.
  • Hizmetten gelen yanıt zaman aşımına uğradıysa bir NoMatch sonuç tetikler.
  • Windows'ta media foundation kitaplıkları gecikmeli olarak yüklenir. Bu kitaplık yalnızca mikrofon girişi için gereklidir.
  • Ses verilerinin karşıya yükleme hızı, orijinal ses hızının yaklaşık iki katıyla sınırlıdır.
  • Windows'da C# .NET derlemeleri artık güçlü olarak adlandırılmıştır.
  • Belge düzeltmesi: Region tanıyıcı oluşturmak için gerekli bilgilerdir.

Daha fazla örnek eklendi ve sürekli güncelleştiriliyor. En son örnek kümesi için bkz. Konuşma SDK'sı örnekleri GitHub deposu.

Azure AI Konuşma SDK'sı 0.2.12733: 2018-Mayıs sürümü

Bu sürüm, Azure AI Konuşma SDK'sının ilk genel önizleme sürümüdür.