Co je nového ve službě Azure AI Speech?

Azure AI Speech se průběžně aktualizuje. Aktuální informace o nejnovějším vývoji najdete v tomto článku s informacemi o nových verzích a funkcích.

Nedávné zvýraznění

Poznámky k verzi

Volba služby nebo prostředku

Nadcházející plány pro uživatele s Linuxem a Androidem:

Upozornění

Tento článek odkazuje na CentOS, linuxovou distribuci, která se blíží stavu Konec životnosti (EOL). Zvažte své použití a plánování odpovídajícím způsobem. Další informace najdete v doprovodných materiálech CentOS End Of Life.

  • Ubuntu 18.04 také dosáhl konce životnosti v dubnu 2023, takže naši uživatelé by se měli připravit na přesun naší minimální verze až do Ubuntu 20.04.

Speech SDK 1.37.0: Verze z dubna 2024

Nové funkce

  • Přidání podpory pro streamování vstupního textu v syntéze řeči
  • Změňte výchozí hlas syntézy řeči na en-US-AvaMultilingualNeural.
  • Aktualizujte buildy Androidu tak, aby používaly OpenSSL 3.x.

Opravy chyb

Ukázky

  • Aktualizováno pro nové funkce.

Speech SDK 1.36.0: Verze z března 2024

Nové funkce

  • Přidání podpory pro identifikaci jazyka v vícejazyčných překladech v koncových bodech v2 pomocí AutoDetectSourceLanguageConfig::FromOpenRange().

Opravy chyb

  • Oprava události SynthesisCanceled se neaktivovala, pokud se během události SynthesisStarted volá zastavení.

  • Opravte problém s šumem ve vložené syntéze řeči.

  • Oprava chybového ukončení v integrovaném rozpoznávání řeči při paralelním spouštění více rozpoznávacích rutin.

  • Opravte nastavení režimu detekce frází na koncových bodech v1/v2.

  • Řeší různé problémy se službou Microsoft Audio Stack.

Ukázky

  • Aktualizace pro nové funkce.

Speech SDK 1.35.0: Verze z února 2024

Nové funkce

  • Změňte výchozí text na hlasový hlas z en-US-JennyMultilingualNeural na en-US-AvaNeural.
  • Podpora podrobností na úrovni slov ve vložených výsledcích překladu řeči pomocí podrobného výstupního formátu

Opravy chyb

  • Opravte rozhraní API getter position AudioDataStream v Pythonu.
  • Oprava překladu řeči pomocí koncových bodů v2 bez rozpoznávání jazyka
  • Oprava náhodného chybového ukončení a duplicitních událostí hranic slov ve vloženém textu na řeč
  • Vrátí správný kód chyby zrušení pro vnitřní chybu serveru u připojení WebSocket.
  • Opravte chybu načtení knihovny FPIEProcessor.dll při použití MAS s jazykem C#.

Ukázky

  • Menší aktualizace formátování pro ukázky rozpoznávání embedded

Speech SDK 1.34.1: Verze z ledna 2024

Změny způsobující chyby

  • Opravy chyb

Nové funkce

  • Opravy chyb

Opravy chyb

  • Oprava regrese představená ve verzi 1.34.0, kde byla vytvořena adresa URL koncového bodu služby s chybnými informacemi o národním prostředí pro uživatele v několika oblastech Číny.

Speech SDK 1.34.0: Verze z listopadu 2023

Změny způsobující chyby

  • Služba SpeechRecognizer byla ve výchozím nastavení aktualizována tak, aby používala nový koncový bod (tj. pokud explicitně nezadáváte adresu URL), která už nepodporuje parametry řetězce dotazu pro většinu vlastností. Místo nastavení parametrů řetězce dotazu přímo pomocí ServicePropertyChannel.UriQueryParameter použijte odpovídající funkce rozhraní API.

Nové funkce

  • Kompatibilita s .NET 8 (oprava https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 s výjimkou upozornění na centos7-x64)
  • Podpora vložených metrik výkonu řeči, které je možné použít k vyhodnocení schopnosti zařízení pro spouštění vloženého řeči
  • Podpora identifikace zdrojového jazyka ve vloženém vícejazyčném překladu
  • Podpora vložených převodů řeči na text, převod textu na řeč a překlad pro iOS a Swift/Objective-C vydaná ve verzi Preview.
  • Podpora embedded je k dispozici v MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Opravy chyb

  • Oprava pro iOS SDK x2 krát binární velikost růstu · Problém č. 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Oprava nemožnosti získat časová razítka na úrovni slov z azure Speech na textové rozhraní API · Problém č. 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Oprava pro fázi zničení DialogService Připojení or pro správné odpojení událostí. Občas to způsobovalo chybové ukončení.
  • Oprava výjimky při vytváření rozpoznávání při použití MAS
  • FPIEProcessor.dll z balíčku NuGet Microsoft.CognitiveServices.Speech.Extension.MAS pro Windows UPW x64 a ARM64 měly závislost na knihovnách modulu runtime VC pro nativní jazyk C++. Tento problém byl opraven aktualizací závislosti na opravách knihoven modulu runtime VC (pro UPW).
  • Oprava pro [MAS] Opakující se volání k rozpoznáváníOnceAsync vedou k SPXERR_ALREADY_INITIALIZED při použití MAS · Problém č. 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Oprava chybového ukončení rozpoznávání vloženého řeči při použití seznamů frází

Ukázky

  • Vložené ukázky pro převod řeči na text, převod textu na řeč a překlad

Speech CLI 1.34.0: Verze z listopadu 2023

Nové funkce

  • Podpora výstupu událostí hranic slov při syntezizaci řeči

Opravy chyb

  • Aktualizace závislosti JMESPath na nejnovější verzi, vylepšení vyhodnocení řetězců

Speech SDK 1.33.0: Verze z října 2023

Oznámení o zásadní změně

  • Nově přidaný balíček NuGet pro Microsoft Audio Stack (MAS) je teď potřeba zahrnout aplikacemi, které ve svých konfiguračních souborech balíčku používají MAS.

Nové funkce

  • Přidání nového balíčku NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, který poskytuje lepší výkon zrušení ozvěny při použití služby Microsoft Audio Stack
  • Hodnocení výslovnosti: Přidání podpory prosody a vyhodnocení obsahu, které může vyhodnotit mluvenou řeč z hlediska prosody, slovníku, gramatiky a tématu.

Opravy chyb

Ukázky

Speech CLI 1.33.0: Verze z října 2023

Nové funkce

  • Podpora výstupu událostí hranic slov při syntezizaci řeči

Opravy chyb

  • Žádná

Speech SDK 1.32.1: Verze ze září 2023

Opravy chyb

  • Aktualizace balíčků Pro Android s nejnovějšími opravami zabezpečení z OpenSSL1.1.1v
  • JS – Vlastnost WebWorkerLoadType přidaná pro povolení obejití zatížení adresy URL dat pro pracovní proces časového limitu
  • JS – Oprava odpojení překladu konverzací po 10 minutách
  • JS – Ověřovací token překladu konverzací z konverzace se teď rozšíří do připojení služby překladu.

Ukázky

Speech SDK 1.31.0: Verze ze srpna 2023

Nové funkce

  • Podpora diarizace v reálném čase je dostupná ve verzi Public Preview se sadou Speech SDK 1.31.0. Tato funkce je dostupná v následujících sadách SDK: C#, C++, Java, JavaScript, Python a Objective-C/Swift.

  • Synchronizované syntetizované slovo hranice a viseme události s přehráváním zvuku

Změny způsobující chyby

  • Bývalý scénář přepisu konverzace se přejmenuje na "přepis schůzky". Například místo MeetingTranscriber a místo CreateMeetingAsyncCreateConversationAsync.ConversationTranscriber I když se změnily názvy objektů a metod sady SDK, přejmenování nemění samotnou funkci. K přepisu schůzek s profily uživatelů a hlasovými podpisy použijte objekty přepisu schůzky. Další informace najdete v části Přepis schůzky. Tyto změny neovlivní objekty a metody překladu konverzací. Objekt a jeho metody můžete stále používat ConversationTranslator pro scénáře překladu schůzek.
  • Pro diarizaci v reálném čase se zavádí nový ConversationTranscriber objekt. Nový objektový model přepisu konverzace a vzory volání se podobají průběžnému rozpoznávání objektu SpeechRecognizer . Klíčovým rozdílem je, že objekt je navržený tak, ConversationTranscriber aby byl použit ve scénáři konverzace, ve kterém chcete odlišit více mluvčích (diarizace). Profily uživatelů a hlasové podpisy se nepoužijí. Další informace najdete v rychlém startu pro diarizaci v reálném čase.

Tato tabulka zobrazuje předchozí a nové názvy objektů pro diarizaci v reálném čase a přepis schůzky. Název scénáře je v prvním sloupci, předchozí názvy objektů jsou ve druhém sloupci a nové názvy objektů jsou ve třetím sloupci.
Název scénáře Názvy předchozích objektů Názvy nových objektů
Diarizace v reálném čase ConversationTranscriber
Přepis schůzky ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant1
ParticipantChangedReason1
User1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting2

1 , ParticipantParticipantChangedReasona User objekty jsou použitelné jak pro přepis schůzky, tak pro scénáře překladu schůzek.

2 Objekt Meeting je nový a používá se s objektem MeetingTranscriber .

Opravy chyb

Ukázky

Speech SDK 1.30.0: Verze z července 2023

Nové funkce

  • C++, C#, Java – přidání podpory pro DisplayWords podrobný výsledek integrovaného rozpoznávání řeči
  • Objective-C/Swift – Přidání podpory pro ConnectionMessageReceived událost v Objective-C/Swiftu
  • Objective-C/Swift – Vylepšené modely vyhledávání klíčových slov pro iOS Tato změna zvýšila velikost některých balíčků, které obsahují binární soubory pro iOS (například NuGet, XCFramework). Pracujeme na zmenšení velikosti budoucích verzí.

Opravy chyb

  • Opravili jsme nevracení paměti při použití rozpoznávání řeči s frází PhraseListGrammar, jak nahlásil zákazník (problém GitHubu).
  • Opravili jsme zablokování v textu s rozhraním API pro otevřené připojení řeči.

Další poznámky

  • Java – Některé interně používané public metody rozhraní Java API byly změněny na balíček protectedinternalnebo private. Tato změna by neměla mít vliv na vývojáře, protože neočekáváme, že by aplikace tyto aplikace používaly. Zde je uvedeno za transparentnost.

Ukázky

Speech SDK 1.29.0: Verze z června 2023

Nové funkce

  • C++, C#, Java – Verze Preview integrovaných rozhraní API pro překlad řeči Překlad řeči teď můžete provádět bez cloudového připojení.
  • JavaScript – Technologie LID (Continuous Language Identification) teď umožňuje překlad řeči.
  • JavaScript – příspěvek komunity pro přidání LocaleName vlastnosti do VoiceInfo třídy. Děkujeme uživateli GitHubu shivsarthak za žádost o přijetí změn.
  • C++, C#, Java – Přidání podpory pro převzorkování vloženého textu do výstupu řeči z 16 kHz na vzorkovací frekvenci 48 kHz
  • Přidání podpory národního hi-IN prostředí ve službě Rozpoznávání záměru s jednoduchým porovnávání vzorů

Opravy chyb

  • Oprava chybového ukončení způsobeného konfliktem časování ve službě Rozpoznávání řeči během zničení objektu, jak je vidět v některých testech Androidu
  • Oprava možných vzájemných zablokování ve službě Rozpoznávání záměrů pomocí jednoduchého shodovače vzorů

Ukázky

  • Nové ukázky vloženého překladu řeči

Speech SDK 1.28.0: Verze z května 2023

Změna způsobující chybu

  • JavaScript SDK: Odebrali jsme protokol OCSP (Online Certificate Status Protocol). To umožňuje klientům lépe vyhovovat standardům prohlížeče a uzlů pro zpracování certifikátů. Verze 1.28 a dále už nebude obsahovat náš vlastní modul OCSP.

Nové funkce

  • Vložené rozpoznávání řeči se teď vrátí NoMatchReason::EndSilenceTimeout , když na konci promluvy dojde k vypršení časového limitu ticha. To odpovídá chování při rozpoznávání pomocí služby speech v reálném čase.
  • JavaScript SDK: Nastavte vlastnosti pro SpeechTranslationConfig použití PropertyId hodnot výčtu.

Opravy chyb

  • C# ve Windows – Oprava potenciálního stavu časování nebo zablokování v rozšíření zvuku systému Windows Ve scénářích, které odstraňují audio renderer rychle a také použít syntetizátor metoda přestat mluvit, podkladová událost nebyla resetována zastavením a mohla způsobit, že renderer objekt nikdy nebyl odstraněn, a to vše, zatímco by mohl držet globální zámek pro odstranění, zmrazení dotnet GC vlákno.

Ukázky

  • Přidání vložené ukázky řeči pro MAUI
  • Aktualizovali jsme vloženou ukázku řeči pro Android Java tak, aby zahrnovala text na řeč.

Speech SDK 1.27.0: Verze z dubna 2023

Oznámení o nadcházejících změnách

  • V příští verzi sady JavaScript SDK plánujeme odebrat protokol OCSP (Online Certificate Status Protocol). To umožňuje klientům lépe vyhovovat standardům prohlížeče a uzlů pro zpracování certifikátů. Verze 1.27 je poslední verze, která zahrnuje náš vlastní modul OCSP.

Nové funkce

  • JavaScript – Přidání podpory pro vstup mikrofonu z prohlížeče s identifikací a ověřením mluvčího
  • Vložené rozpoznávání řeči – podpora PropertyId::Speech_SegmentationSilenceTimeoutMs aktualizace pro nastavení

Opravy chyb

  • Obecné – Aktualizace spolehlivosti v logice opětovného připojení služby (všechny programovací jazyky kromě JavaScriptu)
  • Obecné – Oprava převodů řetězců nevracení paměti ve Windows (všechny relevantní programovací jazyky s výjimkou JavaScriptu).
  • Vložené rozpoznávání řeči – Oprava chybového ukončení ve francouzském rozpoznávání řeči při použití určitých položek seznamu gramatiky
  • Dokumentace ke zdrojovému kódu – Opravy referenčních komentářů k dokumentaci k sadě SDK související s protokolováním zvuku ve službě
  • Rozpoznávání záměru – Oprava priorit matcheru vzorů souvisejících s entitami seznamu

Ukázky

  • Správně zpracujte selhání ověřování v ukázce přepisu konverzací v C# (CTS).
  • Přidání příkladu hodnocení výslovnosti streamování pro Python, JavaScript, Objective-C a Swift

Speech SDK 1.26.0: Verze vydaná 2023 z března 2023

Změny způsobující chyby

  • Ve všech cílech iOS v následujících balíčcích je zakázaný bitcode: Cocoapod s xcframework, NuGet (pro Xamarin a MAUI) a Unity. Tato změna je způsobená vyřazením podpory bitového kódu od společnosti Apple od Xcode 14 a dále. Tato změna také znamená, že pokud používáte verzi Xcode 13 nebo jste ve své aplikaci explicitně povolili bitový kód pomocí sady Speech SDK, může dojít k chybě s oznámením, že architektura neobsahuje bitový kód a musíte ho znovu sestavit. Pokud chcete tento problém vyřešit, ujistěte se, že jsou vaše cíle zakázané bitové kódy.
  • Minimální cíl nasazení pro iOS byl v této verzi upgradován na verzi 11.0, což znamená, že hardware armv7 se už nepodporuje.

Nové funkce

  • Integrované rozpoznávání řeči (na zařízení) teď podporuje vstupní zvuk vzorkovací frekvence 8 i 16 kHz (16bitový na vzorek, mono PCM).
  • Syntéza řeči teď hlásí latence připojení, sítě a služeb, aby vám pomohla s kompletní optimalizací latence.
  • Nová pravidla pro porušení předpisů pro rozpoznávání záměru s jednoduchým porovnávání vzorů Čím více bajtů znaků, které se shodují, vyhraje shodu se vzorem s nižším počtem bajtů znaků. Příklad: V pravém horním rohu se vyhraje vzor "Vybrat {something} "Vybrat {something}"

Opravy chyb

  • Syntéza řeči: Oprava chyby, kdy emoji není v událostech hranic slov správná.
  • Rozpoznávání záměru s využitím konverzačního jazyka (CLU):
    • Záměry z pracovního postupu orchestratoru CLU se teď zobrazují správně.
    • Výsledek JSON je nyní k dispozici prostřednictvím ID LanguageUnderstandingServiceResponse_JsonResultvlastnosti .
  • Rozpoznávání řeči s aktivací klíčového slova: Oprava chybějícího zvuku ~150 ms po rozpoznávání klíčových slov
  • Oprava sestavení sady Speech SDK NuGet mauI pro iOS MAUI nahlášené zákazníkem (problém GitHubu)

Ukázky

  • Oprava ukázky Swiftu pro iOS nahlášené zákazníkem (problém GitHubu)

Speech SDK 1.25.0: Verze z ledna 2023

Změny způsobující chyby

  • Rozhraní API pro identifikaci jazyka (Preview) byla zjednodušená. Pokud aktualizujete sadu Speech SDK 1.25 a zobrazí se konec sestavení, navštivte stránku Identifikace jazyka a seznamte se s novou vlastností SpeechServiceConnection_LanguageIdMode. Tato jednoduchá vlastnost nahrazuje dvě předchozí a SpeechServiceConnection_SingleLanguageIdPrioritySpeechServiceConnection_ContinuousLanguageIdPriority. Stanovení priority mezi nízkou latencí a vysokou přesností už není nutné po nedávných vylepšeních modelu. Teď stačí vybrat, jestli se má při průběžném rozpoznávání řeči nebo překladu spustit identifikace jazyka při spuštění nebo průběžné identifikaci jazyka.

Nové funkce

  • C#/C++/Java: Vložená sada Speech SDK je nyní vydána ve verzi Public Preview. Viz dokumentace ke službě Embedded Speech (Preview). Když je připojení ke cloudu přerušované nebo nedostupné, můžete teď na zařízení provádět převod řeči na text a text na řeč. Podporováno na platformách Android, Linux, macOS a Windows
  • C# MAUI: Podpora přidaná pro cíle iOS a Mac Catalyst v NuGetu sady Speech SDK (problém zákazníka)
  • Unity: Architektura x86_64 androidu přidaná do balíčku Unity (problém zákazníka)
  • Přejít:
    • Podpora přímého streamování ALAW/MULAW přidaná pro rozpoznávání řeči (problém zákazníka)
    • Přidání podpory pro PhraseListGrammar Děkujeme uživateli GitHubu za příspěvek komunity!
  • C#/C++: Rozpoznávání záměrů teď podporuje konverzační modely language Understanding v C++ a C# s orchestrací ve službě Microsoft

Opravy chyb

  • Oprava občasné zablokování v nástroji KeywordRecognizer při pokusu o zastavení
  • Python:
    • Oprava získání výsledků hodnocení výslovnosti při PronunciationAssessmentGranularity.FullText nastavení (problém zákazníka)
    • Oprava pro genderovou vlastnost, že se načítají hlasy mužů, při získávání hlasu syntézy řeči
  • JavaScript
    • Oprava analýzy některých souborů WAV zaznamenaných na zařízeních s iOSem (problém zákazníka)
    • JS SDK se teď sestavuje bez použití řešení npm-force (problém zákazníka)
    • Služba Conversation Translator teď správně nastaví koncový bod služby při použití instance speechConfig vytvořené pomocí speechConfig.fromEndpoint()

Ukázky

  • Přidání ukázek ukazujících, jak používat Embedded Speech

  • Přidání ukázky řeči k textu pro MAUI

    Viz úložiště ukázek sady Speech SDK.

Speech SDK 1.24.2: Verze z listopadu 2022

Nové funkce

  • Žádné nové funkce, pouze oprava vloženého modulu pro podporu nových souborů modelu.

Opravy chyb

  • Všechny programovací jazyky
    • Opravili jsme problém s šifrováním vložených modelů rozpoznávání řeči.

Speech SDK 1.24.1: Verze z listopadu 2022

Nové funkce

Opravy chyb

  • Všechny programovací jazyky
    • Oprava chybového ukončení vloženého TTS v případech, kdy není podporované hlasové písmo
    • Oprava chyby stopSpeaking() nemůže zastavit přehrávání v Linuxu (#1686)
  • JavaScript SDK
    • Opravili jsme regresi v tom, jak přepisovaný zvuk konverzace vrátil.
  • Java
    • Dočasně publikovány aktualizované soubory POM a Javadocs do Maven Central, aby kanál dokumentace mohl aktualizovat online referenční dokumenty.
  • Python
    • Oprava regrese, kdy Python speak_text(ssml) vrací void.

Speech SDK 1.24.0: Verze z října 2022

Nové funkce

  • Všechny programovací jazyky: AMR-WB (16khz) přidán do podporovaného seznamu formátů výstupu zvuku převodu textu na řeč
  • Python: Balíček přidaný pro Linux ARM64 pro podporované distribuce Linuxu
  • C#/C++/Java/Python: Podpora pro přímé streamování ALAW &MULAW do služby Speech (kromě existujícího streamu PCM) pomocí AudioStreamWaveFormat.
  • C# MAUI: Balíček NuGet se aktualizoval tak, aby podporoval cíle Androidu pro vývojáře .NET MAUI (problém zákazníka)
  • Mac: Přidali jsme samostatnou architekturu XCframework pro Mac, která neobsahuje žádné binární soubory pro iOS. Nabízí možnost pro vývojáře, kteří potřebují pouze binární soubory Mac, a to pomocí menšího balíčku XCframework.
  • Microsoft Audio Stack (MAS):
    • Pokud jsou zadány úhly tvarující paprsky, zvuk pocházející z vnějšího rozsahu bude potlačován lépe.
    • Přibližně 70% zmenšení velikosti linuxových libMicrosoft.CognitiveServices.Speech.extension.mas.so ARM32 a Linux ARM64.
  • Rozpoznávání záměru pomocí porovnávání vzorů:
    • Přidání podpory orthografie pro jazyky fr, de, esjp
    • Byla přidána předem připravená celočíselná podpora pro jazyk es.

Opravy chyb

  • iOS: Oprava chyby syntézy řeči v iOSu 16 způsobené selháním dekódování komprimovaného zvuku (Problém zákazníka).
  • JavaScript:
    • Oprava nefunkčního ověřovacího tokenu při získávání hlasového seznamu syntézy řeči (problém zákazníka)
    • Pro načítání pracovního procesu použijte adresu URL dat (problém zákazníka).
    • Pracovnílet pro vytvoření zvukového procesoru pouze v prohlížeči (problém zákazníka) je podporovaný audioWorklet. To byl příspěvek komunity William Wong. Děkujeme Williamovi!
    • Oprava rozpoznané zpětného volání, když je odpověď connectionMessage LUIS prázdná (problém zákazníka).
    • Správně nastavte časový limit segmentace řeči.
  • Rozpoznávání záměru pomocí porovnávání vzorů:
    • V modelech se teď správně načtou jiné znaky než JSON.
    • Oprava problému s předsazením při recognizeOnceAsync(text) zavolání během průběžného rozpoznávání

Speech SDK 1.23.0: Verze z července 2022

Nové funkce

  • C#, C++, Java: Přidání podpory jazyků zh-cn a zh-hk rozpoznávání záměrů pomocí porovnávání vzorů
  • C#: Přidání podpory pro AnyCPU sestavení .NET Framework

Opravy chyb

  • Android: Oprava chyby zabezpečení OpenSSL CVE-2022-2068 aktualizací OpenSSL na 1.1.1q
  • Python: Oprava chybového ukončení při použití PushAudioInputStream
  • iOS: Oprava chyby EXC_BAD_ACCESS: Pokus o zrušení odvozování nulového ukazatele, jak je uvedeno v iOSu (problém GitHubu)

Speech SDK 1.22.0: Verze z června 2022

Nové funkce

  • Java: IntentRecognitionResult API for getEntities(), applyLanguageModels() a recognizeOnceAsync(text) přidaný pro podporu modulu "jednoduché porovnávání vzorů".
  • Unity: Přidání podpory pro Mac M1 (Apple Silicon) pro balíček Unity (problém s GitHubem)
  • C#: Přidání podpory pro x86_64 pro Xamarin Android (problém s GitHubem)
  • C#: Minimální verze rozhraní .NET Framework se aktualizovala na balíček C# sady SDK v4.6.2, protože verze 4.6.1 byla vyřazena (viz zásady životního cyklu komponent rozhraní Microsoft .NET Framework).
  • Linux: Přidání podpory pro Debian 11 a Ubuntu 22.04 LTS. Ubuntu 22.04 LTS vyžaduje ruční instalaci knihovny libssl1.1 buď jako binární balíček odsud (například libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb nebo novější pro x64), nebo kompilací ze zdrojů.

Opravy chyb

  • UPW: Závislost OpenSSL byla odebrána z knihoven UPW a nahrazena rozhraními API winRT websocket a HTTP, aby splňovala dodržování předpisů zabezpečení a menší binární stopy.
  • Mac: Opravili jsme problém s chybou MicrosoftCognitiveServicesSpeech Module Not Found při použití projektů Swift, které cílí na platformu macOS.
  • Windows, Mac: Opravili jsme problém specifický pro platformu, kdy se zvukové zdroje nakonfigurované prostřednictvím vlastností pro streamování v reálném čase někdy zapadly a nakonec překročily kapacitu.

Ukázky (GitHub)

  • C#: Ukázky rozhraní .NET Framework se aktualizovaly tak, aby používaly v4.6.2
  • Unity: Ukázka virtuálního asistenta opravená pro Android a UPW
  • Unity: Ukázky Unity aktualizované pro verzi Unity 2020 LTS

Speech SDK 1.21.0: Verze z dubna 2022

Nové funkce

  • Java &JavaScript: Přidání podpory pro kontinuální identifikaci jazyka při použití objektu SpeechRecognizer
  • JavaScript: Přidání diagnostických rozhraní API pro povolení protokolování na úrovni protokolování konzoly a protokolování souborů (pouze node) pro pomoc Microsoftu s řešením problémů nahlášených zákazníkem
  • Python: Přidání podpory pro přepis konverzace
  • Go: Přidání podpory pro rozpoznávání mluvčího
  • C++ & C#: Přidání podpory požadované skupiny slov v rozpoznávání záměru (jednoduché porovnávání vzorů). Například: "(set|start|begin) časovač" kde musí být pro záměr rozpoznaný buď "set", "start", "start" nebo "begin".
  • Všechny programovací jazyky, Syntéza řeči: Přidání vlastnosti duration v událostech hranic slova. Přidání podpory pro hranici interpunkce a hranice věty
  • Objective-C/Swift/Java: Přidali jsme výsledky na úrovni slov do objektu výsledků vyhodnocení výslovnosti (podobně jako V#). Aplikace už nepotřebuje parsovat výsledný řetězec JSON, aby získala informace na úrovni slov (problém GitHubu).
  • Platforma iOS: Přidání experimentální podpory pro architekturu ARMv7

Opravy chyb

  • Platforma iOS: Oprava povolení vytváření cílového zařízení s iOSem při použití CocoaPodu (problém s GitHubem)
  • Platforma Android: Verze OpenSSL byla aktualizována na verzi 1.1.1n, aby se opravila ohrožení zabezpečení CVE-2022-0778
  • JavaScript: Oprava problému, kdy se hlavička wav neaktualizovala s velikostí souboru (problém s GitHubem)
  • JavaScript: Oprava problémů s desynchronizace ID žádosti způsobující chybu překladu (problém s GitHubem)
  • JavaScript: Oprava problému při vytváření instance SpeakerAudioDestination bez streamu (problém GitHubu]
  • C++: Oprava hlaviček C++ pro odebrání upozornění při kompilaci pro C++17 nebo novější

Ukázky Na GitHubu

  • Nové ukázky v Javě pro rozpoznávání řeči s identifikací jazyka
  • Nové ukázky Pythonu a Javy pro přepis konverzace
  • Nová ukázka Go pro rozpoznávání mluvčího
  • Nový nástroj C++ a C# pro Windows, který vyčísluje všechna zařízení pro zachytávání a vykreslování zvuku pro vyhledání ID zařízení. Toto ID vyžaduje sada Speech SDK, pokud plánujete zachytit zvuk z nebo vykreslit zvuk do jiného než výchozího zařízení.

Speech SDK 1.20.0: Verze z ledna 2022

Nové funkce

  • Objective-C, Swift a Python: Byla přidána podpora pro DialogService Připojení or, která se používá pro scénáře hlasového asistenta.
  • Python: Byla přidána podpora Pythonu 3.10. Podpora Pythonu 3.6 byla odebrána na konci životnosti Pythonu pro verzi 3.6.
  • Unity: Sada Speech SDK je teď podporovaná pro aplikace Unity v Linuxu.
  • C++, C#: IntentRecognizer využívající porovnávání vzorů se teď podporuje v jazyce C#. Kromě toho se teď podporují scénáře s vlastními entitami, volitelnými skupinami a rolemi entit v jazyce C++ a C#.
  • C++, C#: Vylepšené protokolování trasování diagnostiky pomocí nových tříd FileLogger, MemoryLogger a EventLogger. Protokoly sady SDK jsou důležitým nástrojem microsoftu k diagnostice problémů nahlášených zákazníkem. Tyto nové třídy usnadňují zákazníkům integraci protokolů sady Speech SDK do vlastního systému protokolování.
  • Všechny programovací jazyky: VýslovnostAssessmentConfig teď má vlastnosti pro nastavení požadované abecedy foonemu (IPA nebo SAPI) a N-Best Telefon me Count (vyhněte se nutnosti vytvářet konfigurační JSON podle problému GitHubu 1284). Podporuje se také výstup na úrovni slabiky.
  • Android, iOS a macOS (všechny programovací jazyky): GStreamer už není potřeba pro podporu sítí s omezenou šířkou pásma. SpeechSynthesizer teď používá funkce dekódování zvuku operačního systému k dekódování komprimovaného zvuku streamovaného z textu do služby speech.
  • Všechny programovací jazyky: SpeechSynthesizer teď podporuje tři nové nezpracované formáty Opus (bez kontejneru), které se běžně používají ve scénářích živého streamování.
  • JavaScript: Přidání rozhraní GETVoicesAsync() API do speechSynthesizer pro načtení seznamu podporovaných syntézních hlasů (problém GitHubu 1350)
  • JavaScript: Přidání rozhraní API getWaveFormat() do formátu AudioStreamFormat pro podporu jiných formátů vln než PCM (problém GitHubu 452)
  • JavaScript: Přidání rozhraní API getter/setter a ztlumení svazku ()/unmute() do speakerAudioDestination (problém GitHubu 463)

Opravy chyb

  • C++, C#, Java, JavaScript, Objective-C a Swift: Oprava odebrání 10sekundového zpoždění při zastavení rozpoznávání řeči, která používá PushAudioInputStream. To je v případě, že se po volání StopContinuousRecognition (problémy GitHubu 1318, 331) nenasdílí žádný nový zvuk.
  • Unity v Androidu a UPW: Meta soubory Unity byly opraveny pro UPW, Android ARM64 a subsystém Windows pro Android (WSA) ARM64 (problém s GitHubem 1360)
  • iOS: Kompilace aplikace Speech SDK na jakémkoli zařízení s iOSem při používání CocoaPods je opravená (problém GitHubu 1320)
  • iOS: Když je SpeechSynthesizer nakonfigurovaný tak, aby výstup zvuku přímo do reproduktoru, přehrávání se zastavilo na začátku ve výjimečných podmínkách. Toto bylo opraveno.
  • JavaScript: Pro vstup mikrofonu použijte náhradní procesor skriptu ( problém GitHubu 455)
  • JavaScript: Přidání protokolu do agenta za účelem zmírnění zjištěné chyby s integrací Sentry (problém GitHubu 465)

Ukázky Na GitHubu

  • Ukázky jazyka C++, C#, Python a Java ukazující, jak získat podrobné výsledky rozpoznávání. Podrobnosti zahrnují alternativní výsledky rozpoznávání, skóre spolehlivosti, lexikální formulář, normalizovaný formulář, maskovaný normalizovaný formulář s časováním na úrovni slova pro každou z nich.
  • Ukázka iOS přidaná pomocí AVFoundation jako externího zdroje zvuku
  • Ukázka Javy přidaná k zobrazení toho, jak získat formát SRT (SubRip Text) pomocí události WordBoundary
  • Ukázky Androidu pro posouzení výslovnosti
  • C++, C# zobrazující využití nových tříd protokolování diagnostiky

Speech SDK 1.19.0: verze z listopadu 2021

Nejzajímavější body

  • Služba rozpoznávání mluvčího je teď obecně dostupná (GA). Rozhraní API sady Speech SDK jsou k dispozici v C++, C#, Javě a JavaScriptu. Pomocí rozpoznávání mluvčího můžete přesně ověřit a identifikovat mluvčí podle jejich jedinečných charakteristik hlasu. Další informace o tomto tématu najdete v dokumentaci.

  • Zrušili jsme podporu ubuntu 16.04 ve spojení s Azure DevOps a GitHubem. Ubuntu 16.04 dosáhl konce životnosti zpět v dubnu 2021. Migrujte pracovní postupy Ubuntu 16.04 na Ubuntu 18.04 nebo novější.

  • Propojení OpenSSL v binárních souborech s Linuxem se změnilo na dynamické. Binární velikost Linuxu se snížila o přibližně 50 %.

  • Přidána podpora čipu založeného na ARM pro Mac M1.

Nové funkce

  • C++/C#/Java: Byla přidána nová rozhraní API, která umožňují podporu zpracování zvuku pro vstup řeči ve službě Microsoft Audio Stack. Tady je dokumentace.

  • C++: Nová rozhraní API pro rozpoznávání záměru usnadňují pokročilejší porovnávání vzorů. To zahrnuje entity Typu Seznam a Předem připravené celé číslo a také podporu seskupení záměrů a entit jako modelů (Dokumentace, aktualizace a ukázky jsou ve vývoji a budou publikovány v blízké budoucnosti).

  • Mac: Podpora siliconu založeného na ARM64 (M1) pro balíčky CocoaPod, Python, Java a NuGet související s problémem GitHubu 1244.

  • iOS/Mac: Binární soubory pro iOS a macOS jsou teď zabalené do xcframework souvisejících s problémem GitHubu 919.

  • iOS/Mac: Podpora katalyzátoru Macu souvisejícího s problémem GitHubu 1171

  • Linux: Nový balíček tar přidaný pro CentOS7 About the Speech SDK. Balíček linuxového .tar teď obsahuje konkrétní knihovny pro RHEL/CentOS 7 v lib/centos7-x64systému . Knihovny sady Speech SDK v knihovně lib/x64 jsou stále použitelné pro všechny ostatní podporované distribuce Linuxu x64 (včetně RHEL/CentOS 8) a nebudou fungovat na RHEL/CentOS 7.

  • JavaScript: Rozhraní API VoiceProfile a SpeakerRecognizer se provedla async/await.

  • JavaScript: Přidání podpory pro oblasti Azure státní správy USA

  • Windows: Podpora přehrávání na Univerzální platforma Windows (UPW).

Opravy chyb

  • Android: Aktualizace zabezpečení OpenSSL (aktualizovaná na verzi 1.1.1l) pro balíčky Pro Android.

  • Python: Byla vyřešena chyba, kdy výběr zařízení mluvčího v Pythonu selhal.

  • Jádro: Automaticky se znovu připojte, když se nezdaří pokus o připojení.

  • iOS: Komprese zvuku zakázaná v balíčcích iOS kvůli nestabilitě a problémům s sestavením bitcode při použití GStreameru. Podrobnosti jsou k dispozici prostřednictvím problému s GitHubem 1209.

Ukázky Na GitHubu

  • Mac/iOS: Aktualizované ukázky a rychlé starty pro použití balíčku xcframework

  • .NET: Ukázky aktualizované tak, aby používaly verzi .NET Core 3.1.

  • JavaScript: Přidání ukázky pro hlasové asistenty

Speech SDK 1.18.0: verze z července 2021

Poznámka: Tady můžete začít se sadou Speech SDK.

Souhrn zvýrazní

  • Ubuntu 16.04 dosáhl konce životnosti v dubnu 2021. S Azure DevOps a GitHubem v září 2021 snížíme podporu pro verzi 16.04. Před tím migrujte pracovní postupy ubuntu-16.04 na ubuntu-18.04 nebo novější.

Nové funkce

  • C++: Model jednoduchého jazyka odpovídající rozpoznávání záměru teď usnadňuje implementaci jednoduchých scénářů rozpoznávání záměrů.
  • C++/C#/Java: Do třídy jsme přidali nové rozhraní API pro VoiceProfileClientGetActivationPhrasesAsync() příjem seznamu platných aktivačních frází ve fázi registrace rozpoznávání mluvčího pro nezávislé scénáře rozpoznávání.
    • Důležité: Funkce rozpoznávání mluvčího je ve verzi Preview. Všechny hlasové profily vytvořené ve verzi Preview budou ukončeny 90 dní poté, co se funkce rozpoznávání mluvčího přesune z verze Preview do obecné dostupnosti. V tomto okamžiku přestanou fungovat hlasové profily ve verzi Preview.
  • Python: Přidání podpory pro kontinuální identifikaci jazyka (LID) u existujících SpeechRecognizer a TranslationRecognizer objektů
  • Python: Přidali jsme nový objekt Pythonu s názvem SourceLanguageRecognizer k jednorázovému nebo průběžnému lidu (bez rozpoznávání nebo překladu).
  • JavaScript: getActivationPhrasesAsync Rozhraní API přidané do VoiceProfileClient třídy pro příjem seznamu platných aktivačních frází ve fázi registrace rozpoznávání mluvčího pro nezávislé scénáře rozpoznávání.
  • Rozhraní API Jazyka enrollProfileAsync JavaScriptVoiceProfileClient je nyní async awaitable. Podívejte se na tento nezávislý identifikační kód, například použití.

Vylepšení

  • Java: Podpora automatického přidání do mnoha objektů Java Teď je model try-with-resources podporovaný pro vydávání prostředků. Podívejte se na tuto ukázku, která používá try-with-resources. Další informace o tomto vzoru najdete v kurzu dokumentace k Oracle Java pro příkaz try-with-resources.
  • Nároky na disky se výrazně snížily pro mnoho platforem a architektur. Příklady binárního Microsoft.CognitiveServices.Speech.core souboru: x64 Linux je menší 475 kB (snížení o 8,0 %); ARM64 Windows UPW je menší 464 kB (snížení o 11,5 %); x86 Windows je menší 343 kB (17,5% redukce); a x64 Windows je menší 451 kB (19,4% snížení).

Opravy chyb

  • Java: Opravili jsme syntetickou chybu, pokud syntéza textu obsahuje náhradní znaky. Podrobnosti najdete tady.
  • JavaScript: Zpracování zvuku mikrofonu prohlížeče nyní používá AudioWorkletNode místo zastaralé ScriptProcessorNode. Podrobnosti najdete tady.
  • JavaScript: Správně udržovat konverzace naživu během dlouhotrvajících scénářů překladu konverzací. Podrobnosti najdete tady.
  • JavaScript: Opravili jsme problém s opětovným připojením rozpoznávače k mediastreamu v průběžném rozpoznávání. Podrobnosti najdete tady.
  • JavaScript: Opravili jsme problém s opětovným připojením rozpoznávání k pushStreamu v průběžném rozpoznávání. Podrobnosti najdete tady.
  • JavaScript: Opravili jsme výpočet posunu na úrovni slova v podrobných výsledcích rozpoznávání. Podrobnosti najdete tady.

Ukázky

  • Ukázky rychlého startu v Javě se tady aktualizovaly.
  • Ukázky rozpoznávání mluvčího enrollProfileAsync()v JavaScriptu se aktualizovaly, aby zobrazovaly nové využití . Ukázky najdete tady.

Speech SDK 1.17.0: verze z května 2021

Poznámka:

Tady můžete začít se sadou Speech SDK.

Souhrn zvýrazní

  • Menší nároky – dál snižujeme nároky na paměť a disky sady Speech SDK a jejích komponent.
  • Nové samostatné rozhraní API pro identifikaci jazyka umožňuje rozpoznat, jaký jazyk se mluví.
  • Vyvíjejte aplikace pro hybridní realitu a hry s podporou řeči pomocí Unity v macOS.
  • Kromě rozpoznávání řeči z programovacího jazyka Go teď můžete použít i funkci Převod textu na řeč.
  • Několik oprav chyb pro řešení problémů, které jste vy, naši hodnotní zákazníci, označili příznakem na GitHubu! DĚKUJU! Pokračujte v zpětnou vazbu!

Nové funkce

  • C++/C#: Nové samostatné funkce At-Start a Continuous Language Detection prostřednictvím SourceLanguageRecognizer rozhraní API Pokud chcete rozpoznát pouze jazyky mluvené ve zvukovém obsahu, jedná se o rozhraní API, které k tomu slouží. Podrobnosti o C++ a C# najdete v podrobnostech.
  • C++/C#: Rozpoznávání řeči a rozpoznávání překladu teď podporují rozpoznávání řeči a kontinuální identifikaci jazyka, abyste mohli programově určit, které jazyky se před přepisem nebo překladem mluví. Viz dokumentace k rozpoznávání řeči a tady pro překlad řeči.
  • C#: Přidání podpory podpory Unity do macOS (x64). Tím se odemkne rozpoznávání řeči a syntéza řeči případy použití v hybridní realitě a hraní her!
  • Go: Přidali jsme podporu pro syntézu řeči do programovacího jazyka Go, aby byla syntéza řeči dostupná ještě více případů použití. Podívejte se na náš rychlý start nebo naši referenční dokumentaci.
  • C++/C#/Java/Python/Objective-C/Go: Syntetizátor řeči teď podporuje connection objekt. To vám pomůže spravovat a monitorovat připojení ke službě Speech a je užitečné zejména před připojením, aby se snížila latence. Podívejte se na dokumentaci.
  • C++/C#/Java/Python/Objective-C/Go: Teď zveřejňujeme latenci a dobu běhu SpeechSynthesisResult , abychom vám pomohli monitorovat a diagnostikovat problémy s latencí syntézy řeči. Podrobnosti najdete v tématech C++, C#, Java, Python, Objective-C a Go.
  • C++/C#/Java/Python/Objective-C: Text na řeč teď ve výchozím nastavení používá neurální hlasy , když nezadáte hlas, který se má použít. To vám ve výchozím nastavení dává vyšší přesnost výstupu, ale také zvyšuje výchozí cenu. Můžete zadat libovolný z našich více než 70 standardních hlasů nebo více než 130 neurálních hlasů, aby se výchozí nastavení změnilo.
  • C++/C#/Java/Python/Objective-C/Go: Do syntézy hlasových informací jsme přidali vlastnost Pohlaví, která usnadňuje výběr hlasů na základě pohlaví. Řeší se tím problém GitHubu č. 1055.
  • C++, C#, Java, JavaScript: Nyní podporujeme retrieveEnrollmentResultAsyncgetAuthorizationPhrasesAsynca getAllProfilesAsync() v rozpoznávání mluvčího usnadňuje správu všech hlasových profilů pro daný účet. Viz dokumentace pro C++, C#, Java, JavaScript. Řeší se tím problém GitHubu č. 338.
  • JavaScript: Přidali jsme opakování chyb připojení, díky kterým budou vaše aplikace řeči založené na JavaScriptu robustnější.

Vylepšení

  • Binární soubory sady Linux a Android Speech SDK byly aktualizovány tak, aby používaly nejnovější verzi OpenSSL (1.1.1k).
  • Vylepšení velikosti kódu:
    • Language Understanding je teď rozdělená do samostatné knihovny lu.
    • Binární velikost jádra systému Windows x64 se snížila o 14,4 %.
    • Binární velikost jádra ANDROID ARM64 se snížila o 13,7 %.
    • jiné součásti se také zmenšily.

Opravy chyb

  • Vše: Opravili jsme problém GitHubu č. 842 pro ServiceTimeout. Pomocí sady Speech SDK teď můžete přepisovat dlouhé zvukové soubory bez připojení ke službě, která končí touto chybou. Přesto ale doporučujeme používat dávkový přepis pro dlouhé soubory.
  • C#: Opravili jsme problém GitHubu č. 947 , kdy nebylo možné opustit aplikaci ve špatném stavu.
  • Java: Opravili jsme problém GitHubu č. 997, kdy se sada Speech SDK pro Javu 1.16 chybově ukončí při použití DialogService Připojení or bez síťového připojení nebo neplatného klíče předplatného.
  • Opravili jsme chybu při náhlém zastavení rozpoznávání řeči (například pomocí CTRL+C v konzolové aplikaci).
  • Java: Přidali jsme opravu pro odstranění dočasných souborů ve Windows při použití sady Speech SDK pro Javu.
  • Java: Opravili jsme problém GitHubu č. 994 , kdy volání DialogServiceConnector.stopListeningAsync mohlo způsobit chybu.
  • Java: Opravili jsme problém zákazníka v rychlém startu virtuálního asistenta.
  • JavaScript: Opravili jsme problém GitHubu č. 366 , kdy ConversationTranslator se zobrazila chyba this.cancelSpeech není funkce.
  • JavaScript: Opravili jsme problém GitHubu č. 298 , kdy se nahlas přehrávala ukázka "Get result as an in-memory stream" (Získat výsledek jako stream v paměti).
  • JavaScript: Opravili jsme problém GitHubu č. 350 , kdy volání AudioConfig mohlo způsobit chybu ReferenceError: MediaStream není definován.
  • JavaScript: Opravili jsme upozornění NeošetřenéHopromiseRejection v Node.js pro dlouhotrvající relace.

Ukázky

  • Tady jsme aktualizovali dokumentaci ukázek Unity pro macOS.
  • Tady je k dispozici ukázka React Native pro službu Rozpoznávání řeči Azure AI.

Speech SDK 1.16.0: Verze z března 2021

Poznámka:

Sada Speech SDK ve Windows závisí na sdílené sadě Microsoft Distribuovatelné součásti Visual C++ pro Visual Studio 2015, 2017 a 2019. Stáhněte si ho zde.

Nové funkce

  • C++/C#/Java/Python: Přesunuli jsme se na nejnovější verzi GStreameru (1.18.3) a přidali podporu pro přepis libovolného formátu médií ve Windows, Linuxu a Androidu. Podívejte se na dokumentaci.
  • C++/C#/Java/Objective-C/Python: Přidání podpory dekódování komprimovaného TTS/syntetizovaného zvuku do sady SDK Pokud nastavíte výstupní formát zvuku na PCM a GStreamer je ve vašem systému dostupný, sada SDK automaticky vyžádá komprimovaný zvuk ze služby, aby ušetřila šířku pásma a dekódovala zvuk v klientovi. Tuto funkci můžete zakázat SpeechServiceConnection_SynthEnableCompressedAudioTransmissionfalse . Podrobnosti pro C++, C#, Java, Objective-C, Python
  • JavaScript: Node.js uživatelé teď můžou rozhraní API používatAudioConfig.fromWavFileInput. Řeší se tím problém GitHubu č. 252.
  • C++/C#/Java/Objective-C/Python: Přidání GetVoicesAsync() metody pro TTS pro vrácení všech dostupných syntézových hlasů Podrobnosti pro C++, C#, Java, Objective-C a Python
  • C++/C#/Java/JavaScript/Objective-C/Python: Přidání VisemeReceived události pro syntézu TTS/speech pro vrácení synchronní animace viseme Podívejte se na dokumentaci.
  • C++/C#/Java/JavaScript/Objective-C/Python: Přidání BookmarkReached události pro TTS Záložky můžete nastavit ve vstupním SSML a získat posuny zvuku pro každou záložku. Podívejte se na dokumentaci.
  • Java: Přidali jsme podporu rozhraní API pro rozpoznávání mluvčího. Podrobnosti najdete tady.
  • C++/C#/Java/JavaScript/Objective-C/Python: Přidali jsme dva nové výstupní formáty zvuku s kontejnerem WebM pro TTS (Webm16Khz16BitMonoOpus a Webm24Khz16BitMonoOpus). Jedná se o lepší formáty pro streamování zvuku pomocí kodeku Opus. Podrobnosti pro C++, C#, Java, JavaScript, Objective-C, Python.
  • C++/C#/Java: Přidání podpory pro načtení hlasového profilu pro scénář rozpoznávání mluvčího Podrobnosti o jazyce C++, C# a Javě
  • C++/C#/Java/Objective-C/Python: Přidání podpory pro samostatnou sdílenou knihovnu pro zvukový mikrofon a ovládání reproduktoru Vývojář tak může používat sadu SDK v prostředích, která nemají požadované závislosti zvukové knihovny.
  • Objective-C/Swift: Přidali jsme podporu pro architekturu modulů s hlavičkou deštníku. Vývojář tak může importovat sadu Speech SDK jako modul v aplikacích pro iOS/Mac Objective-C/Swift. Řeší se tím problém GitHubu č. 452.
  • Python: Přidali jsme podporu Pythonu 3.9 a vypnuli jsme podporu Pythonu 3.5 na konec životnosti Pythonu pro verzi 3.5.

Známé problémy

  • C++/C#/Java: DialogServiceConnector Nejde použít CustomCommandsConfig pro přístup k aplikaci Vlastních příkazů a místo toho dojde k chybě připojení. Můžete to obejít ručním přidáním ID aplikace do požadavku pomocí config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Očekávané chování CustomCommandsConfig bude obnoveno v příští verzi.

Vylepšení

  • V rámci úsilí o více verzí pro snížení využití paměti a diskové stopy sady Speech SDK jsou teď binární soubory Androidu o 3 až 5 % menší.
  • Vylepšená přesnost, čitelnost a viz také oddíly referenční dokumentace jazyka C#.

Opravy chyb

  • JavaScript: Velké hlavičky souboru WAV se teď analyzují správně (zvyšuje řez záhlaví na 512 bajtů). Řeší se tím problém GitHubu č. 962.
  • JavaScript: Opravili jsme problém s časováním mikrofonu, pokud stream mikrofonu končí před rozpoznáváním zastavení a vyřešil problém s nefunkčním rozpoznáváním řeči ve Firefoxu.
  • JavaScript: Teď správně zpracováváme inicializační příslib, když prohlížeč vynutí mikrofon před dokončením turnOn.
  • JavaScript: Nahradili jsme závislost adresy URL analýzou adresy URL. Řeší se tím problém GitHubu č. 264.
  • Android: Pevná zpětná volání nefungují, když minifyEnabled je nastavená hodnota true.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY Pro TTS se správně nastaví základní vstupně-výstupní operace soketu, aby se snížila latence.
  • C++/C#/Java/Python/Objective-C/Go: Opravili jsme občasné chybové ukončení, když byl rozpoznávání zničen právě po spuštění rozpoznávání.
  • C++/C#/Java: Opravili jsme občasné chybové ukončení při zničení rozpoznávání mluvčího.

Ukázky

  • JavaScript: Ukázky prohlížeče už nevyžadují samostatné stažení souboru knihovny JavaScriptu.

Speech SDK 1.15.0: verze z ledna 2021

Poznámka:

Sada Speech SDK ve Windows závisí na sdílené sadě Microsoft Distribuovatelné součásti Visual C++ pro Visual Studio 2015, 2017 a 2019. Stáhněte si ho zde.

Souhrn zvýrazní

  • Menší nároky na paměť a disky, což zefektivňuje sadu SDK.
  • Formáty výstupu s vyšší věrností dostupné pro privátní náhled vlastního neurálního hlasu.
  • Rozpoznávání záměrů teď může vrátit více než hlavní záměr a poskytnout vám možnost provést samostatné posouzení záměru zákazníka.
  • Hlasoví asistenti a roboti se teď snadněji nastavují a můžete ho okamžitě přestat naslouchat a využívat větší kontrolu nad tím, jak reaguje na chyby.
  • Vylepšili jsme výkon zařízení díky volitelné kompresi.
  • Použijte sadu Speech SDK ve Windows ARM/ARM64.
  • Vylepšili jsme ladění nízké úrovně.
  • Funkce Posouzení výslovnosti je nyní široce dostupná.
  • Několik oprav chyb pro řešení problémů, které jste vy, naši hodnotní zákazníci, označili příznakem na GitHubu! DĚKUJU! Pokračujte v zpětnou vazbu!

Vylepšení

  • Sada Speech SDK je teď efektivnější a odlehčí. Začali jsme s více verzemi, abychom snížili využití paměti a nároky na disky sady Speech SDK. Jako první krok jsme výrazně snížili velikost souborů ve sdílených knihovnách na většině platforem. Ve srovnání s verzí 1.14:
    • 64bitové knihovny windows kompatibilní s UPW jsou přibližně o 30 % menší.
    • 32bitové knihovny Windows ještě nevidí zlepšení velikosti.
    • Linuxové knihovny jsou o 20–25 % menší.
    • Knihovny Pro Android jsou o 3–5 % menší.

Nové funkce

  • Vše: Nové formáty výstupu 48 KHz dostupné pro privátní náhled vlastního neurálního hlasu prostřednictvím rozhraní API pro syntézu řeči TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • Vše: Vlastní hlas je také jednodušší. Přidání podpory pro nastavení vlastního hlasu prostřednictvím EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Před touto změnou potřebovali vlastní uživatelé hlasu nastavit adresu URL koncového FromEndpoint bodu prostřednictvím metody. Teď můžou zákazníci použít metodu FromSubscription stejně jako předem připravené hlasy a pak zadat ID nasazení nastavením EndpointId. To zjednodušuje nastavení vlastních hlasů.
  • C++/C#/Java/Objective-C/Python: Získejte více než hlavní záměr.IntentRecognizer Teď podporuje konfiguraci výsledku JSON obsahujícího všechny záměry a nejen záměr s nejvyšším skóre prostřednictvím LanguageUnderstandingModel FromEndpoint metody pomocí verbose=true parametru URI. Řeší se tím problém GitHubu č. 880. Podívejte se na aktualizovanou dokumentaci.
  • C++/C#/Java: Okamžitě naslouchejte hlasovému asistentovi nebo robotovi. DialogServiceConnector (C++, C#, Java) má nyní metodu StopListeningAsync() , která se má připojit ListenOnceAsync(). Tím okamžitě zastavíte zachytávání zvuku a elegantně počkáte na výsledek, takže je ideální pro použití se scénáři stisknutí tlačítka "stop now".
  • C++/C#/Java/JavaScript: Lepší reakce hlasového asistenta nebo robota na základní systémové chyby DialogServiceConnector (C++, C#, Java, JavaScript) teď má novou TurnStatusReceived obslužnou rutinu události. Tyto volitelné události odpovídají každému ITurnContext řešení robota a hlásí selhání spuštění, když k nim dojde, například v důsledku neošetřené výjimky, časového limitu nebo výpadku sítě mezi Direct Line Speech a robotem. TurnStatusReceived usnadňuje reakci na podmínky selhání. Pokud například robot trvá příliš dlouho na back-endovém databázovém dotazu (například vyhledání produktu), TurnStatusReceived umožní klientovi vědět, že se omlouváme, ale to se mi nepodařilo, zkuste to prosím znovu" nebo něco podobného.
  • C++/C#: Použití sady Speech SDK na více platformách Balíček NuGet sady Speech SDK teď podporuje nativní binární soubory windows ARM/ARM64 pro stolní počítače (upW už byly podporovány), aby byla sada Speech SDK užitečnější pro více typů počítačů.
  • Java: DialogServiceConnector Nyní má metodu setSpeechActivityTemplate() , která byla neúmyslně vyloučena z jazyka dříve. To je ekvivalentem Conversation_Speech_Activity_Template nastavení vlastnosti a bude požadovat, aby všechny budoucí aktivity Bot Framework pocházející ze služby Direct Line Speech sloučily poskytnutý obsah do datových částí JSON.
  • Java: Vylepšené ladění nízké úrovně Třída Connection má nyní událost podobnou jiným programovacím jazykům MessageReceived (C++, C#). Tato událost poskytuje přístup k příchozím datům ze služby na nízké úrovni a může být užitečná pro diagnostiku a ladění.
  • JavaScript: Jednodušší nastavení pro hlasové asistenty a roboty prostřednictvím BotFrameworkConfig, které teď mají fromHost() a fromEndpoint() factory metody, které zjednodušují používání vlastních umístění služeb a ruční nastavení vlastností. Standardizovali jsme také volitelnou specifikaci použití jiného než výchozího botId robota v rámci konfiguračních továren.
  • JavaScript: Vylepšili jsme výkon zařízení prostřednictvím přidané vlastnosti ovládacího prvku řetězce pro kompresi websocket. Z důvodů výkonu jsme ve výchozím nastavení zakázali kompresi protokolu websocket. To je možné znovu použít pro scénáře s nízkou šířkou pásma. Další podrobnosti najdete tady. Řeší se tím problém GitHubu č. 242.
  • JavaScript: Přidání podpory pro posouzení výslovnosti lPronunciation umožňující vyhodnocení výslovnosti řeči. Podívejte se na tento rychlý start.

Opravy chyb

  • Vše (s výjimkou JavaScriptu): Opravili jsme regresi ve verzi 1.14, ve které byl rozpoznáváním přiděleno příliš mnoho paměti.
  • C++: Opravili jsme problém s uvolňováním paměti a DialogServiceConnectorvyřešili jsme problém GitHubu č. 794.
  • C#: Opravili jsme problém s vypnutím vlákna, který způsoboval, že se objekty blokovaly přibližně na sekundu při vyřazení.
  • C++/C#/Java: Opravili jsme výjimku, která brání aplikaci v nastavení autorizačního tokenu řeči nebo šablony aktivity více než jednou v objektu DialogServiceConnector.
  • C++/C#/Java: Opravili jsme chybové ukončení rozpoznávání kvůli stavu časování v slzách.
  • JavaScript: DialogServiceConnector Nedotklo se dříve volitelného botId parametru zadaného v BotFrameworkConfigtovárnách. Kvůli tomu bylo nutné ručně nastavit botId parametr řetězce dotazu tak, aby používal jiného než výchozího robota. Chyba byla opravena a botId hodnoty poskytnuté BotFrameworkConfigtovárnám budou dodrženy a použity, včetně nových fromHost() a fromEndpoint() přidaných. To platí také pro applicationId parametr pro CustomCommandsConfig.
  • JavaScript: Opravili jsme problém GitHubu č. 881, který umožňoval opětovné využití objektů rozpoznávání.
  • JavaScript: Opravili jsme problém, kdy skD odesílala speech.config vícekrát v jedné relaci TTS a způsobovala plýtvání šířkou pásma.
  • JavaScript: Zjednodušené zpracování chyb při autorizaci mikrofonu, což umožňuje více popisnější zprávy, když uživatel v prohlížeči nepovolil vstup mikrofonu.
  • JavaScript: Opravili jsme problém GitHubu č. 249 , kdy došlo k ConversationTranslator chybám typu a ConversationTranscriber způsobila chybu kompilace pro uživatele TypeScriptu.
  • Objective-C: Opravili jsme problém, kdy sestavení GStreameru pro iOS v Xcode 11.4 selhalo a vyřešilo problém GitHubu č. 911.
  • Python: Opravili jsme problém GitHubu č. 870 a odebrali jsme chybu "Vyřazení z provozu: imp modul je ve prospěch importlibu zastaralý".

Ukázky

Speech SDK 1.14.0: Verze z října 2020

Poznámka:

Sada Speech SDK ve Windows závisí na sdílené sadě Microsoft Distribuovatelné součásti Visual C++ pro Visual Studio 2015, 2017 a 2019. Stáhněte si ho zde.

Nové funkce

  • Linux: Přidání podpory pro Debian 10 a Ubuntu 20.04 LTS.
  • Python/Objective-C: Přidání podpory pro KeywordRecognizer rozhraní API Tady bude dokumentace.
  • C++/Java/C#: Přidání podpory pro nastavení libovolného HttpHeader klíče nebo hodnoty prostřednictvím ServicePropertyChannel::HttpHeader.
  • JavaScript: Přidání podpory pro ConversationTranscriber rozhraní API Přečtěte si dokumentaci tady.
  • C++/C#: Přidání nové AudioDataStream FromWavFileInput metody (pro čtení . Soubory WAV zde (C++) a tady (C#).
  • C++/C#/Java/Python/Objective-C/Swift: Přidali jsme metodu stopSpeakingAsync() pro zastavení syntézy řeči textu. Přečtěte si referenční dokumentaci zde (C++),tady (C#), zde (Java), zde (Python) a tady (Objective-C/Swift).
  • C#, C++, Java: Přidání FromDialogServiceConnector() funkce do Connection třídy, která se dá použít k monitorování událostí připojení a odpojení pro DialogServiceConnector. Přečtěte si referenční dokumentaci zde (C#), tady (C++) a tady (Java).
  • C++/C#/Java/Python/Objective-C/Swift: Přidali jsme podporu pro hodnocení výslovnosti, která vyhodnocuje výslovnost řeči a poskytuje mluvčím zpětnou vazbu o přesnosti a plynulosti mluveného zvuku. Dokumentaci si můžete přečíst tady.

Změna způsobující chybu

  • JavaScript: PullAudioOutputStream.read() má návratovou změnu typu z interního příslibu na nativní javascriptový příslib.

Opravy chyb

  • Vše: Oprava regrese 1,13, kdy SetServiceProperty byly ignorovány hodnoty s určitými speciálními znaky.
  • C#: Opravené ukázky konzoly Windows v sadě Visual Studio 2019 se nepodařilo najít nativní knihovny DLL.
  • C#: Opravili jsme chybové ukončení se správou paměti, pokud se stream používá jako KeywordRecognizer vstup.
  • ObjectiveC/Swift: Opravili jsme chybové ukončení se správou paměti, pokud se stream používá jako vstup nástroje pro rozpoznávání.
  • Windows: Opravili jsme problém koexistence s BT HFP/A2DP v UPW.
  • JavaScript: Opravili jsme mapování ID relací za účelem zlepšení protokolování a pomoci při interních korelacích ladění a služeb.
  • JavaScript: Byla přidána oprava pro DialogServiceConnector zakázání ListenOnce volání po prvním volání.
  • JavaScript: Opravili jsme problém, kdy výstup výsledku byl "jednoduchý".
  • JavaScript: Opravili jsme problém s průběžným rozpoznáváním v Safari v macOS.
  • JavaScript: Zmírnění zatížení procesoru pro scénář vysoké propustnosti požadavků
  • JavaScript: Povolí přístup k podrobnostem o výsledku registrace hlasového profilu.
  • JavaScript: Byla přidána oprava pro průběžné rozpoznávání v IntentRecognizerjazyce .
  • C++/C#/Java/Python/Swift/ObjectiveC: Opravili jsme nesprávnou adresu URL pro australiaeast a brazilsouth in IntentRecognizer.
  • C++/C#: Přidáno VoiceProfileType jako argument při vytváření objektu VoiceProfile .
  • C++/C#/Java/Python/Swift/ObjectiveC: Byl opraven potenciál SPX_INVALID_ARG při pokusu o čtení AudioDataStream z dané pozice.
  • IOS: Opravili jsme chybové ukončení s rozpoznáváním řeči v Unity.

Ukázky

Známý problém

  • DigiCert Global Root G2 certifikát není ve výchozím nastavení podporován v HoloLens 2 a Android 4.4 (KitKat) a je potřeba ho přidat do systému, aby byla sada Speech SDK funkční. V blízké budoucnosti se certifikát přidá do imagí operačního systému HoloLens 2. Zákazníci s Androidem 4.4 musí přidat aktualizovaný certifikát do systému.

Covid-19 zkrácené testování

Vzhledem k tomu, že během posledních několika týdnů pracujete vzdáleně, nemohli jsme provádět tolik ručního ověřování jako obvykle. Neudělali jsme žádné změny, které bychom si mysleli, že by mohly něco porušovat, a všechny naše automatizované testy proběhly. V nepravděpodobném případě, že jsme něco zmeškali, dejte nám prosím vědět na GitHubu.
Zůstaňte v pořádku!

Speech SDK 1.13.0: Verze z července 2020

Poznámka:

Sada Speech SDK ve Windows závisí na sdílené sadě Microsoft Distribuovatelné součásti Visual C++ pro Visual Studio 2015, 2017 a 2019. Stáhněte a nainstalujte ho odsud.

Nové funkce

  • C#: Přidání podpory pro přepis asynchronní konverzace Podívejte se na dokumentaci.
  • JavaScript: Přidali jsme podporu rozpoznávání mluvčího pro prohlížeč i Node.js.
  • JavaScript: Byla přidána podpora identifikace jazyka nebo ID jazyka. Podívejte se na dokumentaci.
  • Objective-C: Přidání podpory pro přepis konverzací a konverzací ve více zařízeních
  • Python: Přidali jsme komprimovanou podporu zvuku pro Python ve Windows a Linuxu. Podívejte se na dokumentaci.

Opravy chyb

  • Vše: Opravili jsme problém, který způsoboval, že se funkce KeywordRecognizer po rozpoznávání nepřesunovala streamy vpřed.
  • Vše: Opravili jsme problém, který způsoboval, že datový proud získaný z klíčového slovaRecognitionResult neobsahoval klíčové slovo.
  • Vše: Opravili jsme problém, kdy SendMessageAsync zprávu po dokončení čekání na připojení ve skutečnosti neodesílala.
  • Vše: Opravili jsme chybu v rozhraních API pro rozpoznávání mluvčího, když uživatelé volali VoiceProfileClient::SpeakerRecEnrollProfileAsync několikrát a nečekali na dokončení volání.
  • Vše: Opraveno povolení protokolování souborů ve třídách VoiceProfileClient a SpeakerRecognizer.
  • JavaScript: Opravili jsme problém s omezováním při minimalizaci prohlížeče.
  • JavaScript: Opravili jsme problém s nevracením paměti u datových proudů.
  • JavaScript: Přidání ukládání do mezipaměti pro odpovědi OCSP z NodeJS.
  • Java: Opravili jsme problém, který způsoboval, že pole BigInteger vždy vrátila hodnotu 0.
  • iOS: Opravili jsme problém s publikováním aplikací založených na sadě Speech SDK v iOS App Storu.

Ukázky

Covid-19 zkrácené testování

Vzhledem k tomu, že během posledních několika týdnů pracujete vzdáleně, nemohli jsme provádět tolik ručního ověřování jako obvykle. Neudělali jsme žádné změny, které bychom si mysleli, že by mohly něco porušovat, a všechny naše automatizované testy proběhly. V nepravděpodobném případě, že jsme něco zmeškali, dejte nám prosím vědět na GitHubu.
Zůstaňte v pořádku!

Speech SDK 1.12.1: Verze z června 2020

Nové funkce

  • C#, C++: Rozpoznávání mluvčího ve verzi Preview: Tato funkce umožňuje identifikaci mluvčího (kdo mluví?) a ověření mluvčího (je mluvčí, kterému tvrdí, že je?). Začněte přehledem, přečtěte si základní informace o rozpoznávání mluvčího nebo referenční dokumentaci k rozhraní API.

Opravy chyb

  • C#, C++: Pevná nahrávka mikrofonu v rozpoznávání mluvčího nefungovala ve verzi 1.12.
  • JavaScript: Opravy pro převod textu na řeč ve Firefoxu a Safari v macOS a iOS.
  • Oprava chyby porušení přístupu aplikace pro Windows při přepisu konverzace při použití osmikanálového streamu
  • Oprava chybového ukončení porušení přístupu aplikace pro Windows při překladu konverzací ve více zařízeních

Ukázky

  • C#: Ukázka kódu pro rozpoznávání mluvčího
  • C++: Ukázka kódu pro rozpoznávání mluvčího
  • Java: Ukázka kódu pro rozpoznávání záměru v Androidu

Covid-19 zkrácené testování

Vzhledem k tomu, že během posledních několika týdnů pracujete vzdáleně, nemohli jsme provádět tolik ručního ověřování jako obvykle. Neudělali jsme žádné změny, které bychom si mysleli, že by mohly něco porušovat, a všechny naše automatizované testy proběhly. V nepravděpodobném případě, že jsme něco zmeškali, dejte nám prosím vědět na GitHubu.
Zůstaňte v pořádku!

Speech SDK 1.12.0: Verze z května 2020

Nové funkce

  • Go: Podpora nového jazyka Go pro rozpoznávání řeči a vlastního hlasového asistenta Tady nastavte vývojové prostředí. Vzorový kód najdete v části Ukázky níže.
  • JavaScript: Přidání podpory prohlížeče pro převod textu na řeč Podívejte se na dokumentaci.
  • C++, C#, Java: Nový KeywordRecognizer objekt a rozhraní API podporovaná na platformách Windows, Android, Linux a iOS Dokumentaci si můžete přečíst tady. Vzorový kód najdete v části Ukázky níže.
  • Java: Přidali jsme konverzaci s více zařízeními s podporou překladu. Podívejte se na referenční dokumentaci.

Vylepšení a optimalizace

  • JavaScript: Optimalizovaná implementace mikrofonu prohlížeče vylepšuje přesnost rozpoznávání řeči.
  • Java: Refaktorované vazby využívající přímou implementaci JNI bez SWIG. Tato změna snižuje o 10x velikost vazeb pro všechny balíčky Java používané pro Windows, Android, Linux a Mac a usnadňuje další vývoj implementace Sady Speech SDK v Javě.
  • Linux: Aktualizovaná dokumentace podpory s nejnovějšími konkrétními poznámkami RHEL 7
  • Vylepšená logika připojení k pokusu o připojení vícekrát, když dojde k chybám služby a sítě.
  • Aktualizovali jsme stránku rychlého startu pro portal.azure.com Speech, která vývojářům pomůže provést další krok na cestě k Azure AI Speech.

Opravy chyb

  • C#, Java: Opravili jsme problém s načítáním knihoven SDK v Linuxu ARM (32bitová i 64bitová verze).
  • C#: Oprava explicitní odstranění nativních popisovačů pro TranslationRecognizer, IntentRecognizer a Připojení ion objekty.
  • C#: Oprava správy doby života zvukového vstupu pro objekt ConversationTranscriber
  • Opravili jsme problém, kdy IntentRecognizer se při rozpoznávání záměrů z jednoduchých frází správně nenastavil důvod výsledku.
  • Opravili jsme problém, kdy SpeechRecognitionEventArgs se správně nenastavil posun výsledku.
  • Opravili jsme stav časování, kdy se sada SDK pokoušela odeslat síťovou zprávu před otevřením připojení websocket. Při přidávání účastníků byla reprodukovatelná TranslationRecognizer .
  • Opravili jsme nevracení paměti v modulu pro rozpoznávání klíčových slov.

Ukázky

Covid-19 zkrácené testování

Vzhledem k tomu, že během posledních několika týdnů pracujete vzdáleně, nemohli jsme provádět tolik ručního ověřování jako obvykle. Neudělali jsme žádné změny, které bychom si mysleli, že by mohly něco porušovat, a všechny naše automatizované testy proběhly. Pokud nám něco chybí, dejte nám prosím vědět na GitHubu.
Zůstaňte v pořádku!

Speech SDK 1.11.0: Verze z března 2020

Nové funkce

  • Linux: Přidání podpory pro Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 s pokyny ke konfiguraci systému pro sadu Speech SDK.
  • Linux: Přidání podpory pro .NET Core C# v Linuxu ARM32 a ARM64. Další informace si můžete přečíst zde.
  • C#, C++: Přidáno UtteranceId do ConversationTranscriptionResult, konzistentní ID napříč všemi zprostředkujícími a konečnými výsledky rozpoznávání řeči. Podrobnosti pro C#, C++.
  • Python: Přidání podpory pro Language ID. Viz speech_sample.py v úložišti GitHub.
  • Windows: Přidání podpory komprimovaného formátu zvukového vstupu na platformě Windows pro všechny konzolové aplikace win32. Podrobnosti najdete tady.
  • JavaScript: Podporuje syntézu řeči (text na řeč) v NodeJS. Další informace najdete zde.
  • JavaScript: Přidejte nová rozhraní API, která umožní kontrolu všech odesílaných a přijatých zpráv. Další informace najdete zde.

Opravy chyb

  • C#, C++: Opravili jsme problém, takže SendMessageAsync se teď binární zpráva odesílá jako binární typ. Podrobnosti pro C#, C++.
  • C#, C++: Opravili jsme problém, kdy použití Connection MessageReceived události mohlo způsobit chybové ukončení, pokud Recognizer je odstraněno před objektem Connection . Podrobnosti pro C#, C++.
  • Android: Velikost vyrovnávací paměti zvuku z mikrofonu se snížila z 800 ms na 100 ms, aby se zlepšila latence.
  • Android: Opravili jsme problém s emulátorem androidu x86 v Android Studiu.
  • JavaScript: Přidání podpory oblastí v Číně pomocí fromSubscription rozhraní API Podrobnosti najdete tady.
  • JavaScript: Přidejte další informace o chybách připojení z NodeJS.

Ukázky

  • Unity: Oprava veřejné ukázky rozpoznávání záměrů, kdy selhával import JSON služby LUIS. Podrobnosti najdete tady.
  • Python: Ukázka přidaná pro Language ID. Podrobnosti najdete tady.

Covid19 zkrácené testování: Vzhledem k tomu, že během posledních několika týdnů pracujete vzdáleně, se nám nepodařilo provádět tolik ručních ověřovacích testů zařízení, jak to obvykle děláme. Nemohli jsme například otestovat vstup mikrofonu a výstup reproduktoru v Linuxu, iOSu a macOS. Neprovedli jsme žádné změny, které bychom si mysleli, že by na těchto platformách mohly něco porušovat, a všechny naše automatizované testy prošly. V nepravděpodobném případě, že jsme něco vynechali, dejte nám vědět na GitHubu.
Děkujeme za vaši trvalou podporu. Jako vždy publikujte dotazy nebo zpětnou vazbu na GitHub nebo Stack Overflow.
Zůstaňte v pořádku!

Speech SDK 1.10.0: Verze z února 2020

Nové funkce

  • Přidali jsme balíčky Pythonu pro podporu nové verze Pythonu 3.8.
  • Podpora Red Hat Enterprise Linuxu (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

    Poznámka:

    Zákazníci musí nakonfigurovat OpenSSL podle těchto pokynů.

  • Podpora Linuxu ARM32 pro Debian a Ubuntu
  • DialogService Připojení or teď podporuje volitelný parametr ID robota v BotFrameworkConfig. Tento parametr umožňuje používat více robotů Direct Line Speech s jedním prostředkem služby Speech. Bez zadaného parametru se použije výchozí robot (určený konfigurační stránkou kanálu Direct Line Speech).
  • DialogService Připojení or má nyní vlastnost SpeechActivityTemplate. Obsah tohoto řetězce JSON bude direct Line Speech používat k předběžnému naplnění široké škály podporovaných polí ve všech aktivitách, které se dostanou k robotovi Direct Line Speech, včetně aktivit automaticky generovaných v reakci na události, jako je rozpoznávání řeči.
  • TTS teď používá klíč předplatného k ověřování a snižuje latenci prvního bajtu prvního výsledku syntézy po vytvoření syntetizátoru.
  • Aktualizované modely rozpoznávání řeči pro 19 národních prostředí pro průměrné snížení míry chyb slov o 18,6 % (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt- PT, tr-TR). Nové modely přinášejí významná vylepšení napříč několika doménami, včetně scénářů diktování, přepisu call-center a video indexování.

Opravy chyb

  • Oprava chyby, kdy přepis konverzace nečekal správně v rozhraních JAVA API
  • Oprava emulátoru x86 androidu pro Xamarin GitHub
  • Přidání chybějícího objektu (Get|Set)Metody vlastností na AudioConfig
  • Oprava chyby TTS, kdy se při selhání připojení nepodařilo zastavit audioDataStream
  • Použití koncového bodu bez oblasti by způsobilo selhání usP pro překladač konverzací.
  • Generování ID v univerzálních aplikacích pro Windows teď používá správně jedinečný algoritmus GUID; dříve a neúmyslně se ve výchozím nastavení použila k překryvné implementaci, která často způsobovala kolize nad velkými sadami interakcí.

Ukázky

Další změny

Speech SDK 1.9.0: Verze z ledna 2020

Nové funkce

  • Konverzace s více zařízeními: Připojte více zařízení ke stejné konverzaci na základě řeči nebo textu a volitelně přeložte zprávy odeslané mezi nimi. Další informace najdete v tomto článku.
  • Přidali jsme podporu rozpoznávání klíčových slov pro balíček Android .aar a přidali jsme podporu pro varianty x86 a x64.
  • Objective-C: SendMessage a SetMessageProperty metody přidané do Connection objektu. Podívejte se na dokumentaci.
  • Rozhraní API jazyka TTS C++ teď podporuje std::wstring jako vstup pro syntézu textu, takže před předáním do sady SDK je potřeba převést řetězec na řetězec. Další podrobnosti najdete tady.
  • C#: Id jazyka a konfigurace zdrojového jazyka jsou nyní k dispozici.
  • JavaScript: Přidání funkce k objektu pro Connection předávání vlastních zpráv ze služby Speech jako zpětného receivedServiceMessagevolání .
  • JavaScript: Přidali jsme podporu pro FromHost API snadné použití s místními kontejnery a suverénními cloudy. Podívejte se na dokumentaci.
  • JavaScript: Nyní ctíme NODE_TLS_REJECT_UNAUTHORIZED díky příspěvku od orgads. Další podrobnosti najdete tady.

Změny způsobující chyby

  • OpenSSL byla aktualizována na verzi 1.1.1b a staticky je propojená s základní knihovnou sady Speech SDK pro Linux. To může způsobit přerušení, pokud se vaše doručená pošta OpenSSL nenainstalovala do /usr/lib/ssl adresáře v systému. Pokud chcete tento problém vyřešit, projděte si naši dokumentaci v dokumentaci k sadě Speech SDK.
  • Změnili jsme datový typ vrácený pro jazyk C# WordLevelTimingResult.Offsetint tak, aby long umožňoval přístup k WordLevelTimingResults datům řeči delším než 2 minuty.
  • PushAudioInputStream a PullAudioInputStream nyní odesílat informace hlavičky wav do služby Speech založené na AudioStreamFormat, volitelně zadané při jejich vytvoření. Zákazníci teď musí používat podporovaný formát zvukového vstupu. Jakékoli jiné formáty získají neoptimální výsledky rozpoznávání nebo můžou způsobit jiné problémy.

Opravy chyb

  • Podívejte se na OpenSSL aktualizaci v části Zásadní změny výše. Opravili jsme občasné chybové ukončení i problém s výkonem (kolize uzamčení při vysokém zatížení) v Linuxu a Javě.
  • Java: Vylepšili jsme uzavření objektů ve scénářích s vysokou souběžností.
  • Restrukturalizovali jsme náš balíček NuGet. Odebrali jsme tři kopie Microsoft.CognitiveServices.Speech.core.dll složek knihovny Lib, Microsoft.CognitiveServices.Speech.extension.kws.dll aby byl balíček NuGet menší a rychlejší ke stažení, a přidali jsme hlavičky potřebné ke kompilaci některých nativních aplikací C++.
  • Opravili jsme tady ukázky rychlého startu. Ty se ukončovaly bez zobrazení výjimky "mikrofon nenalezena" v Linuxu, macOS a Windows.
  • Opravili jsme chybové ukončení sady SDK s dlouhými výsledky rozpoznávání řeči na určitých cestách kódu, jako je tato ukázka.
  • Opravili jsme chybu nasazení sady SDK ve službě Azure Web App Environment, která tento problém zákazníka vyřešila.
  • Opravili jsme chybu TTS při použití více <voice> značek nebo <audio> značek k vyřešení tohoto problému zákazníka.
  • Opravili jsme chybu TTS 401, když se sada SDK obnovila z pozastavení.
  • JavaScript: Opravili jsme cyklický import zvukových dat díky příspěvku z euirimu.
  • JavaScript: Přidání podpory pro nastavení vlastností služby, jak je přidáno v 1.7.
  • JavaScript: Opravili jsme problém, kdy chyba připojení mohla vést k opakovaným neúspěšným pokusům o připojení typu websocket.

Ukázky

Další změny

  • Optimalizovaná velikost základní knihovny sady SDK v Androidu
  • Sada SDK ve verzi 1.9.0 a novější podporuje int obě typy string v poli verze hlasového podpisu pro konverzační přepis.

Speech SDK 1.8.0: Listopadová verze 2019

Nové funkce

  • Přidali jsme FromHost() rozhraní API, které usnadňuje použití s místními kontejnery a suverénními cloudy.
  • Přidání identifikace zdrojového jazyka pro rozpoznávání řeči (v Javě a C++)
  • Přidání SourceLanguageConfig objektu pro rozpoznávání řeči, který slouží k určení očekávaných zdrojových jazyků (v Javě a C++)
  • Přidání KeywordRecognizer podpory pro Windows (UPW), Androidu a iOSu prostřednictvím balíčků NuGet a Unity
  • Přidání rozhraní JAVA API pro vzdálenou konverzaci pro přepis konverzace v asynchronních dávkách

Změny způsobující chyby

  • Funkce přepisu konverzací se přesunuly pod obor názvů Microsoft.CognitiveServices.Speech.Transcription.
  • Části metod přepisování konverzací se přesunou do nové Conversation třídy.
  • Vyřazená podpora 32bitového (ARMv7 a x86) iOS

Opravy chyb

  • Oprava chybového ukončení, pokud se místní KeywordRecognizer používá bez platného klíče předplatného služby Speech

Ukázky

  • Ukázka Xamarinu pro KeywordRecognizer
  • Ukázka Unity pro KeywordRecognizer
  • Ukázky C++ a Javy pro automatickou identifikaci zdrojového jazyka

Speech SDK 1.7.0: Verze ze září 2019

Nové funkce

  • Přidání podpory beta verze pro Xamarin na Univerzální platforma Windows (UPW), Androidu a iOS
  • Přidání podpory pro iOS pro Unity
  • Přidání Compressed podpory vstupu pro ALaw, Mulaw, FLAC, v Androidu, iOS a Linuxu
  • Přidání SendMessageAsync do Connection třídy pro odeslání zprávy do služby
  • Přidání SetMessageProperty do Connection třídy pro nastavení vlastnosti zprávy
  • Přidání vazeb TTS pro Javu (JRE a Android), Python, Swift a Objective-C
  • TTS přidal podporu přehrávání pro macOS, iOS a Android.
  • Přidání informací o hranici slova pro TTS

Opravy chyb

  • Oprava problému se sestavením IL2CPP v Unity 2019 pro Android
  • Opravili jsme problém s nesprávným zpracováním chybných hlaviček při nesprávném zpracování vstupu souboru wav.
  • Opravili jsme problém, kdy identifikátory UUID nebyly jedinečné v některých vlastnostech připojení.
  • Opravili jsme několik upozornění na specifikátory nullability ve vazbách Swiftu (můžou vyžadovat malé změny kódu).
  • Opravili jsme chybu, která způsobovala, že se připojení websocketu v rámci síťového zatížení zavřela.
  • Opravili jsme problém s Androidem, který někdy způsobovat duplicitní IDENTIFIKÁTORy zobrazení používané DialogServiceConnector
  • Vylepšení stability připojení napříč interakcemi s více turny a hlášení selhání (prostřednictvím Canceled událostí) při jejich výskytu DialogServiceConnector
  • DialogServiceConnector Spuštění relace teď správně poskytne události, včetně volání během aktivního volání ListenOnceAsync() . StartKeywordRecognitionAsync()
  • Vyřešení chybového ukončení spojeného s přijatými aktivitami DialogServiceConnector

Ukázky

  • Rychlý start pro Xamarin
  • Aktualizace rychlého startu CPP s informacemi o Linuxu ARM64
  • Aktualizace rychlého startu Unity s informacemi o iOSu

Speech SDK 1.6.0: Verze z června 2019

Ukázky

  • Ukázky rychlého startu pro převod textu na řeč v UPW a Unity
  • Ukázka rychlého startu pro Swift v iOSu
  • Ukázky Unity pro rozpoznávání a překlad řeči a záměru
  • Aktualizace ukázek pro rychlý start pro DialogServiceConnector

Vylepšení / změny

  • Obor názvů dialogového okna:
    • Přejmenování SpeechBotConnector na DialogServiceConnector
    • Přejmenování BotConfig na DialogServiceConfig
    • BotConfig::FromChannelSecret() byl znovu namapován na DialogServiceConfig::FromBotSecret()
    • Po přejmenování budou i nadále podporováni všichni stávající klienti Direct Line Speech.
  • Aktualizace adaptéru REST TTS pro podporu proxy serveru, trvalého připojení
  • Zlepšení chybové zprávy při předání neplatné oblasti
  • Swift/Objective-C:
    • Vylepšené hlášení chyb: Metody, které můžou vést k chybě, jsou nyní přítomny ve dvou verzích: jedna, která zveřejňuje NSError objekt pro zpracování chyb, a jedna, která vyvolá výjimku. První je vystavený Swiftu. Tato změna vyžaduje přizpůsobení existujícího kódu Swiftu.
    • Vylepšené zpracování událostí

Opravy chyb

  • Oprava TTS: kde SpeakTextAsync se budoucnost vrátila bez čekání na dokončení vykreslování zvuku
  • Oprava zařazování řetězců v jazyce C# za účelem povolení úplné jazykové podpory
  • Oprava problému s aplikací .NET Core při načítání základní knihovny s cílovou architekturou net461 v ukázkách
  • Oprava občasných problémů při nasazování nativních knihoven do výstupní složky v ukázkách
  • Oprava spolehlivého zavírání webového soketu
  • Oprava možného chybového ukončení při otevírání připojení s velkým zatížením v Linuxu
  • Oprava chybějících metadat v sadě rozhraní pro macOS
  • Oprava problémů s pip install --user Windows

Speech SDK 1.5.1

Toto je verze opravy chyb, která má vliv jenom na nativní nebo spravovanou sadu SDK. Nemá vliv na javascriptovou verzi sady SDK.

Opravy chyb

  • Oprava odsazení při použití s přepisem konverzace
  • Opravte chybu ve vyhledávání klíčových slov pro hlasové asistenty.

Speech SDK 1.5.0: verze z května 2019

Nové funkce

  • Sledování klíčových slov (KWS) je nyní k dispozici pro Windows a Linux. Funkce KWS můžou fungovat s libovolným typem mikrofonu, oficiální podporou KWS, ale v současné době je omezena na pole mikrofonu nalezená v hardwaru Azure Kinect DK nebo sadě Speech Devices SDK.
  • Funkce nápovědy fráze je dostupná prostřednictvím sady SDK. Další informace najdete tady.
  • Funkce přepisu konverzací je dostupná prostřednictvím sady SDK.
  • Přidání podpory pro hlasové asistenty pomocí kanálu Direct Line Speech

Ukázky

  • Přidání ukázek pro nové funkce nebo nové služby podporované sadou SDK

Vylepšení / změny

  • Přidání různých vlastností rozpoznávání pro úpravu chování služby nebo výsledků služby (jako je maskování vulgárních výrazů a dalších).
  • Rozpoznávání teď můžete nakonfigurovat pomocí standardních vlastností konfigurace, i když jste vytvořili rozpoznávání FromEndpoint.
  • Vlastnost Objective-C: OutputFormat byla přidána do objektu SPXSpeechConfiguration.
  • Sada SDK teď podporuje Debian 9 jako linuxovou distribuci.

Opravy chyb

  • Opravili jsme problém, kdy byl prostředek mluvčího destruován příliš brzy v textu na řeč.

Speech SDK 1.4.2

Toto je verze opravy chyb, která má vliv jenom na nativní nebo spravovanou sadu SDK. Nemá vliv na javascriptovou verzi sady SDK.

Speech SDK 1.4.1

Toto je verze určená pouze pro JavaScript. Nebyly přidány žádné funkce. Provedli jsme následující opravy:

  • Znemožnit načítání webové sady https-proxy-agent.

Speech SDK 1.4.0: Verze z dubna 2019

Nové funkce

  • Sada SDK teď podporuje službu Převod textu na řeč jako beta verzi. Podporuje se v desktopové verzi Windows a Linuxu z C++ a C#. Další informace najdete v přehledu převodu textu na řeč.
  • Sada SDK teď podporuje zvukové soubory MP3 a Opus/OGG jako vstupní soubory streamu. Tato funkce je k dispozici pouze v Linuxu z C++ a C# a je aktuálně v beta verzi (další podrobnosti najdete zde).
  • Sada Speech SDK pro Javu, .NET Core, C++ a Objective-C získala podporu pro macOS. Podpora Objective-C pro macOS je aktuálně v beta verzi.
  • iOS: Sada Speech SDK pro iOS (Objective-C) je teď také publikovaná jako CocoaPod.
  • JavaScript: Podpora jiného než výchozího mikrofonu jako vstupního zařízení
  • JavaScript: Podpora proxy serveru pro Node.js.

Ukázky

  • Ukázky pro použití sady Speech SDK s C++ a Objective-C v systému macOS byly přidány.
  • Ukázky ukazující použití služby Převod textu na řeč byly přidány.

Vylepšení / změny

  • Python: Prostřednictvím vlastnosti jsou nyní zpřístupněny properties další vlastnosti výsledků rozpoznávání.
  • Další podporu vývoje a ladění můžete přesměrovat protokolování a diagnostiku sady SDK do souboru protokolu (další podrobnosti najdete zde).
  • JavaScript: Zlepšení výkonu zpracování zvuku

Opravy chyb

  • Mac/iOS: Byla opravena chyba, která vedla k dlouhému čekání, když se nepodařilo navázat připojení ke službě Speech.
  • Python: Vylepšete zpracování chyb pro argumenty v zpětných voláních Pythonu.
  • JavaScript: Opravili jsme chybné hlášení stavu pro řeč ukončené na vyžádání.

Speech SDK 1.3.1: Aktualizace z února 2019

Toto je verze opravy chyb, která má vliv jenom na nativní nebo spravovanou sadu SDK. Nemá vliv na javascriptovou verzi sady SDK.

Oprava chyby

  • Opravili jsme nevracení paměti při použití vstupu mikrofonu. Na vstup na základě streamu nebo souboru to nemá vliv.

Speech SDK 1.3.0: Verze z února 2019

Nové funkce

  • Sada Speech SDK podporuje výběr vstupního mikrofonu AudioConfig prostřednictvím třídy. To umožňuje streamovat zvuková data do služby Speech z jiného než výchozího mikrofonu. Další informace najdete v dokumentaci popisující výběr zvukového vstupu zařízení. Tato funkce ještě není k dispozici v JavaScriptu.
  • Sada Speech SDK teď podporuje Unity v beta verzi. Poskytněte zpětnou vazbu prostřednictvím oddílu problému v ukázkovém úložišti GitHubu. Tato verze podporuje Unity ve Windows x86 a x64 (desktopové nebo Univerzální platforma Windows aplikace) a Android (ARM32/64, x86). Další informace jsou k dispozici v našem rychlém startu Unity.
  • Soubor Microsoft.CognitiveServices.Speech.csharp.bindings.dll (odeslaný v předchozích verzích) už není potřeba. Funkce jsou teď integrované do základní sady SDK.

Ukázky

Následující nový obsah je k dispozici v našem ukázkovém úložišti:

  • Další vzorky pro AudioConfig.FromMicrophoneInput.
  • Další ukázky Pythonu pro rozpoznávání záměru a překlad
  • Další ukázky pro použití objektu v iOSu Connection
  • Další ukázky Javy pro překlad s zvukovým výstupem
  • Nová ukázka pro použití rozhraní REST API pro dávkový přepis

Vylepšení / změny

  • Python
    • Vylepšené ověřování parametrů a chybové zprávy v SpeechConfigsouboru .
    • Přidejte podporu objektu Connection .
    • Podpora 32bitového Pythonu (x86) ve Windows
    • Sada Speech SDK pro Python je mimo beta verzi.
  • Ios
    • Sada SDK je teď postavená na sadě iOS SDK verze 12.1.
    • Sada SDK teď podporuje iOS verze 9.2 a novější.
    • Vylepšete referenční dokumentaci a opravte několik názvů vlastností.
  • JavaScript
    • Přidejte podporu objektu Connection .
    • Přidání definičních souborů typu pro sbalené JavaScript
    • Počáteční podpora a implementace nápovědy frází
    • Vrácení kolekce vlastností pomocí kódu JSON služby pro rozpoznávání
  • Knihovny DLL systému Windows teď obsahují prostředek verze.
  • Pokud vytvoříte rozpoznávání FromEndpoint, můžete parametry přidat přímo do adresy URL koncového bodu. Použití FromEndpoint nástroje pro rozpoznávání není možné konfigurovat prostřednictvím standardních vlastností konfigurace.

Opravy chyb

  • Prázdné uživatelské jméno proxy serveru a heslo proxy serveru se nezpracovalo správně. Pokud v této verzi nastavíte uživatelské jméno proxy serveru a heslo proxy serveru na prázdný řetězec, nebudou odeslány při připojování k proxy serveru.
  • Id relace vytvořené sadou SDK nebylo vždy pro některé jazyky nebo prostředí náhodné. Přidání inicializace náhodného generátoru pro opravu tohoto problému
  • Vylepšení zpracování autorizačního tokenu Pokud chcete použít autorizační token, zadejte v SpeechConfig klíči předplatného a nechte ho prázdný. Pak vytvořte rozpoznávání jako obvykle.
  • V některých případech Connection nebyl objekt správně uvolněn. Tento problém byl opraven.
  • Ukázka JavaScriptu byla opravena tak, aby podporovala zvukový výstup pro syntézu překladu také v Safari.

Speech SDK 1.2.1

Toto je verze určená pouze pro JavaScript. Nebyly přidány žádné funkce. Provedli jsme následující opravy:

  • Aktivuje konec streamu na turn.end, ne na speech.end.
  • Opravte chybu v zvukovém pumpě, která neplánovala další odeslání, pokud se aktuální odeslání nezdařilo.
  • Oprava průběžného rozpoznávání pomocí ověřovacího tokenu
  • Oprava chyby pro různé rozpoznávání a koncové body
  • Vylepšení dokumentace

Speech SDK 1.2.0: Verze z prosince 2018

Nové funkce

  • Python
    • V této verzi je k dispozici beta verze podpory Pythonu (3.5 a vyšší). Další informace najdete tady](.. /.. /quickstart-python.md).
  • JavaScript
    • Sada Speech SDK pro JavaScript je opensourcová. Zdrojový kód je k dispozici na GitHubu.
    • Nyní podporujeme Node.js, další informace najdete tady.
    • Omezení délky zvukových relací bylo odebráno, opětovné připojení proběhne automaticky pod krytem.
  • Connection Objekt
    • Z objektu RecognizerConnection můžete získat přístup. Tento objekt umožňuje explicitně zahájit připojení služby a přihlásit se k odběru událostí připojení a odpojení. (Tato funkce ještě není k dispozici v JavaScriptu a Pythonu.)
  • Podpora pro Ubuntu 18.04.
  • Android
    • Povolili jsme podporu ProGuard během generování APK.

Vylepšení

  • Vylepšení použití interního vlákna, snížení počtu vláken, zámků, mutexů.
  • Vylepšené zasílání zpráv o chybách / informace Vněkolikach
  • Aktualizace vývojových závislostí v JavaScriptu tak, aby používaly aktuální moduly.

Opravy chyb

  • Oprava nevracení paměti kvůli neshodě typu v RecognizeAsyncsouboru .
  • V některých případech došlo k úniku výjimek.
  • Oprava nevracení paměti v argumentech události překladu
  • Opravili jsme problém s uzamčením při opětovném připojení v dlouhotrvajících relacích.
  • Opravili jsme problém, který mohl způsobit chybějící konečný výsledek neúspěšných překladů.
  • C#: Pokud async v hlavním vlákně nebyla operace očekávána, bylo možné, že před dokončením asynchronní úlohy může být rozpoznávání odstraněno.
  • Java: Opravili jsme problém, který způsoboval chybové ukončení virtuálního počítače v Javě.
  • Objective-C: Pevné mapování výčtu; Funkce RecognizedIntent byla vrácena místo RecognizingIntent.
  • JavaScript: Nastavte výchozí výstupní formát na "simple" in SpeechConfig.
  • JavaScript: Odebrání nekonzistence mezi vlastnostmi objektu konfigurace v JavaScriptu a dalších jazycích.

Ukázky

  • Aktualizovali jsme a opravili několik ukázek (například výstupní hlasy pro překlad atd.).
  • Přidání Node.js ukázek v ukázkovém úložišti

Speech SDK 1.1.0

Nové funkce

  • Podpora pro Android x86/x64
  • Podpora proxy serveru: V objektu SpeechConfig teď můžete volat funkci, která nastaví informace o proxy serveru (název hostitele, port, uživatelské jméno a heslo). Tato funkce ještě není v iOSu dostupná.
  • Vylepšili jsme kód chyby a zprávy. Pokud rozpoznávání vrátilo chybu, tato chyba již byla nastavena Reason (v zrušené události) nebo CancellationDetails (ve výsledku rozpoznávání) na Error. Zrušená událost nyní obsahuje dva další členy ErrorCode a ErrorDetails. Pokud server vrátil další informace o chybě s ohlášenou chybou, bude nyní k dispozici v nových členech.

Vylepšení

  • Přidání dalšího ověření v konfiguraci nástroje pro rozpoznávání a přidání další chybové zprávy
  • Vylepšené zpracování dlouhodobého ticha uprostřed zvukového souboru.
  • Balíček NuGet: Pro projekty rozhraní .NET Framework brání sestavení pomocí konfigurace AnyCPU.

Opravy chyb

  • Opravili jsme několik výjimek nalezených v nástrojích pro rozpoznávání. Kromě toho jsou výjimky zachyceny a převedeny na Canceled událost.
  • Opravte nevracení paměti při správě vlastností.
  • Opravili jsme chybu, při které mohlo dojít k chybovému ukončení rozpoznávání zvukového vstupního souboru.
  • Opravili jsme chybu, kdy se události mohly přijímat po události zastavení relace.
  • Opravili jsme některé podmínky časování ve vláknech.
  • Opravili jsme problém s kompatibilitou iOS, který mohl způsobit chybové ukončení.
  • Vylepšení stability pro podporu mikrofonu Androidu
  • Opravili jsme chybu, kdy rozpoznávání v JavaScriptu ignorovalo jazyk rozpoznávání.
  • Opravili jsme chybu, která bránila EndpointId nastavení (v některých případech) v JavaScriptu.
  • Změna pořadí parametrů v AddIntent v JavaScriptu a přidání chybějícího AddIntent javascriptového podpisu

Ukázky

  • Přidali jsme ukázky C++ a C# pro načítání a nabízení streamů v ukázkovém úložišti.

Speech SDK 1.0.1

Vylepšení spolehlivosti a opravy chyb:

  • Oprava potenciální závažné chyby kvůli stavu časování při rozpoznávání
  • Opravili jsme možnou závažnou chybu při výskytu nenasazených vlastností.
  • Přidali jsme další kontrolu chyb a parametrů.
  • Objective-C: Byla opravena možná závažná chyba způsobená přepsáním názvu v NSString.
  • Objective-C: Upravená viditelnost rozhraní API
  • JavaScript: Opraveno v souvislosti s událostmi a jejich datovými částmi.
  • Vylepšení dokumentace

V našem ukázkovém úložišti byla přidána nová ukázka pro JavaScript.

Azure AI Speech SDK 1.0.0: Verze z září 2018

Nové funkce

Změny způsobující chyby

Azure AI Speech SDK 0.6.0: Verze ze srpna 2018

Nové funkce

  • Aplikace pro UPW vytvořené pomocí sady Speech SDK teď můžou předat sadu Windows App Certification Kit (WACK). Podívejte se na rychlý start pro UPW.
  • Podpora pro .NET Standard 2.0 v Linuxu (Ubuntu 16.04 x64).
  • Experimentální: Podpora Javy 8 ve Windows (64bitová verze) a Linuxu (Ubuntu 16.04 x64). Projděte si rychlý start k prostředí Java Runtime Environment.

Funkční změna

  • Zveřejnění dalších podrobných informací o chybách připojení

Změny způsobující chyby

  • V Javě (Android) SpeechFactory.configureNativePlatformBindingWithDefaultCertificate už funkce nevyžaduje parametr cesty. Nyní je cesta automaticky zjištěna na všech podporovaných platformách.
  • Objekt get-accessor vlastnosti EndpointUrl v Javě a C# byl odebrán.

Opravy chyb

  • V Javě se teď implementuje výsledek syntézy zvuku v rozpoznávání překladu.
  • Opravili jsme chybu, která mohla způsobit neaktivní vlákna a zvýšený počet otevřených a nepoužívaných soketů.
  • Opravili jsme problém, kdy se dlouhotrvající rozpoznávání mohlo ukončit uprostřed přenosu.
  • Opravili jsme stav časování v vypnutí rozpoznávání.

Azure AI Speech SDK 0.5.0: Verze z července 2018

Nové funkce

  • Podpora platformy Android (API 23: Android 6.0 Marshmallow nebo vyšší). Podívejte se na rychlý start pro Android.
  • Podpora .NET Standard 2.0 ve Windows Projděte si rychlý start pro .NET Core.
  • Experimentální: Podpora UPW ve Windows (verze 1709 nebo novější)
    • Podívejte se na rychlý start pro UPW.
    • Všimněte si, že aplikace pro UPW vytvořené pomocí sady Speech SDK ještě nepřecházejí sadu Windows App Certification Kit (WACK).
  • Podpora dlouhotrvajícího rozpoznávání pomocí automatického opětovného připojení

Funkční změny

  • StartContinuousRecognitionAsync() podporuje dlouhotrvající rozpoznávání.
  • Výsledek rozpoznávání obsahuje více polí. Posunují se od začátku zvuku a doby trvání (jak v odškrtávkách), rozpoznaného textu, tak další hodnoty, které představují stav rozpoznávání, InitialSilenceTimeout například a InitialBabbleTimeout.
  • Podpora AuthorizationTokenu pro vytváření instancí továrny

Změny způsobující chyby

  • Události rozpoznávání: NoMatch Typ události byl sloučen do Error události.
  • SpeechOutputFormat v jazyce C# byl přejmenován tak, aby OutputFormat zůstal v souladu s jazykem C++.
  • Návratový typ některých metod AudioInputStream rozhraní se mírně změnil:
    • V Javě metoda read nyní vrátí long místo int.
    • V jazyce C# Read metoda nyní vrátí uint místo int.
    • V jazyce C++ Read se nyní metody GetFormat vrací size_t místo int.
  • C++: Instance zvukových vstupních datových proudů lze nyní předávat pouze jako .shared_ptr

Opravy chyb

  • Opravili jsme nesprávné návratové hodnoty ve výsledku, když RecognizeAsync() vyprší časový limit.
  • Byla odebrána závislost na knihovnách základů médií ve Windows. Sada SDK teď používá základní zvuková rozhraní API.
  • Oprava dokumentace: Přidání stránky oblastí pro popis podporovaných oblastí

Známý problém

  • Sada Speech SDK pro Android nehlásí výsledky syntézy řeči pro překlad. Tento problém bude opraven v příští verzi.

Azure AI Speech SDK 0.4.0: Verze z června 2018

Funkční změny

  • AudioInputStream

    Rozpoznávání teď může jako zdroj zvuku využívat stream. Další informace najdete v související příručce s postupy.

  • Podrobný výstupní formát

    Při vytváření SpeechRecognizermůžete požadovat Detailed nebo Simple výstupní formát. Obsahuje DetailedSpeechRecognitionResult skóre spolehlivosti, rozpoznaný text, nezpracovaný lexikální formulář, normalizovaný formulář a normalizovaný formulář s maskovanou vulgární.

Změna způsobující chybu

  • Změna na SpeechRecognitionResult.Text z SpeechRecognitionResult.RecognizedText v jazyce C#.

Opravy chyb

  • Opravili jsme možný problém se zpětným voláním ve vrstvě USP během vypnutí.
  • Pokud rozpoznávatel spotřeboval zvukový vstupní soubor, držel se na popisovači souboru déle, než je potřeba.
  • Odebralo několik zablokování mezi pumpou zprávy a rozpoznáváním.
  • NoMatch Aktivuje výsledek, když vyprší časový limit odpovědi ze služby.
  • Knihovny základů médií ve Windows jsou zpožděné. Tato knihovna se vyžaduje jenom pro vstup mikrofonu.
  • Rychlost nahrávání zvukových dat je omezena přibližně na dvojnásobek původní rychlosti zvuku.
  • Ve Windows jsou teď sestavení .NET jazyka C# silná.
  • Oprava dokumentace: Region K vytvoření nástroje pro rozpoznávání se vyžadují informace.

Přidali jsme další ukázky a neustále se aktualizují. Nejnovější sadu ukázek najdete v úložišti GitHub s ukázkami sady Speech SDK.

Azure AI Speech SDK 0.2.12733: Verze z května 2018

Tato verze je první verzí Public Preview sady Azure AI Speech SDK.