Co je nového ve službě Azure AI Speech?

Článek
01/21/2024

Azure AI Speech se průběžně aktualizuje. Aktuální informace o nejnovějším vývoji najdete v tomto článku s informacemi o nových verzích a funkcích.

Nedávné zvýraznění

Služba Azure AI Speech podporuje převod textu OpenAI na hlasové hlasy. Další informace najdete v tématu Co jsou texty OpenAI pro hlasové hlasy?.
Vlastní hlasové rozhraní API je k dispozici pro vytváření a správu profesionálních a osobních vlastních neurálních hlasových modelů.
Azure AI Speech teď podporuje model Šeptající OpenAI prostřednictvím rozhraní API pro dávkový přepis. Další informace najdete v průvodci vytvořením dávkového přepisu .

Poznámky k verzi

Volba služby nebo prostředku

Nadcházející plány pro uživatele s Linuxem a Androidem:

Upozornění

Tento článek odkazuje na CentOS, linuxovou distribuci, která se blíží stavu Konec životnosti (EOL). Zvažte své použití a plánování odpovídajícím způsobem. Další informace najdete v doprovodných materiálech CentOS End Of Life.

Ubuntu 18.04 také dosáhl konce životnosti v dubnu 2023, takže naši uživatelé by se měli připravit na přesun naší minimální verze až do Ubuntu 20.04.

Speech SDK 1.37.0: Verze z dubna 2024

Nové funkce

Přidání podpory pro streamování vstupního textu v syntéze řeči
Změňte výchozí hlas syntézy řeči na en-US-AvaMultilingualNeural.
Aktualizujte buildy Androidu tak, aby používaly OpenSSL 3.x.

Opravy chyb

Opravte občasné chybové ukončení prostředí JVM při odstraňování služby SpeechRecognizer při použití MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Vylepšení detekce výchozích zvukových zařízení v Linuxu (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Ukázky

Aktualizováno pro nové funkce.

Speech SDK 1.36.0: Verze z března 2024

Nové funkce

Přidání podpory pro identifikaci jazyka v vícejazyčných překladech v koncových bodech v2 pomocí AutoDetectSourceLanguageConfig::FromOpenRange().

Opravy chyb

Oprava události SynthesisCanceled se neaktivovala, pokud se během události SynthesisStarted volá zastavení.
Opravte problém s šumem ve vložené syntéze řeči.
Oprava chybového ukončení v integrovaném rozpoznávání řeči při paralelním spouštění více rozpoznávacích rutin.
Opravte nastavení režimu detekce frází na koncových bodech v1/v2.
Řeší různé problémy se službou Microsoft Audio Stack.

Ukázky

Aktualizace pro nové funkce.

Speech SDK 1.35.0: Verze z února 2024

Nové funkce

Změňte výchozí text na hlasový hlas z en-US-JennyMultilingualNeural na en-US-AvaNeural.
Podpora podrobností na úrovni slov ve vložených výsledcích překladu řeči pomocí podrobného výstupního formátu

Opravy chyb

Opravte rozhraní API getter position AudioDataStream v Pythonu.
Oprava překladu řeči pomocí koncových bodů v2 bez rozpoznávání jazyka
Oprava náhodného chybového ukončení a duplicitních událostí hranic slov ve vloženém textu na řeč
Vrátí správný kód chyby zrušení pro vnitřní chybu serveru u připojení WebSocket.
Opravte chybu načtení knihovny FPIEProcessor.dll při použití MAS s jazykem C#.

Ukázky

Menší aktualizace formátování pro ukázky rozpoznávání embedded

Speech SDK 1.34.1: Verze z ledna 2024

Změny způsobující chyby

Opravy chyb

Nové funkce

Opravy chyb

Opravy chyb

Oprava regrese představená ve verzi 1.34.0, kde byla vytvořena adresa URL koncového bodu služby s chybnými informacemi o národním prostředí pro uživatele v několika oblastech Číny.

Speech SDK 1.34.0: Verze z listopadu 2023

Změny způsobující chyby

Služba SpeechRecognizer byla ve výchozím nastavení aktualizována tak, aby používala nový koncový bod (tj. pokud explicitně nezadáváte adresu URL), která už nepodporuje parametry řetězce dotazu pro většinu vlastností. Místo nastavení parametrů řetězce dotazu přímo pomocí ServicePropertyChannel.UriQueryParameter použijte odpovídající funkce rozhraní API.

Nové funkce

Kompatibilita s .NET 8 (oprava https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 s výjimkou upozornění na centos7-x64)
Podpora vložených metrik výkonu řeči, které je možné použít k vyhodnocení schopnosti zařízení pro spouštění vloženého řeči
Podpora identifikace zdrojového jazyka ve vloženém vícejazyčném překladu
Podpora vložených převodů řeči na text, převod textu na řeč a překlad pro iOS a Swift/Objective-C vydaná ve verzi Preview.
Podpora embedded je k dispozici v MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Opravy chyb

Oprava pro iOS SDK x2 krát binární velikost růstu · Problém č. 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Oprava nemožnosti získat časová razítka na úrovni slov z azure Speech na textové rozhraní API · Problém č. 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Oprava pro fázi zničení DialogService Připojení or pro správné odpojení událostí. Občas to způsobovalo chybové ukončení.
Oprava výjimky při vytváření rozpoznávání při použití MAS
FPIEProcessor.dll z balíčku NuGet Microsoft.CognitiveServices.Speech.Extension.MAS pro Windows UPW x64 a ARM64 měly závislost na knihovnách modulu runtime VC pro nativní jazyk C++. Tento problém byl opraven aktualizací závislosti na opravách knihoven modulu runtime VC (pro UPW).
Oprava pro [MAS] Opakující se volání k rozpoznáváníOnceAsync vedou k SPXERR_ALREADY_INITIALIZED při použití MAS · Problém č. 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Oprava chybového ukončení rozpoznávání vloženého řeči při použití seznamů frází

Ukázky

Vložené ukázky pro převod řeči na text, převod textu na řeč a překlad

Speech CLI 1.34.0: Verze z listopadu 2023

Nové funkce

Podpora výstupu událostí hranic slov při syntezizaci řeči

Opravy chyb

Aktualizace závislosti JMESPath na nejnovější verzi, vylepšení vyhodnocení řetězců

Speech SDK 1.33.0: Verze z října 2023

Oznámení o zásadní změně

Nově přidaný balíček NuGet pro Microsoft Audio Stack (MAS) je teď potřeba zahrnout aplikacemi, které ve svých konfiguračních souborech balíčku používají MAS.

Nové funkce

Přidání nového balíčku NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, který poskytuje lepší výkon zrušení ozvěny při použití služby Microsoft Audio Stack
Hodnocení výslovnosti: Přidání podpory prosody a vyhodnocení obsahu, které může vyhodnotit mluvenou řeč z hlediska prosody, slovníku, gramatiky a tématu.

Opravy chyb

Opravili jsme posuny výsledků rozpoznávání klíčových slov tak, aby správně odpovídaly vstupnímu zvukovému streamu od začátku. Oprava platí pro rozpoznávání samostatného klíčového slova i rozpoznávání řeči aktivované klíčovým slovem.
Oprava stopSpeaking syntetizátoru nevrací okamžitě SPXSpeechSynthesizer stopSpeaking() metoda nemůže vrátit okamžitě v iOS 17 - Problém #2081
Opravili jsme problém s importem mackatalyzátoru na platformě Swift module Support for Mac catalyst with apple silicon. Problém č. 1948
JS: Modul AudioWorkletNode teď načte důvěryhodnou adresu URL s náhradní adresou URL, která zahrnuje prohlížeč CDN.
JS: Zabalené soubory lib teď cílí na ES6 JS s podporou odebrání JS ES5.
JS: Přechodné události pro scénář překladu, který cílí na koncový bod v2, se správně zpracovávají.
JS: Vlastnost jazyka pro TranslationRecognitionEventArgs je nyní nastavena pro události translation.hypothesis.
Syntéza řeči: Událost SyntézaCompleted se zaručuje, že se bude generovat po všech událostech metadat, takže by se dala použít k označení na konec událostí. Jak zjistit, kdy jsou visemy zcela přijaty? Problém č. 2093 Azure-Samples/cognitive-services-speech-sdk

Ukázky

Přidání ukázky pro předvedení streamování MULAW pomocí Pythonu)
Oprava ukázky NAudio pro převod řeči na text

Speech CLI 1.33.0: Verze z října 2023

Nové funkce

Podpora výstupu událostí hranic slov při syntezizaci řeči

Opravy chyb

Žádná

Speech SDK 1.32.1: Verze ze září 2023

Opravy chyb

Aktualizace balíčků Pro Android s nejnovějšími opravami zabezpečení z OpenSSL1.1.1v
JS – Vlastnost WebWorkerLoadType přidaná pro povolení obejití zatížení adresy URL dat pro pracovní proces časového limitu
JS – Oprava odpojení překladu konverzací po 10 minutách
JS – Ověřovací token překladu konverzací z konverzace se teď rozšíří do připojení služby překladu.

Ukázky

Přepis konverzace pomocí rozhraní Swift API

Speech SDK 1.31.0: Verze ze srpna 2023

Nové funkce

Podpora diarizace v reálném čase je dostupná ve verzi Public Preview se sadou Speech SDK 1.31.0. Tato funkce je dostupná v následujících sadách SDK: C#, C++, Java, JavaScript, Python a Objective-C/Swift.
Synchronizované syntetizované slovo hranice a viseme události s přehráváním zvuku

Změny způsobující chyby

Bývalý scénář přepisu konverzace se přejmenuje na "přepis schůzky". Například místo MeetingTranscriber a místo CreateMeetingAsyncCreateConversationAsync.ConversationTranscriber I když se změnily názvy objektů a metod sady SDK, přejmenování nemění samotnou funkci. K přepisu schůzek s profily uživatelů a hlasovými podpisy použijte objekty přepisu schůzky. Další informace najdete v části Přepis schůzky. Tyto změny neovlivní objekty a metody překladu konverzací. Objekt a jeho metody můžete stále používat ConversationTranslator pro scénáře překladu schůzek.

Pro diarizaci v reálném čase se zavádí nový ConversationTranscriber objekt. Nový objektový model přepisu konverzace a vzory volání se podobají průběžnému rozpoznávání objektu SpeechRecognizer . Klíčovým rozdílem je, že objekt je navržený tak, ConversationTranscriber aby byl použit ve scénáři konverzace, ve kterém chcete odlišit více mluvčích (diarizace). Profily uživatelů a hlasové podpisy se nepoužijí. Další informace najdete v rychlém startu pro diarizaci v reálném čase.

Tato tabulka zobrazuje předchozí a nové názvy objektů pro diarizaci v reálném čase a přepis schůzky. Název scénáře je v prvním sloupci, předchozí názvy objektů jsou ve druhém sloupci a nové názvy objektů jsou ve třetím sloupci.

Název scénáře	Názvy předchozích objektů	Názvy nových objektů
Diarizace v reálném čase	–	`ConversationTranscriber`
Přepis schůzky	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ , ParticipantParticipantChangedReasona User objekty jsou použitelné jak pro přepis schůzky, tak pro scénáře překladu schůzek.

² Objekt Meeting je nový a používá se s objektem MeetingTranscriber .

Opravy chyb

Oprava minimální podporované verze macOS https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Oprava chyby vyhodnocení výslovnosti:
- Vyřešili jsme problém s skóre přesnosti telefonního motivu a zajistili, že teď přesně odpovídají pouze konkrétnímu chybnému fonencii. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Vyřešili jsme problém, kdy funkce Posouzení výslovnosti nepřesně identifikovala úplně správné výslovnosti jako chybné, zejména v situacích, kdy slova mohla mít několik platných výslovností. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Ukázky

Speech SDK 1.30.0: Verze z července 2023

Nové funkce

C++, C#, Java – přidání podpory pro DisplayWords podrobný výsledek integrovaného rozpoznávání řeči
Objective-C/Swift – Přidání podpory pro ConnectionMessageReceived událost v Objective-C/Swiftu
Objective-C/Swift – Vylepšené modely vyhledávání klíčových slov pro iOS Tato změna zvýšila velikost některých balíčků, které obsahují binární soubory pro iOS (například NuGet, XCFramework). Pracujeme na zmenšení velikosti budoucích verzí.

Opravy chyb

Opravili jsme nevracení paměti při použití rozpoznávání řeči s frází PhraseListGrammar, jak nahlásil zákazník (problém GitHubu).
Opravili jsme zablokování v textu s rozhraním API pro otevřené připojení řeči.

Další poznámky

Java – Některé interně používané public metody rozhraní Java API byly změněny na balíček protectedinternalnebo private. Tato změna by neměla mít vliv na vývojáře, protože neočekáváme, že by aplikace tyto aplikace používaly. Zde je uvedeno za transparentnost.

Ukázky

Nové ukázky hodnocení výslovnosti týkající se určení výukového jazyka ve vaší vlastní aplikaci
- C#: Viz ukázkový kód.
- C++: Viz ukázkový kód.
- JavaScript: Viz ukázkový kód.
- Objective-C: Viz vzorový kód.
- Python: Viz ukázkový kód.
- Swift: Podívejte se na ukázkový kód.

Speech SDK 1.29.0: Verze z června 2023

Nové funkce

C++, C#, Java – Verze Preview integrovaných rozhraní API pro překlad řeči Překlad řeči teď můžete provádět bez cloudového připojení.
JavaScript – Technologie LID (Continuous Language Identification) teď umožňuje překlad řeči.
JavaScript – příspěvek komunity pro přidání LocaleName vlastnosti do VoiceInfo třídy. Děkujeme uživateli GitHubu shivsarthak za žádost o přijetí změn.
C++, C#, Java – Přidání podpory pro převzorkování vloženého textu do výstupu řeči z 16 kHz na vzorkovací frekvenci 48 kHz
Přidání podpory národního hi-IN prostředí ve službě Rozpoznávání záměru s jednoduchým porovnávání vzorů

Opravy chyb

Oprava chybového ukončení způsobeného konfliktem časování ve službě Rozpoznávání řeči během zničení objektu, jak je vidět v některých testech Androidu
Oprava možných vzájemných zablokování ve službě Rozpoznávání záměrů pomocí jednoduchého shodovače vzorů

Ukázky

Nové ukázky vloženého překladu řeči

Speech SDK 1.28.0: Verze z května 2023

Změna způsobující chybu

JavaScript SDK: Odebrali jsme protokol OCSP (Online Certificate Status Protocol). To umožňuje klientům lépe vyhovovat standardům prohlížeče a uzlů pro zpracování certifikátů. Verze 1.28 a dále už nebude obsahovat náš vlastní modul OCSP.

Nové funkce

Vložené rozpoznávání řeči se teď vrátí NoMatchReason::EndSilenceTimeout , když na konci promluvy dojde k vypršení časového limitu ticha. To odpovídá chování při rozpoznávání pomocí služby speech v reálném čase.
JavaScript SDK: Nastavte vlastnosti pro SpeechTranslationConfig použití PropertyId hodnot výčtu.

Opravy chyb

C# ve Windows – Oprava potenciálního stavu časování nebo zablokování v rozšíření zvuku systému Windows Ve scénářích, které odstraňují audio renderer rychle a také použít syntetizátor metoda přestat mluvit, podkladová událost nebyla resetována zastavením a mohla způsobit, že renderer objekt nikdy nebyl odstraněn, a to vše, zatímco by mohl držet globální zámek pro odstranění, zmrazení dotnet GC vlákno.

Ukázky

Přidání vložené ukázky řeči pro MAUI
Aktualizovali jsme vloženou ukázku řeči pro Android Java tak, aby zahrnovala text na řeč.

Speech SDK 1.27.0: Verze z dubna 2023

Oznámení o nadcházejících změnách

V příští verzi sady JavaScript SDK plánujeme odebrat protokol OCSP (Online Certificate Status Protocol). To umožňuje klientům lépe vyhovovat standardům prohlížeče a uzlů pro zpracování certifikátů. Verze 1.27 je poslední verze, která zahrnuje náš vlastní modul OCSP.

Nové funkce

JavaScript – Přidání podpory pro vstup mikrofonu z prohlížeče s identifikací a ověřením mluvčího
Vložené rozpoznávání řeči – podpora PropertyId::Speech_SegmentationSilenceTimeoutMs aktualizace pro nastavení

Opravy chyb

Obecné – Aktualizace spolehlivosti v logice opětovného připojení služby (všechny programovací jazyky kromě JavaScriptu)
Obecné – Oprava převodů řetězců nevracení paměti ve Windows (všechny relevantní programovací jazyky s výjimkou JavaScriptu).
Vložené rozpoznávání řeči – Oprava chybového ukončení ve francouzském rozpoznávání řeči při použití určitých položek seznamu gramatiky
Dokumentace ke zdrojovému kódu – Opravy referenčních komentářů k dokumentaci k sadě SDK související s protokolováním zvuku ve službě
Rozpoznávání záměru – Oprava priorit matcheru vzorů souvisejících s entitami seznamu

Ukázky

Správně zpracujte selhání ověřování v ukázce přepisu konverzací v C# (CTS).
Přidání příkladu hodnocení výslovnosti streamování pro Python, JavaScript, Objective-C a Swift

Speech SDK 1.26.0: Verze vydaná 2023 z března 2023

Změny způsobující chyby

Ve všech cílech iOS v následujících balíčcích je zakázaný bitcode: Cocoapod s xcframework, NuGet (pro Xamarin a MAUI) a Unity. Tato změna je způsobená vyřazením podpory bitového kódu od společnosti Apple od Xcode 14 a dále. Tato změna také znamená, že pokud používáte verzi Xcode 13 nebo jste ve své aplikaci explicitně povolili bitový kód pomocí sady Speech SDK, může dojít k chybě s oznámením, že architektura neobsahuje bitový kód a musíte ho znovu sestavit. Pokud chcete tento problém vyřešit, ujistěte se, že jsou vaše cíle zakázané bitové kódy.
Minimální cíl nasazení pro iOS byl v této verzi upgradován na verzi 11.0, což znamená, že hardware armv7 se už nepodporuje.

Nové funkce

Integrované rozpoznávání řeči (na zařízení) teď podporuje vstupní zvuk vzorkovací frekvence 8 i 16 kHz (16bitový na vzorek, mono PCM).
Syntéza řeči teď hlásí latence připojení, sítě a služeb, aby vám pomohla s kompletní optimalizací latence.
Nová pravidla pro porušení předpisů pro rozpoznávání záměru s jednoduchým porovnávání vzorů Čím více bajtů znaků, které se shodují, vyhraje shodu se vzorem s nižším počtem bajtů znaků. Příklad: V pravém horním rohu se vyhraje vzor "Vybrat {something} "Vybrat {something}"

Opravy chyb

Syntéza řeči: Oprava chyby, kdy emoji není v událostech hranic slov správná.
Rozpoznávání záměru s využitím konverzačního jazyka (CLU):
- Záměry z pracovního postupu orchestratoru CLU se teď zobrazují správně.
- Výsledek JSON je nyní k dispozici prostřednictvím ID LanguageUnderstandingServiceResponse_JsonResultvlastnosti .
Rozpoznávání řeči s aktivací klíčového slova: Oprava chybějícího zvuku ~150 ms po rozpoznávání klíčových slov
Oprava sestavení sady Speech SDK NuGet mauI pro iOS MAUI nahlášené zákazníkem (problém GitHubu)

Ukázky

Oprava ukázky Swiftu pro iOS nahlášené zákazníkem (problém GitHubu)

Speech SDK 1.25.0: Verze z ledna 2023

Změny způsobující chyby

Rozhraní API pro identifikaci jazyka (Preview) byla zjednodušená. Pokud aktualizujete sadu Speech SDK 1.25 a zobrazí se konec sestavení, navštivte stránku Identifikace jazyka a seznamte se s novou vlastností SpeechServiceConnection_LanguageIdMode. Tato jednoduchá vlastnost nahrazuje dvě předchozí a SpeechServiceConnection_SingleLanguageIdPrioritySpeechServiceConnection_ContinuousLanguageIdPriority. Stanovení priority mezi nízkou latencí a vysokou přesností už není nutné po nedávných vylepšeních modelu. Teď stačí vybrat, jestli se má při průběžném rozpoznávání řeči nebo překladu spustit identifikace jazyka při spuštění nebo průběžné identifikaci jazyka.

Nové funkce

C#/C++/Java: Vložená sada Speech SDK je nyní vydána ve verzi Public Preview. Viz dokumentace ke službě Embedded Speech (Preview). Když je připojení ke cloudu přerušované nebo nedostupné, můžete teď na zařízení provádět převod řeči na text a text na řeč. Podporováno na platformách Android, Linux, macOS a Windows
C# MAUI: Podpora přidaná pro cíle iOS a Mac Catalyst v NuGetu sady Speech SDK (problém zákazníka)
Unity: Architektura x86_64 androidu přidaná do balíčku Unity (problém zákazníka)
Přejít:
- Podpora přímého streamování ALAW/MULAW přidaná pro rozpoznávání řeči (problém zákazníka)
- Přidání podpory pro PhraseListGrammar Děkujeme uživateli GitHubu za příspěvek komunity!
C#/C++: Rozpoznávání záměrů teď podporuje konverzační modely language Understanding v C++ a C# s orchestrací ve službě Microsoft

Opravy chyb

Oprava občasné zablokování v nástroji KeywordRecognizer při pokusu o zastavení
Python:
- Oprava získání výsledků hodnocení výslovnosti při PronunciationAssessmentGranularity.FullText nastavení (problém zákazníka)
- Oprava pro genderovou vlastnost, že se načítají hlasy mužů, při získávání hlasu syntézy řeči
JavaScript
- Oprava analýzy některých souborů WAV zaznamenaných na zařízeních s iOSem (problém zákazníka)
- JS SDK se teď sestavuje bez použití řešení npm-force (problém zákazníka)
- Služba Conversation Translator teď správně nastaví koncový bod služby při použití instance speechConfig vytvořené pomocí speechConfig.fromEndpoint()

Ukázky

Přidání ukázek ukazujících, jak používat Embedded Speech
Přidání ukázky řeči k textu pro MAUI

Viz úložiště ukázek sady Speech SDK.

Speech SDK 1.24.2: Verze z listopadu 2022

Nové funkce

Žádné nové funkce, pouze oprava vloženého modulu pro podporu nových souborů modelu.

Opravy chyb

Všechny programovací jazyky
- Opravili jsme problém s šifrováním vložených modelů rozpoznávání řeči.

Speech SDK 1.24.1: Verze z listopadu 2022

Nové funkce

Publikované balíčky pro Embedded Speech Preview Další informace naleznete v tématu https://aka.ms/embedded-speech.

Opravy chyb

Všechny programovací jazyky
- Oprava chybového ukončení vloženého TTS v případech, kdy není podporované hlasové písmo
- Oprava chyby stopSpeaking() nemůže zastavit přehrávání v Linuxu (#1686)
JavaScript SDK
- Opravili jsme regresi v tom, jak přepisovaný zvuk konverzace vrátil.
Java
- Dočasně publikovány aktualizované soubory POM a Javadocs do Maven Central, aby kanál dokumentace mohl aktualizovat online referenční dokumenty.
Python
- Oprava regrese, kdy Python speak_text(ssml) vrací void.

Speech SDK 1.24.0: Verze z října 2022

Nové funkce

Všechny programovací jazyky: AMR-WB (16khz) přidán do podporovaného seznamu formátů výstupu zvuku převodu textu na řeč
Python: Balíček přidaný pro Linux ARM64 pro podporované distribuce Linuxu
C#/C++/Java/Python: Podpora pro přímé streamování ALAW &MULAW do služby Speech (kromě existujícího streamu PCM) pomocí AudioStreamWaveFormat.
C# MAUI: Balíček NuGet se aktualizoval tak, aby podporoval cíle Androidu pro vývojáře .NET MAUI (problém zákazníka)
Mac: Přidali jsme samostatnou architekturu XCframework pro Mac, která neobsahuje žádné binární soubory pro iOS. Nabízí možnost pro vývojáře, kteří potřebují pouze binární soubory Mac, a to pomocí menšího balíčku XCframework.
Microsoft Audio Stack (MAS):
- Pokud jsou zadány úhly tvarující paprsky, zvuk pocházející z vnějšího rozsahu bude potlačován lépe.
- Přibližně 70% zmenšení velikosti linuxových libMicrosoft.CognitiveServices.Speech.extension.mas.so ARM32 a Linux ARM64.
Rozpoznávání záměru pomocí porovnávání vzorů:
- Přidání podpory orthografie pro jazyky fr, de, esjp
- Byla přidána předem připravená celočíselná podpora pro jazyk es.

Opravy chyb

iOS: Oprava chyby syntézy řeči v iOSu 16 způsobené selháním dekódování komprimovaného zvuku (Problém zákazníka).
JavaScript:
- Oprava nefunkčního ověřovacího tokenu při získávání hlasového seznamu syntézy řeči (problém zákazníka)
- Pro načítání pracovního procesu použijte adresu URL dat (problém zákazníka).
- Pracovnílet pro vytvoření zvukového procesoru pouze v prohlížeči (problém zákazníka) je podporovaný audioWorklet. To byl příspěvek komunity William Wong. Děkujeme Williamovi!
- Oprava rozpoznané zpětného volání, když je odpověď connectionMessage LUIS prázdná (problém zákazníka).
- Správně nastavte časový limit segmentace řeči.
Rozpoznávání záměru pomocí porovnávání vzorů:
- V modelech se teď správně načtou jiné znaky než JSON.
- Oprava problému s předsazením při recognizeOnceAsync(text) zavolání během průběžného rozpoznávání

Speech SDK 1.23.0: Verze z července 2022

Nové funkce

C#, C++, Java: Přidání podpory jazyků zh-cn a zh-hk rozpoznávání záměrů pomocí porovnávání vzorů
C#: Přidání podpory pro AnyCPU sestavení .NET Framework

Opravy chyb

Android: Oprava chyby zabezpečení OpenSSL CVE-2022-2068 aktualizací OpenSSL na 1.1.1q
Python: Oprava chybového ukončení při použití PushAudioInputStream
iOS: Oprava chyby EXC_BAD_ACCESS: Pokus o zrušení odvozování nulového ukazatele, jak je uvedeno v iOSu (problém GitHubu)

Speech SDK 1.22.0: Verze z června 2022

Nové funkce

Java: IntentRecognitionResult API for getEntities(), applyLanguageModels() a recognizeOnceAsync(text) přidaný pro podporu modulu "jednoduché porovnávání vzorů".
Unity: Přidání podpory pro Mac M1 (Apple Silicon) pro balíček Unity (problém s GitHubem)
C#: Přidání podpory pro x86_64 pro Xamarin Android (problém s GitHubem)
C#: Minimální verze rozhraní .NET Framework se aktualizovala na balíček C# sady SDK v4.6.2, protože verze 4.6.1 byla vyřazena (viz zásady životního cyklu komponent rozhraní Microsoft .NET Framework).
Linux: Přidání podpory pro Debian 11 a Ubuntu 22.04 LTS. Ubuntu 22.04 LTS vyžaduje ruční instalaci knihovny libssl1.1 buď jako binární balíček odsud (například libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb nebo novější pro x64), nebo kompilací ze zdrojů.

Opravy chyb

UPW: Závislost OpenSSL byla odebrána z knihoven UPW a nahrazena rozhraními API winRT websocket a HTTP, aby splňovala dodržování předpisů zabezpečení a menší binární stopy.
Mac: Opravili jsme problém s chybou MicrosoftCognitiveServicesSpeech Module Not Found při použití projektů Swift, které cílí na platformu macOS.
Windows, Mac: Opravili jsme problém specifický pro platformu, kdy se zvukové zdroje nakonfigurované prostřednictvím vlastností pro streamování v reálném čase někdy zapadly a nakonec překročily kapacitu.

Ukázky (GitHub)

C#: Ukázky rozhraní .NET Framework se aktualizovaly tak, aby používaly v4.6.2
Unity: Ukázka virtuálního asistenta opravená pro Android a UPW
Unity: Ukázky Unity aktualizované pro verzi Unity 2020 LTS

Speech SDK 1.21.0: Verze z dubna 2022

Nové funkce

Java &JavaScript: Přidání podpory pro kontinuální identifikaci jazyka při použití objektu SpeechRecognizer
JavaScript: Přidání diagnostických rozhraní API pro povolení protokolování na úrovni protokolování konzoly a protokolování souborů (pouze node) pro pomoc Microsoftu s řešením problémů nahlášených zákazníkem
Python: Přidání podpory pro přepis konverzace
Go: Přidání podpory pro rozpoznávání mluvčího
C++ & C#: Přidání podpory požadované skupiny slov v rozpoznávání záměru (jednoduché porovnávání vzorů). Například: "(set|start|begin) časovač" kde musí být pro záměr rozpoznaný buď "set", "start", "start" nebo "begin".
Všechny programovací jazyky, Syntéza řeči: Přidání vlastnosti duration v událostech hranic slova. Přidání podpory pro hranici interpunkce a hranice věty
Objective-C/Swift/Java: Přidali jsme výsledky na úrovni slov do objektu výsledků vyhodnocení výslovnosti (podobně jako V#). Aplikace už nepotřebuje parsovat výsledný řetězec JSON, aby získala informace na úrovni slov (problém GitHubu).
Platforma iOS: Přidání experimentální podpory pro architekturu ARMv7

Opravy chyb

Platforma iOS: Oprava povolení vytváření cílového zařízení s iOSem při použití CocoaPodu (problém s GitHubem)
Platforma Android: Verze OpenSSL byla aktualizována na verzi 1.1.1n, aby se opravila ohrožení zabezpečení CVE-2022-0778
JavaScript: Oprava problému, kdy se hlavička wav neaktualizovala s velikostí souboru (problém s GitHubem)
JavaScript: Oprava problémů s desynchronizace ID žádosti způsobující chybu překladu (problém s GitHubem)
JavaScript: Oprava problému při vytváření instance SpeakerAudioDestination bez streamu (problém GitHubu]
C++: Oprava hlaviček C++ pro odebrání upozornění při kompilaci pro C++17 nebo novější

Ukázky Na GitHubu

Nové ukázky v Javě pro rozpoznávání řeči s identifikací jazyka
Nové ukázky Pythonu a Javy pro přepis konverzace
Nová ukázka Go pro rozpoznávání mluvčího
Nový nástroj C++ a C# pro Windows, který vyčísluje všechna zařízení pro zachytávání a vykreslování zvuku pro vyhledání ID zařízení. Toto ID vyžaduje sada Speech SDK, pokud plánujete zachytit zvuk z nebo vykreslit zvuk do jiného než výchozího zařízení.

Speech SDK 1.20.0: Verze z ledna 2022

Nové funkce

Objective-C, Swift a Python: Byla přidána podpora pro DialogService Připojení or, která se používá pro scénáře hlasového asistenta.
Python: Byla přidána podpora Pythonu 3.10. Podpora Pythonu 3.6 byla odebrána na konci životnosti Pythonu pro verzi 3.6.
Unity: Sada Speech SDK je teď podporovaná pro aplikace Unity v Linuxu.
C++, C#: IntentRecognizer využívající porovnávání vzorů se teď podporuje v jazyce C#. Kromě toho se teď podporují scénáře s vlastními entitami, volitelnými skupinami a rolemi entit v jazyce C++ a C#.
C++, C#: Vylepšené protokolování trasování diagnostiky pomocí nových tříd FileLogger, MemoryLogger a EventLogger. Protokoly sady SDK jsou důležitým nástrojem microsoftu k diagnostice problémů nahlášených zákazníkem. Tyto nové třídy usnadňují zákazníkům integraci protokolů sady Speech SDK do vlastního systému protokolování.
Všechny programovací jazyky: VýslovnostAssessmentConfig teď má vlastnosti pro nastavení požadované abecedy foonemu (IPA nebo SAPI) a N-Best Telefon me Count (vyhněte se nutnosti vytvářet konfigurační JSON podle problému GitHubu 1284). Podporuje se také výstup na úrovni slabiky.
Android, iOS a macOS (všechny programovací jazyky): GStreamer už není potřeba pro podporu sítí s omezenou šířkou pásma. SpeechSynthesizer teď používá funkce dekódování zvuku operačního systému k dekódování komprimovaného zvuku streamovaného z textu do služby speech.
Všechny programovací jazyky: SpeechSynthesizer teď podporuje tři nové nezpracované formáty Opus (bez kontejneru), které se běžně používají ve scénářích živého streamování.
JavaScript: Přidání rozhraní GETVoicesAsync() API do speechSynthesizer pro načtení seznamu podporovaných syntézních hlasů (problém GitHubu 1350)
JavaScript: Přidání rozhraní API getWaveFormat() do formátu AudioStreamFormat pro podporu jiných formátů vln než PCM (problém GitHubu 452)
JavaScript: Přidání rozhraní API getter/setter a ztlumení svazku ()/unmute() do speakerAudioDestination (problém GitHubu 463)

Opravy chyb

C++, C#, Java, JavaScript, Objective-C a Swift: Oprava odebrání 10sekundového zpoždění při zastavení rozpoznávání řeči, která používá PushAudioInputStream. To je v případě, že se po volání StopContinuousRecognition (problémy GitHubu 1318, 331) nenasdílí žádný nový zvuk.
Unity v Androidu a UPW: Meta soubory Unity byly opraveny pro UPW, Android ARM64 a subsystém Windows pro Android (WSA) ARM64 (problém s GitHubem 1360)
iOS: Kompilace aplikace Speech SDK na jakémkoli zařízení s iOSem při používání CocoaPods je opravená (problém GitHubu 1320)
iOS: Když je SpeechSynthesizer nakonfigurovaný tak, aby výstup zvuku přímo do reproduktoru, přehrávání se zastavilo na začátku ve výjimečných podmínkách. Toto bylo opraveno.
JavaScript: Pro vstup mikrofonu použijte náhradní procesor skriptu ( problém GitHubu 455)
JavaScript: Přidání protokolu do agenta za účelem zmírnění zjištěné chyby s integrací Sentry (problém GitHubu 465)

Ukázky Na GitHubu

Ukázky jazyka C++, C#, Python a Java ukazující, jak získat podrobné výsledky rozpoznávání. Podrobnosti zahrnují alternativní výsledky rozpoznávání, skóre spolehlivosti, lexikální formulář, normalizovaný formulář, maskovaný normalizovaný formulář s časováním na úrovni slova pro každou z nich.
Ukázka iOS přidaná pomocí AVFoundation jako externího zdroje zvuku
Ukázka Javy přidaná k zobrazení toho, jak získat formát SRT (SubRip Text) pomocí události WordBoundary
Ukázky Androidu pro posouzení výslovnosti
C++, C# zobrazující využití nových tříd protokolování diagnostiky

Speech SDK 1.19.0: verze z listopadu 2021

Nejzajímavější body

Služba rozpoznávání mluvčího je teď obecně dostupná (GA). Rozhraní API sady Speech SDK jsou k dispozici v C++, C#, Javě a JavaScriptu. Pomocí rozpoznávání mluvčího můžete přesně ověřit a identifikovat mluvčí podle jejich jedinečných charakteristik hlasu. Další informace o tomto tématu najdete v dokumentaci.
Zrušili jsme podporu ubuntu 16.04 ve spojení s Azure DevOps a GitHubem. Ubuntu 16.04 dosáhl konce životnosti zpět v dubnu 2021. Migrujte pracovní postupy Ubuntu 16.04 na Ubuntu 18.04 nebo novější.
Propojení OpenSSL v binárních souborech s Linuxem se změnilo na dynamické. Binární velikost Linuxu se snížila o přibližně 50 %.
Přidána podpora čipu založeného na ARM pro Mac M1.

Nové funkce

C++/C#/Java: Byla přidána nová rozhraní API, která umožňují podporu zpracování zvuku pro vstup řeči ve službě Microsoft Audio Stack. Tady je dokumentace.
C++: Nová rozhraní API pro rozpoznávání záměru usnadňují pokročilejší porovnávání vzorů. To zahrnuje entity Typu Seznam a Předem připravené celé číslo a také podporu seskupení záměrů a entit jako modelů (Dokumentace, aktualizace a ukázky jsou ve vývoji a budou publikovány v blízké budoucnosti).
Mac: Podpora siliconu založeného na ARM64 (M1) pro balíčky CocoaPod, Python, Java a NuGet související s problémem GitHubu 1244.
iOS/Mac: Binární soubory pro iOS a macOS jsou teď zabalené do xcframework souvisejících s problémem GitHubu 919.
iOS/Mac: Podpora katalyzátoru Macu souvisejícího s problémem GitHubu 1171
Linux: Nový balíček tar přidaný pro CentOS7 About the Speech SDK. Balíček linuxového .tar teď obsahuje konkrétní knihovny pro RHEL/CentOS 7 v lib/centos7-x64systému . Knihovny sady Speech SDK v knihovně lib/x64 jsou stále použitelné pro všechny ostatní podporované distribuce Linuxu x64 (včetně RHEL/CentOS 8) a nebudou fungovat na RHEL/CentOS 7.
JavaScript: Rozhraní API VoiceProfile a SpeakerRecognizer se provedla async/await.
JavaScript: Přidání podpory pro oblasti Azure státní správy USA
Windows: Podpora přehrávání na Univerzální platforma Windows (UPW).

Opravy chyb

Android: Aktualizace zabezpečení OpenSSL (aktualizovaná na verzi 1.1.1l) pro balíčky Pro Android.
Python: Byla vyřešena chyba, kdy výběr zařízení mluvčího v Pythonu selhal.
Jádro: Automaticky se znovu připojte, když se nezdaří pokus o připojení.
iOS: Komprese zvuku zakázaná v balíčcích iOS kvůli nestabilitě a problémům s sestavením bitcode při použití GStreameru. Podrobnosti jsou k dispozici prostřednictvím problému s GitHubem 1209.

Ukázky Na GitHubu

Mac/iOS: Aktualizované ukázky a rychlé starty pro použití balíčku xcframework
.NET: Ukázky aktualizované tak, aby používaly verzi .NET Core 3.1.
JavaScript: Přidání ukázky pro hlasové asistenty

Speech SDK 1.18.0: verze z července 2021

Poznámka: Tady můžete začít se sadou Speech SDK.

Souhrn zvýrazní

Ubuntu 16.04 dosáhl konce životnosti v dubnu 2021. S Azure DevOps a GitHubem v září 2021 snížíme podporu pro verzi 16.04. Před tím migrujte pracovní postupy ubuntu-16.04 na ubuntu-18.04 nebo novější.

Nové funkce

C++: Model jednoduchého jazyka odpovídající rozpoznávání záměru teď usnadňuje implementaci jednoduchých scénářů rozpoznávání záměrů.
C++/C#/Java: Do třídy jsme přidali nové rozhraní API pro VoiceProfileClientGetActivationPhrasesAsync() příjem seznamu platných aktivačních frází ve fázi registrace rozpoznávání mluvčího pro nezávislé scénáře rozpoznávání.
- Důležité: Funkce rozpoznávání mluvčího je ve verzi Preview. Všechny hlasové profily vytvořené ve verzi Preview budou ukončeny 90 dní poté, co se funkce rozpoznávání mluvčího přesune z verze Preview do obecné dostupnosti. V tomto okamžiku přestanou fungovat hlasové profily ve verzi Preview.
Python: Přidání podpory pro kontinuální identifikaci jazyka (LID) u existujících SpeechRecognizer a TranslationRecognizer objektů
Python: Přidali jsme nový objekt Pythonu s názvem SourceLanguageRecognizer k jednorázovému nebo průběžnému lidu (bez rozpoznávání nebo překladu).
JavaScript: getActivationPhrasesAsync Rozhraní API přidané do VoiceProfileClient třídy pro příjem seznamu platných aktivačních frází ve fázi registrace rozpoznávání mluvčího pro nezávislé scénáře rozpoznávání.
Rozhraní API Jazyka enrollProfileAsync JavaScriptVoiceProfileClient je nyní async awaitable. Podívejte se na tento nezávislý identifikační kód, například použití.

Vylepšení

Java: Podpora automatického přidání do mnoha objektů Java Teď je model try-with-resources podporovaný pro vydávání prostředků. Podívejte se na tuto ukázku, která používá try-with-resources. Další informace o tomto vzoru najdete v kurzu dokumentace k Oracle Java pro příkaz try-with-resources.
Nároky na disky se výrazně snížily pro mnoho platforem a architektur. Příklady binárního Microsoft.CognitiveServices.Speech.core souboru: x64 Linux je menší 475 kB (snížení o 8,0 %); ARM64 Windows UPW je menší 464 kB (snížení o 11,5 %); x86 Windows je menší 343 kB (17,5% redukce); a x64 Windows je menší 451 kB (19,4% snížení).

Opravy chyb

Java: Opravili jsme syntetickou chybu, pokud syntéza textu obsahuje náhradní znaky. Podrobnosti najdete tady.
JavaScript: Zpracování zvuku mikrofonu prohlížeče nyní používá AudioWorkletNode místo zastaralé ScriptProcessorNode. Podrobnosti najdete tady.
JavaScript: Správně udržovat konverzace naživu během dlouhotrvajících scénářů překladu konverzací. Podrobnosti najdete tady.
JavaScript: Opravili jsme problém s opětovným připojením rozpoznávače k mediastreamu v průběžném rozpoznávání. Podrobnosti najdete tady.
JavaScript: Opravili jsme problém s opětovným připojením rozpoznávání k pushStreamu v průběžném rozpoznávání. Podrobnosti najdete tady.
JavaScript: Opravili jsme výpočet posunu na úrovni slova v podrobných výsledcích rozpoznávání. Podrobnosti najdete tady.

Ukázky

Ukázky rychlého startu v Javě se tady aktualizovaly.
Ukázky rozpoznávání mluvčího enrollProfileAsync()v JavaScriptu se aktualizovaly, aby zobrazovaly nové využití . Ukázky najdete tady.

Speech SDK 1.17.0: verze z května 2021

Poznámka:

Tady můžete začít se sadou Speech SDK.

Souhrn zvýrazní

Menší nároky – dál snižujeme nároky na paměť a disky sady Speech SDK a jejích komponent.
Nové samostatné rozhraní API pro identifikaci jazyka umožňuje rozpoznat, jaký jazyk se mluví.
Vyvíjejte aplikace pro hybridní realitu a hry s podporou řeči pomocí Unity v macOS.
Kromě rozpoznávání řeči z programovacího jazyka Go teď můžete použít i funkci Převod textu na řeč.
Několik oprav chyb pro řešení problémů, které jste vy, naši hodnotní zákazníci, označili příznakem na GitHubu! DĚKUJU! Pokračujte v zpětnou vazbu!

Nové funkce

C++/C#: Nové samostatné funkce At-Start a Continuous Language Detection prostřednictvím SourceLanguageRecognizer rozhraní API Pokud chcete rozpoznát pouze jazyky mluvené ve zvukovém obsahu, jedná se o rozhraní API, které k tomu slouží. Podrobnosti o C++ a C# najdete v podrobnostech.
C++/C#: Rozpoznávání řeči a rozpoznávání překladu teď podporují rozpoznávání řeči a kontinuální identifikaci jazyka, abyste mohli programově určit, které jazyky se před přepisem nebo překladem mluví. Viz dokumentace k rozpoznávání řeči a tady pro překlad řeči.
C#: Přidání podpory podpory Unity do macOS (x64). Tím se odemkne rozpoznávání řeči a syntéza řeči případy použití v hybridní realitě a hraní her!
Go: Přidali jsme podporu pro syntézu řeči do programovacího jazyka Go, aby byla syntéza řeči dostupná ještě více případů použití. Podívejte se na náš rychlý start nebo naši referenční dokumentaci.
C++/C#/Java/Python/Objective-C/Go: Syntetizátor řeči teď podporuje connection objekt. To vám pomůže spravovat a monitorovat připojení ke službě Speech a je užitečné zejména před připojením, aby se snížila latence. Podívejte se na dokumentaci.
C++/C#/Java/Python/Objective-C/Go: Teď zveřejňujeme latenci a dobu běhu SpeechSynthesisResult , abychom vám pomohli monitorovat a diagnostikovat problémy s latencí syntézy řeči. Podrobnosti najdete v tématech C++, C#, Java, Python, Objective-C a Go.
C++/C#/Java/Python/Objective-C: Text na řeč teď ve výchozím nastavení používá neurální hlasy , když nezadáte hlas, který se má použít. To vám ve výchozím nastavení dává vyšší přesnost výstupu, ale také zvyšuje výchozí cenu. Můžete zadat libovolný z našich více než 70 standardních hlasů nebo více než 130 neurálních hlasů, aby se výchozí nastavení změnilo.
C++/C#/Java/Python/Objective-C/Go: Do syntézy hlasových informací jsme přidali vlastnost Pohlaví, která usnadňuje výběr hlasů na základě pohlaví. Řeší se tím problém GitHubu č. 1055.
C++, C#, Java, JavaScript: Nyní podporujeme retrieveEnrollmentResultAsyncgetAuthorizationPhrasesAsynca getAllProfilesAsync() v rozpoznávání mluvčího usnadňuje správu všech hlasových profilů pro daný účet. Viz dokumentace pro C++, C#, Java, JavaScript. Řeší se tím problém GitHubu č. 338.
JavaScript: Přidali jsme opakování chyb připojení, díky kterým budou vaše aplikace řeči založené na JavaScriptu robustnější.

Vylepšení

Binární soubory sady Linux a Android Speech SDK byly aktualizovány tak, aby používaly nejnovější verzi OpenSSL (1.1.1k).
Vylepšení velikosti kódu:
- Language Understanding je teď rozdělená do samostatné knihovny lu.
- Binární velikost jádra systému Windows x64 se snížila o 14,4 %.
- Binární velikost jádra ANDROID ARM64 se snížila o 13,7 %.
- jiné součásti se také zmenšily.

Opravy chyb

Vše: Opravili jsme problém GitHubu č. 842 pro ServiceTimeout. Pomocí sady Speech SDK teď můžete přepisovat dlouhé zvukové soubory bez připojení ke službě, která končí touto chybou. Přesto ale doporučujeme používat dávkový přepis pro dlouhé soubory.
C#: Opravili jsme problém GitHubu č. 947 , kdy nebylo možné opustit aplikaci ve špatném stavu.
Java: Opravili jsme problém GitHubu č. 997, kdy se sada Speech SDK pro Javu 1.16 chybově ukončí při použití DialogService Připojení or bez síťového připojení nebo neplatného klíče předplatného.
Opravili jsme chybu při náhlém zastavení rozpoznávání řeči (například pomocí CTRL+C v konzolové aplikaci).
Java: Přidali jsme opravu pro odstranění dočasných souborů ve Windows při použití sady Speech SDK pro Javu.
Java: Opravili jsme problém GitHubu č. 994 , kdy volání DialogServiceConnector.stopListeningAsync mohlo způsobit chybu.
Java: Opravili jsme problém zákazníka v rychlém startu virtuálního asistenta.
JavaScript: Opravili jsme problém GitHubu č. 366 , kdy ConversationTranslator se zobrazila chyba this.cancelSpeech není funkce.
JavaScript: Opravili jsme problém GitHubu č. 298 , kdy se nahlas přehrávala ukázka "Get result as an in-memory stream" (Získat výsledek jako stream v paměti).
JavaScript: Opravili jsme problém GitHubu č. 350 , kdy volání AudioConfig mohlo způsobit chybu ReferenceError: MediaStream není definován.
JavaScript: Opravili jsme upozornění NeošetřenéHopromiseRejection v Node.js pro dlouhotrvající relace.

Ukázky

Tady jsme aktualizovali dokumentaci ukázek Unity pro macOS.
Tady je k dispozici ukázka React Native pro službu Rozpoznávání řeči Azure AI.

Speech SDK 1.16.0: Verze z března 2021

Poznámka:

Sada Speech SDK ve Windows závisí na sdílené sadě Microsoft Distribuovatelné součásti Visual C++ pro Visual Studio 2015, 2017 a 2019. Stáhněte si ho zde.

Nové funkce

C++/C#/Java/Python: Přesunuli jsme se na nejnovější verzi GStreameru (1.18.3) a přidali podporu pro přepis libovolného formátu médií ve Windows, Linuxu a Androidu. Podívejte se na dokumentaci.
C++/C#/Java/Objective-C/Python: Přidání podpory dekódování komprimovaného TTS/syntetizovaného zvuku do sady SDK Pokud nastavíte výstupní formát zvuku na PCM a GStreamer je ve vašem systému dostupný, sada SDK automaticky vyžádá komprimovaný zvuk ze služby, aby ušetřila šířku pásma a dekódovala zvuk v klientovi. Tuto funkci můžete zakázat SpeechServiceConnection_SynthEnableCompressedAudioTransmissionfalse . Podrobnosti pro C++, C#, Java, Objective-C, Python
JavaScript: Node.js uživatelé teď můžou rozhraní API používatAudioConfig.fromWavFileInput. Řeší se tím problém GitHubu č. 252.
C++/C#/Java/Objective-C/Python: Přidání GetVoicesAsync() metody pro TTS pro vrácení všech dostupných syntézových hlasů Podrobnosti pro C++, C#, Java, Objective-C a Python
C++/C#/Java/JavaScript/Objective-C/Python: Přidání VisemeReceived události pro syntézu TTS/speech pro vrácení synchronní animace viseme Podívejte se na dokumentaci.
C++/C#/Java/JavaScript/Objective-C/Python: Přidání BookmarkReached události pro TTS Záložky můžete nastavit ve vstupním SSML a získat posuny zvuku pro každou záložku. Podívejte se na dokumentaci.
Java: Přidali jsme podporu rozhraní API pro rozpoznávání mluvčího. Podrobnosti najdete tady.
C++/C#/Java/JavaScript/Objective-C/Python: Přidali jsme dva nové výstupní formáty zvuku s kontejnerem WebM pro TTS (Webm16Khz16BitMonoOpus a Webm24Khz16BitMonoOpus). Jedná se o lepší formáty pro streamování zvuku pomocí kodeku Opus. Podrobnosti pro C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: Přidání podpory pro načtení hlasového profilu pro scénář rozpoznávání mluvčího Podrobnosti o jazyce C++, C# a Javě
C++/C#/Java/Objective-C/Python: Přidání podpory pro samostatnou sdílenou knihovnu pro zvukový mikrofon a ovládání reproduktoru Vývojář tak může používat sadu SDK v prostředích, která nemají požadované závislosti zvukové knihovny.
Objective-C/Swift: Přidali jsme podporu pro architekturu modulů s hlavičkou deštníku. Vývojář tak může importovat sadu Speech SDK jako modul v aplikacích pro iOS/Mac Objective-C/Swift. Řeší se tím problém GitHubu č. 452.
Python: Přidali jsme podporu Pythonu 3.9 a vypnuli jsme podporu Pythonu 3.5 na konec životnosti Pythonu pro verzi 3.5.

Známé problémy

C++/C#/Java: DialogServiceConnector Nejde použít CustomCommandsConfig pro přístup k aplikaci Vlastních příkazů a místo toho dojde k chybě připojení. Můžete to obejít ručním přidáním ID aplikace do požadavku pomocí config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Očekávané chování CustomCommandsConfig bude obnoveno v příští verzi.

Vylepšení

V rámci úsilí o více verzí pro snížení využití paměti a diskové stopy sady Speech SDK jsou teď binární soubory Androidu o 3 až 5 % menší.
Vylepšená přesnost, čitelnost a viz také oddíly referenční dokumentace jazyka C#.

Opravy chyb

JavaScript: Velké hlavičky souboru WAV se teď analyzují správně (zvyšuje řez záhlaví na 512 bajtů). Řeší se tím problém GitHubu č. 962.
JavaScript: Opravili jsme problém s časováním mikrofonu, pokud stream mikrofonu končí před rozpoznáváním zastavení a vyřešil problém s nefunkčním rozpoznáváním řeči ve Firefoxu.
JavaScript: Teď správně zpracováváme inicializační příslib, když prohlížeč vynutí mikrofon před dokončením turnOn.
JavaScript: Nahradili jsme závislost adresy URL analýzou adresy URL. Řeší se tím problém GitHubu č. 264.
Android: Pevná zpětná volání nefungují, když minifyEnabled je nastavená hodnota true.
C++/C#/Java/Objective-C/Python: TCP_NODELAY Pro TTS se správně nastaví základní vstupně-výstupní operace soketu, aby se snížila latence.
C++/C#/Java/Python/Objective-C/Go: Opravili jsme občasné chybové ukončení, když byl rozpoznávání zničen právě po spuštění rozpoznávání.
C++/C#/Java: Opravili jsme občasné chybové ukončení při zničení rozpoznávání mluvčího.

Ukázky

JavaScript: Ukázky prohlížeče už nevyžadují samostatné stažení souboru knihovny JavaScriptu.

Speech SDK 1.15.0: verze z ledna 2021

Poznámka:

Sada Speech SDK ve Windows závisí na sdílené sadě Microsoft Distribuovatelné součásti Visual C++ pro Visual Studio 2015, 2017 a 2019. Stáhněte si ho zde.

Souhrn zvýrazní

Menší nároky na paměť a disky, což zefektivňuje sadu SDK.
Formáty výstupu s vyšší věrností dostupné pro privátní náhled vlastního neurálního hlasu.
Rozpoznávání záměrů teď může vrátit více než hlavní záměr a poskytnout vám možnost provést samostatné posouzení záměru zákazníka.
Hlasoví asistenti a roboti se teď snadněji nastavují a můžete ho okamžitě přestat naslouchat a využívat větší kontrolu nad tím, jak reaguje na chyby.
Vylepšili jsme výkon zařízení díky volitelné kompresi.
Použijte sadu Speech SDK ve Windows ARM/ARM64.
Vylepšili jsme ladění nízké úrovně.
Funkce Posouzení výslovnosti je nyní široce dostupná.
Několik oprav chyb pro řešení problémů, které jste vy, naši hodnotní zákazníci, označili příznakem na GitHubu! DĚKUJU! Pokračujte v zpětnou vazbu!

Vylepšení

Sada Speech SDK je teď efektivnější a odlehčí. Začali jsme s více verzemi, abychom snížili využití paměti a nároky na disky sady Speech SDK. Jako první krok jsme výrazně snížili velikost souborů ve sdílených knihovnách na většině platforem. Ve srovnání s verzí 1.14:
- 64bitové knihovny windows kompatibilní s UPW jsou přibližně o 30 % menší.
- 32bitové knihovny Windows ještě nevidí zlepšení velikosti.
- Linuxové knihovny jsou o 20–25 % menší.
- Knihovny Pro Android jsou o 3–5 % menší.

Nové funkce

Vše: Nové formáty výstupu 48 KHz dostupné pro privátní náhled vlastního neurálního hlasu prostřednictvím rozhraní API pro syntézu řeči TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Vše: Vlastní hlas je také jednodušší. Přidání podpory pro nastavení vlastního hlasu prostřednictvím EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Před touto změnou potřebovali vlastní uživatelé hlasu nastavit adresu URL koncového FromEndpoint bodu prostřednictvím metody. Teď můžou zákazníci použít metodu FromSubscription stejně jako předem připravené hlasy a pak zadat ID nasazení nastavením EndpointId. To zjednodušuje nastavení vlastních hlasů.
C++/C#/Java/Objective-C/Python: Získejte více než hlavní záměr.IntentRecognizer Teď podporuje konfiguraci výsledku JSON obsahujícího všechny záměry a nejen záměr s nejvyšším skóre prostřednictvím LanguageUnderstandingModel FromEndpoint metody pomocí verbose=true parametru URI. Řeší se tím problém GitHubu č. 880. Podívejte se na aktualizovanou dokumentaci.
C++/C#/Java: Okamžitě naslouchejte hlasovému asistentovi nebo robotovi. DialogServiceConnector (C++, C#, Java) má nyní metodu StopListeningAsync() , která se má připojit ListenOnceAsync(). Tím okamžitě zastavíte zachytávání zvuku a elegantně počkáte na výsledek, takže je ideální pro použití se scénáři stisknutí tlačítka "stop now".
C++/C#/Java/JavaScript: Lepší reakce hlasového asistenta nebo robota na základní systémové chyby DialogServiceConnector (C++, C#, Java, JavaScript) teď má novou TurnStatusReceived obslužnou rutinu události. Tyto volitelné události odpovídají každému ITurnContext řešení robota a hlásí selhání spuštění, když k nim dojde, například v důsledku neošetřené výjimky, časového limitu nebo výpadku sítě mezi Direct Line Speech a robotem. TurnStatusReceived usnadňuje reakci na podmínky selhání. Pokud například robot trvá příliš dlouho na back-endovém databázovém dotazu (například vyhledání produktu), TurnStatusReceived umožní klientovi vědět, že se omlouváme, ale to se mi nepodařilo, zkuste to prosím znovu" nebo něco podobného.
C++/C#: Použití sady Speech SDK na více platformách Balíček NuGet sady Speech SDK teď podporuje nativní binární soubory windows ARM/ARM64 pro stolní počítače (upW už byly podporovány), aby byla sada Speech SDK užitečnější pro více typů počítačů.
Java: DialogServiceConnector Nyní má metodu setSpeechActivityTemplate() , která byla neúmyslně vyloučena z jazyka dříve. To je ekvivalentem Conversation_Speech_Activity_Template nastavení vlastnosti a bude požadovat, aby všechny budoucí aktivity Bot Framework pocházející ze služby Direct Line Speech sloučily poskytnutý obsah do datových částí JSON.
Java: Vylepšené ladění nízké úrovně Třída Connection má nyní událost podobnou jiným programovacím jazykům MessageReceived (C++, C#). Tato událost poskytuje přístup k příchozím datům ze služby na nízké úrovni a může být užitečná pro diagnostiku a ladění.
JavaScript: Jednodušší nastavení pro hlasové asistenty a roboty prostřednictvím BotFrameworkConfig, které teď mají fromHost() a fromEndpoint() factory metody, které zjednodušují používání vlastních umístění služeb a ruční nastavení vlastností. Standardizovali jsme také volitelnou specifikaci použití jiného než výchozího botId robota v rámci konfiguračních továren.
JavaScript: Vylepšili jsme výkon zařízení prostřednictvím přidané vlastnosti ovládacího prvku řetězce pro kompresi websocket. Z důvodů výkonu jsme ve výchozím nastavení zakázali kompresi protokolu websocket. To je možné znovu použít pro scénáře s nízkou šířkou pásma. Další podrobnosti najdete tady. Řeší se tím problém GitHubu č. 242.
JavaScript: Přidání podpory pro posouzení výslovnosti lPronunciation umožňující vyhodnocení výslovnosti řeči. Podívejte se na tento rychlý start.

Opravy chyb

Vše (s výjimkou JavaScriptu): Opravili jsme regresi ve verzi 1.14, ve které byl rozpoznáváním přiděleno příliš mnoho paměti.
C++: Opravili jsme problém s uvolňováním paměti a DialogServiceConnectorvyřešili jsme problém GitHubu č. 794.
C#: Opravili jsme problém s vypnutím vlákna, který způsoboval, že se objekty blokovaly přibližně na sekundu při vyřazení.
C++/C#/Java: Opravili jsme výjimku, která brání aplikaci v nastavení autorizačního tokenu řeči nebo šablony aktivity více než jednou v objektu DialogServiceConnector.
C++/C#/Java: Opravili jsme chybové ukončení rozpoznávání kvůli stavu časování v slzách.
JavaScript: DialogServiceConnector Nedotklo se dříve volitelného botId parametru zadaného v BotFrameworkConfigtovárnách. Kvůli tomu bylo nutné ručně nastavit botId parametr řetězce dotazu tak, aby používal jiného než výchozího robota. Chyba byla opravena a botId hodnoty poskytnuté BotFrameworkConfigtovárnám budou dodrženy a použity, včetně nových fromHost() a fromEndpoint() přidaných. To platí také pro applicationId parametr pro CustomCommandsConfig.
JavaScript: Opravili jsme problém GitHubu č. 881, který umožňoval opětovné využití objektů rozpoznávání.
JavaScript: Opravili jsme problém, kdy skD odesílala speech.config vícekrát v jedné relaci TTS a způsobovala plýtvání šířkou pásma.
JavaScript: Zjednodušené zpracování chyb při autorizaci mikrofonu, což umožňuje více popisnější zprávy, když uživatel v prohlížeči nepovolil vstup mikrofonu.
JavaScript: Opravili jsme problém GitHubu č. 249 , kdy došlo k ConversationTranslator chybám typu a ConversationTranscriber způsobila chybu kompilace pro uživatele TypeScriptu.
Objective-C: Opravili jsme problém, kdy sestavení GStreameru pro iOS v Xcode 11.4 selhalo a vyřešilo problém GitHubu č. 911.
Python: Opravili jsme problém GitHubu č. 870 a odebrali jsme chybu "Vyřazení z provozu: imp modul je ve prospěch importlibu zastaralý".

Ukázky

Ukázka ze souboru pro prohlížeč JavaScript teď používá soubory pro rozpoznávání řeči. Řeší se tím problém GitHubu č. 884.

Speech SDK 1.14.0: Verze z října 2020

Poznámka:

Sada Speech SDK ve Windows závisí na sdílené sadě Microsoft Distribuovatelné součásti Visual C++ pro Visual Studio 2015, 2017 a 2019. Stáhněte si ho zde.

Nové funkce

Linux: Přidání podpory pro Debian 10 a Ubuntu 20.04 LTS.
Python/Objective-C: Přidání podpory pro KeywordRecognizer rozhraní API Tady bude dokumentace.
C++/Java/C#: Přidání podpory pro nastavení libovolného HttpHeader klíče nebo hodnoty prostřednictvím ServicePropertyChannel::HttpHeader.
JavaScript: Přidání podpory pro ConversationTranscriber rozhraní API Přečtěte si dokumentaci tady.
C++/C#: Přidání nové AudioDataStream FromWavFileInput metody (pro čtení . Soubory WAV zde (C++) a tady (C#).
C++/C#/Java/Python/Objective-C/Swift: Přidali jsme metodu stopSpeakingAsync() pro zastavení syntézy řeči textu. Přečtěte si referenční dokumentaci zde (C++),tady (C#), zde (Java), zde (Python) a tady (Objective-C/Swift).
C#, C++, Java: Přidání FromDialogServiceConnector() funkce do Connection třídy, která se dá použít k monitorování událostí připojení a odpojení pro DialogServiceConnector. Přečtěte si referenční dokumentaci zde (C#), tady (C++) a tady (Java).
C++/C#/Java/Python/Objective-C/Swift: Přidali jsme podporu pro hodnocení výslovnosti, která vyhodnocuje výslovnost řeči a poskytuje mluvčím zpětnou vazbu o přesnosti a plynulosti mluveného zvuku. Dokumentaci si můžete přečíst tady.

Změna způsobující chybu

JavaScript: PullAudioOutputStream.read() má návratovou změnu typu z interního příslibu na nativní javascriptový příslib.

Opravy chyb

Vše: Oprava regrese 1,13, kdy SetServiceProperty byly ignorovány hodnoty s určitými speciálními znaky.
C#: Opravené ukázky konzoly Windows v sadě Visual Studio 2019 se nepodařilo najít nativní knihovny DLL.
C#: Opravili jsme chybové ukončení se správou paměti, pokud se stream používá jako KeywordRecognizer vstup.
ObjectiveC/Swift: Opravili jsme chybové ukončení se správou paměti, pokud se stream používá jako vstup nástroje pro rozpoznávání.
Windows: Opravili jsme problém koexistence s BT HFP/A2DP v UPW.
JavaScript: Opravili jsme mapování ID relací za účelem zlepšení protokolování a pomoci při interních korelacích ladění a služeb.
JavaScript: Byla přidána oprava pro DialogServiceConnector zakázání ListenOnce volání po prvním volání.
JavaScript: Opravili jsme problém, kdy výstup výsledku byl "jednoduchý".
JavaScript: Opravili jsme problém s průběžným rozpoznáváním v Safari v macOS.
JavaScript: Zmírnění zatížení procesoru pro scénář vysoké propustnosti požadavků
JavaScript: Povolí přístup k podrobnostem o výsledku registrace hlasového profilu.
JavaScript: Byla přidána oprava pro průběžné rozpoznávání v IntentRecognizerjazyce .
C++/C#/Java/Python/Swift/ObjectiveC: Opravili jsme nesprávnou adresu URL pro australiaeast a brazilsouth in IntentRecognizer.
C++/C#: Přidáno VoiceProfileType jako argument při vytváření objektu VoiceProfile .
C++/C#/Java/Python/Swift/ObjectiveC: Byl opraven potenciál SPX_INVALID_ARG při pokusu o čtení AudioDataStream z dané pozice.
IOS: Opravili jsme chybové ukončení s rozpoznáváním řeči v Unity.

Ukázky

ObjectiveC: Sem jsme přidali ukázku pro rozpoznávání klíčových slov.
C#/JavaScript: Přidání rychlého startu pro přepis konverzace sem (C#) a tady (JavaScript)
C++/C#/Java/Python/Swift/ObjectiveC: Přidání ukázky pro hodnocení výslovnosti sem
Xamarin: Tady jsme aktualizovali rychlý start na nejnovější šablonu sady Visual Studio.

Známý problém

DigiCert Global Root G2 certifikát není ve výchozím nastavení podporován v HoloLens 2 a Android 4.4 (KitKat) a je potřeba ho přidat do systému, aby byla sada Speech SDK funkční. V blízké budoucnosti se certifikát přidá do imagí operačního systému HoloLens 2. Zákazníci s Androidem 4.4 musí přidat aktualizovaný certifikát do systému.

Covid-19 zkrácené testování

Vzhledem k tomu, že během posledních několika týdnů pracujete vzdáleně, nemohli jsme provádět tolik ručního ověřování jako obvykle. Neudělali jsme žádné změny, které bychom si mysleli, že by mohly něco porušovat, a všechny naše automatizované testy proběhly. V nepravděpodobném případě, že jsme něco zmeškali, dejte nám prosím vědět na GitHubu.
Zůstaňte v pořádku!

Speech SDK 1.13.0: Verze z července 2020

Poznámka:

Sada Speech SDK ve Windows závisí na sdílené sadě Microsoft Distribuovatelné součásti Visual C++ pro Visual Studio 2015, 2017 a 2019. Stáhněte a nainstalujte ho odsud.

Nové funkce

C#: Přidání podpory pro přepis asynchronní konverzace Podívejte se na dokumentaci.
JavaScript: Přidali jsme podporu rozpoznávání mluvčího pro prohlížeč i Node.js.
JavaScript: Byla přidána podpora identifikace jazyka nebo ID jazyka. Podívejte se na dokumentaci.
Objective-C: Přidání podpory pro přepis konverzací a konverzací ve více zařízeních
Python: Přidali jsme komprimovanou podporu zvuku pro Python ve Windows a Linuxu. Podívejte se na dokumentaci.

Opravy chyb

Vše: Opravili jsme problém, který způsoboval, že se funkce KeywordRecognizer po rozpoznávání nepřesunovala streamy vpřed.
Vše: Opravili jsme problém, který způsoboval, že datový proud získaný z klíčového slovaRecognitionResult neobsahoval klíčové slovo.
Vše: Opravili jsme problém, kdy SendMessageAsync zprávu po dokončení čekání na připojení ve skutečnosti neodesílala.
Vše: Opravili jsme chybu v rozhraních API pro rozpoznávání mluvčího, když uživatelé volali VoiceProfileClient::SpeakerRecEnrollProfileAsync několikrát a nečekali na dokončení volání.
Vše: Opraveno povolení protokolování souborů ve třídách VoiceProfileClient a SpeakerRecognizer.
JavaScript: Opravili jsme problém s omezováním při minimalizaci prohlížeče.
JavaScript: Opravili jsme problém s nevracením paměti u datových proudů.
JavaScript: Přidání ukládání do mezipaměti pro odpovědi OCSP z NodeJS.
Java: Opravili jsme problém, který způsoboval, že pole BigInteger vždy vrátila hodnotu 0.
iOS: Opravili jsme problém s publikováním aplikací založených na sadě Speech SDK v iOS App Storu.

Ukázky

C++: Sem jsme přidali vzorový kód pro rozpoznávání mluvčího.

Covid-19 zkrácené testování

Speech SDK 1.12.1: Verze z června 2020

Nové funkce

C#, C++: Rozpoznávání mluvčího ve verzi Preview: Tato funkce umožňuje identifikaci mluvčího (kdo mluví?) a ověření mluvčího (je mluvčí, kterému tvrdí, že je?). Začněte přehledem, přečtěte si základní informace o rozpoznávání mluvčího nebo referenční dokumentaci k rozhraní API.

Opravy chyb

C#, C++: Pevná nahrávka mikrofonu v rozpoznávání mluvčího nefungovala ve verzi 1.12.
JavaScript: Opravy pro převod textu na řeč ve Firefoxu a Safari v macOS a iOS.
Oprava chyby porušení přístupu aplikace pro Windows při přepisu konverzace při použití osmikanálového streamu
Oprava chybového ukončení porušení přístupu aplikace pro Windows při překladu konverzací ve více zařízeních

Ukázky

C#: Ukázka kódu pro rozpoznávání mluvčího
C++: Ukázka kódu pro rozpoznávání mluvčího
Java: Ukázka kódu pro rozpoznávání záměru v Androidu

Covid-19 zkrácené testování

Speech SDK 1.12.0: Verze z května 2020

Nové funkce

Go: Podpora nového jazyka Go pro rozpoznávání řeči a vlastního hlasového asistenta Tady nastavte vývojové prostředí. Vzorový kód najdete v části Ukázky níže.
JavaScript: Přidání podpory prohlížeče pro převod textu na řeč Podívejte se na dokumentaci.
C++, C#, Java: Nový KeywordRecognizer objekt a rozhraní API podporovaná na platformách Windows, Android, Linux a iOS Dokumentaci si můžete přečíst tady. Vzorový kód najdete v části Ukázky níže.
Java: Přidali jsme konverzaci s více zařízeními s podporou překladu. Podívejte se na referenční dokumentaci.

Vylepšení a optimalizace

JavaScript: Optimalizovaná implementace mikrofonu prohlížeče vylepšuje přesnost rozpoznávání řeči.
Java: Refaktorované vazby využívající přímou implementaci JNI bez SWIG. Tato změna snižuje o 10x velikost vazeb pro všechny balíčky Java používané pro Windows, Android, Linux a Mac a usnadňuje další vývoj implementace Sady Speech SDK v Javě.
Linux: Aktualizovaná dokumentace podpory s nejnovějšími konkrétními poznámkami RHEL 7
Vylepšená logika připojení k pokusu o připojení vícekrát, když dojde k chybám služby a sítě.
Aktualizovali jsme stránku rychlého startu pro portal.azure.com Speech, která vývojářům pomůže provést další krok na cestě k Azure AI Speech.

Opravy chyb

C#, Java: Opravili jsme problém s načítáním knihoven SDK v Linuxu ARM (32bitová i 64bitová verze).
C#: Oprava explicitní odstranění nativních popisovačů pro TranslationRecognizer, IntentRecognizer a Připojení ion objekty.
C#: Oprava správy doby života zvukového vstupu pro objekt ConversationTranscriber
Opravili jsme problém, kdy IntentRecognizer se při rozpoznávání záměrů z jednoduchých frází správně nenastavil důvod výsledku.
Opravili jsme problém, kdy SpeechRecognitionEventArgs se správně nenastavil posun výsledku.
Opravili jsme stav časování, kdy se sada SDK pokoušela odeslat síťovou zprávu před otevřením připojení websocket. Při přidávání účastníků byla reprodukovatelná TranslationRecognizer .
Opravili jsme nevracení paměti v modulu pro rozpoznávání klíčových slov.

Ukázky

Go: Přidání rychlých startů pro rozpoznávání řeči a vlastního hlasového asistenta Tady najdete vzorový kód.
JavaScript: Přidali jsme rychlé starty pro rozpoznávání textu na řeč, překlad a záměr.
Ukázky rozpoznávání klíčových slov pro C# a Javu (Android).

Covid-19 zkrácené testování

Vzhledem k tomu, že během posledních několika týdnů pracujete vzdáleně, nemohli jsme provádět tolik ručního ověřování jako obvykle. Neudělali jsme žádné změny, které bychom si mysleli, že by mohly něco porušovat, a všechny naše automatizované testy proběhly. Pokud nám něco chybí, dejte nám prosím vědět na GitHubu.
Zůstaňte v pořádku!

Speech SDK 1.11.0: Verze z března 2020

Nové funkce

Linux: Přidání podpory pro Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 s pokyny ke konfiguraci systému pro sadu Speech SDK.
Linux: Přidání podpory pro .NET Core C# v Linuxu ARM32 a ARM64. Další informace si můžete přečíst zde.
C#, C++: Přidáno UtteranceId do ConversationTranscriptionResult, konzistentní ID napříč všemi zprostředkujícími a konečnými výsledky rozpoznávání řeči. Podrobnosti pro C#, C++.
Python: Přidání podpory pro Language ID. Viz speech_sample.py v úložišti GitHub.
Windows: Přidání podpory komprimovaného formátu zvukového vstupu na platformě Windows pro všechny konzolové aplikace win32. Podrobnosti najdete tady.
JavaScript: Podporuje syntézu řeči (text na řeč) v NodeJS. Další informace najdete zde.
JavaScript: Přidejte nová rozhraní API, která umožní kontrolu všech odesílaných a přijatých zpráv. Další informace najdete zde.

Opravy chyb

C#, C++: Opravili jsme problém, takže SendMessageAsync se teď binární zpráva odesílá jako binární typ. Podrobnosti pro C#, C++.
C#, C++: Opravili jsme problém, kdy použití Connection MessageReceived události mohlo způsobit chybové ukončení, pokud Recognizer je odstraněno před objektem Connection . Podrobnosti pro C#, C++.
Android: Velikost vyrovnávací paměti zvuku z mikrofonu se snížila z 800 ms na 100 ms, aby se zlepšila latence.
Android: Opravili jsme problém s emulátorem androidu x86 v Android Studiu.
JavaScript: Přidání podpory oblastí v Číně pomocí fromSubscription rozhraní API Podrobnosti najdete tady.
JavaScript: Přidejte další informace o chybách připojení z NodeJS.

Ukázky

Unity: Oprava veřejné ukázky rozpoznávání záměrů, kdy selhával import JSON služby LUIS. Podrobnosti najdete tady.
Python: Ukázka přidaná pro Language ID. Podrobnosti najdete tady.

Covid19 zkrácené testování: Vzhledem k tomu, že během posledních několika týdnů pracujete vzdáleně, se nám nepodařilo provádět tolik ručních ověřovacích testů zařízení, jak to obvykle děláme. Nemohli jsme například otestovat vstup mikrofonu a výstup reproduktoru v Linuxu, iOSu a macOS. Neprovedli jsme žádné změny, které bychom si mysleli, že by na těchto platformách mohly něco porušovat, a všechny naše automatizované testy prošly. V nepravděpodobném případě, že jsme něco vynechali, dejte nám vědět na GitHubu.
Děkujeme za vaši trvalou podporu. Jako vždy publikujte dotazy nebo zpětnou vazbu na GitHub nebo Stack Overflow.
Zůstaňte v pořádku!

Speech SDK 1.10.0: Verze z února 2020

Nové funkce

Přidali jsme balíčky Pythonu pro podporu nové verze Pythonu 3.8.
Podpora Red Hat Enterprise Linuxu (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

Poznámka:

Zákazníci musí nakonfigurovat OpenSSL podle těchto pokynů.
Podpora Linuxu ARM32 pro Debian a Ubuntu
DialogService Připojení or teď podporuje volitelný parametr ID robota v BotFrameworkConfig. Tento parametr umožňuje používat více robotů Direct Line Speech s jedním prostředkem služby Speech. Bez zadaného parametru se použije výchozí robot (určený konfigurační stránkou kanálu Direct Line Speech).
DialogService Připojení or má nyní vlastnost SpeechActivityTemplate. Obsah tohoto řetězce JSON bude direct Line Speech používat k předběžnému naplnění široké škály podporovaných polí ve všech aktivitách, které se dostanou k robotovi Direct Line Speech, včetně aktivit automaticky generovaných v reakci na události, jako je rozpoznávání řeči.
TTS teď používá klíč předplatného k ověřování a snižuje latenci prvního bajtu prvního výsledku syntézy po vytvoření syntetizátoru.
Aktualizované modely rozpoznávání řeči pro 19 národních prostředí pro průměrné snížení míry chyb slov o 18,6 % (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt- PT, tr-TR). Nové modely přinášejí významná vylepšení napříč několika doménami, včetně scénářů diktování, přepisu call-center a video indexování.

Opravy chyb

Oprava chyby, kdy přepis konverzace nečekal správně v rozhraních JAVA API
Oprava emulátoru x86 androidu pro Xamarin GitHub
Přidání chybějícího objektu (Get|Set)Metody vlastností na AudioConfig
Oprava chyby TTS, kdy se při selhání připojení nepodařilo zastavit audioDataStream
Použití koncového bodu bez oblasti by způsobilo selhání usP pro překladač konverzací.
Generování ID v univerzálních aplikacích pro Windows teď používá správně jedinečný algoritmus GUID; dříve a neúmyslně se ve výchozím nastavení použila k překryvné implementaci, která často způsobovala kolize nad velkými sadami interakcí.

Ukázky

Ukázka Unity pro použití sady Speech SDK s mikrofonem Unity a streamováním režimu nabízení

Další změny

Aktualizovaná dokumentace ke konfiguraci OpenSSL pro Linux

Speech SDK 1.9.0: Verze z ledna 2020

Nové funkce

Konverzace s více zařízeními: Připojte více zařízení ke stejné konverzaci na základě řeči nebo textu a volitelně přeložte zprávy odeslané mezi nimi. Další informace najdete v tomto článku.
Přidali jsme podporu rozpoznávání klíčových slov pro balíček Android .aar a přidali jsme podporu pro varianty x86 a x64.
Objective-C: SendMessage a SetMessageProperty metody přidané do Connection objektu. Podívejte se na dokumentaci.
Rozhraní API jazyka TTS C++ teď podporuje std::wstring jako vstup pro syntézu textu, takže před předáním do sady SDK je potřeba převést řetězec na řetězec. Další podrobnosti najdete tady.
C#: Id jazyka a konfigurace zdrojového jazyka jsou nyní k dispozici.
JavaScript: Přidání funkce k objektu pro Connection předávání vlastních zpráv ze služby Speech jako zpětného receivedServiceMessagevolání .
JavaScript: Přidali jsme podporu pro FromHost API snadné použití s místními kontejnery a suverénními cloudy. Podívejte se na dokumentaci.
JavaScript: Nyní ctíme NODE_TLS_REJECT_UNAUTHORIZED díky příspěvku od orgads. Další podrobnosti najdete tady.

Změny způsobující chyby

OpenSSL byla aktualizována na verzi 1.1.1b a staticky je propojená s základní knihovnou sady Speech SDK pro Linux. To může způsobit přerušení, pokud se vaše doručená pošta OpenSSL nenainstalovala do /usr/lib/ssl adresáře v systému. Pokud chcete tento problém vyřešit, projděte si naši dokumentaci v dokumentaci k sadě Speech SDK.
Změnili jsme datový typ vrácený pro jazyk C# WordLevelTimingResult.Offsetint tak, aby long umožňoval přístup k WordLevelTimingResults datům řeči delším než 2 minuty.
PushAudioInputStream a PullAudioInputStream nyní odesílat informace hlavičky wav do služby Speech založené na AudioStreamFormat, volitelně zadané při jejich vytvoření. Zákazníci teď musí používat podporovaný formát zvukového vstupu. Jakékoli jiné formáty získají neoptimální výsledky rozpoznávání nebo můžou způsobit jiné problémy.

Opravy chyb

Podívejte se na OpenSSL aktualizaci v části Zásadní změny výše. Opravili jsme občasné chybové ukončení i problém s výkonem (kolize uzamčení při vysokém zatížení) v Linuxu a Javě.
Java: Vylepšili jsme uzavření objektů ve scénářích s vysokou souběžností.
Restrukturalizovali jsme náš balíček NuGet. Odebrali jsme tři kopie Microsoft.CognitiveServices.Speech.core.dll složek knihovny Lib, Microsoft.CognitiveServices.Speech.extension.kws.dll aby byl balíček NuGet menší a rychlejší ke stažení, a přidali jsme hlavičky potřebné ke kompilaci některých nativních aplikací C++.
Opravili jsme tady ukázky rychlého startu. Ty se ukončovaly bez zobrazení výjimky "mikrofon nenalezena" v Linuxu, macOS a Windows.
Opravili jsme chybové ukončení sady SDK s dlouhými výsledky rozpoznávání řeči na určitých cestách kódu, jako je tato ukázka.
Opravili jsme chybu nasazení sady SDK ve službě Azure Web App Environment, která tento problém zákazníka vyřešila.
Opravili jsme chybu TTS při použití více <voice> značek nebo <audio> značek k vyřešení tohoto problému zákazníka.
Opravili jsme chybu TTS 401, když se sada SDK obnovila z pozastavení.
JavaScript: Opravili jsme cyklický import zvukových dat díky příspěvku z euirimu.
JavaScript: Přidání podpory pro nastavení vlastností služby, jak je přidáno v 1.7.
JavaScript: Opravili jsme problém, kdy chyba připojení mohla vést k opakovaným neúspěšným pokusům o připojení typu websocket.

Ukázky

Tady jsme přidali ukázku rozpoznávání klíčových slov pro Android.
Tady jsme přidali ukázku TTS pro scénář serveru.
Tady jsme přidali rychlé starty pro konverzaci s více zařízeními pro C# a C++.

Další změny

Optimalizovaná velikost základní knihovny sady SDK v Androidu
Sada SDK ve verzi 1.9.0 a novější podporuje int obě typy string v poli verze hlasového podpisu pro konverzační přepis.

Speech SDK 1.8.0: Listopadová verze 2019

Nové funkce

Přidali jsme FromHost() rozhraní API, které usnadňuje použití s místními kontejnery a suverénními cloudy.
Přidání identifikace zdrojového jazyka pro rozpoznávání řeči (v Javě a C++)
Přidání SourceLanguageConfig objektu pro rozpoznávání řeči, který slouží k určení očekávaných zdrojových jazyků (v Javě a C++)
Přidání KeywordRecognizer podpory pro Windows (UPW), Androidu a iOSu prostřednictvím balíčků NuGet a Unity
Přidání rozhraní JAVA API pro vzdálenou konverzaci pro přepis konverzace v asynchronních dávkách

Změny způsobující chyby

Funkce přepisu konverzací se přesunuly pod obor názvů Microsoft.CognitiveServices.Speech.Transcription.
Části metod přepisování konverzací se přesunou do nové Conversation třídy.
Vyřazená podpora 32bitového (ARMv7 a x86) iOS

Opravy chyb

Oprava chybového ukončení, pokud se místní KeywordRecognizer používá bez platného klíče předplatného služby Speech

Ukázky

Ukázka Xamarinu pro KeywordRecognizer
Ukázka Unity pro KeywordRecognizer
Ukázky C++ a Javy pro automatickou identifikaci zdrojového jazyka

Speech SDK 1.7.0: Verze ze září 2019

Nové funkce

Přidání podpory beta verze pro Xamarin na Univerzální platforma Windows (UPW), Androidu a iOS
Přidání podpory pro iOS pro Unity
Přidání Compressed podpory vstupu pro ALaw, Mulaw, FLAC, v Androidu, iOS a Linuxu
Přidání SendMessageAsync do Connection třídy pro odeslání zprávy do služby
Přidání SetMessageProperty do Connection třídy pro nastavení vlastnosti zprávy
Přidání vazeb TTS pro Javu (JRE a Android), Python, Swift a Objective-C
TTS přidal podporu přehrávání pro macOS, iOS a Android.
Přidání informací o hranici slova pro TTS

Opravy chyb

Oprava problému se sestavením IL2CPP v Unity 2019 pro Android
Opravili jsme problém s nesprávným zpracováním chybných hlaviček při nesprávném zpracování vstupu souboru wav.
Opravili jsme problém, kdy identifikátory UUID nebyly jedinečné v některých vlastnostech připojení.
Opravili jsme několik upozornění na specifikátory nullability ve vazbách Swiftu (můžou vyžadovat malé změny kódu).
Opravili jsme chybu, která způsobovala, že se připojení websocketu v rámci síťového zatížení zavřela.
Opravili jsme problém s Androidem, který někdy způsobovat duplicitní IDENTIFIKÁTORy zobrazení používané DialogServiceConnector
Vylepšení stability připojení napříč interakcemi s více turny a hlášení selhání (prostřednictvím Canceled událostí) při jejich výskytu DialogServiceConnector
DialogServiceConnector Spuštění relace teď správně poskytne události, včetně volání během aktivního volání ListenOnceAsync() . StartKeywordRecognitionAsync()
Vyřešení chybového ukončení spojeného s přijatými aktivitami DialogServiceConnector

Ukázky

Rychlý start pro Xamarin
Aktualizace rychlého startu CPP s informacemi o Linuxu ARM64
Aktualizace rychlého startu Unity s informacemi o iOSu

Speech SDK 1.6.0: Verze z června 2019

Ukázky

Ukázky rychlého startu pro převod textu na řeč v UPW a Unity
Ukázka rychlého startu pro Swift v iOSu
Ukázky Unity pro rozpoznávání a překlad řeči a záměru
Aktualizace ukázek pro rychlý start pro DialogServiceConnector

Vylepšení / změny

Obor názvů dialogového okna:
- Přejmenování SpeechBotConnector na DialogServiceConnector
- Přejmenování BotConfig na DialogServiceConfig
- BotConfig::FromChannelSecret() byl znovu namapován na DialogServiceConfig::FromBotSecret()
- Po přejmenování budou i nadále podporováni všichni stávající klienti Direct Line Speech.
Aktualizace adaptéru REST TTS pro podporu proxy serveru, trvalého připojení
Zlepšení chybové zprávy při předání neplatné oblasti
Swift/Objective-C:
- Vylepšené hlášení chyb: Metody, které můžou vést k chybě, jsou nyní přítomny ve dvou verzích: jedna, která zveřejňuje NSError objekt pro zpracování chyb, a jedna, která vyvolá výjimku. První je vystavený Swiftu. Tato změna vyžaduje přizpůsobení existujícího kódu Swiftu.
- Vylepšené zpracování událostí

Opravy chyb

Oprava TTS: kde SpeakTextAsync se budoucnost vrátila bez čekání na dokončení vykreslování zvuku
Oprava zařazování řetězců v jazyce C# za účelem povolení úplné jazykové podpory
Oprava problému s aplikací .NET Core při načítání základní knihovny s cílovou architekturou net461 v ukázkách
Oprava občasných problémů při nasazování nativních knihoven do výstupní složky v ukázkách
Oprava spolehlivého zavírání webového soketu
Oprava možného chybového ukončení při otevírání připojení s velkým zatížením v Linuxu
Oprava chybějících metadat v sadě rozhraní pro macOS
Oprava problémů s pip install --user Windows

Speech SDK 1.5.1

Toto je verze opravy chyb, která má vliv jenom na nativní nebo spravovanou sadu SDK. Nemá vliv na javascriptovou verzi sady SDK.

Opravy chyb

Oprava odsazení při použití s přepisem konverzace
Opravte chybu ve vyhledávání klíčových slov pro hlasové asistenty.

Speech SDK 1.5.0: verze z května 2019

Nové funkce

Sledování klíčových slov (KWS) je nyní k dispozici pro Windows a Linux. Funkce KWS můžou fungovat s libovolným typem mikrofonu, oficiální podporou KWS, ale v současné době je omezena na pole mikrofonu nalezená v hardwaru Azure Kinect DK nebo sadě Speech Devices SDK.
Funkce nápovědy fráze je dostupná prostřednictvím sady SDK. Další informace najdete tady.
Funkce přepisu konverzací je dostupná prostřednictvím sady SDK.
Přidání podpory pro hlasové asistenty pomocí kanálu Direct Line Speech

Ukázky

Přidání ukázek pro nové funkce nebo nové služby podporované sadou SDK

Vylepšení / změny

Přidání různých vlastností rozpoznávání pro úpravu chování služby nebo výsledků služby (jako je maskování vulgárních výrazů a dalších).
Rozpoznávání teď můžete nakonfigurovat pomocí standardních vlastností konfigurace, i když jste vytvořili rozpoznávání FromEndpoint.
Vlastnost Objective-C: OutputFormat byla přidána do objektu SPXSpeechConfiguration.
Sada SDK teď podporuje Debian 9 jako linuxovou distribuci.

Opravy chyb

Opravili jsme problém, kdy byl prostředek mluvčího destruován příliš brzy v textu na řeč.

Speech SDK 1.4.2

Toto je verze opravy chyb, která má vliv jenom na nativní nebo spravovanou sadu SDK. Nemá vliv na javascriptovou verzi sady SDK.

Speech SDK 1.4.1

Toto je verze určená pouze pro JavaScript. Nebyly přidány žádné funkce. Provedli jsme následující opravy:

Znemožnit načítání webové sady https-proxy-agent.

Speech SDK 1.4.0: Verze z dubna 2019

Nové funkce

Sada SDK teď podporuje službu Převod textu na řeč jako beta verzi. Podporuje se v desktopové verzi Windows a Linuxu z C++ a C#. Další informace najdete v přehledu převodu textu na řeč.
Sada SDK teď podporuje zvukové soubory MP3 a Opus/OGG jako vstupní soubory streamu. Tato funkce je k dispozici pouze v Linuxu z C++ a C# a je aktuálně v beta verzi (další podrobnosti najdete zde).
Sada Speech SDK pro Javu, .NET Core, C++ a Objective-C získala podporu pro macOS. Podpora Objective-C pro macOS je aktuálně v beta verzi.
iOS: Sada Speech SDK pro iOS (Objective-C) je teď také publikovaná jako CocoaPod.
JavaScript: Podpora jiného než výchozího mikrofonu jako vstupního zařízení
JavaScript: Podpora proxy serveru pro Node.js.

Ukázky

Ukázky pro použití sady Speech SDK s C++ a Objective-C v systému macOS byly přidány.
Ukázky ukazující použití služby Převod textu na řeč byly přidány.

Vylepšení / změny

Python: Prostřednictvím vlastnosti jsou nyní zpřístupněny properties další vlastnosti výsledků rozpoznávání.
Další podporu vývoje a ladění můžete přesměrovat protokolování a diagnostiku sady SDK do souboru protokolu (další podrobnosti najdete zde).
JavaScript: Zlepšení výkonu zpracování zvuku

Opravy chyb

Mac/iOS: Byla opravena chyba, která vedla k dlouhému čekání, když se nepodařilo navázat připojení ke službě Speech.
Python: Vylepšete zpracování chyb pro argumenty v zpětných voláních Pythonu.
JavaScript: Opravili jsme chybné hlášení stavu pro řeč ukončené na vyžádání.

Speech SDK 1.3.1: Aktualizace z února 2019

Toto je verze opravy chyb, která má vliv jenom na nativní nebo spravovanou sadu SDK. Nemá vliv na javascriptovou verzi sady SDK.

Oprava chyby

Opravili jsme nevracení paměti při použití vstupu mikrofonu. Na vstup na základě streamu nebo souboru to nemá vliv.

Speech SDK 1.3.0: Verze z února 2019

Nové funkce

Sada Speech SDK podporuje výběr vstupního mikrofonu AudioConfig prostřednictvím třídy. To umožňuje streamovat zvuková data do služby Speech z jiného než výchozího mikrofonu. Další informace najdete v dokumentaci popisující výběr zvukového vstupu zařízení. Tato funkce ještě není k dispozici v JavaScriptu.
Sada Speech SDK teď podporuje Unity v beta verzi. Poskytněte zpětnou vazbu prostřednictvím oddílu problému v ukázkovém úložišti GitHubu. Tato verze podporuje Unity ve Windows x86 a x64 (desktopové nebo Univerzální platforma Windows aplikace) a Android (ARM32/64, x86). Další informace jsou k dispozici v našem rychlém startu Unity.
Soubor Microsoft.CognitiveServices.Speech.csharp.bindings.dll (odeslaný v předchozích verzích) už není potřeba. Funkce jsou teď integrované do základní sady SDK.

Ukázky

Následující nový obsah je k dispozici v našem ukázkovém úložišti:

Další vzorky pro AudioConfig.FromMicrophoneInput.
Další ukázky Pythonu pro rozpoznávání záměru a překlad
Další ukázky pro použití objektu v iOSu Connection
Další ukázky Javy pro překlad s zvukovým výstupem
Nová ukázka pro použití rozhraní REST API pro dávkový přepis

Vylepšení / změny

Python
- Vylepšené ověřování parametrů a chybové zprávy v SpeechConfigsouboru .
- Přidejte podporu objektu Connection .
- Podpora 32bitového Pythonu (x86) ve Windows
- Sada Speech SDK pro Python je mimo beta verzi.
Ios
- Sada SDK je teď postavená na sadě iOS SDK verze 12.1.
- Sada SDK teď podporuje iOS verze 9.2 a novější.
- Vylepšete referenční dokumentaci a opravte několik názvů vlastností.
JavaScript
- Přidejte podporu objektu Connection .
- Přidání definičních souborů typu pro sbalené JavaScript
- Počáteční podpora a implementace nápovědy frází
- Vrácení kolekce vlastností pomocí kódu JSON služby pro rozpoznávání
Knihovny DLL systému Windows teď obsahují prostředek verze.
Pokud vytvoříte rozpoznávání FromEndpoint, můžete parametry přidat přímo do adresy URL koncového bodu. Použití FromEndpoint nástroje pro rozpoznávání není možné konfigurovat prostřednictvím standardních vlastností konfigurace.

Opravy chyb

Prázdné uživatelské jméno proxy serveru a heslo proxy serveru se nezpracovalo správně. Pokud v této verzi nastavíte uživatelské jméno proxy serveru a heslo proxy serveru na prázdný řetězec, nebudou odeslány při připojování k proxy serveru.
Id relace vytvořené sadou SDK nebylo vždy pro některé jazyky nebo prostředí náhodné. Přidání inicializace náhodného generátoru pro opravu tohoto problému
Vylepšení zpracování autorizačního tokenu Pokud chcete použít autorizační token, zadejte v SpeechConfig klíči předplatného a nechte ho prázdný. Pak vytvořte rozpoznávání jako obvykle.
V některých případech Connection nebyl objekt správně uvolněn. Tento problém byl opraven.
Ukázka JavaScriptu byla opravena tak, aby podporovala zvukový výstup pro syntézu překladu také v Safari.

Speech SDK 1.2.1

Toto je verze určená pouze pro JavaScript. Nebyly přidány žádné funkce. Provedli jsme následující opravy:

Aktivuje konec streamu na turn.end, ne na speech.end.
Opravte chybu v zvukovém pumpě, která neplánovala další odeslání, pokud se aktuální odeslání nezdařilo.
Oprava průběžného rozpoznávání pomocí ověřovacího tokenu
Oprava chyby pro různé rozpoznávání a koncové body
Vylepšení dokumentace

Speech SDK 1.2.0: Verze z prosince 2018

Nové funkce

Python
- V této verzi je k dispozici beta verze podpory Pythonu (3.5 a vyšší). Další informace najdete tady](.. /.. /quickstart-python.md).
JavaScript
- Sada Speech SDK pro JavaScript je opensourcová. Zdrojový kód je k dispozici na GitHubu.
- Nyní podporujeme Node.js, další informace najdete tady.
- Omezení délky zvukových relací bylo odebráno, opětovné připojení proběhne automaticky pod krytem.
Connection Objekt
- Z objektu RecognizerConnection můžete získat přístup. Tento objekt umožňuje explicitně zahájit připojení služby a přihlásit se k odběru událostí připojení a odpojení. (Tato funkce ještě není k dispozici v JavaScriptu a Pythonu.)
Podpora pro Ubuntu 18.04.
Android
- Povolili jsme podporu ProGuard během generování APK.

Vylepšení

Vylepšení použití interního vlákna, snížení počtu vláken, zámků, mutexů.
Vylepšené zasílání zpráv o chybách / informace Vněkolikach
Aktualizace vývojových závislostí v JavaScriptu tak, aby používaly aktuální moduly.

Opravy chyb

Oprava nevracení paměti kvůli neshodě typu v RecognizeAsyncsouboru .
V některých případech došlo k úniku výjimek.
Oprava nevracení paměti v argumentech události překladu
Opravili jsme problém s uzamčením při opětovném připojení v dlouhotrvajících relacích.
Opravili jsme problém, který mohl způsobit chybějící konečný výsledek neúspěšných překladů.
C#: Pokud async v hlavním vlákně nebyla operace očekávána, bylo možné, že před dokončením asynchronní úlohy může být rozpoznávání odstraněno.
Java: Opravili jsme problém, který způsoboval chybové ukončení virtuálního počítače v Javě.
Objective-C: Pevné mapování výčtu; Funkce RecognizedIntent byla vrácena místo RecognizingIntent.
JavaScript: Nastavte výchozí výstupní formát na "simple" in SpeechConfig.
JavaScript: Odebrání nekonzistence mezi vlastnostmi objektu konfigurace v JavaScriptu a dalších jazycích.

Ukázky

Aktualizovali jsme a opravili několik ukázek (například výstupní hlasy pro překlad atd.).
Přidání Node.js ukázek v ukázkovém úložišti

Speech SDK 1.1.0

Nové funkce

Podpora pro Android x86/x64
Podpora proxy serveru: V objektu SpeechConfig teď můžete volat funkci, která nastaví informace o proxy serveru (název hostitele, port, uživatelské jméno a heslo). Tato funkce ještě není v iOSu dostupná.
Vylepšili jsme kód chyby a zprávy. Pokud rozpoznávání vrátilo chybu, tato chyba již byla nastavena Reason (v zrušené události) nebo CancellationDetails (ve výsledku rozpoznávání) na Error. Zrušená událost nyní obsahuje dva další členy ErrorCode a ErrorDetails. Pokud server vrátil další informace o chybě s ohlášenou chybou, bude nyní k dispozici v nových členech.

Vylepšení

Přidání dalšího ověření v konfiguraci nástroje pro rozpoznávání a přidání další chybové zprávy
Vylepšené zpracování dlouhodobého ticha uprostřed zvukového souboru.
Balíček NuGet: Pro projekty rozhraní .NET Framework brání sestavení pomocí konfigurace AnyCPU.

Opravy chyb

Opravili jsme několik výjimek nalezených v nástrojích pro rozpoznávání. Kromě toho jsou výjimky zachyceny a převedeny na Canceled událost.
Opravte nevracení paměti při správě vlastností.
Opravili jsme chybu, při které mohlo dojít k chybovému ukončení rozpoznávání zvukového vstupního souboru.
Opravili jsme chybu, kdy se události mohly přijímat po události zastavení relace.
Opravili jsme některé podmínky časování ve vláknech.
Opravili jsme problém s kompatibilitou iOS, který mohl způsobit chybové ukončení.
Vylepšení stability pro podporu mikrofonu Androidu
Opravili jsme chybu, kdy rozpoznávání v JavaScriptu ignorovalo jazyk rozpoznávání.
Opravili jsme chybu, která bránila EndpointId nastavení (v některých případech) v JavaScriptu.
Změna pořadí parametrů v AddIntent v JavaScriptu a přidání chybějícího AddIntent javascriptového podpisu

Ukázky

Přidali jsme ukázky C++ a C# pro načítání a nabízení streamů v ukázkovém úložišti.

Speech SDK 1.0.1

Vylepšení spolehlivosti a opravy chyb:

Oprava potenciální závažné chyby kvůli stavu časování při rozpoznávání
Opravili jsme možnou závažnou chybu při výskytu nenasazených vlastností.
Přidali jsme další kontrolu chyb a parametrů.
Objective-C: Byla opravena možná závažná chyba způsobená přepsáním názvu v NSString.
Objective-C: Upravená viditelnost rozhraní API
JavaScript: Opraveno v souvislosti s událostmi a jejich datovými částmi.
Vylepšení dokumentace

V našem ukázkovém úložišti byla přidána nová ukázka pro JavaScript.

Azure AI Speech SDK 1.0.0: Verze z září 2018

Nové funkce

Podpora pro Objective-C v iOSu. Podívejte se na náš rychlý start Objective-C pro iOS.
Podpora JavaScriptu v prohlížeči Podívejte se na náš rychlý start pro JavaScript.

Změny způsobující chyby

V této verzi se zavádí řada zásadních změn. Podrobnosti najdete na této stránce .

Azure AI Speech SDK 0.6.0: Verze ze srpna 2018

Nové funkce

Aplikace pro UPW vytvořené pomocí sady Speech SDK teď můžou předat sadu Windows App Certification Kit (WACK). Podívejte se na rychlý start pro UPW.
Podpora pro .NET Standard 2.0 v Linuxu (Ubuntu 16.04 x64).
Experimentální: Podpora Javy 8 ve Windows (64bitová verze) a Linuxu (Ubuntu 16.04 x64). Projděte si rychlý start k prostředí Java Runtime Environment.

Funkční změna

Zveřejnění dalších podrobných informací o chybách připojení

Změny způsobující chyby

V Javě (Android) SpeechFactory.configureNativePlatformBindingWithDefaultCertificate už funkce nevyžaduje parametr cesty. Nyní je cesta automaticky zjištěna na všech podporovaných platformách.
Objekt get-accessor vlastnosti EndpointUrl v Javě a C# byl odebrán.

Opravy chyb

V Javě se teď implementuje výsledek syntézy zvuku v rozpoznávání překladu.
Opravili jsme chybu, která mohla způsobit neaktivní vlákna a zvýšený počet otevřených a nepoužívaných soketů.
Opravili jsme problém, kdy se dlouhotrvající rozpoznávání mohlo ukončit uprostřed přenosu.
Opravili jsme stav časování v vypnutí rozpoznávání.

Azure AI Speech SDK 0.5.0: Verze z července 2018

Nové funkce

Podpora platformy Android (API 23: Android 6.0 Marshmallow nebo vyšší). Podívejte se na rychlý start pro Android.
Podpora .NET Standard 2.0 ve Windows Projděte si rychlý start pro .NET Core.
Experimentální: Podpora UPW ve Windows (verze 1709 nebo novější)
- Podívejte se na rychlý start pro UPW.
- Všimněte si, že aplikace pro UPW vytvořené pomocí sady Speech SDK ještě nepřecházejí sadu Windows App Certification Kit (WACK).
Podpora dlouhotrvajícího rozpoznávání pomocí automatického opětovného připojení

Funkční změny

StartContinuousRecognitionAsync() podporuje dlouhotrvající rozpoznávání.
Výsledek rozpoznávání obsahuje více polí. Posunují se od začátku zvuku a doby trvání (jak v odškrtávkách), rozpoznaného textu, tak další hodnoty, které představují stav rozpoznávání, InitialSilenceTimeout například a InitialBabbleTimeout.
Podpora AuthorizationTokenu pro vytváření instancí továrny

Změny způsobující chyby

Události rozpoznávání: NoMatch Typ události byl sloučen do Error události.
SpeechOutputFormat v jazyce C# byl přejmenován tak, aby OutputFormat zůstal v souladu s jazykem C++.
Návratový typ některých metod AudioInputStream rozhraní se mírně změnil:
- V Javě metoda read nyní vrátí long místo int.
- V jazyce C# Read metoda nyní vrátí uint místo int.
- V jazyce C++ Read se nyní metody GetFormat vrací size_t místo int.
C++: Instance zvukových vstupních datových proudů lze nyní předávat pouze jako .shared_ptr

Opravy chyb

Opravili jsme nesprávné návratové hodnoty ve výsledku, když RecognizeAsync() vyprší časový limit.
Byla odebrána závislost na knihovnách základů médií ve Windows. Sada SDK teď používá základní zvuková rozhraní API.
Oprava dokumentace: Přidání stránky oblastí pro popis podporovaných oblastí

Známý problém

Sada Speech SDK pro Android nehlásí výsledky syntézy řeči pro překlad. Tento problém bude opraven v příští verzi.

Azure AI Speech SDK 0.4.0: Verze z června 2018

Funkční změny

AudioInputStream

Rozpoznávání teď může jako zdroj zvuku využívat stream. Další informace najdete v související příručce s postupy.
Podrobný výstupní formát

Při vytváření SpeechRecognizermůžete požadovat Detailed nebo Simple výstupní formát. Obsahuje DetailedSpeechRecognitionResult skóre spolehlivosti, rozpoznaný text, nezpracovaný lexikální formulář, normalizovaný formulář a normalizovaný formulář s maskovanou vulgární.

Změna způsobující chybu

Změna na SpeechRecognitionResult.Text z SpeechRecognitionResult.RecognizedText v jazyce C#.

Opravy chyb

Opravili jsme možný problém se zpětným voláním ve vrstvě USP během vypnutí.
Pokud rozpoznávatel spotřeboval zvukový vstupní soubor, držel se na popisovači souboru déle, než je potřeba.
Odebralo několik zablokování mezi pumpou zprávy a rozpoznáváním.
NoMatch Aktivuje výsledek, když vyprší časový limit odpovědi ze služby.
Knihovny základů médií ve Windows jsou zpožděné. Tato knihovna se vyžaduje jenom pro vstup mikrofonu.
Rychlost nahrávání zvukových dat je omezena přibližně na dvojnásobek původní rychlosti zvuku.
Ve Windows jsou teď sestavení .NET jazyka C# silná.
Oprava dokumentace: Region K vytvoření nástroje pro rozpoznávání se vyžadují informace.

Přidali jsme další ukázky a neustále se aktualizují. Nejnovější sadu ukázek najdete v úložišti GitHub s ukázkami sady Speech SDK.

Azure AI Speech SDK 0.2.12733: Verze z května 2018

Tato verze je první verzí Public Preview sady Azure AI Speech SDK.

Speech CLI 1.37.0: Verze z dubna 2024

Aktualizace pro použití sady Speech SDK 1.37.0

Nové funkce

Žádná

Opravy chyb

Žádná

Speech CLI 1.36.0: Verze z března 2024

Aktualizace pro použití sady Speech SDK 1.36.0

Nové funkce

Žádná

Opravy chyb

Žádná

Speech CLI 1.35.0: Verze z února 2024

Aktualizace pro použití sady Speech SDK 1.35.0

Nové funkce

Žádná

Opravy chyb

Aktualizace závislosti JMESPath na nejnovější verzi

Speech CLI 1.34.0: Verze z listopadu 2023

Aktualizace pro použití sady Speech SDK 1.34.0

Speech CLI 1.33.0: Verze z října 2023

Aktualizace pro použití sady Speech SDK 1.34.0

Speech CLI 1.31.0: Verze ze srpna 2023

Aktualizace pro použití sady Speech SDK 1.31.0

Speech CLI 1.30.0: Verze z července 2023

Aktualizace pro použití sady Speech SDK 1.30.0

Speech CLI 1.29.0: Verze z června 2023

Aktualizace pro použití sady Speech SDK 1.29.0

Speech CLI 1.28.0: Verze z května 2023

Aktualizace pro použití sady Speech SDK 1.28.0

Speech CLI 1.27.0: Verze z dubna 2023

Aktualizace

Aktualizace pro použití sady Speech SDK 1.27.0
Aktualizujte výchozí koncový bod tak, aby používal rozhraní REST API v3.1 pro vlastní rozpoznávání řeči a rozpoznávání řeči služby Batch.

Opravy chyb

Opravy související s tím, jak se parametry dotazu analyzují nebo konfigurují.

Speech CLI 1.26.0: Verze z března 2023

Aktualizace pro použití sady Speech SDK 1.26.0

Speech CLI 1.25.0: Verze z ledna 2023

Aktualizace pro použití sady Speech SDK 1.25.0

Speech CLI 1.24.0: Verze z října 2022

Používá sadu Speech SDK 1.24.0.

Nové funkce

Rozšířená kontrola spx pro podporu dotazů JMESPath pro všechny události spx

Opravy chyb

Různá vylepšení odolnosti vůči vyhodnocením dotazů JMESPath
Oprava zkrácení zápisů souborů, ke kterým může dojít na počítačích s omezenými prostředky

Speech CLI 1.23.0: Verze z července 2022

Používá sadu Speech SDK 1.23.0.

Nové funkce

Lepší popis (--output vtta--output srt) rozdělení velkých výsledků (maximálně 37 znaků, 3 řádky)
Zdokumentované spx synthesize--format možnosti (viz spx help synthesize format)
Zdokumentovaná většina spx csr příkazů/možností (viz spx help csr)
Přidání spx csr model copy příkazu (viz spx help csr model copy)
Přidání --check result možnosti pomocí dotazů JMES (viz spx help check result)
Vylepšené chybové zprávy při zadávání neplatných možností příkazů
Přesunuto z .NET Core 3.1 do .NET 6.0. Abyste mohli spustit Speech CLI, budete muset nainstalovat modul runtime .NET 6.0 (nebo novější).

Opravy chyb

Aktualizace všech adres URL pro odebrání jazyka (například "en-US")
Opravené informace o verzi, které se správně hlásí ve všech případech (dříve se někdy zobrazovaly jako prázdné)

Speech CLI 1.22.0: Verze z června 2022

Používá sadu Speech SDK 1.22.0.

Nové funkce

Přidání spx init příkazu, který uživatele provede vytvořením klíče prostředku služby Speech, aniž byste museli přejít na webový portál Azure.
Kontejnery Dockeru služby Speech teď obsahují Azure CLI, takže spx init příkaz funguje hned.
Přidání časového razítka jako možnosti výstupu události, aby byla funkce SPX užitečnější při výpočtu latencí.

Speech CLI 1.21.0: Verze z dubna 2022

Používá sadu Speech SDK 1.21.0.

Nové funkce

Generování titulků WEBVTT
- Přidání podpory --output vtt pro spx translate
- Podporuje --output vtt file FILENAME přepsání výchozího názvu souboru VTT FILENAME.
- Podporuje --output vtt file - zápis do standardního výstupu.
- Jednotlivé soubory VTT se vytvoří pro každý cílový jazyk (například --target en;de;fr)
Generování titulků SRT
- Přidání --output srt podpory do spx recognize, spx intenta spx translate
- Podporuje --output srt file FILENAME přepsání výchozího souboru SRT FILENAME.
- Podporuje --output srt file - zápis do standardního výstupu.
- Pro spx translatejednotlivé soubory SRT se vytvoří pro každý cílový jazyk (například --target en;de;fr)

Opravy chyb

Oprava výstupu časového rozsahu WEBVTT pro správné použití hh:mm:ss.fff formátu

Speech CLI 1.20.0: Verze z ledna 2022

Nové funkce

Rozpoznávání mluvčího
- spx profile enroll a spx speaker [identify/verify] teď podporují vstup mikrofonu.
Rozpoznávání záměru (spx intent)
- --keyword FILE.table
- --pattern a --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, , --once+--continuous (průběžné výchozí nastavení)
- --output all/each connection EVENT
- --output all/each connection message(například , textpath)
Výstup konzoly rozhraní příkazového řádku – očekávaná kontrola nebo vytváření obsahu:
- --expect PATTERN a --not expect PATTERN podpora pro všechny příkazy
- --auto expect pomoc s vytvářením očekávaných vzorů
Výstup protokolování sady SDK – očekávaná kontrola nebo vytváření obsahu
- --log expect PATTERN a --not log expect PATTERN podpora pro všechny příkazy
- --log auto expect [FILTER] podpora pro všechny příkazy
- --log FILEpodpora na spx profilespx speaker
Vstup zvukového souboru
- --format ANY podpora pro všechny příkazy
- --file - podpora (čtení ze standardního vstupu, povolení scénářů kanálu)
Výstup zvukového souboru
- --audio output - Zápis do standardního výstupu, povolení scénářů kanálu
Výstupní soubory
- --output all/each file - Zápis do standardního výstupu
- --output batch file - Zápis do standardního výstupu
- --output vtt file - Zápis do standardního výstupu
- --output json file - Zápis do standardního výstupu a spx csrspx batch příkazů
Výstupní vlastnosti
- --output […] result XXX property (PropertyId nebo řetězec)
- --output […] connection message received XXX property (PropertyId nebo řetězec)
- --output […] recognizer XXX property (PropertyId nebo řetězec)
Integrace webové úlohy Azure
- spx webjob now follows sub-command pattern
- Aktualizace nápovědy k webové úlohě tak, aby odrážela vzor dílčího příkazu (viz spx help webjob)

Opravy chyb

Opravili jsme chybu, kdy se současně používaly obě --output vtt FILE a --output batch FILE současně
spx [...] --zip ZIPFILENAME teď zahrnuje všechny binární soubory vyžadované pro všechny scénáře (pokud jsou k dispozici).
spx profile a spx speaker příkazy teď vrací podrobné informace o chybě o zrušení.

Verze z května 2021

Nové funkce

Přidání podpory pro profil, ID mluvčího a ověření mluvčího – Vyzkoušejte spx profile a spx speaker z příkazového řádku.
Přidali jsme také podporu dialogových oken – Zkuste to spx dialog z příkazového řádku.
Vylepšená spx nápověda. Sdělte nám prosím svůj názor na to, jak to pro vás funguje, otevřením problému Na GitHubu.
Zmenšili jsme velikost instalace nástroje .NET.

Covid-19 zkrácené testování

Vzhledem k tomu, že probíhající epidemie nadále vyžaduje, aby naši technici pracovali z domova, byly skripty ručního ověřování před epidemií výrazně sníženy. Testujeme na méně zařízeních s menším počtem konfigurací a může dojít ke zvýšení pravděpodobnosti, že chyby specifické pro konkrétní prostředí propadnou. Stále pečlivě ověřujeme velkou sadu automatizace. V nepravděpodobném případě, že jsme něco zmeškali, dejte nám prosím vědět na GitHubu.
Zůstaňte v pořádku!

Verze z března 2021

Nové funkce

Přidání spx intent příkazu pro rozpoznávání záměru, nahrazení spx recognize intent.
Funkce Azure Functions teď můžou používat k výpočtu míry chyb slov pomocí spx recognize --wer url <URL>funkce Rozpoznávání a záměru .
Rozpoznávání teď může výstupem výsledků jako souborů VTT pomocí spx recognize --output vtt file <FILENAME>.
Citlivé informace o klíči jsou teď skryté ve výstupu ladění nebo podrobného výstupu.
Přidání kontroly adres URL a chybové zprávy pro pole obsahu v dávkovém přepisu vytvoření

Covid-19 zkrácené testování

Verze z ledna 2021

Nové funkce

Rozhraní příkazového řádku služby Speech je teď k dispozici jako balíček NuGet a můžete ho nainstalovat přes .NET CLI jako globální nástroj .NET, který můžete volat z prostředí nebo příkazového řádku.
Úložiště šablony DevOps pro vlastní řeč bylo aktualizováno tak, aby používalo Rozhraní příkazového řádku služby Speech pro vlastní pracovní postupy řeči.

Covid-19 zkrácené testování

Verze z října 2020

SPX je rozhraní příkazového řádku pro použití služby Speech bez psaní kódu. Stáhněte si nejnovější verzi zde.

Nové funkce

spx csr dataset upload --kind audio|language|acoustic – vytvářet datové sady z místních dat, nejen z adres URL.
spx csr evaluation create|status|list|update|delete – porovnejte nové modely se základní pravdou/jinými modely.
spx * list – podporuje jiné než stránkované prostředí (nevyžaduje --top X --skip X).
spx * --http header A=B – podpora vlastních hlaviček (přidáno pro Office pro vlastní ověřování).
spx help – vylepšený text a barva textu s barevným kódováním back-tick (modrá).

Verze z června 2020

Přidání funkcí hledání nápovědy v rozhraní příkazového řádku:
- spx help find --text TEXT
- spx help find --topic NAME
Aktualizace pro práci s nově nasazenými rozhraními Batch v3.0 a rozhraními API pro vlastní řeč:
- spx help batch examples
- spx help csr examples

Covid-19 zkrácené testování

Speech CLI (označované také jako SPX): verze z května 2020

SPX je nový nástroj příkazového řádku, který umožňuje provádět rozpoznávání, syntézu, překlad, dávkový přepis a vlastní správu řeči z příkazového řádku. Můžete ji použít k otestování služby Speech nebo skriptování úloh služby Speech, které potřebujete provést. Stáhněte si nástroj a přečtěte si dokumentaci tady.

Verze z dubna 2024

Avatar převodu textu na řeč

Teď můžete nastavit obrázek statického pozadí pro své avatary. Pokud chcete tuto funkci využít, jednoduše použijte avatarConfig.backgroundImage vlastnost a zadejte adresu URL odkazující na požadovaný obrázek. Informace o detialch najdete v tématu Jak upravit pozadí.

Verze z března 2024

Předem sestavený neurální hlas

9 vícejazyčných hlasů je obecně dostupné ve všech oblastech: , , , , , de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeuralfr-FR-RemyMultilingualNeural, , fr-FR-VivienneMultilingualNeurala zh-CN-XiaoxiaoMultilingualNeural. en-US-BrianMultilingualNeuralen-US-EmmaMultilingualNeuralen-US-AndrewMultilingualNeuralen-US-AvaMultilingualNeural Další informace najdete v celém jazyce a hlasovém seznamu .
Představujeme nový vícejazyčný hlas pro verzi Public Preview: ja-JP-MasaruMultilingualNeural. Další informace najdete v celém jazyce a hlasovém seznamu .
Další aktualizace:
- en-US-RyanMultilingualNeural je obecně dostupná ve všech oblastech.
- en-US-JennyMultilingualV2Neural je obecně k dispozici ve všech oblastech, sloučeno s en-US-JennyMultilingualNeural.
- Verze Preview je k dispozici pro aktualizované en-IN-NeerjaNeural a hi-IN-SwaraNeural se 3 novými styly v oblastech USA – východ, Západní Evropa a Jihovýchodní Asie.
- Verze Preview je k dispozici pro nové ženské hlasy v Centrální Indii: en-IN-KavyaNeural, en-IN-AashiNeuralen-IN-AnanyaNeural, , hi-IN-KavyaNeurala hi-IN-AnanyaNeural.

Avatar převodu textu na řeč

Odebrání závislosti na službě Azure Communication Services (ACS) pro avatar v reálném čase Vzorový kód byl odpovídajícím způsobem aktualizován tak, aby odrážel tuto změnu.
Publikovaný text na ceny avatara řeči Další podrobnosti najdete na stránce s cenami. Všimněte si, že ceny avatarů budou viditelné jenom pro oblasti služeb, ve kterých je tato funkce dostupná, včetně oblasti USA – západ 2, Západní Evropa a Jihovýchodní Asie.

Verze z února 2024

Hlasy OpenAI

Služba Azure AI Speech podporuje převod textu OpenAI na hlasové hlasy v následujících oblastech: USA – středosever a Švédsko – střed. Stejně jako hlasy Azure AI Speech nabízí funkce OpenAI text na řečové hlasy vysoce kvalitní syntézu řeči, která převede psaný text na přirozený zvuk mluveného zvuku. To přináší širokou škálu možností imerzivních a interaktivních uživatelských prostředí. Další informace najdete v tématu Co jsou texty OpenAI pro hlasové hlasy?.

Poznámka:

Ve službě Azure OpenAI je k dispozici také text OpenAI pro hlasové hlasy.
V této aktualizaci jsme upravili ceny předem připravených neurálních hlasů pomocí služby Azure AI Speech. Podívejte se na aktualizované ceny.

Osobní hlas

Funkce osobního hlasu teď podporuje DragonLatestNeural a PhoenixLatestNeural modely. Tyto nové modely zlepšují přirozenost syntetizovaných hlasů, lépe podobnící charakteristiky řeči hlasu v výzvě. Další podrobnosti najdete v tématu Integrace osobního hlasu do vaší aplikace.

Verze z prosince 2023

Vlastní hlasové rozhraní API

Vlastní hlasové rozhraní API je k dispozici pro vytváření a správu profesionálních a osobních vlastních neurálních hlasových modelů.

Vlastní neurální hlas

Nově natrénované hlasové modely teď podporují vzorkovací frekvenci 48 kHz bez ohledu na verzi modelu. U dříve natrénovaných hlasových modelů je nutné upgradovat verzi motoru na verzi minimálně 2023.11.13.0 , aby se vzorkovací frekvence zlepšila na 48 kHz.

Předem sestavený neurální hlas

Představujeme nové vícejazyčné hlasy pro verzi Public Preview:

Národní prostředí (BCP-47)	Jazyk	Hlasy převodu textu na řeč
`de-DE`	němčina (Německo)	`de-DE-FlorianMultilingualNeural` (Muž)
`de-DE`	němčina (Německo)	`de-DE-SeraphinaMultilingualNeural` (Žena)
`en-US`	Angličtina (Spojené státy)	`en-US-AvaMultilingualNeural` (Žena)
`en-US`	Angličtina (Spojené státy)	`en-US-EmmaMultilingualNeural` (Žena)
`fr-FR`	francouzština (Francie)	`fr-FR-RemyMultilingualNeural` (Muž)
`en-US`	Angličtina (Spojené státy)	`en-US-BrianMultilingualNeural` (Muž)
`en-US`	Angličtina (Spojené státy)	`en-US-AndrewMultilingualNeural` (Muž)
`fr-FR`	francouzština (Francie)	`fr-FR-VivienneMultilingualNeural` (Žena)
`zh-CN`	Čínština (mandarínština, zjednodušená)	`zh-CN-XiaoxiaoMultilingualNeural` (Žena)
`zh-CN`	Čínština (mandarínština, zjednodušená)	`zh-CN-XiaochenMultilingualNeural` (Žena)
`zh-CN`	Čínština (mandarínština, zjednodušená)	`zh-CN-YunyiMultilingualNeural` (Muž)

Představujeme nové zh-CN-XiaoxiaoDialectsNeural hlasy pro verzi Public Preview, které podporují několik čínských dialektů a zvýraznění:

Hlasový název	Sekundární jazyk	Dialekt/zvýraznění
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Čínština (Zhongyuan Mandarin Shaanxi, zjednodušená)
	`zh-CN-sichuan`	Čínština (jihozápad mandarínština, zjednodušená)
	`zh-CN-shanxi`	Čínština (Shanxi Accent Mandarin, Zjednodušená)
	`nan-CN`	Čínština (jižní min, zjednodušená)
	`zh-CN-anhui`	Čínština (Jianghuai Mandarin Anhui, Zjednodušená)
	`zh-CN-hunan`	Čínština (Hunan Accent Mandarin, Zjednodušená)
	`zh-CN-gansu`	Čínština (Lanyin Mandarin Gansu, zjednodušená)
	`zh-CN-shandong`	Čínština (Mandarínština Jilu, zjednodušená)
	`zh-CN-henan`	Čínština (Zhongyuan Mandarin Henan, Zjednodušená)
	`zh-CN-liaoning`	Čínština (severovýchod mandarínština, zjednodušená)
	`zh-TW`	Čínština (tchaj-wanština mandarínština, tradiční)

Verze z listopadu 2023

Osobní hlas

Osobní hlas je k dispozici ve verzi Preview v následujících oblastech: Západní Evropa, USA – východ a Jihovýchodní Asie. Pomocí osobního hlasu (Preview) můžete během několika sekund získat replikaci hlasu (nebo uživatelů aplikace) vygenerovanou pomocí umělé inteligence. Jako zvukový dotaz zadáte ukázku jednominutové řeči a pak ji použijete k vygenerování řeči v libovolném z více než 90 jazyků podporovaných ve více než 100 národních prostředích.

Další informace najdete v osobním hlasu.

Avatar převodu textu na řeč

Avatar pro převod textu na řeč je k dispozici ve verzi Preview v následujících oblastech: USA – západ 2, Západní Evropa a Jihovýchodní Asie.

Text na řeč avatar převede text na digitální video fotorealistického člověka (předem připravený avatar nebo vlastní text na řeč avatara) hovořící s přirozeným zvukem. Text na řeč avatar video může být syntetizován asynchronně nebo v reálném čase. Vývojáři můžou vytvářet aplikace integrované s textem na avatar řeči prostřednictvím rozhraní API nebo pomocí nástroje pro vytváření obsahu v sadě Speech Studio vytvářet obsah videa bez kódování.

Další informace najdete v textu na avatar řeči, poznámky transparentnosti a zveřejnění pro talent hlasu a avatara.

Vlastní neurální hlas

Přidání podpory pro 24 nových národních prostředí pro křížový jazyk Další informace najdete v úplném seznamu jazyků.

Předem sestavený neurální hlas

Představujeme nové hlasy pro verzi Public Preview:

Národní prostředí (BCP-47)	Jazyk	Hlasy převodu textu na řeč
`de-DE`	němčina (Německo)	`SeraphinaNeural` (Žena)
`es-ES`	španělština (Španělsko).	`XimenaNeural` (Žena)
`fr-CA`	Francouzština (Kanada)	`ThierryNeural` (Muž)
`fr-FR`	francouzština (Francie)	`VivienneNeural` (Žena)
`it-IT`	italština (Itálie)	`GiuseppeNeural` (Muž)
`ko-KR`	Korejština (Korea)	`HyunsuNeural` (Muž)
`pt-BR`	Portugalština (Brazílie)	`ThalitaNeural` (Žena)

Modely se aktualizovaly o chyby opravené a zlepšení kvality:

Národní prostředí (BCP-47)	Jazyk	Hlasy převodu textu na řeč
`es-ES`	španělština (Španělsko).	`AlvaroNeural` (Muž)
`en-GB`	Angličtina (Spojené království)	`RyanNeural` (Muž)
`ko-KR`	Korejština (Korea)	`InjoonNeural` (Muž)

Další informace najdete v celém jazyce a hlasovém seznamu .

Verze z října 2023

Vlastní neurální hlas

Přidání podpory pro 12 nových národních prostředí s vlastním neurálním hlasem Pro. Další informace najdete v úplném seznamu jazyků.

Verze ze září 2023

Předem sestavený neurální hlas

Představujeme nové hlasy pro verzi Public Preview:

Národní prostředí (BCP-47)	Jazyk	Hlasy převodu textu na řeč
`en-US`	Angličtina (Spojené státy)	`en-US-EmmaNeural` (Žena)
`en-US`	Angličtina (Spojené státy)	`en-US-AndrewNeural` (Muž)
`en-US`	Angličtina (Spojené státy)	`en-US-BrianNeural` (Muž)

Další informace najdete v celém jazyce a hlasovém seznamu .

Vložený neurální hlas

Všech 147 národních prostředí zde (s výjimkou fa-IR, Perského (Íránu)) jsou k dispozici mimo krabici s 1 vybranými ženami a/nebo 1 vybranými muži hlasy.

Vydání ze srpna 2023

Vlastní neurální hlas

Nyní byla vydána nejnovější verze trénovacího receptu CNV Lite. Tato verze přináší několik vylepšení kvality jazykových modelů. Vyzkoušejte Si Speech Studio.

Vydání z července 2023

Vlastní neurální hlas

Hlas ve více stylech je obecně dostupný.
Přidání dvou nových národních prostředí ve verzi Public Preview pro více style hlas: ja-JP a zh-CN. Další informace najdete v celém jazyce a hlasovém seznamu . Projděte si seznam přednastavených stylů pro různé jazyky.
Obecně je dostupný křížový hlas .
Přidání dvou nových národních prostředí pro vícejazyčný hlas: id-ID a nl-NL. Další informace najdete v celém jazyce a hlasovém seznamu .

Předem připravené neurální hlasy TTS

Představujeme nový en-US genderově neutrální hlas pro verzi Public Preview:

Národní prostředí (BCP-47)	Jazyk	Hlasy převodu textu na řeč
`en-US`	Angličtina (Spojené státy)	`en-US-BlueNeural` (Neutrální)

Představujeme nové vícejazyčné hlasy pro verzi Public Preview:

Národní prostředí (BCP-47)	Jazyk	Hlasy převodu textu na řeč
`en-US`	Angličtina (Spojené státy)	`en-US-JennyMultilingualV2Neural` (Žena)
`en-US`	Angličtina (Spojené státy)	`en-US-RyanMultilingualNeural` (Muž)

Vícejazyčné hlasy en-US-JennyMultilingualV2Neural a en-US-RyanMultilingualNeural automaticky rozpozná jazyk vstupního textu. Přesto ale můžete tento prvek použít <lang> k úpravě jazyka mluvení pro tyto hlasy.

Tyto nové vícejazyčné hlasy mohou mluvit ve 41 jazycích a přízvucích: Arabic (Egypt), Arabic (Saudi Arabia), , Czech (Czechia)Catalan, German (Germany)German (Switzerland)Danish (Denmark)German (Austria), , English (Canada)Indonesian (Indonesia)English (Australia)English (United Kingdom)English (Hong Kong SAR)English (Ireland)English (India)English (United States)Spanish (Spain)Spanish (Mexico)Finnish (Finland)French (Belgium)French (Canada)French (Switzerland)French (France)Hindi (India)Hungarian (Hungary)Italian (Italy)Japanese (Japan)Korean (Korea)Norwegian Bokmål (Norway)Dutch (Belgium)Dutch (Netherlands)Polish (Poland)Portuguese (Brazil)Portuguese (Portugal)Russian (Russia)Swedish (Sweden)Thai (Thailand)Turkish (Türkiye)Chinese (Mandarin, Simplified)Chinese (Cantonese, Traditional)Chinese (Taiwanese Mandarin, Traditional)

Tyto vícejazyčné hlasy plně nepodporují určité prvky SSML, jako je přerušení, zdůraznění, ticho a dílčí.

Důležité

Hlas en-US-JennyMultilingualV2Neural je k dispozici dočasně ve verzi Public Preview jenom pro účely vyhodnocení. V budoucnu se odebere.

Aby bylo možné mluvit v jiném jazyce než v angličtině, aktuální implementace hlasu en-US-JennyMultilingualNeural vyžaduje, abyste nastavili <lang xml:lang> prvek. Předpokládáme, že během kalendářního roku 2023 Q4 se hlas aktualizuje tak, en-US-JennyMultilingualNeural aby mluvil v jazyce vstupního textu bez <lang xml:lang> prvku. To bude v paritě s hlasem en-US-JennyMultilingualV2Neural .

Představujeme nové funkce ve verzi Public Preview pro následující hlasy:

Přidání latinky pro hlasy srbštiny sr-latn-RS-SophieNeural (Srbsko): sr-RS a sr-latn-RS-NicholasNeural.
Přidání podpory výslovnosti angličtiny pro albánštinu (Albánie) sq-AL hlasy: sq-AL-AnilaNeural a sq-AL-IlirNeural.

Vydání z května 2023

Vytvoření zvukového obsahu

Všechny předem připravené hlasy se styly mluvení a vlastní hlasy s více styly podporují úpravu stupně stylu.
Teď můžete výslovnost slova opravit tím, že vyslovujete slovo a nahráli ho. Z nahrávky se dají automaticky rozpoznat fonely. Funkce Rozpoznávání řeči je teď ve verzi Public Preview.

Vydání z dubna 2023

Předem připravené neurální hlasy TTS

Následující funkce těchto hlasů se přesunuly z verze Public Preview na obecně dostupnou verzi:

Styl	Hlasy převodu textu na řeč
style="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural`a `it-IT-IsabellaNeural`
style="veselý"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural`, a `it-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeuralfr-FR-DeniseNeural` a`fr-FR-HenriNeural`

Vylepšení výslovnosti v angličtině pro hi-INta-IN hlasy a te-IN hlasy nyní probíhá v oblastech public preview.

Další informace najdete v seznamu jazyků a hlasových hovorů.

Vydání z března 2023

Nové funkce

Jazyk SSML (Speech Synthesis Markup Language) je aktualizován tak, aby podporoval prvky procesoru zvukového efektu, které optimalizují kvalitu syntetizovaného výstupu řeči pro konkrétní scénáře na zařízeních. Přečtěte si další informace o značkách syntézy řeči.

Vlastní neurální hlas

Přidání podpory národního nl-BE prostředí s využitím vlastního neurálního hlasu Pro Další informace najdete v celém jazyce a hlasovém seznamu .

Předem připravené neurální hlasy TTS

Následující hlasy jsou teď obecně dostupné. Další informace najdete v celém jazyce a hlasovém seznamu .

Národní prostředí (BCP-47)	Jazyk	Hlasy převodu textu na řeč
`en-AU`	Angličtina (Austrálie)	`en-AU-AnnetteNeural` (Žena) `en-AU-CarlyNeural` (Žena) `en-AU-DarrenNeural` (Muž) `en-AU-DuncanNeural` (Muž) `en-AU-ElsieNeural` (Žena) `en-AU-FreyaNeural` (Žena) `en-AU-JoanneNeural` (Žena) `en-AU-KenNeural` (Muž) `en-AU-KimNeural` (Žena) `en-AU-NeilNeural` (Muž) `en-AU-TimNeural` (Muž) `en-AU-TinaNeural` (Žena) `en-AU-WilliamNeural` (Muž)
`en-GB`	Angličtina (Spojené království)	`en-GB-RyanNeural` (Muž) `en-GB-SoniaNeural` (Žena)
`es-ES`	španělština (Španělsko).	`es-ES-AbrilNeural` (Žena) `es-ES-ArnauNeural` (Muž) `es-ES-DarioNeural` (Muž) `es-ES-EliasNeural` (Muž) `es-ES-EstrellaNeural` (Žena) `es-ES-IreneNeural` (Žena) `es-ES-LaiaNeural` (Žena) `es-ES-LiaNeural` (Žena) `es-ES-NilNeural` (Muž) `es-ES-SaulNeural` (Muž) `es-ES-TeoNeural` (Muž) `es-ES-TrianaNeural` (Žena) `es-ES-VeraNeural` (Žena)
`es-MX`	Španělština (Mexiko)	`es-MX-JorgeNeural` (Muž)
`fr-FR`	francouzština (Francie)	`fr-FR-HenriNeural` (Muž)
`it-IT`	italština (Itálie)	`it-IT-IsabellaNeural` (Žena)
`ja-JP`	Japonština (Japonsko)	`ja-JP-AoiNeural` (Žena) `ja-JP-DaichiNeural` (Muž) `ja-JP-MayuNeural` (Žena) `ja-JP-NaokiNeural` (Muž) `ja-JP-ShioriNeural` (Žena)

Přidali jsme podporu stylu cheerful hlasem de-DE-ConradNeural .

Verze z února 2023

Předem připravené neurální hlasy TTS

Následující hlasy jsou teď obecně dostupné. Další informace najdete v celém jazyce a hlasovém seznamu .

Národní prostředí (BCP-47)	Jazyk	Hlasy převodu textu na řeč
`zh-CN`	Čínština (mandarínština, zjednodušená)	`zh-CN-XiaomengNeural` (Žena) `zh-CN-XiaoyiNeural` (Žena) `zh-CN-XiaozhenNeural` (Žena) `zh-CN-YunfengNeural` (Muž) `zh-CN-YunhaoNeural` (Muž) `zh-CN-YunjianNeural` (Muž) `zh-CN-YunxiaNeural` (Muž) `zh-CN-YunzeNeural` (Muž)
`zh-CN-henan`	Čínština (Zhongyuan Mandarin Henan, Zjednodušená)	`zh-CN-henan-YundengNeural` (Muž)

Verze z prosince 2022

Rozhraní REST API pro syntézu dávek (Preview)

Rozhraní API pro syntézu služby Batch je aktuálně ve verzi Public Preview. Jakmile je obecně dostupné, rozhraní API Long Audio je zastaralé. Další informace naleznete v tématu Migrace do rozhraní API pro syntézu dávek.

Verze z listopadu 2022

Předem připravené neurální hlasy TTS (GA)

Následující hlasy jsou teď obecně dostupné. Další informace najdete v celém jazyce a hlasovém seznamu .

Národní prostředí (BCP-47)	Jazyk	Hlasy převodu textu na řeč
`es-MX`	Španělština (Mexiko)	`es-MX-BeatrizNeural` (Žena) `es-MX-CandelaNeural` (Žena) `es-MX-CarlotaNeural` (Žena) `es-MX-CecilioNeural` (Muž) `es-MX-GerardoNeural` (Muž) `es-MX-LarissaNeural` (Žena) `es-MX-LibertoNeural` (Muž) `es-MX-LucianoNeural` (Muž) `es-MX-MarinaNeural` (Žena) `es-MX-NuriaNeural` (Žena) `es-MX-PelayoNeural` (Muž) `es-MX-RenataNeural` (Žena) `es-MX-YagoNeural` (Muž)
`it-IT`	italština (Itálie)	`it-IT-BenignoNeural` (Muž) `it-IT-CalimeroNeural` (Muž) `it-IT-CataldoNeural` (Muž) `it-IT-FabiolaNeural` (Žena) `it-IT-FiammaNeural` (Žena) `it-IT-GianniNeural` (Muž) `it-IT-ImeldaNeural` (Žena) `it-IT-IrmaNeural` (Žena) `it-IT-LisandroNeural` (Muž) `it-IT-PalmiraNeural` (Žena) `it-IT-PierinaNeural` (Žena) `it-IT-RinaldoNeural` (Muž)
`pt-BR`	Portugalština (Brazílie)	`pt-BR-BrendaNeural` (Žena) `pt-BR-DonatoNeural` (Muž) `pt-BR-ElzaNeural` (Žena) `pt-BR-FabioNeural` (Muž) `pt-BR-GiovannaNeural` (Žena) `pt-BR-HumbertoNeural` (Muž) `pt-BR-JulioNeural` (Muž) `pt-BR-LeilaNeural` (Žena) `pt-BR-LeticiaNeural` (Žena) `pt-BR-ManuelaNeural` (Žena) `pt-BR-NicolauNeural` (Muž) `pt-BR-ValerioNeural` (Muž) `pt-BR-YaraNeural` (Žena)

Vlastní neurální hlas

Pro vlastní neurální hlas se přidá následující podpora národního prostředí. Další informace najdete v celém jazyce a hlasovém seznamu .

Byla přidána podpora národního fr-BE prostředí s vlastním neurálním hlasem Pro.
Přidání podpory národního es-ES prostředí s vlastním neurálním hlasem lite.

Verze z října 2022

Předem připravené neurální hlasy TTS (GA)

Následující hlasy jsou teď obecně dostupné. Další informace najdete v celém jazyce a hlasovém seznamu .

Národní prostředí (BCP-47)	Jazyk	Hlasy převodu textu na řeč
`eu-ES`	Baskičtina	`eu-ES-AinhoaNeural` (Žena) `eu-ES-AnderNeural` (Muž)
`hy-AM`	Arménština (Arménie)	`hy-AM-AnahitNeural` (Žena) `hy-AM-HaykNeural` (Muž)

Předem připravené neurální hlasy TTS (Preview)

Ve verzi Public Preview jsou teď k dispozici následující hlasy. Další informace najdete v celém jazyce a hlasovém seznamu .

Národní prostředí (BCP-47)	Jazyk	Hlasy převodu textu na řeč
`en-AU`	Angličtina (Austrálie)	`en-AU-AnnetteNeural`(Žena) `en-AU-CarlyNeural`(Žena) `en-AU-DarrenNeural`(Muž) `en-AU-DuncanNeural`(Muž) `en-AU-ElsieNeural`(Žena) `en-AU-FreyaNeural`(Žena) `en-AU-JoanneNeural`(Žena) `en-AU-KenNeural`(Muž) `en-AU-KimNeural`(Žena) `en-AU-NeilNeural`(Muž) `en-AU-TimNeural`(Muž) `en-AU-TinaNeural`(Žena)
`es-ES`	španělština (Španělsko).	`es-ES-AbrilNeural`(Žena) `es-ES-AlvaroNeural`(Muž) `es-ES-ArnauNeural`(Muž) `es-ES-DarioNeural`(Muž) `es-ES-EliasNeural`(Muž) `es-ES-EstrellaNeural`(Žena) `es-ES-IreneNeural`(Žena) `es-ES-LaiaNeural`(Žena) `es-ES-LiaNeural`(Žena) `es-ES-NilNeural`(Muž) `es-ES-SaulNeural`(Muž) `es-ES-TeoNeural`(Muž) `es-ES-TrianaNeural`(Žena) `es-ES-VeraNeural`(Žena)
`ja-JP`	Japonština (Japonsko)	`ja-JP-AoiNeural`(Žena) `ja-JP-DaichiNeural`(Muž) `ja-JP-MayuNeural`(Žena) `ja-JP-NaokiNeural`(Muž) `ja-JP-ShioriNeural`(Žena)
`ko-KR`	Korejština (Korea)	`ko-KR-BongJinNeural`(Muž) `ko-KR-GookMinNeural`(Muž) `ko-KR-JiMinNeural`(Žena) `ko-KR-SeoHyeonNeural`(Žena) `ko-KR-SoonBokNeural`(Žena) `ko-KR-YuJinNeural`(Žena)
`wuu-CN`	Čínština (Wu, zjednodušená)	`wuu-CN-XiaotongNeural` (Žena) `wuu-CN-YunzheNeural` (Muž)
`yue-CN`	Čínština (kantonština, zjednodušená)	`yue-CN-XiaoMinNeural` (Žena) `yue-CN-YunSongNeural` (Muž)

Obecné aktualizace hlasu TTS

Vylepšená kvalita pro fil-PH-AngeloNeural hlasy a fil-PH-BlessicaNeural hlasy.
Pravidla normalizace textu se aktualizují pro hlasy se španělskými národními prostředími es-CL (Chile) a uz-UZ Uzbeckým národním prostředím.
Přidali jsme anglická písmena pro hlasy s albánštinou sq-AL (Albánií) a az-AZ ázerbájdžánštinou (Ázerbájdžán) národním prostředím.
Vylepšená výslovnost angličtiny pro zh-HK-WanLungNeural hlas.
Vylepšili jsme tón otázek pro nl-NL-MaartenNeural hlasy a pt-BR-AntonioNeural hlasy.
Přidání podpory pro <lang ="en-US"> značku pro lepší anglickou výslovnost s následujícími hlasy: de-DE-ConradNeural, , es-ES-AlvaroNeuralde-DE-KatjaNeural, es-MX-DaliaNeurales-MX-JorgeNeural, , fr-CA-SylvieNeuralfr-FR-DeniseNeural, , fr-FR-HenriNeurala it-IT-DiegoNeuralit-IT-IsabellaNeural.
Přidání podpory pro style="chat" značku s následujícími hlasy: en-GB-RyanNeural, es-MX-JorgeNeurala it-IT-IsabellaNeural.
Přidání podpory pro style="cheerful" značku s následujícími hlasy: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, a it-IT-IsabellaNeural.
Přidání podpory pro style="sad" značku s následujícími hlasy: en-GB-SoniaNeuralfr-FR-DeniseNeural a fr-FR-HenriNeural.

Verze ze září 2022

Předem sestavený hlas neurálních TTS

Všechny předem vytvořené neurální hlasy byly upgradovány na vysoce věrné hlasy s vzorkovací rychlostí 48kHz.

Verze ze srpna 2022

Předem sestavený hlas neurálních TTS

Vydané nové hlasy ve verzi Public Preview:

Hlasy pro angličtinu (USA): en-US-AIGenerate1Neural a en-US-AIGenerate2Neural.
Hlasy pro čínské regionální jazyky: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeurala zh-CN-shandong-YunxiangNeural.

Další informace najdete v seznamu jazyků a hlasových hovorů.

Verze z července 2022

Předem sestavený hlas neurálních TTS

Přidali jsme 5 nových hlasů čínštiny zh-CN (mandarínština, zjednodušená) a 1 nový hlas en-US angličtiny (USA) ve verzi Public Preview. Zobrazit úplný jazyk a hlasový seznam

Jazyk	Národní prostředí	Pohlaví	Hlasový název	Podpora stylu
Čínština (mandarínština, zjednodušená)	`zh-CN`	Žena	`zh-CN-XiaomengNeural`^New	Obecné, více stylů dostupných pomocí SSML
Čínština (mandarínština, zjednodušená)	`zh-CN`	Žena	`zh-CN-XiaoyiNeural`^New	Obecné, více stylů dostupných pomocí SSML
Čínština (mandarínština, zjednodušená)	`zh-CN`	Žena	`zh-CN-XiaozhenNeural`^New	Obecné, více stylů dostupných pomocí SSML
Čínština (mandarínština, zjednodušená)	`zh-CN`	Muž	`zh-CN-YunxiaNeural`^New	Obecné, více stylů dostupných pomocí SSML
Čínština (mandarínština, zjednodušená)	`zh-CN`	Muž	`zh-CN-YunzeNeural`^New	Obecné, více stylů dostupných pomocí SSML
Angličtina (Spojené státy)	`en-US`	Muž	`en-US-RogerNeural`^New	OBECNÉ

Podporované styly a role pro přidané neurální hlasy

Hlasový hovor	Styly	Stupeň stylu	Role
zh-CN-XiaomengNeural ^{Public Preview}	`chat`	Podporováno
zh-CN-XiaoyiNeural ^{Public Preview}	`affectionate`, `angry`, , `disgruntledfearfulgentlecheerfulembarrassed`, , `sadserious`	Podporováno
zh-CN-XiaozhenNeural ^{Public Preview}	`angry`, `cheerful`, `disgruntled`, `fearful`, , `sadserious`	Podporováno
zh-CN-YunxiaNeural ^{Public Preview}	`angry`, `calm`, `cheerful`, , `fearfulsad`	Podporováno
zh-CN-YunzeNeural ^{Public Preview}	`angry`, `calm`, , `depresseddocumentary-narrationfearfulcheerfuldisgruntled`, , `sadserious`	Podporováno	Podporováno

Získání pozice obličeje pomocí viseme

Přidali jsme podporu pro prolnutí obrazců pro řízení pohybu obličeje 3D znaku, který jste navrhli. Přečtěte si další informace o tom, jak získat pozici obličeje pomocí viseme.
SSML se aktualizoval, aby podporoval element viseme. Viz revize syntézy řeči.

Verze z června 2022

Předem sestavený hlas neurálních TTS

Přidání 9 nových jazyků a variant pro neurální text do řeči:

Jazyk	Národní prostředí	Pohlaví	Hlasový název	Podpora stylu
Arabština (Libanon)	`ar-LB`	Žena	`ar-LB-LaylaNeural`^New	OBECNÉ
Arabština (Libanon)	`ar-LB`	Muž	`ar-LB-RamiNeural`^New	OBECNÉ
Arabština (Omán)	`ar-OM`	Žena	`ar-OM-AyshaNeural`^New	OBECNÉ
Arabština (Omán)	`ar-OM`	Muž	`ar-OM-AbdullahNeural`^New	OBECNÉ
Ázerbájdžánština (Ázerbájdžán)	`az-AZ`	Žena	`az-AZ-BabekNeural`^New	OBECNÉ
Ázerbájdžánština (Ázerbájdžán)	`az-AZ`	Muž	`az-AZ-BanuNeural`^New	OBECNÉ
Bosenština (Bosna a Hercegovina)	`bs-BA`	Žena	`bs-BA-VesnaNeural`^New	OBECNÉ
Bosenština (Bosna a Hercegovina)	`bs-BA`	Muž	`bs-BA-GoranNeural`^New	OBECNÉ
Gruzínština (Gruzie)	`ka-GE`	Žena	`ka-GE-EkaNeural`^New	OBECNÉ
Gruzínština (Gruzie)	`ka-GE`	Muž	`ka-GE-GiorgiNeural`^New	OBECNÉ
Mongolština (Mongolsko)	`mn-MN`	Žena	`mn-MN-YesuiNeural`^New	OBECNÉ
Mongolština (Mongolsko)	`mn-MN`	Muž	`mn-MN-BataaNeural`^New	OBECNÉ
Nepálština (Nepál)	`ne-NP`	Žena	`ne-NP-HemkalaNeural`^New	OBECNÉ
Nepálština (Nepál)	`ne-NP`	Muž	`ne-NP-SagarNeural`^New	OBECNÉ
Albánština (Albánie)	`sq-AL`	Žena	`sq-AL-AnilaNeural`^New	OBECNÉ
Albánština (Albánie)	`sq-AL`	Muž	`sq-AL-IlirNeural`^New	OBECNÉ
Tamilština (Malajsie)	`ta-MY`	Žena	`ta-MY-KaniNeural`^New	OBECNÉ
Tamilština (Malajsie)	`ta-MY`	Muž	`ta-MY-SuryaNeural`^New	OBECNÉ

GA 36 hlasů z Public Preview pro en-GB angličtinu (Spojené království), fr-FR francouzštinu (Francie) a de-DE němčinu (Německo):

Jazyk	Národní prostředí	Pohlaví	Hlasový název	Podpora stylu
Angličtina (Spojené království)	`en-GB`	Žena	`en-GB-AbbiNeural`	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Žena	`en-GB-BellaNeural`	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Žena	`en-GB-HollieNeural`	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Žena	`en-GB-MaisieNeural`	Obecný, podřízený hlas
Angličtina (Spojené království)	`en-GB`	Žena	`en-GB-OliviaNeural`	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Žena	`en-GB-SoniaNeural`	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Muž	`en-GB-AlfieNeural`	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Muž	`en-GB-ElliotNeural`	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Muž	`en-GB-EthanNeural`	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Muž	`en-GB-NoahNeural`	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Muž	`en-GB-OliverNeural`	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Muž	`en-GB-ThomasNeural`	OBECNÉ
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-BrigitteNeural`	OBECNÉ
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-CelesteNeural`	OBECNÉ
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-CoralieNeural`	OBECNÉ
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-EloiseNeural`	Obecný, podřízený hlas
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-JacquelineNeural`	OBECNÉ
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-JosephineNeural`	OBECNÉ
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-YvetteNeural`	OBECNÉ
francouzština (Francie)	`fr-FR`	Muž	`fr-FR-AlainNeural`	OBECNÉ
francouzština (Francie)	`fr-FR`	Muž	`fr-FR-ClaudeNeural`	OBECNÉ
francouzština (Francie)	`fr-FR`	Muž	`fr-FR-JeromeNeural`	OBECNÉ
francouzština (Francie)	`fr-FR`	Muž	`fr-FR-MauriceNeural`	OBECNÉ
francouzština (Francie)	`fr-FR`	Muž	`fr-FR-YvesNeural`	OBECNÉ
němčina (Německo)	`de-DE`	Žena	`de-DE-AmalaNeural`	OBECNÉ
němčina (Německo)	`de-DE`	Žena	`de-DE-ElkeNeural`	OBECNÉ
němčina (Německo)	`de-DE`	Žena	`de-DE-GiselaNeural`	Obecný, podřízený hlas
němčina (Německo)	`de-DE`	Žena	`de-DE-KlarissaNeural`	OBECNÉ
němčina (Německo)	`de-DE`	Žena	`de-DE-LouisaNeural`	OBECNÉ
němčina (Německo)	`de-DE`	Žena	`de-DE-MajaNeural`	OBECNÉ
němčina (Německo)	`de-DE`	Žena	`de-DE-TanjaNeural`	OBECNÉ
němčina (Německo)	`de-DE`	Muž	`de-DE-BerndNeural`	OBECNÉ
němčina (Německo)	`de-DE`	Muž	`de-DE-ChristophNeural`	OBECNÉ
němčina (Německo)	`de-DE`	Muž	`de-DE-KasperNeural`	OBECNÉ
němčina (Německo)	`de-DE`	Muž	`de-DE-KillianNeural`	OBECNÉ
němčina (Německo)	`de-DE`	Muž	`de-DE-KlausNeural`	OBECNÉ
němčina (Německo)	`de-DE`	Muž	`de-DE-RalfNeural`	OBECNÉ

Přidáno 40 nových hlasů španělštiny es-MX (Mexiko), it-IT italština (Itálie), pt-BR portugalština (Brazílie) a 2 zvýraznění pro zh-CN čínštinu (mandarínština, zjednodušená) ve verzi Public Preview:

Jazyk	Národní prostředí	Pohlaví	Hlasový název	Podpora stylu
Španělština (Mexiko)	`es-MX`	Žena	`es-MX-BeatrizNeural`^New	OBECNÉ
Španělština (Mexiko)	`es-MX`	Žena	`es-MX-CarlotaNeural`^New	OBECNÉ
Španělština (Mexiko)	`es-MX`	Žena	`es-MX-NuriaNeural`^New	OBECNÉ
Španělština (Mexiko)	`es-MX`	Žena	`es-MX-RenataNeural`^New	OBECNÉ
Španělština (Mexiko)	`es-MX`	Žena	`es-MX-LarissaNeural`^New	OBECNÉ
Španělština (Mexiko)	`es-MX`	Žena	`es-MX-CandelaNeural`^New	OBECNÉ
Španělština (Mexiko)	`es-MX`	Žena	`es-MX-MarinaNeural`^New	OBECNÉ
italština (Itálie)	`it-IT`	Žena	`it-IT-FiammaNeural`^New	OBECNÉ
italština (Itálie)	`it-IT`	Žena	`it-IT-IrmaNeural`^New	OBECNÉ
italština (Itálie)	`it-IT`	Žena	`it-IT-FabiolaNeural`^New	OBECNÉ
italština (Itálie)	`it-IT`	Žena	`it-IT-PalmiraNeural`^New	OBECNÉ
italština (Itálie)	`it-IT`	Žena	`it-IT-ImeldaNeural`^New	OBECNÉ
italština (Itálie)	`it-IT`	Žena	`it-IT-PierinaNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Žena	`pt-BR-ElzaNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Žena	`pt-BR-ManuelaNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Žena	`pt-BR-BrendaNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Žena	`pt-BR-LeilaNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Žena	`pt-BR-YaraNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Žena	`pt-BR-GiovannaNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Žena	`pt-BR-LeticiaNeural`^New	OBECNÉ
Španělština (Mexiko)	`es-MX`	Muž	`es-MX-CecilioNeural`^New	OBECNÉ
Španělština (Mexiko)	`es-MX`	Muž	`es-MX-LibertoNeural`^New	OBECNÉ
Španělština (Mexiko)	`es-MX`	Muž	`es-MX-LucianoNeural`^New	OBECNÉ
Španělština (Mexiko)	`es-MX`	Muž	`es-MX-PelayoNeural`^New	OBECNÉ
Španělština (Mexiko)	`es-MX`	Muž	`es-MX-YagoNeural`^New	OBECNÉ
Španělština (Mexiko)	`es-MX`	Muž	`es-MX-GerardoNeural`^New	OBECNÉ
italština (Itálie)	`it-IT`	Muž	`it-IT-BenignoNeural`^New	OBECNÉ
italština (Itálie)	`it-IT`	Muž	`it-IT-CataldoNeural`^New	OBECNÉ
italština (Itálie)	`it-IT`	Muž	`it-IT-LisandroNeural`^New	OBECNÉ
italština (Itálie)	`it-IT`	Muž	`it-IT-CalimeroNeural`^New	OBECNÉ
italština (Itálie)	`it-IT`	Muž	`it-IT-RinaldoNeural`^New	OBECNÉ
italština (Itálie)	`it-IT`	Muž	`it-IT-GianniNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Muž	`pt-BR-DonatoNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Muž	`pt-BR-HumbertoNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Muž	`pt-BR-FabioNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Muž	`pt-BR-JulioNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Muž	`pt-BR-ValerioNeural`^New	OBECNÉ
Portugalština (Brazílie)	`pt-BR`	Muž	`pt-BR-NicolauNeural`^New	OBECNÉ
Čínština (mandarínština, zjednodušená)	`zh-CN-sichuan`	Muž	`zh-CN-sichuan-YunxiSichuanNeural`^New	Obecný, Sichuan zvýraznění
Čínština (mandarínština, zjednodušená)	`zh-CN-liaoning`	Žena	`zh-CN-liaoning-XiaobeiNeural`^New	Obecný, zvýraznění liaoningu

Vylepšená kvalita pro en-SG-LunaNeural a en-SG-WayneNeural
Podpora výstupu 48kHz pro Verzi Public Preview s en-US-JennyNeural, en-US-AriaNeural a zh-CN-XiaoxiaoNeural

Vlastní neurální hlas

Povoleno k řešení problémů s daty online. Přečtěte si další informace o řešení problémů s daty v sadě Speech Studio.
Byla přidána verze trénovacího receptu. Přečtěte si další informace o výběru verze trénovacího receptu pro váš hlasový model.

Nástroj pro vytváření zvukového obsahu

Podporované stránkování
Umožňuje seřadit globálně podle názvu, typu souboru a aktualizovat čas na stránce pracovního souboru.

Verze z května 2022

Předem sestavený hlas neurálních TTS

Vydáno 5 nových hlasů ve veřejné verzi Preview s více styly pro obohacení rozmanitosti v americké angličtině. Zobrazit úplný jazyk a hlasový seznam
Tyto nové styly Angry, , FriendlyShoutingHopefulExcitedUnfriendlyTerrifiedSada Whispering ve veřejné verzi Preview pro .en-US-AriaNeural
Tyto nové styly Angry, , Cheerful, , HopefulShoutingUnfriendlyTerrifiedSadExcitedFriendlya Whispering ve veřejné verzi Preview pro en-US-GuyNeural, . en-US-JennyNeural
Tyto nové styly Excited, , HopefulFriendly, Shouting, UnfriendlyTerrified a Whispering ve veřejné verzi Preview pro en-US-SaraNeural. Podívejte se na styly a role hlasu.
Vydali jsme nové hlasy zh-CN-YunjianNeuralzh-CN-YunhaoNeurala zh-CN-YunfengNeural ve verzi Public Preview. Zobrazit úplný jazyk a hlasový seznam
Podpora 2 nových stylů sports-commentaryve sports-commentary-excited verzi Public Preview pro zh-CN-YunjianNeural Podívejte se na styly a role hlasu.
Podpora 1 nového stylu advertisement-upbeat ve verzi Public Preview pro zh-CN-YunhaoNeural. Podívejte se na styly a role hlasu.
Styly a sad styly cheerfulfr-FR-DeniseNeural jsou obecně dostupné ve všech oblastech.
SSML byl aktualizován tak, aby podporoval elementy MathML pro hlasy en-US a en-AU. Přečtěte si další informace o značkách syntézy řeči.

Vlastní neurální hlas

Povolili jsme zrušení trénování během trénovacího hlasového modelu. Přečtěte si další informace o tom, jak zrušit školení.
Povoleno klonování modelu (přejmenování hlasového modelu). Přečtěte si další informace o tom, jak přejmenovat hlasový model.
Povolili jste testování hlasového modelu přidáním vlastního testovacího skriptu. Přečtěte si další informace o tom, jak nahrát testovací skript.
Umožňuje aktualizovat verzi modulu pro váš hlasový model. Přečtěte si další informace o tom, jak aktualizovat verzi modulu modelu.
Podporováno více oblastí trénování. Viz podpora oblastí.
Podporované 10 národních prostředí pro vlastní neurální hlas lite (Preview). Viz podpora jazyků.

Nástroj pro vytváření zvukového obsahu

Umožňuje vyzkoušet nástroj pro vytváření zvukového obsahu bez přihlášení.
Vylepšené rozložení pro úpravy fonetů
Vylepšený výkon: Zadali jste maximální počet (200) souborů, které se mají nahrát najednou.
Vylepšený výkon: Zadali jste maximální úroveň hloubky adresáře (5 úrovní).

Verze z března 2022

Předem sestavený hlas neurálních TTS

Přidání podpory ve verzi Public Preview pro styly Cheerful a Sad styly s fr-FR-DeniseNeural. Podívejte se na styly a role hlasu.
Vydány odpojené kontejnery pro předem připravené hlasy TTS ve verzi Public Preview. Viz použití kontejnerů Dockeru v odpojených prostředích.

Vlastní neurální hlas

Podporované řízení přístupu na základě rolí Další informace o řízení přístupu na základě role v Azure v sadě Speech Studio
Podporované privátní koncové body a koncové body služby virtuální sítě Přečtěte si další informace o používání privátních koncových bodů se službou Speech.

Nástroj pro vytváření zvukového obsahu

Aktualizace velikosti souboru a limit souběžnosti pro prostředky úrovně Free (F0), aby prostředí odpovídalo sadě Speech SDK a rozhraním API. Podívejte se na kvóty a omezení služby Speech.

Verze z února 2022

Vlastní neurální hlas

Vydali jsme vlastní neurální hlas lite ve verzi Public Preview. Přečtěte si další informace o tom, co je vlastní neurální hlas lite.
Rozšířená podpora jazyků na 49 národních prostředí. Viz podpora jazyků.
Podporováno více oblastí nebo datacenter. Viz podpora oblastí.

Nástroj pro vytváření zvukového obsahu

Odebrali jsme limit délky výstupu pro stahování zvuků.

Verze z ledna 2022

Nové jazyky a hlasy

Přidání 10 nových jazyků a variant pro neurální text do řeči:

Jazyk	Národní prostředí	Pohlaví	Hlasový název	Podpora stylu
Bengálština (Indie)	`bn-IN`	Žena	`bn-IN-TanishaaNeural`^New	OBECNÉ
Bengálština (Indie)	`bn-IN`	Muž	`bn-IN-BashkarNeural`^New	OBECNÉ
Islandština (Island)	`is-IS`	Žena	`is-IS-GudrunNeural`^New	OBECNÉ
Islandština (Island)	`is-IS`	Muž	`is-IS-GunnarNeural`^New	OBECNÉ
Kannadština (Indie)	`kn-IN`	Žena	`kn-IN-SapnaNeural`^New	OBECNÉ
Kannadština (Indie)	`kn-IN`	Muž	`kn-IN-GaganNeural`^New	OBECNÉ
Kazaština (Kazachstán)	`kk-KZ`	Žena	`kk-KZ-AigulNeural`^New	OBECNÉ
Kazaština (Kazachstán)	`kk-KZ`	Muž	`kk-KZ-DauletNeural`^New	OBECNÉ
Lao (Laos)	`lo-LA`	Žena	`lo-LA-KeomanyNeural`^New	OBECNÉ
Lao (Laos)	`lo-LA`	Muž	`lo-LA-ChanthavongNeural`^New	OBECNÉ
Makedonština (Severní Makedonie)	`mk-MK`	Žena	`mk-MK-MarijaNeural`^New	OBECNÉ
Makedonština (Severní Makedonie)	`mk-MK`	Muž	`mk-MK-AleksandarNeural`^New	OBECNÉ
Malajálamština (Indie)	`ml-IN`	Žena	`ml-IN-SobhanaNeural`^New	OBECNÉ
Malajálamština (Indie)	`ml-IN`	Muž	`ml-IN-MidhunNeural`^New	OBECNÉ
Pashto (Afghánistán)	`ps-AF`	Žena	`ps-AF-LatifaNeural`^New	OBECNÉ
Pashto (Afghánistán)	`ps-AF`	Muž	`ps-AF-GulNawazNeural`^New	OBECNÉ
Srbština (Srbsko, cyrilice)	`sr-RS`	Žena	`sr-RS-SophieNeural`^New	OBECNÉ
Srbština (Srbsko, cyrilice)	`sr-RS`	Muž	`sr-RS-NicholasNeural`^New	OBECNÉ
Sinhala (Srí Lanka)	`si-LK`	Žena	`si-LK-ThiliniNeural`^New	OBECNÉ
Sinhala (Srí Lanka)	`si-LK`	Muž	`si-LK-SameeraNeural`^New	OBECNÉ

Úplný seznam dostupných hlasů najdete v tématu Podpora jazyků.

Nové hlasy ve verzi Preview

Přidali jsme nové hlasy pro en-GB, fr-FR a de-DE ve verzi Preview:

Jazyk	Národní prostředí	Pohlaví	Hlasový název	Podpora stylu
Angličtina (Spojené království)	`en-GB`	Žena	`en-GB-AbbiNeural`^New	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Žena	`en-GB-BellaNeural`^New	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Žena	`en-GB-HollieNeural`^New	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Žena	`en-GB-OliviaNeural`^New	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Děvče	`en-GB-MaisieNeural`^New	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Muž	`en-GB-AlfieNeural`^New	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Muž	`en-GB-ElliotNeural`^New	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Muž	`en-GB-EthanNeural`^New	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Muž	`en-GB-NoahNeural`^New	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Muž	`en-GB-OliverNeural`^New	OBECNÉ
Angličtina (Spojené království)	`en-GB`	Muž	`en-GB-ThomasNeural`^New	OBECNÉ
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-BrigitteNeural`^New	OBECNÉ
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-CelesteNeural`^New	OBECNÉ
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-CoralieNeural`^New	OBECNÉ
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-JacquelineNeural`^New	OBECNÉ
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-JosephineNeural`^New	OBECNÉ
francouzština (Francie)	`fr-FR`	Žena	`fr-FR-YvetteNeural`^New	OBECNÉ
francouzština (Francie)	`fr-FR`	Děvče	`fr-FR-EloiseNeural`^New	OBECNÉ
francouzština (Francie)	`fr-FR`	Muž	`fr-FR-AlainNeural`^New	OBECNÉ
francouzština (Francie)	`fr-FR`	Muž	`fr-FR-ClaudeNeural`^New	OBECNÉ
francouzština (Francie)	`fr-FR`	Muž	`fr-FR-JeromeNeural`^New	OBECNÉ
francouzština (Francie)	`fr-FR`	Muž	`fr-FR-MauriceNeural`^New	OBECNÉ
francouzština (Francie)	`fr-FR`	Muž	`fr-FR-YvesNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Žena	`de-DE-AmalaNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Žena	`de-DE-ElkeNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Žena	`de-DE-KlarissaNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Žena	`de-DE-LouisaNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Žena	`de-DE-MajaNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Žena	`de-DE-TanjaNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Děvče	`de-DE-GiselaNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Muž	`de-DE-BerndNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Muž	`de-DE-ChristophNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Muž	`de-DE-KasperNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Muž	`de-DE-KillianNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Muž	`de-DE-KlausNeural`^New	OBECNÉ
němčina (Německo)	`de-DE`	Muž	`de-DE-RalfNeural`^New	OBECNÉ

Úplný seznam dostupných hlasů najdete v tématu Podpora jazyků.

Přesnost výslovnosti

Vylepšená výslovnost anglického slova pro všechny he-IL hlasy.
Vylepšili jsme přesnost výslovnosti na úrovni slov pro cs-CZ a da-DK.
Vylepšená arabská diakritika a manipulace s hebrejštinou Nikud.
Vylepšené čtení entit pro ja-JP

Speech Studio

Vlastní neurální hlas: Povolili jsme další testování modelů pomocí dávkového rozhraní API (dlouhé zvukové rozhraní API).
Vytváření zvukového obsahu: Povoleno více výstupních formátů

Verze z října 2021

Nové jazyky a hlasy

Přidání 49 nových jazyků a 98 hlasů pro neurální text do řeči:

Adri v af-ZA Afrikánech (Jihoafrická republika), Willem v af-ZA Afrikánech (Jihoafrická republika), Mekdes v am-ET Amharštině (Etiopie), Ameha v am-ET Amharštině (Etiopie), Fatima v ar-AE arabštině (Spojené arabské emiráty), Hamdan v ar-AE arabštině (Spojené státy americké) Arabské emiráty), Laila v ar-BH arabštině (Arabština), Ali v ar-BH arabštině (Arabština), Amina v ar-DZ arabštině (Alžírsko), Ismael v ar-DZ arabštině (Alžírsko), Rana v ar-IQ arabštině (Irák), Basel v ar-IQ arabštině (Irák), Sana v ar-JO arabštině (Jordánsko), Taim v ar-JO arabštině (Jordánsko), Noura v ar-KW arabštině (Kuvajt), Fahed v ar-KW arabštině (Kuvajt), Iman v ar-LY arabštině (Libye), Omar ( ar-LY Libye), Mouna v ar-MA arabštině (Maroko), Jamal v ar-MA arabštině (Maroko), Amal ( ar-QA Katar), Moaz v ar-QA arabštině (Katar), Amany v ar-SY arabštině (Sýrie), ar-SY Reem v ar-TN arabštině (Tunisko), Hedi v ar-TN arabštině (Tunisko), Maryam v ar-YE arabštině (Jemen), Saleh v ar-YE arabštině (Jemen), Nabanita in bn-BD Bangla (Bangladéš), Pradeep in bn-BD Bangla (Bangladéš), Asilia v en-KE angličtině (Keňa), Chilemba v en-KE angličtině (Keňa), Ezinne v en-NG angličtině (Nigérie), Abeo v en-NG angličtině (Nigérie), Imani v en-TZ angličtině (Tanzanie), Elimu v en-TZ angličtině (Tanzanie), Sofie ve es-BO španělštině (Kolumbie), Marcelo ve es-BO španělštině (Kolumbie), Catalina ve es-CL španělštině (Chile), Lorenzo ve es-CL španělštině (Chile), Maria in es-CR Španělština (Kostarika), Juan ve es-CR španělštině (Kostarika), Belkys ve es-CU španělštině (Kuba), Manuel es-CU ve španělštině (Kuba), Ramona ve es-DO španělštině (Dominikánská republika), Emilio ve španělštině (Dominikánská republika), Andrea ve es-DOes-EC španělštině (Ekvádor), Luis ve es-EC španělštině (Ekvádor), Teresa ve es-GQ španělštině (Rovníková Guinea), Javier ve es-GQ španělštině (Rovníková Guinea), Marta ve es-GT španělštině (Guatemala), Andres ve es-GT španělštině (Guatemala), Karla ve es-HN španělštině Španělština (Honduras), Carlos ve es-HN španělštině (Honduras), Yolanda ve es-NI španělštině (Nikaragua), Federico ve es-NI španělštině (Nikaragua), Margarita ve es-PA španělštině (Panama), Roberto ve es-PA španělštině (Panama), Camila ve es-PE španělštině (Peru), Alex ve es-PE španělštině (Peru), Karina ve es-PR španělštině (Portoriko), Vítězství ve es-PR španělštině (Portoriko), Tania ve es-PY španělštině (Paraguay), Mario ve es-PY španělštině (Kolumbie), Lorena ve es-SV španělštině (El Salvador), Rodrigo in es-SV Španělština (El Salvador), Valentina ve es-UY španělštině (Uruguay), Mateo ve es-UY španělštině (Uruguay), Paola ve es-VE španělštině (Venezuela), Sebastian ve es-VE španělštině (Venezuela), Dilara v perštině (Írán), Farid v fa-IRfa-IR perštině (Írán), Blessica ve fil-PH Filipínách (Filipíny), Angelo ve fil-PH Filipínách (Filipíny), Sabela v gl-ES Galicijštině, Roi in gl-ES Galician, Siti in jv-ID Javanese (Indonésie), Dimas in jv-ID Javanese (Indonesia), Sreymom in km-KH Khmer (Kambodža), Piseth in km-KH Khmer (Kambodža), Nilar in my-MM Burmština (Myanmar), Thiha v my-MM Burmese (Myanmar), Ubax v so-SO Somali (Somalia), Muuse in so-SO Somali (Somalia), Tuti in su-ID Sundanese (Indonésie), Jajang in su-ID Sundanese (Indonésie), Rehema in sw-TZ Swahili (Tanzanie) ), Daudi in sw-TZ Swahili (Tanzanie), Saranya in ta-LK Tamil (Srí Lanka), Kumar in ta-LK Tamil (Srí Lanka), Venba in ta-SG Tamil (Singapur), Anbu in ta-SG Tamil (Singapur), Gul in ur-IN Urdu (Indie), Salman in ur-IN Urdu (Indie), Madina in uz-UZ Uzbek (Uzbek), Sardor in uz-UZ Uzbek (Uzbek), Thando in zu-ZA Zulu (Jihoafrická republika), Themba in zu-ZA Zulu (Jihoafrická republika).

Verze ze září 2021

Nový hlas chatovacího robota v en-US angličtině (USA):Sara, představuje mladou ženskou dospělé, která mluví příležitostněji a nejlépe vyhovuje scénářům chatovacího robota.
Nové styly přidané pro ja-JP japonský hlas Nanami: Tři nové styly jsou nyní k dispozici u Nanami: chat, zákaznický servis a veselý.
Celkové zlepšení výslovnosti: Ardi v id-ID, Premwadee in th-TH, Christel in da-DK, HoaiMy a NamMinh in vi-VN.
Dva nové hlasy v zh-CN čínštině (Mandarínština, Čína) ve verzi Preview: Xiaochen a Xiaoyan, optimalizované pro scénáře spontánní řeči a zákaznických služeb.

Verze z července 2021

Aktualizace neurálního textu na řeč

Menší chyby výslovnosti v hebrejštině o 20 %.

Aktualizace sady Speech Studio

Vlastní neurální hlas: Aktualizovali jsme trénovací kanál na UniTTSv3, pomocí kterého se zlepšila kvalita modelu, zatímco doba trénování se snižuje o 50 % pro akustické modely.
Vytváření zvukového obsahu: Opravili jsme problém s výkonem exportu a chybu vlastního výběru neurálního hlasu.

Verze z června 2021

Aktualizace sady Speech Studio

Vlastní neurální hlas: Vlastní neurální hlas trénování rozšířené na podporu jihovýchodní Asie. Nové funkce vydané pro podporu kontroly stavu nahrávání dat
Vytváření zvukového obsahu: Vydali jsme novou funkci pro podporu vlastního slovníku. Díky této funkci můžou uživatelé snadno vytvářet své lexikonové soubory a definovat přizpůsobenou výslovnost pro svůj zvukový výstup.

Verze z května 2021

Nové jazyky a hlasy přidané pro neurální TTS

Deset nových jazyků zavedených - 20 nových hlasů v 10 nových národních prostředích jsou přidány do seznamu jazyků neurální TTS: Yan v en-HK angličtině (Hongkong), Sam v en-HK angličtině (Hongkong), Molly v en-NZ angličtině (Nový Zéland), Mitchell v en-NZ angličtině (Nový Zéland), Luna v en-SG angličtině (Singapur), Wayne v en-SG angličtině (Singapur), Leah v en-ZA angličtině (Jižní Afrika), Luke v en-ZA angličtině (Jižní Afrika), Dhwani v gu-IN Gujarati (Indie), Niranjan v gu-IN Gujarati (Indie), Aarohi in mr-IN Marathi (Indie), Manohar in mr-IN Marathi (Indie), Elena ve es-AR španělštině (Argentina), Tomas ve španělštině (Argentina), Salome ve es-COes-AR španělštině (Kolumbie), Gonzalo ve es-CO španělštině (Kolumbie), Paloma ve es-US španělštině (USA), Alonso ve es-US španělštině (USA), Zuri v sw-KE Swahili (Keňa), Rafiki v sw-KE Swahili (Keňa).
Jedenáct nových hlasů en-US ve verzi Preview – 11 nových hlasů en-US ve verzi Preview jsou přidány do americké angličtiny, jsou Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Pět zh-CN čínských hlasů (mandarínština, zjednodušená) jsou obecně dostupné – 5 čínských (mandarínština, zjednodušená) hlasy se mění z verze Preview na obecně dostupné. Jsou to Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Tyto hlasy jsou teď dostupné ve všech oblastech. Yunxi se přidává s novým stylem asistenta, který je vhodný pro chatovacího robota a hlasového agenta. Styly hlasu Xiaomo jsou zpřesněné tak, aby byly přirozenější a doporučené.

Verze z dubna 2021

Neurální text pro řeč je k dispozici v 21 oblastech.

V těchto nových 12 oblastech je nyní k dispozici dvanáct nových oblastí : , Korea CentralJapan West, , , North Central US, North Europe, South Central USSoutheast Asia, UK South, west Central USWest EuropeWest US. . West US 2Japan East Tady najdete úplný seznam 21 podporovaných oblastí.

Verze z března 2021

Nové jazyky a hlasy přidané pro neurální TTS

Šest nových jazyků zavedených - 12 nových hlasů v 6 nových národních prostředích jsou přidány do seznamu jazyků neurální TTS: Nia v cy-GB Welsh (Spojené království), Aled v cy-GB Welsh (Spojené království), Rosa v en-PH angličtině (Filipíny), James v en-PH angličtině (Filipíny), Charline ve fr-BE francouzštině (Belgie), fr-BE Dena v nl-BE holandštině (Belgie), Arnaud v nl-BE nizozemštině (Belgie), Polina v uk-UA ukrajinštině (Ukrajina), Ostap v uk-UA ukrajinštině (Ukrajina), Uzma v ur-PK Urdu (Pákistán), Asad v ur-PK Urdu (Pákistán).
Pět jazyků z verze Preview do GA – 10 hlasů v pěti národních prostředích zavedených v listopadu je nyní GA: Kert v et-EE Estonsku (Estonsko), Colm v ga-IE irsku (Irsko), Nils v lv-LV Lotyšsku (Lotyšsko), Leonas v lt-LT Litevštině (Litva), Joseph in mt-MT Malta (Malta).
Nový muž hlas přidaný pro francouzštinu (Kanada) - Nový hlas Antoine je k dispozici pro fr-CA francouzštinu (Kanada).
Zlepšení kvality – snížení míry chyb výslovnosti u hu-HU maďarštiny - 48,17 %, nb-NO norština - 52,76 %, nl-NL nizozemština (Nizozemsko) – 22,11 %.

V této verzi teď podporujeme celkem 142 neurálních hlasů v 60 jazycích a národních prostředích. Kromě toho je k dispozici více než 70 standardních hlasů ve 49 jazycích a národních prostředích. Úplný seznam najdete v podpoře jazyků.

Získání událostí pozice obličeje k animaci znaků

Neurální text na řeč teď zahrnuje událost viseme. Události Viseme umožňují uživatelům získat posloupnost obličejových pozic spolu s syntetizovanými řečmi. Visemes lze použít k řízení pohybu 2D a 3D avatar modelů, odpovídajících úst pohyby syntetizované řeči. Události Viseme jsou v tuto chvíli k dispozici pouze pro en-US-AriaNeural hlas.

Přidání elementu záložky v jazyce SSML (Speech Synthesis Markup Language)

Element záložky umožňuje vložit vlastní značky do SSML, abyste získali posun každé značky ve zvukovém streamu. Dá se použít k odkazování na konkrétní umístění v textu nebo sekvenci značek.

Verze z února 2021

Obecná dostupnost vlastního neurálního hlasu

Vlastní neurální hlas je ga v únoru ve 13 jazycích: čínština (mandarínština, zjednodušená), angličtina (Austrálie), angličtina (Indie), angličtina (Spojené království), angličtina (USA), francouzština (Kanada), francouzština (Francie), němčina (Německo), italština (Itálie), japonština (Japonsko), korejština (Korea), portugalština (Brazílie), španělština (Mexiko) a španělština (Španělsko). Přečtěte si další informace o tom, co je vlastní neurální hlas a jak ho používat zodpovědně. Vlastní funkce neurálního hlasu vyžaduje registraci a Microsoft může omezit přístup na základě kritérií způsobilosti microsoftu. Přečtěte si další informace o omezeném přístupu.

Verze z prosince 2020

Nové neurální hlasy ve verzi GA a Preview

Vydáno 51 nových hlasů pro celkem 129 neurálních hlasů napříč 54 jazyky a národními prostředími:

46 nových hlasů v národních prostředích GA: Shakir v ar-EG arabštině (Egypt), Hamed in ar-SA Arabic (Saúdská Arábie), Johnsonlav v bg-BG Bulharštině (Bulharsko), Joana v ca-ES katalánštině, Antonin v cs-CZ Češtině (Česká republika), Jeppe v da-DK dánštině (Dánsko), Jonas v de-AT němčině (Rakousko), Jan v de-CH němčině (Švýcarsko), Nestoras v el-GR řečtině (Řecko), Liam v en-CA angličtině (Kanada), Connor v en-IE angličtině (Irsko), Madhur v en-IN hindštině (Indie), Mohan (en-INIndie), Prabhat v en-IN angličtině (Indie), Valluvar v en-IN Tamilu (Indie), Enric in es-ES Katalánština, Kert v et-EE Estonsku (Estonsko), Harri ve fi-FI finštině (Finsko), Selma ve fi-FI finštině (Finsko), Fabrice ve fr-CH francouzštině (Švýcarsko), Colm in ga-IE Irish (Irsko), Avri in he-IL Hebrejština (Izrael), Srecko in hr-HR Chorvatština (Chorvatsko), Tamas in hu-HU Maďarština (Maďarsko), Gadis inDonézština id-ID (Indonésie), Leonas v lt-LT Litevštině (Litva), Nils in lv-LV Lotyština (Lotyšsko), Osman v ms-MY Malajštině (Malajsie), Joseph v mt-MT Maltě (Malta), Finn v nb-NO Norštině, Bokmål (Norsko), Pernille v nb-NO norštině, Bokmål (Norsko), Fenna v nl-NL holandštině (Nizozemsko), Maarten v nl-NL holandštině (Nizozemsko), Agnieszka v pl-PL polštině (Polsko), Marek v pl-PL polštině (Polsko), Duarte v pt-BR portugalštině (Brazílie), Raquel v pt-PT portugalštině (Potugal), Emil in ro-RO Rumunština (Rumunsko), Dmitry v ru-RU ruštině (Rusko), Svetlana in ru-RU Ruština (Rusko), Lukas ve sk-SK slovenštině (Slovensko), Rok ve sl-SI Slovinštině (Slovinsko), Mattias ve sv-SE švédštině (Švédsko), Sofie ve sv-SE švédštině (Švédsko), Niwat v th-TH thajštině (Thajsko), Ahmet v tr-TR turečtině (Türkiye), NamMinh ve vi-VN Vietnamštině (Vietnam), HsiaoChen (zh-TWTchaj-wan), YunJhe v zh-TW Tchaj-wanštině (Tchaj-wan), HiuMaan (Tchaj-wan), HiuMaan v zh-HK čínštině (Zvláštní Správa istrativní oblast), WanLung v zh-HK Tchaj-wanštině Čínské kanóny (Hongkong – zvláštní správní oblast).
5 nových hlasů v národních prostředích ve verzi Preview: Kert v et-EE Estonsku (Estonsko), Colm v ga-IE Irsku (Irsko), Nils v lv-LV Lotyšsku (Lotyšsko), Leonas v lt-LT Litevštině (Litva), Joseph in mt-MT Malta (Malta).

V této verzi teď podporujeme celkem 129 neurálních hlasů napříč 54 jazyky a národními prostředími. Kromě toho je k dispozici více než 70 standardních hlasů ve 49 jazycích a národních prostředích. Úplný seznam najdete v podpoře jazyků.

Aktualizace pro vytváření zvukového obsahu

Vylepšené uživatelské rozhraní pro výběr hlasu s kategoriemi hlasu a podrobnými popisy hlasu
Povolili jsme ladění intonace pro všechny neurální hlasy v různých jazycích.
Automatizovala lokalizaci uživatelského rozhraní na základě jazyka prohlížeče.
Povolené StyleDegree ovládací prvky pro všechny zh-CN neurální hlasy Navštivte nástroj pro vytváření zvukového obsahu a podívejte se na nové funkce.

Aktualizace pro hlasy zh-CN

Aktualizovali jsme všechny zh-CN neurální hlasy, aby podporovaly angličtinu.
Povolili jsme všechny zh-CN neurální hlasy pro podporu nastavení intonace. Nástroj pro vytváření zvukového obsahu nebo SSML lze použít k úpravě nejlepší intonace.
Aktualizovali jsme všechny zh-CN neurální hlasy ve více stylech, aby podporovaly StyleDegree ovládání. Intenzita emocí (měkká nebo silná) je nastavitelná.
Aktualizováno zh-CN-YunyeNeural tak, aby podporovalo více stylů, které můžou provádět různé emoce.

Verze z listopadu 2020

Nová národní prostředí a hlasy ve verzi Preview

Do portfolia pro řeč se zavádí pět nových hlasů a jazyků v neurálním textu. Jsou: Grace v Maltě (Malta), Ona v Litevštině (Litva), Anu v Estonsku (Estonsko), Orla v Irsku (Irsko) a Everita v Lotyšsku (Lotyšsko).
Pět nových zh-CN hlasů s více styly a rolemi podporují: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan a Yunxi.

Tyto hlasy jsou dostupné ve verzi Public Preview ve třech oblastech Azure: EastUS, SouthEastAsia a WestEurope.

Obecná dostupnost neurálního textu do služby Speech Container

Díky neurálnímu textu do služby Speech Container můžou vývojáři spouštět syntézu řeči s nejpřirozenějšími digitálními hlasy ve vlastním prostředí pro konkrétní požadavky na zabezpečení a zásady správného řízení dat. Zkontrolujte, jak nainstalovat kontejnery Speech.

Nové funkce

Vlastní hlas: Umožňuje uživatelům zkopírovat hlasový model z jedné oblasti do druhé, podporované pozastavení koncového bodu a obnovení. Přejděte sem na portál .
Podpora značek ticha SSML
Obecná vylepšení kvality hlasu TTS: Vylepšená přesnost výslovnosti na úrovni slov v nb-NO. Snížila se 53% chyba výslovnosti.

Další informace najdete na tomto technickém blogu.

Verze z října 2020

Nové funkce

Jenny podporuje nový newscast styl. Podívejte se, jak používat styly mluvení v SSML.
Neurální hlasy upgradované na HiFiNet vocoder s vyšší věrností zvuku a rychlejší syntetickou rychlostí. To je přínosem pro zákazníky, jejichž scénář závisí na hi-fi audio nebo dlouhých interakcích, včetně video dubbingu, zvukových knih nebo online vzdělávacích materiálů. Přečtěte si další informace o příběhu a poslechněte si ukázky hlasových ukázek na našem blogu technické komunity.
Vlastní studio pro vytváření hlasového a zvukového obsahu lokalizované do 17 národních prostředí Uživatelé můžou snadno přepnout uživatelské rozhraní do místního jazyka, aby bylo prostředí přívětivější.
Vytváření zvukového obsahu: Přidání ovládacího prvku stupně stylu pro XiaoxiaoNeural; Vylepšili jsme přizpůsobenou funkci přerušení tak, aby zahrnovala přírůstkové konce 50 ms.

Obecná vylepšení kvality hlasu TTS

Vylepšená přesnost výslovnosti na úrovni slov ( pl-PL snížení míry chyb: 51 %) a fi-FI (snížení míry chyb: 58 %)
Vylepšené ja-JP jednoslovné čtení pro scénář slovníku Menší chyba výslovnosti o 80 %.
zh-CN-XiaoxiaoNeural: Vylepšená kvalita mínění/ CustomerService/ Newscast/ Veselý/ Rozzlobený styl hlasu.
zh-CN: Vylepšená výslovnost Erhua a lehký tón a upřesněný prostor prosody, což výrazně zlepšuje srozumitelnost.

Verze ze září 2020

Nové funkce

Neurální text na řeč
- Rozšířeno na podporu 18 nových jazyků a národních prostředí. Jsou to bulharština, čeština, němčina (Rakousko), němčina (Švýcarsko), řečtina, angličtina (Irsko), francouzština (Švýcarsko), hebrejština, chorvatština, maďarština, indonéština, malajština, rumunština, slovenština, slovinština, Tamilština, Telugu a Vietnamština.
- Vydáno 14 nových hlasů pro obohacení rozmanitosti v existujících jazycích. Zobrazit úplný jazyk a hlasový seznam
- Nové styly mluvení a en-USzh-CN hlasy. Jenny, nový hlas v angličtině (USA), podporuje chatbota, zákaznické služby a styly asistentů. 10 nových stylů mluvení je k dispozici s naším hlasem zh-CN, XiaoXiao. Kromě toho neurální hlas XiaoXiao podporuje StyleDegree ladění. Podívejte se, jak používat styly mluvení v SSML.
Kontejnery: Neurální text pro speech Container vydaný ve verzi Public Preview s 16 hlasy dostupnými ve 14 jazycích. Další informace o nasazení kontejnerů služby Speech pro neurální text do řeči

Přečtěte si úplné oznámení o aktualizacích TTS pro Ignite 2020

Verze ze srpna 2020

Nové funkce

Neurální text na řeč: nový styl řeči pro en-US hlas Aria. AriaNeural může při čtení zpráv znít jako přetypování zpráv. Styl "newscast-formal" zní vážněji, zatímco styl "newscast-casual" je uvolněnější a neformální. Podívejte se, jak používat styly mluvení v SSML.
Vlastní hlas: Nová funkce se vydává pro automatickou kontrolu kvality trénovacích dat. Když nahrajete data, systém prozkoumá různé aspekty dat zvuku a přepisu a automaticky opraví nebo vyfiltruje problémy, aby se zlepšila kvalita hlasového modelu. To zahrnuje hlasitost zvuku, úroveň šumu, přesnost výslovnosti řeči, zarovnání řeči s normalizovaným textem, ticho ve zvuku, kromě formátu zvuku a skriptu.
Vytváření zvukového obsahu: sada nových funkcí, které umožňují výkonnější možnosti ladění hlasu a správy zvuku.
- Výslovnost: Funkce ladění výslovnosti se aktualizuje na nejnovější sadu fomů. V knihovně můžete vybrat správný prvek foonemu a upřesnit výslovnost vybraných slov.
- Download: Funkce "Download"/"Export" je vylepšena tak, aby podporovala generování zvuku podle odstavce. Obsah ve stejném souboru nebo SSML můžete upravovat při generování více zvukových výstupů. Struktura souborů "Download" je také upřesněna. Teď můžete snadno získat všechny zvukové soubory v jedné složce.
- Stav úlohy: Je vylepšeno prostředí pro export s více soubory. Při exportu více souborů v minulosti, pokud jeden ze souborů selhal, celý úkol selže. Všechny ostatní soubory se ale teď úspěšně exportují. Sestava úkolů je rozšířena o podrobnější a strukturované informace. Teď můžete v sestavě zkontrolovat všechny neúspěšné soubory a věty v protokolech.
- Dokumentace SSML: Propojená s dokumentem SSML, která vám pomůžou zkontrolovat pravidla použití všech funkcí ladění.
Rozhraní API pro seznam hlasových služeb se aktualizuje tak, aby obsahovalo uživatelsky přívětivé zobrazované jméno a styly mluvení podporované pro neurální hlasy.

Obecná vylepšení kvality hlasu TTS

Menší chyba výslovnosti na úrovni slova % pro ru-RU (chyby se snížily o 56 %) a sv-SE (chyby se snížily o 49 %)
Vylepšené polyfonní čtení slov u en-US neurálních hlasů o 40 %. Příklady polyfonních slov zahrnují "read", "live", "content", "record", "object" atd.
Vylepšili jsme přirozenost tónu otázky v fr-FR. Mos (Střední skóre mínění) zisk: +0,28
Aktualizovali jsme vocodery pro následující hlasy s vylepšeními přesnosti a celkovým zrychlením výkonu o 40 %.

Národní prostředí Hlasový hovor

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Národní prostředí	Hlasový hovor
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Opravy chyb

Oprava řady chyb pomocí nástroje pro vytváření zvukového obsahu
- Opravili jsme problém s automatickou aktualizací.
- Opravili jsme problémy se styly hlasu v oblasti zh-CN v oblasti Jihovýchodní Asie.
- Opravili jsme problém se stabilitou, včetně chyby exportu se značkou break a chybami v interpunkci.

Verze z dubna 2024

Řeč na text v reálném čase s diariazací (GA)

Řeč na text v reálném čase s diariazací je nyní obecně dostupná.

V rychlém startu pro diarizaci v reálném čase se dozvíte více o tom, jak vytvořit řeč na textové aplikace, které používají diarizaci k rozlišení mezi různými mluvčími, kteří se účastní konverzace.

Aktualizace modelu převodu řeči na text

Funkce Speech to Text v reálném čase vydala nové modely s dvojjazyčnými funkcemi. Model en-IN teď podporuje scénáře pro dvojjazyčné jazyky v angličtině i hindštině a nabízí vylepšenou přesnost. Arabské národní prostředí (ar-AE, ar-BH, ar-DZar-IQar-KWar-LYar-OMar-LBar-PSar-MAar-IL, ar-QA, ar-SA, ar-SY, ar-TN) ar-YEjsou nyní vybaveny dvojjazyčnou podporou pro angličtinu, vylepšenou přesnost a podporu call center.

Dávkový přepis spustil modely s novou architekturou pro es-ES, es-MX, fr-FR, it-IT, , ja-JP, , ko-KR, , pt-BR. zh-CN. Tyto modely výrazně vylepšují čitelnost a rozpoznávání entit.

Verze z března 2024

Obecná dostupnost šeptání (GA)

Model Šeptající řeč na text s využitím služby Azure AI Speech je teď obecně dostupný.

Podívejte se na model Šeptaní? Dozvíte se více o tom, kdy používat Službu Azure AI Speech vs. Azure OpenAI.

Verze z února 2024

Posouzení výslovnosti

Hodnocení výslovnosti řeči teď podporuje obecně dostupné 23 jazyků (s 5 novými jazyky přidanými) se 3 dalšími jazyky dostupnými ve verzi Public Preview. Další informace najdete v úplném seznamu jazyků pro posouzení výslovnosti.

Jazyk	Národní prostředí (BCP-47)
Arabština (Egypt)	`ar-EG`¹
Arabština (Saúdská Arábie)	`ar-SA`
Čínština (kantonština, tradiční)	`zh-HK`¹
Čínština (mandarínština, zjednodušená)	`zh-CN`
Holandština (Nizozemsko)	`nl-NL`¹
Angličtina (Austrálie)	`en-AU`
Angličtina (Kanada)	`en-CA`
Angličtina (Indie)	`en-IN`
Angličtina (Spojené království)	`en-GB`
Angličtina (Spojené státy)	`en-US`
Francouzština (Kanada)	`fr-CA`
francouzština (Francie)	`fr-FR`
němčina (Německo)	`de-DE`
Hindština (Indie)	`hi-IN`
italština (Itálie)	`it-IT`
Japonština (Japonsko)	`ja-JP`
Korejština (Korea)	`ko-KR`
malajština (Malajsie)	`ms-MY`
Norština (Bokmål, Norsko)	`nb-NO`
Portugalština (Brazílie)	`pt-BR`
Ruština (Rusko)	`ru-RU`
Španělština (Mexiko)	`es-MX`
španělština (Španělsko).	`es-ES`
Švédština (Švédsko)	`sv-SE`
Tamilština (Indie)	`ta-IN`
Vietnamština (Vietnam)	`vi-VN`

¹ Jazyk je ve verzi Public Preview pro hodnocení výslovnosti.

Seznam frází

Přidání podpory seznamu frází pro následující národní prostředí: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Verze z listopadu 2023

Představujeme dvojjazyčné modelování řeči!

Jsme nadšeni, že jsme představili zásadní doplněk k modelování řeči v reálném čase – dvojjazyčné modelování řeči. Toto významné vylepšení umožňuje našemu modelu řeči bezproblémově podporovat dvojjazyčné dvojice jazyků, jako je angličtina a španělština, stejně jako angličtina a francouzština. Tato funkce umožňuje uživatelům snadno přepínat mezi jazyky během interakcí v reálném čase, což označuje klíčový moment v našem závazku k vylepšení komunikačních prostředí.

Hlavní zvýraznění:

Dvojjazyčná podpora: S naší nejnovější verzí můžou uživatelé během interakcí s řečí v reálném čase bezproblémově přepínat mezi angličtinou a španělštinou nebo mezi angličtinou a francouzštinou. Tato funkce je přizpůsobená tak, aby vyhovovala bilinguálním mluvčím, kteří často přecházejí mezi těmito dvěma jazyky.
Vylepšené uživatelské prostředí: Bilinguální mluvčí, ať už v práci, doma nebo v různých komunitních nastaveních, tato funkce nesmírně přínosná. Schopnost modelu pochopit a reagovat na angličtinu i španělštinu v reálném čase otevírá nové možnosti efektivní a proměnlivé komunikace.

Jak používat:

Při volání rozhraní SPEECH API služby Speech zvolte es-US (španělština a angličtina) nebo fr-CA (francouzština a angličtina) nebo si ho vyzkoušejte v sadě Speech Studio. Nebojte se mluvit jazykem nebo je kombinovat – model je navržený tak, aby se dynamicky přizpůsobil a poskytoval přesné a kontextové odpovědi v obou jazycích.

Je čas zvýšit komunikační hru s naší nejnovější verzí funkcí – bezproblémovou a vícejazyčnou komunikací na dosah ruky!

Aktualizace textových modelů převodu řeči na

S radostí oznamujeme významné aktualizace našich modelů řeči, slibné vyšší přesnosti, lepší čitelnost a upřesnění rozpoznávání entit. Tento upgrade má robustní novou strukturu, kterou podporuje rozšířená trénovací datová sada, která zajišťuje výrazný pokrok v celkovém výkonu. Zahrnuje nově vydané modely pro en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE a he-IL.

Zvýraznění:

Lepší přesnost s novou strukturou modelu: Předdefinovaná struktura modelu v kombinaci s bohatší trénovací datovou sadou, zvyšuje úrovně přesnosti, slibně přesnější výstup řeči.
Vylepšení čitelnosti: Náš nejnovější model přináší značné zvýšení čitelnosti, zlepšení soudržnosti a srozumitelnosti mluveného obsahu.
Pokročilé rozpoznávání entit: Rozpoznávání entit přijímá podstatný upgrade, což vede k přesnějším a nuannějším výsledkům.

Potenciální dopady: I přes tyto pokroky je důležité mít na paměti potenciální dopady:

Vlastní funkce časového limitu ticha: Uživatelé, kteří používají vlastní časový limit ticha, zejména s nízkým nastavením, můžou narazit na nadměrné segmentace a potenciální vynechání jednoslovných frází.
Nový model může u funkce předpony klíčového slova vykazovat problémy s kompatibilitou a uživatelům doporučujeme vyhodnotit jeho výkon ve svých konkrétních aplikacích.
Snížená nefluence slova nebo fráze: Uživatelé si mohou všimnout snížení nepotřebnosti slov nebo frází, jako je "um" nebo "uh" ve výstupu řeči.
Nepřesnosti ve slově timestamp duration: Některá slova nefluence mohou zobrazovat nepřesnosti v době trvání časového razítka, což vyžaduje pozornost v aplikacích závislých na přesném načasování.
Rozptyl rozdělení skóre spolehlivosti: Uživatelé, kteří se spoléhají na skóre spolehlivosti a související prahové hodnoty, by měli vědět o potenciálních variacích v distribuci, a proto je nutné upravit optimální výkon.
Vylepšení přesnosti funkce seznamu frází může být ovlivněno nesprávným zjištěním určitých frází.

Doporučujeme, abyste tato vylepšení prozkoumali a zvážili potenciální problémy pro bezproblémový přechod, a jako vždy je vaše zpětná vazba nástrojem ke zpřesnění a vylepšování našich služeb.

Posouzení výslovnosti

Hodnocení výslovnosti řeči teď podporuje obecně dostupné 18 jazyků s šesti dalšími jazyky dostupnými ve verzi Public Preview. Další informace najdete v úplném seznamu jazyků pro posouzení výslovnosti.
S radostí oznamujeme, že hodnocení výslovnosti zavádí nové funkce od 1. listopadu 2023: Prosody, Grammar, Slovník a Téma. Cílem těchto vylepšení je poskytnout ještě komplexnější jazykové učení pro hodnocení čtení i mluvení. Upgradujte na sadu SDK verze 1.35.0 nebo novější a prozkoumejte další podrobnosti v tématu Jak používat hodnocení výslovnosti a hodnocení výslovnosti v sadě Speech Studio.

Verze ze září 2023

Šeptej ve verzi Public Preview

Azure AI Speech teď podporuje model Šeptající OpenAI prostřednictvím rozhraní API pro dávkový přepis. Další informace najdete v průvodci vytvořením dávkového přepisu .

Poznámka:

Služba Azure OpenAI podporuje také model šeptajícího jazyka OpenAI pro převod řeči na text pomocí synchronního rozhraní REST API. Další informace najdete v rychlém startu.

Podívejte se na model Šeptaní? Dozvíte se více o tom, kdy používat Službu Azure AI Speech vs. Azure OpenAI.

Public Preview rozhraní REST API pro převod řeči na text verze 3.2

Rozhraní REST API pro převod řeči na text verze 3.2 je k dispozici ve verzi Preview. Rozhraní REST API pro převod řeči na text verze 3.1 je obecně dostupné. Rozhraní REST API pro převod řeči na text verze 3.0 bude vyřazeno 1. dubna 2026. Další informace najdete v průvodcích migrací rozhraní REST API pro převod řeči na text v3.0 na verzi 3.1 a v3.1 do verze 3.2 .

Vydání ze srpna 2023

Nové národní prostředí pro převod řeči na text:

Převod řeči na text podporuje dvě nová národní prostředí, jak je znázorněno v následující tabulce. Tady najdete úplný seznam jazyků.

Národní prostředí	Jazyk
`pa-IN`	Pandžábština (Indie)
`ur-IN`	Urdu (Indie)

Posouzení výslovnosti

Hodnocení výslovnosti řeči teď podporuje 3 další jazyky obecně dostupné v angličtině (Kanadě), angličtině (Indii) a francouzštině (Kanada) se 3 dalšími jazyky dostupnými ve verzi Preview. Další informace najdete v úplném seznamu jazyků pro posouzení výslovnosti.

Vydání z května 2023

Posouzení výslovnosti

Hodnocení výslovnosti řeči teď podporuje 3 další jazyky obecně dostupné v němčině (Německo), japonštině (Japonsko) a španělštině (Mexiko) se 4 dalšími jazyky dostupnými ve verzi Preview. Další informace najdete v úplném seznamu jazyků pro posouzení výslovnosti.
K vyhodnocení výslovnosti ve všech veřejných oblastech teď můžete použít standardní úroveň závazku pro převod řeči na text. Pokud si zakoupíte úroveň závazku pro standardní převod řeči na text, výdaje za hodnocení výslovnosti se budou vázat na splnění závazku. Podívejte se na ceny úrovně závazku.

Verze z února 2023

Posouzení výslovnosti

Hodnocení výslovnosti řeči teď podporuje 5 dalších jazyků, které jsou obecně dostupné v angličtině (Spojené království), angličtině (Austrálii), francouzštině (Francii), španělštině (Španělsko) a čínštině (mandarínština, zjednodušená) s jinými jazyky dostupnými ve verzi Preview.
Přidali jsme ukázkové kódy, které ukazují, jak používat hodnocení výslovnosti v režimu streamování ve vaší vlastní aplikaci.
- C#: Viz ukázkový kód.
- C++: Viz ukázkový kód.
- java: Viz ukázkový kód.
- JavaScript: Viz ukázkový kód.
- Objective-C: Viz vzorový kód.
- Python: Viz ukázkový kód.
- Swift: Podívejte se na ukázkový kód.

Vlastní řeč

Podpora zvuku a přepisu označeného člověkem se přidá pro de-AT národní prostředí.

Verze z ledna 2023

Vlastní řeč

Podpora zvuku + přepis označený člověkem se přidá pro další národní prostředí: ar-BH, ar-DZ, , ar-MAar-EG, ar-SA, ar-TN, , ar-YEa ja-JP.

Podpora přizpůsobení strukturovaného textu je přidána pro národní prostředí de-AT.

Verze z prosince 2022

Rozhraní REST API pro převod řeči na text

Rozhraní REST API pro převod řeči na text verze 3.1 je obecně dostupné. Verze 3.0 rozhraní REST API pro převod řeči na text bude vyřazena. Další informace o migraci najdete v příručce.

Verze z října 2022

Nové národní prostředí pro převod řeči na text

Přidání podpory pro Malayalam (Indie) s národním prostředím ml-IN Tady najdete úplný seznam jazyků.

Verze z července 2022

Nové národní prostředí pro převod řeči na text:

Přidali jsme 7 nových národních prostředí, jak je znázorněno v následující tabulce. Tady najdete úplný seznam jazyků.

Národní prostředí	Jazyk
`bs-BA`	Bosenština (Bosna a Hercegovina)
`yue-CN`	Čínština (kantonština, zjednodušená)
`zh-CN-sichuan`	Čínština (jihozápad mandarínština, zjednodušená)
`wuu-CN`	Čínština (Wu, zjednodušená)
`ps-AF`	Pashto (Afghánistán)
`so-SO`	Somali (Somalia)
`cy-GB`	Welsh (Velká Británie)

Verze z června 2022

Nové národní prostředí pro převod řeči na text:

Přidali jsme 10 nových národních prostředí, jak je znázorněno v následující tabulce. Tady najdete úplný seznam jazyků.

Národní prostředí	Jazyk
`sq-AL`	Albánština (Albánie)
`hy-AM`	Arménština (Arménie)
`az-AZ`	Ázerbájdžánština (Ázerbájdžán)
`eu-ES`	Baskičtina
`gl-ES`	Galicijština
`ka-GE`	Gruzínština (Gruzie)
`it-CH`	Italština (Švýcarsko)
`kk-KZ`	Kazaština (Kazachstán)
`mn-MN`	Mongolština (Mongolsko)
`ne-NP`	Nepálština (Nepál)

Verze z dubna 2022

Nové národní prostředí pro převod řeči na text:

Níže je seznam nových národních prostředí. Tady najdete úplný seznam jazyků.

Národní prostředí	Jazyk
`bn-IN`	Bengálština (Indie)

Verze z ledna 2022

Nové národní prostředí pro převod řeči na text:

Níže je seznam nových národních prostředí. Tady najdete úplný seznam jazyků.

Národní prostředí	Jazyk
`af-ZA`	Afrikaánština (Jihoafrická republika)
`am-ET`	Amharština (Etiopie)
`de-CH`	Němčina (Švýcarsko)
`fr-BE`	Francouzština (Belgie)
`is-IS`	Islandština (Island)
`jv-ID`	Javánština (Indonésie)
`km-KH`	Khmer (Kambodža)
`kn-IN`	Kannadština (Indie)
`lo-LA`	Lao (Laos)
`mk-MK`	Makedonština (Severní Makedonie)
`my-MM`	Burmština (Myanmar)
`nl-BE`	Nizozemština (Belgie)
`si-LK`	Sinhala (Srí Lanka)
`sr-RS`	Srbština (Srbsko)
`sw-TZ`	Swahili (Tanzanie)
`uk-UA`	Ukrajinština (Ukrajina)
`uz-UZ`	Uzbečtina (Uzbečtina)
`zu-ZA`	Zulu (Jihoafrická republika)

Verze z července 2021

Nové národní prostředí pro převod řeči na text:

Níže je seznam nových národních prostředí. Tady najdete úplný seznam jazyků.

Národní prostředí	Jazyk
`ar-DZ`	Arabština (Alžírsko)
`ar-LY`	Arabština (Libye)
`ar-MA`	Arabština (Maroko)
`ar-TN`	Arabština (Tunisko)
`ar-YE`	Arabština (Jemen)
`bg-BG`	Bulharština (Bulharsko)
`el-GR`	Řečtina (Řecko)
`et-EE`	Estonština (Estonsko)
`fa-IR`	Perština (Írán)
`ga-IE`	Irština (Irsko)
`hr-HR`	Chorvatština (Chorvatsko)
`lt-LT`	Litevština (Litva)
`lv-LV`	Lotyština (Lotyšsko)
`mt-MT`	Maltština (Malta)
`ro-RO`	Rumunština (Rumunsko)
`sk-SK`	Slovenština (Slovensko)
`sl-SI`	Slovinština (Slovinsko)
`sw-KE`	Swahili (Keňa)

Verze z ledna 2021

Nové národní prostředí pro převod řeči na text:

Níže je seznam nových národních prostředí. Tady najdete úplný seznam jazyků.

Národní prostředí	Jazyk
`ar-AE`	Arabština (Spojené arabské emiráty)
`ar-IL`	Arabština (Izrael)
`ar-IQ`	Arabština (Irák)
`ar-OM`	Arabština (Omán)
`ar-PS`	Arabština (Palestinská autorita)
`de-AT`	Němčina (Rakousko)
`en-GH`	Angličtina (Ghana)
`en-KE`	Angličtina (Keňa)
`en-NG`	Angličtina (Nigérie)
`en-TZ`	Angličtina (Tanzanie)
`es-GQ`	Španělština (Rovníková Guinea)
`fil-PH`	Filipínština (Filipíny)
`fr-CH`	Francouzština (Švýcarsko)
`he-IL`	Hebrejština (Izrael)
`id-ID`	Indonéština (Indonésie)
`ms-MY`	malajština (Malajsie)
`vi-VN`	Vietnamština (Vietnam)

Verze ze srpna 2020

Nové národní prostředí pro převod řeči na text:

Řeč na text vydaná 26 nových národních prostředí v srpnu: 2 evropské jazyky cs-CZ a hu-HU5 anglických národních prostředí a 19 španělských národních prostředí, která pokrývají většinu zemí/oblastí Jižní Ameriky. Níže je seznam nových národních prostředí. Tady najdete úplný seznam jazyků.

Národní prostředí	Jazyk
`cs-CZ`	Čeština (Česká republika)
`en-HK`	Angličtina (Zvláštní Správa istrativní oblast Hongkongu)
`en-IE`	Angličtina (Irsko)
`en-PH`	Angličtina (Filipíny)
`en-SG`	Angličtina (Singapur)
`en-ZA`	Angličtina (Jihoafrická republika)
`es-AR`	Španělština (Argentina)
`es-BO`	Španělština (Brazílie)
`es-CL`	Španělština (Chile)
`es-CO`	Španělština (Kolumbie)
`es-CR`	Španělština (Kostarika)
`es-CU`	Španělština (Kuba)
`es-DO`	Španělština (Dominikánská republika)
`es-EC`	Španělština (Ekvádor)
`es-GT`	Španělština (Guatemala)
`es-HN`	Španělština (Honduras)
`es-NI`	Španělština (Nikaragua)
`es-PA`	Španělština (Panama)
`es-PE`	Španělština (Peru)
`es-PR`	Španělština (Portoriko)
`es-PY`	Španělština (Paraguay)
`es-SV`	Španělština (Salvador)
`es-US`	Španělština (USA)
`es-UY`	Španělština (Uruguay)
`es-VE`	Španělština (Venezuela)
`hu-HU`	Maďarština (Maďarsko)

Verze z února 2024

Přidání podpory pro nejnovější verze modelu:

Vlastní řeč na text 4.6.0
Převod řeči na text 4.6.0
Neurální text na řeč 3.1.0

Upgradujte řeč na textové komponenty na nejnovější verzi. Upgradujte všechny es modely národních prostředí na nejnovější verzi. Zvyšte vyrovnávací paměť transformace médií pro případy použití řeči na text.

Verze z listopadu 2023

Přidání podpory pro nejnovější verze modelu:

Vlastní řeč na text 4.5.0
Převod řeči na text 4.5.0
Neurální text na řeč 2.19.0

Verze z října 2023

Přidání podpory pro nejnovější verze modelu:

Vlastní řeč na text 4.4.0
Převod řeči na text 4.4.0
Neurální text na řeč 2.18.0

Opravte spoustu problémů s ohrožením zabezpečení s vysokým rizikem.

Odeberte redundantní protokoly v kontejnerech.

Upgradujte interní komponentu médií na nejnovější verzi.

Přidat podporu pro hlas en-IN-NeerjaNeural.

Verze z září 2023

Přidání podpory pro nejnovější verze modelu:

Identifikace jazyka řeči 1.12.0
Vlastní řeč na text 4.3.0
Převod řeči na text 4.3.0
Neurální text na řeč 2.17.0

Upgradujte vlastní řeč na text a řeč na text na nejnovější architekturu.

Opravte problémy s ohrožením zabezpečení.

Přidat podporu pro hlas ar-AE-FatimaNeural.

Verze z července 2023

Přidání podpory pro nejnovější verze modelu:

Vlastní řeč na text 4.1.0
Převod řeči na text 4.1.0
Neurální text na řeč 2.15.0

Opravte problém se spouštěním kontejneru převodu řeči na text prostřednictvím docker možností připojení s místními soubory vlastního modelu.

Opravte problém, který se v některých případech RECOGNIZING nezobrazuje v reakci prostřednictvím sady Speech SDK.

Opravte problémy s ohrožením zabezpečení.

Verze z června 2023

Přidání podpory pro nejnovější verze modelu:

Vlastní řeč na text 4.0.0
Převod řeči na text 4.0.0
Neurální text na řeč 2.14.0

Místní obrázky řeči na text se upgradují na .NET 6.0.

Upgradujte modely zobrazení pro národní prostředí, včetně en-us, ar-egar-bh, ja-jp, , ko-kra dalších.

Upgradujte komponentu kontejneru řeči na text, abyste vyřešili problémy s ohrožením zabezpečení.

Přidání podpory pro hlasy de-DE-AmalaNeuralnárodního prostředí ,de-AT-IngridNeuralde-AT-JonasNeural aen-US-JennyMultilingualNeural

Verze z května 2023

Přidání podpory pro nejnovější verze modelu:

Vlastní řeč na text 3.14.0
Převod řeči na text 3.14.0
Neurální text na řeč 2.13.0

he-IL Oprava problému s interpunkcí

Řešení problémů s ohrožením zabezpečení

Přidání nového hlasu en-US-MichelleNeuralnárodního prostředí a es-MX-CandelaNeural

Verze z dubna 2023

Aktualizace zabezpečení

Řešení problémů s ohrožením zabezpečení

Verze z března 2023

Přidání podpory pro nejnovější verze modelu:

Vlastní řeč na text 3.12.0
Převod řeči na text 3.12.0
Identifikace jazyka řeči 1.11.0
Neurální text na řeč 2.11.0

Řešení problémů s ohrožením zabezpečení

Oprava problému s tr-TR velkými písmeny

Upgrade modelů zobrazení řeči na text en-US

Přidání podpory pro předem připravený neurální neurální text do hlasu národního prostředí řeči ar-AE-HamdanNeural

Verze z února 2023

Nové verze kontejnerů

Přidání podpory pro nejnovější verze modelu:

Vlastní řeč na text 3.11.0
Převod řeči na text 3.11.0
Neurální text na řeč 2.10.0

Řešení problémů s ohrožením zabezpečení

Pravidelný upgrade pro modely řeči

Přidejte nová národní prostředí Abraic:

ar-IL
ar-PS

Upgrade modelů hebrejštiny a tureckého displeje

Verze z ledna 2023

Nové verze kontejnerů

Přidání podpory pro nejnovější verze modelu:

Vlastní řeč na text 3.10.0
Převod řeči na text 3.10.0
Neurální text na řeč 2.9.0

Oprava problému s režimem hypotézy

Oprava problému s proxy serverem HTTP

Režim odpojení vlastního převodu řeči na text v kontejneru

Přidání podpory odpojeného kontejneru CNV do front-endu TTS

Přidejte podporu pro tyto hlasy národního prostředí:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Verze z prosince 2022

Nové verze kontejnerů

Přidání podpory pro nejnovější verze modelu:

Vlastní řeč na text 3.9.0
Převod řeči na text 3.9.0
Neurální text na řeč 2.8.0

Oprava problému s ipv4/ipv6

Oprava problému s ohrožením zabezpečení

Verze z listopadu 2022

Nové verze kontejnerů

Přidání podpory pro nejnovější verze modelu:

Vlastní řeč na text 3.8.0
Převod řeči na text 3.8.0
Neurální text na řeč 2.7.0

Verze z října 2022

Nové verze kontejnerů

Přidání podpory pro nejnovější verze modelu:

Vlastní řeč na text 3.7.0
Převod řeči na text 3.7.0
Neurální text na řeč 2.6.0

Verze ze září 2022

Převod řeči na text 3.6.0-amd64

Přidání podpory pro nejnovější verze modelu

Přidejte podporu pro tato národní prostředí:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
Ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

Pravidelné měsíční aktualizace, včetně upgradů zabezpečení a oprav ohrožení zabezpečení.

Vlastní řeč na text 3.6.0-amd64

Pravidelné měsíční aktualizace, včetně upgradů zabezpečení a oprav ohrožení zabezpečení.

Neurální neurální text na řeč v2.5.0

Přidejte podporu pro tyto předem připravené neurální hlasy:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Pravidelné měsíční aktualizace, včetně upgradů zabezpečení a oprav ohrožení zabezpečení.

Verze z května 2022

Kontejner rozpoznávání řeči v1.9.0-amd64-preview

Opravy chyb rozpoznávání řeči a jazyka

Verze z března 2022

Kontejner vlastního převodu řeči na text v3.1.0

Přidání podpory pro získání modelů zobrazení

Verze z ledna 2022

Kontejner převodu řeči na text v3.0.0

Přidání podpory pro používání kontejnerů v odpojených prostředích

Kontejner převodu řeči na text v2.18.0

Pravidelné měsíční aktualizace, včetně upgradů zabezpečení a oprav ohrožení zabezpečení.

Neurální neurální text na řeč v1.12.0

Přidání podpory pro tyto předem připravené neurální hlasy: am-et-amehaneural, am-et-mekdesneuralso-so-muuseneural a so-so-ubaxneural.

Pravidelné měsíční aktualizace, včetně upgradů zabezpečení a oprav ohrožení zabezpečení.