Az Azure AI Speech újdonságai

2025-05-07

Az Azure AI Speech folyamatosan frissül. Ha naprakész szeretne maradni a legújabb fejlesztésekkel kapcsolatban, ez a cikk információkat nyújt az új kiadásokról és funkciókról.

Legutóbbi kiemelések

Ha folyamatosan és pontosan szeretné átírni a többnyelvű tartalmakat egy hangfájlban, most már használhatja a legújabb többnyelvű modellt a területi kódok gyors átírási API-val történő megadása nélkül. További információért tekintse meg a következőt: többnyelvű átírás gyors átirásban.
A gyors átírás mostantól általánosan elérhető. Sokkal gyorsabban át tudja írni a hangokat, mint a tényleges hangidő. További információkért tekintse meg a gyors átírási API-útmutatót.
Az Azure AI Speech Toolkit bővítmény mostantól elérhető a Visual Studio Code felhasználói számára. Tartalmazza a beszéd gyorsindítási és forgatókönyv-mintáinak listáját, amelyek egyszerű kattintással egyszerűen felépíthetők és futtathatók. További információ: Azure AI Speech Toolkit in Visual Studio Code Marketplace.
Az Azure AI-beszéd nagy felbontású (HD) hangjai nyilvános előzetes verzióban érhetők el. A HD-hangok képesek megérteni a tartalmat, automatikusan észlelni az érzelmeket a bemeneti szövegben, és valós időben módosítani a beszédhangot a hangulatnak megfelelően. További információ: Mik azok az Azure AI Speech nagy felbontású (HD) hangok?
A videófordítás már elérhető az Azure AI Speech szolgáltatásban. További információ: Mi az a videófordítás?

Kibocsátási megjegyzések

Szolgáltatás vagy erőforrás kiválasztása

Fontos

A Speech SDK-n keresztüli tartalomértékelés (előzetes verzió) 2025 júliusában megszűnik. Ehelyett Az Azure OpenAI-modellek használatával lekérheti a tartalomértékelési eredményeket a tartalomértékelési dokumentációban leírtak szerint.

Beszéd SDK 1.44.1: Javításpublikálás

Az SDK 1.44.1-es verziója csak 4 hibajavítással jelenik meg JavaScripthez:

Hibajavítások

Kijavítottuk egy tartományon kívüli kivételt, amikor csak egy szegmentációs vezérlő paramétert adott meg.
az enableDictation nem lett megfelelően átadva a Speech Service-nek.
A ConversationTranscriber nem a megfelelő URL-címet használta a fromEndpoint metódussal való létrehozáskor.
Kijavítottuk a hibát, amikor az adatok leválasztásuk után egy bemeneti streambe kerülnek.

Speech SDK 1.44: 2025. májusi kiadás

Fontos

A célplatformok támogatása módosul:

A minimálisan támogatott Android-verzió mostantól Android 8.0 (API 26- szintű).
A Speech SDK Unity-csomagok közzététele a kiadás után fel van függesztve.

Új funkciók:

Hozzáadták az Android 16 KB-os memórialapméretek támogatását.
Csökkentette a SpeechStartDetected események késését a beágyazott beszédfelismerésben.
[C++, Python] Hozzáadtunk egy módszert az AudioDataStream elérhető méretének lekéréséhez.
[C++, Python] Az egyéni lexikon URL-címek és az előnyben részesített területi beállítások támogatása a beszédszintézis-kérelmekben.
[Java, Python] A Microsoft Entra jogkivonat-alapú hitelesítésének támogatása automatikus jogkivonat-frissítéssel.
[Go] A beszélgetés átírásának támogatása hozzáadva.

Hibajavítások

Kijavítottuk, hogy a fordítási beszédszintézis nem működik a forrásnyelv-észlelés használatakor.
Kijavítottuk a nem ASCII karaktereket tartalmazó fájlelérési utakat, amely nem használható beágyazott beszédmodellekhez, KWS-modellekhez vagy naplófájlokhoz (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288).
Kijavítottunk egy NoMatch hurkot a beágyazott beszédfelismerésben bizonyos feltételek mellett.
Kijavítottuk a natív objektumok destruktorának blokkolását, ami azért történt, mert a felismerés nem volt leállítva, amikor az események leválasztásra kerültek.
Rögzített IntentRecognizer minta egyeztetése nem működik megfelelően a több bájtos karakterek bizonyos körülmények között.
Egy kapcsolat objektum Close() meghívása nem volt szinkron.
Kijavítottunk egy versenyhelyzetet a kapcsolat feloldása során, amely összeomláshoz vezethet.
[macOS] Kijavítottuk a konzolon (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610) megjelenő "Információ:" üzeneteket.

Minták

[Python] Hozzáadták a mintakódot a Microsoft Entra-jogkivonat hitelesítő adatainak recognizer használatához.

Speech SDK JavaScripthez

Új funkciók:

Frissített fejlesztési függőség: TypeScript 3.5.3 → 4.5
A TranslationRecognizer alapértelmezettként a V2-végpontokat használja.
A SpeechRecongizer frissítette a V2-végpontok használatát.
- Ez azt eredményezi, hogy a továbbiakban nem kap NoMatch-eredményeket.
A Microsoft Entra tokenalapú hitelesítés támogatása a Beszédfelismeréshez és -fordításhoz.
Frissítettük a FromEndpoint API-t, hogy a legtöbb forgatókönyvhöz ajánlott módszer legyen a SpeechConfig létrehozásához.
- A következők használatára vonatkozik:
  - Beszédfelismerő
  - TranslationÉrzékelő (a SpeechTranslationConfig használatával)
  - Beszélgetés-leíró
  - Beszédszintetizátor
- Mostantól használhatja a végpontot az Azure Portalon a Speechhez és az Azure AI Foundry-erőforrásokhoz egy SpeechConfig-objektum létrehozásához.
- A SpeechConfig konfigurálására használható egyéb módszerek továbbra is működnek, és támogatottak.

Hibajavítások

Kijavítottunk egy végtelen kapcsolat-újrapróbálkozási ciklust a nem támogatott kapcsolatzáró kódokon (https://github.com/microsoft/cognitive-services-speech-sdk-js/issues/896).

Beszéd CLI (SPX)

Új funkciók

A Microsoft Entra-jogkivonat hitelesítő adataival történő hitelesítés támogatása hozzáadva.
A Fast Transcription API támogatása hozzáadva.

Hibajavítások

Kijavítottuk a nem működő pontosvesszővel tagolt bemeneti URL-címeket és a bemeneti fájl/URL-listákat egy fájlból.

Speech SDK 1.43: 2025. márciusi kiadás

Megjegyzés:

Az Ubuntu 20.04 "standard biztonsági karbantartás" 2025 áprilisában lejár , és többé nem lesz elérhető ADO buildügynökként. A Future Speech SDK-kiadásokhoz minimálisan támogatott verzióként az Ubuntu 22.04 LTS szükséges (az Ubuntu 20.04 helyett).

Új funkciók:

Frissítettük a FromEndpoint API-t, hogy a legtöbb forgatókönyvhöz ajánlott módszer legyen a SpeechConfig létrehozásához.
- A következők használatára vonatkozik:
  - Beszédfelismerő
  - TranslationÉrzékelő (a SpeechTranslationConfig használatával)
  - Beszélgetés-leíró
  - SpeechSynthesizer A JavaScript kivételével minden programozási nyelven.
- Most már használhatja az Azure Portal beszéd- és Cognitive Services-erőforrásaiból származó végpontot egy SpeechConfig-objektum létrehozásához.
- A SpeechConfig konfigurálására használható egyéb módszerek továbbra is működnek, és támogatottak.
A TranslationRecognizer alapértelmezettként a V2-végpontokat használja.
- Ezzel áthelyezi a vezérlőparamétereket az URL-címről a csatornán belüli üzenetekre V2-végpont használatakor.
- Viselkedésváltozás: A "zh" alapértelmezett visszaadott nyelve most "zh-CN" a "zh-hans" helyett
Tulajdonságazonosítókat adtak hozzá a SpeechSynthesis_FrameTimeoutInterval és SpeechSynthesis_RtfTimeoutThreshold számára.
Optimalizálta, hogy az SDK hányszor csatlakozik újra a hosszú ideig futó felismerésekhez.
[C++, Python] A szövegstreamelési kérelmek stílusának és hőmérsékletének megadásához hozzáadott támogatás.
[C#] Az automatikus AAD-jogkivonat-frissítés támogatása a FromEndpoint konfigurációs objektum létrehozásakor.
- Ez hozzáad egy függőséget a Speech SDK-tól az Azure.Core nuget-csomaghoz.
- A Speech SDK mostantól elfogadhatja a TokenCredential származtatott objektumokat a hitelesítéshez a következő használatakor:
  - Beszédfelismerő
  - Fordítás Felismerő
  - Beszélgetés-leíró
[Objective-C] Frissítettük az SPXTranslationRecognizert, hogy támogassa a forrásnyelv automatikus észlelését a nyílt tartományból.
[Objective-C , Python] Diagnosztikai API-k: EventLogger, FileLogger és MemoryLogger.
[Go]: Hozzáadva a TranslationRecognizer támogatása

Hibajavítások

Kijavítottuk az OpenSSL 3 támogatását Linux arm32 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2736) rendszeren.
Kijavítottuk a hiányzó állapotmezőt a beszédszintézis hanglistájában (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2771).
Kijavítottuk az IntentRecognizer mintázat-illesztését, amely nem megfelelően azonosította az egész szám karaktereket a japán nyelvi elemzővel.
Kijavítottunk egy lehetséges hibát, amely a beágyazott beszédfelismerés duplikált eredményeivel kapcsolatos.
[Java] Kijavítottuk a üres résztvevők problémát a ConversationParticipantsChangedEventArgs-ben Android 12-en és újabb (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2687).

Minták

[C++] Minta hozzáadva az önálló szándékfelismeréshez mintaegyeztetés használatával.
- A LUIS szolgáltatás 2025 októberi kivonásával a Speech SDK is visszavonul az IntentRecognizer objektumcsaládtól.
- Ezt megelőzően meg akartuk osztani az implementációt a mintaegyezéshez.
[C++, C#, Java, Python] A legtöbb mintát a FromSubscription helyett a FromEndpoint API használatára frissítette.
[C#] Többrétegű beszédfelismerési alkalmazáshoz hozzáadtunk egy forgatókönyvmintát.
- Bemutatja a hang visszajátszásának és újracsatlakozásának módszertanát egy peremeszközről egy középső rétegbeli szolgáltatásba, amely ezután a Speech SDK-n keresztül továbbítja a hangot a Speech Service-nek
[C#] Frissített minták az AAD-token automatikus frissítésének használatához.
[Python] Új diagnosztikai API-khoz hozzáadott minták.
[Unity] Az új Azure.Core-függőség telepítésére vonatkozó utasítások hozzáadva.

Speech SDK 1.42.0: 2024–decemberi kiadás

Új funkciók

Java: Diagnosztika naplózási API-k hozzáadása a FileLogger, a MemoryLogger, az EventLogger és az SpxTrace osztályokkal.
Az értekezlet-résztvevő JSON-tulajdonságának "részletei" szolgáltatásba küldésének támogatása
Ugrás: Hozzáadták a nyilvános tulajdonságot, a SpeechServiceConnection_ProxyHostBypass, amely lehetővé teszi, hogy meghatározza azokat a gazdagépeket, amelyeken a proxy nem kerül használatra.
JavaScript, Go: Hozzáadta a nyilvános tulajdonság azonosítóját Speech_SegmentationStrategy annak megállapításához, hogy mikor ért véget egy kimondott kifejezés, és létre kell hozni egy végleges felismert eredményt (beleértve a szemantikai szegmentációt is)
JavaScript, Go: A hozzáadott nyilvános tulajdonságazonosító Speech_SegmentationMaximumTimeMs határozza meg a kimondott kifejezés végét a Java, Python, C#, C++ idő alapján

Hibajavítások

Rögzített beágyazott TTS-hang (újra)betöltve minden szintézishez, ha a hangnév nincs beállítva.
Kijavítottuk az eltolásszámítási problémákat a MeetingTranscriber használata során bizonyos esetekben.
Kijavítottuk a lehetséges holtpontot több diagnosztikai eseményfigyelő egyidejű regisztrálásakor.
(JavaScript) Kijavítottuk a lehetséges elveszett NoMatch-eredményeket a hanganyag végén. Ez a javítás a beszéd végén lévő viselkedést a többi SDK-nyelvhez is igazítja, és előfordulhat, hogy egyes üres események már nem jelennek meg.
(JavaScript) Az eredmény JSON eltolásainak igazítása az eredményobjektumok eltolásaihoz. Korábban csak az eredményobjektum eltolási tulajdonsága került kijavításra, hogy figyelembe vegye a szolgáltatás újbóli csatlakozását.
Go nyelv: Fordítási hiba kijavítva https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
Kijavítottuk az értekezlet átírásának eredmény eltolásait, amikor újracsatlakozás történik a szolgáltatáshoz.
Kijavítottunk egy elakadást a naplózás során.

Minták

Frissített C#-mintákat a .NET 8.0 használatára.
A Java-minta diagnosztikai naplózási API-t használ, amely az új diagnosztikai naplózási osztályok használatát mutatja be.

2024. novemberi kiadás

Azure AI Speech Toolkit bővítmény a Visual Studio Code-hoz

Az Azure AI Speech Toolkit bővítmény mostantól elérhető a Visual Studio Code felhasználói számára. Tartalmazza a beszéd gyorsindítási és forgatókönyv-mintáinak listáját, amelyek egyszerű kattintással egyszerűen felépíthetők és futtathatók. További információ: Azure AI Speech Toolkit in Visual Studio Code Marketplace.

Szöveg–beszéd avatar kódminták

Szöveget adtunk hozzá az Androidhoz és iOS-hez készült beszéd avatarkódmintákhoz. Ezek a minták bemutatják, hogyan használhat valós idejű szöveget az avatarok beszédéhez a mobilalkalmazásokban.

Speech SDK 1.41.1: 2024–októberi kiadás

Új funkciók

Az Amazon Linux 2023 és az Azure Linux 3.0 támogatása hozzáadva.
Hozzáadott egy nyilvános tulajdonságot, a SpeechServiceConnection_ProxyHostBypass-t, amely meghatározza azokat a gazdagépeket, amelyekhez nem használnak proxyt.
Új kifejezések szegmentálási stratégiáinak szabályozásához hozzáadott tulajdonságok.

Hibajavítások

Kijavítottuk a 2024 augusztusa után gyártott kulcsszófelismerési speciális modellek hiányos támogatását.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Vegye figyelembe, hogy az iOS-alapú Swift esetében a projektnek MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (forrásból https://aka.ms/csspeech/iosbinaryembedded) vagy a MicrosoftCognitiveServicesSpeechEmbedded-iOS podot kell használnia, amely tartalmazza a Speciális modell támogatását.
Kijavítottuk a sztringhasználattal kapcsolatos memóriavesztést c# nyelven.
Kijavítva, hogy nem sikerült lekérni az SPXAutoDetectSourceLanguageResult-t az SPXConversationTranscriptionResult fájlból Objective-C és Swiftben.
Javítottunk egy alkalmi hibaleállást, amikor a Microsoft Audio Stack-et használták felismeréshez.
Rögzített típustippek a Pythonban. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
Kijavítottuk, hogy egyéni végpont használatakor nem sikerült lekérni a TTS-hangok listáját.
Kijavítottuk a beágyazott TTS újrainicializálását minden beszédkérésnél, amikor a hang rövid névvel van megadva.
Kijavítottuk az API referenciadokumentációját a RecognizeOnce hang maximális időtartamára.
Kijavítottuk az tetszőleges mintavételezési arányok JavaScriptben való kezelését
- Köszönet az rseanhallnak ezért a hozzájárulásért.
Kijavítottuk a hangeltolódás kiszámításának hibáját a JavaScriptben.
- Köszönet motamed hozzájárulásáért.

Kompatibilitástörő változások

A Windows ARM 32 bites kulcsszófelismerési támogatása el lett távolítva, mert a szükséges ONNX-futtatókörnyezet ehhez a platformhoz nem érhető el.

Speech SDK 1.40: 2024–augusztusi kiadás

Megjegyzés:

A Speech SDK 1.39.0-s verziója belső kiadás volt, és nem hiányzik.

Új funkciók

Hozzáadott támogatás a tömörített hang átviteléhez a beszédfelismerésben.
A beszédszintézisben a bemeneti szöveg streamelésében a hangmagasság, a sebesség és a hangerő beállítása is támogatott.
A beszédszintézisben a PersonalVoiceSynthesisRequest bevezetésével hozzáadásra került a személyes hangbemeneti szövegfolyam támogatása. Ez az API előzetes verzióban érhető el, és a jövőbeli verziókban változhat.
Hozzáadtuk a támogatást a köztes eredmények diarizálásához, amikor a ConversationTranscriber használatban van.
A CentOS 7 EOL és az RHEL 7 karbantartási támogatási szakaszának befejezése 2 miatt megszűnt a CentOS/RHEL 7 támogatása.
A beágyazott beszédmodellek használatához mostantól modellkulcs helyett modelllicencre van szükség. Ha Ön egy meglévő beágyazott beszédfelismerési ügyfél, és frissíteni szeretne, forduljon a Microsoft ügyfélszolgálatához a modellfrissítésekkel kapcsolatos részletekért.

Hibajavítások

A Windows-ra készült Speech SDK bináris fájljait felépítettük a _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR zászlóval a Visual C++ futtatási problémák elkerülésére, például hozzáférés megsértése std::mutex::lock használata esetén a VS 2022 17.10.0 verzióra való frissítés után – Fejlesztői közösség (visualstudio.com). Előfordulhat, hogy a Speech SDK-t használó Windows C++ alkalmazásoknak ugyanazt a buildkonfigurációs jelzőt kell alkalmazniuk, ha a kódjuk std::mutexet használ (lásd a csatolt probléma részleteit).
Kijavítottuk az OpenSSL 3.x észlelést, amely nem működik a Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420) rendszeren.
Kijavítottuk azt a hibát, amely miatt egy UWP-alkalmazás, -kódtár és -modell MAS NuGet-csomagból való telepítésekor a rendszer nem másolódott át az üzembehelyezési helyre.
Kijavítottunk egy tartalomszolgáltatói ütközést az Android-csomagokban (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
Kijavítottuk a köztes beszédfelismerési eredményekre nem alkalmazható utófeldolgozási beállításokat.
Kijavítottuk a .NET 8-ra vonatkozó figyelmeztetést a terjesztési specifikus futtatókörnyezet-azonosítókra (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).

Minták

A beágyazott beszédmintákat úgy frissítette, hogy kulcs helyett modelllicencet használjon.

Speech SDK 1.38.0: 2024–júniusi kiadás

Új funkciók

Frissítse a Speech SDK Linux platformkövetelményeit.
- Az új minimális alapkonfiguráció az Ubuntu 20.04 LTS, vagy kompatibilis a 2.31 vagy újabb verzióval glibc .
- A Linux x86 bináris fájljai az Ubuntu 20.04 platform támogatásának megfelelően törlődnek.
- Vegye figyelembe, hogy az RHEL/CentOS 7 június 30-ig (a CentOS 7 végéig és az RHEL 7 karbantartási támogatásának 2 végéig) támogatott marad. A bináris fájlok a Speech SDK 1.39.0-s kiadásában lesznek eltávolítva.
Az OpenSSL 3 támogatása Linuxon.
A g722-16khz-64kbps hangkimeneti formátum támogatása beszédszintetizátor használatával.
Támogatás hozzáadása az üzenetek beszédszintetizátorsal való kapcsolati objektumon keresztüli küldéséhez.
Start/StopKeywordRecognition API-k hozzáadása Objective-C és Swiftben.
Api hozzáadása egyéni fordítási modell kategória kiválasztásához.
Frissítse a GStreamer használatát a beszédszintetizátor használatával.

Hibajavítások

A "Websocket üzenetmérete nem haladhatja meg a 65 536 bájtot" hiba kijavítása a Start/StopKeywordRecognition során.
Python-szegmentálási hiba javítása a beszédszintézis során.

Minták

Frissítse a C#-mintákat a .NET 6.0 alapértelmezett használatára.

Speech SDK 1.37.0: 2024- áprilisi kiadás

Új funkciók

Támogatja a bemeneti szövegstreamelést a beszédszintézisben.
Módosítsa az alapértelmezett beszédszintézis hangját en-US-AvaMultilingualNeural értékre.
Android-buildek frissítése az OpenSSL 3.x használatára.

Hibajavítások

Javítsa ki a JVM alkalmankénti összeomlásait a SpeechRecognizer erőforrásainak felszabadításakor, a MAS használatával. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Az alapértelmezett hangeszközök észlelésének javítása Linuxon. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Minták

Új funkciókkal frissítve.

Speech SDK 1.36.0: 2024. márciusi kiadás

Új funkciók

Nyelvi azonosítás támogatása többnyelvű fordításban v2-végpontokon az AutoDetectSourceLanguageConfig::FromOpenRange() paranccsal.

Hibajavítások

Javítsa ki azt a problémát, amikor a SynthesisCanceled esemény nem kerül aktiválásra, ha a leállítást a SynthesisStarted esemény közben hívják meg.
A beágyazott beszédszintézis zajproblémáinak megoldása.
A beágyazott beszédfelismerés összeomlásának kijavítása több felismerő egyidejű futtatásakor.
Javítsa ki a kifejezésészlelési módot a v1/v2-végpontokon.
A Microsoft Audio Stack különböző problémáinak javítása.

Minták

Új funkciók frissítései.

Speech SDK 1.35.0: 2024. februári kiadás

Új funkciók

Módosítsa az alapértelmezett szöveget beszédhangra az en-US-JennyMultilingualNeural-ről en-US-AvaNeural értékre.
Támogatja a beágyazott beszédfordítási eredmények szószintű részleteit a részletes kimeneti formátum használatával.

Hibajavítások

Javítsa ki az AudioDataStream pozíció getter API-t a Pythonban.
Beszédfordítás javítása v2-végpontok használatával nyelvfelismerés nélkül.
Kijavítja a véletlenszerű összeomlást és az ismétlődő szóhatáreseményeket a beágyazott szöveg-beszéd átalakításban.
A WebSocket-kapcsolatok belső kiszolgálóhibájának helyes lemondási hibakódját adja vissza.
Kijavítottuk, hogy nem sikerült betölteni FPIEProcessor.dll kódtárat, amikor a MAS-t C#-tal használják.

Minták

A Beágyazott felismerési minták kisebb formázási frissítései.

Speech SDK 1.34.1: 2024. januári kiadás

Kritikus változások

Csak hibajavítások

Új funkciók

Csak hibajavítások

Hibajavítások

Kijavítottuk az 1.34.0-s verzióban bevezetett regressziót, ahol a szolgáltatásvégpont URL-címe hibás területi adatokkal lett létrehozva több kínai régió felhasználói számára.

Speech SDK 1.34.0: 2023. novemberi kiadás

Kritikus változások

SpeechRecognizer alapértelmezés szerint egy új végpont használatára frissül (azaz ha nem ad meg explicit módon URL-címet), amely már nem támogatja a lekérdezési sztring paramétereit a legtöbb tulajdonság esetében. Ahelyett, hogy közvetlenül a ServicePropertyChannel.UriQueryParameter használatával állít be lekérdezési sztringparamétereket, használja a megfelelő API-függvényeket.

Új funkciók

Kompatibilitás a .NET 8-tal (Javítás a https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 centos7-x64 figyelmeztetés kivételével)
A beágyazott beszédteljesítmény-metrikák támogatása, amelyek segítségével kiértékelhető, hogy az eszköz képes-e beágyazott beszédet futtatni.
A forrásnyelv-azonosítás támogatása beágyazott többnyelvű fordításban.
Támogatás a beágyazott szövegfelismeréshez, a szöveg-beszéd átalakításhoz és a fordításhoz iOS és Swift/Objective-C előzetes verzióban elérhető.
A beágyazott támogatást a MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod biztosítja.

Hibajavítások

Az iOS SDK bináris méretének növekedésének kétszeresére való javítása · Probléma #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Kijavítottuk, hogy nem lehet szószintű időbélyegeket lekérni az Azure Speechből a szöveges API-ba · 2156- os probléma · Azure-Samples/cognitive-services-speech-sdk (github.com)
Javítás a DialogServiceConnector megsemmisítési fázisához az események megfelelő leválasztásához. Ez időnként összeomlásokat okozott.
A mas használata esetén a felismerő létrehozása során fellépő kivétel javítása.
FPIEProcessor.dll a Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-csomag Windows UWP x64 és Arm64 verziója függőséggel rendelkezik a natív C++-hoz készült VC futtatókörnyezeti kódtárakra. A problémát kijavítottuk a függőség frissítésével a VC futtatókörnyezeti kódtárak (UWP) javítása érdekében.
Javítás a [MAS] hibára: A recognizeOnceAsync ismétlődő hívásai SPXERR_ALREADY_INITIALIZED hibát okoznak a MAS használatakor · 2124-es hiba · Azure-Samples/cognitive-services-speech-sdk (github.com)
A beágyazott beszédfelismerés összeomlásának javítása kifejezéslisták használatakor.

Minták

Beágyazott iOS-minták beszédfelolvasáshoz, szövegfelolvasáshoz és fordításhoz.

Speech CLI 1.34.0: 2023. novemberi kiadás

Új funkciók

Támogatja a szavak határeseteinek kimenetét a beszédszintézis során.

Hibajavítások

A JMESPath-függőség frissítése a legújabb kiadásra javítja a karakterláncok kiértékelését.

Speech SDK 1.33.0: 2023. októberi kiadás

Kritikus változásról szóló értesítés

A Microsoft Audio Stackhez (MAS) hozzáadott új NuGet-csomagot azoknak az alkalmazásoknak kell tartalmazniuk, amelyek MAS-t használnak a csomagkonfigurációs fájljaikban.

Új funkciók

Hozzá lett adva az új NuGet-csomag, a Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, amely továbbfejlesztett echo-lemondási teljesítményt nyújt a Microsoft Audio Stack használatakor
Kiejtési értékelés: a próza- és tartalomértékelés támogatása, amely próza, szókincs, nyelvhelyesség és témakör szempontjából értékelheti a beszélt beszédet.

Hibajavítások

Kijavítottuk a kulcsszófelismerési eredményt, hogy azok megfelelően illeszkedhessenek a bemeneti hangstreamhez az elejétől kezdve. A javítás a különálló kulcsszófelismerésre és a kulcsszó által aktivált beszédfelismerésre is vonatkozik.
A javított Szintetizátor stopSpeaking() nem ad azonnali visszatérést Az SPXSpeechSynthesizer stopSpeaking() metódus nem tud azonnal visszatérni iOS 17 rendszeren – #2081 hiba
Kijavítottuk a Mac katalizátor importálási problémáját a Swift modulban, amely támogatja a mac katalizátort apple szilíciummal. 1948. számú probléma
JS: Az AudioWorkletNode modul betöltése mostantól megbízható URL-címet használ, és a CDN-böngésző tartalékot tartalmaz.
JS: A csomagolt libfájlok mostantól es6 JS-t céloznak meg, és az ES5 JS támogatása el lett távolítva.
JS: a v2-végpontot megcélzó fordítási forgatókönyv közbenső eseményei megfelelően vannak kezelve
JS: A TranslationRecognitionEventArgs nyelvi tulajdonsága mostantól a translation.hypothesis eseményekhez van beállítva.
Beszédszintézis: A SynthesisCompleted esemény garantáltan kibocsátásra kerül minden metaadatesemény után, így felhasználható az események befejezésének jelzésére. Hogyan lehet észlelni, hogy a visemek mikor érkeznek teljesen? Probléma #2093 Azure-Samples/cognitive-services-speech-sdk

Minták

Minta hozzáadva a MULAW pythonnal történő streamelésének bemutatásához)
Javítás a beszéd-szöveg NAudio-mintához

Speech CLI 1.33.0: 2023. októberi kiadás

Új funkciók

Támogatja a szavak határeseteinek kimenetét a beszédszintézis során.

Hibajavítások

Nincs

Speech SDK 1.32.1: 2023. szeptemberi kiadás

Hibajavítások

Android-csomagok frissítései az OpenSSL1.1.1v legújabb biztonsági javításaival
Hozzáadtuk a WebWorkerLoadType tulajdonságot, amely lehetővé teszi az adat URL-terhelésének megkerülését az időtúllépési munkás számára.
JS – A beszélgetés fordításának megszakadásának javítása 10 perc után
JS – A beszélgetés fordítási hitelesítési jogkivonata mostantól továbbítja a fordítási szolgáltatás kapcsolatát

Minták

Beszélgetés átírása Swift API-kkal

Speech SDK 1.31.0: 2023. augusztusi kiadás

Új funkciók

A valós idejű diarizálás támogatása nyilvános előzetes verzióban érhető el a Speech SDK 1.31.0-s verziójával. Ez a funkció a következő SDK-kban érhető el: C#, C++, Java, JavaScript, Python és Objective-C/Swift.
Szinkronizált beszédszintézis szóhatára és események megjelenítése hanglejátszással

Kritikus változások

A korábbi "beszélgetés átírása" forgatókönyv neve "értekezlet átírása". Például használja MeetingTranscriber a helyett ConversationTranscriber, és használja CreateMeetingAsync helyett CreateConversationAsync. Bár az SDK-objektumok és -metódusok neve megváltozott, az átnevezés nem változtatja meg magát a funkciót. Értekezlet-átírási objektumok használata az értekezletek átírásához felhasználói profilokkal és hangaláírásokkal. Ezek a módosítások nem érintik a "beszélgetés fordítása" objektumokat és metódusokat. Továbbra is használhatja az ConversationTranslator objektumot és annak metódusait fordítási forgatókönyvekhez.
A valós idejű diarizáláshoz új ConversationTranscriber objektumot vezetünk be. Az új "beszélgetés átírása" objektummodell és hívásminták hasonlóak az SpeechRecognizer objektum folyamatos felismeréséhez. Lényeges különbség, hogy az ConversationTranscriber objektum olyan beszélgetési forgatókönyvben való használatra lett kialakítva, amelyben több hangszórót (diarizációt) szeretne megkülönböztetni. A felhasználói profilok és a hangaláírások nem alkalmazhatók. További információért tekintse meg a valós idejű diarizálási rövid útmutatót .

Ez a táblázat a valós idejű diarizálás és az értekezlet átírásának korábbi és új objektumnevét mutatja be. A forgatókönyv neve az első oszlopban, az előző objektumnevek a második oszlopban, az új objektumnevek pedig a harmadik oszlopban találhatók.

Forgatókönyv neve	Előző objektumnevek	Új objektumnevek
Valós idejű diarizálás	Nincs adat.	`ConversationTranscriber`
Értekezlet átírása	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant` ¹ `ParticipantChangedReason` ¹ `User` ¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting` ²

¹ A Participant, ParticipantChangedReasonés az objektumok az értekezlet átírására és User az értekezletfordítási forgatókönyvekre egyaránt érvényesek.

² Az Meeting objektum új, és az MeetingTranscriber objektummal együtt használatos.

Hibajavítások

Kijavítottuk a macOS minimálisan támogatott verzióját https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Kijavítottuk a kiejtésértékelési hibát:
- A foneum pontossági pontszámok problémáját orvosoltuk, biztosítva, hogy most már csak az adott helytelenül kiejtett foneumot tükrözzék. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Megoldotta azt a hibát, amely miatt a kiejtésértékelési funkció pontatlanul hibásként azonosította a helyes kiejtéseket, különösen olyan esetekben, amikor a szavak több érvényes kiejtéssel is rendelkezhettek. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Minták

Speech SDK 1.30.0: 2023. júliusi kiadás

Új funkciók

C++, C#, Java – Az Embedded Speech Recognition részletes eredményének DisplayWords támogatása.
Objective-C/Swift – Az Objective-C /Swift eseményeinek ConnectionMessageReceived támogatása.
Objective-C/Swift – Továbbfejlesztett kulcsszó-észlelési modellek iOS-hez. Ez a változás megnövelte bizonyos csomagok méretét, amelyek iOS bináris fájlokat tartalmaznak (például NuGet, XCFramework). Dolgozunk a jövőbeli kiadások méretének csökkentésén.

Hibajavítások

Kijavítottunk egy memóriaszivárgást, amikor beszédfelismerőt használt a PhraseListGrammar használatával az ügyfél által jelentett módon (GitHub-probléma).
Kijavítottunk egy holtpontot a szöveg-beszéd nyílt kapcsolati API-ban.

További megjegyzések

Java – Néhány belsőleg használt public Java API-metódus megváltozott, és átkerült a internal, protected vagy private csomagokba. Ennek a változásnak nem szabad hatással lennie a fejlesztőkre, mivel nem várjuk, hogy az alkalmazások ezeket használják. Feljegyezve itt az átláthatóság kedvéért.

Minták

Új kiejtésértékelési minták arról, hogyan adhat meg egy tanulási nyelvet a saját alkalmazásában
- C#: Lásd a mintakódot.
- C++: Lásd a mintakódot.
- JavaScript: Lásd a mintakódot.
- Objective-C: Lásd a mintakódot.
- Python: Lásd a mintakódot.
- Swift: Lásd a mintakódot.

Speech SDK 1.29.0: 2023. júniusi kiadás

Új funkciók

C++, C#, Java – Beágyazott beszédfordítási API-k előzetes verziója. Most már felhőalapú kapcsolat nélkül is végezhet beszédfordítást!
JavaScript – A folyamatos nyelvazonosítás (LID) mostantól engedélyezve van a beszédfordításhoz.
JavaScript – Közösségi hozzájárulás egy LocaleName tulajdonság hozzáadásához a VoiceInfo osztályhoz. Köszönjük a GitHub-felhasználó shivsarthaknak a lekéréses kérelmet.
C++, C#, Java – Támogatja a beágyazott szöveg 16 kHz-ről 48 kHz-es mintasebességre történő újraszámítását a beszédkimenethez.
A területi beállítás támogatása az hi-IN Egyszerű mintaegyeztetéssel rendelkező Szándékfelismerőben.

Hibajavítások

Kijavítottunk egy összeomlást, amelyet egy versenyhelyzet okozott a Speech Recognizerben objektummegsemmisítés során, amint az androidos tesztek némelyikében látható
Kijavítottuk a lehetséges holtpontokat az Intent Recognizerben egyszerű mintaegyezővel

Minták

Új Beágyazott beszédfordítási minták

Speech SDK 1.28.0: 2023. májusi kiadás

Kompatibilitást megszakító változás

JavaScript SDK: Az online tanúsítványállapot-protokoll (OCSP) el lett távolítva. Ez lehetővé teszi, hogy az ügyfelek jobban megfeleljenek a tanúsítványkezelés böngésző- és csomópontszabványainak. Az 1.28-es és újabb verzió már nem tartalmazza az egyéni OCSP-modult.

Új funkciók

A beágyazott beszédfelismerés mostantól akkor ad vissza, NoMatchReason::EndSilenceTimeout ha egy beszédelem végén csendidő-időtúllépés történik. Ez megegyezik a valós idejű beszédszolgáltatással végzett felismerés viselkedésével.
JavaScript SDK: Tulajdonságok beállítása a SpeechTranslationConfig használatával PropertyId enumerációs értékek szerint.

Hibajavítások

C# a Windows rendszeren – A lehetséges versenyállapot/holtpont javítása a Windows hangkiterjesztésben. Azokban a forgatókönyvekben, amelyekben a hanglejátszó gyorsan el van helyezve, és a Synthesizer metódust is használják a beszéd leállításához, a mögöttes esemény nem állt vissza stop-ra, és a renderelő objektum soha nem szabadult fel, miközben globális zárolást lehetett tartani az ártalmatlanításhoz, a dotnet GC-szál befagyasztásával.

Minták

Beágyazott beszédmintát adott hozzá a MAUI-hoz.
Frissítette az Android Java beágyazott beszédmintáját, hogy szövegfelolvasást is tartalmazzon.

Speech SDK 1.27.0: 2023. áprilisi kiadás

Értesítés a közelgő változásokról

Az online tanúsítványállapot-protokoll (OCSP) eltávolítását a következő JavaScript SDK-kiadásban tervezzük eltávolítani. Ez lehetővé teszi, hogy az ügyfelek jobban megfeleljenek a tanúsítványkezelés böngésző- és csomópontszabványainak. Az 1.27-es verzió az utolsó kiadás, amely tartalmazza az egyéni OCSP-modult.

Új funkciók

JavaScript – A böngészőből származó mikrofonbemenet támogatása a Speaker Identification és Verification használatával.
Beágyazott beszédfelismerés – A beállítás támogatásának PropertyId::Speech_SegmentationSilenceTimeoutMs frissítése.

Hibajavítások

Általános – Megbízhatósági frissítések a szolgáltatás újracsatlakozási logikájában (a JavaScript kivételével minden programozási nyelv).
Általános – A windowsos memóriát kiszivárogtató sztringkonvertálások javítása (a JavaScript kivételével minden releváns programozási nyelv).
Beágyazott beszédfelismerés – Kijavíthatja a francia beszédfelismerés összeomlását bizonyos nyelvtani listaelemek használatakor.
Forráskód dokumentációja – Az SDK referenciadokumentációjának javítása a szolgáltatás hangnaplózásához kapcsolódó megjegyzésekhez.
Szándékfelismerés – A listaentitásokhoz kapcsolódó mintaegyesítő prioritások javítása.

Minták

A C# beszélgetési átírási (CTS) mintában szereplő hitelesítési hibák megfelelő kezelése.
Hozzáadtunk egy példát a Python, JavaScript, Objective-C és Swift streamelési kiejtésének értékelésére.

Speech SDK 1.26.0: 2023. márciusi kiadás

Kritikus változások

Az alábbiakban a bitkód le lett tiltva az összes iOS célplatformon a következő csomagokban: Cocoapod-del xcframework, NuGet (Xamarin és MAUI esetén) és Unity. Az Apple megszüntette a bitcode támogatását az Xcode 14-es verziójától kezdve. Ez a módosítás azt is jelenti, hogy ha Xcode 13-at használ, vagy kifejezetten engedélyezte a bitkódot az alkalmazásban a Speech SDK használatával, hibaüzenet jelenhet meg, amely szerint "a keretrendszer nem tartalmaz bitkódot, és újra kell építenie". A probléma megoldásához győződjön meg arról, hogy a célok bitkódja le van tiltva.
Ebben a kiadásban a minimális iOS-telepítési cél 11.0-ra frissül, ami azt jelenti, hogy az Armv7 HW már nem támogatott.

Új funkciók

A beágyazott (eszközön) beszédfelismerés mostantól támogatja a 8 és a 16 kHz-es mintavételezési sebesség bemeneti hangját is (mintánként 16 bites, mono PCM).
A beszédszintézis mostantól a kapcsolat, a hálózat és a szolgáltatás késéseit jelenti az eredményben, így segítve a végpontok közötti késés optimalizálását.
Új döntetlenbontó szabályok a szándékfelismeréshez egyszerű mintaillesztéssel. Minél több karakterbájt egyezik, az alacsonyabb karakterbájtszámmal rendelkező minták felett diadalmaskodik. Példa: A "Select {something} in the top right" (A jobb felső sarokban található {something} kiválasztása) minta a "Select {something}" ({valami kiválasztása} lehetőség) elemet fogja megnyerni.

Hibajavítások

Beszédszintézis: Kijavítottunk egy hibát, amely miatt az emoji nem helyes a szavak határeseteiben.
Szándékfelismerés társalgási nyelvfelismeréssel (CLU):
- A CLU Orchestrator munkafolyamat szándékai most már helyesen jelennek meg.
- A JSON-eredmény a tulajdonságazonosítón LanguageUnderstandingServiceResponse_JsonResultkeresztül érhető el.
Beszédfelismerés kulcsszóaktiválással: A hiányzó ~150 ms hang kijavítása kulcsszófelismerés után.
Javítás a Speech SDK NuGet iOS MAUI kiadásának buildjéhez, amelyet az ügyfél jelentett (GitHub-probléma)

Minták

Az ügyfél által jelentett Swift iOS-minta javítása (GitHub-probléma)

Speech SDK 1.25.0: 2023. januári kiadás

Kritikus változások

A Language Identification (előzetes verzió) API-k egyszerűbbé lettek. Ha frissít a Speech SDK 1.25-ös verzióra, és buildszünetet lát, látogasson el a Language Identification (Nyelvazonosítás ) oldalra az új tulajdonság SpeechServiceConnection_LanguageIdModemegismeréséhez. Ez az egyetlen tulajdonság a két korábbi tulajdonság, SpeechServiceConnection_SingleLanguageIdPriority és SpeechServiceConnection_ContinuousLanguageIdPriority, helyett. A modell legújabb fejlesztései után már nincs szükség az alacsony késés és a nagy pontosság közötti rangsorolásra. Most már csak azt kell kiválasztania, hogy a folyamatos beszédfelismerés vagy fordítás során az indításkor vagy a folyamatos nyelvazonosítással kell-e futnia.

Új funkciók

C#/C++/Java: A Embedded Speech SDK mostantól nyilvános előzetes verzióban jelenik meg. Lásd az Embedded Speech (előzetes verzió) dokumentációját . Mostantól az eszközén is használhat beszédet szöveggé alakító és szövegfelolvasó funkciókat, ha a felhőkapcsolat időszakos vagy nem elérhető. Android, Linux, macOS és Windows platformokon támogatott
C# MAUI: IOS- és Mac Catalyst-célok támogatása a Speech SDK NuGetben (ügyfélproblémák)
Unity: Android x86_64 architektúra hozzáadva a Unity csomaghoz (ügyfélproblémák)
Menj
- ALAW/MULAW közvetlen streamelési támogatás hozzáadva a beszédfelismeréshez (ügyfélproblémák)
- A PhraseListGrammar támogatása hozzáadva. Köszönjük GitHub-felhasználó czkoko a közösség hozzájárulását!
C#/C++: Az Intent Recognizer mostantól támogatja a C++ és c# beszélgetési nyelvfelismerési modelleket a Microsoft szolgáltatás vezénylése mellett

Hibajavítások

Alkalmi lefagyás kijavítása a KeywordRecognizerben , amikor megpróbálják leállítani
Python:
- Javítás a kiejtési értékelés eredményének lekéréséhez, amikor PronunciationAssessmentGranularity.FullText ki van tűzve (ügyfélprobléma)
- A nemi tulajdonság javítása a nem lekért férfi hangok esetében a beszédszintézis hangjának lekérésekor
JavaScript
- Javítás az iOS-eszközökön rögzített egyes WAV-fájlok elemzéséhez (ügyfélproblémák)
- A JS SDK mostantól az npm-force-resolutions használata nélkül épül (ügyfélprobléma)
- A Beszélgetési fordító mostantól helyesen állítja be a szolgáltatásvégpontot a SpeechConfig.fromEndpoint() használatával létrehozott SpeechConfig-példány használatakor

Minták

Hozzáadott minták az Embedded Speech használatára
Hozzáadva a beszéd szöveggé alakítása mintát a MAUI-hoz

Lásd : Speech SDK-minták adattára.

Speech SDK 1.24.2: 2022. novemberi kiadás

Új funkciók

Nincsenek új funkciók, csak beágyazott motorjavítás az új modellfájlok támogatásához.

Hibajavítások

Minden programnyelv
- Kijavítottunk egy hibát a beágyazott beszédfelismerési modellek titkosításával kapcsolatban.

Speech SDK 1.24.1: 2022. novemberi kiadás

Új funkciók

Közzétett csomagok az Embedded Speech előzetes verziójához. További információért lásd a https://aka.ms/embedded-speech jelű részt.

Hibajavítások

Minden programnyelv
- Beágyazott TTS-összeomlás javítása, ha a hang betűtípusa nem támogatott
- A stopSpeaking() javítása nem tudja leállítani a lejátszást Linuxon (#1686)
JavaScript SDK
- Az audio kezelésében fellépett regressziót javítottuk a beszélgetések átírásánál.
Jáva
- Ideiglenesen közzétett frissített POM- és Javadocs-fájlok a Maven Centralon, hogy a docs-folyamat frissíthesse az online referenciadokumentumokat.
Piton
- Javítsa ki azt a regressziós hibát, amelynél a Python speak_text(ssml) függvény nem ad vissza értéket.

Speech SDK 1.24.0: 2022. októberi kiadás

Új funkciók

Minden programozási nyelv: AMR-WB (16khz) hozzáadva a szöveg-beszéd hangkimeneti formátumok támogatott listájához
Python: A Linux Arm64-hez hozzáadott csomag támogatott Linux-disztribúciókhoz.
C#/C++/Java/Python: Az ALAW & MULAW közvetlen streamelésének támogatása a beszédszolgáltatásba (a meglévő PCM-stream mellett) a használatával AudioStreamWaveFormat.
C# MAUI: NuGet-csomag frissítve, hogy támogassa az Android-célokat a .NET MAUI-fejlesztők számára (ügyfélproblémák)
Mac: Külön XCframework-et adott hozzá Machez, amely nem tartalmaz iOS bináris fájlokat. Ez lehetőséget kínál azoknak a fejlesztőknek, akiknek csak Mac bináris fájlokra van szükségük egy kisebb XCframework-csomaggal.
Microsoft Audio Stack (MAS):
- A gerendaalakítási szögek megadásakor a megadott tartományon kívülről származó hang jobban el lesz tiltva.
- Körülbelül 70% a Linux ARM32 és Linux Arm64 méretének libMicrosoft.CognitiveServices.Speech.extension.mas.so csökkentése.
Szándékfelismerés mintaegyeztetés használatával:
- Ortográfiai támogatás hozzáadása a nyelvekhezfr, de, , esjp
- Hozzáadtuk a prebuilt egész szám támogatást a es nyelvhez.

Hibajavítások

iOS: Beszédszintézisi hiba javítása az iOS 16-on a tömörített hangkódolási hiba (ügyfélproblémák) miatt.
JavaScript:
- Javítsa a hitelesítési token nem működése a beszédszintézis hanglistájának lekérésekor (ügyfél által jelzett probléma).
- Adat-URL használata a munkavállaló betöltéséhez (ügyfélprobléma).
- Csak akkor hozzon létre hangfeldolgozó munkafájlt, ha az AudioWorklet támogatott a böngészőben (ügyfélproblémák). Ez William Wong közösségi közreműködése volt. Köszönöm William!
- Kijavíthatja a felismert visszahívást, ha a LUIS-válasz connectionMessage üres (ügyfélproblémák).
- Beszédszegmentálás időkorlátjának megfelelő beállítása.
Szándékfelismerés mintaegyeztetés használatával:
- A modelleken belüli nem json karakterek most már megfelelően betöltődnek.
- A recognizeOnceAsync(text) meghívásakor bekövetkező "lefagyás" probléma javítása a folyamatos felismerés során.

Speech SDK 1.23.0: 2022. júliusi kiadás

Új funkciók

C#, C++, Java: Szándékfelismerés mintaegyeztetéssel funkcióban támogatás hozzáadva zh-cn és zh-hk nyelvekhez.
C#: A .NET-keretrendszer buildjeinek AnyCPU támogatása hozzáadva

Hibajavítások

Android: A CVE-2022-2068 OpenSSL biztonsági résének kijavítása az OpenSSL 1.1.1q-ra való frissítésével
Python: Összeomlás javítása a PushAudioInputStream használatakor
iOS: Az iOS-en jelentett "EXC_BAD_ACCESS: Null mutató elhalasztására tett kísérlet" javítása (GitHub-probléma)

Speech SDK 1.22.0: 2022. júniusi kiadás

Új funkciók

Java: IntentRecognitionResult API getEntities(), applyLanguageModels() és recognizeOnceAsync(text) hozzáadva az "egyszerű mintafelismerés" motor támogatásához.
Unity: A Unity-csomaghoz tartozó Mac M1 (Apple Silicon) támogatása (GitHub-probléma)
C#: Hozzáadott támogatás x86_64-hez a Xamarin Androidban (GitHub hiba)
C#: Az SDK C# csomaghoz készült 4.6.2-es verzióra frissített .NET-keretrendszer minimális verziója, mivel a 4.6.1-es verzió ki lett állítva (lásd : Microsoft .NET Framework Framework Component Lifecycle Policy)
Linux: A Debian 11 és az Ubuntu 22.04 LTS támogatása hozzáadva. Az Ubuntu 22.04 LTS-hez a libssl1.1 manuális telepítése szükséges bináris csomagként (például az x64-hez libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb vagy újabb), vagy forrásokból történő fordítással.

Hibajavítások

UWP: Az OpenSSL-függőség el lett távolítva az UWP-kódtárakból, és winRT websocketre és HTTP API-ra cserélve a biztonsági megfelelőség és a kisebb bináris lábnyom érdekében.
Mac: Kijavítottuk a "MicrosoftCognitiveServicesSpeech module Not Found" hibát a macOS platformot célzó Swift-projektek használatakor
Windows, Mac: Kijavítottunk egy platformspecifikus hibát, amely miatt a tulajdonságokon keresztül valós idejű streamelésre konfigurált hangforrások néha lemaradtak, és végül túllépték a kapacitást

Minták (GitHub)

C#: .NET-keretrendszerminták frissítve a 4.6.2-s verzió használatára
Unity: A virtuális asszisztens minta javítva Androidra és UWP-re
Unity: Unity-minták frissítve a Unity 2020 LTS-verzióhoz

Speech SDK 1.21.0: 2022. áprilisi kiadás

Új funkciók

Java > JavaScript: A SpeechRecognizer objektum használatakor a folyamatos nyelvazonosítás támogatása
JavaScript: Diagnosztikai API-k hozzáadása a konzolnaplózási szint és (csak csomópontok) fájlnaplózásának engedélyezéséhez, hogy segítsen a Microsoftnak az ügyfél által jelentett problémák elhárításában
Python: A beszélgetés átiratának támogatása hozzáadva
Ugrás: A beszédfelismerés támogatása hozzáadva
C++ > C#: A szándékfelismerőben (egyszerű mintaegyeztetés) egy szükséges szócsoport támogatása hozzáadva. Például: "állítson be|indítson el|kezdjen el egy időzítőt", ahol a "set", a "start" vagy a "begin" szavak egyikének jelen kell lennie ahhoz, hogy a szándék felismerhető legyen.
Minden programozási nyelv, Beszédszintézis: Időtartam tulajdonság hozzáadva a szavak határeseményeihez. Írásjelek és mondathatárok támogatásának hozzáadása
Objective-C/Swift/Java: Szószintű eredményeket adott hozzá a Kiejtésértékelés eredményobjektumhoz (a C#-hoz hasonlóan). Az alkalmazásnak már nem kell elemeznie egy JSON-eredménysztringet a szószintű információk lekéréséhez (GitHub-probléma)
iOS-platform: Kísérleti támogatás az ARMv7 architektúrához

Hibajavítások

iOS-platform: Javítás a cél "Bármely iOS-eszköz" létrehozásához a CocoaPod használatakor (GitHub-probléma)
Android-platform: Az OpenSSL verziója az 1.1.1n-es verzióra frissült a CVE-2022-0778 biztonsági rés javítása érdekében
JavaScript: Kijavítottuk azt a hibát, amely miatt a wav fejléce nem lett frissítve fájlmérettel (GitHub-probléma)
JavaScript: Kérésazonosító-deszinkronizálási problémák elhárítása fordítási forgatókönyvek feltörése esetén (GitHub-probléma)
JavaScript: A SpeakerAudioDestination stream nélküli példányosításával kapcsolatos probléma megoldása (GitHub-probléma]
C++: C++ fejlécek javítása a C++17 vagy újabb verziók fordításakor megjelenő figyelmeztetés eltávolításához

Minták GitHub

Új Java-minták a beszédfelismeréshez nyelvazonosítással
Új Python - és Java-minták a beszélgetés átiratához
Új Go programnyelv minta hangfelismeréshez
Új C++ és C# eszköz a Windowshoz, amely felsorolja az összes hangrögzítési és renderelési eszközt az eszközazonosítójuk megtalálásához. Erre az azonosítóra a Speech SDK-nak van szüksége, ha nem megfelelő eszközről szeretne hangokat rögzíteni vagy renderelni.

Speech SDK 1.20.0: 2022. januári kiadás

Új funkciók

Objective-C, Swift és Python: A Voice Assistant-forgatókönyvekhez használt DialogServiceConnector támogatása hozzáadva.
Python: A Python 3.10 támogatása hozzáadva. A Python 3.6 támogatását megszüntettük a Python 3.6 verziójának élettartamának vége miatt.
Unity: A Speech SDK mostantól támogatott a Linuxon futó Unity-alkalmazásokhoz.
C++, C#: A mintaegyezést használó IntentRecognizer mostantól támogatott a C#-ban. Emellett az egyéni entitásokkal, választható csoportokkal és entitásszerepkörökkel rendelkező forgatókönyvek mostantól támogatottak a C++ és a C# nyelven is.
C++, C#: Továbbfejlesztett diagnosztikai nyomkövetési naplózás a FileLogger, a MemoryLogger és az EventLogger új osztályával. Az SDK-naplók fontos eszközök a Microsoft számára az ügyfelek által jelentett problémák diagnosztizálásához. Ezek az új osztályok megkönnyítik az ügyfelek számára a Speech SDK-naplók saját naplózási rendszerbe való integrálását.
Az összes programozási nyelv: A PronunciationAssessmentConfig mostantól rendelkezik a kiválasztott fonéma ábécé (IPA vagy SAPI) és az N-Best fonéma szám beállításának tulajdonságaival, így elkerülhető, hogy egy konfigurációs JSON-t kelljen létrehozni a GitHub probléma 1284 szerint. A szótagszintű kimenet is támogatott.
Android, iOS és macOS (az összes programozási nyelv): A GStreamerre már nincs szükség a korlátozott sávszélességű hálózatok támogatásához. A SpeechSynthesizer mostantól az operációs rendszer hangdekódolási képességeivel dekódolja a szövegből a speech service-be streamelt tömörített hangokat.
Minden programozási nyelv: A SpeechSynthesizer mostantól három új nyers kimeneti Opus-formátumot támogat (tároló nélkül), amelyeket széles körben használnak élő streamelési forgatókönyvekben.
JavaScript: GetVoicesAsync() API hozzáadva a SpeechSynthesizerhez a támogatott szintézishangok listájának lekéréséhez (GitHub 1350-es probléma)
JavaScript: GetWaveFormat() API hozzáadva az AudioStreamFormathoz a nem PCM hullámformátumok támogatásához (GitHub 452-es probléma)
JavaScript: A SpeakerAudioDestination-hez hozzáadott hangerő-lekérdező/beállító és elnémít()/hang visszaállítása() API-k (GitHub kiadási probléma 463)

Hibajavítások

C++, C#, Java, JavaScript, Objective-C és Swift: Javítás a 10 másodperces késleltetés eltávolításához, miközben leállítja a PushAudioInputStreamet használó beszédfelismerőt. Ez arra az esetre vonatkozik, ha a StopContinuousRecognition meghívása után nem küld be új hangot ( GitHub-problémák: 1318, 331)
Unity androidos és UWP rendszeren: A Unity metafájljait kijavítottuk az UWP, az Android Arm64 és az Android Windows Alrendszer (WSA) Arm64 esetében (GitHub 1360-as probléma)
iOS: A Speech SDK-alkalmazás összeállítása bármely iOS-eszközön a CocoaPods használatakor már javítva van (GitHub 1320-ra vonatkozó probléma)
iOS: Ha a SpeechSynthesizer úgy van konfigurálva, hogy közvetlenül a hangszórónak adja ki a hangot, a lejátszás ritka körülmények között az elején leállt. Ezt kijavítottuk.
JavaScript: Használjon szkriptprocesszor-tartalékot a mikrofon bemenetéhez, ha nem található hangfájl (GitHub 455-ös probléma)
JavaScript: Protokoll hozzáadása az ügynökhöz a Sentry-integrációval észlelt hibák elhárításához (GitHub 465-ös probléma)

Minták GitHub

C++, C#, Python és Java minták, amelyek bemutatják, hogyan kaphat részletes felismerési eredményeket. A részletek közé tartoznak az alternatív felismerési eredmények, a megbízhatósági pontszám, a lexikális űrlap, a normalizált űrlap, a maszkolt normalizált űrlap, az egyes szavak szintű időzítéssel.
Az AVFoundation használatával külső hangforrásként hozzáadott iOS-minta.
Java-minta hozzáadva, amely bemutatja, hogyan szerezheti be az SRT (SubRip Text) formátumot a WordBoundary esemény használatával.
Android-minták a kiejtési értékeléshez.
C++, C# az új diagnosztikai naplózási osztályok használatát mutatja.

Speech SDK 1.19.0: 2021-nov kiadás

Legfontosabb tudnivalók

A Speaker Recognition szolgáltatás jelenleg általánosan elérhető (GA). A Speech SDK API-k c++, C#, Java és JavaScript nyelven érhetők el. A Speaker Recognition segítségével pontosan ellenőrizheti és azonosíthatja a beszélőket egyedi hangtulajdonságuk alapján. A témakörről további információt a dokumentációban talál.
Megszüntettük az Ubuntu 16.04 támogatását az Azure DevOps és a GitHub használatával együtt. Az Ubuntu 16.04 2021 áprilisában érte el az élet végét. Migrálja az Ubuntu 16.04-munkafolyamatokat az Ubuntu 18.04-be vagy újabb verzióba.
Az OpenSSL-csatolás Linux bináris fájlokban dinamikusra változott. A Linux bináris mérete körülbelül 50%csökkent.
Mac M1 ARM-alapú processzor támogatás hozzáadva.

Új funkciók

C++/C#/Java: Új API-k hozzáadva a beszédbemenet hangfeldolgozási támogatásának engedélyezéséhez a Microsoft Audio Stack használatával. Dokumentáció itt.
C++: Új API-k a szándékfelismeréshez a fejlettebb mintaegyezés megkönnyítése érdekében. Ez magában foglalja a lista- és előre összeállított egész szám entitásokat, valamint a szándékok és entitások modellként való csoportosításának támogatását (a dokumentáció, a frissítések és a minták fejlesztés alatt állnak, és a közeljövőben közzé lesznek téve).
Mac: Az Arm64 (M1) alapú szilícium támogatása a GitHub 1244-hez kapcsolódó CocoaPod-, Python-, Java- és NuGet-csomagjaihoz.
iOS/Mac: Az iOS és a macOS bináris fájlok mostantól xcframework-be vannak csomagolva a GitHub 919-hez kapcsolódó problémájával kapcsolatban.
iOS/Mac: A GitHub issue 1171-hez kapcsolódó Mac Catalyst támogatása.
Linux: Új tar csomag hozzáadva a CentOS7-hez a Speech SDK-ról. A Linux .tar csomag már tartalmaz bizonyos kódtárakat az RHEL/CentOS 7 lib/centos7-x64rendszerben. A lib/x64-ben található Speech SDK-kódtárak továbbra is érvényesek az összes többi támogatott Linux x64-disztribúcióra (beleértve az RHEL/CentOS 8-at is), és nem működnek az RHEL/CentOS 7-en.
JavaScript: A VoiceProfile & SpeakerRecognizer API-k aszinkronizált/await-kompatibilissé lettek téve.
JavaScript: Az USA kormányzati Azure-régióinak támogatása.
Windows: Az univerzális Windows platformon (UWP) való lejátszás támogatása.

Hibajavítások

Android: OpenSSL biztonsági frissítés (1.1.1l-es verzióra frissítve) Android-csomagokhoz.
Python: Megoldottuk azt a hibát, amely miatt a beszélőeszköz kiválasztása a Pythonon sikertelen volt.
Alapvető: Automatikus újracsatlakozás, ha egy kapcsolati kísérlet meghiúsul.
iOS: A hangtömörítés le van tiltva az iOS-csomagokban a GStreamer használatakor az instabilitás és a bitkód buildelési problémái miatt. A részletek a GitHub 1209-ik számán keresztül érhetők el.

Minták GitHub

Mac/iOS: Frissített minták és rövid útmutatók az xcframework csomag használatához.
.NET: A .NET Core 3.1-es verziójára frissített minták.
JavaScript: Hozzáadott minta a Voice Assistantshez.

Speech SDK 1.18.0: 2021– júliusi kiadás

Megjegyzés: Itt ismerkedhet meg a Speech SDK-val.

Kiemelések összegzése

Az Ubuntu 16.04 2021 áprilisában véget ért. Az Azure DevOps és a GitHub segítségével 2021 szeptemberében megszüntetjük a 16.04-es támogatást. Migrálja az ubuntu-16.04-munkafolyamatokat az ubuntu-18.04 vagy újabb verzióba.

Új funkciók

C++: Az szándékfelismerővel egyező egyszerű nyelvi minta megkönnyíti az egyszerű szándékfelismerési forgatókönyvek implementálását.
C++/C#/Java: Új API-t adtunk hozzá az GetActivationPhrasesAsync() osztályhoz, VoiceProfileClient amely az érvényes aktiválási kifejezések listáját kapja a Speaker Recognition regisztrációs fázisában a független felismerési forgatókönyvek esetében.
- Fontos: A Speaker Recognition funkció előzetes verzióban érhető el. Az előzetes verzióban létrehozott hangprofilok 90 nappal azután megszűnnek, hogy a Speaker Recognition funkció ki van helyezve az előzetes verzióból az általános rendelkezésre állásba. Ekkor az előzetes verziójú hangprofilok működése leáll.
Python: Támogatás került a meglévő és SpeechRecognizer objektumokhoz, a TranslationRecognizer érdekében.
Python: Hozzáadott egy új Python-objektumot , amely SourceLanguageRecognizer egyszeri vagy folyamatos LID-műveletet tesz lehetővé (felismerés vagy fordítás nélkül).
JavaScript: getActivationPhrasesAsync API hozzáadva a VoiceProfileClient osztályhoz, hogy megkapja az érvényes aktiválási kifejezések listáját a Speaker Recognition beiratkozási fázisában a független felismerési forgatókönyvek esetére.
A JavaScriptVoiceProfileClient API mostantól támogatja az aszinkron várakozást. Tekintse meg ezt a független azonosító kódot, például a használatot.

Fejlesztések

Java: Számos Java-objektumhoz hozzáadták az AutoCloseable támogatást. Most az erőforrásokkal való kipróbálási modell támogatott az erőforrások felszabadításához. Tekintse meg ezt a példát, amely próbálkozási erőforrásokat használ. Az Oracle Java dokumentációs oktatóanyagban található try-with-resources utasítás című részt is tekintse meg, hogy megismerje ezt a mintát.
A lemez lábnyoma számos platform és architektúra esetében jelentősen csökkent. Példák a Microsoft.CognitiveServices.Speech.core bináris: x64 Linux 475 KB kisebb (8,0% csökkentés); Arm64 Windows UWP 464 KB kisebb (11,5% csökkentés); x86 Windows 343 KB kisebb (17,5% csökkentés); és x64 Windows 451 KB kisebb (19,4% csökkentés).

Hibajavítások

Java: Kijavítottuk a szintézishibát, ha a szintézisszöveg helyettesítő karaktereket tartalmaz. Részletek itt.
JavaScript: A böngésző mikrofonjának hangfeldolgozása mostantól AudioWorkletNode-t használ az elavult ScriptProcessorNode helyett. Részletek itt.
JavaScript: A beszélgetések megfelelő életben tartása a hosszú ideig futó beszélgetésfordítási forgatókönyvek során. Részletek itt.
JavaScript: Kijavítottuk azt a hibát, amely miatt a felismerő a folyamatos felismerés során újracsatlakozott egy médiastreamhez. Részletek itt.
JavaScript: Kijavítottuk azt a hibát, amely miatt a felismerő újracsatlakozott egy pushStreamhez a folyamatos felismerés során. Részletek itt.
JavaScript: Javított szószintű eltolás számítása a részletes felismerési eredményekben. Részletek itt.

Minták

Az itt frissített Java-gyorsútmutató-minták.
JavaScript Speaker Recognition-minták frissítve az új használat enrollProfileAsync()megjelenítéséhez. Tekintse meg a mintákat itt.

Speech SDK 1.17.0: 2021. májusi kiadás

Megjegyzés:

Itt ismerkedhet meg a Speech SDK-val.

Kiemelések összegzése

Kisebb lábnyom – továbbra is csökkentjük a Speech SDK és összetevői memória- és lemezigényét.
Az új önálló Language Identification API lehetővé teszi, hogy felismerje a beszélt nyelvet.
Beszédbarát vegyes valóság és játékalkalmazások fejlesztése a Unity használatával macOS rendszeren.
Mostantól a Go programozási nyelvben a beszédfelismerés mellett használhatja a szövegfelolvasást is.
A GitHubon számos hibajavítás van megjelölve az Ön, értékes ügyfeleink által tapasztalt problémák megoldásához! KÖSZÖNÖM! Folyamatosan érkeznek a visszajelzések!

Új funkciók

C++/C#: Új önálló At-Start és folyamatos nyelvfelismerés az SourceLanguageRecognizer API-n keresztül. Ha csak a hangtartalmakban beszélt nyelv(ek)et szeretné észlelni, ezt az API-t kell elvégeznie. További információ a C++ és a C# nyelvről.
C++/C#: A beszédfelismerés és a fordításfelismerés mostantól támogatja az indításkor és a folyamatos nyelvi azonosítást is, így programozott módon meghatározhatja, hogy mely nyelv(ek)et beszélik az átírás vagy fordítás előtt. A Speech Recognition és a Speech Translation dokumentációját itt találja.
C#: A Unity támogatása hozzáadva a macOS -hez (x64). Ez feloldja a beszédfelismerést és a beszédszintézis használatát a vegyes valóságban és a játékban!
Go: Támogatást adtunk a beszédszintézis szöveg-beszéd átalakításhoz a Go programozási nyelvhez, hogy a beszédszintézis még több felhasználási esetben elérhető legyen. Tekintse meg rövid útmutatónkat vagy referenciadokumentációnkat.
C++/C#/Java/Python/Objective-C/Go: A beszédszintetizátor mostantól támogatja az connection objektumot. Ez segít a Speech szolgáltatással való kapcsolat kezelésében és monitorozásában, és különösen hasznos, ha előre csatlakozik a késés csökkentése érdekében. A dokumentációt itt találja.
C++/C#/Java/Python/Objective-C/Go: Mostantól közzé tesszük a késést és az aláfutási időt, hogy segítsünk a beszédszintézis késésével kapcsolatos problémák monitorozásában SpeechSynthesisResult és diagnosztizálásában. A C++, a C#, a Java, a Python, az Objective-C és a Go részleteinek megtekintése.
C++/C#/Java/Python/Objective-C: A beszédhez használt szöveg alapértelmezés szerint neurális hangokat használ , ha nem ad meg használandó hangot. Ez alapértelmezés szerint magasabb hűségkimenetet biztosít, de az alapértelmezett árat is növeli.
C++/C#/Java/Python/Objective-C/Go: Hozzáadtunk egy Gender tulajdonságot a szintézis hanginformációihoz, hogy megkönnyítsük a nemek szerinti hangok kiválasztását. Ez a GitHub 1055-ös problémájával foglalkozik.
C++, C#, Java, JavaScript: Mostantól támogatjuk retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsyncés getAllProfilesAsync() a Speaker Recognitionben is, hogy megkönnyítsük egy adott fiók összes hangprofiljának felhasználói felügyeletét. A C++, C#, Java, JavaScript dokumentációját lásd. Ez a GitHub 338. problémájával foglalkozik.
JavaScript: Hozzáadtuk az újrapróbálkozási lehetőséget a csatlakozási hibák kezelésére, amely robusztusabbá teszi a JavaScript-alapú beszédalkalmazásokat.

Fejlesztések

Linux és Android Speech SDK bináris fájlokat frissítettünk az OpenSSL legújabb verziójának használatára (1.1.1k)
Kódméret-fejlesztések:
- A Language Understanding mostantól különálló "lu" könyvtárra oszlik.
- A Windows x64 bináris mag mérete 14,4%csökkent.
- Az Android Arm64 alap bináris mérete 13,7%-mal csökkent.
- más összetevők mérete is csökkent.

Hibajavítások

Minden: Kijavítottuk a GitHub #842-es hibát a ServiceTimeouttal kapcsolatban. Mostantól átírhatja a hosszú hangfájlokat a Speech SDK használatával anélkül, hogy a szolgáltatáshoz való csatlakozás megszakadna ezzel a hibával. Azonban továbbra is azt javasoljuk, hogy használjon kötegelt átírást a hosszú fájlokhoz.
C#: Kijavítottuk a GitHub #947-et, amely miatt a beszédbemenet nem tudta rossz állapotban hagyni az alkalmazást.
Java: Kijavítottuk a GitHub #997-et, amely miatt a Java 1.16 Speech SDK összeomlik, amikor a DialogServiceConnectort hálózati kapcsolat vagy érvénytelen előfizetési kulcs nélkül használja.
Kijavítottunk egy összeomlást, amikor hirtelen leállt a beszédfelismerés (például a CTRL+C használata a konzolalkalmazásban).
Java: Kijavítottunk egy javítást az ideiglenes fájlok windowsos törléséhez a Java Speech SDK használatakor.
Java: Kijavítottuk a GitHub #994-et, amely miatt a hívás DialogServiceConnector.stopListeningAsync hibát okozhat.
Java: Kijavítottunk egy ügyfélproblémát a virtuális asszisztens rövid útmutatójában.
JavaScript: Kijavítottuk a GitHub #366-os hibáját , amely ConversationTranslator "ez.cancelSpeech nem függvény" hibaüzenetet jelzett.
JavaScript: Kijavítottuk a GitHub 298-as hibáját, amely miatt a "Get result as an in-memory stream" ('Eredmény lekérése memórián belüli streamként') minta hangosan lejátszódott.
JavaScript: Kijavítottuk a GitHub #350-es problémát, amelynél a AudioConfig hívása esetén 'ReferenceError: MediaStream nincs definiálva' hiba léphetett fel.
JavaScript: Kijavítottunk egy nem kezelt ígéretelutasítási figyelmeztetést Node.js a hosszú ideig futó munkamenetekhez.

Minták

Frissítettük a Unity-minták dokumentációját a macOS-hez.
Az Azure AI Speech recognition szolgáltatáshoz készült React Natív minta már elérhető itt.

Speech SDK 1.16.0: 2021. márciusi kiadás

Megjegyzés:

A Windows Speech SDK a Visual Studio 2015, 2017 és 2019 megosztott Microsoft Visual C++ terjeszthető szolgáltatásától függ.

Új funkciók

C++/C#/Java/Python: Átkerült a GStreamer legújabb verziójára (1.18.3), hogy támogatást nyújtsunk bármilyen médiaformátum windowsos, linuxos és androidos átviteléhez. A dokumentációt itt találja.
C++/C#/Java/Objective-C/Python: A tömörített TTS/szintetizált hang SDK-ra való dekódolásának támogatása. Ha a kimeneti hangformátumot PCM-re állítja be, és a GStreamer elérhető a rendszeren, az SDK automatikusan tömörített hangot kér a szolgáltatástól a sávszélesség megtakarítása és a hang dekódolása érdekében az ügyfélen. Beállíthatja a SpeechServiceConnection_SynthEnableCompressedAudioTransmission értékét false-re, hogy letiltsa ezt a funkciót. A C++, C#, Java, Objective-C, Python részletei.
JavaScript: Node.js felhasználók most már használhatják az API-tAudioConfig.fromWavFileInput. Ez a GitHub 252. problémájával foglalkozik.
C++/C#/Java/Objective-C/Python: A TTS-hez hozzáadott GetVoicesAsync() módszer az összes elérhető szintézishang visszaadásához. A C++, a C#, a Java, az Objective-C és a Python részletei.
C++/C#/Java/JavaScript/Objective-C/Python: TTS-/beszédszintézishez hozzáadott VisemeReceived esemény a szinkron viseme animáció visszaadásához. A dokumentációt itt találja.
C++/C#/Java/JavaScript/Objective-C/Python: TTS-hez hozzáadott BookmarkReached esemény. Beállíthatja a könyvjelzőket a bemeneti SSML-ben, és lekérheti az egyes könyvjelzők hangeltolásait. A dokumentációt itt találja.
Java: Hozzáadva a Speaker Recognition API-k támogatása. Részletek itt.
C++/C#/Java/JavaScript/Objective-C/Python: Két új kimeneti hangformátumot adott hozzá a TTS WebM-tárolójával (Webm16Khz16BitMonoOpus és Webm24Khz16BitMonoOpus). Ezek jobb formátumok az Opus-kodek hangjának streameléséhez. A C++, C#, Java, JavaScript, Objective-C, Python részletei.
C++/C#/Java: A hangszóró-felismerési forgatókönyv hangprofiljának lekéréséhez hozzáadott támogatás. A C++, a C# és a Java részletei.
C++/C#/Java/Objective-C/Python: A hangmikrofon és a hangszóró vezérléséhez külön megosztott kódtár is támogatott. Ez lehetővé teszi a fejlesztő számára, hogy az SDK-t olyan környezetekben használja, amelyek nem rendelkeznek szükséges hangtár-függőségekkel.
Objective-C/Swift: Az esernyőfejlécet tartalmazó modul-keretrendszer támogatása. Ez lehetővé teszi, hogy a fejlesztő modulként importálja a Speech SDK-t az iOS/Mac Objective-C/Swift alkalmazásokban. Ez a GitHub 452. problémáját kezeli.
Python: Hozzáadták a Python 3.9 támogatását, és megszüntették a Python 3.5 támogatását, tekintettel a 3.5-ös verzió élettartamának végére.

Ismert problémák

C++/C#/Java: DialogServiceConnector nem tud hozzáférni egy egyéni parancsokat tartalmazó alkalmazáshoz, és ehelyett csatlakozási hibát fog tapasztalni. Ezt úgy lehet megkerülni, hogy manuálisan hozzáadja az alkalmazásazonosítót a kéréshez a következővel config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter): . A CustomCommandsConfig várt viselkedése a következő kiadásban vissza lesz állítva.

Fejlesztések

A Speech SDK memóriahasználatának és lemezigényének csökkentésére irányuló több kiadású erőfeszítésünk részeként az Android bináris fájlok mostantól 3%-tól 5%-ig kisebbre lettek.
A C# referenciadokumentáció pontosságának, olvashatóságának javítása és lásd még részek itt.

Hibajavítások

JavaScript: A nagyméretű WAV-fájlfejlécek most már megfelelően vannak elemezve (a fejlécszeletet 512 bájtra növeli). Ez a GitHub #962-es probléma megoldásáról szól.
JavaScript: Kijavítottuk a mikrofon időzítési problémáját, ha a mikrofon streamje a felismerés leállítása előtt véget ér, és elhárítottunk egy hibát, amely miatt a Firefoxban nem működik a Beszédfelismerés.
JavaScript: Most már megfelelően kezeljük az inicializálási ígéretet, amikor a böngésző kényszeríti a mikrofon kikapcsolását, mielőtt a TurnOn befejeződik.
JavaScript: Az URL-függőséget URL-elemzésre cseréltük. Ez a GitHub 264. problémájával foglalkozik.
Android: Kijavítottuk, hogy a visszahívások nem működnek, ha minifyEnabled igaz értékre van állítva.
C++/C#/Java/Objective-C/Python: TCP_NODELAY megfelelően lesz beállítva a TTS mögöttes socket IO-jához a késés csökkentése érdekében.
C++/C#/Java/Python/Objective-C/Go: Kijavítottunk egy alkalmi összeomlást, amikor a felismerőt a felismerés elindítása után megsemmisítették.
C++/C#/Java: Kijavítottunk egy eseti összeomlást a beszélőfelismerő megsemmisítése során.

Minták

JavaScript: A böngészőmintákhoz már nincs szükség külön JavaScript-kódtárfájl letöltésére.

Speech SDK 1.15.0: 2021–januári kiadás

Megjegyzés:

A Windows Speech SDK a Visual Studio 2015, 2017 és 2019 megosztott Microsoft Visual C++ terjeszthető szolgáltatásától függ.

Kiemelések összegzése

Kisebb memória- és lemezigény, ami hatékonyabbá teszi az SDK-t.
Magasabb hűségkimeneti formátumok érhetők el az egyéni neurális hang privát előzetes verziójához.
A Szándékfelismerő mostantól többet tud visszaadni, mint a legfelső szándék, így külön értékelést készíthet az ügyfél szándékáról.
A hangsegédek és a robotok mostantól egyszerűbben beállíthatók, így azonnal leállíthatja a figyeléseket, és nagyobb mértékben szabályozhatja, hogyan reagál a hibákra.
Az eszköz teljesítményének javítása a tömörítés opcionálissá tételével.
Használja a Speech SDK-t Windows ARM/Arm64 rendszeren.
Továbbfejlesztett, alacsony szintű hibakeresés.
A kiejtésértékelési funkció most már szélesebb körben érhető el.
A GitHubon számos hibajavítás van megjelölve az Ön, értékes ügyfeleink által tapasztalt problémák megoldásához! KÖSZÖNÖM! Folyamatosan érkeznek a visszajelzések!

Fejlesztések

A Speech SDK mostantól hatékonyabb és egyszerűbb. Több kiadást is elindítottunk a Speech SDK memóriahasználatának és lemezigényének csökkentése érdekében. Első lépésként jelentős fájlméret-csökkentést hajtottunk végre a megosztott kódtárakban a legtöbb platformon. Az 1.14-es kiadáshoz képest:
- A 64 bites UWP-kompatibilis Windows-kódtárak körülbelül 30% kisebbek.
- A 32 bites Windows-kódtárak mérete még nem javul.
- A Linux-kódtárak 20-25% kisebbek.
- Az Android-kódtárak 3-5% kisebbek.

Új funkciók

Minden: Új 48 KHz-es kimeneti formátumok érhetők el az egyéni neurális hang privát előzetes verziójához a TTS beszédszintézis API-n keresztül: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Minden: Az egyéni hang használata is egyszerűbb. Új támogatás az egyéni hang EndpointId beállításához (C++, C#, Java, JavaScript, Objective-C, Python). A módosítás előtt az egyéni hangfelhasználóknak be kellett állítaniuk a végpont URL-címét a FromEndpoint módszerrel. Az ügyfelek most ugyanúgy használhatják a FromSubscription módszert, mint a standard hangokat, majd a EndpointId beállításával megadhatják az üzembehelyezési azonosítót. Ez leegyszerűsíti az egyéni hangok beállítását.
C++/C#/Java/Objective-C/Python: Több mint a legfelső szándék.IntentRecognizer Mostantól támogatja az összes szándékot tartalmazó JSON-eredmény konfigurálását az uri paraméter LanguageUnderstandingModel FromEndpoint használatával a verbose=true metóduson keresztül, nemcsak a legmagasabb pontszámú szándékot. Ez a GitHub 880- os problémájával foglalkozik. A frissített dokumentációt itt találja.
C++/C#/Java: Érje el, hogy a hangsegéd vagy bot azonnal leállítsa a hallgatást. DialogServiceConnector (C++, C#, Java) most már van egy StopListeningAsync() módszer, amely ListenOnceAsync()-t kísér. Ez azonnal leállítja a hangrögzítést, és kecsesen várja meg az eredményt, így tökéletes a "stop now" gombnyomásos forgatókönyvekhez.
C++/C#/Java/JavaScript: Hangsegédje vagy robotja jobban reagálhat a mögöttes rendszerhibákra. DialogServiceConnector (C++, C#, Java, JavaScript) mostantól új TurnStatusReceived eseménykezelővel rendelkezik. Ezek az opcionális események megfelelnek a Bot minden ITurnContext felbontásának, és jelentik a végrehajtási hibákat, amelyek például nem kezelt kivétel, időtúllépés, vagy hálózati visszaesés következtében merülnek fel a Direct Line Speech és a bot között. TurnStatusReceived megkönnyíti a hibákra való reagálást. Ha például egy robot túl sokáig tart egy háttéradatbázis-lekérdezésen (például egy termék keresésekor), TurnStatusReceived lehetővé teszi az ügyfél számára, hogy tudja, hogy "sajnáljuk, nem egészen értem, kipróbálhatja újra" vagy valami hasonlót.
C++/C#: A Speech SDK használata több platformon. A Speech SDK NuGet csomag mostantól támogatja a Windows ARM/Arm64 asztali natív bináris fájljait (az UWP már támogatott), hogy a Speech SDK több géptípus esetében is hasznosabb legyen.
Java: DialogServiceConnector most már rendelkezik egy setSpeechActivityTemplate() olyan metódussal, amelyet korábban véletlenül kizártak a nyelvből. Ez egyenértékű a Conversation_Speech_Activity_Template tulajdonság beállításával, és kérni fogja, hogy a Direct Line Speech szolgáltatásból származó minden jövőbeli Bot Framework-tevékenység egyesítse a megadott tartalmat a JSON hasznos adataikkal.
Java: Továbbfejlesztett, alacsony szintű hibakeresés. Az Connection osztálynak már van egy MessageReceived eseménye, amely hasonló a többi programozási nyelvhez (C++, C#). Ez az esemény alacsony szintű hozzáférést biztosít a szolgáltatásból érkező bejövő adatokhoz, és diagnosztikához és hibakereséshez hasznos lehet.
JavaScript: Egyszerűbb beállítás a hangalapú asszisztensek és robotok számára a BotFrameworkConfig segítségével, amelyek mostantól fromHost() és fromEndpoint() gyári módszerekkel rendelkeznek, amelyek egyszerűsítik az egyéni szolgáltatáshelyek használatát, szemben a tulajdonságok manuális beállításával. Szabványosítottuk a választható specifikáció botId, hogy nem alapértelmezett botot használjunk a konfigurációs gyárak között.
JavaScript: A websocket-tömörítéshez hozzáadott sztringvezérlő tulajdonság révén javult az eszköz teljesítménye. Teljesítménybeli okokból alapértelmezés szerint letiltottuk a websocket-tömörítést. Ez kis sávszélességű forgatókönyvek esetén újra engedélyezhető. További részletek itt. Ez a GitHub 242. problémáját kezeli.
JavaScript: Az lPronunciation Assessment támogatása a beszédpronunciáció kiértékelésének engedélyezéséhez. A rövid útmutatót itt tekintheti meg.

Hibajavítások

Minden (a JavaScript kivételével): Kijavítottunk egy regressziót az 1.14-es verzióban, amelyben túl sok memóriát foglalt le a felismerő.
C++: Kijavítottunk egy szemétgyűjtési DialogServiceConnectorproblémát a GitHub 794-et érintő problémájával kapcsolatban.
C#: Kijavítottunk egy hibát a szálleállítással kapcsolatban, amely miatt az objektumok körülbelül egy másodpercre blokkolódtak felszabadításkor.
C++/C#/Java: Kijavítottunk egy kivételt, amely megakadályozta, hogy egy alkalmazás többször is beállítsa a beszédengedélyezési jogkivonatot vagy tevékenységsablont egy DialogServiceConnector.
C++/C#/Java: Kijavítottunk egy versenyhelyzetből adódó összeomlást a felismerő leállítási folyamat során.
JavaScript: DialogServiceConnector korábban nem vette figyelembe a botId gyárakban megadott opcionális BotFrameworkConfig paramétert. Ez szükségessé tette a lekérdezési sztring botId paraméter manuális beállítását egy nem alapértelmezett robot használatához. A hibát kijavítottuk, és botId a gyáraknak BotFrameworkConfigmegadott értékeket tiszteletben tartjuk és felhasználjuk, beleértve az újakat fromHost() és fromEndpoint() a kiegészítéseket is. applicationId Ez a CustomCommandsConfig paraméterre is vonatkozik.
JavaScript: Kijavítottuk a GitHub #881-et, amely lehetővé teszi a felismerő objektum újrahasználatát.
JavaScript: Kijavítottunk egy hibát, amely miatt az SKD többször is küldött speech.config egy TTS-munkamenetben, és a sávszélességet is felhasználta.
JavaScript: Egyszerűsített hibakezelés a mikrofon engedélyezésével, amely lehetővé teszi a leíróbb üzenetek felbuborzását, ha a felhasználó nem engedélyezte a mikrofon bemenetét a böngészőben.
JavaScript: Kijavítottuk a GitHub 249-es hibáját , amely során típushibák lépnek fel ConversationTranslator , és ConversationTranscriber fordítási hibát okoztak a TypeScript-felhasználók számára.
Objective-C: Kijavítottunk egy hibát, amely miatt a GStreamer buildelése nem sikerült az iOS-hez az Xcode 11.4-en, és a GitHub 911-et érintő problémáját oldotta meg.
Python: Kijavítottuk a GitHub #870 számú probléma, és eltávolítottuk a "DeprecationWarning: az imp modul elavultnak tekintendő az importlib modul javára".

Minták

A JavaScript böngésző fájlmintája mostantól fájlokat használ a beszédfelismeréshez. Ez a GitHub 884- ik számának problémájával foglalkozik.

Speech SDK 1.14.0: 2020. októberi kiadás

Megjegyzés:

A Windows Speech SDK a Visual Studio 2015, 2017 és 2019 megosztott Microsoft Visual C++ terjeszthető szolgáltatásától függ.

Új funkciók

Linux: A Debian 10 és az Ubuntu 20.04 LTS támogatása hozzáadva.
Python/Objective-C: Támogatás hozzáadva az KeywordRecognizer API-hoz. A dokumentáció itt lesz.
C++/Java/C#: Támogatást adtunk ahhoz, hogy bármely kulcsot/értéket be lehessen állítani HttpHeader segítségévelServicePropertyChannel::HttpHeader.
JavaScript: Támogatás hozzáadva a ConversationTranscriber API-hoz. A dokumentációt itt olvashatja el.
C++/C#: Új AudioDataStream FromWavFileInput metódust adott hozzá (az olvasáshoz. WAV-fájlok) itt (C++) és itt (C#).
C++/C#/Java/Python/Objective-C/Swift: Hozzáadott egy stopSpeakingAsync() módszert a szöveg beszédszintézishez való leállításához. A referenciadokumentációt itt (C++), itt (C#), itt (Java), itt (Python) és itt (Objective-C/Swift) találja.
C#, C++, Java: Hozzáadtunk egy függvényt FromDialogServiceConnector() az Connection osztályhoz, amely a kapcsolat és a kapcsolat bontási DialogServiceConnectoreseményeinek figyelésére használható. A referenciadokumentációt itt (C#),itt (C++) és itt (Java) találja.
C++/C#/Java/Python/Objective-C/Swift: A kiejtési értékelés támogatása, amely kiértékeli a beszéd kiejtését, és visszajelzést ad a beszélőknek a beszélt hang pontosságáról és folyékonyságáról. A dokumentációt itt olvashatja el.

Kompatibilitást megszakító változás

JavaScript: A PullAudioOutputStream.read() visszatérési típusa belső ígéretről natív JavaScript-ígéretre változik.

Hibajavítások

Minden: Rögzített 1,13 regresszió SetServiceProperty , ahol bizonyos speciális karaktereket tartalmazó értékeket figyelmen kívül hagytak.
C#: Kijavítottuk a Windows-konzolmintákat a Visual Studio 2019-ben, és nem sikerült natív DLL-eket találni.
C#: Kijavítottuk a memóriakezelés miatti összeomlást, ha a stream bemenetként van használva KeywordRecognizer.
ObjectiveC/Swift: Kijavítottuk a memóriakezelés összeomlását, ha a streamet felismerő bemenetként használják.
Windows: Javítottuk egy, a BT HFP/A2DP és az UWP közötti együttműködési problémát.
JavaScript: A munkamenet-azonosítók rögzített leképezése a naplózás és a belső hibakeresési/szolgáltatás-korrelációk javítására.
JavaScript: Javítás hozzáadva a DialogServiceConnector hívások letiltásához ListenOnce az első hívás után.
JavaScript: Kijavítottuk azt a hibát, amely miatt az eredménykimenet mindig "egyszerű" volt.
JavaScript: Kijavítottuk a folyamatos felismerési problémát a Safariban macOS rendszeren.
JavaScript: A processzorterhelés csökkentése a nagy kérések átviteli sebességének forgatókönyvéhez.
JavaScript: Hozzáférés engedélyezése a hangprofil-regisztráció eredményének részleteihez.
JavaScript: Javítás hozzáadva a folyamatos felismeréshez a következőben IntentRecognizer: .
C++/C#/Java/Python/Swift/ObjectiveC: Az australiaeast és a brazilsouth helytelen URL-címét javítottuk a következőben IntentRecognizer: .
C++/C#: Argumentumként hozzáadva VoiceProfileType objektum VoiceProfile létrehozásakor.
C++/C#/Java/Python/Swift/ObjectiveC: Kijavítottuk a lehetőséget SPX_INVALID_ARG , amikor egy adott pozícióból próbálunk olvasni AudioDataStream .
IOS: Kijavítottuk az összeomlást a Unity beszédfelismerésével

Minták

ObjectiveC: Itt hozzáadott minta a kulcsszófelismeréshez.
C#/JavaScript: Rövid útmutatót adott hozzá a beszélgetés átírásához itt (C#) és itt (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: Itt hozzáadott minta a kiejtési értékeléshez

Ismert probléma

A DigiCert Global Root G2-tanúsítvány alapértelmezés szerint nem támogatott a HoloLens 2-ben és az Android 4.4-ben (KitKat), és hozzá kell adni a rendszerhez a Speech SDK működéséhez. A tanúsítvány a közeljövőben bekerül a HoloLens 2 operációsrendszer-rendszerképekbe. Az Android 4.4-ügyfeleknek hozzá kell adniuk a frissített tanúsítványt a rendszerhez.

A COVID-19 rövidített tesztelése

Mivel az elmúlt hetekben távolról dolgoztunk, nem tudtunk annyi manuális ellenőrzést végezni, mint általában. Nem végeztünk olyan módosítást, amely szerintünk bármit is tönkretett volna, és az automatizált tesztjeink mind átmentek. Abban a valószínűtlen esetben, ha elmulasztottunk valamit, kérjük, tudassa velünk a GitHubon.
Maradjon egészséges!

Speech SDK 1.13.0: 2020. júliusi kiadás

Megjegyzés:

A Windows Speech SDK a Visual Studio 2015, 2017 és 2019 megosztott Microsoft Visual C++ terjeszthető szolgáltatásától függ.

Új funkciók

C#: Az aszinkron beszélgetés átírásának támogatása hozzáadva. A dokumentációt itt találja.
JavaScript: A Speaker Recognition támogatást kapott mind a böngésző, mind Node.js esetében.
JavaScript: A nyelvazonosítás/nyelvazonosító támogatása hozzáadva. A dokumentációt itt találja.
Objective-C: A többeszközes beszélgetés és a beszélgetés átírásának támogatása.
Python: Tömörített hangtámogatást adtunk hozzá a Pythonhoz Windowson és Linuxon. A dokumentációt itt találja.

Hibajavítások

Minden: Kijavítottunk egy hibát, amely miatt a KeywordRecognizer nem lépte át a streameket a felismerés után.
Minden: Kijavítottunk egy hibát, amely miatt a KeywordRecognitionResult szolgáltatásból beszerzett stream nem tartalmazza a kulcsszót.
Minden: Kijavítottunk egy hibát, amely miatt a SendMessageAsync nem igazán küldte el az üzenetet a vezetéken keresztül, miután a felhasználók befejezték a várakozást.
Minden: Kijavítottunk egy összeomlást a Speaker Recognition API-kban, amikor a felhasználók többször is felhívták a VoiceProfileClient::SpeakerRecEnrollProfileAsync metódust, és nem vártak a hívások befejezésére.
Minden: Kijavítva a fájlnaplózás engedélyezése a VoiceProfileClient és a SpeakerRecognizer osztályokban.
JavaScript: Kijavítottunk egy hibát, amely a böngésző kicsinyítésekor befolyásolta a fojtást.
JavaScript: Kijavítottunk egy hibát , amely miatt memóriavesztés történt a streameken.
JavaScript: A NodeJS-ből érkező OCSP-válaszok gyorsítótárazása hozzáadva.
Java: Kijavítottunk egy hibát, amely miatt a BigInteger mezők mindig 0 értéket adnak vissza.
iOS: Kijavítottunk egy hibát a Speech SDK-alapú alkalmazások iOS App Store-ban való közzétételével kapcsolatban .

Minták

C++: Itt hozzáadott mintakódot a Speaker Recognitionhez.

A COVID-19 rövidített tesztelése

Speech SDK 1.12.1: 2020–júniusi kiadás

Új funkciók

C#, C++: Speaker Recognition Preview: Ez a funkció lehetővé teszi a beszélő azonosítását (ki beszél?) és a beszélő ellenőrzését (az a beszélő, akiről azt állítják, hogy ő?). Tekintse meg az áttekintési dokumentációt.

Hibajavítások

C#, C++: A rögzített mikrofonfelvétel nem működött az 1.12-ben a Speaker Recognitionben.
JavaScript: Javítások szövegfelolvasáshoz a Firefoxban és a Safariban macOS és iOS rendszeren.
Javítás a Windows-alkalmazások ellenőrzője által okozott hozzáférés-megsértés miatti összeomlásra a beszélgetési átírás során, nyolccsatornás stream használatakor.
Kijavítottuk a Windows alkalmazás-ellenőrző hozzáférés megsértése miatti összeomlást a több eszközös beszélgetés fordítása során.

Minták

C#: Kódmintája a beszélőfelismeréshez.
C++: Kódminta beszélőfelismeréshez.
Java: Kódminta szándékfelismeréshez Androidon.

A COVID-19 rövidített tesztelése

Speech SDK 1.12.0: 2020. májusi kiadás

Új funkciók

Go: Új Go nyelv támogatása a beszédfelismeréshez és egyéni hangsegédekhez. Itt állíthatja be a fejlesztői környezetet. A mintakódért tekintse meg az alábbi Minták szakaszt.
JavaScript: A böngésző támogatja a szöveg beszédhez való használatát. A dokumentációt itt találja.
C++, C#, Java: Windows, Android, Linux és iOS platformokon támogatott új KeywordRecognizer objektumok és API-k. A dokumentációt itt olvashatja el. A mintakódért tekintse meg az alábbi Minták szakaszt.
Java: Többeszközes beszélgetés hozzáadva a fordítási támogatással. A referencia-dokumentumot itt találja.

Fejlesztések és optimalizálás

JavaScript: Optimalizált böngészőmikrofon implementáció, amely javítja a beszédfelismerés pontosságát.
Java: A közvetlen JNI-implementációt használó kötések újrabontása SWIG nélkül. Ez a változás 10-szeresére csökkenti a Kötések méretét a Windows, Android, Linux és Mac rendszerhez használt összes Java-csomaghoz, és megkönnyíti a Speech SDK Java implementációjának további fejlesztését.
Linux: Frissített támogatási dokumentáció az RHEL 7 legújabb konkrét megjegyzéseivel.
Továbbfejlesztett kapcsolatlogika, amellyel szolgáltatás- és hálózati hibák esetén többször is megkísérelhet csatlakozni.
Frissítette a portal.azure.com Speech rövid útmutatóját, amely segít a fejlesztőknek az Azure AI Speech folyamatának következő lépésében.

Hibajavítások

C#, Java: Kijavítottunk egy hibát az SDK-kódtárak Linux ARM-en való betöltésével kapcsolatban (32 bites és 64 bites).
C#: Kijavítottuk a TranslationRecognizer, az IntentRecognizer és a Connection objektumok natív leíróinak explicit eltávolítását.
C#: Rögzített hangbemeneti élettartam-kezelés a ConversationTranscriber objektumhoz.
Kijavítottunk egy hibát, amely IntentRecognizer miatt az eredmény oka nem lett megfelelően beállítva az egyszerű kifejezésekből származó szándékok felismerésekor.
Kijavítottunk egy hibát, amely miatt a SpeechRecognitionEventArgs eredményeltolás helytelenül volt beállítva.
Kijavítottunk egy versenyhelyzetet, amely miatt az SDK hálózati üzenetet próbált küldeni a websocket-kapcsolat megnyitása előtt. TranslationRecognizer reprodukálható volt a résztvevők hozzáadása közben.
Kijavítottuk a memóriaszivárgást a kulcsszó-felismerő motorban.

Minták

Go: Gyors kezdő lépések a beszédfelismeréshez és a testreszabott hangsegédhez. A mintakódot itt találja.
JavaScript: Gyorsindítás hozzáadva a szöveg-hangosításhoz, fordításhoz és szándékfelismeréshez.
Kulcsszófelismerő minták C# és Java (Android) esetén.

A COVID-19 rövidített tesztelése

Mivel az elmúlt hetekben távolról dolgoztunk, nem tudtunk annyi manuális ellenőrzést végezni, mint általában. Nem végeztünk olyan módosítást, amely szerintünk bármit is tönkretett volna, és az automatizált tesztjeink mind átmentek. Ha elmulasztottunk valamit, kérjük, tudassa velünk a GitHubon.
Maradjon egészséges!

Speech SDK 1.11.0: 2020. márciusi kiadás

Új funkciók

Linux: Támogatott a Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
Linux: A .NET Core C# támogatása hozzáadva Linux ARM32-n és Arm64-en. További tudnivalók itt.
C#, C++: UtteranceId hozzáadva ConversationTranscriptionResult azonosítóként, amely minden köztes és végső beszédfelismerési eredményben konzisztensem azonosítóként működik. Részletek a C#, C++-hoz.
Python: Támogatás hozzáadva a Language ID-hez. Lásd: speech_sample.py a GitHub-adattárban.
Windows: A windowsos platformon hozzáadott tömörített hangbemeneti formátum minden win32-konzolalkalmazáshoz támogatott. Részletek itt.
JavaScript: Beszédszintézis támogatása (szövegről beszédre) a NodeJS-ben. További tájékoztatást itt olvashat.
JavaScript: Új API-k hozzáadása az összes elküldött és fogadott üzenet ellenőrzésének engedélyezéséhez. További tájékoztatást itt olvashat.

Hibajavítások

C#, C++: Kijavítottunk egy hibát, így a SendMessageAsync most már bináris típusban küldi a bináris üzenetet. Részletek a C#, C++-hoz.
C#, C++: Kijavítottunk egy hibát, amely miatt az Connection MessageReceived esemény használata összeomlást okozhat, ha a Recognizer megsemmisül a Connection objektum előtt. Részletek a C#, C++-hoz.
Android: A mikrofon hangpuffermérete 800 ms-ról 100 ms-ra csökkent a késés javítása érdekében.
Android: Kijavítottunk egy x86-os Android emulátorsal kapcsolatos hibát az Android Studióban.
JavaScript: Az API-val bővült a fromSubscription kínai régiók támogatása. Részletek itt.
JavaScript: További hibainformációk hozzáadása a NodeJS kapcsolati hibáihoz.

Minták

Unity: Javítva a szándékfelismerés nyilvános mintája, ahol a LUIS json importálása sikertelen volt. Részletek itt.
Python: Minta hozzáadva a Language ID-hez. Részletek itt.

A Covid19 rövidített tesztelése: Mivel az elmúlt hetekben távolról dolgoztunk, nem tudtunk annyi manuális eszközellenőrzési tesztet végezni, mint általában. Például nem tudtuk tesztelni a mikrofon bemenetét és a hangszóró kimenetét Linux, iOS és macOS rendszeren. Nem végeztünk olyan módosítást, amely szerintünk bármit is tönkretett volna ezeken a platformokon, és az automatizált tesztjeink mind sikeresek. Abban a valószínűtlen esetben, amikor elmulasztottunk valamit, tudassa velünk a GitHubon.
Köszönjük, hogy továbbra is támogatja. Mint mindig, kérjük, tegyen fel kérdéseket vagy visszajelzést a GitHubon vagy a Stack Overflow-on.
Maradjon egészséges!

Speech SDK 1.10.0: 2020– februári kiadás

Új funkciók

Python-csomagokat adtunk hozzá a Python új 3.8-ás kiadásának támogatásához.
Red Hat Enterprise Linux (RHEL)/CentOS 8 x64-támogatás (C++, C#, Java, Python).

Megjegyzés:

Az ügyfeleknek ezeknek az utasításoknak megfelelően kell konfigurálnia az OpenSSL-t.
Linux ARM32-támogatás a Debianhoz és az Ubuntuhoz.
A DialogServiceConnector mostantól támogatja a BotFrameworkConfig opcionális "robotazonosító" paraméterét. Ez a paraméter több Direct Line Speech-robot használatát teszi lehetővé egyetlen Speech-erőforrással. A megadott paraméter nélkül a rendszer az alapértelmezett robotot használja (a Direct Line Speech-csatorna konfigurációs oldalán meghatározottak szerint).
A DialogServiceConnector mostantól SpeechActivityTemplate tulajdonsággal rendelkezik. Ennek a JSON-sztringnek a tartalmát a Direct Line Speech a támogatott mezők széles körének előretöltésére fogja használni minden olyan tevékenységben, amely eléri a Direct Line Speech robotot, beleértve a beszédfelismeréshez hasonló eseményekre válaszul automatikusan generált tevékenységeket is.
A TTS mostantól az előfizetési kulcsot használja a hitelesítéshez, és csökkenti az első szintézis eredményének első bájt késését a szintetizátor létrehozása után.
Frissített beszédfelismerési modellek 19 nyelvi beállításhoz, átlagosan 18,6%-os szóhibaarány csökkenéssel% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Az új modellek jelentős fejlesztéseket tesznek elérhetővé több tartományban, többek között a Diktálás, Call-Center Átirat és Video Indexelési forgatókönyvekben.

Hibajavítások

Kijavítottuk azt a hibát, amely miatt a beszélgetés-átíró nem várt megfelelően a JAVA API-kban.
Hiányzó (Get|Set)Property metódusok hozzáadása az AudioConfig-hez.
Kijavítottunk egy TTS-hibát, amely miatt az audioDataStream nem állítható le a kapcsolat meghiúsulásakor.
Ha régió nélküli végpontot használ, az USP-hibákat okozna a beszélgetési fordító számára.
Az Univerzális Windows-alkalmazások azonosító-generálása mostantól egy megfelelően egyedi GUID algoritmust alkalmaz; korábban akaratlanul egy csonkolt megvalósítást használt alapértelmezésként, amely gyakran eredményezett ütközéseket nagy mennyiségű interakció során.

Minták

Unity-minta a Speech SDK Unity mikrofon és leküldési módú streaming használatához

Egyéb módosítások

Linuxra frissített OpenSSL-konfigurációs dokumentáció

Speech SDK 1.9.0: 2020. januári kiadás

Új funkciók

Többeszközes beszélgetés: több eszközt csatlakoztathat ugyanahhoz a beszéd- vagy szövegalapú beszélgetéshez, és igény szerint lefordíthatja a közöttük küldött üzeneteket. További információ ebben a cikkben.
Az Android-csomaghoz .aar hozzáadott kulcsszófelismerési támogatás és az x86- és x64-ízek támogatása.
Objective-C: SendMessage és SetMessageProperty az objektumhoz Connection hozzáadott metódusok. A dokumentációt itt találja.
A TTS C++ api mostantól támogatja std::wstring a szintézis szövegbevitelét, így nem kell sztringgé alakítania a wstringet, mielőtt átadaná azt az SDK-nak. Részletek itt.
C#: A nyelvi azonosító és a forrásnyelv konfigurációja már elérhető.
JavaScript: Hozzáadtunk egy funkciót az Connection objektumhoz, amely lehetővé teszi, hogy egyéni üzeneteket a Speech szolgáltatásból receivedServiceMessage visszahívásként küldjünk át.
JavaScript: Támogatás hozzáadva a FromHost API helyszíni tárolók és a szuverén felhők egyszerű használatához. A dokumentációt itt találja.
JavaScript: Mostantól tiszteletben tartjuk NODE_TLS_REJECT_UNAUTHORIZEDorgads közreműködésének köszönhetően. Részletek itt.

kompatibilitástörő változások

OpenSSL az 1.1.1b-es verzióra lett frissítve, és statikusan kapcsolódik a Linux speech SDK magtárához. Ez törést okozhat, ha a beérkezett üzenetek mappája OpenSSL nem lett telepítve a /usr/lib/ssl rendszer címtárába. A probléma megoldásához tekintse meg a Speech SDK dokumentációjában található dokumentációt .
Módosítottuk a C# WordLevelTimingResult.Offset által visszaadott adattípust int típusról long típusra, lehetővé téve a WordLevelTimingResults hozzáférését, amikor a beszédadatok hossza meghaladja a 2 percet.
PushAudioInputStream és PullAudioInputStream most elküldi a wav fejlécinformációkat a Speech szolgáltatásnak, a létrehozásukkor opcionálisan megadott AudioStreamFormat alapján. Az ügyfeleknek most már a támogatott hangbemeneti formátumot kell használniuk. Minden más formátum optimálisnál rosszabb felismerési eredményeket kap, vagy más problémákat okozhat.

Hibajavítások

Tekintse meg a frissítést a OpenSSL fenti kompatibilitástörő módosítások alatt. Kijavítottunk egy időszakos összeomlást és egy teljesítményproblémát (magas terhelésű zárolási versengést) Linuxon és Java-ban.
Java: Továbbfejlesztette az objektumok bezárását a magas egyidejűségi forgatókönyvekben.
Átstrukturáltuk a NuGet-csomagot. Eltávolítottuk a lib mappák három példányát Microsoft.CognitiveServices.Speech.core.dll és Microsoft.CognitiveServices.Speech.extension.kws.dll alatta, így a NuGet-csomag kisebb és gyorsabb letöltést tesz lehetővé, és hozzáadtuk a C++ natív alkalmazások fordításához szükséges fejléceket.
Itt javítottuk a gyorsindítási mintákat. Ezek a "mikrofon nem található" kivétel megjelenítése nélkül léptek ki Linux, macOS, Windows rendszeren.
Kijavítottuk az SDK összeomlását, amely hosszú beszédfelismerési eredményeket eredményez bizonyos kódútvonalakon, például ebben a mintában.
Kijavítottuk az SDK üzembehelyezési hibáját az Azure Web App-környezetben az ügyfél problémájának megoldása érdekében.
Kijavítottunk egy TTS-hibát, amikor több <voice> címkét vagy <audio> címkét használt az ügyfél problémájának megoldásához.
Kijavítottunk egy TTS 401-hibát, amikor az SDK visszatért a felfüggesztett állapotból.
JavaScript: Kijavítottuk a hangadatok körkörös importálását az euirim hozzájárulásának köszönhetően.
JavaScript: az 1.7-ben hozzáadott szolgáltatástulajdonságok beállításának támogatása.
JavaScript: Kijavítottunk egy hibát, amely miatt a kapcsolati hiba folyamatos, sikertelen websocket-újracsatlakozási kísérleteket eredményezhetett.

Minták

Kulcsszófelismerő minta hozzáadva Androidhoz itt.
Itt hozzáadott TTS-mintát a kiszolgálói forgatókönyvhöz.
Többeszközes beszélgetési rövid útmutatók a C# és a C++ használatához itt.

Egyéb módosítások

Optimalizált SDK-magtár mérete Androidon.
Az 1.9.0-s és újabb verziójú SDK támogatja a beszélgetés-átíró hangaláírási verzió mezőjének mindkét int és string típusát.

Speech SDK 1.8.0: 2019. novemberi kiadás

Új funkciók

Hozzáadott egy FromHost() API-t, amely megkönnyíti a helyszíni tárolók és a szuverén felhők használatát.
A beszédfelismeréshez hozzáadott forrásnyelv-azonosítás (Javában és C++-ban)
Hozzáadott SourceLanguageConfig objektum a Speech Recognitionhez, amely a várt forrásnyelvek megadására szolgál (Java és C++)
Windows (UWP), Android és iOS rendszereken nyújtott támogatás a KeywordRecognizer NuGet és Unity csomagokon keresztül
Hozzáadtuk a Távoli Beszélgetés Java API-t az aszinkron kötegekben történő beszélgetés átírásához.

kompatibilitástörő változások

A névtér Microsoft.CognitiveServices.Speech.Transcriptionalatt áthelyezett beszélgetés-átíró funkciók.
A Beszélgetés-átíró metódusok részei át lesznek helyezve az új Conversation osztályba.
Megszűnt a 32 bites (ARMv7 és x86) iOS támogatása

Hibajavítások

Javítás összeomlás esetén, ha a helyi KeywordRecognizer nyelv érvényes Speech service-előfizetési kulcs nélkül van használatban

Minták

A KeywordRecognizer számára készült Xamarin-minta
Unity-minta a következőhöz: KeywordRecognizer
C++ és Java-minták az automatikus forrásnyelv-azonosításhoz.

Speech SDK 1.7.0: 2019–szeptemberi kiadás

Új funkciók

A Xamarin bétaverziós támogatása univerzális Windows platformon (UWP), Androidon és iOS rendszeren
IOS-támogatás hozzáadva a Unityhez
ALaw, Mulaw és FLAC bemeneti támogatás hozzáadásra került Android, iOS és Linux rendszeren.
Az SendMessageAsync osztályhoz hozzáadva Connection a szolgáltatásnak történő üzenetküldéshez.
Hozzáadva SetMessageProperty a Connection osztályban egy üzenet tulajdonságának beállítására
TTS hozzáadta a támogatásokat Java (JRE és Android), Python, Swift és Objective-C számára.
A TTS hozzáadta a lejátszás támogatását macOS, iOS és Android rendszerekhez.
A TTS-hez "szóhatár" információkat adtunk hozzá.

Hibajavítások

Kijavítottuk az IL2CPP buildelési problémáját az Android Unity 2019-ben
Kijavítottuk a hibásan formázott fejlécek helytelen feldolgozását a wav-fájl bemenetében
Kijavítottuk azt a hibát, hogy az UUID-k egyes kapcsolattulajdonságokban nem egyediek
Javítottunk ki néhány figyelmeztetést a Swift kötések nullabilitási meghatározóiról (kis kódmódosításokat igényelhet)
Kijavítottunk egy hibát, amely miatt a websocket-kapcsolatok nem megfelelően zárultak le hálózati terhelés alatt.
Kijavítottunk egy hibát az Androidon, amely néha ismétlődő megjelenítési azonosítókat eredményezett, amelyeket a DialogServiceConnector használt.
A többfordulós interakciók közötti kapcsolatok stabilitásának javítása és a hibák jelentése (eseményeken keresztül Canceled ) DialogServiceConnector
DialogServiceConnector a munkamenetek indításai mostantól megfelelően nyújtják az eseményeket, beleértve, amikor ListenOnceAsync() hívás történik egy aktív StartKeywordRecognitionAsync() során
A fogadott tevékenységekhez DialogServiceConnector kapcsolódó összeomlás elhárítása

Minták

Rövid útmutató a Xamarinhoz
Frissített C++ gyorstalpaló Linux Arm64-információkkal
Frissített Unity gyorsindítási útmutató iOS-információkkal

Speech SDK 1.6.0: 2019–júniusi kiadás

Minták

Rövid útmutató minták a Text To Speechhez az UWP-n és a Unityn
Rövid útmutató minta a Swifthez iOS rendszeren
Unity-minták beszéd- és szándékfelismeréshez és fordításhoz
Frissített gyorsútmutató-minták a következőhöz: DialogServiceConnector

Fejlesztések/módosítások

Párbeszéd-névtér:
- A SpeechBotConnector új nevet kapott: DialogServiceConnector
- A BotConfig új nevet kapott: DialogServiceConfig
- BotConfig::FromChannelSecret() újra lett térképezve DialogServiceConfig::FromBotSecret()
- Az átnevezés után az összes meglévő Direct Line Speech-ügyfél továbbra is támogatott
TTS REST-adapter frissítése a proxy és az állandó kapcsolat támogatásához
Érvénytelen régió átadásakor megjelenő hibaüzenet javítása
Swift/Objective-C:
- Továbbfejlesztett hibajelentés: A hibát eredményező metódusok NSError két verzióban jelennek meg: az egyik egy objektumot tesz elérhetővé a hibakezeléshez, a másik pedig kivételt okoz. Az előbbiek a Swiftnek vannak kitéve. Ez a módosítás a meglévő Swift-kódhoz való alkalmazkodást igényli.
- Továbbfejlesztett eseménykezelés

Hibajavítások

Javítás a TTS-hez: ahol a jövőbeli objektum visszatért várakozás nélkül, amíg a hang le nem játszódott a renderelésben.
Javítás a karakterláncok C#-ban történő adatátvitelére, amely lehetővé teszi a teljes nyelvi támogatást.
A .NET core-alkalmazásban a net461 célplatform használatával a magkönyvtár betöltésének problémájának megoldása a mintákban.
A minták kimeneti mappájában natív kódtárak üzembe helyezésével kapcsolatos alkalmi problémák megoldása
Javítás a websockets megbízható bezárásához
Az esetleges összeomlás javítása, amikor Linuxon nagy terhelés alatt megnyit egy kapcsolatot.
Hiányzó metaadatok javítása a macOS keretrendszercsomagjában
Javítás windowsos pip install --user problémák esetén

Speech SDK 1.5.1

Ez egy hibajavítási kiadás, amely csak a natív/felügyelt SDK-t érinti. Ez nincs hatással az SDK JavaScript-verziójára.

Hibajavítások

A FromSubscription javítása beszélgetési átírással való használat esetén.
Kijavíthatja a Voice Assistants kulcsszó-észlelési hibáját.

Speech SDK 1.5.0: 2019. májusi kiadás

Új funkciók

A kulcsszó-észlelés (KWS) mostantól elérhető Windows és Linux rendszeren is. A KWS funkció bármilyen mikrofontípussal működhet, a hivatalos KWS-támogatás azonban jelenleg az Azure Kinect DK hardverben vagy a Speech Devices SDK-ban található mikrofontömbökre korlátozódik.
A kifejezésmutató funkció az SDK-on keresztül érhető el. További információt itt talál.
A beszélgetés átírási funkciója az SDK-on keresztül érhető el.
A Hangsegédek támogatása a Direct Line Speech csatornával.

Minták

Az SDK által támogatott új funkciókhoz vagy új szolgáltatásokhoz hozzáadott minták.

Fejlesztések/módosítások

Különböző felismerő tulajdonságokat adott hozzá a szolgáltatás viselkedésének vagy a szolgáltatás eredményeinek módosításához (például a trágárság maszkolásához és másokhoz).
Most már konfigurálhatja a felismerőt a szabványos konfigurációs tulajdonságokon keresztül, még akkor is, ha létrehozta a felismerőt FromEndpoint.
Objective-C: OutputFormat tulajdonság lett hozzáadva a SPXSpeechConfiguration.
Az SDK mostantól Linux-disztribúcióként támogatja a Debian 9-et.

Hibajavítások

Kijavítottunk egy problémát, amely miatt a beszédgenerátor erőforrása túl korán került törlésre a szövegfelolvasás során.

Speech SDK 1.4.2

Ez egy hibajavítási kiadás, amely csak a natív/felügyelt SDK-t érinti. Ez nincs hatással az SDK JavaScript-verziójára.

Speech SDK 1.4.1

Ez a kiadás kizárólag JavaScript-re épül. Nem adtak hozzá új funkciókat. A következő javítások történtek:

Megakadályozza, hogy a webcsomag betöltse a https-proxy-agentet.

Speech SDK 1.4.0: 2019. áprilisi kiadás

Új funkciók

Az SDK mostantól bétaverzióként támogatja a Szövegfelolvasás szolgáltatást. Windowsos és linuxos asztali számítógépeken támogatott a C++ és C# programnyelveken. További információkért tekintse át a Szöveg a beszédhez című témakör áttekintését.
Az SDK mostantól streambemeneti fájlként támogatja az MP3 és az Opus/OGG hangfájlokat. Ez a funkció csak Linuxon érhető el c++ és C# nyelven, és jelenleg bétaverzióban érhető el (további részletek itt).
A Java-hoz készült Speech SDK, a .NET Core, a C++ és a Objective-C macOS-támogatást kaptak. A macOS Objective-C támogatása jelenleg bétaverzióban érhető el.
iOS: Az iOS Speech SDK (Objective-C) mostantól CocoaPodként is elérhető.
JavaScript: Nem alapértelmezett mikrofon támogatása bemeneti eszközként.
JavaScript: Proxy szolgáltatás Node.jsbemenetre.

Minták

A Speech SDK c++ és Objective-C macOS rendszeren való használatára vonatkozó minták lettek hozzáadva.
A szöveg beszédszolgáltatásban való használatát bemutató minták lettek hozzáadva.

Fejlesztések/módosítások

Python: A felismerési eredmények további tulajdonságai mostantól elérhetők a properties tulajdonságon keresztül.
További fejlesztési és hibakeresési támogatásért átirányíthatja az SDK naplózási és diagnosztikai adatait egy naplófájlba (további részletek itt).
JavaScript: A hangfeldolgozás teljesítményének javítása.

Hibajavítások

Mac/iOS: Kijavítottunk egy hibát, amely hosszú várakozást eredményezett, amikor nem sikerült kapcsolatot létesíteni a Speech szolgáltatással.
Python: az argumentumok hibakezelésének javítása a Python-visszahívásokban.
JavaScript: Kijavítottuk a helytelen állapotjelentést a RequestSession szolgáltatásban befejeződött beszédhez.

Speech SDK 1.3.1: 2019–februári frissítés

Ez egy hibajavítási kiadás, amely csak a natív/felügyelt SDK-t érinti. Ez nincs hatással az SDK JavaScript-verziójára.

Hibajavítás

Kijavítottunk egy memóriaszivárgást a mikrofon bemenetének használatakor. A stream alapú vagy fájl alapú bemenetre nincs hatással.

Speech SDK 1.3.0: 2019–februári kiadás

Új funkciók

A Speech SDK támogatja a bemeneti mikrofon kiválasztását az AudioConfig osztályon keresztül. Ez lehetővé teszi, hogy hangadatokat streameljen a Speech szolgáltatásba egy nem alapértelmezett mikrofonból. További információkért tekintse meg a hangbemeneti eszköz kiválasztását ismertető dokumentációt. Ez a funkció még nem érhető el a JavaScriptből.
A Speech SDK mostantól bétaverzióban támogatja a Unityt. Küldjön visszajelzést a GitHub-mintaadattár problémás szakaszán keresztül. Ez a kiadás támogatja a Unityt Windows x86-on és x64-en (asztali vagy univerzális Windows Platform-alkalmazások), valamint Androidon (ARM32/64, x86). További információt a Unity rövid útmutatójában talál.
A fájl Microsoft.CognitiveServices.Speech.csharp.bindings.dll, amelyet a korábbi verziókban szállítottak, már nincs szükség. A funkció most már integrálva van az alapvető SDK-ba.

Minták

A mintaadattárban a következő új tartalom érhető el:

További minták a AudioConfig.FromMicrophoneInput számára.
További Python-minták szándékfelismeréshez és fordításhoz.
További minták az Connection objektum iOS-ben való használatához.
További Java-minták hangkimenettel történő fordításhoz.
Új minta a Batch Transcription REST API használatához.

Fejlesztések/módosítások

Piton
- Továbbfejlesztett paraméter-ellenőrzés és hibaüzenetek a következőben SpeechConfig: .
- Támogatás hozzáadása a(z) Connection objektumhoz.
- 32 bites Python (x86) támogatása Windows rendszeren.
- A Python Speech SDK-jának bétaverziója nem érhető el.
Ios
- Az SDK mostantól az iOS SDK 12.1-es verziójára épül.
- Az SDK mostantól támogatja az iOS 9.2-s és újabb verzióit.
- A referenciadokumentáció javítása és több tulajdonságnév javítása.
JavaScript
- Támogatás hozzáadása a(z) Connection objektumhoz.
- Típusdefiníciós fájlok hozzáadása a csomagolt JavaScripthez
- A kifejezésmutatók kezdeti támogatása és implementálása.
- Tulajdonságok gyűjteményének visszaadése a JSON szolgáltatással a felismeréshez
A Windows DLL-ek már tartalmaznak verzióerőforrást.
Ha létrehoz egy felismerőt FromEndpoint, paramétereket adhat hozzá közvetlenül a végpont URL-címéhez. Ezzel FromEndpoint nem konfigurálhatja a felismerőt a szabványos konfigurációs tulajdonságokon keresztül.

Hibajavítások

Az üres proxy felhasználóneve és proxyjelszava nem megfelelően lett kezelve. Ebben a kiadásban, ha a proxynevét és a proxyjelszót üres sztringre állítja be, akkor azok nem lesznek elküldve a proxyhoz való csatlakozáskor.
Az SDK által létrehozott SessionId nem mindig volt mindig véletlenszerű bizonyos nyelvek/ környezetek esetében. Véletlenszerű generátor inicializálása lett hozzáadva a probléma megoldásához.
Az engedélyezési jogkivonat kezelésének javítása. Ha engedélyezési jogkivonatot szeretne használni, adja meg a SpeechConfig mezőben, és hagyja üresen az API-kulcsot. Ezután hozza létre a felismerőt a szokásos módon.
Bizonyos esetekben az Connection objektum nem lett megfelelően felszabadítva. Ez a probléma már ki lett javítva.
A JavaScript-mintát úgy javítottuk, hogy támogassa a fordítási szintézis hangkimenetét a Safariban is.

Speech SDK 1.2.1

Ez a kiadás kizárólag JavaScript-re épül. Nem adtak hozzá új funkciókat. A következő javítások történtek:

A stream vége a turn.end-en, nem a speech.end-en.
Kijavítottuk a hangszivattyú azon hibáját, amely nem ütemezte a következő küldést, ha az aktuális küldés sikertelen volt.
A folyamatos felismerés javítása hitelesítési jogkivonattal.
Hibajavítás különböző felismerőkhöz/ végpontokhoz.
Dokumentációs fejlesztések.

Speech SDK 1.2.0: 2018. decemberi kiadás

Új funkciók

Piton
- A Python-támogatás bétaverziója (3.5-ös vagy újabb verzió) ebben a kiadásban érhető el. További információ: itt](.. /.. /quickstart-python.md).
JavaScript
- A JavaScripthez készült Speech SDK nyílt forráskódú. A forráskód elérhető a GitHubon.
- Mostantól támogatjuk Node.js, további információt itt talál.
- A hangkondenzációkra vonatkozó hosszkorlátozás el lett távolítva, az újracsatlakozás automatikusan megtörténik a fedél alatt.
Connection tárgy
- A Recognizer helyről elérhet egy Connection objektumot. Ezzel az objektummal explicit módon kezdeményezheti a szolgáltatáskapcsolatot, és előfizethet a kapcsolódási és leválasztási eseményekre. (Ez a funkció még nem érhető el a JavaScript és a Python használatával.)
Az Ubuntu 18.04 támogatása.
Android
- Bekapcsolt ProGuard támogatás az APK létrehozása során.

Fejlesztések

A belső szálhasználat fejlesztései, a szálak, a zárolások, a mutexek számának csökkentése.
Továbbfejlesztett hibajelentés/ információ. Több esetben a hibaüzenetek nem jutottak el teljes mértékben.
A JavaScriptben frissítettük a fejlesztési függőségeket, hogy a up-to-date modulokat használják.

Hibajavítások

Kijavítottuk a memóriaszivárgásokat a RecognizeAsync-ban előforduló típuseltérés miatti hiba miatt.
Bizonyos esetekben kivételeket szivárogtak ki.
Memóriavesztés javítása a fordítási esemény argumentumaiban.
Kijavítottunk egy zárolási hibát a hosszú ideig futó munkamenetekben való újracsatlakozáskor.
Kijavítottunk egy hibát, amely a sikertelen fordítások végleges eredményének hiányát okozhatta.
C#: Ha async egy művelet nem várt a főszálban, lehetséges volt, hogy a felismerő az aszinkron feladat befejezése előtt el lett helyezve.
Java: Kijavítottunk egy hibát, amely a Java virtuális gép összeomlását eredményezte.
Objective-C: Enum leképezés helyesbítése; a RecognizedIntent-et adta vissza RecognizingIntent helyett.
JavaScript: Állítsa be az alapértelmezett kimeneti formátumot "egyszerű" értékre a következőben SpeechConfig:
JavaScript: Inkonzisztencia eltávolítása a konfigurációs objektum tulajdonságai között JavaScriptben és más nyelveken.

Minták

Több mintát frissített és kijavított (például a fordításhoz használt kimeneti hangokat stb.).
Hozzáadtam Node.js mintákat a mintaadattárhoz.

Speech SDK 1.1.0

Új funkciók

Android x86/x64 támogatása.
Proxytámogatás: Az SpeechConfig objektumban mostantól meghívhat egy függvényt a proxyadatok (állomásnév, port, felhasználónév és jelszó) beállításához. Ez a funkció még nem érhető el iOS rendszeren.
Továbbfejlesztett hibakód és üzenetek. Ha egy felismerés hibát adott vissza, akkor már a Reason (a megszakított eseményben) vagy a CancellationDetails (a felismerési eredményben) be lett állítva Error-ra. Az elmaradt esemény most már két további tagot tartalmaz, ErrorCode és ErrorDetails. Ha a kiszolgáló további hibainformációkat adott vissza a jelentett hibával együtt, az mostantól elérhető lesz az új tagokban.

Fejlesztések

Hozzáadott további ellenőrzést a felismerő konfigurációjában, és további hibaüzenetet adott hozzá.
A hangfájl közepén a hosszú ideig tartó csend jobb kezelése.
NuGet-csomag: .NET-keretrendszer-projektek esetén megakadályozza az AnyCPU-konfigurációval való építést.

Hibajavítások

Kijavítottunk néhány kivételt, amely a felismerőkben található. Emellett a kivételeket a rendszer elkapja, és eseménysé Canceled alakítja.
Megszüntesse a memóriaszivárgást az ingatlangazdálkodásban.
Kijavítottuk azt a hibát, amely miatt egy hangbemeneti fájl összeomlott a felismerőben.
Kijavítottunk egy hibát, amely miatt eseményeket lehetett fogadni egy munkamenet-leállítási esemény után.
Kijavítottunk néhány versenyhelyzetet a szálkezelés során.
Kijavítottunk egy iOS-kompatibilitási hibát, amely összeomlást okozhatott.
Stabilitási fejlesztések androidos mikrofonok támogatásához.
Kijavítottunk egy hibát, amely miatt a JavaScript egyik felismerője figyelmen kívül hagyta a felismerési nyelvet.
Kijavítottunk egy hibát, amely megakadályozta a EndpointId JavaScript (bizonyos esetekben) beállítását.
Módosította a paraméter sorrendjét az AddIntentben a JavaScriptben, és hiányzó AddIntent JavaScript-aláírást adott hozzá.

Minták

C++ és C# mintákat adott hozzá a lekéréses és leküldéses streamek használatához a mintaadattárban.

Speech SDK 1.0.1

Megbízhatósági fejlesztések és hibajavítások:

Kijavítottuk a lehetséges végzetes hibát egy versenyhelyzet miatt a felismerő eltávolításakor.
Kijavítottuk a lehetséges végzetes hibát, amikor nem beállított tulajdonságok fordulnak elő.
Újabb hibák és paraméterek ellenőrzése hozzáadva.
Objective-C: Kijavítottuk az NSStringben a név felülírása által okozott lehetséges végzetes hibát.
Objective-C: Az API korrigált láthatósága
JavaScript: Kijavítva az események és a hasznos adatok tekintetében.
Dokumentációs fejlesztések.

A mintaadattárban egy új JavaScript-mintát vettünk fel.

Azure AI Speech SDK 1.0.0: 2018. szeptemberi kiadás

Új funkciók

Az iOS-en Objective-C támogatása. Tekintse meg az iOS-hez készültObjective-C rövid útmutatót.
JavaScript támogatása böngészőben. Tekintse meg a JavaScript rövid útmutatót.

kompatibilitástörő változások

Ezzel a kiadással számos kompatibilitástörő módosítást vezetünk be. A részletekért tekintse meg ezt a lapot .

Azure AI Speech SDK 0.6.0: 2018. augusztusi kiadás

Új funkciók

A Speech SDK-val készült UWP-alkalmazások mostantól át tudják adni a Windows Alkalmazástanúsítvány-készletet (WACK). Tekintse meg az UWP rövid útmutatót.
A .NET Standard 2.0 támogatása Linuxon (Ubuntu 16.04 x64).
Kísérleti: Java 8 támogatása Windows (64 bites) és Linux rendszeren (Ubuntu 16.04 x64). Tekintse meg a Java Runtime Environment rövid útmutatót.

Funkcionális változás

További részletes hibainformációk megjeleníthetők a csatlakozási hibákról.

kompatibilitástörő változások

Java (Android) esetén a SpeechFactory.configureNativePlatformBindingWithDefaultCertificate függvénynek már nincs szüksége elérésiút-paraméterre. Most a rendszer automatikusan észleli az elérési utat az összes támogatott platformon.
A Java és a C# tulajdonság EndpointUrl get-kiegészítője el lett távolítva.

Hibajavítások

A Java-ban a fordítás-felismerő hangszintézisének eredménye már implementálva van.
Kijavítottunk egy hibát, amely inaktív szálakat és nagyobb számú nyitott és nem használt szoftvercsatornát okozhatott.
Kijavítottunk egy hibát, amely miatt a hosszú ideig futó felismerés leállhatott az átvitel közepén.
Kijavítottunk egy versenyfeltételt a felismerő leállításakor.

Azure AI Speech SDK 0.5.0: 2018. júliusi kiadás

Új funkciók

Android-platform támogatása (API 23: Android 6.0 Marshmallow vagy újabb). Tekintse meg az Android rövid útmutatót.
A .NET Standard 2.0 támogatása Windows rendszeren. Tekintse meg a .NET Core rövid útmutatóját.
Kísérleti: Az UWP támogatása Windows rendszeren (1709-es vagy újabb verzió).
- Tekintse meg az UWP rövid útmutatót.
- Vegye figyelembe, hogy a Speech SDK-val készült UWP-alkalmazások még nem felelnek meg a Windows App Certification Kit (WACK) követelményeinek.
A hosszú ideig futó felismerés támogatása automatikus újracsatlakozással.

Funkcionális változások

StartContinuousRecognitionAsync() támogatja a hosszú ideig futó felismerést.
A felismerés eredménye több mezőt tartalmaz. Ezek el vannak tolva a felismert szöveg hangjának kezdetétől és időtartamától (mind a osztásjelekkel), mind pedig a felismerési állapotot jelző további értékektől, InitialSilenceTimeout például a InitialBabbleTimeout.
Az AuthorizationToken támogatása gyári példányok létrehozásához.

kompatibilitástörő változások

Felismerési események: NoMatch az eseménytípus egyesítve lett az Error eseménybe.
A C#-ban található SpeechOutputFormat úgy lett átnevezve, hogy OutputFormat igazodjon a C++-hoz.
A felület egyes metódusainak visszatérési AudioInputStream típusa kissé megváltozott:
- Java-ban a metódus most már read-t ad vissza long helyett.
- A C#-ban a metódus most Read a helyett ad vissza uintint.
- C++-ban a Read és GetFormat metódusok most már size_t térnek vissza, ahelyett hogy int-t.
C++: A hangbemeneti streamek példányai mostantól csak shared_ptr formátumban adhatók át.

Hibajavítások

Kijavítottuk az eredmény helytelen visszatérési értékeit, ha RecognizeAsync() túllépi az időkorlátot.
A Windows media foundation-kódtáraitól való függőség el lett távolítva. Az SDK mostantól Core Audio API-kat használ.
Dokumentáció javítása: Hozzáadott egy régiók lapot a támogatott régiók leírásához.

Ismert probléma

Az Android Speech SDK nem jelenti a beszédszintézis eredményeit a fordításhoz. Ez a probléma a következő kiadásban lesz kijavítva.

Azure AI Speech SDK 0.4.0: 2018. júniusi kiadás

Funkcionális változások

AudioInputStream

A felismerő mostantól használhat streamet hangforrásként. További információkért tekintse meg a kapcsolódó útmutatót.
Részletes kimeneti formátum

Amikor létrehoz egy SpeechRecognizer, kérheti a Detailed vagy Simple kimeneti formátumot. A DetailedSpeechRecognitionResult egy bizalmi pontszámot, felismert szöveget, nyers lexikális formát, normalizált formát és trágárságokat maszkoló normalizált formát tartalmaz.

Kompatibilitást megszakító változás

"SpeechRecognitionResult.Text-ről SpeechRecognitionResult.RecognizedText-ra változott C#-ban."

Hibajavítások

Kijavítottunk egy lehetséges visszahívási hibát az USP-rétegben a leállítás során.
Ha a felismerő feldolgozott egy hangbemeneti fájlt, az szükségtelenül hosszú ideig tartotta a fájl fogantyút.
Eltávolítottunk több holtpontot az üzenetszivattyú és a felismerő között.
NoMatch A szolgáltatás válaszának időtúllépése esetén aktiválja az eredményt.
A Windows Media Foundation könyvtárai késleltetve töltődnek be. Ez a kódtár csak a mikrofon bemenetéhez szükséges.
A hangadatok feltöltési sebessége az eredeti hangsebesség körülbelül kétszeresére korlátozódik.
Windows rendszeren a C# .NET-szerelvények mostantól erős névvel vannak elnevezve.
Dokumentáció javítása: Region a felismerő létrehozásához szükséges információk.

További minták lettek hozzáadva, és folyamatosan frissülnek. A legújabb mintákért tekintse meg a Speech SDK-minták GitHub-adattárát.

Azure AI Speech SDK 0.2.12733: 2018– májusi kiadás

Ez a kiadás az Azure AI Speech SDK első nyilvános előzetes verziója.

Speech CLI 1.43: 2025 márciusi hónapra történő kiadás

Új funkciók

Frissítettük az SPX-t a .NET 8 használatára.

Hibajavítások

Kijavítottuk az SPX Docker-tárolót, amely nem működik helyszíni kötegelt forgatókönyvekben.

Speech CLI 1.40.0: 2024. augusztusi kiadás

A Speech SDK 1.40.0 használatára frissítve

Új funkciók

Nincs

Hibajavítások

Nincs

Speech CLI 1.38.0: 2024. júniusi kiadás

A Speech SDK 1.38.0 használatára frissítve

Új funkciók

Nincs

Hibajavítások

Nincs

Speech CLI 1.37.0: 2024. áprilisi kiadás

A Speech SDK 1.37.0 használatára frissítve

Új funkciók

Nincs

Hibajavítások

Nincs

Speech CLI 1.36.0: 2024. márciusi kiadás

A Speech SDK 1.36.0 használatára frissítve

Új funkciók

Nincs

Hibajavítások

Nincs

Speech CLI 1.35.0: 2024. februári kiadás

A Speech SDK 1.35.0 használatára frissítve

Új funkciók

Nincs

Hibajavítások

JMESPath-függőség frissítése a legújabb verzióra

Speech CLI 1.34.0: 2023. novemberi kiadás

Frissítve a Speech SDK 1.34.0 használatára

Speech CLI 1.33.0: 2023. októberi kiadás

A Speech SDK 1.33.0 használatára frissítve

Speech CLI 1.31.0: 2023. augusztusi kiadás

A Speech SDK 1.31.0 használatára frissítve

Speech CLI 1.30.0: 2023. júliusi kiadás

A Speech SDK 1.30.0 használatára frissítve

Speech CLI 1.29.0: 2023. júniusi kiadás

A Speech SDK 1.29.0 használatára frissítve

Speech CLI 1.28.0: 2023. májusi kiadás

A Speech SDK 1.28.0 használatára frissítve

Speech CLI 1.27.0: 2023. áprilisi kiadás

Frissítések

A Speech SDK 1.27.0 használatára frissítve
Frissítse az alapértelmezett végpontot az egyéni beszédfelismeréshez és a Batch Speech Recognitionhez használt 3.1-s REST API-k használatára.

Hibajavítások

A lekérdezési paraméterek elemzésével/konfigurálásának módjával kapcsolatos javítások.

Speech CLI 1.26.0: 2023. márciusi kiadás

A Speech SDK 1.26.0 használatára frissítve.

Speech CLI 1.25.0: 2023. januári kiadás

A Speech SDK 1.25.0 használatára frissítve.

Speech CLI 1.24.0: 2022. októberi kiadás

A Speech SDK 1.24.0-s kódját használja.

Új funkciók

Kiterjesztették az "spx-ellenőrzést" az összes spx-esemény JMESPath-lekérdezéseinek támogatására.

Hibajavítások

A JMESPath-lekérdezések kiértékelései robusztusságának különböző fejlesztései
Az erőforrás által korlátozott gépeken esetleg előforduló fájlírások csonkolásainak javítása

Speech CLI 1.23.0: 2022. júliusi kiadás

A Speech SDK 1.23.0-s kódját használja.

Új funkciók

Jobb felirat (--output vtt és --output srt) nagy eredmény felosztása (37 karakter max. 3 sor)
Dokumentált spx synthesize--format beállítások (lásd spx help synthesize format)
A legtöbb spx csr parancsot/lehetőséget dokumentáltuk (lásd spx help csr)
Hozzáadva spx csr model copy parancs (lásd spx help csr model copy)
JMES-lekérdezések használatával hozzáadott --check result beállítás (lásd spx help check result)
Továbbfejlesztett hibaüzenetek érvénytelen parancsbeállítások megadásakor
A .NET Core 3.1-ről a .NET 6.0-ra váltott. A Speech CLI futtatásához telepítenie kell a .NET 6.0 futtatókörnyezetet (vagy a fenti verziót).

Hibajavítások

Az összes URL-címet frissítette a nyelv eltávolításához (például"en-US")
Kijavítottuk a verzióinformációt, hogy minden esetben megfelelően jelentsünk (korábban néha üres volt)

Speech CLI 1.22.0: 2022. júniusi kiadás

A Speech SDK 1.22.0-s kódját használja.

Új funkciók

Hozzá van adva spx init a parancs, amely végigvezeti a felhasználókat a Speech erőforráskulcsának létrehozásán anélkül, hogy az Azure Web Portalra lép.
A Speech Docker-tárolók már tartalmazzák az Azure CLI-t, így a spx init parancs a dobozon kívül működik.
Időbélyeget adott hozzá eseménykimeneti beállításként, hogy az SPX hasznosabb legyen a késések kiszámításakor.

Speech CLI 1.21.0: 2022. áprilisi kiadás

A Speech SDK 1.21.0-s kódját használja.

Új funkciók

WEBVTT-felirat létrehozása
- --output vtt támogatásának hozzáadása a spx translate-hoz/-hez
- Az --output vtt file FILENAME támogatja az alapértelmezett VTT FILENAME felülbírálását
- Támogatja --output vtt file - a szabványos kimenetbe való írást
- Minden célnyelvhez külön VTT-fájlok jönnek létre (például --target en;de;fr)
SRT-felirat létrehozása
- Támogatás hozzáadva --output srt a spx recognize, spx intentés a spx translate
- Az --output srt file FILENAME támogatja az alapértelmezett SRT fájlnév felülírását.
- Támogatja --output srt file - a szabványos kimenetbe való írást
- Az spx translate esetében minden célnyelv számára külön SRT-fájlokat hoznak létre (például --target en;de;fr)

Hibajavítások

A WEBVTT időbélyeg-kimenet korrigálva lett a hh:mm:ss.fff formátum helyes használatára.

Speech CLI 1.20.0: 2022. januári kiadás

Új funkciók

Beszélőfelismerés
- spx profile enroll és spx speaker [identify/verify] mostantól támogatja a mikrofon bemenetét
Szándékfelismerés (spx intent)
- --keyword FILE.table
- --pattern és --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, --once+, --continuous (folyamatos mostantól alapértelmezett)
- --output all/each connection EVENT
- --output all/each connection message (például text, path)
CLI-konzol kimeneti várakozásainak ellenőrzése/létrehozása:
- --expect PATTERN és --not expect PATTERN az összes parancs támogatása
- --auto expect a várt minták készítésének segítése
Az SDK naplózási kimenetének elvárások ellenőrzése/írása
- --log expect PATTERN és --not log expect PATTERN az összes parancs támogatása
- --log auto expect [FILTER] támogatás az összes parancson
- --log FILE támogatás spx profile és spx speaker
Hangfájl bemenete
- --format ANY támogatás az összes parancson
- --file - támogatás (olvasás standard bemenetből, csővezérlési forgatókönyvek engedélyezése)
Hangfájl kimenet
- --audio output - Adatok írása a szabványos kimenetre, pipelési lehetőségek engedélyezése
Kimeneti fájlok
- --output all/each file - Írás a szabványos kimenetre
- --output batch file - Írás a szabványos kimenetre
- --output vtt file - Írás a szabványos kimenetre
- --output json file - Írjon a szabványos kimenetre a spx csr és spx batch parancsokhoz
Kimeneti tulajdonságok
- --output […] result XXX property (Tulajdonságazonosító vagy karaktersorozat)
- --output […] connection message received XXX property (Tulajdonságazonosító vagy karaktersorozat)
- --output […] recognizer XXX property (Tulajdonságazonosító vagy karaktersorozat)
Azure WebJob-integráció
- spx webjob most az alparancs mintáját követi
- A WebJob súgó frissítése az alparancs mintájának tükrözésére (lásd spx help webjob)

Hibajavítások

Kijavítottuk a hibát, ha mindkettő --output vtt FILE--output batch FILE egyszerre van használatban
spx [...] --zip ZIPFILENAME mostantól tartalmazza az összes forgatókönyvhöz szükséges bináris fájlokat (ha vannak)
spx profile és spx speaker a parancsok mostantól részletes hibainformációkat adnak vissza a lemondással kapcsolatban

2021. májusi kiadás

Új funkciók

Profil, Beszélőazonosító és Beszélőellenőrzés támogatás hozzáadva – Próbáld ki spx profile és spx speaker a parancssorból.
A párbeszéd támogatása is hozzáadva – Próbálja ki spx dialog a parancssorból.
Továbbfejlesztett spx súgó. Egy GitHub-probléma megnyitásával visszajelzést kaphat arról, hogyan működik ez Önnek.
Csökkentettük a .NET-eszköz telepítésének méretét.

A COVID-19 rövidített tesztelése

Mivel a jelenlegi világjárvány miatt mérnökeinknek továbbra is otthonról kell dolgozniuk, a járvány előtti manuális ellenőrzési szkriptek kevesebb, kevesebb konfigurációval rendelkező eszközön tesztelhetők, és nőhet a környezetspecifikus hibák előfordulásának valószínűsége. Továbbra is szigorúan érvényesítjük az automatizálás nagy készletét. Abban a valószínűtlen esetben, amikor elmulasztottunk valamit, tudassa velünk a GitHubon.
Maradjon egészséges!

2021. márciusi kiadás

Új funkciók

A szándékfelismeréshez hozzáadtuk a spx intent parancsot, amely a spx recognize intent parancsot váltja fel.
A Felismerés és Szándék funkciók az Azure-függvények segítségével mostantól kiszámíthatják a szavak hibaarányát spx recognize --wer url <URL>.
Felismerés mostantól képes eredményeket VTT-fájlként menteni a spx recognize --output vtt file <FILENAME> használatával.
Az érzékeny kulcsadatok mostantól rejtve vannak a hibakeresési/részletes kimenetben.
Hozzáadta az URL-ellenőrzést és a hibaüzenetet a tartalommezőhöz a kötegelt átírás létrehozásakor.

A COVID-19 rövidített tesztelése

2021. januári kiadás

Új funkciók

A Speech CLI mostantól NuGet-csomagként érhető el, és a .NET CLI-n keresztül telepíthető .NET globális eszközként, amelyet a rendszerhéjból/parancssorból hívhat meg.
Az egyéni beszéd devOps-sablon adattára úgy lett frissítve, hogy a Speech CLI-t használja az egyéni beszéd-munkafolyamatokhoz.

A COVID-19 rövidített tesztelése

2020. októberi kiadás

Az SPX a Speech szolgáltatás kódírás nélküli használatára használható parancssori felület. Töltse le a legújabb verziót itt.

Új funkciók

spx csr dataset upload --kind audio|language|acoustic – nem csak URL-címekről, hanem helyi adatokból is létrehozhat adatkészleteket.
spx csr evaluation create|status|list|update|delete – hasonlítsa össze az új modelleket az alapértékekkel/más modellekkel.
spx * list – támogatja a lapozás nélküli élményt (nem igényli a --top X és --skip X használatát).
spx * --http header A=B – egyéni fejlécek támogatása (egyéni hitelesítéshez az Office-hoz hozzáadva).
spx help – továbbfejlesztett szöveg és back-tick betűszín kódolt (kék).

2020–júniusi kiadás

A parancssori felülethez hozzáadott súgókeresési funkciók:
- spx help find --text TEXT
- spx help find --topic NAME
Frissítve az újonnan üzembe helyezett 3.0-s Batch és egyéni beszéd API-k használatához:
- spx help batch examples
- spx help csr examples

A COVID-19 rövidített tesztelése

Mivel az elmúlt hetekben távolról dolgoztunk, nem tudtunk annyi manuális ellenőrzést végezni, mint általában. Nem végeztünk olyan módosítást, amely szerintünk bármit is tönkretett volna, és az automatizált tesztjeink mind átmentek. Abban a valószínűtlen esetben, amikor elmulasztottunk valamit, tudassa velünk a GitHubon.
Maradjon egészséges!

Speech CLI (más néven SPX): 2020. májusi kiadás

Az SPX egy új parancssori eszköz, amely lehetővé teszi a felismerést, a szintézist, a fordítást, a kötegelt átírást és az egyéni beszédkezelést a parancssorból. Ezzel tesztelheti a Speech szolgáltatást, vagy szkriptelheti az elvégzendő Speech service-feladatokat. Töltse le az eszközt, és olvassa el a dokumentációt itt.

2025. áprilisi kiadás

Új HD-hangok nyilvános előzetes verziója

A következő HD-hangok érhetők el előzetes verzióban:

Lokális beállítások (BCP-47)	Hang név
`en-US`	`en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeural` (Semleges)
`en-US`	`en-US-Bree:DragonHDLatestNeural` (Nő)
`en-US`	`en-US-AshTurboMultilingualNeural` (Férfi)

2025. márciusi kiadás

Néhány HD-hang általános elérhetősége

A következő HD-hangok már általánosan elérhetők:

Lokális beállítások (BCP-47)	Hang név
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (Férfi)
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (Nő)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (Nő)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Emma:DragonHDLatestNeural` (Nő)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (Nő)
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (Férfi)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (Férfi)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (Nő)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (Férfi)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (Nő)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (Férfi)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (Nő)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (Nő)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (Férfi)

Többbeszélős hangok podcast-forgatókönyvekhez (előzetes verzió)

Lokális beállítások (BCP-47)	Hang név
`en-US`	`en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural` (Semleges)

Új HD-hangok (előzetes verzió)

Lokális beállítások (BCP-47)	Hang név
`en-US`	`en-US-Ava3:DragonHDLatestNeural` (Női) - podcastra optimalizálva
`en-US`	`en-US-Andrew3:DragonHDLatestNeural` (Férfi) - podcast számára optimalizálva

Dragon HD Flash-modellek (előzetes verzió)

Lokális beállítások (BCP-47)	Hang név
`zh-CN`	`zh-CN-Xiaochen:DragonHDFlashLatestNeural` (Nő)
`zh-CN`	`zh-CN-Xiaoxiao:DragonHDFlashLatestNeural` (Nő)
`zh-CN`	`zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural` (Nő, szabad beszélgetésre optimalizálva)
`zh-CN`	`zh-CN-Yunxiao:DragonHDFlashLatestNeural` (Férfi)
`zh-CN`	`zh-CN-Yunyi:DragonHDFlashLatestNeural` (Férfi)

2025. februári kiadás

Frissített HD-hangok (előzetes verzió)

Frissítettük a 13 jelenlegi HD-hangot, hogy támogassák a többnyelvű hangokat.

Lokális beállítások (BCP-47)	Hang név
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (Nő)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (Nő)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (Férfi) – szabad beszélgetésre optimalizálva
`en-US`	`en-US-Emma:DragonHDLatestNeural` (Nő)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (Nő) – szabad beszélgetésre optimalizálva
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Aria:DragonHDLatestNeural` (Nő)
`en-US`	`en-US-Jenny:DragonHDLatestNeural` (Nő)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (Férfi)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (Nő)

Új HD-hangok (előzetes verzió)

További 14 HD-hang hozzáadva

Lokális beállítások (BCP-47)	Hang név
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Phoebe:DragonHDLatestNeural` (Nő)
`en-US`	`en-US-Serena:DragonHDLatestNeural` (Nő)
`en-US`	`en-US-Alloy:DragonHDLatestNeural` (Férfi)
`en-US`	`en-US-Nova:DragonHDLatestNeural` (Nő)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (Nő)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (Férfi)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (Nő)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (Férfi)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (Nő)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (Férfi)

Új többnyelvű hangok bemutatása (előzetes verzió)

4 többnyelvű hang került be az en-US érzelemkifejezési támogatással.

Lokális beállítások (BCP-47)	Hang név	Stílusok
`en-US`	`DerekMultilingualNeural` (Férfi)	`empathetic`, `excited`, `relievedshy`
`en-US`	`PhoebeMultilingualNeural` (Nő)	\, \, \
`en-US`	`DavisMultilingualNeural` (Férfi)	\, \, \
`en-US`	`NancyMultilingualNeural` (Nő)	`excited`, `friendly`, `funny`, `relievedshy`

Azure OpenAI az Azure AI Foundry Modelsben turbóhangok (általánosan elérhető)

Ez a 6 turbóhang már általánosan elérhető:

Lokális beállítások (BCP-47)	Hang név
`en-US`	`en-US-AlloyTurboMultilingualNeural` (Férfi)
`en-US`	`en-US-EchoTurboMultilingualNeural` (Férfi)
`en-US`	`en-US-FableTurboMultilingualNeural` (Semleges)
`en-US`	`en-US-NovaTurboMultilingualNeural` (Nő)
`en-US`	`en-US-OnyxTurboMultilingualNeural` (Férfi)
`en-US`	`en-US-ShimmerTurboMultilingualNeural` (Nő)

Hangminőségi fejlesztések (általánosan elérhető)

Javítottuk 16 hang minőségét.

Lokális beállítások (BCP-47)	Hang név
`ar-EG`	`ar-EG-ShakirNeural` (Férfi)
`ca-ES`	`ca-ES-EnricNeural` (Férfi)
`en-IE`	`en-IE-EmilyNeural` (Nő)
`fi-FI`	`fi-FI-HarriNeural` (Férfi)
`fi-FI`	`fi-FI-SelmaNeural` (Nő)
`fr-CH`	`fr-CH-FabriceNeural` (Nő)
`hr-HR`	`hr-HR-GabrijelaNeural` (Nő)
`nl-NL`	`nl-NL-MaartenNeural` (Férfi)
`pt-PT`	`pt-PT-RaquelNeural` (Nő)
`ro-RO`	`ro-RO-AlinaNeural` (Nő)
`sv-SE`	`sv-SE-MattiasNeural` (Férfi)
`sv-SE`	`sv-SE-SofieNeural` (Nő)
`vi-VN`	`vi-VN-HoaiMyNeural` (Nő)
`vi-VN`	`vi-VN-NamMinhNeural` (Férfi)
`zh-HK`	`zh-HK-HiuMaanNeural` (Nő)
`zh-HK`	`zh-HK-WanLungNeural` (Férfi)

Többstílusú beágyazott Jenny (általánosan elérhető)

Hozzáadtuk a stílustámogatást a en-US-JennyNeural. Ugyanazok a stílusok támogatottak, mint a felhőben. A következő stílusok támogatottak: angry, assistant, , chat, cheerful, customerserviceexcited, friendly, hopeful, newscast, , sad, shouting, terrifiedunfriendlyés whispering.

2025. januári kiadás

Egyéni avatar képzés

Mostantól egyéni avatarokat taníthat be a Speech Studióban. Korábban meg kellett várnia, amíg a Microsoft betanítsa az egyéni avatarját.

Az egyéni avatarok létrehozásával kapcsolatos további részletekért lásd : egyéni szöveg létrehozása beszédavatárhoz.

2024. októberi kiadás

Standard hang

Az Azure OpenAI-hangok 4 turbóverzióját mutatta be nyilvános előzetes verzióban: en-US-EchoTurboMultilingualNeural, en-US-FableTurboMultilingualNeural, en-US-OnyxTurboMultilingualNeuralés en-US-ShimmerTurboMultilingualNeural. Az Azure OpenAI-hangok turbóverziója az Azure OpenAI-hangokhoz hasonló hangszemélyiségekkel rendelkezik, de támogatja az extra funkciókat. A turbóhangok támogatják az SSML-elemek teljes készletét, és több olyan funkciót, mint a szóhatár, csakúgy, mint más Azure AI Speech-hangok. További információért tekintse meg a teljes nyelvet és a hanglistát .

Ezek a hangok mostantól általánosan elérhetők:

Lokális beállítások (BCP-47)	Hang név
`de-DE`	`SeraphinaMultilingualNeural`
`de-DE`	`FlorianMultilingualNeural`
`en-GB`	`AdaMultilingualNeural`
`en-GB`	`OllieMultilingualNeural`
`en-US`	`LunaNeural`
`en-US`	`KaiNeural`
`en-US`	`CoraMultilingualNeural`
`en-US`	`ChristopherMultilingualNeural`
`en-US`	`BrandonMultilingualNeural`
`es-ES`	`IsidoraMultilingualNeural`
`es-ES`	`ArabellaMultilingualNeural`
`es-ES`	`TristanMultilingualNeural`
`es-ES`	`XimenaMultilingualNeural`
`fr-FR`	`LucienMultilingualNeural`
`fr-FR`	`VivienneMultilingualNeural`
`fr-FR`	`RemyMultilingualNeural`
`it-IT`	`IsabellaMultilingualNeural`
`it-IT`	`MarcelloMultilingualNeural`
`it-IT`	`AlessioMultilingualNeural`
`it-IT`	`GiuseppeMultilingualNeural`
`ko-KR`	`HyunsuMultilingualNeural`
`pt-BR`	`ThalitaMultilingualNeural`
`pt-BR`	`MacerioMultilingualNeural`

Standard nagy felbontású (HD) hang

Az Azure AI-beszéd nagy felbontású (HD) hangjai nyilvános előzetes verzióban érhetők el. A HD-hangok képesek megérteni a tartalmat, automatikusan észlelni az érzelmeket a bemeneti szövegben, és valós időben módosítani a beszédhangot a hangulatnak megfelelően. A HD hangok konzisztens hangszemélyiséget tartanak fenn neurális (és nem HD) megfelelőikkel, és továbbfejlesztett funkcióik révén még nagyobb értéket nyújtanak. További információ: Mik azok az Azure AI Speech nagy felbontású (HD) hangok?

Egyéni neurális hang

Korábban egyes területi beállítások csak a V3-at támogatták a betanítási recepthez. Ezek a területi beállítások mostantól a V9-et is támogatják, így jobb betanítási minőség és bővített funkciók érhetők el. Ezen helyi beállítások esetében tekintse meg a következő táblázatot:

Lokális beállítások (BCP-47)	Nyelv
`ar-EG`	Arab nyelv (egyiptomi)
`ar-SA`	arab nyelv (Szaúd-Arábia)
`ca-ES`	Katalán
`cs-CZ`	Cseh (Csehország)
`da-DK`	Dán (Dánia)
`de-AT`	Német (Ausztria)
`de-CH`	Német (Svájc)
`el-GR`	Görög (Görögország)
`en-IN`	Angol (India)
`fi-FI`	finn nyelv (Finnország)
`fr-CH`	Francia (Svájc)
`he-IL`	Héber (Izrael)
`hi-IN`	Hindi (India)
`hu-HU`	Magyar nyelv (Magyarország)
`ms-MY`	Maláj (Malajzia)
`nb-NO`	Norvég Bokmål (Norvégia)
`nl-NL`	Holland (Hollandia)
`pl-PL`	Lengyel (Lengyelország)
`pt-PT`	Portugál nyelv (Portugália)
`ro-RO`	Román (Románia)
`ru-RU`	Orosz (Oroszország)
`sk-SK`	Szlovák (Szlovákia)
`sv-SE`	Svéd (Svédország)
`th-TH`	Thai (Thaiföld)
`r-TR`	Törökország (Török)
`vi-VN`	Vietnámi nyelv (Vietnám)
`zh-HK`	Kínai (kantoni, hagyományos)
`zh-TW`	Kínai (tajvani mandarin, hagyományos)

Az egyéni neurális hang pro mostantól a következő új területi beállításokat támogatja:
- en-NZ: Angol (Új-Zéland)
- es-CL: Spanyol (Chile)
- es-US: spanyol (Egyesült Államok)
- ta-MY: Tamil (Malajzia)
A támogatott területi beállítások teljes listájáért tekintse meg az Egyéni neurális hang nyelvlistáját .

A többnyelvű funkció mostantól a következő új területi beállításokat támogatja forrás területi beállításokként:

Lokális beállítások (BCP-47)	Nyelv
`da-DK`	Dán (Dánia)
`de-AT`	Német (Ausztria)
`de-CH`	Német (Svájc)
`de-DE`	Német (Németország)
`en-CA`	Angol (Kanada)
`fi-FI`	finn nyelv (Finnország)
`fr-CH`	Francia (Svájc)
`hu-HU`	Magyar nyelv (Magyarország)
`ms-MY`	Maláj (Malajzia)
`nb-NO`	Norvég Bokmål (Norvégia)
`pt-PT`	Portugál nyelv (Portugália)
`sv-SE`	Svéd (Svédország)
`tr-TR`	Törökország (Török)
`ta-IN`	Tamil (India)
`zh-HK`	Kínai (kantoni, hagyományos)

A támogatott területi beállítások teljes listájáért tekintse meg az Egyéni neurális hang nyelvlistáját .

A többstílusú hangfunkció mostantól a következő új területi beállításokat támogatja:

Lokális beállítások (BCP-47)	Nyelv
`ar-EG`	Arab nyelv (egyiptomi)
`ar-SA`	arab nyelv (Szaúd-Arábia)
`ca-ES`	Katalán
`cs-CZ`	Cseh (Csehország)
`da-DK`	Dán (Dánia)
`de-AT`	Német (Ausztria)
`de-CH`	Német (Svájc)
`de-DE`	Német (Németország)
`el-GR`	Görög (Görögország)
`en-AU`	Angol (Ausztrália)
`en-CA`	Angol (Kanada)
`en-GB`	Angol (Egyesült Királyság)
`en-IN`	Angol (India)
`es-ES`	Spanyol (Spanyolország)
`es-MX`	Spanyol (Mexikó)
`fi-FI`	finn nyelv (Finnország)
`fr-CA`	Francia (Kanada)
`fr-CH`	Francia (Svájc)
`fr-FR`	Francia (Franciaország)
`he-IL`	Héber (Izrael)
`hi-IN`	Hindi (India)
`hu-HU`	Magyar nyelv (Magyarország)
`it-IT`	Olasz (Olaszország)
`ko-KR`	Koreai nyelv (Korea)
`ms-MY`	Maláj (Malajzia)
`nb-NO`	Norvég Bokmål (Norvégia)
`nl-BE`	Holland (Belgium)
`nl-NL`	Holland (Hollandia)
`pl-PL`	Lengyel (Lengyelország)
`pt-BR`	Portugál (Brazília)
`pt-PT`	Portugál nyelv (Portugália)
`ro-RO`	Román (Románia)
`ru-RU`	Orosz (Oroszország)
`sk-SK`	Szlovák (Szlovákia)
`sv-SE`	Svéd (Svédország)
`th-TH`	Thai (Thaiföld)
`tr-TR`	Törökország (Török)
`vi-VN`	Vietnámi nyelv (Vietnám)
`zh-HK`	Kínai (kantoni, hagyományos)
`zh-TW`	Kínai (tajvani mandarin, hagyományos)

A támogatott területi beállítások teljes listájáért tekintse meg az Egyéni neurális hang nyelvlistáját .

2024. szeptemberi kiadás

Standard hang

Új hangok támogatásának és általános elérhetőségének hozzáadása a következő lokációkban:

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`as-IN`	Assam nyelv (India)	`as-IN-YashicaNeural` (Nő) `as-IN-PriyomNeural` (Férfi)
`or-IN`	Odia (India)	`or-IN-SubhasiniNeural` (Nő) `or-IN-SukantNeural` (Férfi)
`pa-IN`	Punjabi (India)	`pa-IN-OjasNeural` (Férfi) `pa-IN-VaaniNeural` (Nő)

A táblázatban szereplő egyetlen hang általánosan elérhető, és csak a "en-IN" területi beállításokat támogatja.

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`en-IN`	Angol (India)	`en-IN-AashiNeural` (Nő)

A táblázatban szereplő öt hang általánosan elérhető, és támogatja a "en-IN" és a "hi-IN" területi beállításokat is.

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`en-IN`	Angol (India)	`en-IN-AaravNeural` (Férfi) `en-IN-AnanyaNeural` (Nő) `en-IN-KavyaNeural` (Nő) `en-IN-KunalNeural` (Férfi) `en-IN-RehaanNeural` (Férfi)
`hi-IN`	Hindi (India)	`hi-IN-AaravNeural` (Férfi) `hi-IN-AnanyaNeural` (Nő) `hi-IN-KavyaNeural` (Nő) `hi-IN-KunalNeural` (Férfi) `hi-IN-RehaanNeural` (Férfi)

Hangstílusok és szerepkörök

Hozzáadva a newscast, cheerful, empathetic stílusok támogatását a en-IN-NeerjaNeural és hi-IN-SwaraNeural hangokhoz.

Új stílusokat adtunk hozzá a következő hangokhoz:

es-MX-DaliaNeural: whispering, sadcheerful
fr-FR-DeniseNeural: whispering, sadexcited
it-IT-IsabellaNeural: whispering, sad, excitedcheerful
pt-PT-RaquelNeural: whispering, sad
de-DE-ConradNeural: sad, cheerful
en-GB-RyanNeural: whispering, sad
es-MX-JorgeNeural: whispering, sad, excitedcheerful
fr-FR-HenriNeural: whispering, sadexcited
it-IT-DiegoNeural: sad, excitedcheerful
es-ES-AlvaroNeural: cheerful, sad
ko-KR-InjoonNeural: sad

További információt a Hangstílusok és -szerepkörök című témakörben talál.

2024. augusztusi kiadás

Standard hang

Új többnyelvű hangokat vezet be nyilvános előzetes verzióban. További információért tekintse meg a teljes nyelvet és a hanglistát .

Vadonatúj többnyelvű hangok

Helyszín	Nyelv	Társadalmi nem	Hangnév
en-US	Angol (Egyesült Államok)	Férfi	en-US-AdamMultilingualNeural
en-US	Angol (Egyesült Államok)	Nő	en-US-AmandaMultilingualNeural
en-US	Angol (Egyesült Államok)	Férfi	en-US-DerekMultilingualNeural
en-US	Angol (Egyesült Államok)	Férfi	en-US-LewisMultilingualNeural
en-US	Angol (Egyesült Államok)	Nő	en-US-LolaMultilingualNeural
en-US	Angol (Egyesült Államok)	Nő	en-US-PhoebeMultilingualNeural
en-US	Angol (Egyesült Államok)	Férfi	en-US-SamuelMultilingualNeural
en-US	Angol (Egyesült Államok)	Nő	en-US-SerenaMultilingualNeural
en-US	Angol (Egyesült Államok)	Férfi	en-US-DustinMultilingualNeural
en-US	Angol (Egyesült Államok)	Nő	en-US-EvelynMultilingualNeural
es-ES	Spanyol (Spanyolország)	Férfi	es-ES-TristanMultilingualNeural
fr-FR	Francia (Franciaország)	Férfi	francia-FR-LucienMultilingualNeural
pt-BR	Portugál (Brazília)	Férfi	pt-BR-MacerioMultilingualNeural
zh-CN	Kínai (mandarin, egyszerűsített)	Férfi	zh-CN-YunfanMultilingualNeural
zh-CN	Kínai (mandarin, egyszerűsített)	Férfi	zh-CN-YunxiaoMultilingualNeural
zh-CN	Kínai (mandarin, egyszerűsített)	Férfi	zh-CN-YunyiMultilingualNeural

A természetesség javulásával többnyelvű hangokra frissítették az egynyelvű modelleket

Helyszín	Nyelv	Társadalmi nem	Hangnév
en-US	Angol (Egyesült Államok)	Nő	en-US-NancyMultilingualNeural
en-US	Angol (Egyesült Államok)	Férfi	en-US-BrandonMultilingualNeural
en-US	Angol (Egyesült Államok)	Férfi	en-US-ChristopherMultilingualNeural
en-US	Angol (Egyesült Államok)	Nő	en-US-CoraMultilingualNeural
en-US	Angol (Egyesült Államok)	Férfi	en-US-DavisMultilingualNeural
en-US	Angol (Egyesült Államok)	Férfi	en-US-SteffanMultilingualNeural
es-ES	Spanyol (Spanyolország)	Nő	es-ES-XimenaMultilingualNeural
it-IT	Olasz (Olaszország)	Férfi	it-IT-GiuseppeMultilingualNeural
ko-KR	Koreai nyelv (Korea)	Férfi	ko-KR-HyunsuMultilingualNeural

A következő jelenlegi többnyelvű hangok javítása jobb minőségűvé.

Helyszín Nyelv Társadalmi nem Hangnév

en-US Angol (Egyesült Államok) Férfi en-US-AndrewMultilingualNeural

en-US Angol (Egyesült Államok) Nő en-US-AvaMultilingualNeural
A három többnyelvű hang mostantól támogatja a stílusokat. További információt a Hangstílusok és -szerepkörök című témakörben talál.
- en-US-SerenaMultilingualNeural: empathetic, excited, friendly, shy, serious, relieved, és sad.
- en-US-AndrewMultilingualNeural: empathetic és relieved.
- zh-CN-XiaoxiaoMultilingualNeural: affectionate, cheerful, empathetic, excited, poetry-reading, sorry és story.

Helyszín	Nyelv	Társadalmi nem	Hangnév
en-US	Angol (Egyesült Államok)	Férfi	en-US-AndrewMultilingualNeural
en-US	Angol (Egyesült Államok)	Nő	en-US-AvaMultilingualNeural

2024. júliusi kiadás

Szövegről beszédre avatar (GA)

A szövegből beszéddé alakítást végző avatar mostantól általánosan elérhető. További információkért tekintse meg a szövegfelolvasó avatárt.

Standard hang

Az Azure OpenAI hangjának 2 turbóverzióját mutatjuk be nyilvános előzetesként: en-US-AlloyTurboMultilingualNeural és en-US-NovaTurboMultilingualNeural. Az Azure OpenAI-hangok turbóverziója az Azure OpenAI-hangokhoz hasonló hangszemélyiségekkel rendelkezik, de támogatja az extra funkciókat. A turbóhangok támogatják az SSML-elemek teljes készletét, és több olyan funkciót, mint a szóhatár, csakúgy, mint más Azure AI Speech-hangok. További információért tekintse meg a teljes nyelvet és a hanglistát .
2 új többnyelvű hang bevezetése nyilvános előzetes verzióban: zh-CN-YunfanMultilingualNeural és zh-CN-YunxiaoMultilingualNeural. További információért tekintse meg a teljes nyelvet és a hanglistát .

Beágyazott neurális hang

en-US-JennyMultilingual a hang bevezetésre kerül a gyártási környezetben, és akár 24 terület használatát támogatja eszközön. A támogatott területi beállításokért tekintse meg az alábbi táblázatot.

Helyszín	Nyelv
`da-DK`	Dán (Dánia)
`de-DE`	Német (Németország)
`en-AU`	Angol (Ausztrália)
`en-GB`	Angol (Egyesült Királyság)
`en-IN`	Angol (India)
`en-US`	Angol (Egyesült Államok)
`es-ES`	Spanyol (Spanyolország)
`es-MX`	Spanyol (Mexikó)
`fr-CA`	Francia (Kanada)
`fr-FR`	Francia (Franciaország)
`he-IL`	Héber (Izrael)
`it-IT`	Olasz (Olaszország)
`ja-JP`	japán nyelv (Japán)
`ko-KR`	Koreai nyelv (Korea)
`nb-NO`	Norvég Bokmål (Norvégia)
`nl-NL`	Holland (Hollandia)
`pl-PL`	Lengyel (Lengyelország)
`pt-PT`	Portugál nyelv (Portugália)
`sv-SE`	Svéd (Svédország)
`th-TH`	Thai (Thaiföld)
`tr-TR`	Törökország (Török)
`zh-CN`	Kínai (mandarin, egyszerűsített)
`zh-HK`	Kínai (kantoni, hagyományos)
`zh-TW`	Kínai (tajvani mandarin, hagyományos)

2024. júniusi kiadás

Standard hang

6 új hang bevezetése nyilvános előzetes verzióban, amelyek meghatározott régiókban érhetők el: Kelet-Ázsia, Délkelet-Ázsia, USA keleti régiója, USA nyugati régiója és Közép-India.

Helyszín	Nyelv	Szöveg és beszédhangok
`or-IN`	Odia (India)	`or-IN-SubhasiniNeural` (Nő)
`or-IN`	Odia (India)	`or-IN-SukantNeural` (Férfi)
`pa-IN`	Punjabi (India)	`pa-IN-VaaniNeural` (Nő)
`pa-IN`	Punjabi (India)	`pa-IN-OjasNeural` (Férfi)
`as-IN`	Assam nyelv (India)	`as-IN-YashicaNeural` (Nő)
`as-IN`	Assam nyelv (India)	`as-IN-PriyomNeural` (Férfi)

További információért tekintse meg a teljes nyelvet és a hanglistát .

Szövegfelolvasó avatar

A szövegfelolvasó mostantól a következő régiókat támogatja: Délkelet-Ázsia, Észak-Európa, Nyugat-Európa, Közép-Svédország, USA déli középső régiója és USA 2. nyugati régiója. További információért lásd a Beszédeszolgáltatási régiókat.

2024. májusi kiadás

Személyes hang (GA)

A személyes hang mostantól általánosan elérhető. A személyes hang használatával néhány másodperc alatt lekérheti a hangjának (vagy az alkalmazás felhasználóinak) AI által generált replikációját. Hangüzenetként egyperces beszédmintát ad meg, majd használatával beszédet hozhat létre a több mint 90 nyelv közül, amelyet több mint 100 területi beállítás támogat. További információkért tekintse meg a személyes hang áttekintését.

Standard hang

8 új többnyelvű hang bevezetése nyilvános előzetes verzióban: en-GB-AdaMultilingualNeural, , en-GB-OllieMultilingualNeural, es-ES-ArabellaMultilingualNeurales-ES-IsidoraMultilingualNeural, it-IT-AlessioMultilingualNeural, , it-IT-IsabellaMultilingualNeuralit-IT-MarcelloMultilingualNeuralés pt-BR-ThalitaMultilingualNeural. További információért tekintse meg a teljes nyelvet és a hanglistát .
2 új, a Call Center-forgatókönyvre optimalizált en-US hang bevezetése nyilvános előzetes verzióban: en-US-LunaNeural és en-US-KaiNeural. További információért tekintse meg a teljes nyelvet és a hanglistát .

2024. áprilisi kiadás

Szövegfelolvasó avatar

Most már beállíthat egy statikus háttérképet az avatarjaihoz. A funkció használatához egyszerűen használja a avatarConfig.backgroundImage tulajdonságot, és adjon meg egy, a kívánt képre mutató URL-címet. A részletekért tekintse meg a Háttér szerkesztése című témakört.

2024. márciusi kiadás

Standard hang

9 többnyelvű hang általánosan elérhető minden régióban: en-US-AvaMultilingualNeural, , en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeuralen-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, , fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeuralés zh-CN-XiaoxiaoMultilingualNeural. További információért tekintse meg a teljes nyelvet és a hanglistát .
Új többnyelvű hang bevezetése nyilvános előzetes verzióhoz: ja-JP-MasaruMultilingualNeural. További információért tekintse meg a teljes nyelvet és a hanglistát .
További frissítések:
- en-US-RyanMultilingualNeural minden régióban általánosan elérhető.
- en-US-JennyMultilingualV2Neural az összes régióban általánosan elérhető, a következővel en-US-JennyMultilingualNeuralegyesítve: .
- Előzetes verzió elérhető a frissített en-IN-NeerjaNeural és hi-IN-SwaraNeural 3 új stílussal az USA keleti régiójában, Nyugat-Európában és Délkelet-Ázsiában.
- Előnézet elérhető az új női hangokhoz Közép-Indiában: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeural, és hi-IN-AnanyaNeural.

Szövegfelolvasó avatar

Eltávolítottuk az Azure Communication Services (ACS) TURN függőségét a valós idejű avatar esetében. A mintakódot ennek megfelelően frissítettük, hogy tükrözze ezt a változást.
A szöveges beszéd avatárainak díjszabását közzétették. További részletekért tekintse meg a díjszabási oldalt. Vegye figyelembe, hogy az avatarok ára csak azokban a régiókban lesz látható, ahol a funkció elérhető.

2024. februári kiadás

OpenAI-hangok

Az Azure AI Speech szolgáltatás a következő régiókban támogatja az OpenAI szövegfelolvasást: USA északi középső régiója és Közép-Svédország. Az Azure AI Speech-hangokhoz hasonlóan az OpenAI-szövegek beszédhangokká alakítása kiváló minőségű beszédszintézist biztosít az írott szövegek természetes hangzású beszélt hanggá alakításához. Ez számos lehetőséget kínál a modern és interaktív felhasználói élményekhez. További információért lásd a Mik az OpenAI szöveg-beszéd hangok?

Megjegyzés:

Az OpenAI szöveg-beszédhangok az Azure OpenAI-ban is elérhetők.
Ezzel a frissítéssel módosítottuk a standard hangok díjszabását az Azure AI Speech használatával. Itt megtekintheti a frissített díjszabást.

Személyes hang

A személyes hangfunkció mostantól támogatja a DragonLatestNeural és PhoenixLatestNeural modelleket. Ezek az új modellek növelik a szintetizált hangok természetességét, jobban hasonlítva a hang beszédjellemzőire a parancssorban. További részletekért tekintse meg a Személyes hang integrálása az alkalmazásban című témakört.

2023. decemberi kiadás

Egyéni hang API

Az egyéni hang API professzionális és személyes egyéni neurális hangmodellek létrehozásához és kezeléséhez érhető el.

Egyéni neurális hang

Az újonnan betanított hangmodellek mostantól a modellverziótól függetlenül támogatják a 48 kHz-es mintasebességet. A korábban betanított hangmodellekhez a motorverziót legalább 2023.11.13.0-s verzióra kell frissíteni, hogy a mintasebesség 48 kHz-re javuljon.

Standard hang

Új többnyelvű hangok bevezetése nyilvános előzetes verzióhoz:

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`de-DE`	Német (Németország)	`de-DE-FlorianMultilingualNeural` (Férfi)
`de-DE`	Német (Németország)	`de-DE-SeraphinaMultilingualNeural` (Nő)
`en-US`	Angol (Egyesült Államok)	`en-US-AvaMultilingualNeural` (Nő)
`en-US`	Angol (Egyesült Államok)	`en-US-EmmaMultilingualNeural` (Nő)
`fr-FR`	Francia (Franciaország)	`fr-FR-RemyMultilingualNeural` (Férfi)
`en-US`	Angol (Egyesült Államok)	`en-US-BrianMultilingualNeural` (Férfi)
`en-US`	Angol (Egyesült Államok)	`en-US-AndrewMultilingualNeural` (Férfi)
`fr-FR`	Francia (Franciaország)	`fr-FR-VivienneMultilingualNeural` (Nő)
`zh-CN`	Kínai (mandarin, egyszerűsített)	`zh-CN-XiaoxiaoMultilingualNeural` (Nő)
`zh-CN`	Kínai (mandarin, egyszerűsített)	`zh-CN-XiaochenMultilingualNeural` (Nő)
`zh-CN`	Kínai (mandarin, egyszerűsített)	`zh-CN-YunyiMultilingualNeural` (Férfi)

zh-CN-XiaoxiaoDialectsNeural Új hangok bevezetése a nyilvános előzetes verzióhoz, amelyek számos kínai dialektust és ékezetet támogatnak:

Hangazonosító	Másodlagos nyelv	Dialektus/akcentus
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Kínai (Zhongyuan Mandarin Shaanxi, egyszerűsített)
	`zh-CN-sichuan`	Kínai (délnyugati mandarin, egyszerűsített)
	`zh-CN-shanxi`	Kínai (Shanxi Accent Mandarin, egyszerűsített)
	`nan-CN`	Kínai (minnan, egyszerűsített)
	`zh-CN-anhui`	Kínai (Jianghuai Mandarin Anhui, egyszerűsített)
	`zh-CN-hunan`	Kínai (Hunan Accent Mandarin, egyszerűsített)
	`zh-CN-gansu`	Kínai (Lanyin Mandarin Gansu, egyszerűsített)
	`zh-CN-shandong`	Kínai (Jilu Mandarin, egyszerűsített)
	`zh-CN-henan`	Kínai (Zhongyuan Mandarin Henan, egyszerűsített)
	`zh-CN-liaoning`	Kínai (északkeleti mandarin, egyszerűsített)
	`zh-TW`	Kínai (tajvani mandarin, hagyományos)

Novemberi 2023 kiadás

Személyes hang

A személyes hang előzetes verzióban érhető el a következő régiókban: Nyugat-Európa, USA keleti régiója és Délkelet-Ázsia. Az előzetes verziójú Személyes Hang funkcióval néhány másodperc alatt létrehozhatja az Ön (vagy az alkalmazás felhasználóinak) hangjának AI által generált replikációját. Hangüzenetként egyperces beszédmintát ad meg, majd használatával beszédet hozhat létre a több mint 90 nyelv közül, amelyet több mint 100 területi beállítás támogat.

További információ: személyes hang.

Szövegfelolvasó avatar

A szövegfelolvasási avatar az alábbi régiókban érhető el előzetes verzióban: USA 2. nyugati régiója, Nyugat-Európa és Délkelet-Ázsia.

A szöveget beszéddé alakító avatár digitális videót készít egy fotorealisztikus emberről (lehet egy standard avatár vagy egy egyéni szöveg-beszéd avatár), aki természetes hangzású hangon beszél. A szöveg és a beszéd avatar videója aszinkron módon vagy valós időben szintetizálható. A fejlesztők egy API-n keresztül szöveggel és beszédavatárral integrált alkalmazásokat hozhatnak létre, vagy a Speech Studióban egy tartalomkészítő eszközzel kódolás nélkül hozhatnak létre videótartalmakat.

További információkért tekintse meg a beszéd avatárszövegét, az átlátszósági jegyzeteket, valamint a hang- és avatartehetségekkel kapcsolatos információkat.

Egyéni neurális hang

A nyelvközi hang 24 új területi beállításának támogatása hozzáadva. További információért tekintse meg a teljes nyelvi listát .

Standard hang

Új hangok bevezetése a nyilvános előzetes verzióhoz:

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`de-DE`	Német (Németország)	`SeraphinaNeural` (Nő)
`es-ES`	Spanyol (Spanyolország)	`XimenaNeural` (Nő)
`fr-CA`	Francia (Kanada)	`ThierryNeural` (Férfi)
`fr-FR`	Francia (Franciaország)	`VivienneNeural` (Nő)
`it-IT`	Olasz (Olaszország)	`GiuseppeNeural` (Férfi)
`ko-KR`	Koreai nyelv (Korea)	`HyunsuNeural` (Férfi)
`pt-BR`	Portugál (Brazília)	`ThalitaNeural` (Nő)

A hibákkal frissített modellek és a minőség javítása:

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`es-ES`	Spanyol (Spanyolország)	`AlvaroNeural` (Férfi)
`en-GB`	Angol (Egyesült Királyság)	`RyanNeural` (Férfi)
`ko-KR`	Koreai nyelv (Korea)	`InjoonNeural` (Férfi)

További információért tekintse meg a teljes nyelvet és a hanglistát .

2023. októberi kiadás

Egyéni neurális hang

A 12 új területi beállításhoz hozzáadták az egyéni neurális hang Pro támogatását. További információért tekintse meg a teljes nyelvi listát .

2023. szeptemberi kiadás

Standard hang

Új hangok bevezetése a nyilvános előzetes verzióhoz:

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`en-US`	Angol (Egyesült Államok)	`en-US-EmmaNeural` (Nő)
`en-US`	Angol (Egyesült Államok)	`en-US-AndrewNeural` (Férfi)
`en-US`	Angol (Egyesült Államok)	`en-US-BrianNeural` (Férfi)

További információért tekintse meg a teljes nyelvet és a hanglistát .

Beágyazott neurális hang

Minden itt található 147 nyelvi beállítás (kivéve fa-IR, perzsa (Irán)) elérhető 1 kiválasztott női és/vagy 1 kiválasztott férfi hanggal.

2023. augusztusi kiadás

Egyéni neurális hang

A CNV Lite legújabb betanítási receptverziója már megjelent. Ez a kiadás számos fejlesztést hoz a nyelvi modellek minőségén. Próbálja ki a Speech Studiót.

2023. júliusi kiadás

Egyéni neurális hang

A többstílusú hang általánosan elérhető.
Két új helyi beállítást adtunk hozzá a nyilvános próba során a többféle stílusú hanghoz: ja-JP és zh-CN. További információért tekintse meg a teljes nyelvet és a hanglistát . Tekintse meg a különböző nyelvek előre beállított stíluslistáját.
A többnyelvű hang általánosan elérhető.
Két új nyelvi területet adtunk hozzá a nyelvközi hanghoz: id-ID és nl-NL. További információért tekintse meg a teljes nyelvet és a hanglistát .

Standard hangok

en-US Új, nemek közötti semleges hang bevezetése a nyilvános előzetes verzióhoz:

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`en-US`	Angol (Egyesült Államok)	`en-US-BlueNeural` (Semleges)

Új többnyelvű hangok bevezetése nyilvános előzetes verzióhoz:

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`en-US`	Angol (Egyesült Államok)	`en-US-JennyMultilingualV2Neural` (Nő)
`en-US`	Angol (Egyesült Államok)	`en-US-RyanMultilingualNeural` (Férfi)

A többnyelvű hangok en-US-JennyMultilingualV2Neural és en-US-RyanMultilingualNeural automatikusan észlelik a bemeneti szöveg nyelvét. Az elemet azonban továbbra is használhatja ezeknek a <lang> hangoknak a beszédnyelvének módosításához.

Ezek az új többnyelvű hangok 41 nyelven és akcentussal képesek beszélni: Arabic (Egypt), Arabic (Saudi Arabia), Catalan, Czech (Czechia), Danish (Denmark), German (Austria), German (Switzerland), German (Germany), English (Australia), English (Canada), English (United Kingdom), English (Hong Kong SAR), English (Ireland), English (India), English (United States), Spanish (Spain), Spanish (Mexico), Finnish (Finland), French (Belgium), French (Canada), French (Switzerland), French (France), Hindi (India), Hungarian (Hungary), Indonesian (Indonesia), Italian (Italy), Japanese (Japan), Korean (Korea), Norwegian Bokmål (Norway), Dutch (Belgium), Dutch (Netherlands), Polish (Poland), Portuguese (Brazil), Portuguese (Portugal), Russian (Russia), Swedish (Sweden), Thai (Thailand), Turkish (Türkiye), Chinese (Mandarin, Simplified), Chinese (Cantonese, Traditional), Chinese (Taiwanese Mandarin, Traditional).

Ezek a többnyelvű hangok nem támogatják teljes mértékben az SSML bizonyos elemeit, például a törést, a kiemelést, a csendet és a sub elemet.

Fontos

A en-US-JennyMultilingualV2Neural hang ideiglenesen nyilvános előzetes verzióban érhető el, kizárólag kiértékelési célokra. A jövőben el lesz távolítva.

Ahhoz, hogy angoltól eltérő nyelven tudjon beszélni, a en-US-JennyMultilingualNeural hang jelenlegi implementációja megköveteli, hogy állítsa be a <lang xml:lang> elemet. Arra számítunk, hogy a 2023. naptári év negyedik negyedévében a en-US-JennyMultilingualNeural hang frissülni fog, hogy a bemeneti szöveg nyelvén beszéljen <lang xml:lang> elem nélkül. Ez paritásos lesz a en-US-JennyMultilingualV2Neural hanggal.

Új funkciók bevezetése a nyilvános előzetes verzióban az alábbi hangokhoz:

A szerb (Szerbia) sr-RS hangoknak lett hozzáadva latin bemenet: sr-latn-RS-SophieNeural és sr-latn-RS-NicholasNeural.
Az angol kiejtés támogatása hozzáadásra került az albániai (Albánia) sq-AL hangokhoz: sq-AL-AnilaNeural és sq-AL-IlirNeural.

2023. májusi kiadás

hanganyagkészítés

Minden szabványos hang, amely beszédstílusokkal és többstílusú egyéni hangokkal rendelkezik, támogatja a stílus mértékének módosítását.
Most már kijavíthatja egy szó kiejtését a szó kimondásával és rögzítésével. A fonémák automatikusan felismerhetők a felvételről. A Beszédfelismerés funkció mostantól nyilvános előzetes verzióban érhető el.

2023. áprilisi kiadás

Standard hangok

Ezeknek a hangoknak a következő funkciói átkerültek a nyilvános előzetes verzióról a ga-ra:

Stílus	Szöveg és beszédhangok
style="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural`és `it-IT-IsabellaNeural`
style="vidám"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural`és `it-IT-IsabellaNeural`
stílus="szomorú"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural` és `fr-FR-HenriNeural`

Az angol kiejtés javítása hi-IN, ta-IN és te-IN hangok számára, most elérhető a nyilvános előzetes régiókban.

További információkért tekintse meg a nyelv és a hanglistát.

2023. márciusi kiadás

Új funkciók

A Beszédszintézis korrektúranyelv (SSML) frissül, hogy támogassa a hangeffektus-feldolgozó elemeket, amelyek optimalizálják a szintetizált beszédkimenet minőségét az eszközök adott forgatókönyveihez. További információ a beszédszintézis korrektúrákról.

Egyéni neurális hang

A nl-BE területi beállítás támogatása bővült az egyéni neurális hang Pro használatával. További információért tekintse meg a teljes nyelvet és a hanglistát .

Standard hangok

A következő hangok már általánosan elérhetők. További információért tekintse meg a teljes nyelvet és a hanglistát .

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`en-AU`	Angol (Ausztrália)	`en-AU-AnnetteNeural` (Nő) `en-AU-CarlyNeural` (Nő) `en-AU-DarrenNeural` (Férfi) `en-AU-DuncanNeural` (Férfi) `en-AU-ElsieNeural` (Nő) `en-AU-FreyaNeural` (Nő) `en-AU-JoanneNeural` (Nő) `en-AU-KenNeural` (Férfi) `en-AU-KimNeural` (Nő) `en-AU-NeilNeural` (Férfi) `en-AU-TimNeural` (Férfi) `en-AU-TinaNeural` (Nő) `en-AU-WilliamNeural` (Férfi)
`en-GB`	Angol (Egyesült Királyság)	`en-GB-RyanNeural` (Férfi) `en-GB-SoniaNeural` (Nő)
`es-ES`	Spanyol (Spanyolország)	`es-ES-AbrilNeural` (Nő) `es-ES-ArnauNeural` (Férfi) `es-ES-DarioNeural` (Férfi) `es-ES-EliasNeural` (Férfi) `es-ES-EstrellaNeural` (Nő) `es-ES-IreneNeural` (Nő) `es-ES-LaiaNeural` (Nő) `es-ES-LiaNeural` (Nő) `es-ES-NilNeural` (Férfi) `es-ES-SaulNeural` (Férfi) `es-ES-TeoNeural` (Férfi) `es-ES-TrianaNeural` (Nő) `es-ES-VeraNeural` (Nő)
`es-MX`	Spanyol (Mexikó)	`es-MX-JorgeNeural` (Férfi)
`fr-FR`	Francia (Franciaország)	`fr-FR-HenriNeural` (Férfi)
`it-IT`	Olasz (Olaszország)	`it-IT-IsabellaNeural` (Nő)
`ja-JP`	japán nyelv (Japán)	`ja-JP-AoiNeural` (Nő) `ja-JP-DaichiNeural` (Férfi) `ja-JP-MayuNeural` (Nő) `ja-JP-NaokiNeural` (Férfi) `ja-JP-ShioriNeural` (Nő)

Hozzáadott támogatás a cheerful stílushoz a de-DE-ConradNeural hanggal.

2023. februári kiadás

Standard hangok

A következő hangok már általánosan elérhetők. További információért tekintse meg a teljes nyelvet és a hanglistát .

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`zh-CN`	Kínai (mandarin, egyszerűsített)	`zh-CN-XiaomengNeural` (Nő) `zh-CN-XiaoyiNeural` (Nő) `zh-CN-XiaozhenNeural` (Nő) `zh-CN-YunfengNeural` (Férfi) `zh-CN-YunhaoNeural` (Férfi) `zh-CN-YunjianNeural` (Férfi) `zh-CN-YunxiaNeural` (Férfi) `zh-CN-YunzeNeural` (Férfi)
`zh-CN-henan`	Kínai (Zhongyuan Mandarin Henan, egyszerűsített)	`zh-CN-henan-YundengNeural` (Férfi)

2022. decemberi kiadás

Batch-szintézis REST API (előzetes verzió)

A Batch szintézis API jelenleg nyilvános előzetes verzióban érhető el. Miután általánosan elérhetővé válik, a Long Audio API elavult. További információért, lásd Váltson át a kötegelt szintézis API-ra.

2022. novemberi kiadás

Standard hangok (GA)

A következő hangok már általánosan elérhetők. További információért tekintse meg a teljes nyelvet és a hanglistát .

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`es-MX`	Spanyol (Mexikó)	`es-MX-BeatrizNeural` (Nő) `es-MX-CandelaNeural` (Nő) `es-MX-CarlotaNeural` (Nő) `es-MX-CecilioNeural` (Férfi) `es-MX-GerardoNeural` (Férfi) `es-MX-LarissaNeural` (Nő) `es-MX-LibertoNeural` (Férfi) `es-MX-LucianoNeural` (Férfi) `es-MX-MarinaNeural` (Nő) `es-MX-NuriaNeural` (Nő) `es-MX-PelayoNeural` (Férfi) `es-MX-RenataNeural` (Nő) `es-MX-YagoNeural` (Férfi)
`it-IT`	Olasz (Olaszország)	`it-IT-BenignoNeural` (Férfi) `it-IT-CalimeroNeural` (Férfi) `it-IT-CataldoNeural` (Férfi) `it-IT-FabiolaNeural` (Nő) `it-IT-FiammaNeural` (Nő) `it-IT-GianniNeural` (Férfi) `it-IT-ImeldaNeural` (Nő) `it-IT-IrmaNeural` (Nő) `it-IT-LisandroNeural` (Férfi) `it-IT-PalmiraNeural` (Nő) `it-IT-PierinaNeural` (Nő) `it-IT-RinaldoNeural` (Férfi)
`pt-BR`	Portugál (Brazília)	`pt-BR-BrendaNeural` (Nő) `pt-BR-DonatoNeural` (Férfi) `pt-BR-ElzaNeural` (Nő) `pt-BR-FabioNeural` (Férfi) `pt-BR-GiovannaNeural` (Nő) `pt-BR-HumbertoNeural` (Férfi) `pt-BR-JulioNeural` (Férfi) `pt-BR-LeilaNeural` (Nő) `pt-BR-LeticiaNeural` (Nő) `pt-BR-ManuelaNeural` (Nő) `pt-BR-NicolauNeural` (Férfi) `pt-BR-ValerioNeural` (Férfi) `pt-BR-YaraNeural` (Nő)

Egyéni neurális hang

Az egyéni neurális hanghoz a következő területi támogatás lesz hozzáadva. További információért tekintse meg a teljes nyelvet és a hanglistát .

Hozzáadott támogatás a fr-BE helyi beállítás számára egyéni neurális hangú Pro-val.
Hozzáadtunk támogatást a es-ES területi beállításhoz egyéni neurális hang lite verzióval.

2022. októberi kiadás

Standard hangok (GA)

A következő hangok már általánosan elérhetők. További információért tekintse meg a teljes nyelvet és a hanglistát .

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`eu-ES`	Baszk	`eu-ES-AinhoaNeural` (Nő) `eu-ES-AnderNeural` (Férfi)
`hy-AM`	Örmény (Örménia)	`hy-AM-AnahitNeural` (Nő) `hy-AM-HaykNeural` (Férfi)

Standard hangok (előzetes verzió)

Az alábbi hangok mostantól nyilvános előzetes verzióban érhetők el. További információért tekintse meg a teljes nyelvet és a hanglistát .

Területi beállítás (BCP-47)	Nyelv	Szöveg és beszédhangok
`en-AU`	Angol (Ausztrália)	`en-AU-AnnetteNeural`(Nő) `en-AU-CarlyNeural`(Nő) `en-AU-DarrenNeural`(Férfi) `en-AU-DuncanNeural`(Férfi) `en-AU-ElsieNeural`(Nő) `en-AU-FreyaNeural`(Nő) `en-AU-JoanneNeural`(Nő) `en-AU-KenNeural`(Férfi) `en-AU-KimNeural`(Nő) `en-AU-NeilNeural`(Férfi) `en-AU-TimNeural`(Férfi) `en-AU-TinaNeural`(Nő)
`es-ES`	Spanyol (Spanyolország)	`es-ES-AbrilNeural`(Nő) `es-ES-AlvaroNeural`(Férfi) `es-ES-ArnauNeural`(Férfi) `es-ES-DarioNeural`(Férfi) `es-ES-EliasNeural`(Férfi) `es-ES-EstrellaNeural`(Nő) `es-ES-IreneNeural`(Nő) `es-ES-LaiaNeural`(Nő) `es-ES-LiaNeural`(Nő) `es-ES-NilNeural`(Férfi) `es-ES-SaulNeural`(Férfi) `es-ES-TeoNeural`(Férfi) `es-ES-TrianaNeural`(Nő) `es-ES-VeraNeural`(Nő)
`ja-JP`	japán nyelv (Japán)	`ja-JP-AoiNeural`(Nő) `ja-JP-DaichiNeural`(Férfi) `ja-JP-MayuNeural`(Nő) `ja-JP-NaokiNeural`(Férfi) `ja-JP-ShioriNeural`(Nő)
`ko-KR`	Koreai nyelv (Korea)	`ko-KR-BongJinNeural`(Férfi) `ko-KR-GookMinNeural`(Férfi) `ko-KR-JiMinNeural`(Nő) `ko-KR-SeoHyeonNeural`(Nő) `ko-KR-SoonBokNeural`(Nő) `ko-KR-YuJinNeural`(Nő)
`wuu-CN`	Kínai (Wu, egyszerűsített)	`wuu-CN-XiaotongNeural` (Nő) `wuu-CN-YunzheNeural` (Férfi)
`yue-CN`	Kínai (kantoni, egyszerűsített)	`yue-CN-XiaoMinNeural` (Nő) `yue-CN-YunSongNeural` (Férfi)

Általános TTS-hangfrissítések

Javított minőség a fil-PH-AngeloNeural és fil-PH-BlessicaNeural hangok számára.
A szöveg normalizálási szabályai frissülnek a spanyol (Chile) es-CL és az üzbég (Üzbegisztán) uz-UZ területi beállításokkal.
Az sq-AL albán (Albánia) és az-AZ azerbajdzsáni (Azerbajdzsán) területi beállításokkal ellátott hangokhoz hozzáadták az angol betűk szerinti írást.
Továbbfejlesztett angol kiejtés a zh-HK-WanLungNeural hanghoz.
Továbbfejlesztett kérdéshang a nl-NL-MaartenNeural és pt-BR-AntonioNeural hangok esetén.
Hozzáadva a <lang ="en-US"> címke támogatása a jobb angol kiejtéshez a következő hangokkal: de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeural és it-IT-IsabellaNeural.
A következő hangokkal bővült a style="chat" címke támogatása: en-GB-RyanNeural, es-MX-JorgeNeuralés it-IT-IsabellaNeural.
A következő hangokkal bővült a style="cheerful" címke támogatása: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeuralés it-IT-IsabellaNeural.
A következő hangokkal bővült a style="sad" címke támogatása: en-GB-SoniaNeuralés fr-FR-DeniseNeuralfr-FR-HenriNeural.

2022. szeptemberi kiadás

Standard hang

Az összes standard hang 48 kHz-es mintasebességgel lett frissítve a nagy megbízhatóságú hangokra.

2022. augusztusi kiadás

Standard hang

Az új hangok nyilvános előzetes verziója megjelent.

Voices for English (Egyesült Államok): en-US-AIGenerate1Neural és en-US-AIGenerate2Neural.
Hangok a kínai regionális nyelvekhez: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeuralés zh-CN-shandong-YunxiangNeural.

További információkért tekintse meg a nyelv és a hanglistát.

2022. júliusi kiadás

Standard hang

A nyilvános előzetes verzióban hozzáadtak 5 új kínai (mandarin, egyszerűsített) és 1 új amerikai angol hangot zh-CNen-US. Teljes nyelv és hanglista megtekintése.

Nyelv	Helyszín	Társadalmi nem	Hangnév	Stílustámogatás
Kínai (mandarin, egyszerűsített)	`zh-CN`	Nő	`zh-CN-XiaomengNeural` ^Új	Általános, több stílus érhető el az SSML használatával
Kínai (mandarin, egyszerűsített)	`zh-CN`	Nő	`zh-CN-XiaoyiNeural` ^Új	Általános, több stílus érhető el az SSML használatával
Kínai (mandarin, egyszerűsített)	`zh-CN`	Nő	`zh-CN-XiaozhenNeural` ^Új	Általános, több stílus érhető el az SSML használatával
Kínai (mandarin, egyszerűsített)	`zh-CN`	Férfi	`zh-CN-YunxiaNeural` ^Új	Általános, több stílus érhető el az SSML használatával
Kínai (mandarin, egyszerűsített)	`zh-CN`	Férfi	`zh-CN-YunzeNeural` ^Új	Általános, több stílus érhető el az SSML használatával
Angol (Egyesült Államok)	`en-US`	Férfi	`en-US-RogerNeural` ^Új	Általános

A hozzáadott neurális hangok támogatott stílusai és szerepkörei.

Voice	Stílusok	Stílus fokozat	Szerepkörök
zh –CN-XiaomengNeural ^{nyilvános előzetes verzió}	`chat`	Támogatott
zh –CN-XiaoyiNeural ^{nyilvános előzetes verzió}	`affectionate`, `angry`, `cheerful`, `disgruntledembarrassed`, `fearful`, `gentle`, , `sadserious`	Támogatott
zh –CN-XiaozhenNeural ^{nyilvános előzetes verzió}	`angry`, `cheerful`, `disgruntled`, `fearfulsadserious`	Támogatott
zh –CN-YunxiaNeural ^{nyilvános előzetes verzió}	`angry`, `calm`, `cheerful`, `fearfulsad`	Támogatott
zh –CN-YunzeNeural ^{nyilvános előzetes verzió}	`angry`, `calm`, `cheerful`, `depresseddisgruntled`, `documentary-narration`, `fearful`, , `sadserious`	Támogatott	Támogatott

Arcpozíció lekérése a viseme használatával

Az Ön által megtervezett 3D karakter arcmozdulatainak irányítását lehetővé tették a keverő alakzatok támogatása. További információ arról, hogyan lehet megtudni az arc helyzetét a viseme segítségével.
Az SSML frissült, hogy támogassa a viseme elemet. Lásd a beszédszintézis jelölést.

2022. júniusi kiadás

Standard hang

9 új nyelvet és változatot adtunk hozzá a neurális szöveg és beszéd funkcióhoz.

Nyelv	Helyszín	Társadalmi nem	Hangnév	Stílustámogatás
arab (libanoni)	`ar-LB`	Nő	`ar-LB-LaylaNeural` ^Új	Általános
arab (libanoni)	`ar-LB`	Férfi	`ar-LB-RamiNeural` ^Új	Általános
Arab (Omán)	`ar-OM`	Nő	`ar-OM-AyshaNeural` ^Új	Általános
Arab (Omán)	`ar-OM`	Férfi	`ar-OM-AbdullahNeural` ^Új	Általános
Azerbajdzsáni (Azerbajdzsán)	`az-AZ`	Nő	`az-AZ-BabekNeural` ^Új	Általános
Azerbajdzsáni (Azerbajdzsán)	`az-AZ`	Férfi	`az-AZ-BanuNeural` ^Új	Általános
Bosnyák (Bosznia-Hercegovina)	`bs-BA`	Nő	`bs-BA-VesnaNeural` ^Új	Általános
Bosnyák (Bosznia-Hercegovina)	`bs-BA`	Férfi	`bs-BA-GoranNeural` ^Új	Általános
grúz nyelv (Grúzia)	`ka-GE`	Nő	`ka-GE-EkaNeural` ^Új	Általános
grúz nyelv (Grúzia)	`ka-GE`	Férfi	`ka-GE-GiorgiNeural` ^Új	Általános
Mongol (Mongólia)	`mn-MN`	Nő	`mn-MN-YesuiNeural` ^Új	Általános
Mongol (Mongólia)	`mn-MN`	Férfi	`mn-MN-BataaNeural` ^Új	Általános
Nepáli (Nepál)	`ne-NP`	Nő	`ne-NP-HemkalaNeural` ^Új	Általános
Nepáli (Nepál)	`ne-NP`	Férfi	`ne-NP-SagarNeural` ^Új	Általános
Albán (Albánia)	`sq-AL`	Nő	`sq-AL-AnilaNeural` ^Új	Általános
Albán (Albánia)	`sq-AL`	Férfi	`sq-AL-IlirNeural` ^Új	Általános
Tamil (Malajzia)	`ta-MY`	Nő	`ta-MY-KaniNeural` ^Új	Általános
Tamil (Malajzia)	`ta-MY`	Férfi	`ta-MY-SuryaNeural` ^Új	Általános

GA 36 hangok a nyilvános előzetes verzióból en-GB angol (Egyesült Királyság), fr-FR francia (Franciaország) és de-DE német (Németország):

Nyelv	Helyszín	Társadalmi nem	Hangnév	Stílustámogatás
Angol (Egyesült Királyság)	`en-GB`	Nő	`en-GB-AbbiNeural`	Általános
Angol (Egyesült Királyság)	`en-GB`	Nő	`en-GB-BellaNeural`	Általános
Angol (Egyesült Királyság)	`en-GB`	Nő	`en-GB-HollieNeural`	Általános
Angol (Egyesült Királyság)	`en-GB`	Nő	`en-GB-MaisieNeural`	Általános, gyermekhang
Angol (Egyesült Királyság)	`en-GB`	Nő	`en-GB-OliviaNeural`	Általános
Angol (Egyesült Királyság)	`en-GB`	Nő	`en-GB-SoniaNeural`	Általános
Angol (Egyesült Királyság)	`en-GB`	Férfi	`en-GB-AlfieNeural`	Általános
Angol (Egyesült Királyság)	`en-GB`	Férfi	`en-GB-ElliotNeural`	Általános
Angol (Egyesült Királyság)	`en-GB`	Férfi	`en-GB-EthanNeural`	Általános
Angol (Egyesült Királyság)	`en-GB`	Férfi	`en-GB-NoahNeural`	Általános
Angol (Egyesült Királyság)	`en-GB`	Férfi	`en-GB-OliverNeural`	Általános
Angol (Egyesült Királyság)	`en-GB`	Férfi	`en-GB-ThomasNeural`	Általános
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-BrigitteNeural`	Általános
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-CelesteNeural`	Általános
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-CoralieNeural`	Általános
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-EloiseNeural`	Általános, gyermekhang
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-JacquelineNeural`	Általános
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-JosephineNeural`	Általános
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-YvetteNeural`	Általános
Francia (Franciaország)	`fr-FR`	Férfi	`fr-FR-AlainNeural`	Általános
Francia (Franciaország)	`fr-FR`	Férfi	`fr-FR-ClaudeNeural`	Általános
Francia (Franciaország)	`fr-FR`	Férfi	`fr-FR-JeromeNeural`	Általános
Francia (Franciaország)	`fr-FR`	Férfi	`fr-FR-MauriceNeural`	Általános
Francia (Franciaország)	`fr-FR`	Férfi	`fr-FR-YvesNeural`	Általános
Német (Németország)	`de-DE`	Nő	`de-DE-AmalaNeural`	Általános
Német (Németország)	`de-DE`	Nő	`de-DE-ElkeNeural`	Általános
Német (Németország)	`de-DE`	Nő	`de-DE-GiselaNeural`	Általános, gyermekhang
Német (Németország)	`de-DE`	Nő	`de-DE-KlarissaNeural`	Általános
Német (Németország)	`de-DE`	Nő	`de-DE-LouisaNeural`	Általános
Német (Németország)	`de-DE`	Nő	`de-DE-MajaNeural`	Általános
Német (Németország)	`de-DE`	Nő	`de-DE-TanjaNeural`	Általános
Német (Németország)	`de-DE`	Férfi	`de-DE-BerndNeural`	Általános
Német (Németország)	`de-DE`	Férfi	`de-DE-ChristophNeural`	Általános
Német (Németország)	`de-DE`	Férfi	`de-DE-KasperNeural`	Általános
Német (Németország)	`de-DE`	Férfi	`de-DE-KillianNeural`	Általános
Német (Németország)	`de-DE`	Férfi	`de-DE-KlausNeural`	Általános
Német (Németország)	`de-DE`	Férfi	`de-DE-RalfNeural`	Általános

40 új spanyol es-MX (Mexikó), olasz it-IT (Olaszország), portugál pt-BR (Brazília) hang és 2 akcentus zh-CN kínai (mandarin, egyszerűsített) nyelven a nyilvános előzetes verzióban:

Nyelv	Helyszín	Társadalmi nem	Hangnév	Stílustámogatás
Spanyol (Mexikó)	`es-MX`	Nő	`es-MX-BeatrizNeural` ^Új	Általános
Spanyol (Mexikó)	`es-MX`	Nő	`es-MX-CarlotaNeural` ^Új	Általános
Spanyol (Mexikó)	`es-MX`	Nő	`es-MX-NuriaNeural` ^Új	Általános
Spanyol (Mexikó)	`es-MX`	Nő	`es-MX-RenataNeural` ^Új	Általános
Spanyol (Mexikó)	`es-MX`	Nő	`es-MX-LarissaNeural` ^Új	Általános
Spanyol (Mexikó)	`es-MX`	Nő	`es-MX-CandelaNeural` ^Új	Általános
Spanyol (Mexikó)	`es-MX`	Nő	`es-MX-MarinaNeural` ^Új	Általános
Olasz (Olaszország)	`it-IT`	Nő	`it-IT-FiammaNeural` ^Új	Általános
Olasz (Olaszország)	`it-IT`	Nő	`it-IT-IrmaNeural` ^Új	Általános
Olasz (Olaszország)	`it-IT`	Nő	`it-IT-FabiolaNeural` ^Új	Általános
Olasz (Olaszország)	`it-IT`	Nő	`it-IT-PalmiraNeural` ^Új	Általános
Olasz (Olaszország)	`it-IT`	Nő	`it-IT-ImeldaNeural` ^Új	Általános
Olasz (Olaszország)	`it-IT`	Nő	`it-IT-PierinaNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Nő	`pt-BR-ElzaNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Nő	`pt-BR-ManuelaNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Nő	`pt-BR-BrendaNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Nő	`pt-BR-LeilaNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Nő	`pt-BR-YaraNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Nő	`pt-BR-GiovannaNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Nő	`pt-BR-LeticiaNeural` ^Új	Általános
Spanyol (Mexikó)	`es-MX`	Férfi	`es-MX-CecilioNeural` ^Új	Általános
Spanyol (Mexikó)	`es-MX`	Férfi	`es-MX-LibertoNeural` ^Új	Általános
Spanyol (Mexikó)	`es-MX`	Férfi	`es-MX-LucianoNeural` ^Új	Általános
Spanyol (Mexikó)	`es-MX`	Férfi	`es-MX-PelayoNeural` ^Új	Általános
Spanyol (Mexikó)	`es-MX`	Férfi	`es-MX-YagoNeural` ^Új	Általános
Spanyol (Mexikó)	`es-MX`	Férfi	`es-MX-GerardoNeural` ^Új	Általános
Olasz (Olaszország)	`it-IT`	Férfi	`it-IT-BenignoNeural` ^Új	Általános
Olasz (Olaszország)	`it-IT`	Férfi	`it-IT-CataldoNeural` ^Új	Általános
Olasz (Olaszország)	`it-IT`	Férfi	`it-IT-LisandroNeural` ^Új	Általános
Olasz (Olaszország)	`it-IT`	Férfi	`it-IT-CalimeroNeural` ^Új	Általános
Olasz (Olaszország)	`it-IT`	Férfi	`it-IT-RinaldoNeural` ^Új	Általános
Olasz (Olaszország)	`it-IT`	Férfi	`it-IT-GianniNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Férfi	`pt-BR-DonatoNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Férfi	`pt-BR-HumbertoNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Férfi	`pt-BR-FabioNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Férfi	`pt-BR-JulioNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Férfi	`pt-BR-ValerioNeural` ^Új	Általános
Portugál (Brazília)	`pt-BR`	Férfi	`pt-BR-NicolauNeural` ^Új	Általános
Kínai (mandarin, egyszerűsített)	`zh-CN-sichuan`	Férfi	`zh-CN-sichuan-YunxiSichuanNeural` ^Új	Általános, szecsuáni ékezet
Kínai (mandarin, egyszerűsített)	`zh-CN-liaoning`	Nő	`zh-CN-liaoning-XiaobeiNeural` ^Új	Általános, Liaoning ékezet

Továbbfejlesztett minőség a en-SG-LunaNeural és en-SG-WayneNeural
48kHz-es kimeneti támogatás nyilvános előzetes verzióhoz en-US-JennyNeural, en-US-AriaNeural és zh-CN-XiaoxiaoNeural

Egyéni neurális hang

Lehetőség van az online adatproblémák megoldására. További információ az adatproblémák a Speech Studióban való megoldásáról.
A betanítási recept verziója hozzáadva. További információ a hangmodell betanítási receptverziójának kiválasztásáról.

Hangtartalom-létrehozási eszköz

Támogatott lapozás.
A munkahelyi fájllapon engedélyezve van a globális rendezés név, fájltípus és frissítési idő szerint.

2022. májusi kiadás

Standard hang

Nyilvános előzetesben 5 új hang jelent meg különféle stílusokkal, hogy gazdagítsák az amerikai angol nyelv változatosságát. Teljes nyelv és hanglista megtekintése.
Támogassa ezeket az új stílusokat: Angry, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified és Whispering a nyilvános előzetes verzióban en-US-AriaNeural.
Támogassa ezeket az új stílusokat Angry, Cheerful, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified és Whispering a nyilvános előzetes verzióban en-US-GuyNeural, en-US-JennyNeural számára.
Támogassa ezeket az új stílusokat: Excited, Friendly, Hopeful, Shouting, Unfriendly, Terrified és Whispering a nyilvános előzetes verzióban: en-US-SaraNeural. Hangstílusok és szerepkörök megtekintése.
Nyilvános előzetes verzióban megjelentek az új hangok zh-CN-YunjianNeural, zh-CN-YunhaoNeural, és zh-CN-YunfengNeural. Teljes nyelv és hanglista megtekintése.
2 új stílus támogatása nyilvános előzetes verzióban a következőhöz: sports-commentary, sports-commentary-excited, zh-CN-YunjianNeural. Hangstílusok és szerepkörök megtekintése.
1 új stílus advertisement-upbeat támogatása nyilvános előzetes verzióban a következőhöz zh-CN-YunhaoNeural: . Hangstílusok és szerepkörök megtekintése.
A cheerful és sad stílusok fr-FR-DeniseNeural általában minden régióban elérhetők.
Az SSML frissült, hogy támogassa a en-US és en-AU hangok MathML-elemeit. További információ a beszédszintézis korrektúrákról.

Egyéni neurális hang

Engedélyezett a hangmodell betanításának megszakítása a folyamat során. További információ a betanítás megszakításáról.
Lehetővé teszi a modell klónozását (a hangmodell átnevezését). További információ a hangmodell átnevezéséről.
Saját tesztszkript hozzáadásával tesztelheti a hangmodellt. További információ a tesztszkript feltöltéséről.
Engedélyezve van a hangmodell motor verziójának frissítése. További információ a modellmotor verziójának frissítéséről.
Támogatott további képzési régiók. Lásd a régiótámogatást.
Támogatott 10 területi beállítás az egyéni neurális hangalapú lite (előzetes verzió) esetében. Lásd : nyelvi támogatás.

Hangtartalom-létrehozási eszköz

Bejelentkezés nélkül is kipróbálhatja a Hangtartalom létrehozása eszközt.
Javított elrendezés a fonémák beállításához.
Megnövelt teljesítmény: Meghatározta az egyszerre feltöltendő fájlok maximális számát (200).
Nagyobb teljesítmény: A címtár maximális mélységi szintjét (5 szint) adta meg.

2022. márciusi kiadás

Standard hang

A nyilvános előzetes verzióban támogatást kapott a Cheerful és Sad stílusok fr-FR-DeniseNeural-val. Hangstílusok és szerepkörök megtekintése.
A leválasztott tárolók standard hangjait nyilvános előzetes verzióban bocsátja ki. Lásd: Docker-tárolók használata leválasztott környezetekben.

Egyéni neurális hang

Támogatott szerepköralapú hozzáférés-vezérlés. További információ az Azure szerepköralapú hozzáférés-vezérléséről a Speech Studióban
Támogatott privát végpontok és virtuális hálózati szolgáltatásvégpontok. További információ a privát végpontok beszédszolgáltatással való használatáról.

Hangtartalom-létrehozási eszköz

Frissítette az ingyenes szintű (F0) erőforrások fájlméretét és egyidejűségi korlátját, hogy a felhasználói élmény összhangban legyen a Speech SDK-kkal és API-kkal. Lásd a beszédszolgáltatás kvótáinak és korlátainak megtekintését.

2022. februári kiadás

Egyéni neurális hang

Megjelent az egyéni neurális hang lite nyilvános előzetes verzióban. További információ az egyéni neurális hangról.
Kiterjesztett nyelvi támogatás 49 localéra. Lásd : nyelvi támogatás.
Támogatott további régiók/adatközpontok. Lásd a régiótámogatást.

Hangtartalom-létrehozási eszköz

Eltávolította a hangfájlok letöltésének kimeneti hosszára vonatkozó korlátot.

2022. januári kiadás

Új nyelvek és hangok

10 új nyelvet és változatot adtunk hozzá a neurális szövegfelolvasáshoz.

Nyelv	Helyszín	Társadalmi nem	Hangnév	Stílustámogatás
Bengáli (India)	`bn-IN`	Nő	`bn-IN-TanishaaNeural` ^Új	Általános
Bengáli (India)	`bn-IN`	Férfi	`bn-IN-BashkarNeural` ^Új	Általános
Izlandi nyelv (Izland)	`is-IS`	Nő	`is-IS-GudrunNeural` ^Új	Általános
Izlandi nyelv (Izland)	`is-IS`	Férfi	`is-IS-GunnarNeural` ^Új	Általános
Kannada (India)	`kn-IN`	Nő	`kn-IN-SapnaNeural` ^Új	Általános
Kannada (India)	`kn-IN`	Férfi	`kn-IN-GaganNeural` ^Új	Általános
Kazak (Kazahsztán)	`kk-KZ`	Nő	`kk-KZ-AigulNeural` ^Új	Általános
Kazak (Kazahsztán)	`kk-KZ`	Férfi	`kk-KZ-DauletNeural` ^Új	Általános
Lao (Laosz)	`lo-LA`	Nő	`lo-LA-KeomanyNeural` ^Új	Általános
Lao (Laosz)	`lo-LA`	Férfi	`lo-LA-ChanthavongNeural` ^Új	Általános
Macedón (Észak-Macedón Köztársaság)	`mk-MK`	Nő	`mk-MK-MarijaNeural` ^Új	Általános
Macedón (Észak-Macedón Köztársaság)	`mk-MK`	Férfi	`mk-MK-AleksandarNeural` ^Új	Általános
Malajalam (India)	`ml-IN`	Nő	`ml-IN-SobhanaNeural` ^Új	Általános
Malajalam (India)	`ml-IN`	Férfi	`ml-IN-MidhunNeural` ^Új	Általános
Pashto (Afganisztán)	`ps-AF`	Nő	`ps-AF-LatifaNeural` ^Új	Általános
Pashto (Afganisztán)	`ps-AF`	Férfi	`ps-AF-GulNawazNeural` ^Új	Általános
Szerb (Szerbia, cirill betűs)	`sr-RS`	Nő	`sr-RS-SophieNeural` ^Új	Általános
Szerb (Szerbia, cirill betűs)	`sr-RS`	Férfi	`sr-RS-NicholasNeural` ^Új	Általános
Sinhala (Sri Lanka)	`si-LK`	Nő	`si-LK-ThiliniNeural` ^Új	Általános
Sinhala (Sri Lanka)	`si-LK`	Férfi	`si-LK-SameeraNeural` ^Új	Általános

Az elérhető hangok teljes listáját a Nyelvi támogatás című témakörben találja.

Új hangok előzetes verzióban

Új hangokat adtunk hozzá en-GB, fr-FR és de-DE előzetes verzióban:

Nyelv	Helyszín	Társadalmi nem	Hangnév	Stílustámogatás
Angol (Egyesült Királyság)	`en-GB`	Nő	`en-GB-AbbiNeural` ^Új	Általános
Angol (Egyesült Királyság)	`en-GB`	Nő	`en-GB-BellaNeural` ^Új	Általános
Angol (Egyesült Királyság)	`en-GB`	Nő	`en-GB-HollieNeural` ^Új	Általános
Angol (Egyesült Királyság)	`en-GB`	Nő	`en-GB-OliviaNeural` ^Új	Általános
Angol (Egyesült Királyság)	`en-GB`	Lány	`en-GB-MaisieNeural` ^Új	Általános
Angol (Egyesült Királyság)	`en-GB`	Férfi	`en-GB-AlfieNeural` ^Új	Általános
Angol (Egyesült Királyság)	`en-GB`	Férfi	`en-GB-ElliotNeural` ^Új	Általános
Angol (Egyesült Királyság)	`en-GB`	Férfi	`en-GB-EthanNeural` ^Új	Általános
Angol (Egyesült Királyság)	`en-GB`	Férfi	`en-GB-NoahNeural` ^Új	Általános
Angol (Egyesült Királyság)	`en-GB`	Férfi	`en-GB-OliverNeural` ^Új	Általános
Angol (Egyesült Királyság)	`en-GB`	Férfi	`en-GB-ThomasNeural` ^Új	Általános
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-BrigitteNeural` ^Új	Általános
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-CelesteNeural` ^Új	Általános
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-CoralieNeural` ^Új	Általános
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-JacquelineNeural` ^Új	Általános
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-JosephineNeural` ^Új	Általános
Francia (Franciaország)	`fr-FR`	Nő	`fr-FR-YvetteNeural` ^Új	Általános
Francia (Franciaország)	`fr-FR`	Lány	`fr-FR-EloiseNeural` ^Új	Általános
Francia (Franciaország)	`fr-FR`	Férfi	`fr-FR-AlainNeural` ^Új	Általános
Francia (Franciaország)	`fr-FR`	Férfi	`fr-FR-ClaudeNeural` ^Új	Általános
Francia (Franciaország)	`fr-FR`	Férfi	`fr-FR-JeromeNeural` ^Új	Általános
Francia (Franciaország)	`fr-FR`	Férfi	`fr-FR-MauriceNeural` ^Új	Általános
Francia (Franciaország)	`fr-FR`	Férfi	`fr-FR-YvesNeural` ^Új	Általános
Német (Németország)	`de-DE`	Nő	`de-DE-AmalaNeural` ^Új	Általános
Német (Németország)	`de-DE`	Nő	`de-DE-ElkeNeural` ^Új	Általános
Német (Németország)	`de-DE`	Nő	`de-DE-KlarissaNeural` ^Új	Általános
Német (Németország)	`de-DE`	Nő	`de-DE-LouisaNeural` ^Új	Általános
Német (Németország)	`de-DE`	Nő	`de-DE-MajaNeural` ^Új	Általános
Német (Németország)	`de-DE`	Nő	`de-DE-TanjaNeural` ^Új	Általános
Német (Németország)	`de-DE`	Lány	`de-DE-GiselaNeural` ^Új	Általános
Német (Németország)	`de-DE`	Férfi	`de-DE-BerndNeural` ^Új	Általános
Német (Németország)	`de-DE`	Férfi	`de-DE-ChristophNeural` ^Új	Általános
Német (Németország)	`de-DE`	Férfi	`de-DE-KasperNeural` ^Új	Általános
Német (Németország)	`de-DE`	Férfi	`de-DE-KillianNeural` ^Új	Általános
Német (Németország)	`de-DE`	Férfi	`de-DE-KlausNeural` ^Új	Általános
Német (Németország)	`de-DE`	Férfi	`de-DE-RalfNeural` ^Új	Általános

Az elérhető hangok teljes listáját a Nyelvi támogatás című témakörben találja.

Kiejtés pontossága

Továbbfejlesztett angol nyelvű kiejtés minden he-IL hanghoz.
Jobb szószintű kiejtési pontosság a cs-CZ és a da-DK számára.
Továbbfejlesztett arab ékírás és héber Nikud kezelés.
Továbbfejlesztett entitásolvasás a következőhöz: ja-JP

Speech Studio

Egyéni neurális hang: engedélyezett további modelltesztelés a batch API használatával (hosszú hang API)
Hangtartalom létrehozása: engedélyezett további kimeneti formátumok

2021. októberi kiadás

Új nyelvek és hangok

49 új nyelvet és 98 hangot adott hozzá a neurális szövegből beszédet technológiához.

Adri afrikaansul af-ZA (Dél-Afrika), Willem afrikaansul af-ZA (Dél-Afrika), Mekdes amhara am-ET (Etiópia), Ameha amhara am-ET (Etiópia), Fatima arabul ar-AE (Egyesült Arab Emírségek), Hamdan arabul ar-AE (Egyesült Arab Emírségek), Laila arabul ar-BH (Bahrein), Ali arabul ar-BH (Bahrein), Amina arabul ar-DZ (Algéria), Ismael arabul ar-DZ (Algéria), Rana arabul ar-IQ (Irak), Bassel arabul ar-IQ (Irak), Sana arabul ar-JO (Jordánia), Taim arabul ar-JO (Jordánia), Noura arabul ar-KW (Kuvait), Fahed arabul ar-KW (Kuvait), Iman arabul ar-LY (Líbia), Omar arabul ar-LY (Líbia), Mouna arabul ar-MA (Marokkó), Jamal arabul ar-MA (Marokkó), Amal arabul ar-QA (Katar), Moaz arabul ar-QA (Katar), Amany arabul ar-SY (Szíria), Laith arabul ar-SY (Szíria), Reem arabul ar-TN (Tunézia), Hedi arabul ar-TN (Tunézia), Maryam arabul ar-YE (Jemen), Saleh arabul ar-YE (Jemen), Nabanita bengáliul bn-BD (Banglades), Pradeep bengáliul bn-BD (Banglades), Asilia angolul en-KE (Kenya), Chilemba angolul en-KE (Kenya), Ezinne angolul en-NG (Nigéria), Abeo angolul en-NG (Nigéria), Imani angolul en-TZ (Tanzánia), Elimu angolul en-TZ (Tanzánia), Szófia spanyolul es-BO (Bolívia), Marcelo spanyolul es-BO (Bolívia), Catalina spanyolul es-CL (Chile), Lorenzo spanyolul es-CL (Chile), Maria spanyolul es-CR (Costa Rica), Juan spanyolul es-CR (Costa Rica), Belkys spanyolul es-CU (Kuba), Manuel spanyolul es-CU (Kuba), Ramona spanyolul es-DO (Dominikai Köztársaság), Emilio spanyolul es-DO (Dominikai Köztársaság), Andrea spanyolul es-EC (Ecuador), Luis spanyolul es-EC (Ecuador), Teresa spanyolul es-GQ (Egyenlítői-Guinea), Javier spanyolul es-GQ (Egyenlítői-Guinea), Marta spanyolul es-GT (Guatemala), Andres spanyolul es-GT (Guatemala), Karla spanyolul es-HN (Honduras), Carlos spanyolul es-HN (Honduras), Yolanda spanyolul es-NI (Nicaragua), Federico spanyolul es-NI (Nicaragua), Margarita spanyolul es-PA (Panama), Roberto spanyolul es-PA (Panama), Camila spanyolul es-PE (Peru), Alex spanyolul es-PE (Peru), Karina spanyolul es-PR (Puerto Rico), Victor spanyolul es-PR (Puerto Rico), Tania spanyolul es-PY (Paraguay), Mario spanyolul es-PY (Paraguay), Lorena spanyolul es-SV (El Salvador), Rodrigo spanyolul es-SV (El Salvador), Valentina spanyolul es-UY (Uruguay), Mateo spanyolul es-UY (Uruguay), Paola spanyolul es-VE (Venezuela), Sebastian spanyolul es-VE (Venezuela), Dilara perzsául fa-IR (Irán), Farid perzsául fa-IR (Irán), Blessica filippínóul fil-PH (Fülöp-szigetek), Angelo filippínóul fil-PH (Fülöp-szigetek), Sabela galíciaiul gl-ES, Roi galíciaiul gl-ES, Siti jávaiul jv-ID (Indonézia), Dimas jávaiul jv-ID (Indonézia), Sreymom khmerül km-KH (Kambodzsa), Piseth khmerül km-KH (Kambodzsa), Nilar burmaiul my-MM (Mianmar), Thiha burmaiul my-MM (Mianmar), Ubax szomáliul so-SO (Szomália), Muuse szomáliul so-SO (Szomália), Tuti szundanézül su-ID (Indonézia), Jajang szundanézül su-ID (Indonézia), Rehema szuahéliul sw-TZ (Tanzánia), Daudi szuahéliul sw-TZ (Tanzánia), Saranya tamilul ta-LK (Srí Lanka), Kumar tamilul ta-LK (Srí Lanka), Venba tamilul ta-SG (Szingapúr), Anbu tamilul ta-SG (Szingapúr), Gul urduul ur-IN (India), Salman urduul ur-IN (India), Madina üzbégül uz-UZ (Üzbegisztán), Sardor üzbégül uz-UZ (Üzbegisztán), Thando zulul zu-ZA (Dél-Afrika), Themba zulul zu-ZA (Dél-Afrika).

2021. szeptemberi kiadás

Új csevegőrobot hangja en-US Angol (USA): Sara egy fiatal női felnőttet képvisel, aki lazábban beszél, és a legjobban illik a csevegőrobot-forgatókönyvekhez.
ja-JP Három új stílus elérhetők Nanami hangjához: csevegés, ügyfélszolgálat és vidám.
Általános kiejtési javulás: Ardi in id-ID, Premwadee in th-TH, Christel in da-DK, HoaiMy és NamMinh in vi-VN.
Két új hang előnézetben kínai (mandarin, Kína): Xiaochen & Xiaoyan, optimalizálva spontán beszédhez és ügyfélszolgálati forgatókönyvekhez.

2021. júliusi kiadás

Neurális szövegfelolvasó frissítések

Csökkentettük a héber nyelvű kiejtési hibákat 20%-val.

A Speech Studio frissítései

Egyéni neurális hang: Frissítette a betanítási folyamatot UniTTSv3-ra, amellyel a modell minősége javult, míg a betanítási idő 50% az akusztikai modellek esetében.
Hangtartalom létrehozása: Kijavítottuk az "Exportálás" teljesítményproblémát és az egyéni neurális hangkijelölés hibáját.

2021. júniusi kiadás

A Speech Studio frissítései

Egyéni neurális hang: Az egyéni neurális hangképzést kiterjesztették Délkelet-Ázsia támogatására. Új funkciók jelentek meg az adatfeltöltés állapotellenőrzésének támogatásához.
Hangtartalmak létrehozása: Új funkció jelent meg az egyéni lexikon támogatásához. Ezzel a funkcióval a felhasználók egyszerűen létrehozhatják a lexikonfájljaikat, és meghatározhatják a hangkimenethez tartozó testreszabott kiejtést.

2021. májusi kiadás

Új nyelvek és hangok hozzáadva a neurális TTS-hez

Tíz új nyelv került bevezetésre – 20 új hang került hozzáadásra 10 új területi beállításban a neurális TTS nyelv listába: Yan angolul en-HK (Hongkong), Sam angolul en-HK (Hongkong), Molly angolul en-NZ (Új-Zéland), Mitchell angolul en-NZ (Új-Zéland), Luna angolul en-SG (Szingapúr), Wayne angolul en-SG (Szingapúr), Leah angolul en-ZA (Dél-Afrika), Luke angolul en-ZA (Dél-Afrika), Dhwani gujarati nyelven gu-IN (India), Niranjan gujarati nyelven gu-IN (India), Aarohi marathi nyelven mr-IN (India), Manohar marathi nyelven mr-IN (India), Elena spanyolul es-AR (Argentína), Tomas spanyolul es-AR (Argentína), Salome spanyolul es-CO (Kolumbia), Gonzalo spanyolul es-CO (Kolumbia), Paloma spanyolul es-US (Egyesült Államok), Alonso spanyolul es-US (Egyesült Államok), Zuri szuahéli nyelven sw-KE (Kenya), Rafiki szuahéli nyelven sw-KE (Kenya).
11 új en-US hang előzetes verzióban – 11 új en-US hang kerül az amerikai angol nyelvre, ezek Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Öt zh-CN A kínai (mandarin, egyszerűsített) hangok általánosan elérhetők – 5 kínai (mandarin, egyszerűsített) hang az előzetes verzióról általánosan elérhetőre változik. Ezek a következők: Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Ezek a hangok most már minden régióban elérhetők. A Yunxi új "asszisztens" stílussal bővül, amely alkalmas csevegőrobot és hangügynök számára. A Xiaomo hangstílusai természetesebbé és kiemeltebbé lettek finomítva.

2021. áprilisi kiadás

A neurális szövegfelolvasás 21 régióban érhető el

Tizenkét új régió lett hozzáadva – A neurális szövegfelolvasás mostantól elérhető ebben a 12 új régióban: Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US, West US 2. A 21 támogatott régió teljes listáját itt találja.

2021. márciusi kiadás

Új nyelvek és hangok hozzáadva a neurális TTS-hez

Hat új helyszín lett bevezetve – 12 új hang 6 új helyszínen került fel a neurális TTS nyelvi listára: Nia Welsh nyelven (Egyesült Királyság), Aled Welsh nyelven (Egyesült Királyság), Rosa angol nyelven (Fülöp-szigetek), James angol nyelven (Fülöp-szigetek), Charline francia nyelven (Belgium), Gerard francia nyelven (Belgium), Dena holland nyelven (Belgium), Arnaud holland nyelven (Belgium), Polina ukrán nyelven (Ukrajna), Ostap ukrán nyelven (Ukrajna), Uzma urdu nyelven (Pakisztán), Asad urdu nyelven (Pakisztán).
Öt nyelv az előzetes verziótól a GA-ig – 10 hang 5 területi beállításban, amelyek novemberben jelentek meg: GA: Kert et-EE az észt (Észtország), Colm in ga-IE Irish (Írország), Nils in lv-LV Lett (Lettország), Leonas in lt-LT Litván (Litvánia), Joseph in mt-MT Maltese (Málta).
Antoine nevű új férfihang hozzáadva a kanadai francia nyelvhez. - Egy új férfihang, Antoine, elérhető kanadai francia nyelven.
Minőségjavítás - Kiejtési hibaarány csökkentése hu-HU a magyar - 48,17%, nb-NO norvég - 52,76%, nl-NL holland (Hollandia) - 22,11%.

Ezzel a kiadással most összesen 142 neurális hangot támogatunk 60 nyelven/területi beállításban. Emellett több mint 70 standard hang érhető el 49 nyelven/területi beállításban. Látogasson el a Nyelvi támogatás oldalra a teljes listáért.

Szerezz arckifejezési eseményeket a karakterek animálásához

A neurális szövegfelolvasás mostantól magában foglalja a viseme eseményt. A Viseme-események lehetővé teszik, hogy a felhasználók a szintetizált beszéd mellett arcpózok sorozatát is megkapják. A Visemes a 2D és a 3D avatarmodellek mozgásának szabályozására használható, a szájmozgásoknak a szintetizált beszédhez való illesztéséhez. A Viseme-események jelenleg csak hangként en-US-AriaNeural érhetők el.

A könyvjelző elem hozzáadása a Speech Synthesis Markup Language (SSML) nyelvhez

A könyvjelzőelem lehetővé teszi egyéni jelölők beszúrását az SSML-be az egyes jelölők eltolásának lekéréséhez a hangstreamben. Segítségével hivatkozhat a szöveg vagy címkesorozat egy adott helyére.

2021. februári kiadás

Egyéni neurális hang – GA

Az egyéni neurális hang technológia februártól általánosan elérhetővé válik 13 nyelven: kínai (mandarin, egyszerűsített), angol (Ausztrália), angol (India), angol (Egyesült Királyság), angol (Egyesült Államok), francia (Kanada), francia (Franciaország), német (Németország), olasz (Olaszország), japán (Japán), koreai (Korea), portugál (Brazília), spanyol (Mexikó) és spanyol (Spanyolország). További információ az egyéni neurális hangról és annak felelősségteljes használatáról. Az egyéni neurális hangfunkció regisztrációt igényel, és a Microsoft a Microsoft jogosultsági feltételei alapján korlátozhatja a hozzáférést. További információ a korlátozott hozzáférésről.

2020. decemberi kiadás

Új neurális hangok a GA-ban és az előzetes verzióban

Kiadásra került 51 új hang, amely összesen 129 neurális hangot jelent 54 nyelven/területi beállításon:

46 új hang a GA területi beállításaiban: Shakir arab nyelven ar-EG (Egyiptom), Hamed arab nyelven ar-SA (Szaúd-Arábia), Boriszlav bolgárul bg-BG (Bulgária), Joana katalán nyelven ca-ES, Antonin cseh nyelven cs-CZ (Cseh Köztársaság), Jeppe dánul da-DK (Dánia), Jonas németül de-AT (Ausztria), Jan németül de-CH (Svájc), Nestoras görög nyelven el-GR (Görögország), Liam angolul en-CA (Kanada), Connor angolul en-IE (Írország), Madhur hindi nyelven en-IN (India), Mohan telugu nyelven en-IN (India), Prabhat angolul en-IN (India), Valluvar tamil nyelven en-IN (India), Enric katalán nyelven es-ES, Kert észtül et-EE (Észtország), Harri finnül fi-FI (Finnország), Selma finnül fi-FI (Finnország), Fabrice francia nyelven fr-CH (Svájc), Colm ír nyelven ga-IE (Írország), Avri héber nyelven he-IL (Izrael), Srecko horvátul hr-HR (Horvátország), Tamás magyarul hu-HU (Magyarország), Gadis indonéz nyelven id-ID (Indonézia), Leonas litvánul lt-LT (Litvánia), Nils lett nyelven lv-LV (Lettország), Osman maláj nyelven ms-MY (Malajzia), Joseph máltai nyelven mt-MT (Málta), Finn norvég, Bokmål nyelven nb-NO (Norvégia), Pernille norvég, Bokmål nyelven nb-NO (Norvégia), Fenna hollandul nl-NL (Hollandia), Maarten hollandul nl-NL (Hollandia), Agnieszka lengyelül pl-PL (Lengyelország), Marek lengyelül pl-PL (Lengyelország), Duarte portugál nyelven pt-BR (Brazília), Raquel portugál nyelven pt-PT (Portugália), Emil románul ro-RO (Románia), Dmitry oroszul ru-RU (Oroszország), Szvetlana oroszul ru-RU (Oroszország), Lukas szlovákul sk-SK (Szlovákia), Rok szlovén nyelven sl-SI (Szlovénia), Mattias svédül sv-SE (Svédország), Sofie svédül sv-SE (Svédország), Niwat thai nyelven th-TH (Thaiföld), Ahmet törökül tr-TR (Türkiye), NamMinh vietnami nyelven vi-VN (Vietnam), HsiaoChen tajvani mandarin nyelven zh-TW (Tajvan), YunJhe tajvani mandarin nyelven zh-TW (Tajvan), HiuMaan kínai kantoni nyelven zh-HK (Hongkong különleges közigazgatási régió), WanLung kínai kantoni nyelven zh-HK (Hongkong KKT).
5 új hang az előzetes verzióban: Kert az et-EE észt (Észtország), Colm az ga-IE ír (Írország), Nils az lv-LV lett (Lettország), Leonas az lt-LT litván (Litvánia), Joseph az mt-MT máltai (Málta).

Ezzel a kiadással most összesen 129 neurális hangot támogatunk 54 nyelven/területi beállításban. Emellett több mint 70 standard hang érhető el 49 nyelven/területi beállításban. Látogasson el a Nyelvi támogatás oldalra a teljes listáért.

Hangtartalmak létrehozásának frissítései

Továbbfejlesztett hangkijelölési felhasználói felület hangkategóriákkal és részletes hangleírásokkal.
Az összes neurális hang intonációs hangolása engedélyezett különböző nyelveken.
A felhasználói felület honosításának automatizálása a böngésző nyelve alapján.
Az összes StyleDegree neurális hanghoz zh-CN vezérlők engedélyezve. Az új funkciók megtekintéséhez látogasson el a Hangtartalom létrehozása eszközre .

Frissítések zh-CN hangokhoz

Frissítette az összes zh-CN neurális hangot, hogy támogassa az angol nyelvet.
Az összes zh-CN neurális hang engedélyezve van az intonáció beállításának támogatásához. Az SSML- vagy hangtartalom-létrehozási eszköz a legjobb intonációhoz igazítható.
Az összes zh-CN többstílusú neurális hang frissítve lett az StyleDegree irányítás támogatására. Az érzelem intenzitása (puha vagy erős) állítható.
Frissítve zh-CN-YunyeNeural , hogy több stílust is támogatjon, amelyek különböző érzelmeket képesek végrehajtani.

2020. novemberi kiadás

Új területi beállítások és hangok előzetes verzióban

Öt új hang és nyelv kerül bevezetésre a neurális szöveg-beszéd portfólióba. Ezek a következők: Grace a máltai (Málta), Ona litván (Litvánia), Anu az észt (Észtország), Orla ír (Írország) és Everita lett (Lettország).
Öt új zh-CN hang több stílussal és szerepkörrel: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan és Yunxi.

Ezek a hangok nyilvános előzetes verzióban érhetők el három Azure-régióban: EastUS, SouthEastAsia és WestEurope.

Neurális szöveg-beszéd átalakító konténer – GA

A Neurális szöveg és a Speech Container használatával a fejlesztők a legtermészetesebb digitális hangokkal futtathatják a beszédszintézist a saját környezetükben a konkrét biztonsági és adatszabályozási követelmények érdekében. Ellenőrizze , hogyan telepítheti a Speech Containerst.

Új funkciók

Egyéni hang: lehetővé tette a felhasználók számára, hogy hangmodellt másoljanak az egyik régióból a másikba; támogatta a végpontok felfüggesztését és folytatását. Lépjen ide az Azure Portalra .
Az SSML csöndcímke támogatása.
Általános TTS hangminőség-fejlesztések: Javított szó szintű kiejtési pontosság a nb-NO-ban. Csökkentették az 53% kiejtési hibát.

További információkért olvassa el ezt a tech blogot.

2020. októberi kiadás

Új funkciók

Jenny egy új newscast stílust támogat. Megtudhatja, hogyan használhatja a beszédstílusokat az SSML-ben.
A neurális hangok hiFiNet vocoderra frissülnek, nagyobb hanghűséggel és gyorsabb szintézisi sebességgel. Ez azoknak az ügyfeleknek nyújt előnyöket, akiknek a forgatókönyve hi-fi hang- vagy hosszú interakciókra támaszkodik, beleértve a videófordítást, a hangoskönyveket vagy az online oktatási anyagokat. További információ a történetről, és hallhatja a hangmintákat a technikai közösség blogján
Egyéni hang és hangtartalom-készítő stúdió 17 területi beállításra honosítva. A felhasználók egyszerűen válthatnak a felhasználói felületre egy helyi nyelvre a barátságosabb élmény érdekében.
Hangtartalom létrehozása: XiaoxiaoNeural stílushatásának vezérlése hozzáadva; A testre szabott törés funkciót finomítottuk, hogy 50 ms-os lépésenkénti töréseket tartalmazzon.

Általános TTS hangminőség-fejlesztések

Jobb szószintű kiejtési pontosság pl-PL (hibaarány-csökkentés: 51%) és fi-FI (hibaarány-csökkentés: 58%)
Továbbfejlesztett ja-JP egyszavas olvasás szótári felhasználáshoz. A kiejtési hiba 80%-tal csökkentve.
zh-CN-XiaoxiaoNeural: Javított hangulat / Ügyfélszolgálat / Híradó / Vidám / Dühös stílusú hangminőség.
zh-CN: Továbbfejlesztett Erhua kiejtés, lágy hangszín és kifinomult beszédritmus, ami jelentősen javítja az érthetőséget.

2020. szeptemberi kiadás

Új funkciók

Neurális szövegfelolvasás
- Kiterjesztve 18 új nyelv és területi beállítás támogatására. Ezek a következők: bolgár, cseh, német (Ausztria), német (Svájc), görög, angol (Írország), francia (Svájc), héber, horvát, magyar, indonéz, maláj, román, szlovák, szlovén, tamil, telugu és vietnami.
- 14 új hang jelent meg, hogy a meglévő nyelvek változatosságát bővítse. Teljes nyelv és hanglista megtekintése.
- Új beszédstílusok a(z) en-US és zh-CN hangokhoz. Jenny, az új amerikai angol hang támogatja a chatbotot, az ügyfélszolgálatot és az asszisztens stílusokat. 10 új beszédstílus érhető el a XiaoXiao zh-CN hangjával. Emellett a XiaoXiao neurális hang technológia támogatja a StyleDegree finomhangolását. Megtudhatja, hogyan használhatja a beszédstílusokat az SSML-ben.
Tárolók: A nyilvános előzetes verzióban megjelent neurális szöveg–beszéd tároló 14 nyelven elérhető 16 hanggal. További információ a beszédkonténerek neurális szövegek beszédre történő üzembe helyezéséről

Olvassa el az Ignite 2020 TTS-frissítéseinek teljes bejelentését

2020. augusztusi kiadás

Új funkciók

Neurális szövegfelolvasás: új beszédstílus en-US Aria hangja. Az AriaNeural úgy hangzik, mint egy híradó, amikor híreket olvas. A "newscast-formal" stílus komolyabban hangzik, míg a "newscast-casual" stílus nyugodtabb és informálisabb. Megtudhatja, hogyan használhatja a beszédstílusokat az SSML-ben.
Egyéni hang: egy új funkció jelenik meg, amely automatikusan ellenőrzi a betanítási adatok minőségét. Az adatok feltöltésekor a rendszer megvizsgálja a hang- és átiratadatok különböző aspektusait, és automatikusan kijavítja vagy szűri a problémákat a hangmodell minőségének javítása érdekében. Ez magában foglalja a hang hangerejét, a zajszintet, a beszéd kiejtési pontosságát, a beszéd normalizált szöveggel való igazítását, a hang csendjét a hang- és szkriptformátum mellett.
Hangtartalmak létrehozása: új funkciók halmaza, amelyek hatékonyabb hanghangolást és hangkezelési képességeket tesznek lehetővé.
- Kiejtés: a kiejtés finomhangolási funkciója a legújabb fonémakészletre frissül. Kiválaszthatja a megfelelő fonomelemet a kódtárból, és finomíthatja a kijelölt szavak kiejtését.
- Letöltés: A "Letöltés"/"Exportálás" hangfunkció a bekezdések szerinti hanggenerálás támogatásához van továbbfejlesztve. Ugyanabban a fájlban/SSML-ben szerkesztheti a tartalmat, miközben több hangkimenetet hoz létre. A "Letöltés" fájlstruktúrája is finomított. Most egyszerűen lekérheti az összes hangfájlt egy mappába.
- Feladat állapota: Javult a többfájlos exportálási felület. Ha korábban több fájlt exportált, ha az egyik fájl sikertelen volt, a teljes feladat meghiúsul. Most azonban az összes többi fájl exportálása sikeresen megtörtént. A tevékenységjelentés részletesebb és strukturáltabb információkkal bővül. A jelentéssel most már ellenőrizheti az összes sikertelen fájl és mondat naplóit.
- SSML-dokumentáció: az SSML-dokumentumhoz csatolva segít ellenőrizni az összes hangolási funkció használatának szabályait.
A Voice List API frissül, hogy tartalmazzon egy felhasználóbarát megjelenítendő nevet és a neurális hangokhoz támogatott beszédstílusokat.

Általános TTS hangminőség-fejlesztések

Csökkentett szószintű kiejtési hiba % ru-RU (a hibák száma 56%-re csökkentve) és sv-SE (a hibák száma 49%-re csökkentve)
Javítottuk a szóolvasási polifóniát a en-US neurális hangoknál 40%-mal. A többszószós szavak közé tartozik például az "olvasás", az "élő", a "tartalom", a "rekord", az "objektum" stb.
Javítottuk a kérdés hangnemének természetességét a fr-FR. MOS (Mean Opinion Score) nyereség: +0,28
Frissítette a vocoders a következő hangok, a hűség javítása és az általános teljesítmény felgyorsítása 40%.

Helyszín Voice

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Helyszín	Voice
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Hibajavítások

Kijavítottunk néhány hibát a Hangtartalom létrehozása eszközzel
- Kijavítottuk az automatikus frissítéssel kapcsolatos problémát.
- Kijavítottuk a délkelet-ázsiai régióban zh-CN hangstílusaival kapcsolatos problémákat.
- Kijavítottuk a stabilitási hibát, beleértve a "törés" címkével kapcsolatos exportálási hibát és az írásjelek hibáit.

2025. júniusi kiadás

Továbbfejlesztett kiejtésértékelési modell

Jelentős frissítéseket hajtottunk végre a ta-IN és ms-MY kiejtésértékelési modelleken. A Pearson korrelációs együtthatóinak (PCC) jelentős ugrását fogja látni, ami pontosabb és megbízhatóbb értékeléseket jelent.

Ezek a frissített modellek a korábbiakhoz hasonlóan az API-val és az Azure AI Foundry-játszótérrel is használatra készek.

Továbbfejlesztett beszédszöveg-felismerő modellek

A gyors átírás esetén a szöveg-beszéd modellek pontossága 10%-25% százalékkal javul de-DE, en-US, en-GB, es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR és zh-CN területi beállítások esetén, különösen az entitások felismerhetősége és olvashatósága terén.

2025. májusi kiadás

Továbbfejlesztett beszédszöveg-felismerő modellek

A ta-IN, te-IN, en-IN és hu-HU helyi beállításoknál a beszéd szöveg modelljeinek pontossága 5-10 százalékkal javul. A ta-IN és te-IN modellek esetében körülbelül 20-szoros csökkenést érünk el a szellemszavak számában.

Gyors átírási API – Többnyelvű beszédátírás

Ha folyamatosan és pontosan szeretné átírni a többnyelvű tartalmakat egy hangfájlban, most már használhatja a legújabb többnyelvű modellt a területi kódok gyors átírási API-val történő megadása nélkül. További információért tekintse meg a következőt: többnyelvű átírás gyors átirásban.

Új nyelvek támogatása a Fast Transcription szolgáltatásban

A gyors átírás mostantól további helyi beállításokat is támogat, például fi-FI, he-IL, id-ID, pl-PL, pt-PT, sv-SEstb. További információ: beszédfelismerés támogatott nyelvek.

2025. áprilisi kiadás

Kiejtés értékelése

Örömmel jelentjük be a kiejtésértékelési modelljeink jelentős fejlesztését a következő területi beállításokhoz: de-DE, , es-MXit-IT, ja-JP, ko-KRés pt-BR. Ezek a fejlesztések jelentős előrelépéseket hoznak a Pearson korrelációs együtthatók (PCC) terén, így pontosabb és megbízhatóbb értékeléseket eredményeznek.

A modellek a korábbiakhoz hasonlóan az API-val és az Azure AI Foundry-játszótérrel is elérhetők.

2025. márciusi kiadás

Beszélgetés átírása többcsatornás hangszereplők elkülönítésével (kivezetve)

A beszélgetés átírásának többcsatornás diarizálása megszűnik 2025. március 28-án.

Szeretné továbbra is használni a beszéd szöveggé alakítását diarizálással? Inkább használja a következő funkciókat:

Ezek a szövegfelolvasási funkciók csak az egycsatornás hang diarizálását támogatják. A beszélgetések átírásánál alkalmazott többcsatornás diarizálással használt többcsatornás hang nem támogatott.

2025. januári kiadás

Új funkció – Szemantikai szegmentálás

Egy új funkció kiadásának bejelentése: Szemantikus szegmentálás. Ez a funkció integrál egy írásjelezési modult a dekóderben, amely szemantikai információk alapján szegmentálja a hangot, ami logikusabb és pontosabb szegmentálási határokat eredményez. Főbb előnyök:

Jobb szegmentálási pontosság: A szemantikai információk használatával ez a funkció jelentősen csökkenti a hosszú szegmensek előfordulását, amelyeket a bemeneti hang szüneteinek hiánya okoz.
Az alulszegmentálás által okozott késés csökkentése: A beszédfelismerés teljes késése csökkentése, a szegmensek 5% leghosszabb részének hossza 40%-60% százalékkal csökken.
Over-Segmentation Megoldás: Ez a funkció segít megelőzni a túlszegmentálást azáltal, hogy késlelteti a szegmentálást, amikor jobb mondatok hozhatók létre.

Támogatott területi beállítások:

Angol (en-US, en-GB)
Kínai (zh-CN, zh-HK)
Japán (ja-JP)
Koreai (ko-KR)
Német (de-DE)
Francia (fr-FR)
Olasz (it-IT)
Spanyol (es-ES, es-MX)
Hindi (hi-IN)
Portugál (pt-BR, pt-PT)
Török (tr-TR)
Orosz (ru-RU)
Thai (th-TH)
Indonéz (id-ID)

A megvalósítás részleteiért tekintse meg a következő dokumentációt: Hogyan ismerjük fel a beszédet a "Szemantikai Szegmentálás" szakaszban.

Valós idejű szövegfelolvasás – Új angol modell kiadása

A legújabb angol nyelvű beszédmodell (en-US, en-CA) kiadásának bejelentése, amely jelentős fejlesztéseket hoz a különböző teljesítménymetrikákban. Az alábbiakban bemutatjuk a kiadás legfontosabb kiemeléseit:

Akadálymentességi fejlesztések: 36% csökkent a Word hibaaránya (WER) a Microsoft belső akadálymentességi tesztkészleteiben, így a beszédfelismerés pontosabb és megbízhatóbb a beszédfelismeréshez a beszédfogyatáktól.
Ghost Word Reduction: Figyelemre méltó, hogy a szellemszavak fejlesztési készletében 90% szellemszó csökkentés érhető el, és a csökkentések más szellemszavak adatkészleteiben 63%-től 100%-ig terjednek, jelentősen javítva az átiratok világosságát és pontosságát.

Az új modell javította az általános teljesítményt is, beleértve az entitások felismerését és a pontosított betűk jobb felismerését.

Ezek a fejlesztések várhatóan pontosabb, hatékonyabb és kielégítőbb élményt nyújtanak minden felhasználó számára. Az új modell az API és az Azure AI Foundry játszótéren keresztül érhető el. A visszajelzések célja a képességeinek továbbfejlesztése.

2024. novemberi kiadás

Beszéd szöveggé alakító REST API, 2024. november 15-i verzió

A 2024-11-15-én megjelent REST API beszéd szöveggé alakítás verziója általánosan elérhető. További információkért tekintse meg a speech to text REST API referenciadokumentációját és a Speech to text REST API-útmutatót.

Megjegyzés:

A szövegfelolvasási REST API 2024-05-15-preview verziója elavult.

Gyors átírás (GA)

A gyors átírás mostantól általánosan elérhető a speech to text REST API 2024-11-15-es verziójával. A gyors átírás lehetővé teszi, hogy a hangfájlokat pontosan és szinkronban gyorsan szöveggé írja át. Gyorsabban átírhatja a hangokat, mint a tényleges hangidő. További információkért tekintse meg a gyors átírási API-útmutatót.

2024. októberi kiadás

Valós idejű szövegfelolvasás (kétnyelvű)

A kétnyelvű modelleken keresztül jelentős fejlesztéseket hajtottak végre a es-US rövid spanyol kifejezések felismerése terén. A modell kétnyelvű, és az angol nyelvet is támogatja. Az angol felismerés minősége is javul.

Videófordítás (előzetes verzió)

A videófordítási API nyilvános előzetes verzióban érhető el. További információkért tekintse meg a videófordítás használatát ismertető témakört.

2024. szeptemberi kiadás

Valós idejű szövegfelolvasás

A valós idejű szövegfelolvasás új modelleket adott ki, jobb minőséggel a következő nyelvekhez.

fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ

Gyors átírás (előzetes verzió)

A gyors átirat mostantól támogatja a szereplők elkülönítését, hogy felismerje és megkülönböztesse a több beszélőt egy monocsatornás hangfájlban. További információ: gyors átírási API-útmutató.

2024. augusztusi kiadás

Nyelvtanulás (előzetes verzió)

A nyelvtanulás nyilvános előzetes verzióban érhető el. Az interaktív nyelvtanulás vonzóbbá és hatékonyabbá teheti a tanulási élményt. További információ: Interaktív nyelvtanulás kiejtési értékeléssel.

Kiejtés értékelése

A beszéd kiejtésének felmérése mostantól 33 általánosan elérhető nyelvet támogat, és minden nyelv elérhető az összes Beszéd–szöveg régióban. További információkért tekintse meg a kiejtési értékelés teljes nyelvi listáját.

Nyelv	Területi beállítás (BCP-47)
Arab nyelv (egyiptomi)	`ar-EG`
arab nyelv (Szaúd-Arábia)	`ar-SA`
Katalán	`ca-ES`
Kínai (kantoni, hagyományos)	`zh-HK`
Kínai (mandarin, egyszerűsített)	`zh-CN`
Kínai (tajvani mandarin, hagyományos)	`zh-TW`
Dán (Dánia)	`da-DK`
Holland (Hollandia)	`nl-NL`
Angol (Ausztrália)	`en-AU`
Angol (Kanada)	`en-CA`
Angol (India)	`en-IN`
Angol (Egyesült Királyság)	`en-GB`
Angol (Egyesült Államok)	`en-US`
finn nyelv (Finnország)	`fi-FI`
Francia (Kanada)	`fr-CA`
Francia (Franciaország)	`fr-FR`
Német (Németország)	`de-DE`
Hindi (India)	`hi-IN`
Olasz (Olaszország)	`it-IT`
japán nyelv (Japán)	`ja-JP`
Koreai nyelv (Korea)	`ko-KR`
Maláj (Malajzia)	`ms-MY`
Norvég Bokmål (Norvégia)	`nb-NO`
Lengyel (Lengyelország)	`pl-PL`
Portugál (Brazília)	`pt-BR`
Portugál nyelv (Portugália)	`pt-PT`
Orosz (Oroszország)	`ru-RU`
Spanyol (Mexikó)	`es-MX`
Spanyol (Spanyolország)	`es-ES`
Svéd (Svédország)	`sv-SE`
Tamil (India)	`ta-IN`
Thai (Thaiföld)	`th-TH`
Vietnámi nyelv (Vietnám)	`vi-VN`

2024. júliusi kiadás

Gyors átírási API (előzetes verzió)

A gyors átirat nyilvános előzetes verzióban érhető el. A gyors átírás lehetővé teszi, hogy a hangfájlokat pontosan és szinkronban gyorsan szöveggé írja át. Gyorsabban átírhatja a hangokat, mint a tényleges hangidő. További információkért tekintse meg a gyors átírási API-útmutatót.

Jótanács

Próbálja ki a gyors átírást az Azure AI Foundry portálon.

2024. júniusi kiadás

Beszédfelolvasás – REST API 3.2-es verzió – általános rendelkezésre állás

A Speech to text REST API 3.2-es verziója már általánosan elérhető. A beszéd szöveggé alakításáról a REST API 3.2-es verziójáról a Speech to text REST API v3.2 referenciadokumentációjában és a Speech to text REST API útmutatójában talál további információt.

Megjegyzés:

A 3.2-preview.1 és a 3.2-preview.2 előzetes verzió 2024 szeptemberétől megszűnik.

Beszéd-szöveg REST API 3.1-es verzióját egy később bejelentett időpontban nyugdíjba vonul. A Speech to text REST API v3.0-t 2026. március 31-én nyugdíjazzák. A frissítésről további információt a Speech to text REST API 3.0-ról 3.1-es és 3.1-es és 3.2-es verzióra történő áttelepítési útmutatóiban talál.

2024. májusi kiadás

Videófordítás (előzetes verzió)

A videófordítás nyilvános előzetes verzióban érhető el. A videófordítás az Azure AI Speech egyik funkciója, amely lehetővé teszi a videók automatikus fordítását és több nyelven történő előállítását. Ez a funkció segít honosítani a videótartalmakat, hogy a világ különböző közönségei számára is elérhető legyen. Hatékonyan hozhat létre magával ragadó, honosított videókat különböző használati esetekre, például vlogokra, oktatásra, hírekre, vállalati képzésekre, reklámokra, filmekre, tv-műsorokra stb. További információkért tekintse meg a videófordítás áttekintését.

Kiejtés értékelése

A Speech Pronunciation Assessment mostantól 24 általánosan elérhető nyelvet támogat (egy új nyelv hozzáadásával), és 7 további nyelv érhető el nyilvános előzetes verzióban. További információkért tekintse meg a kiejtésértékelés teljes nyelvi listáját.

2024. áprilisi kiadás

Automatikus többnyelvű beszédfordítás (előzetes verzió)

Az automatikus többnyelvű beszédfordítás nyilvános előzetes verzióban érhető el. Ez az innovatív funkció forradalmasítja a nyelvi akadályok leküzdését, és páratlan képességeket kínál a különböző nyelvi tájak közötti zökkenőmentes kommunikációhoz.

Főbb kiemelések

Meghatározatlan beviteli nyelv: A többnyelvű beszédfordítás számos nyelven képes hangokat fogadni, és nem kell megadni, hogy mi a várt bemeneti nyelv. Ez felbecsülhetetlen értékű funkcióvá teszi a globális környezetek megértését és együttműködését anélkül, hogy előbeállításra lenne szükség.
Nyelvváltás: A többnyelvű beszédfordítás lehetővé teszi, hogy több nyelv is elhangzódjon ugyanazon a munkameneten belül, és mindegyiket ugyanarra a célnyelvre fordítsák le. Nem szükséges újraindítani a munkamenetet, amikor a bemeneti nyelv megváltozik, vagy ha Ön más műveleteket hajt végre.

Hogyan működik?

Utazási értelmező: a többnyelvű beszédfordítás növelheti a külföldi úti célokat látogató turisták élményét azáltal, hogy információt és segítséget nyújt számukra az előnyben részesített nyelven. A szálloda concierge szolgáltatásai, a vezetett túrák és a látogatóközpontok ezt a technológiát használják a különböző nyelvi igények kielégítésére.
Nemzetközi konferenciák: A többnyelvű beszédfordítás megkönnyíti a különböző régiókból származó résztvevők közötti kommunikációt, akik élő fordítású feliratok használatával különböző nyelveken beszélnek. A résztvevők anélkül beszélhetnek anyanyelvükön, hogy meg kellene adni őket, biztosítva a zökkenőmentes megértést és együttműködést.
Oktatási értekezletek: Többkulturális tantermekben vagy online tanulási környezetben a többnyelvű beszédfordítás támogatja a nyelvek sokféleségét a diákok és a tanárok körében. Lehetővé teszi a zökkenőmentes kommunikációt és a részvételt anélkül, hogy meg kellene adnia az egyes diákok vagy oktatók nyelvét.

Hozzáférés

Részletes bevezetésért tekintse meg a Speech fordításának áttekintését. Emellett a kódmintákra is hivatkozhat a beszéd lefordításához. Ezt az új funkciót az 1.37.0-tól kezdődően minden SDK-verzió teljes mértékben támogatja.

Valós idejű beszéd szöveggé alakítása diarizálással (GA)

Mostantól általánosan elérhető a valós idejű beszédfelismerés diarizálással.

Olyan beszédfelismerési alkalmazásokat hozhat létre, amelyek diarizálással különböztetik meg a beszélgetésben részt vevő különböző előadókat. A valós idejű diarizálással kapcsolatos további információkért tekintse meg a valós idejű diarizálás gyorsútmutatót.

Beszéd–szöveg modell frissítése

A valós idejű szövegfelolvasás kétnyelvű képességekkel rendelkező új modelleket adott ki. A en-IN modell mostantól az angol és a hindi kétnyelvű forgatókönyveket is támogatja, és jobb pontosságot biztosít. Az arab területi beállítások (ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, ar-OM, ar-PS, ar-QA, ar-SA, ar-SY, ar-TN, ar-YE) most már kétnyelvű támogatást nyújtanak, amely tartalmazza az angolt is, valamint javított pontosságot és ügyfélszolgálati központ támogatást biztosítanak.

Batch átírás új architektúrát biztosít a modellek számára a következő területi beállításokhoz: es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR és zh-CN. Ezek a modellek jelentősen javítják az olvashatóságot és az entitások felismerését.

2024. márciusi kiadás

Whisper általános elérhetőség (GA)

Általánosan elérhető a Whisper speech to text modell az Azure AI Speech használatával.

Tekintse meg Mi az a Whisper modell?, hogy többet megtudjon arról, mikor érdemes használni az Azure AI Speech-t vagy az Azure OpenAI-t az Azure AI Foundry modellekben.

2024. februári kiadás

Kiejtés értékelése

A Speech Pronunciation Assessment mostantól 23 általánosan elérhető nyelvet támogat (5 új nyelv hozzáadásával), és 3 további nyelv érhető el nyilvános előzetes verzióban. További információkért tekintse meg a kiejtésértékelés teljes nyelvi listáját.

Kifejezéslista

A következő helyi beállításokkal bővült a kifejezéslista: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Novemberi 2023 kiadás

A kétnyelvű beszédmodellezés bemutatása!

Örömmel adtunk elő egy úttörő kiegészítést a valós idejű beszédmodellezéshez – a kétnyelvű beszédmodellezéshez. Ez a jelentős fejlesztés lehetővé teszi, hogy beszédmodellünk zökkenőmentesen támogassa a kétnyelvű nyelvi párokat, például az angolt és a spanyolt, valamint az angolt és a franciát. Ez a funkció lehetővé teszi a felhasználók számára, hogy a valós idejű interakciók során könnyedén váltson a nyelvek között, ami kulcsfontosságú pillanat a kommunikációs élmény fokozása iránti elkötelezettségünkben.

Főbb kiemelések:

Kétnyelvű támogatás: A legújabb kiadásunkkal a felhasználók zökkenőmentesen válthatnak az angol és a spanyol, illetve az angol és a francia között a valós idejű beszédműveletek során. Ez a funkció a kétnyelvű beszélők számára van kialakítva, akik gyakran váltanak a két nyelv között.
Továbbfejlesztett felhasználói élmény: A kétnyelvű hangszórók, akár a munkahelyen, otthon, akár a különböző közösségi beállításokban, rendkívül hasznosnak fogják találni ezt a funkciót. A modell képessége arra, hogy valós időben megértse és megválaszolja mind az angol, mind a spanyol nyelveket, új lehetőségeket nyit meg a hatékony és folyamatos kommunikációhoz.

Használat:

Válassza a es-US (spanyol és angol) vagy fr-CA (francia és angol) lehetőséget, amikor meghívja a Speech Service API-t, vagy próbálja ki a Speech Studióban. Nyugodtan beszélhet vagy keverheti őket – a modell dinamikusan alkalmazkodik, és mindkét nyelven pontos és környezettudatos válaszokat biztosít.

Itt az ideje, hogy felemelje a kommunikációs játékot a legújabb funkciókiadással – zökkenőmentes, többnyelvű kommunikáció az ujjhegyen!

Beszéd-szöveg átalakító modellek frissítése

Örömmel mutatjuk be beszédmodelljeink jelentős frissítését, amely nagyobb pontosságot, jobb olvashatóságot és kifinomult entitásfelismerést ígér. Ez a frissítés egy robusztus új struktúrával rendelkezik, amelyet egy kibővített betanítási adatkészlet támogat, amely jelentős előrelépést biztosít az általános teljesítményben. Tartalmazza az újonnan kiadott modelleket a en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SEés he-ILszámára.

Kiemelt szolgáltatások:

Jobb pontosság az új modellstruktúrával: Az újradefiniált modellstruktúra gazdagabb betanítási adatkészlettel párosulva emeli a pontossági szinteket, és pontosabb beszédkimenetet ígér.
Olvashatóság javítása: A legújabb modellünk jelentős lökést ad az olvashatóságnak, ami növeli a beszélt tartalmak koherenciáját és egyértelműségét.
Speciális entitásfelismerés: Az entitásfelismerés jelentős frissítést kap, ami pontosabb és árnyaltabb eredményeket eredményez.

Lehetséges hatások: A fejlődés ellenére elengedhetetlen, hogy figyelembe vegye a lehetséges hatásokat:

Egyéni csend időtúllépési beállítás: Az egyéni csend időtúllépését használó felhasználók, különösen alacsony beállítások esetén, túlszegmentálódásba és egyszavas kifejezések kihagyásába ütközhetnek.
Az új modell kompatibilitási problémákat tapasztalhat a Kulcsszó előtag funkcióval, és a felhasználóknak javasoljuk, hogy értékeljék a teljesítményét az adott alkalmazásokban.
Folyékonyabbá tett szavak vagy kifejezések csökkentése: A felhasználók észrevehetik a töltelékszavak vagy kifejezések, mint az "öö" vagy az "hm," csökkenését a beszédkimenetben.
Pontatlanságok a szavak időbélyegének időtartamában: Egyes kiáramló szavak pontatlanságokat jeleníthetnek meg az időbélyeg időtartama alatt, és a pontos időzítéstől függő alkalmazásokban figyelmet igényelnek.
Megbízhatósági pontszámok eloszlási varianciája: A megbízhatósági pontszámokra és a kapcsolódó küszöbértékekre támaszkodó felhasználóknak tisztában kell lenniük az eloszlás lehetséges változásaival, ami az optimális teljesítményhez szükséges kiigazításokat teszi szükségessé.
Bizonyos kifejezések helytelen felismerése befolyásolhatja a kifejezéslista funkció pontosságának javítását.

Javasoljuk, hogy vizsgálja meg ezeket a fejlesztéseket, és fontolja meg a zökkenőmentes átmenet lehetséges problémáit, és mint mindig, visszajelzése fontos szerepet játszott a szolgáltatásaink finomításában és fejlesztésében.

Kiejtés értékelése

A Speech Pronunciation Assessment mostantól 18 általánosan elérhető nyelvet támogat, és további hat nyelv érhető el nyilvános előzetes verzióban. További információkért tekintse meg a kiejtésértékelés teljes nyelvi listáját.
Örömmel jelentjük be, hogy a Kiejtésértékelés 2023. november 1-től új funkciókat vezet be: Prosody, Grammar, Vocabulary és Topic. Ezek a fejlesztések célja, hogy még átfogóbb nyelvtanulási élményt nyújtsanak az olvasási és a beszédértékelésekhez. Frissítsen az SDK 1.35.0-s vagy újabb verziójára, hogy további részleteket is megismerjen a Kiejtési értékelés és kiejtésértékelés használata a Speech Studióban.

2023. szeptemberi kiadás

A Whisper nyilvános előzetes verziója

Az Azure AI Speech mostantól támogatja az OpenAI Whisper hangmodelljét a kötegelt átírási API-n keresztül. További információért tekintse meg a Kötegelt átírás útmutatót.

Megjegyzés:

Az Azure OpenAI az OpenAI Whisper modelljét is támogatja a beszédről szövegre átalakításhoz, szinkron REST API-val. További információért tekintse meg a rövid útmutatót.

További információ az Azure AI Speech és az Azure OpenAI használatáról: Mi a Whisper-modell?

Beszéd szöveggé alakítása REST API v3.2 nyilvános bétaverzió

A Speech to text REST API v3.2 előzetes verzióban érhető el. Általánosan elérhető a Beszéd a szöveghez REST API 3.1-es verzió. A Speech to text REST API v3.0-t 2026. március 31-én nyugdíjazzák. További információ: Speech to text REST API v3.0–v3.1 és v3.1–v3.2 migrálási útmutatók.

2023. augusztusi kiadás

Új beszéd-szöveg nyelvi beállítások:

A beszéd szöveggé alakítása két új területi beállítás használatát támogatja az alábbi táblázatban látható módon. Tekintse meg itt a teljes nyelvi listát.

Helyszín	Nyelv
`pa-IN`	Punjabi (India)
`ur-IN`	Urdu (India)

Kiejtés értékelése

A Speech Pronunciation Assessment mostantól 3 további, általánosan elérhető nyelvet támogat angol (Kanada), angol (India) és francia (Kanada) nyelven, és 3 további nyelv érhető el előzetes verzióban. További információkért tekintse meg a kiejtésértékelés teljes nyelvi listáját.

2023. májusi kiadás

Kiejtés értékelése

A Speech Pronunciation Assessment mostantól 3 további, általánosan elérhető nyelvet támogat a német (Németország), a japán (Japán) és a spanyol (Mexikó) nyelven, és 4 további nyelv érhető el előzetes verzióban. További információkért tekintse meg a kiejtésértékelés teljes nyelvi listáját.
Mostantól az összes nyilvános régióban használhatja a standard Beszéd Szöveggé Alakító kötelezettségvállalási szintet a kiejtési értékeléshez. Ha egy kötelezettségvállalási szintet vásárol a normál beszéd szöveggé alakításhoz, a kiejtésértékelés költsége beszámításra kerül a kötelezettségvállalás teljesítésébe. Tekintse meg a kötelezettségvállalási szint díjszabását.

2023. februári kiadás

Kiejtés értékelése

A Speech Pronunciation Assessment mostantól 5 további, általánosan elérhető nyelvet támogat az angol (Egyesült Királyság), az angol (Ausztrália), a francia (Franciaország), a spanyol (Spanyolország) és a kínai (mandarin, egyszerűsített) nyelven, más nyelvek előzetes verzióban is elérhetők.
Hozzáadott mintakódok, amelyek bemutatják, hogyan használhatja a Kiejtésértékelést streamelési módban a saját alkalmazásában.
- C#: Lásd a mintakódot.
- C++: Lásd a mintakódot.
- java: Lásd a mintakódot.
- javascript: Lásd a mintakódot.
- Objective-C: Lásd a mintakódot.
- Python: Lásd a mintakódot.
- Swift: Lásd a mintakódot.

Testreszabott beszéd

A de-AT területekhez hozzáadtuk a hang- és az emberi címkével ellátott átirat támogatását.

2023. januári kiadás

Testreszabott beszéd

Hang- és emberi címkével ellátott átirat támogatása hozzáadódik további területi beállításokhoz: ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YE, és ja-JP.

A strukturált szövegadaptálás támogatása hozzáadva a de-AT nyelvi területhez.

2022. decemberi kiadás

Beszéd szöveggé alakító REST API

A Speech to text REST API 3.1-es verziója általánosan elérhető. A Speech to text REST API 3.0-s verziója megszűnik. A migrálással kapcsolatos további információkért tekintse meg az útmutatót.

2022. októberi kiadás

Új beszéd a szöveg területi beállításai között

Hozzáadták a Malayalam (India) támogatását a ml-IN helyi beállítással. A teljes nyelvi listát itt tekintheti meg.

2022. júliusi kiadás

Új beszéd-szöveg nyelvi beállítások:

Hét új területi beállítás lett hozzáadva, ahogy az alábbi táblázat mutatja. A teljes nyelvi listát itt tekintheti meg.

Helyszín	Nyelv
`bs-BA`	Bosnyák (Bosznia-Hercegovina)
`yue-CN`	Kínai (kantoni, egyszerűsített)
`zh-CN-sichuan`	Kínai (délnyugati mandarin, egyszerűsített)
`wuu-CN`	Kínai (Wu, egyszerűsített)
`ps-AF`	Pashto (Afganisztán)
`so-SO`	Szomáliai (Szomália)
`cy-GB`	Welsh (Egyesült Királyság)

2022. júniusi kiadás

Új beszéd-szöveg nyelvi beállítások:

Az alábbi táblázatban látható módon 10 új helyi beállítás került hozzáadásra. A teljes nyelvi listát itt tekintheti meg.

Helyszín	Nyelv
`sq-AL`	Albán (Albánia)
`hy-AM`	Örmény (Örménia)
`az-AZ`	Azerbajdzsáni (Azerbajdzsán)
`eu-ES`	Baszk
`gl-ES`	Galíciai nyelv
`ka-GE`	grúz nyelv (Grúzia)
`it-CH`	Olasz nyelv (Svájc)
`kk-KZ`	Kazak (Kazahsztán)
`mn-MN`	Mongol (Mongólia)
`ne-NP`	Nepáli (Nepál)

2022. áprilisi kiadás

Új beszéd-szöveg nyelvi beállítások:

Itt van az új helyszínek listája. A teljes nyelvi listát itt tekintheti meg.

Helyszín	Nyelv
`bn-IN`	Bengáli (India)

2022. januári kiadás

Új beszéd-szöveg nyelvi beállítások:

Itt van az új helyszínek listája. A teljes nyelvi listát itt tekintheti meg.

Helyszín	Nyelv
`af-ZA`	Afrikaans (Dél-Afrika)
`am-ET`	Amharic (Etiópia)
`de-CH`	Német (Svájc)
`fr-BE`	Francia (Belgium)
`is-IS`	Izlandi nyelv (Izland)
`jv-ID`	Javanese (Indonézia)
`km-KH`	Khmer (Kambodzsa)
`kn-IN`	Kannada (India)
`lo-LA`	Lao (Laosz)
`mk-MK`	Macedón (Észak-Macedónia)
`my-MM`	Burmai (Mianmar)
`nl-BE`	Holland (Belgium)
`si-LK`	Sinhala (Sri Lanka)
`sr-RS`	Szerb (Szerbia)
`sw-TZ`	Szuahél (Tanzánia)
`uk-UA`	Ukrán nyelv (Ukrajna)
`uz-UZ`	Üzbég (Üzbegisztán)
`zu-ZA`	Zulu (Dél-Afrika)

2021. júliusi kiadás

Új beszéd-szöveg nyelvi beállítások:

Itt van az új helyszínek listája. A teljes nyelvi listát itt tekintheti meg.

Helyszín	Nyelv
`ar-DZ`	arab (Algéria)
`ar-LY`	arab (Líbia)
`ar-MA`	Arab nyelv (Marokkó)
`ar-TN`	Arab nyelv (Tunézia)
`ar-YE`	arab nyelv (Jemen)
`bg-BG`	Bolgár (Bulgária)
`el-GR`	Görög (Görögország)
`et-EE`	Észt nyelv (Észtország)
`fa-IR`	Perzsa (Irán)
`ga-IE`	Ír (Írország)
`hr-HR`	Horvát (Horvátország)
`lt-LT`	litván nyelv (Litvánia)
`lv-LV`	Lett nyelv (Lettország)
`mt-MT`	máltai (Málta)
`ro-RO`	Román (Románia)
`sk-SK`	Szlovák (Szlovákia)
`sl-SI`	Szlovén nyelv (Szlovénia)
`sw-KE`	Szuahél (Kenya)

2021. januári kiadás

Új beszéd-szöveg nyelvi beállítások:

Itt van az új helyszínek listája. A teljes nyelvi listát itt tekintheti meg.

Helyszín	Nyelv
`ar-AE`	Arab (Egyesült Arab Emírségek)
`ar-IL`	Arab nyelv (Izrael)
`ar-IQ`	arab (Irak)
`ar-OM`	Arab (Omán)
`ar-PS`	Arab (Palesztin Hatóság)
`de-AT`	Német (Ausztria)
`en-GH`	Angol (Ghána)
`en-KE`	Angol (Kenya)
`en-NG`	Angol (Nigéria)
`en-TZ`	Angol (Tanzánia)
`es-GQ`	Spanyol (Egyenlítői-Guinea)
`fil-PH`	Filipino (Fülöp-szigetek)
`fr-CH`	Francia (Svájc)
`he-IL`	Héber (Izrael)
`id-ID`	Indonéz nyelv (Indonézia)
`ms-MY`	Maláj (Malajzia)
`vi-VN`	Vietnámi nyelv (Vietnám)

2020. augusztusi kiadás

Új beszéd a szöveg területi beállításai között:

A beszédet szöveggé alakító augusztusban 26 új helyszín jelent meg: 2 európai nyelv: cs-CZ és hu-HU, 5 angol nyelvi környezet és 19 spanyol nyelvi környezet, amelyek a legtöbb dél-amerikai ország és régió számára elérhetők. Itt van az új helyszínek listája. A teljes nyelvi listát itt tekintheti meg.

Helyszín	Nyelv
`cs-CZ`	Cseh (Cseh Köztársaság)
`en-HK`	Angol (Hongkong különleges közigazgatási régiója)
`en-IE`	Angol (Írország)
`en-PH`	Angol (Fülöp-szigetek)
`en-SG`	Angol (Szingapúr)
`en-ZA`	Angol (Dél-Afrika)
`es-AR`	Spanyol (Argentína)
`es-BO`	Spanyol (Bolívia)
`es-CL`	Spanyol (Chile)
`es-CO`	Spanyol (Kolumbia)
`es-CR`	Spanyol (Costa Rica)
`es-CU`	Spanyol (Kuba)
`es-DO`	Spanyol (Dominikai Köztársaság)
`es-EC`	Spanyol (Ecuador)
`es-GT`	Spanyol (Guatemala)
`es-HN`	Spanyol (Honduras)
`es-NI`	Spanyol (Nicaragua)
`es-PA`	Spanyol (Panama)
`es-PE`	Spanyol (Peru)
`es-PR`	Spanyol (Puerto Rico)
`es-PY`	Spanyol (Paraguay)
`es-SV`	Spanyol (Salvador)
`es-US`	Spanyol (USA)
`es-UY`	Spanyol (Uruguay)
`es-VE`	Spanyol (Venezuela)
`hu-HU`	Magyar nyelv (Magyarország)

2025. júniusi kiadás

Neurális szöveg-beszéd átalakító 3.11.0

Megjelent a neurális szöveg-beszéd 3.11.0 verziója.

Új neurális hangok támogatása: de-DE-SeraphinaMultilingualNeural, es-ES-XimenaMultilingualNeural, fi-FI-SelmaNeural, nb-NO-FinnNeural.
Többnyelvű egyéni lexikonok támogatása hozzáadva.

2025. májusi kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Neurális szöveg-beszéd 3.10.0

Szövegfelolvasáshoz:

Frissítettük a szövegfelolvasó rendszert, beleértve a háttér- és előtérmotort a legújabb verziókra.
Többnyelvű egyéni lexikonok támogatása hozzáadva.
Továbbfejlesztettük az állapot-ellenőrzési funkciót. Az állapot-ellenőrzési végpont most már /synthesize/healthaz . Ha a szolgáltatás kifogástalan állapotú, ez a végpont a 200-os HTTP-állapotot adja vissza; ha a szolgáltatás nem megfelelő, a HTTP-állapot 503-at adja vissza.
Frissítette az alaprendszerképet az AspNet 8.0.16-ra a Microsoft ASP.NET Core 2025. március-áprilisi biztonsági réseinek kezelése érdekében.

2025. márciusi kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Neurális szövegfelolvasás 3.9.0
Beszéd szöveggé alakítása 5.0.1 (Előzetes)
Egyéni beszéd hangból szöveggé alakító 5.0.1 (előzetes)

A szöveghez való beszédhez és a szöveghez való egyéni beszédhez a következő funkciók tartoznak:

Új beszédfelismerési szövegmodellek támogatása
Operációs rendszer módosítása Az Azure Linux 3.0-ra
Új területi beállítások támogatása: ar-dz, as-in, es-gq or-in, pa-in és ur-in
Dekóder frissítése
Új speciális modellek (2023+) használata a tárolóban

Szövegfelolvasáshoz az új neurális hangok támogatása: en-GB-OliviaNeural, en-US-ChristopherNeural és nl-NL-FennaNeural.

2025–februári kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Beszédnyelv-azonosítás 1.18.0
Neurális szövegfelolvasó 3.7.0
Beszédből szöveg 4.12.0
Egyéni beszéd szöveggé alakító 4.12.0

Íme a kiadások legfontosabb jellemzői:

Funkciófrissítés	Beszéd szöveggé alakítása	Egyéni beszéd szöveggé	Neurális szövegfelolvasás	Beszédnyelv-azonosítás
Biztonsági rés javításai	✅	✅	✅	✅
Migrált operációs rendszer Ubuntu 20.04-ről Ubuntu 22.04-re	✅	✅	✅	✅
Új helyi beállítások: ar-ly, fr-be, nl-be és uz-uz	✅	✅
Frissített nuget-csomagok, Go-verzió	✅	✅
Modellletöltési párhuzamosítás hozzáadva a modell letöltési idejének csökkentése érdekében	✅	✅	✅

2024. októberi kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Beszédnyelv-azonosítás 1.16.0
Neurális szöveg a beszédhez 3.5.0
- Az en-us-ariacpuneural-t állítsd be aliasként az en-us-jessacpuneural-re
- A beszéd szövegértés háttérmotor verziójának frissítése
Beszéd szöveggé alakítás 4.10.0
- Területi beállítás támogatásának visszaállítása uk-UA
- A hangcsend beállításainak javítása a hang hosszú ideig tartó csendjének használatához
- Elavult modellek cseréje: cs-CZ, da-DK, en-GB, fr-CA, hu-HU, it-CH, tr-TRzh-CN-sichuan
Egyéni beszédből szöveg 4.10.0

2024. szeptemberi kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Beszédnyelv-azonosítás 1.15.0
- Biztonsági rések elhárítás
Neurális szöveg-beszéd 3.4.0
- Új hangok: en-us-andrewmultilingualneural, en-us-jessaneural, es-us-alonsoneural, , es-us-palomaneuralit-it-isabellamultilingualneural
- Biztonsági rések elhárítás
Beszéd szöveggé 4.9.0
- Új területi beállítások: ar-YE, af-ZA, am-ET, ar-MA, ar-TNsw-KE, sw-TZzu-ZA
- Biztonsági rések elhárítás
- Elavult modellek frissítése
Egyéni beszéd szöveggé alakítása 4.9.0
- Biztonsági rések elhárítás

2024. augusztusi kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Beszédnyelv-azonosítás 1.14.0
- A .NET 8.0 frissítése
- Biztonsági rések elhárítás
Neurális szöveg a beszédhez 3.3.0
- A .NET 8.0 frissítése
- Biztonsági rések elhárítás
Beszéd szöveggé alakítása 4.8.0
- A .NET 8.0 frissítése
- Biztonsági rések elhárítás
- Frissítések felismerőmotorja
- Kijavítottuk azt a problémát, amelyben a PropertyId.Speech_SegmentationSilenceTimeoutMs figyelmen kívül maradt.
- Elavult modellek frissítése
- Távolítsa el a uk-UA területi beállítást

2024–Februári kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Egyéni beszéd szöveggé 4.6.0
Beszéd szöveggé 4.6.0
Neurális szöveg a beszédhez 3.1.0

Frissítse a beszédből szöveggé átalakító összetevőket a legújabbra. Frissítse az összes es területi modellt a legújabbra. A beszéd szöveghasználati eseteinek médiaátalakítási pufferének növelése.

2023. novemberi kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Egyéni beszéd szöveggé alakítása 4.5.0
Beszédből szöveg 4.5.0
Neurális szöveg beszédhez 2.19.0

2023. októberi kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Egyéni beszéd-szöveg átalakító 4.4.0
Hang-szöveg átalakító 4.4.0
Neurális szöveg-beszéd 2.18.0

Kijavítottunk egy csomó magas kockázatú biztonsági rést.

Redundáns naplók eltávolítása a tárolókban.

Frissítse a belső média összetevőt a legújabbra.

Hangtámogatás en-IN-NeerjaNeuralhozzáadása .

2023. szeptemberi kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Beszédnyelv-azonosítás 1.12.0
Egyéni beszéd szöveggé 4.3.0
Beszéd szöveggé alakító 4.3.0
Neurális szövegfelolvasás 2.17.0

Frissítse az egyéni beszéd-felismerő és diktáló rendszert a legújabb keretrendszerre.

A biztonsági résekkel kapcsolatos problémák elhárítása.

Hangtámogatás ar-AE-FatimaNeuralhozzáadása .

2023–júliusi kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Egyéni beszédből szöveggé alakító 4.1.0
Beszéd szöveggé alakítás 4.1.0
Neurális szövegfelolvasás 2.15.0

Kijavíthatja a beszéd és a szövegtároló csatlakoztatási beállításain keresztül docker a helyi egyéni modellfájlokkal való futtatásának problémáját.

Javítsa ki azt a problémát, amely miatt bizonyos esetekben az RECOGNIZING esemény nem jelenik meg válaszként a Speech SDK-on keresztül.

A biztonsági résekkel kapcsolatos problémák elhárítása.

2023–júniusi kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Egyéni szöveg-beszéd átalakító 4.0.0
Beszéd szöveggé 4.0.0
Neurális szöveg-beszéd átalakítás 2.14.0

A helyszíni szövegfelolvasás a .NET 6.0-ra frissül

Helyi beállítások megjelenítési modelljeinek frissítése, beleértve a en-us, ar-eg, ar-bh, ja-jp, ko-kr és még több.

Frissítse a beszédből szöveggé alakító konténerkomponenst a sebezhetőségi problémák megoldása érdekében.

Támogatás hozzáadása a területi hangokhozde-DE-AmalaNeural,de-AT-IngridNeuralde-AT-JonasNeural ésen-US-JennyMultilingualNeural

2023. májusi kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Egyéni beszéd szöveggé alakító 3.14.0
Beszéd szöveggé alakító 3.14.0
Neurális szöveg-szóvá alakítás 2.13.0

Oldjuk meg az he-IL írásjelek problémáját

Biztonsági résekkel kapcsolatos problémák elhárítása

Új területi hang hozzáadása en-US-MichelleNeuralés es-MX-CandelaNeural

2023. áprilisi kiadás

Biztonsági frissítések

Biztonsági résekkel kapcsolatos problémák elhárítása

2023 márciusi kiadás

Támogatás hozzáadása a legújabb modellverziókhoz:

Egyéni beszéd szöveggé 3.12.0
Beszéd átalakítása szöveggé 3.12.0
Beszédnyelv-azonosítás 1.11.0
Neurális szöveg-beszéd 2.11.0

Biztonsági résekkel kapcsolatos problémák elhárítása

Javítsa ki a nagybetűsítési tr-TR problémát

A beszéd szöveggé alakító en-US modellek frissítése

Adjon támogatást a ar-AE-HamdanNeural szabványos hanghoz.

2023–februári kiadás

Új tárolóverziók

Támogatás hozzáadása a legújabb modellverziókhoz:

Egyéni beszéd szöveggé alakítása 3.11.0
Beszéd szöveggé alakító 3.11.0
Neurális szövegfelolvasás 2.10.0

Biztonsági résekkel kapcsolatos problémák elhárítása

Beszédmodellek rendszeres frissítése

Adj hozzá új Abraic helyi beállításokat:

ar-IL
ar-PS

Héber és török megjelenítési modellek frissítése

2023–januári kiadás

Új tárolóverziók

Támogatás hozzáadása a legújabb modellverziókhoz:

Egyéni beszédfelismerő program 3.10.0
Beszédből szöveg 3.10.0
Neurális szöveg-beszéd 2.9.0

Hipotézis móddal kapcsolatos probléma megoldása

HTTP-proxyval kapcsolatos probléma megoldása

Egyéni beszéd– szövegtároló leválasztott üzemmódja

CNV leválasztott tároló támogatásának hozzáadása a TTS Frontendhez

Támogatás hozzáadása ezekhez a helyi hangokhoz:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

2022–decemberi kiadás

Új tárolóverziók

Támogatás hozzáadása a legújabb modellverziókhoz:

Egyéni beszéd szövegbe 3.9.0
Beszéd szöveggé alakító szoftver 3.9.0
Neurális szövegből beszéd 2.8.0

Ipv4/ipv6-hiba elhárítása

Biztonsági rés problémájának elhárítása

2022 novemberi kiadás

Új tárolóverziók

Támogatás hozzáadása a legújabb modellverziókhoz:

Egyéni beszédfelismerő 3.8.0
Beszéd szöveggé 3.8.0
Neurális szöveg-beszéd 2.7.0

2022–októberi kiadás

Új tárolóverziók

Támogatás hozzáadása a legújabb modellverziókhoz:

Egyéni beszéd szövegfelismerő 3.7.0
Beszéd szöveggé alakító 3.7.0
Neurális szöveg-beszéd átalakítás 2.6.0

2022. szeptemberi kiadás

Beszéd szöveggé 3.6.0-amd64

Támogatás hozzáadása a legújabb modellverziókhoz.

Adjon hozzá támogatást a következő helyi beállításokhoz:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-szecsuan

Rendszeres havi frissítések, beleértve a biztonsági frissítéseket és a biztonságirés-javításokat.

Egyéni beszéd szöveggé alakítása 3.6.0-amd64

Rendszeres havi frissítések, beleértve a biztonsági frissítéseket és a biztonságirés-javításokat.

Neurális szövegfelolvasás v2.5.0

Támogatás hozzáadása a szabványos hangokhoz:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Rendszeres havi frissítések, beleértve a biztonsági frissítéseket és a biztonságirés-javításokat.

2022. májusi kiadás

Beszédnyelv-észlelési kontejner v1.9.0-amd64-preview

A beszédnyelv-észlelés hibajavításai.

2022. márciusi kiadás

Egyéni szövegfelismerés konténer v3.1.0

Támogatás hozzáadása a megjelenítési modellek lekérdezéséhez.

2022–januári kiadás

Beszéd szövegtároló v3.0.0

Támogatás hozzáadása a tárolók leválasztott környezetekben való használatához.

Beszéd szöveggé alakítása Container v2.18.0

Rendszeres havi frissítések, beleértve a biztonsági frissítéseket és a biztonságirés-javításokat.

Neural-Neural szövegfelolvasási tároló 1.12.0-s verzió

Támogatás hozzáadása ezekhez a szabványos hangokhoz: am-et-amehaneural, am-et-mekdesneural, so-so-muuseneuralés so-so-ubaxneural.

Rendszeres havi frissítések, beleértve a biztonsági frissítéseket és a biztonságirés-javításokat.

Megosztás a következőn keresztül:

Az Azure AI Speech újdonságai

Legutóbbi kiemelések

Kibocsátási megjegyzések

Beszéd SDK 1.44.1: Javításpublikálás

Hibajavítások

Speech SDK 1.44: 2025. májusi kiadás

Új funkciók:

Hibajavítások

Minták

Speech SDK JavaScripthez

Új funkciók:

Hibajavítások

Beszéd CLI (SPX)

Új funkciók

Hibajavítások

Speech SDK 1.43: 2025. márciusi kiadás

Új funkciók:

Hibajavítások

Minták

Speech SDK 1.42.0: 2024–decemberi kiadás

Új funkciók

Hibajavítások

Minták

2024. novemberi kiadás

Azure AI Speech Toolkit bővítmény a Visual Studio Code-hoz

Szöveg–beszéd avatar kódminták

Speech SDK 1.41.1: 2024–októberi kiadás

Új funkciók

Hibajavítások

Kompatibilitástörő változások

Speech SDK 1.40: 2024–augusztusi kiadás

Új funkciók

Hibajavítások

Minták

Speech SDK 1.38.0: 2024–júniusi kiadás

Új funkciók

Hibajavítások

Minták

Speech SDK 1.37.0: 2024- áprilisi kiadás

Új funkciók

Hibajavítások

Minták

Speech SDK 1.36.0: 2024. márciusi kiadás

Új funkciók

Hibajavítások

Minták

Speech SDK 1.35.0: 2024. februári kiadás

Új funkciók

Hibajavítások

Minták

Speech SDK 1.34.1: 2024. januári kiadás

Kritikus változások

Új funkciók

Hibajavítások

Speech SDK 1.34.0: 2023. novemberi kiadás

Kritikus változások

Új funkciók

Hibajavítások

Minták

Speech CLI 1.34.0: 2023. novemberi kiadás

Új funkciók

Hibajavítások

Speech SDK 1.33.0: 2023. októberi kiadás

Kritikus változásról szóló értesítés

Új funkciók

Hibajavítások

Minták

Speech CLI 1.33.0: 2023. októberi kiadás

Új funkciók

Hibajavítások

Speech SDK 1.32.1: 2023. szeptemberi kiadás

Hibajavítások

Minták

Speech SDK 1.31.0: 2023. augusztusi kiadás

Új funkciók

Kritikus változások

Hibajavítások

Minták

Speech SDK 1.30.0: 2023. júliusi kiadás