Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Az Azure AI Speech folyamatosan frissül. Ha naprakész szeretne maradni a legújabb fejlesztésekkel kapcsolatban, ez a cikk információkat nyújt az új kiadásokról és funkciókról.
Legutóbbi kiemelések
- Ha folyamatosan és pontosan szeretné átírni a többnyelvű tartalmakat egy hangfájlban, most már használhatja a legújabb többnyelvű modellt a területi kódok gyors átírási API-val történő megadása nélkül. További információért tekintse meg a következőt: többnyelvű átírás gyors átirásban.
- A gyors átírás mostantól általánosan elérhető. Sokkal gyorsabban át tudja írni a hangokat, mint a tényleges hangidő. További információkért tekintse meg a gyors átírási API-útmutatót.
- Az Azure AI Speech Toolkit bővítmény mostantól elérhető a Visual Studio Code felhasználói számára. Tartalmazza a beszéd gyorsindítási és forgatókönyv-mintáinak listáját, amelyek egyszerű kattintással egyszerűen felépíthetők és futtathatók. További információ: Azure AI Speech Toolkit in Visual Studio Code Marketplace.
- Az Azure AI-beszéd nagy felbontású (HD) hangjai nyilvános előzetes verzióban érhetők el. A HD-hangok képesek megérteni a tartalmat, automatikusan észlelni az érzelmeket a bemeneti szövegben, és valós időben módosítani a beszédhangot a hangulatnak megfelelően. További információ: Mik azok az Azure AI Speech nagy felbontású (HD) hangok?
- A videófordítás már elérhető az Azure AI Speech szolgáltatásban. További információ: Mi az a videófordítás?
Kibocsátási megjegyzések
Szolgáltatás vagy erőforrás kiválasztása
Fontos
A Speech SDK-n keresztüli tartalomértékelés (előzetes verzió) 2025 júliusában megszűnik. Ehelyett Az Azure OpenAI-modellek használatával lekérheti a tartalomértékelési eredményeket a tartalomértékelési dokumentációban leírtak szerint.
Beszéd SDK 1.44.1: Javításpublikálás
Az SDK 1.44.1-es verziója csak 4 hibajavítással jelenik meg JavaScripthez:
Hibajavítások
- Kijavítottuk egy tartományon kívüli kivételt, amikor csak egy szegmentációs vezérlő paramétert adott meg.
- az enableDictation nem lett megfelelően átadva a Speech Service-nek.
- A ConversationTranscriber nem a megfelelő URL-címet használta a fromEndpoint metódussal való létrehozáskor.
- Kijavítottuk a hibát, amikor az adatok leválasztásuk után egy bemeneti streambe kerülnek.
Speech SDK 1.44: 2025. májusi kiadás
Fontos
A célplatformok támogatása módosul:
- A minimálisan támogatott Android-verzió mostantól Android 8.0 (API 26- szintű).
- A Speech SDK Unity-csomagok közzététele a kiadás után fel van függesztve.
Új funkciók:
- Hozzáadták az Android 16 KB-os memórialapméretek támogatását.
- Csökkentette a SpeechStartDetected események késését a beágyazott beszédfelismerésben.
- [C++, Python] Hozzáadtunk egy módszert az AudioDataStream elérhető méretének lekéréséhez.
- [C++, Python] Az egyéni lexikon URL-címek és az előnyben részesített területi beállítások támogatása a beszédszintézis-kérelmekben.
- [Java, Python] A Microsoft Entra jogkivonat-alapú hitelesítésének támogatása automatikus jogkivonat-frissítéssel.
- [Go] A beszélgetés átírásának támogatása hozzáadva.
Hibajavítások
- Kijavítottuk, hogy a fordítási beszédszintézis nem működik a forrásnyelv-észlelés használatakor.
- Kijavítottuk a nem ASCII karaktereket tartalmazó fájlelérési utakat, amely nem használható beágyazott beszédmodellekhez, KWS-modellekhez vagy naplófájlokhoz (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288).
- Kijavítottunk egy NoMatch hurkot a beágyazott beszédfelismerésben bizonyos feltételek mellett.
- Kijavítottuk a natív objektumok destruktorának blokkolását, ami azért történt, mert a felismerés nem volt leállítva, amikor az események leválasztásra kerültek.
- Rögzített IntentRecognizer minta egyeztetése nem működik megfelelően a több bájtos karakterek bizonyos körülmények között.
- Egy kapcsolat objektum
Close()
meghívása nem volt szinkron. - Kijavítottunk egy versenyhelyzetet a kapcsolat feloldása során, amely összeomláshoz vezethet.
- [macOS] Kijavítottuk a konzolon (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610) megjelenő "Információ:" üzeneteket.
Minták
- [Python] Hozzáadták a mintakódot a Microsoft Entra-jogkivonat hitelesítő adatainak
recognizer
használatához.
Speech SDK JavaScripthez
Új funkciók:
- Frissített fejlesztési függőség: TypeScript 3.5.3 → 4.5
- A TranslationRecognizer alapértelmezettként a V2-végpontokat használja.
- A SpeechRecongizer frissítette a V2-végpontok használatát.
- Ez azt eredményezi, hogy a továbbiakban nem kap NoMatch-eredményeket.
- A Microsoft Entra tokenalapú hitelesítés támogatása a Beszédfelismeréshez és -fordításhoz.
- Frissítettük a FromEndpoint API-t, hogy a legtöbb forgatókönyvhöz ajánlott módszer legyen a SpeechConfig létrehozásához.
- A következők használatára vonatkozik:
- Beszédfelismerő
- TranslationÉrzékelő (a SpeechTranslationConfig használatával)
- Beszélgetés-leíró
- Beszédszintetizátor
- Mostantól használhatja a végpontot az Azure Portalon a Speechhez és az Azure AI Foundry-erőforrásokhoz egy SpeechConfig-objektum létrehozásához.
- A SpeechConfig konfigurálására használható egyéb módszerek továbbra is működnek, és támogatottak.
- A következők használatára vonatkozik:
Hibajavítások
- Kijavítottunk egy végtelen kapcsolat-újrapróbálkozási ciklust a nem támogatott kapcsolatzáró kódokon (https://github.com/microsoft/cognitive-services-speech-sdk-js/issues/896).
Beszéd CLI (SPX)
Új funkciók
- A Microsoft Entra-jogkivonat hitelesítő adataival történő hitelesítés támogatása hozzáadva.
- A Fast Transcription API támogatása hozzáadva.
Hibajavítások
- Kijavítottuk a nem működő pontosvesszővel tagolt bemeneti URL-címeket és a bemeneti fájl/URL-listákat egy fájlból.
Speech SDK 1.43: 2025. márciusi kiadás
Megjegyzés:
Az Ubuntu 20.04 "standard biztonsági karbantartás" 2025 áprilisában lejár , és többé nem lesz elérhető ADO buildügynökként. A Future Speech SDK-kiadásokhoz minimálisan támogatott verzióként az Ubuntu 22.04 LTS szükséges (az Ubuntu 20.04 helyett).
Új funkciók:
- Frissítettük a FromEndpoint API-t, hogy a legtöbb forgatókönyvhöz ajánlott módszer legyen a SpeechConfig létrehozásához.
- A következők használatára vonatkozik:
- Beszédfelismerő
- TranslationÉrzékelő (a SpeechTranslationConfig használatával)
- Beszélgetés-leíró
- SpeechSynthesizer A JavaScript kivételével minden programozási nyelven.
- Most már használhatja az Azure Portal beszéd- és Cognitive Services-erőforrásaiból származó végpontot egy SpeechConfig-objektum létrehozásához.
- A SpeechConfig konfigurálására használható egyéb módszerek továbbra is működnek, és támogatottak.
- A következők használatára vonatkozik:
- A TranslationRecognizer alapértelmezettként a V2-végpontokat használja.
- Ezzel áthelyezi a vezérlőparamétereket az URL-címről a csatornán belüli üzenetekre V2-végpont használatakor.
- Viselkedésváltozás: A "zh" alapértelmezett visszaadott nyelve most "zh-CN" a "zh-hans" helyett
- Tulajdonságazonosítókat adtak hozzá a SpeechSynthesis_FrameTimeoutInterval és SpeechSynthesis_RtfTimeoutThreshold számára.
- Optimalizálta, hogy az SDK hányszor csatlakozik újra a hosszú ideig futó felismerésekhez.
- [C++, Python] A szövegstreamelési kérelmek stílusának és hőmérsékletének megadásához hozzáadott támogatás.
- [C#] Az automatikus AAD-jogkivonat-frissítés támogatása a FromEndpoint konfigurációs objektum létrehozásakor.
- Ez hozzáad egy függőséget a Speech SDK-tól az Azure.Core nuget-csomaghoz.
- A Speech SDK mostantól elfogadhatja a TokenCredential származtatott objektumokat a hitelesítéshez a következő használatakor:
- Beszédfelismerő
- Fordítás Felismerő
- Beszélgetés-leíró
- [Objective-C] Frissítettük az SPXTranslationRecognizert, hogy támogassa a forrásnyelv automatikus észlelését a nyílt tartományból.
- [Objective-C , Python] Diagnosztikai API-k: EventLogger, FileLogger és MemoryLogger.
- [Go]: Hozzáadva a TranslationRecognizer támogatása
Hibajavítások
- Kijavítottuk az OpenSSL 3 támogatását Linux arm32 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2736) rendszeren.
- Kijavítottuk a hiányzó állapotmezőt a beszédszintézis hanglistájában (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2771).
- Kijavítottuk az IntentRecognizer mintázat-illesztését, amely nem megfelelően azonosította az egész szám karaktereket a japán nyelvi elemzővel.
- Kijavítottunk egy lehetséges hibát, amely a beágyazott beszédfelismerés duplikált eredményeivel kapcsolatos.
- [Java] Kijavítottuk a üres résztvevők problémát a ConversationParticipantsChangedEventArgs-ben Android 12-en és újabb (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2687).
Minták
- [C++] Minta hozzáadva az önálló szándékfelismeréshez mintaegyeztetés használatával.
- A LUIS szolgáltatás 2025 októberi kivonásával a Speech SDK is visszavonul az IntentRecognizer objektumcsaládtól.
- Ezt megelőzően meg akartuk osztani az implementációt a mintaegyezéshez.
- [C++, C#, Java, Python] A legtöbb mintát a FromSubscription helyett a FromEndpoint API használatára frissítette.
- [C#] Többrétegű beszédfelismerési alkalmazáshoz hozzáadtunk egy forgatókönyvmintát.
- Bemutatja a hang visszajátszásának és újracsatlakozásának módszertanát egy peremeszközről egy középső rétegbeli szolgáltatásba, amely ezután a Speech SDK-n keresztül továbbítja a hangot a Speech Service-nek
- [C#] Frissített minták az AAD-token automatikus frissítésének használatához.
- [Python] Új diagnosztikai API-khoz hozzáadott minták.
- [Unity] Az új Azure.Core-függőség telepítésére vonatkozó utasítások hozzáadva.
Speech SDK 1.42.0: 2024–decemberi kiadás
Új funkciók
- Java: Diagnosztika naplózási API-k hozzáadása a FileLogger, a MemoryLogger, az EventLogger és az SpxTrace osztályokkal.
- Az értekezlet-résztvevő JSON-tulajdonságának "részletei" szolgáltatásba küldésének támogatása
- Ugrás: Hozzáadták a nyilvános tulajdonságot, a SpeechServiceConnection_ProxyHostBypass, amely lehetővé teszi, hogy meghatározza azokat a gazdagépeket, amelyeken a proxy nem kerül használatra.
- JavaScript, Go: Hozzáadta a nyilvános tulajdonság azonosítóját Speech_SegmentationStrategy annak megállapításához, hogy mikor ért véget egy kimondott kifejezés, és létre kell hozni egy végleges felismert eredményt (beleértve a szemantikai szegmentációt is)
- JavaScript, Go: A hozzáadott nyilvános tulajdonságazonosító Speech_SegmentationMaximumTimeMs határozza meg a kimondott kifejezés végét a Java, Python, C#, C++ idő alapján
Hibajavítások
- Rögzített beágyazott TTS-hang (újra)betöltve minden szintézishez, ha a hangnév nincs beállítva.
- Kijavítottuk az eltolásszámítási problémákat a MeetingTranscriber használata során bizonyos esetekben.
- Kijavítottuk a lehetséges holtpontot több diagnosztikai eseményfigyelő egyidejű regisztrálásakor.
- (JavaScript) Kijavítottuk a lehetséges elveszett NoMatch-eredményeket a hanganyag végén. Ez a javítás a beszéd végén lévő viselkedést a többi SDK-nyelvhez is igazítja, és előfordulhat, hogy egyes üres események már nem jelennek meg.
- (JavaScript) Az eredmény JSON eltolásainak igazítása az eredményobjektumok eltolásaihoz. Korábban csak az eredményobjektum eltolási tulajdonsága került kijavításra, hogy figyelembe vegye a szolgáltatás újbóli csatlakozását.
- Go nyelv: Fordítási hiba kijavítva https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
- Kijavítottuk az értekezlet átírásának eredmény eltolásait, amikor újracsatlakozás történik a szolgáltatáshoz.
- Kijavítottunk egy elakadást a naplózás során.
Minták
- Frissített C#-mintákat a .NET 8.0 használatára.
- A Java-minta diagnosztikai naplózási API-t használ, amely az új diagnosztikai naplózási osztályok használatát mutatja be.
2024. novemberi kiadás
Azure AI Speech Toolkit bővítmény a Visual Studio Code-hoz
Az Azure AI Speech Toolkit bővítmény mostantól elérhető a Visual Studio Code felhasználói számára. Tartalmazza a beszéd gyorsindítási és forgatókönyv-mintáinak listáját, amelyek egyszerű kattintással egyszerűen felépíthetők és futtathatók. További információ: Azure AI Speech Toolkit in Visual Studio Code Marketplace.
Szöveg–beszéd avatar kódminták
Szöveget adtunk hozzá az Androidhoz és iOS-hez készült beszéd avatarkódmintákhoz. Ezek a minták bemutatják, hogyan használhat valós idejű szöveget az avatarok beszédéhez a mobilalkalmazásokban.
Speech SDK 1.41.1: 2024–októberi kiadás
Új funkciók
- Az Amazon Linux 2023 és az Azure Linux 3.0 támogatása hozzáadva.
- Hozzáadott egy nyilvános tulajdonságot, a SpeechServiceConnection_ProxyHostBypass-t, amely meghatározza azokat a gazdagépeket, amelyekhez nem használnak proxyt.
- Új kifejezések szegmentálási stratégiáinak szabályozásához hozzáadott tulajdonságok.
Hibajavítások
- Kijavítottuk a 2024 augusztusa után gyártott kulcsszófelismerési speciális modellek hiányos támogatását.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Vegye figyelembe, hogy az iOS-alapú Swift esetében a projektnek MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (forrásból https://aka.ms/csspeech/iosbinaryembedded) vagy a MicrosoftCognitiveServicesSpeechEmbedded-iOS podot kell használnia, amely tartalmazza a Speciális modell támogatását.
- Kijavítottuk a sztringhasználattal kapcsolatos memóriavesztést c# nyelven.
- Kijavítva, hogy nem sikerült lekérni az SPXAutoDetectSourceLanguageResult-t az SPXConversationTranscriptionResult fájlból Objective-C és Swiftben.
- Javítottunk egy alkalmi hibaleállást, amikor a Microsoft Audio Stack-et használták felismeréshez.
- Rögzített típustippek a Pythonban. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- Kijavítottuk, hogy egyéni végpont használatakor nem sikerült lekérni a TTS-hangok listáját.
- Kijavítottuk a beágyazott TTS újrainicializálását minden beszédkérésnél, amikor a hang rövid névvel van megadva.
- Kijavítottuk az API referenciadokumentációját a RecognizeOnce hang maximális időtartamára.
- Kijavítottuk az tetszőleges mintavételezési arányok JavaScriptben való kezelését
- Köszönet az rseanhallnak ezért a hozzájárulásért.
- Kijavítottuk a hangeltolódás kiszámításának hibáját a JavaScriptben.
- Köszönet motamed hozzájárulásáért.
Kompatibilitástörő változások
- A Windows ARM 32 bites kulcsszófelismerési támogatása el lett távolítva, mert a szükséges ONNX-futtatókörnyezet ehhez a platformhoz nem érhető el.
Speech SDK 1.40: 2024–augusztusi kiadás
Megjegyzés:
A Speech SDK 1.39.0-s verziója belső kiadás volt, és nem hiányzik.
Új funkciók
- Hozzáadott támogatás a tömörített hang átviteléhez a beszédfelismerésben.
- A beszédszintézisben a bemeneti szöveg streamelésében a hangmagasság, a sebesség és a hangerő beállítása is támogatott.
- A beszédszintézisben a
PersonalVoiceSynthesisRequest
bevezetésével hozzáadásra került a személyes hangbemeneti szövegfolyam támogatása. Ez az API előzetes verzióban érhető el, és a jövőbeli verziókban változhat. - Hozzáadtuk a támogatást a köztes eredmények diarizálásához, amikor a
ConversationTranscriber
használatban van. - A CentOS 7 EOL és az RHEL 7 karbantartási támogatási szakaszának befejezése 2 miatt megszűnt a CentOS/RHEL 7 támogatása.
- A beágyazott beszédmodellek használatához mostantól modellkulcs helyett modelllicencre van szükség. Ha Ön egy meglévő beágyazott beszédfelismerési ügyfél, és frissíteni szeretne, forduljon a Microsoft ügyfélszolgálatához a modellfrissítésekkel kapcsolatos részletekért.
Hibajavítások
- A Windows-ra készült Speech SDK bináris fájljait felépítettük a _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR zászlóval a Visual C++ futtatási problémák elkerülésére, például hozzáférés megsértése std::mutex::lock használata esetén a VS 2022 17.10.0 verzióra való frissítés után – Fejlesztői közösség (visualstudio.com). Előfordulhat, hogy a Speech SDK-t használó Windows C++ alkalmazásoknak ugyanazt a buildkonfigurációs jelzőt kell alkalmazniuk, ha a kódjuk std::mutexet használ (lásd a csatolt probléma részleteit).
- Kijavítottuk az OpenSSL 3.x észlelést, amely nem működik a Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420) rendszeren.
- Kijavítottuk azt a hibát, amely miatt egy UWP-alkalmazás, -kódtár és -modell MAS NuGet-csomagból való telepítésekor a rendszer nem másolódott át az üzembehelyezési helyre.
- Kijavítottunk egy tartalomszolgáltatói ütközést az Android-csomagokban (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
- Kijavítottuk a köztes beszédfelismerési eredményekre nem alkalmazható utófeldolgozási beállításokat.
- Kijavítottuk a .NET 8-ra vonatkozó figyelmeztetést a terjesztési specifikus futtatókörnyezet-azonosítókra (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).
Minták
- A beágyazott beszédmintákat úgy frissítette, hogy kulcs helyett modelllicencet használjon.
Speech SDK 1.38.0: 2024–júniusi kiadás
Új funkciók
- Frissítse a Speech SDK Linux platformkövetelményeit.
- Az új minimális alapkonfiguráció az Ubuntu 20.04 LTS, vagy kompatibilis a 2.31 vagy újabb verzióval
glibc
. - A Linux x86 bináris fájljai az Ubuntu 20.04 platform támogatásának megfelelően törlődnek.
- Vegye figyelembe, hogy az RHEL/CentOS 7 június 30-ig (a CentOS 7 végéig és az RHEL 7 karbantartási támogatásának 2 végéig) támogatott marad. A bináris fájlok a Speech SDK 1.39.0-s kiadásában lesznek eltávolítva.
- Az új minimális alapkonfiguráció az Ubuntu 20.04 LTS, vagy kompatibilis a 2.31 vagy újabb verzióval
- Az OpenSSL 3 támogatása Linuxon.
- A g722-16khz-64kbps hangkimeneti formátum támogatása beszédszintetizátor használatával.
- Támogatás hozzáadása az üzenetek beszédszintetizátorsal való kapcsolati objektumon keresztüli küldéséhez.
- Start/StopKeywordRecognition API-k hozzáadása Objective-C és Swiftben.
- Api hozzáadása egyéni fordítási modell kategória kiválasztásához.
- Frissítse a GStreamer használatát a beszédszintetizátor használatával.
Hibajavítások
- A "Websocket üzenetmérete nem haladhatja meg a 65 536 bájtot" hiba kijavítása a Start/StopKeywordRecognition során.
- Python-szegmentálási hiba javítása a beszédszintézis során.
Minták
- Frissítse a C#-mintákat a .NET 6.0 alapértelmezett használatára.
Speech SDK 1.37.0: 2024- áprilisi kiadás
Új funkciók
- Támogatja a bemeneti szövegstreamelést a beszédszintézisben.
- Módosítsa az alapértelmezett beszédszintézis hangját en-US-AvaMultilingualNeural értékre.
- Android-buildek frissítése az OpenSSL 3.x használatára.
Hibajavítások
- Javítsa ki a JVM alkalmankénti összeomlásait a SpeechRecognizer erőforrásainak felszabadításakor, a MAS használatával. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
- Az alapértelmezett hangeszközök észlelésének javítása Linuxon. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)
Minták
- Új funkciókkal frissítve.
Speech SDK 1.36.0: 2024. márciusi kiadás
Új funkciók
- Nyelvi azonosítás támogatása többnyelvű fordításban v2-végpontokon az AutoDetectSourceLanguageConfig::FromOpenRange() paranccsal.
Hibajavítások
Javítsa ki azt a problémát, amikor a SynthesisCanceled esemény nem kerül aktiválásra, ha a leállítást a SynthesisStarted esemény közben hívják meg.
A beágyazott beszédszintézis zajproblémáinak megoldása.
A beágyazott beszédfelismerés összeomlásának kijavítása több felismerő egyidejű futtatásakor.
Javítsa ki a kifejezésészlelési módot a v1/v2-végpontokon.
A Microsoft Audio Stack különböző problémáinak javítása.
Minták
- Új funkciók frissítései.
Speech SDK 1.35.0: 2024. februári kiadás
Új funkciók
- Módosítsa az alapértelmezett szöveget beszédhangra az en-US-JennyMultilingualNeural-ről en-US-AvaNeural értékre.
- Támogatja a beágyazott beszédfordítási eredmények szószintű részleteit a részletes kimeneti formátum használatával.
Hibajavítások
- Javítsa ki az AudioDataStream pozíció getter API-t a Pythonban.
- Beszédfordítás javítása v2-végpontok használatával nyelvfelismerés nélkül.
- Kijavítja a véletlenszerű összeomlást és az ismétlődő szóhatáreseményeket a beágyazott szöveg-beszéd átalakításban.
- A WebSocket-kapcsolatok belső kiszolgálóhibájának helyes lemondási hibakódját adja vissza.
- Kijavítottuk, hogy nem sikerült betölteni FPIEProcessor.dll kódtárat, amikor a MAS-t C#-tal használják.
Minták
- A Beágyazott felismerési minták kisebb formázási frissítései.
Speech SDK 1.34.1: 2024. januári kiadás
Kritikus változások
- Csak hibajavítások
Új funkciók
- Csak hibajavítások
Hibajavítások
- Kijavítottuk az 1.34.0-s verzióban bevezetett regressziót, ahol a szolgáltatásvégpont URL-címe hibás területi adatokkal lett létrehozva több kínai régió felhasználói számára.
Speech SDK 1.34.0: 2023. novemberi kiadás
Kritikus változások
-
SpeechRecognizer
alapértelmezés szerint egy új végpont használatára frissül (azaz ha nem ad meg explicit módon URL-címet), amely már nem támogatja a lekérdezési sztring paramétereit a legtöbb tulajdonság esetében. Ahelyett, hogy közvetlenül a ServicePropertyChannel.UriQueryParameter használatával állít be lekérdezési sztringparamétereket, használja a megfelelő API-függvényeket.
Új funkciók
- Kompatibilitás a .NET 8-tal (Javítás a https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 centos7-x64 figyelmeztetés kivételével)
- A beágyazott beszédteljesítmény-metrikák támogatása, amelyek segítségével kiértékelhető, hogy az eszköz képes-e beágyazott beszédet futtatni.
- A forrásnyelv-azonosítás támogatása beágyazott többnyelvű fordításban.
- Támogatás a beágyazott szövegfelismeréshez, a szöveg-beszéd átalakításhoz és a fordításhoz iOS és Swift/Objective-C előzetes verzióban elérhető.
- A beágyazott támogatást a MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod biztosítja.
Hibajavítások
- Az iOS SDK bináris méretének növekedésének kétszeresére való javítása · Probléma #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Kijavítottuk, hogy nem lehet szószintű időbélyegeket lekérni az Azure Speechből a szöveges API-ba · 2156- os probléma · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Javítás a DialogServiceConnector megsemmisítési fázisához az események megfelelő leválasztásához. Ez időnként összeomlásokat okozott.
- A mas használata esetén a felismerő létrehozása során fellépő kivétel javítása.
- FPIEProcessor.dll a Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-csomag Windows UWP x64 és Arm64 verziója függőséggel rendelkezik a natív C++-hoz készült VC futtatókörnyezeti kódtárakra. A problémát kijavítottuk a függőség frissítésével a VC futtatókörnyezeti kódtárak (UWP) javítása érdekében.
- Javítás a [MAS] hibára: A recognizeOnceAsync ismétlődő hívásai SPXERR_ALREADY_INITIALIZED hibát okoznak a MAS használatakor · 2124-es hiba · Azure-Samples/cognitive-services-speech-sdk (github.com)
- A beágyazott beszédfelismerés összeomlásának javítása kifejezéslisták használatakor.
Minták
- Beágyazott iOS-minták beszédfelolvasáshoz, szövegfelolvasáshoz és fordításhoz.
Speech CLI 1.34.0: 2023. novemberi kiadás
Új funkciók
- Támogatja a szavak határeseteinek kimenetét a beszédszintézis során.
Hibajavítások
- A JMESPath-függőség frissítése a legújabb kiadásra javítja a karakterláncok kiértékelését.
Speech SDK 1.33.0: 2023. októberi kiadás
Kritikus változásról szóló értesítés
- A Microsoft Audio Stackhez (MAS) hozzáadott új NuGet-csomagot azoknak az alkalmazásoknak kell tartalmazniuk, amelyek MAS-t használnak a csomagkonfigurációs fájljaikban.
Új funkciók
- Hozzá lett adva az új NuGet-csomag, a Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, amely továbbfejlesztett echo-lemondási teljesítményt nyújt a Microsoft Audio Stack használatakor
- Kiejtési értékelés: a próza- és tartalomértékelés támogatása, amely próza, szókincs, nyelvhelyesség és témakör szempontjából értékelheti a beszélt beszédet.
Hibajavítások
- Kijavítottuk a kulcsszófelismerési eredményt, hogy azok megfelelően illeszkedhessenek a bemeneti hangstreamhez az elejétől kezdve. A javítás a különálló kulcsszófelismerésre és a kulcsszó által aktivált beszédfelismerésre is vonatkozik.
- A javított Szintetizátor stopSpeaking() nem ad azonnali visszatérést Az SPXSpeechSynthesizer stopSpeaking() metódus nem tud azonnal visszatérni iOS 17 rendszeren – #2081 hiba
- Kijavítottuk a Mac katalizátor importálási problémáját a Swift modulban, amely támogatja a mac katalizátort apple szilíciummal. 1948. számú probléma
- JS: Az AudioWorkletNode modul betöltése mostantól megbízható URL-címet használ, és a CDN-böngésző tartalékot tartalmaz.
- JS: A csomagolt libfájlok mostantól es6 JS-t céloznak meg, és az ES5 JS támogatása el lett távolítva.
- JS: a v2-végpontot megcélzó fordítási forgatókönyv közbenső eseményei megfelelően vannak kezelve
- JS: A TranslationRecognitionEventArgs nyelvi tulajdonsága mostantól a translation.hypothesis eseményekhez van beállítva.
- Beszédszintézis: A SynthesisCompleted esemény garantáltan kibocsátásra kerül minden metaadatesemény után, így felhasználható az események befejezésének jelzésére. Hogyan lehet észlelni, hogy a visemek mikor érkeznek teljesen? Probléma #2093 Azure-Samples/cognitive-services-speech-sdk
Minták
- Minta hozzáadva a MULAW pythonnal történő streamelésének bemutatásához)
- Javítás a beszéd-szöveg NAudio-mintához
Speech CLI 1.33.0: 2023. októberi kiadás
Új funkciók
- Támogatja a szavak határeseteinek kimenetét a beszédszintézis során.
Hibajavítások
- Nincs
Speech SDK 1.32.1: 2023. szeptemberi kiadás
Hibajavítások
- Android-csomagok frissítései az OpenSSL1.1.1v legújabb biztonsági javításaival
- Hozzáadtuk a WebWorkerLoadType tulajdonságot, amely lehetővé teszi az adat URL-terhelésének megkerülését az időtúllépési munkás számára.
- JS – A beszélgetés fordításának megszakadásának javítása 10 perc után
- JS – A beszélgetés fordítási hitelesítési jogkivonata mostantól továbbítja a fordítási szolgáltatás kapcsolatát
Minták
Speech SDK 1.31.0: 2023. augusztusi kiadás
Új funkciók
A valós idejű diarizálás támogatása nyilvános előzetes verzióban érhető el a Speech SDK 1.31.0-s verziójával. Ez a funkció a következő SDK-kban érhető el: C#, C++, Java, JavaScript, Python és Objective-C/Swift.
Szinkronizált beszédszintézis szóhatára és események megjelenítése hanglejátszással
Kritikus változások
A korábbi "beszélgetés átírása" forgatókönyv neve "értekezlet átírása". Például használja
MeetingTranscriber
a helyettConversationTranscriber
, és használjaCreateMeetingAsync
helyettCreateConversationAsync
. Bár az SDK-objektumok és -metódusok neve megváltozott, az átnevezés nem változtatja meg magát a funkciót. Értekezlet-átírási objektumok használata az értekezletek átírásához felhasználói profilokkal és hangaláírásokkal. Ezek a módosítások nem érintik a "beszélgetés fordítása" objektumokat és metódusokat. Továbbra is használhatja azConversationTranslator
objektumot és annak metódusait fordítási forgatókönyvekhez.A valós idejű diarizáláshoz új
ConversationTranscriber
objektumot vezetünk be. Az új "beszélgetés átírása" objektummodell és hívásminták hasonlóak azSpeechRecognizer
objektum folyamatos felismeréséhez. Lényeges különbség, hogy azConversationTranscriber
objektum olyan beszélgetési forgatókönyvben való használatra lett kialakítva, amelyben több hangszórót (diarizációt) szeretne megkülönböztetni. A felhasználói profilok és a hangaláírások nem alkalmazhatók. További információért tekintse meg a valós idejű diarizálási rövid útmutatót .
Ez a táblázat a valós idejű diarizálás és az értekezlet átírásának korábbi és új objektumnevét mutatja be. A forgatókönyv neve az első oszlopban, az előző objektumnevek a második oszlopban, az új objektumnevek pedig a harmadik oszlopban találhatók.
Forgatókönyv neve | Előző objektumnevek | Új objektumnevek |
---|---|---|
Valós idejű diarizálás | Nincs adat. | ConversationTranscriber |
Értekezlet átírása | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant
1ParticipantChangedReason
1User
1 |
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting
2 |
1 A Participant
, ParticipantChangedReason
és az objektumok az értekezlet átírására és User
az értekezletfordítási forgatókönyvekre egyaránt érvényesek.
2 Az Meeting
objektum új, és az MeetingTranscriber
objektummal együtt használatos.
Hibajavítások
- Kijavítottuk a macOS minimálisan támogatott verzióját https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
- Kijavítottuk a kiejtésértékelési hibát:
- A foneum pontossági pontszámok problémáját orvosoltuk, biztosítva, hogy most már csak az adott helytelenül kiejtett foneumot tükrözzék. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Megoldotta azt a hibát, amely miatt a kiejtésértékelési funkció pontatlanul hibásként azonosította a helyes kiejtéseket, különösen olyan esetekben, amikor a szavak több érvényes kiejtéssel is rendelkezhettek. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
Minták
CSharp
JavaScript
Speech SDK 1.30.0: 2023. júliusi kiadás
Új funkciók
-
C++, C#, Java – Az Embedded Speech Recognition részletes eredményének
DisplayWords
támogatása. -
Objective-C/Swift – Az Objective-C /Swift eseményeinek
ConnectionMessageReceived
támogatása. - Objective-C/Swift – Továbbfejlesztett kulcsszó-észlelési modellek iOS-hez. Ez a változás megnövelte bizonyos csomagok méretét, amelyek iOS bináris fájlokat tartalmaznak (például NuGet, XCFramework). Dolgozunk a jövőbeli kiadások méretének csökkentésén.
Hibajavítások
- Kijavítottunk egy memóriaszivárgást, amikor beszédfelismerőt használt a PhraseListGrammar használatával az ügyfél által jelentett módon (GitHub-probléma).
- Kijavítottunk egy holtpontot a szöveg-beszéd nyílt kapcsolati API-ban.
További megjegyzések
-
Java – Néhány belsőleg használt
public
Java API-metódus megváltozott, és átkerült ainternal
,protected
vagyprivate
csomagokba. Ennek a változásnak nem szabad hatással lennie a fejlesztőkre, mivel nem várjuk, hogy az alkalmazások ezeket használják. Feljegyezve itt az átláthatóság kedvéért.
Minták
- Új kiejtésértékelési minták arról, hogyan adhat meg egy tanulási nyelvet a saját alkalmazásában
- C#: Lásd a mintakódot.
- C++: Lásd a mintakódot.
- JavaScript: Lásd a mintakódot.
- Objective-C: Lásd a mintakódot.
- Python: Lásd a mintakódot.
- Swift: Lásd a mintakódot.
Speech SDK 1.29.0: 2023. júniusi kiadás
Új funkciók
- C++, C#, Java – Beágyazott beszédfordítási API-k előzetes verziója. Most már felhőalapú kapcsolat nélkül is végezhet beszédfordítást!
- JavaScript – A folyamatos nyelvazonosítás (LID) mostantól engedélyezve van a beszédfordításhoz.
-
JavaScript – Közösségi hozzájárulás egy
LocaleName
tulajdonság hozzáadásához aVoiceInfo
osztályhoz. Köszönjük a GitHub-felhasználó shivsarthaknak a lekéréses kérelmet. - C++, C#, Java – Támogatja a beágyazott szöveg 16 kHz-ről 48 kHz-es mintasebességre történő újraszámítását a beszédkimenethez.
- A területi beállítás támogatása az
hi-IN
Egyszerű mintaegyeztetéssel rendelkező Szándékfelismerőben.
Hibajavítások
- Kijavítottunk egy összeomlást, amelyet egy versenyhelyzet okozott a Speech Recognizerben objektummegsemmisítés során, amint az androidos tesztek némelyikében látható
- Kijavítottuk a lehetséges holtpontokat az Intent Recognizerben egyszerű mintaegyezővel
Minták
- Új Beágyazott beszédfordítási minták
Speech SDK 1.28.0: 2023. májusi kiadás
Kompatibilitást megszakító változás
- JavaScript SDK: Az online tanúsítványállapot-protokoll (OCSP) el lett távolítva. Ez lehetővé teszi, hogy az ügyfelek jobban megfeleljenek a tanúsítványkezelés böngésző- és csomópontszabványainak. Az 1.28-es és újabb verzió már nem tartalmazza az egyéni OCSP-modult.
Új funkciók
-
A beágyazott beszédfelismerés mostantól akkor ad vissza,
NoMatchReason::EndSilenceTimeout
ha egy beszédelem végén csendidő-időtúllépés történik. Ez megegyezik a valós idejű beszédszolgáltatással végzett felismerés viselkedésével. -
JavaScript SDK: Tulajdonságok beállítása a
SpeechTranslationConfig
használatávalPropertyId
enumerációs értékek szerint.
Hibajavítások
- C# a Windows rendszeren – A lehetséges versenyállapot/holtpont javítása a Windows hangkiterjesztésben. Azokban a forgatókönyvekben, amelyekben a hanglejátszó gyorsan el van helyezve, és a Synthesizer metódust is használják a beszéd leállításához, a mögöttes esemény nem állt vissza stop-ra, és a renderelő objektum soha nem szabadult fel, miközben globális zárolást lehetett tartani az ártalmatlanításhoz, a dotnet GC-szál befagyasztásával.
Minták
- Beágyazott beszédmintát adott hozzá a MAUI-hoz.
- Frissítette az Android Java beágyazott beszédmintáját, hogy szövegfelolvasást is tartalmazzon.
Speech SDK 1.27.0: 2023. áprilisi kiadás
Értesítés a közelgő változásokról
- Az online tanúsítványállapot-protokoll (OCSP) eltávolítását a következő JavaScript SDK-kiadásban tervezzük eltávolítani. Ez lehetővé teszi, hogy az ügyfelek jobban megfeleljenek a tanúsítványkezelés böngésző- és csomópontszabványainak. Az 1.27-es verzió az utolsó kiadás, amely tartalmazza az egyéni OCSP-modult.
Új funkciók
- JavaScript – A böngészőből származó mikrofonbemenet támogatása a Speaker Identification és Verification használatával.
-
Beágyazott beszédfelismerés – A beállítás támogatásának
PropertyId::Speech_SegmentationSilenceTimeoutMs
frissítése.
Hibajavítások
- Általános – Megbízhatósági frissítések a szolgáltatás újracsatlakozási logikájában (a JavaScript kivételével minden programozási nyelv).
- Általános – A windowsos memóriát kiszivárogtató sztringkonvertálások javítása (a JavaScript kivételével minden releváns programozási nyelv).
- Beágyazott beszédfelismerés – Kijavíthatja a francia beszédfelismerés összeomlását bizonyos nyelvtani listaelemek használatakor.
- Forráskód dokumentációja – Az SDK referenciadokumentációjának javítása a szolgáltatás hangnaplózásához kapcsolódó megjegyzésekhez.
- Szándékfelismerés – A listaentitásokhoz kapcsolódó mintaegyesítő prioritások javítása.
Minták
- A C# beszélgetési átírási (CTS) mintában szereplő hitelesítési hibák megfelelő kezelése.
- Hozzáadtunk egy példát a Python, JavaScript, Objective-C és Swift streamelési kiejtésének értékelésére.
Speech SDK 1.26.0: 2023. márciusi kiadás
Kritikus változások
- Az alábbiakban a bitkód le lett tiltva az összes iOS célplatformon a következő csomagokban: Cocoapod-del xcframework, NuGet (Xamarin és MAUI esetén) és Unity. Az Apple megszüntette a bitcode támogatását az Xcode 14-es verziójától kezdve. Ez a módosítás azt is jelenti, hogy ha Xcode 13-at használ, vagy kifejezetten engedélyezte a bitkódot az alkalmazásban a Speech SDK használatával, hibaüzenet jelenhet meg, amely szerint "a keretrendszer nem tartalmaz bitkódot, és újra kell építenie". A probléma megoldásához győződjön meg arról, hogy a célok bitkódja le van tiltva.
- Ebben a kiadásban a minimális iOS-telepítési cél 11.0-ra frissül, ami azt jelenti, hogy az Armv7 HW már nem támogatott.
Új funkciók
- A beágyazott (eszközön) beszédfelismerés mostantól támogatja a 8 és a 16 kHz-es mintavételezési sebesség bemeneti hangját is (mintánként 16 bites, mono PCM).
- A beszédszintézis mostantól a kapcsolat, a hálózat és a szolgáltatás késéseit jelenti az eredményben, így segítve a végpontok közötti késés optimalizálását.
- Új döntetlenbontó szabályok a szándékfelismeréshez egyszerű mintaillesztéssel. Minél több karakterbájt egyezik, az alacsonyabb karakterbájtszámmal rendelkező minták felett diadalmaskodik. Példa: A "Select {something} in the top right" (A jobb felső sarokban található {something} kiválasztása) minta a "Select {something}" ({valami kiválasztása} lehetőség) elemet fogja megnyerni.
Hibajavítások
- Beszédszintézis: Kijavítottunk egy hibát, amely miatt az emoji nem helyes a szavak határeseteiben.
-
Szándékfelismerés társalgási nyelvfelismeréssel (CLU):
- A CLU Orchestrator munkafolyamat szándékai most már helyesen jelennek meg.
- A JSON-eredmény a tulajdonságazonosítón
LanguageUnderstandingServiceResponse_JsonResult
keresztül érhető el.
- Beszédfelismerés kulcsszóaktiválással: A hiányzó ~150 ms hang kijavítása kulcsszófelismerés után.
- Javítás a Speech SDK NuGet iOS MAUI kiadásának buildjéhez, amelyet az ügyfél jelentett (GitHub-probléma)
Minták
- Az ügyfél által jelentett Swift iOS-minta javítása (GitHub-probléma)
Speech SDK 1.25.0: 2023. januári kiadás
Kritikus változások
- A Language Identification (előzetes verzió) API-k egyszerűbbé lettek. Ha frissít a Speech SDK 1.25-ös verzióra, és buildszünetet lát, látogasson el a Language Identification (Nyelvazonosítás ) oldalra az új tulajdonság
SpeechServiceConnection_LanguageIdMode
megismeréséhez. Ez az egyetlen tulajdonság a két korábbi tulajdonság,SpeechServiceConnection_SingleLanguageIdPriority
ésSpeechServiceConnection_ContinuousLanguageIdPriority
, helyett. A modell legújabb fejlesztései után már nincs szükség az alacsony késés és a nagy pontosság közötti rangsorolásra. Most már csak azt kell kiválasztania, hogy a folyamatos beszédfelismerés vagy fordítás során az indításkor vagy a folyamatos nyelvazonosítással kell-e futnia.
Új funkciók
- C#/C++/Java: A Embedded Speech SDK mostantól nyilvános előzetes verzióban jelenik meg. Lásd az Embedded Speech (előzetes verzió) dokumentációját . Mostantól az eszközén is használhat beszédet szöveggé alakító és szövegfelolvasó funkciókat, ha a felhőkapcsolat időszakos vagy nem elérhető. Android, Linux, macOS és Windows platformokon támogatott
- C# MAUI: IOS- és Mac Catalyst-célok támogatása a Speech SDK NuGetben (ügyfélproblémák)
- Unity: Android x86_64 architektúra hozzáadva a Unity csomaghoz (ügyfélproblémák)
-
Menj
- ALAW/MULAW közvetlen streamelési támogatás hozzáadva a beszédfelismeréshez (ügyfélproblémák)
- A PhraseListGrammar támogatása hozzáadva. Köszönjük GitHub-felhasználó czkoko a közösség hozzájárulását!
- C#/C++: Az Intent Recognizer mostantól támogatja a C++ és c# beszélgetési nyelvfelismerési modelleket a Microsoft szolgáltatás vezénylése mellett
Hibajavítások
- Alkalmi lefagyás kijavítása a KeywordRecognizerben , amikor megpróbálják leállítani
-
Python:
- Javítás a kiejtési értékelés eredményének lekéréséhez, amikor
PronunciationAssessmentGranularity.FullText
ki van tűzve (ügyfélprobléma) - A nemi tulajdonság javítása a nem lekért férfi hangok esetében a beszédszintézis hangjának lekérésekor
- Javítás a kiejtési értékelés eredményének lekéréséhez, amikor
-
JavaScript
- Javítás az iOS-eszközökön rögzített egyes WAV-fájlok elemzéséhez (ügyfélproblémák)
- A JS SDK mostantól az npm-force-resolutions használata nélkül épül (ügyfélprobléma)
- A Beszélgetési fordító mostantól helyesen állítja be a szolgáltatásvégpontot a SpeechConfig.fromEndpoint() használatával létrehozott SpeechConfig-példány használatakor
Minták
Hozzáadott minták az Embedded Speech használatára
Hozzáadva a beszéd szöveggé alakítása mintát a MAUI-hoz
Speech SDK 1.24.2: 2022. novemberi kiadás
Új funkciók
- Nincsenek új funkciók, csak beágyazott motorjavítás az új modellfájlok támogatásához.
Hibajavítások
-
Minden programnyelv
- Kijavítottunk egy hibát a beágyazott beszédfelismerési modellek titkosításával kapcsolatban.
Speech SDK 1.24.1: 2022. novemberi kiadás
Új funkciók
- Közzétett csomagok az Embedded Speech előzetes verziójához. További információért lásd a https://aka.ms/embedded-speech jelű részt.
Hibajavítások
-
Minden programnyelv
- Beágyazott TTS-összeomlás javítása, ha a hang betűtípusa nem támogatott
- A stopSpeaking() javítása nem tudja leállítani a lejátszást Linuxon (#1686)
-
JavaScript SDK
- Az audio kezelésében fellépett regressziót javítottuk a beszélgetések átírásánál.
-
Jáva
- Ideiglenesen közzétett frissített POM- és Javadocs-fájlok a Maven Centralon, hogy a docs-folyamat frissíthesse az online referenciadokumentumokat.
-
Piton
- Javítsa ki azt a regressziós hibát, amelynél a Python speak_text(ssml) függvény nem ad vissza értéket.
Speech SDK 1.24.0: 2022. októberi kiadás
Új funkciók
- Minden programozási nyelv: AMR-WB (16khz) hozzáadva a szöveg-beszéd hangkimeneti formátumok támogatott listájához
- Python: A Linux Arm64-hez hozzáadott csomag támogatott Linux-disztribúciókhoz.
-
C#/C++/Java/Python: Az ALAW & MULAW közvetlen streamelésének támogatása a beszédszolgáltatásba (a meglévő PCM-stream mellett) a használatával
AudioStreamWaveFormat
. - C# MAUI: NuGet-csomag frissítve, hogy támogassa az Android-célokat a .NET MAUI-fejlesztők számára (ügyfélproblémák)
- Mac: Külön XCframework-et adott hozzá Machez, amely nem tartalmaz iOS bináris fájlokat. Ez lehetőséget kínál azoknak a fejlesztőknek, akiknek csak Mac bináris fájlokra van szükségük egy kisebb XCframework-csomaggal.
-
Microsoft Audio Stack (MAS):
- A gerendaalakítási szögek megadásakor a megadott tartományon kívülről származó hang jobban el lesz tiltva.
- Körülbelül 70% a Linux ARM32 és Linux Arm64 méretének
libMicrosoft.CognitiveServices.Speech.extension.mas.so
csökkentése.
-
Szándékfelismerés mintaegyeztetés használatával:
- Ortográfiai támogatás hozzáadása a nyelvekhez
fr
,de
, ,es
jp
- Hozzáadtuk a prebuilt egész szám támogatást a
es
nyelvhez.
- Ortográfiai támogatás hozzáadása a nyelvekhez
Hibajavítások
- iOS: Beszédszintézisi hiba javítása az iOS 16-on a tömörített hangkódolási hiba (ügyfélproblémák) miatt.
-
JavaScript:
- Javítsa a hitelesítési token nem működése a beszédszintézis hanglistájának lekérésekor (ügyfél által jelzett probléma).
- Adat-URL használata a munkavállaló betöltéséhez (ügyfélprobléma).
- Csak akkor hozzon létre hangfeldolgozó munkafájlt, ha az AudioWorklet támogatott a böngészőben (ügyfélproblémák). Ez William Wong közösségi közreműködése volt. Köszönöm William!
- Kijavíthatja a felismert visszahívást, ha a LUIS-válasz
connectionMessage
üres (ügyfélproblémák). - Beszédszegmentálás időkorlátjának megfelelő beállítása.
-
Szándékfelismerés mintaegyeztetés használatával:
- A modelleken belüli nem json karakterek most már megfelelően betöltődnek.
- A
recognizeOnceAsync(text)
meghívásakor bekövetkező "lefagyás" probléma javítása a folyamatos felismerés során.
Speech SDK 1.23.0: 2022. júliusi kiadás
Új funkciók
-
C#, C++, Java: Szándékfelismerés mintaegyeztetéssel funkcióban támogatás hozzáadva
zh-cn
észh-hk
nyelvekhez. -
C#: A .NET-keretrendszer buildjeinek
AnyCPU
támogatása hozzáadva
Hibajavítások
- Android: A CVE-2022-2068 OpenSSL biztonsági résének kijavítása az OpenSSL 1.1.1q-ra való frissítésével
- Python: Összeomlás javítása a PushAudioInputStream használatakor
- iOS: Az iOS-en jelentett "EXC_BAD_ACCESS: Null mutató elhalasztására tett kísérlet" javítása (GitHub-probléma)
Speech SDK 1.22.0: 2022. júniusi kiadás
Új funkciók
- Java: IntentRecognitionResult API getEntities(), applyLanguageModels() és recognizeOnceAsync(text) hozzáadva az "egyszerű mintafelismerés" motor támogatásához.
- Unity: A Unity-csomaghoz tartozó Mac M1 (Apple Silicon) támogatása (GitHub-probléma)
- C#: Hozzáadott támogatás x86_64-hez a Xamarin Androidban (GitHub hiba)
- C#: Az SDK C# csomaghoz készült 4.6.2-es verzióra frissített .NET-keretrendszer minimális verziója, mivel a 4.6.1-es verzió ki lett állítva (lásd : Microsoft .NET Framework Framework Component Lifecycle Policy)
- Linux: A Debian 11 és az Ubuntu 22.04 LTS támogatása hozzáadva. Az Ubuntu 22.04 LTS-hez a libssl1.1 manuális telepítése szükséges bináris csomagként (például az x64-hez libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb vagy újabb), vagy forrásokból történő fordítással.
Hibajavítások
- UWP: Az OpenSSL-függőség el lett távolítva az UWP-kódtárakból, és winRT websocketre és HTTP API-ra cserélve a biztonsági megfelelőség és a kisebb bináris lábnyom érdekében.
- Mac: Kijavítottuk a "MicrosoftCognitiveServicesSpeech module Not Found" hibát a macOS platformot célzó Swift-projektek használatakor
- Windows, Mac: Kijavítottunk egy platformspecifikus hibát, amely miatt a tulajdonságokon keresztül valós idejű streamelésre konfigurált hangforrások néha lemaradtak, és végül túllépték a kapacitást
Minták (GitHub)
- C#: .NET-keretrendszerminták frissítve a 4.6.2-s verzió használatára
- Unity: A virtuális asszisztens minta javítva Androidra és UWP-re
- Unity: Unity-minták frissítve a Unity 2020 LTS-verzióhoz
Speech SDK 1.21.0: 2022. áprilisi kiadás
Új funkciók
- Java > JavaScript: A SpeechRecognizer objektum használatakor a folyamatos nyelvazonosítás támogatása
- JavaScript: Diagnosztikai API-k hozzáadása a konzolnaplózási szint és (csak csomópontok) fájlnaplózásának engedélyezéséhez, hogy segítsen a Microsoftnak az ügyfél által jelentett problémák elhárításában
- Python: A beszélgetés átiratának támogatása hozzáadva
- Ugrás: A beszédfelismerés támogatása hozzáadva
- C++ > C#: A szándékfelismerőben (egyszerű mintaegyeztetés) egy szükséges szócsoport támogatása hozzáadva. Például: "állítson be|indítson el|kezdjen el egy időzítőt", ahol a "set", a "start" vagy a "begin" szavak egyikének jelen kell lennie ahhoz, hogy a szándék felismerhető legyen.
- Minden programozási nyelv, Beszédszintézis: Időtartam tulajdonság hozzáadva a szavak határeseményeihez. Írásjelek és mondathatárok támogatásának hozzáadása
- Objective-C/Swift/Java: Szószintű eredményeket adott hozzá a Kiejtésértékelés eredményobjektumhoz (a C#-hoz hasonlóan). Az alkalmazásnak már nem kell elemeznie egy JSON-eredménysztringet a szószintű információk lekéréséhez (GitHub-probléma)
- iOS-platform: Kísérleti támogatás az ARMv7 architektúrához
Hibajavítások
- iOS-platform: Javítás a cél "Bármely iOS-eszköz" létrehozásához a CocoaPod használatakor (GitHub-probléma)
- Android-platform: Az OpenSSL verziója az 1.1.1n-es verzióra frissült a CVE-2022-0778 biztonsági rés javítása érdekében
- JavaScript: Kijavítottuk azt a hibát, amely miatt a wav fejléce nem lett frissítve fájlmérettel (GitHub-probléma)
- JavaScript: Kérésazonosító-deszinkronizálási problémák elhárítása fordítási forgatókönyvek feltörése esetén (GitHub-probléma)
- JavaScript: A SpeakerAudioDestination stream nélküli példányosításával kapcsolatos probléma megoldása (GitHub-probléma]
- C++: C++ fejlécek javítása a C++17 vagy újabb verziók fordításakor megjelenő figyelmeztetés eltávolításához
Minták GitHub
- Új Java-minták a beszédfelismeréshez nyelvazonosítással
- Új Python - és Java-minták a beszélgetés átiratához
- Új Go programnyelv minta hangfelismeréshez
- Új C++ és C# eszköz a Windowshoz, amely felsorolja az összes hangrögzítési és renderelési eszközt az eszközazonosítójuk megtalálásához. Erre az azonosítóra a Speech SDK-nak van szüksége, ha nem megfelelő eszközről szeretne hangokat rögzíteni vagy renderelni.
Speech SDK 1.20.0: 2022. januári kiadás
Új funkciók
- Objective-C, Swift és Python: A Voice Assistant-forgatókönyvekhez használt DialogServiceConnector támogatása hozzáadva.
- Python: A Python 3.10 támogatása hozzáadva. A Python 3.6 támogatását megszüntettük a Python 3.6 verziójának élettartamának vége miatt.
- Unity: A Speech SDK mostantól támogatott a Linuxon futó Unity-alkalmazásokhoz.
- C++, C#: A mintaegyezést használó IntentRecognizer mostantól támogatott a C#-ban. Emellett az egyéni entitásokkal, választható csoportokkal és entitásszerepkörökkel rendelkező forgatókönyvek mostantól támogatottak a C++ és a C# nyelven is.
- C++, C#: Továbbfejlesztett diagnosztikai nyomkövetési naplózás a FileLogger, a MemoryLogger és az EventLogger új osztályával. Az SDK-naplók fontos eszközök a Microsoft számára az ügyfelek által jelentett problémák diagnosztizálásához. Ezek az új osztályok megkönnyítik az ügyfelek számára a Speech SDK-naplók saját naplózási rendszerbe való integrálását.
- Az összes programozási nyelv: A PronunciationAssessmentConfig mostantól rendelkezik a kiválasztott fonéma ábécé (IPA vagy SAPI) és az N-Best fonéma szám beállításának tulajdonságaival, így elkerülhető, hogy egy konfigurációs JSON-t kelljen létrehozni a GitHub probléma 1284 szerint. A szótagszintű kimenet is támogatott.
- Android, iOS és macOS (az összes programozási nyelv): A GStreamerre már nincs szükség a korlátozott sávszélességű hálózatok támogatásához. A SpeechSynthesizer mostantól az operációs rendszer hangdekódolási képességeivel dekódolja a szövegből a speech service-be streamelt tömörített hangokat.
- Minden programozási nyelv: A SpeechSynthesizer mostantól három új nyers kimeneti Opus-formátumot támogat (tároló nélkül), amelyeket széles körben használnak élő streamelési forgatókönyvekben.
- JavaScript: GetVoicesAsync() API hozzáadva a SpeechSynthesizerhez a támogatott szintézishangok listájának lekéréséhez (GitHub 1350-es probléma)
- JavaScript: GetWaveFormat() API hozzáadva az AudioStreamFormathoz a nem PCM hullámformátumok támogatásához (GitHub 452-es probléma)
- JavaScript: A SpeakerAudioDestination-hez hozzáadott hangerő-lekérdező/beállító és elnémít()/hang visszaállítása() API-k (GitHub kiadási probléma 463)
Hibajavítások
- C++, C#, Java, JavaScript, Objective-C és Swift: Javítás a 10 másodperces késleltetés eltávolításához, miközben leállítja a PushAudioInputStreamet használó beszédfelismerőt. Ez arra az esetre vonatkozik, ha a StopContinuousRecognition meghívása után nem küld be új hangot ( GitHub-problémák: 1318, 331)
- Unity androidos és UWP rendszeren: A Unity metafájljait kijavítottuk az UWP, az Android Arm64 és az Android Windows Alrendszer (WSA) Arm64 esetében (GitHub 1360-as probléma)
- iOS: A Speech SDK-alkalmazás összeállítása bármely iOS-eszközön a CocoaPods használatakor már javítva van (GitHub 1320-ra vonatkozó probléma)
- iOS: Ha a SpeechSynthesizer úgy van konfigurálva, hogy közvetlenül a hangszórónak adja ki a hangot, a lejátszás ritka körülmények között az elején leállt. Ezt kijavítottuk.
- JavaScript: Használjon szkriptprocesszor-tartalékot a mikrofon bemenetéhez, ha nem található hangfájl (GitHub 455-ös probléma)
- JavaScript: Protokoll hozzáadása az ügynökhöz a Sentry-integrációval észlelt hibák elhárításához (GitHub 465-ös probléma)
Minták GitHub
- C++, C#, Python és Java minták, amelyek bemutatják, hogyan kaphat részletes felismerési eredményeket. A részletek közé tartoznak az alternatív felismerési eredmények, a megbízhatósági pontszám, a lexikális űrlap, a normalizált űrlap, a maszkolt normalizált űrlap, az egyes szavak szintű időzítéssel.
- Az AVFoundation használatával külső hangforrásként hozzáadott iOS-minta.
- Java-minta hozzáadva, amely bemutatja, hogyan szerezheti be az SRT (SubRip Text) formátumot a WordBoundary esemény használatával.
- Android-minták a kiejtési értékeléshez.
- C++, C# az új diagnosztikai naplózási osztályok használatát mutatja.
Speech SDK 1.19.0: 2021-nov kiadás
Legfontosabb tudnivalók
A Speaker Recognition szolgáltatás jelenleg általánosan elérhető (GA). A Speech SDK API-k c++, C#, Java és JavaScript nyelven érhetők el. A Speaker Recognition segítségével pontosan ellenőrizheti és azonosíthatja a beszélőket egyedi hangtulajdonságuk alapján. A témakörről további információt a dokumentációban talál.
Megszüntettük az Ubuntu 16.04 támogatását az Azure DevOps és a GitHub használatával együtt. Az Ubuntu 16.04 2021 áprilisában érte el az élet végét. Migrálja az Ubuntu 16.04-munkafolyamatokat az Ubuntu 18.04-be vagy újabb verzióba.
Az OpenSSL-csatolás Linux bináris fájlokban dinamikusra változott. A Linux bináris mérete körülbelül 50%csökkent.
Mac M1 ARM-alapú processzor támogatás hozzáadva.
Új funkciók
C++/C#/Java: Új API-k hozzáadva a beszédbemenet hangfeldolgozási támogatásának engedélyezéséhez a Microsoft Audio Stack használatával. Dokumentáció itt.
C++: Új API-k a szándékfelismeréshez a fejlettebb mintaegyezés megkönnyítése érdekében. Ez magában foglalja a lista- és előre összeállított egész szám entitásokat, valamint a szándékok és entitások modellként való csoportosításának támogatását (a dokumentáció, a frissítések és a minták fejlesztés alatt állnak, és a közeljövőben közzé lesznek téve).
Mac: Az Arm64 (M1) alapú szilícium támogatása a GitHub 1244-hez kapcsolódó CocoaPod-, Python-, Java- és NuGet-csomagjaihoz.
iOS/Mac: Az iOS és a macOS bináris fájlok mostantól xcframework-be vannak csomagolva a GitHub 919-hez kapcsolódó problémájával kapcsolatban.
iOS/Mac: A GitHub issue 1171-hez kapcsolódó Mac Catalyst támogatása.
Linux: Új tar csomag hozzáadva a CentOS7-hez a Speech SDK-ról. A Linux .tar csomag már tartalmaz bizonyos kódtárakat az RHEL/CentOS 7
lib/centos7-x64
rendszerben. A lib/x64-ben található Speech SDK-kódtárak továbbra is érvényesek az összes többi támogatott Linux x64-disztribúcióra (beleértve az RHEL/CentOS 8-at is), és nem működnek az RHEL/CentOS 7-en.JavaScript: A VoiceProfile & SpeakerRecognizer API-k aszinkronizált/await-kompatibilissé lettek téve.
JavaScript: Az USA kormányzati Azure-régióinak támogatása.
Windows: Az univerzális Windows platformon (UWP) való lejátszás támogatása.
Hibajavítások
Android: OpenSSL biztonsági frissítés (1.1.1l-es verzióra frissítve) Android-csomagokhoz.
Python: Megoldottuk azt a hibát, amely miatt a beszélőeszköz kiválasztása a Pythonon sikertelen volt.
Alapvető: Automatikus újracsatlakozás, ha egy kapcsolati kísérlet meghiúsul.
iOS: A hangtömörítés le van tiltva az iOS-csomagokban a GStreamer használatakor az instabilitás és a bitkód buildelési problémái miatt. A részletek a GitHub 1209-ik számán keresztül érhetők el.
Minták GitHub
Mac/iOS: Frissített minták és rövid útmutatók az xcframework csomag használatához.
.NET: A .NET Core 3.1-es verziójára frissített minták.
JavaScript: Hozzáadott minta a Voice Assistantshez.
Speech SDK 1.18.0: 2021– júliusi kiadás
Megjegyzés: Itt ismerkedhet meg a Speech SDK-val.
Kiemelések összegzése
- Az Ubuntu 16.04 2021 áprilisában véget ért. Az Azure DevOps és a GitHub segítségével 2021 szeptemberében megszüntetjük a 16.04-es támogatást. Migrálja az ubuntu-16.04-munkafolyamatokat az ubuntu-18.04 vagy újabb verzióba.
Új funkciók
- C++: Az szándékfelismerővel egyező egyszerű nyelvi minta megkönnyíti az egyszerű szándékfelismerési forgatókönyvek implementálását.
-
C++/C#/Java: Új API-t adtunk hozzá az
GetActivationPhrasesAsync()
osztályhoz,VoiceProfileClient
amely az érvényes aktiválási kifejezések listáját kapja a Speaker Recognition regisztrációs fázisában a független felismerési forgatókönyvek esetében.- Fontos: A Speaker Recognition funkció előzetes verzióban érhető el. Az előzetes verzióban létrehozott hangprofilok 90 nappal azután megszűnnek, hogy a Speaker Recognition funkció ki van helyezve az előzetes verzióból az általános rendelkezésre állásba. Ekkor az előzetes verziójú hangprofilok működése leáll.
-
Python: Támogatás került a meglévő és
SpeechRecognizer
objektumokhoz, aTranslationRecognizer
érdekében. -
Python: Hozzáadott egy új Python-objektumot , amely
SourceLanguageRecognizer
egyszeri vagy folyamatos LID-műveletet tesz lehetővé (felismerés vagy fordítás nélkül). -
JavaScript:
getActivationPhrasesAsync
API hozzáadva aVoiceProfileClient
osztályhoz, hogy megkapja az érvényes aktiválási kifejezések listáját a Speaker Recognition beiratkozási fázisában a független felismerési forgatókönyvek esetére. - A JavaScript
VoiceProfileClient
API mostantól támogatja az aszinkron várakozást. Tekintse meg ezt a független azonosító kódot, például a használatot.
Fejlesztések
- Java: Számos Java-objektumhoz hozzáadták az AutoCloseable támogatást. Most az erőforrásokkal való kipróbálási modell támogatott az erőforrások felszabadításához. Tekintse meg ezt a példát, amely próbálkozási erőforrásokat használ. Az Oracle Java dokumentációs oktatóanyagban található try-with-resources utasítás című részt is tekintse meg, hogy megismerje ezt a mintát.
-
A lemez lábnyoma számos platform és architektúra esetében jelentősen csökkent. Példák a
Microsoft.CognitiveServices.Speech.core
bináris: x64 Linux 475 KB kisebb (8,0% csökkentés); Arm64 Windows UWP 464 KB kisebb (11,5% csökkentés); x86 Windows 343 KB kisebb (17,5% csökkentés); és x64 Windows 451 KB kisebb (19,4% csökkentés).
Hibajavítások
- Java: Kijavítottuk a szintézishibát, ha a szintézisszöveg helyettesítő karaktereket tartalmaz. Részletek itt.
-
JavaScript: A böngésző mikrofonjának hangfeldolgozása mostantól
AudioWorkletNode
-t használ az elavultScriptProcessorNode
helyett. Részletek itt. - JavaScript: A beszélgetések megfelelő életben tartása a hosszú ideig futó beszélgetésfordítási forgatókönyvek során. Részletek itt.
- JavaScript: Kijavítottuk azt a hibát, amely miatt a felismerő a folyamatos felismerés során újracsatlakozott egy médiastreamhez. Részletek itt.
- JavaScript: Kijavítottuk azt a hibát, amely miatt a felismerő újracsatlakozott egy pushStreamhez a folyamatos felismerés során. Részletek itt.
- JavaScript: Javított szószintű eltolás számítása a részletes felismerési eredményekben. Részletek itt.
Minták
- Az itt frissített Java-gyorsútmutató-minták.
- JavaScript Speaker Recognition-minták frissítve az új használat
enrollProfileAsync()
megjelenítéséhez. Tekintse meg a mintákat itt.
Speech SDK 1.17.0: 2021. májusi kiadás
Kiemelések összegzése
- Kisebb lábnyom – továbbra is csökkentjük a Speech SDK és összetevői memória- és lemezigényét.
- Az új önálló Language Identification API lehetővé teszi, hogy felismerje a beszélt nyelvet.
- Beszédbarát vegyes valóság és játékalkalmazások fejlesztése a Unity használatával macOS rendszeren.
- Mostantól a Go programozási nyelvben a beszédfelismerés mellett használhatja a szövegfelolvasást is.
- A GitHubon számos hibajavítás van megjelölve az Ön, értékes ügyfeleink által tapasztalt problémák megoldásához! KÖSZÖNÖM! Folyamatosan érkeznek a visszajelzések!
Új funkciók
-
C++/C#: Új önálló At-Start és folyamatos nyelvfelismerés az
SourceLanguageRecognizer
API-n keresztül. Ha csak a hangtartalmakban beszélt nyelv(ek)et szeretné észlelni, ezt az API-t kell elvégeznie. További információ a C++ és a C# nyelvről. - C++/C#: A beszédfelismerés és a fordításfelismerés mostantól támogatja az indításkor és a folyamatos nyelvi azonosítást is, így programozott módon meghatározhatja, hogy mely nyelv(ek)et beszélik az átírás vagy fordítás előtt. A Speech Recognition és a Speech Translation dokumentációját itt találja.
- C#: A Unity támogatása hozzáadva a macOS -hez (x64). Ez feloldja a beszédfelismerést és a beszédszintézis használatát a vegyes valóságban és a játékban!
- Go: Támogatást adtunk a beszédszintézis szöveg-beszéd átalakításhoz a Go programozási nyelvhez, hogy a beszédszintézis még több felhasználási esetben elérhető legyen. Tekintse meg rövid útmutatónkat vagy referenciadokumentációnkat.
-
C++/C#/Java/Python/Objective-C/Go: A beszédszintetizátor mostantól támogatja az
connection
objektumot. Ez segít a Speech szolgáltatással való kapcsolat kezelésében és monitorozásában, és különösen hasznos, ha előre csatlakozik a késés csökkentése érdekében. A dokumentációt itt találja. -
C++/C#/Java/Python/Objective-C/Go: Mostantól közzé tesszük a késést és az aláfutási időt, hogy segítsünk a beszédszintézis késésével kapcsolatos problémák monitorozásában
SpeechSynthesisResult
és diagnosztizálásában. A C++, a C#, a Java, a Python, az Objective-C és a Go részleteinek megtekintése. - C++/C#/Java/Python/Objective-C: A beszédhez használt szöveg alapértelmezés szerint neurális hangokat használ , ha nem ad meg használandó hangot. Ez alapértelmezés szerint magasabb hűségkimenetet biztosít, de az alapértelmezett árat is növeli.
- C++/C#/Java/Python/Objective-C/Go: Hozzáadtunk egy Gender tulajdonságot a szintézis hanginformációihoz, hogy megkönnyítsük a nemek szerinti hangok kiválasztását. Ez a GitHub 1055-ös problémájával foglalkozik.
-
C++, C#, Java, JavaScript: Mostantól támogatjuk
retrieveEnrollmentResultAsync
,getAuthorizationPhrasesAsync
ésgetAllProfilesAsync()
a Speaker Recognitionben is, hogy megkönnyítsük egy adott fiók összes hangprofiljának felhasználói felügyeletét. A C++, C#, Java, JavaScript dokumentációját lásd. Ez a GitHub 338. problémájával foglalkozik. - JavaScript: Hozzáadtuk az újrapróbálkozási lehetőséget a csatlakozási hibák kezelésére, amely robusztusabbá teszi a JavaScript-alapú beszédalkalmazásokat.
Fejlesztések
- Linux és Android Speech SDK bináris fájlokat frissítettünk az OpenSSL legújabb verziójának használatára (1.1.1k)
- Kódméret-fejlesztések:
- A Language Understanding mostantól különálló "lu" könyvtárra oszlik.
- A Windows x64 bináris mag mérete 14,4%csökkent.
- Az Android Arm64 alap bináris mérete 13,7%-mal csökkent.
- más összetevők mérete is csökkent.
Hibajavítások
- Minden: Kijavítottuk a GitHub #842-es hibát a ServiceTimeouttal kapcsolatban. Mostantól átírhatja a hosszú hangfájlokat a Speech SDK használatával anélkül, hogy a szolgáltatáshoz való csatlakozás megszakadna ezzel a hibával. Azonban továbbra is azt javasoljuk, hogy használjon kötegelt átírást a hosszú fájlokhoz.
- C#: Kijavítottuk a GitHub #947-et, amely miatt a beszédbemenet nem tudta rossz állapotban hagyni az alkalmazást.
- Java: Kijavítottuk a GitHub #997-et, amely miatt a Java 1.16 Speech SDK összeomlik, amikor a DialogServiceConnectort hálózati kapcsolat vagy érvénytelen előfizetési kulcs nélkül használja.
- Kijavítottunk egy összeomlást, amikor hirtelen leállt a beszédfelismerés (például a CTRL+C használata a konzolalkalmazásban).
- Java: Kijavítottunk egy javítást az ideiglenes fájlok windowsos törléséhez a Java Speech SDK használatakor.
-
Java: Kijavítottuk a GitHub #994-et, amely miatt a hívás
DialogServiceConnector.stopListeningAsync
hibát okozhat. - Java: Kijavítottunk egy ügyfélproblémát a virtuális asszisztens rövid útmutatójában.
-
JavaScript: Kijavítottuk a GitHub #366-os hibáját , amely
ConversationTranslator
"ez.cancelSpeech nem függvény" hibaüzenetet jelzett. - JavaScript: Kijavítottuk a GitHub 298-as hibáját, amely miatt a "Get result as an in-memory stream" ('Eredmény lekérése memórián belüli streamként') minta hangosan lejátszódott.
-
JavaScript: Kijavítottuk a GitHub #350-es problémát, amelynél a
AudioConfig
hívása esetén 'ReferenceError: MediaStream nincs definiálva' hiba léphetett fel. - JavaScript: Kijavítottunk egy nem kezelt ígéretelutasítási figyelmeztetést Node.js a hosszú ideig futó munkamenetekhez.
Minták
- Frissítettük a Unity-minták dokumentációját a macOS-hez.
- Az Azure AI Speech recognition szolgáltatáshoz készült React Natív minta már elérhető itt.
Speech SDK 1.16.0: 2021. márciusi kiadás
Megjegyzés:
A Windows Speech SDK a Visual Studio 2015, 2017 és 2019 megosztott Microsoft Visual C++ terjeszthető szolgáltatásától függ.
Új funkciók
- C++/C#/Java/Python: Átkerült a GStreamer legújabb verziójára (1.18.3), hogy támogatást nyújtsunk bármilyen médiaformátum windowsos, linuxos és androidos átviteléhez. A dokumentációt itt találja.
-
C++/C#/Java/Objective-C/Python: A tömörített TTS/szintetizált hang SDK-ra való dekódolásának támogatása. Ha a kimeneti hangformátumot PCM-re állítja be, és a GStreamer elérhető a rendszeren, az SDK automatikusan tömörített hangot kér a szolgáltatástól a sávszélesség megtakarítása és a hang dekódolása érdekében az ügyfélen. Beállíthatja a
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
értékétfalse
-re, hogy letiltsa ezt a funkciót. A C++, C#, Java, Objective-C, Python részletei. -
JavaScript: Node.js felhasználók most már használhatják az API-t
AudioConfig.fromWavFileInput
. Ez a GitHub 252. problémájával foglalkozik. -
C++/C#/Java/Objective-C/Python: A TTS-hez hozzáadott
GetVoicesAsync()
módszer az összes elérhető szintézishang visszaadásához. A C++, a C#, a Java, az Objective-C és a Python részletei. -
C++/C#/Java/JavaScript/Objective-C/Python: TTS-/beszédszintézishez hozzáadott
VisemeReceived
esemény a szinkron viseme animáció visszaadásához. A dokumentációt itt találja. -
C++/C#/Java/JavaScript/Objective-C/Python: TTS-hez hozzáadott
BookmarkReached
esemény. Beállíthatja a könyvjelzőket a bemeneti SSML-ben, és lekérheti az egyes könyvjelzők hangeltolásait. A dokumentációt itt találja. - Java: Hozzáadva a Speaker Recognition API-k támogatása. Részletek itt.
- C++/C#/Java/JavaScript/Objective-C/Python: Két új kimeneti hangformátumot adott hozzá a TTS WebM-tárolójával (Webm16Khz16BitMonoOpus és Webm24Khz16BitMonoOpus). Ezek jobb formátumok az Opus-kodek hangjának streameléséhez. A C++, C#, Java, JavaScript, Objective-C, Python részletei.
- C++/C#/Java: A hangszóró-felismerési forgatókönyv hangprofiljának lekéréséhez hozzáadott támogatás. A C++, a C# és a Java részletei.
- C++/C#/Java/Objective-C/Python: A hangmikrofon és a hangszóró vezérléséhez külön megosztott kódtár is támogatott. Ez lehetővé teszi a fejlesztő számára, hogy az SDK-t olyan környezetekben használja, amelyek nem rendelkeznek szükséges hangtár-függőségekkel.
- Objective-C/Swift: Az esernyőfejlécet tartalmazó modul-keretrendszer támogatása. Ez lehetővé teszi, hogy a fejlesztő modulként importálja a Speech SDK-t az iOS/Mac Objective-C/Swift alkalmazásokban. Ez a GitHub 452. problémáját kezeli.
- Python: Hozzáadták a Python 3.9 támogatását, és megszüntették a Python 3.5 támogatását, tekintettel a 3.5-ös verzió élettartamának végére.
Ismert problémák
-
C++/C#/Java:
DialogServiceConnector
nem tud hozzáférni egy egyéni parancsokat tartalmazó alkalmazáshoz, és ehelyett csatlakozási hibát fog tapasztalni. Ezt úgy lehet megkerülni, hogy manuálisan hozzáadja az alkalmazásazonosítót a kéréshez a következővelconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
: . ACustomCommandsConfig
várt viselkedése a következő kiadásban vissza lesz állítva.
Fejlesztések
- A Speech SDK memóriahasználatának és lemezigényének csökkentésére irányuló több kiadású erőfeszítésünk részeként az Android bináris fájlok mostantól 3%-tól 5%-ig kisebbre lettek.
- A C# referenciadokumentáció pontosságának, olvashatóságának javítása és lásd még részek itt.
Hibajavítások
- JavaScript: A nagyméretű WAV-fájlfejlécek most már megfelelően vannak elemezve (a fejlécszeletet 512 bájtra növeli). Ez a GitHub #962-es probléma megoldásáról szól.
- JavaScript: Kijavítottuk a mikrofon időzítési problémáját, ha a mikrofon streamje a felismerés leállítása előtt véget ér, és elhárítottunk egy hibát, amely miatt a Firefoxban nem működik a Beszédfelismerés.
- JavaScript: Most már megfelelően kezeljük az inicializálási ígéretet, amikor a böngésző kényszeríti a mikrofon kikapcsolását, mielőtt a TurnOn befejeződik.
- JavaScript: Az URL-függőséget URL-elemzésre cseréltük. Ez a GitHub 264. problémájával foglalkozik.
-
Android: Kijavítottuk, hogy a visszahívások nem működnek, ha
minifyEnabled
igaz értékre van állítva. -
C++/C#/Java/Objective-C/Python:
TCP_NODELAY
megfelelően lesz beállítva a TTS mögöttes socket IO-jához a késés csökkentése érdekében. - C++/C#/Java/Python/Objective-C/Go: Kijavítottunk egy alkalmi összeomlást, amikor a felismerőt a felismerés elindítása után megsemmisítették.
- C++/C#/Java: Kijavítottunk egy eseti összeomlást a beszélőfelismerő megsemmisítése során.
Minták
- JavaScript: A böngészőmintákhoz már nincs szükség külön JavaScript-kódtárfájl letöltésére.
Speech SDK 1.15.0: 2021–januári kiadás
Megjegyzés:
A Windows Speech SDK a Visual Studio 2015, 2017 és 2019 megosztott Microsoft Visual C++ terjeszthető szolgáltatásától függ.
Kiemelések összegzése
- Kisebb memória- és lemezigény, ami hatékonyabbá teszi az SDK-t.
- Magasabb hűségkimeneti formátumok érhetők el az egyéni neurális hang privát előzetes verziójához.
- A Szándékfelismerő mostantól többet tud visszaadni, mint a legfelső szándék, így külön értékelést készíthet az ügyfél szándékáról.
- A hangsegédek és a robotok mostantól egyszerűbben beállíthatók, így azonnal leállíthatja a figyeléseket, és nagyobb mértékben szabályozhatja, hogyan reagál a hibákra.
- Az eszköz teljesítményének javítása a tömörítés opcionálissá tételével.
- Használja a Speech SDK-t Windows ARM/Arm64 rendszeren.
- Továbbfejlesztett, alacsony szintű hibakeresés.
- A kiejtésértékelési funkció most már szélesebb körben érhető el.
- A GitHubon számos hibajavítás van megjelölve az Ön, értékes ügyfeleink által tapasztalt problémák megoldásához! KÖSZÖNÖM! Folyamatosan érkeznek a visszajelzések!
Fejlesztések
- A Speech SDK mostantól hatékonyabb és egyszerűbb. Több kiadást is elindítottunk a Speech SDK memóriahasználatának és lemezigényének csökkentése érdekében. Első lépésként jelentős fájlméret-csökkentést hajtottunk végre a megosztott kódtárakban a legtöbb platformon. Az 1.14-es kiadáshoz képest:
- A 64 bites UWP-kompatibilis Windows-kódtárak körülbelül 30% kisebbek.
- A 32 bites Windows-kódtárak mérete még nem javul.
- A Linux-kódtárak 20-25% kisebbek.
- Az Android-kódtárak 3-5% kisebbek.
Új funkciók
- Minden: Új 48 KHz-es kimeneti formátumok érhetők el az egyéni neurális hang privát előzetes verziójához a TTS beszédszintézis API-n keresztül: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
-
Minden: Az egyéni hang használata is egyszerűbb. Új támogatás az egyéni hang
EndpointId
beállításához (C++, C#, Java, JavaScript, Objective-C, Python). A módosítás előtt az egyéni hangfelhasználóknak be kellett állítaniuk a végpont URL-címét aFromEndpoint
módszerrel. Az ügyfelek most ugyanúgy használhatják aFromSubscription
módszert, mint a standard hangokat, majd aEndpointId
beállításával megadhatják az üzembehelyezési azonosítót. Ez leegyszerűsíti az egyéni hangok beállítását. -
C++/C#/Java/Objective-C/Python: Több mint a legfelső szándék.
IntentRecognizer
Mostantól támogatja az összes szándékot tartalmazó JSON-eredmény konfigurálását az uri paraméterLanguageUnderstandingModel FromEndpoint
használatával averbose=true
metóduson keresztül, nemcsak a legmagasabb pontszámú szándékot. Ez a GitHub 880- os problémájával foglalkozik. A frissített dokumentációt itt találja. -
C++/C#/Java: Érje el, hogy a hangsegéd vagy bot azonnal leállítsa a hallgatást.
DialogServiceConnector
(C++, C#, Java) most már van egyStopListeningAsync()
módszer, amelyListenOnceAsync()
-t kísér. Ez azonnal leállítja a hangrögzítést, és kecsesen várja meg az eredményt, így tökéletes a "stop now" gombnyomásos forgatókönyvekhez. -
C++/C#/Java/JavaScript: Hangsegédje vagy robotja jobban reagálhat a mögöttes rendszerhibákra.
DialogServiceConnector
(C++, C#, Java, JavaScript) mostantól újTurnStatusReceived
eseménykezelővel rendelkezik. Ezek az opcionális események megfelelnek a Bot mindenITurnContext
felbontásának, és jelentik a végrehajtási hibákat, amelyek például nem kezelt kivétel, időtúllépés, vagy hálózati visszaesés következtében merülnek fel a Direct Line Speech és a bot között.TurnStatusReceived
megkönnyíti a hibákra való reagálást. Ha például egy robot túl sokáig tart egy háttéradatbázis-lekérdezésen (például egy termék keresésekor),TurnStatusReceived
lehetővé teszi az ügyfél számára, hogy tudja, hogy "sajnáljuk, nem egészen értem, kipróbálhatja újra" vagy valami hasonlót. - C++/C#: A Speech SDK használata több platformon. A Speech SDK NuGet csomag mostantól támogatja a Windows ARM/Arm64 asztali natív bináris fájljait (az UWP már támogatott), hogy a Speech SDK több géptípus esetében is hasznosabb legyen.
-
Java:
DialogServiceConnector
most már rendelkezik egysetSpeechActivityTemplate()
olyan metódussal, amelyet korábban véletlenül kizártak a nyelvből. Ez egyenértékű aConversation_Speech_Activity_Template
tulajdonság beállításával, és kérni fogja, hogy a Direct Line Speech szolgáltatásból származó minden jövőbeli Bot Framework-tevékenység egyesítse a megadott tartalmat a JSON hasznos adataikkal. -
Java: Továbbfejlesztett, alacsony szintű hibakeresés. Az
Connection
osztálynak már van egyMessageReceived
eseménye, amely hasonló a többi programozási nyelvhez (C++, C#). Ez az esemény alacsony szintű hozzáférést biztosít a szolgáltatásból érkező bejövő adatokhoz, és diagnosztikához és hibakereséshez hasznos lehet. -
JavaScript: Egyszerűbb beállítás a hangalapú asszisztensek és robotok számára a
BotFrameworkConfig
segítségével, amelyek mostantólfromHost()
ésfromEndpoint()
gyári módszerekkel rendelkeznek, amelyek egyszerűsítik az egyéni szolgáltatáshelyek használatát, szemben a tulajdonságok manuális beállításával. Szabványosítottuk a választható specifikációbotId
, hogy nem alapértelmezett botot használjunk a konfigurációs gyárak között. - JavaScript: A websocket-tömörítéshez hozzáadott sztringvezérlő tulajdonság révén javult az eszköz teljesítménye. Teljesítménybeli okokból alapértelmezés szerint letiltottuk a websocket-tömörítést. Ez kis sávszélességű forgatókönyvek esetén újra engedélyezhető. További részletek itt. Ez a GitHub 242. problémáját kezeli.
- JavaScript: Az lPronunciation Assessment támogatása a beszédpronunciáció kiértékelésének engedélyezéséhez. A rövid útmutatót itt tekintheti meg.
Hibajavítások
- Minden (a JavaScript kivételével): Kijavítottunk egy regressziót az 1.14-es verzióban, amelyben túl sok memóriát foglalt le a felismerő.
-
C++: Kijavítottunk egy szemétgyűjtési
DialogServiceConnector
problémát a GitHub 794-et érintő problémájával kapcsolatban. - C#: Kijavítottunk egy hibát a szálleállítással kapcsolatban, amely miatt az objektumok körülbelül egy másodpercre blokkolódtak felszabadításkor.
-
C++/C#/Java: Kijavítottunk egy kivételt, amely megakadályozta, hogy egy alkalmazás többször is beállítsa a beszédengedélyezési jogkivonatot vagy tevékenységsablont egy
DialogServiceConnector
. - C++/C#/Java: Kijavítottunk egy versenyhelyzetből adódó összeomlást a felismerő leállítási folyamat során.
-
JavaScript:
DialogServiceConnector
korábban nem vette figyelembe abotId
gyárakban megadott opcionálisBotFrameworkConfig
paramétert. Ez szükségessé tette a lekérdezési sztringbotId
paraméter manuális beállítását egy nem alapértelmezett robot használatához. A hibát kijavítottuk, ésbotId
a gyáraknakBotFrameworkConfig
megadott értékeket tiszteletben tartjuk és felhasználjuk, beleértve az újakatfromHost()
ésfromEndpoint()
a kiegészítéseket is.applicationId
Ez aCustomCommandsConfig
paraméterre is vonatkozik. - JavaScript: Kijavítottuk a GitHub #881-et, amely lehetővé teszi a felismerő objektum újrahasználatát.
-
JavaScript: Kijavítottunk egy hibát, amely miatt az SKD többször is küldött
speech.config
egy TTS-munkamenetben, és a sávszélességet is felhasználta. - JavaScript: Egyszerűsített hibakezelés a mikrofon engedélyezésével, amely lehetővé teszi a leíróbb üzenetek felbuborzását, ha a felhasználó nem engedélyezte a mikrofon bemenetét a böngészőben.
-
JavaScript: Kijavítottuk a GitHub 249-es hibáját , amely során típushibák lépnek fel
ConversationTranslator
, ésConversationTranscriber
fordítási hibát okoztak a TypeScript-felhasználók számára. - Objective-C: Kijavítottunk egy hibát, amely miatt a GStreamer buildelése nem sikerült az iOS-hez az Xcode 11.4-en, és a GitHub 911-et érintő problémáját oldotta meg.
- Python: Kijavítottuk a GitHub #870 számú probléma, és eltávolítottuk a "DeprecationWarning: az imp modul elavultnak tekintendő az importlib modul javára".
Minták
- A JavaScript böngésző fájlmintája mostantól fájlokat használ a beszédfelismeréshez. Ez a GitHub 884- ik számának problémájával foglalkozik.
Speech SDK 1.14.0: 2020. októberi kiadás
Megjegyzés:
A Windows Speech SDK a Visual Studio 2015, 2017 és 2019 megosztott Microsoft Visual C++ terjeszthető szolgáltatásától függ.
Új funkciók
- Linux: A Debian 10 és az Ubuntu 20.04 LTS támogatása hozzáadva.
-
Python/Objective-C: Támogatás hozzáadva az
KeywordRecognizer
API-hoz. A dokumentáció itt lesz. -
C++/Java/C#: Támogatást adtunk ahhoz, hogy bármely kulcsot/értéket be lehessen állítani
HttpHeader
segítségévelServicePropertyChannel::HttpHeader
. -
JavaScript: Támogatás hozzáadva a
ConversationTranscriber
API-hoz. A dokumentációt itt olvashatja el. -
C++/C#: Új
AudioDataStream FromWavFileInput
metódust adott hozzá (az olvasáshoz. WAV-fájlok) itt (C++) és itt (C#). -
C++/C#/Java/Python/Objective-C/Swift: Hozzáadott egy
stopSpeakingAsync()
módszert a szöveg beszédszintézishez való leállításához. A referenciadokumentációt itt (C++), itt (C#), itt (Java), itt (Python) és itt (Objective-C/Swift) találja. -
C#, C++, Java: Hozzáadtunk egy függvényt
FromDialogServiceConnector()
azConnection
osztályhoz, amely a kapcsolat és a kapcsolat bontásiDialogServiceConnector
eseményeinek figyelésére használható. A referenciadokumentációt itt (C#),itt (C++) és itt (Java) találja. - C++/C#/Java/Python/Objective-C/Swift: A kiejtési értékelés támogatása, amely kiértékeli a beszéd kiejtését, és visszajelzést ad a beszélőknek a beszélt hang pontosságáról és folyékonyságáról. A dokumentációt itt olvashatja el.
Kompatibilitást megszakító változás
- JavaScript: A PullAudioOutputStream.read() visszatérési típusa belső ígéretről natív JavaScript-ígéretre változik.
Hibajavítások
-
Minden: Rögzített 1,13 regresszió
SetServiceProperty
, ahol bizonyos speciális karaktereket tartalmazó értékeket figyelmen kívül hagytak. - C#: Kijavítottuk a Windows-konzolmintákat a Visual Studio 2019-ben, és nem sikerült natív DLL-eket találni.
-
C#: Kijavítottuk a memóriakezelés miatti összeomlást, ha a stream bemenetként van használva
KeywordRecognizer
. - ObjectiveC/Swift: Kijavítottuk a memóriakezelés összeomlását, ha a streamet felismerő bemenetként használják.
- Windows: Javítottuk egy, a BT HFP/A2DP és az UWP közötti együttműködési problémát.
- JavaScript: A munkamenet-azonosítók rögzített leképezése a naplózás és a belső hibakeresési/szolgáltatás-korrelációk javítására.
-
JavaScript: Javítás hozzáadva a
DialogServiceConnector
hívások letiltásáhozListenOnce
az első hívás után. - JavaScript: Kijavítottuk azt a hibát, amely miatt az eredménykimenet mindig "egyszerű" volt.
- JavaScript: Kijavítottuk a folyamatos felismerési problémát a Safariban macOS rendszeren.
- JavaScript: A processzorterhelés csökkentése a nagy kérések átviteli sebességének forgatókönyvéhez.
- JavaScript: Hozzáférés engedélyezése a hangprofil-regisztráció eredményének részleteihez.
-
JavaScript: Javítás hozzáadva a folyamatos felismeréshez a következőben
IntentRecognizer
: . -
C++/C#/Java/Python/Swift/ObjectiveC: Az australiaeast és a brazilsouth helytelen URL-címét javítottuk a következőben
IntentRecognizer
: . -
C++/C#: Argumentumként hozzáadva
VoiceProfileType
objektumVoiceProfile
létrehozásakor. -
C++/C#/Java/Python/Swift/ObjectiveC: Kijavítottuk a lehetőséget
SPX_INVALID_ARG
, amikor egy adott pozícióból próbálunk olvasniAudioDataStream
. - IOS: Kijavítottuk az összeomlást a Unity beszédfelismerésével
Minták
- ObjectiveC: Itt hozzáadott minta a kulcsszófelismeréshez.
- C#/JavaScript: Rövid útmutatót adott hozzá a beszélgetés átírásához itt (C#) és itt (JavaScript).
- C++/C#/Java/Python/Swift/ObjectiveC: Itt hozzáadott minta a kiejtési értékeléshez
Ismert probléma
- A DigiCert Global Root G2-tanúsítvány alapértelmezés szerint nem támogatott a HoloLens 2-ben és az Android 4.4-ben (KitKat), és hozzá kell adni a rendszerhez a Speech SDK működéséhez. A tanúsítvány a közeljövőben bekerül a HoloLens 2 operációsrendszer-rendszerképekbe. Az Android 4.4-ügyfeleknek hozzá kell adniuk a frissített tanúsítványt a rendszerhez.
A COVID-19 rövidített tesztelése
Mivel az elmúlt hetekben távolról dolgoztunk, nem tudtunk annyi manuális ellenőrzést végezni, mint általában. Nem végeztünk olyan módosítást, amely szerintünk bármit is tönkretett volna, és az automatizált tesztjeink mind átmentek. Abban a valószínűtlen esetben, ha elmulasztottunk valamit, kérjük, tudassa velünk a GitHubon.
Maradjon egészséges!
Speech SDK 1.13.0: 2020. júliusi kiadás
Megjegyzés:
A Windows Speech SDK a Visual Studio 2015, 2017 és 2019 megosztott Microsoft Visual C++ terjeszthető szolgáltatásától függ.
Új funkciók
- C#: Az aszinkron beszélgetés átírásának támogatása hozzáadva. A dokumentációt itt találja.
- JavaScript: A Speaker Recognition támogatást kapott mind a böngésző, mind Node.js esetében.
- JavaScript: A nyelvazonosítás/nyelvazonosító támogatása hozzáadva. A dokumentációt itt találja.
- Objective-C: A többeszközes beszélgetés és a beszélgetés átírásának támogatása.
- Python: Tömörített hangtámogatást adtunk hozzá a Pythonhoz Windowson és Linuxon. A dokumentációt itt találja.
Hibajavítások
- Minden: Kijavítottunk egy hibát, amely miatt a KeywordRecognizer nem lépte át a streameket a felismerés után.
- Minden: Kijavítottunk egy hibát, amely miatt a KeywordRecognitionResult szolgáltatásból beszerzett stream nem tartalmazza a kulcsszót.
- Minden: Kijavítottunk egy hibát, amely miatt a SendMessageAsync nem igazán küldte el az üzenetet a vezetéken keresztül, miután a felhasználók befejezték a várakozást.
- Minden: Kijavítottunk egy összeomlást a Speaker Recognition API-kban, amikor a felhasználók többször is felhívták a VoiceProfileClient::SpeakerRecEnrollProfileAsync metódust, és nem vártak a hívások befejezésére.
- Minden: Kijavítva a fájlnaplózás engedélyezése a VoiceProfileClient és a SpeakerRecognizer osztályokban.
- JavaScript: Kijavítottunk egy hibát, amely a böngésző kicsinyítésekor befolyásolta a fojtást.
- JavaScript: Kijavítottunk egy hibát , amely miatt memóriavesztés történt a streameken.
- JavaScript: A NodeJS-ből érkező OCSP-válaszok gyorsítótárazása hozzáadva.
- Java: Kijavítottunk egy hibát, amely miatt a BigInteger mezők mindig 0 értéket adnak vissza.
- iOS: Kijavítottunk egy hibát a Speech SDK-alapú alkalmazások iOS App Store-ban való közzétételével kapcsolatban .
Minták
- C++: Itt hozzáadott mintakódot a Speaker Recognitionhez.
A COVID-19 rövidített tesztelése
Mivel az elmúlt hetekben távolról dolgoztunk, nem tudtunk annyi manuális ellenőrzést végezni, mint általában. Nem végeztünk olyan módosítást, amely szerintünk bármit is tönkretett volna, és az automatizált tesztjeink mind átmentek. Abban a valószínűtlen esetben, ha elmulasztottunk valamit, kérjük, tudassa velünk a GitHubon.
Maradjon egészséges!
Speech SDK 1.12.1: 2020–júniusi kiadás
Új funkciók
- C#, C++: Speaker Recognition Preview: Ez a funkció lehetővé teszi a beszélő azonosítását (ki beszél?) és a beszélő ellenőrzését (az a beszélő, akiről azt állítják, hogy ő?). Tekintse meg az áttekintési dokumentációt.
Hibajavítások
- C#, C++: A rögzített mikrofonfelvétel nem működött az 1.12-ben a Speaker Recognitionben.
- JavaScript: Javítások szövegfelolvasáshoz a Firefoxban és a Safariban macOS és iOS rendszeren.
- Javítás a Windows-alkalmazások ellenőrzője által okozott hozzáférés-megsértés miatti összeomlásra a beszélgetési átírás során, nyolccsatornás stream használatakor.
- Kijavítottuk a Windows alkalmazás-ellenőrző hozzáférés megsértése miatti összeomlást a több eszközös beszélgetés fordítása során.
Minták
- C#: Kódmintája a beszélőfelismeréshez.
- C++: Kódminta beszélőfelismeréshez.
- Java: Kódminta szándékfelismeréshez Androidon.
A COVID-19 rövidített tesztelése
Mivel az elmúlt hetekben távolról dolgoztunk, nem tudtunk annyi manuális ellenőrzést végezni, mint általában. Nem végeztünk olyan módosítást, amely szerintünk bármit is tönkretett volna, és az automatizált tesztjeink mind átmentek. Abban a valószínűtlen esetben, ha elmulasztottunk valamit, kérjük, tudassa velünk a GitHubon.
Maradjon egészséges!
Speech SDK 1.12.0: 2020. májusi kiadás
Új funkciók
- Go: Új Go nyelv támogatása a beszédfelismeréshez és egyéni hangsegédekhez. Itt állíthatja be a fejlesztői környezetet. A mintakódért tekintse meg az alábbi Minták szakaszt.
- JavaScript: A böngésző támogatja a szöveg beszédhez való használatát. A dokumentációt itt találja.
-
C++, C#, Java: Windows, Android, Linux és iOS platformokon támogatott új
KeywordRecognizer
objektumok és API-k. A dokumentációt itt olvashatja el. A mintakódért tekintse meg az alábbi Minták szakaszt. - Java: Többeszközes beszélgetés hozzáadva a fordítási támogatással. A referencia-dokumentumot itt találja.
Fejlesztések és optimalizálás
- JavaScript: Optimalizált böngészőmikrofon implementáció, amely javítja a beszédfelismerés pontosságát.
- Java: A közvetlen JNI-implementációt használó kötések újrabontása SWIG nélkül. Ez a változás 10-szeresére csökkenti a Kötések méretét a Windows, Android, Linux és Mac rendszerhez használt összes Java-csomaghoz, és megkönnyíti a Speech SDK Java implementációjának további fejlesztését.
- Linux: Frissített támogatási dokumentáció az RHEL 7 legújabb konkrét megjegyzéseivel.
- Továbbfejlesztett kapcsolatlogika, amellyel szolgáltatás- és hálózati hibák esetén többször is megkísérelhet csatlakozni.
- Frissítette a portal.azure.com Speech rövid útmutatóját, amely segít a fejlesztőknek az Azure AI Speech folyamatának következő lépésében.
Hibajavítások
- C#, Java: Kijavítottunk egy hibát az SDK-kódtárak Linux ARM-en való betöltésével kapcsolatban (32 bites és 64 bites).
- C#: Kijavítottuk a TranslationRecognizer, az IntentRecognizer és a Connection objektumok natív leíróinak explicit eltávolítását.
- C#: Rögzített hangbemeneti élettartam-kezelés a ConversationTranscriber objektumhoz.
- Kijavítottunk egy hibát, amely
IntentRecognizer
miatt az eredmény oka nem lett megfelelően beállítva az egyszerű kifejezésekből származó szándékok felismerésekor. - Kijavítottunk egy hibát, amely miatt a
SpeechRecognitionEventArgs
eredményeltolás helytelenül volt beállítva. - Kijavítottunk egy versenyhelyzetet, amely miatt az SDK hálózati üzenetet próbált küldeni a websocket-kapcsolat megnyitása előtt.
TranslationRecognizer
reprodukálható volt a résztvevők hozzáadása közben. - Kijavítottuk a memóriaszivárgást a kulcsszó-felismerő motorban.
Minták
- Go: Gyors kezdő lépések a beszédfelismeréshez és a testreszabott hangsegédhez. A mintakódot itt találja.
- JavaScript: Gyorsindítás hozzáadva a szöveg-hangosításhoz, fordításhoz és szándékfelismeréshez.
- Kulcsszófelismerő minták C# és Java (Android) esetén.
A COVID-19 rövidített tesztelése
Mivel az elmúlt hetekben távolról dolgoztunk, nem tudtunk annyi manuális ellenőrzést végezni, mint általában. Nem végeztünk olyan módosítást, amely szerintünk bármit is tönkretett volna, és az automatizált tesztjeink mind átmentek. Ha elmulasztottunk valamit, kérjük, tudassa velünk a GitHubon.
Maradjon egészséges!
Speech SDK 1.11.0: 2020. márciusi kiadás
Új funkciók
- Linux: Támogatott a Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
- Linux: A .NET Core C# támogatása hozzáadva Linux ARM32-n és Arm64-en. További tudnivalók itt.
- C#, C++:
UtteranceId
hozzáadvaConversationTranscriptionResult
azonosítóként, amely minden köztes és végső beszédfelismerési eredményben konzisztensem azonosítóként működik. Részletek a C#, C++-hoz. - Python: Támogatás hozzáadva a
Language ID
-hez. Lásd: speech_sample.py a GitHub-adattárban. - Windows: A windowsos platformon hozzáadott tömörített hangbemeneti formátum minden win32-konzolalkalmazáshoz támogatott. Részletek itt.
- JavaScript: Beszédszintézis támogatása (szövegről beszédre) a NodeJS-ben. További tájékoztatást itt olvashat.
- JavaScript: Új API-k hozzáadása az összes elküldött és fogadott üzenet ellenőrzésének engedélyezéséhez. További tájékoztatást itt olvashat.
Hibajavítások
- C#, C++: Kijavítottunk egy hibát, így a
SendMessageAsync
most már bináris típusban küldi a bináris üzenetet. Részletek a C#, C++-hoz. - C#, C++: Kijavítottunk egy hibát, amely miatt az
Connection MessageReceived
esemény használata összeomlást okozhat, ha aRecognizer
megsemmisül aConnection
objektum előtt. Részletek a C#, C++-hoz. - Android: A mikrofon hangpuffermérete 800 ms-ról 100 ms-ra csökkent a késés javítása érdekében.
- Android: Kijavítottunk egy x86-os Android emulátorsal kapcsolatos hibát az Android Studióban.
- JavaScript: Az API-val bővült a
fromSubscription
kínai régiók támogatása. Részletek itt. - JavaScript: További hibainformációk hozzáadása a NodeJS kapcsolati hibáihoz.
Minták
- Unity: Javítva a szándékfelismerés nyilvános mintája, ahol a LUIS json importálása sikertelen volt. Részletek itt.
- Python: Minta hozzáadva a
Language ID
-hez. Részletek itt.
A Covid19 rövidített tesztelése: Mivel az elmúlt hetekben távolról dolgoztunk, nem tudtunk annyi manuális eszközellenőrzési tesztet végezni, mint általában. Például nem tudtuk tesztelni a mikrofon bemenetét és a hangszóró kimenetét Linux, iOS és macOS rendszeren. Nem végeztünk olyan módosítást, amely szerintünk bármit is tönkretett volna ezeken a platformokon, és az automatizált tesztjeink mind sikeresek. Abban a valószínűtlen esetben, amikor elmulasztottunk valamit, tudassa velünk a GitHubon.
Köszönjük, hogy továbbra is támogatja. Mint mindig, kérjük, tegyen fel kérdéseket vagy visszajelzést a GitHubon vagy a Stack Overflow-on.
Maradjon egészséges!
Speech SDK 1.10.0: 2020– februári kiadás
Új funkciók
- Python-csomagokat adtunk hozzá a Python új 3.8-ás kiadásának támogatásához.
- Red Hat Enterprise Linux (RHEL)/CentOS 8 x64-támogatás (C++, C#, Java, Python).
Megjegyzés:
Az ügyfeleknek ezeknek az utasításoknak megfelelően kell konfigurálnia az OpenSSL-t.
- Linux ARM32-támogatás a Debianhoz és az Ubuntuhoz.
- A DialogServiceConnector mostantól támogatja a BotFrameworkConfig opcionális "robotazonosító" paraméterét. Ez a paraméter több Direct Line Speech-robot használatát teszi lehetővé egyetlen Speech-erőforrással. A megadott paraméter nélkül a rendszer az alapértelmezett robotot használja (a Direct Line Speech-csatorna konfigurációs oldalán meghatározottak szerint).
- A DialogServiceConnector mostantól SpeechActivityTemplate tulajdonsággal rendelkezik. Ennek a JSON-sztringnek a tartalmát a Direct Line Speech a támogatott mezők széles körének előretöltésére fogja használni minden olyan tevékenységben, amely eléri a Direct Line Speech robotot, beleértve a beszédfelismeréshez hasonló eseményekre válaszul automatikusan generált tevékenységeket is.
- A TTS mostantól az előfizetési kulcsot használja a hitelesítéshez, és csökkenti az első szintézis eredményének első bájt késését a szintetizátor létrehozása után.
- Frissített beszédfelismerési modellek 19 nyelvi beállításhoz, átlagosan 18,6%-os szóhibaarány csökkenéssel% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Az új modellek jelentős fejlesztéseket tesznek elérhetővé több tartományban, többek között a Diktálás, Call-Center Átirat és Video Indexelési forgatókönyvekben.
Hibajavítások
- Kijavítottuk azt a hibát, amely miatt a beszélgetés-átíró nem várt megfelelően a JAVA API-kban.
- Hiányzó (Get|Set)Property metódusok hozzáadása az AudioConfig-hez.
- Kijavítottunk egy TTS-hibát, amely miatt az audioDataStream nem állítható le a kapcsolat meghiúsulásakor.
- Ha régió nélküli végpontot használ, az USP-hibákat okozna a beszélgetési fordító számára.
- Az Univerzális Windows-alkalmazások azonosító-generálása mostantól egy megfelelően egyedi GUID algoritmust alkalmaz; korábban akaratlanul egy csonkolt megvalósítást használt alapértelmezésként, amely gyakran eredményezett ütközéseket nagy mennyiségű interakció során.
Minták
- Unity-minta a Speech SDK Unity mikrofon és leküldési módú streaming használatához
Egyéb módosítások
Speech SDK 1.9.0: 2020. januári kiadás
Új funkciók
- Többeszközes beszélgetés: több eszközt csatlakoztathat ugyanahhoz a beszéd- vagy szövegalapú beszélgetéshez, és igény szerint lefordíthatja a közöttük küldött üzeneteket. További információ ebben a cikkben.
- Az Android-csomaghoz
.aar
hozzáadott kulcsszófelismerési támogatás és az x86- és x64-ízek támogatása. - Objective-C:
SendMessage
ésSetMessageProperty
az objektumhozConnection
hozzáadott metódusok. A dokumentációt itt találja. - A TTS C++ api mostantól támogatja
std::wstring
a szintézis szövegbevitelét, így nem kell sztringgé alakítania a wstringet, mielőtt átadaná azt az SDK-nak. Részletek itt. - C#: A nyelvi azonosító és a forrásnyelv konfigurációja már elérhető.
- JavaScript: Hozzáadtunk egy funkciót az
Connection
objektumhoz, amely lehetővé teszi, hogy egyéni üzeneteket a Speech szolgáltatásbólreceivedServiceMessage
visszahívásként küldjünk át. - JavaScript: Támogatás hozzáadva a
FromHost API
helyszíni tárolók és a szuverén felhők egyszerű használatához. A dokumentációt itt találja. - JavaScript: Mostantól tiszteletben tartjuk
NODE_TLS_REJECT_UNAUTHORIZED
orgads közreműködésének köszönhetően. Részletek itt.
kompatibilitástörő változások
-
OpenSSL
az 1.1.1b-es verzióra lett frissítve, és statikusan kapcsolódik a Linux speech SDK magtárához. Ez törést okozhat, ha a beérkezett üzenetek mappájaOpenSSL
nem lett telepítve a/usr/lib/ssl
rendszer címtárába. A probléma megoldásához tekintse meg a Speech SDK dokumentációjában található dokumentációt . - Módosítottuk a C#
WordLevelTimingResult.Offset
által visszaadott adattípustint
típusróllong
típusra, lehetővé téve aWordLevelTimingResults
hozzáférését, amikor a beszédadatok hossza meghaladja a 2 percet. -
PushAudioInputStream
ésPullAudioInputStream
most elküldi a wav fejlécinformációkat a Speech szolgáltatásnak, a létrehozásukkor opcionálisan megadottAudioStreamFormat
alapján. Az ügyfeleknek most már a támogatott hangbemeneti formátumot kell használniuk. Minden más formátum optimálisnál rosszabb felismerési eredményeket kap, vagy más problémákat okozhat.
Hibajavítások
- Tekintse meg a frissítést a
OpenSSL
fenti kompatibilitástörő módosítások alatt. Kijavítottunk egy időszakos összeomlást és egy teljesítményproblémát (magas terhelésű zárolási versengést) Linuxon és Java-ban. - Java: Továbbfejlesztette az objektumok bezárását a magas egyidejűségi forgatókönyvekben.
- Átstrukturáltuk a NuGet-csomagot. Eltávolítottuk a lib mappák három példányát
Microsoft.CognitiveServices.Speech.core.dll
ésMicrosoft.CognitiveServices.Speech.extension.kws.dll
alatta, így a NuGet-csomag kisebb és gyorsabb letöltést tesz lehetővé, és hozzáadtuk a C++ natív alkalmazások fordításához szükséges fejléceket. - Itt javítottuk a gyorsindítási mintákat. Ezek a "mikrofon nem található" kivétel megjelenítése nélkül léptek ki Linux, macOS, Windows rendszeren.
- Kijavítottuk az SDK összeomlását, amely hosszú beszédfelismerési eredményeket eredményez bizonyos kódútvonalakon, például ebben a mintában.
- Kijavítottuk az SDK üzembehelyezési hibáját az Azure Web App-környezetben az ügyfél problémájának megoldása érdekében.
- Kijavítottunk egy TTS-hibát, amikor több
<voice>
címkét vagy<audio>
címkét használt az ügyfél problémájának megoldásához. - Kijavítottunk egy TTS 401-hibát, amikor az SDK visszatért a felfüggesztett állapotból.
- JavaScript: Kijavítottuk a hangadatok körkörös importálását az euirim hozzájárulásának köszönhetően.
- JavaScript: az 1.7-ben hozzáadott szolgáltatástulajdonságok beállításának támogatása.
- JavaScript: Kijavítottunk egy hibát, amely miatt a kapcsolati hiba folyamatos, sikertelen websocket-újracsatlakozási kísérleteket eredményezhetett.
Minták
- Kulcsszófelismerő minta hozzáadva Androidhoz itt.
- Itt hozzáadott TTS-mintát a kiszolgálói forgatókönyvhöz.
- Többeszközes beszélgetési rövid útmutatók a C# és a C++ használatához itt.
Egyéb módosítások
- Optimalizált SDK-magtár mérete Androidon.
- Az 1.9.0-s és újabb verziójú SDK támogatja a beszélgetés-átíró hangaláírási verzió mezőjének mindkét
int
ésstring
típusát.
Speech SDK 1.8.0: 2019. novemberi kiadás
Új funkciók
- Hozzáadott egy
FromHost()
API-t, amely megkönnyíti a helyszíni tárolók és a szuverén felhők használatát. - A beszédfelismeréshez hozzáadott forrásnyelv-azonosítás (Javában és C++-ban)
- Hozzáadott
SourceLanguageConfig
objektum a Speech Recognitionhez, amely a várt forrásnyelvek megadására szolgál (Java és C++) - Windows (UWP), Android és iOS rendszereken nyújtott támogatás a
KeywordRecognizer
NuGet és Unity csomagokon keresztül - Hozzáadtuk a Távoli Beszélgetés Java API-t az aszinkron kötegekben történő beszélgetés átírásához.
kompatibilitástörő változások
- A névtér
Microsoft.CognitiveServices.Speech.Transcription
alatt áthelyezett beszélgetés-átíró funkciók. - A Beszélgetés-átíró metódusok részei át lesznek helyezve az új
Conversation
osztályba. - Megszűnt a 32 bites (ARMv7 és x86) iOS támogatása
Hibajavítások
- Javítás összeomlás esetén, ha a helyi
KeywordRecognizer
nyelv érvényes Speech service-előfizetési kulcs nélkül van használatban
Minták
- A
KeywordRecognizer
számára készült Xamarin-minta - Unity-minta a következőhöz:
KeywordRecognizer
- C++ és Java-minták az automatikus forrásnyelv-azonosításhoz.
Speech SDK 1.7.0: 2019–szeptemberi kiadás
Új funkciók
- A Xamarin bétaverziós támogatása univerzális Windows platformon (UWP), Androidon és iOS rendszeren
- IOS-támogatás hozzáadva a Unityhez
- ALaw, Mulaw és FLAC bemeneti támogatás hozzáadásra került Android, iOS és Linux rendszeren.
- Az
SendMessageAsync
osztályhoz hozzáadvaConnection
a szolgáltatásnak történő üzenetküldéshez. - Hozzáadva
SetMessageProperty
aConnection
osztályban egy üzenet tulajdonságának beállítására - TTS hozzáadta a támogatásokat Java (JRE és Android), Python, Swift és Objective-C számára.
- A TTS hozzáadta a lejátszás támogatását macOS, iOS és Android rendszerekhez.
- A TTS-hez "szóhatár" információkat adtunk hozzá.
Hibajavítások
- Kijavítottuk az IL2CPP buildelési problémáját az Android Unity 2019-ben
- Kijavítottuk a hibásan formázott fejlécek helytelen feldolgozását a wav-fájl bemenetében
- Kijavítottuk azt a hibát, hogy az UUID-k egyes kapcsolattulajdonságokban nem egyediek
- Javítottunk ki néhány figyelmeztetést a Swift kötések nullabilitási meghatározóiról (kis kódmódosításokat igényelhet)
- Kijavítottunk egy hibát, amely miatt a websocket-kapcsolatok nem megfelelően zárultak le hálózati terhelés alatt.
- Kijavítottunk egy hibát az Androidon, amely néha ismétlődő megjelenítési azonosítókat eredményezett, amelyeket a
DialogServiceConnector
használt. - A többfordulós interakciók közötti kapcsolatok stabilitásának javítása és a hibák jelentése (eseményeken keresztül
Canceled
)DialogServiceConnector
-
DialogServiceConnector
a munkamenetek indításai mostantól megfelelően nyújtják az eseményeket, beleértve, amikorListenOnceAsync()
hívás történik egy aktívStartKeywordRecognitionAsync()
során - A fogadott tevékenységekhez
DialogServiceConnector
kapcsolódó összeomlás elhárítása
Minták
- Rövid útmutató a Xamarinhoz
- Frissített C++ gyorstalpaló Linux Arm64-információkkal
- Frissített Unity gyorsindítási útmutató iOS-információkkal
Speech SDK 1.6.0: 2019–júniusi kiadás
Minták
- Rövid útmutató minták a Text To Speechhez az UWP-n és a Unityn
- Rövid útmutató minta a Swifthez iOS rendszeren
- Unity-minták beszéd- és szándékfelismeréshez és fordításhoz
- Frissített gyorsútmutató-minták a következőhöz:
DialogServiceConnector
Fejlesztések/módosítások
- Párbeszéd-névtér:
- A
SpeechBotConnector
új nevet kapott:DialogServiceConnector
- A
BotConfig
új nevet kapott:DialogServiceConfig
-
BotConfig::FromChannelSecret()
újra lett térképezveDialogServiceConfig::FromBotSecret()
- Az átnevezés után az összes meglévő Direct Line Speech-ügyfél továbbra is támogatott
- A
- TTS REST-adapter frissítése a proxy és az állandó kapcsolat támogatásához
- Érvénytelen régió átadásakor megjelenő hibaüzenet javítása
- Swift/Objective-C:
- Továbbfejlesztett hibajelentés: A hibát eredményező metódusok
NSError
két verzióban jelennek meg: az egyik egy objektumot tesz elérhetővé a hibakezeléshez, a másik pedig kivételt okoz. Az előbbiek a Swiftnek vannak kitéve. Ez a módosítás a meglévő Swift-kódhoz való alkalmazkodást igényli. - Továbbfejlesztett eseménykezelés
- Továbbfejlesztett hibajelentés: A hibát eredményező metódusok
Hibajavítások
- Javítás a TTS-hez: ahol a jövőbeli objektum visszatért várakozás nélkül, amíg a hang le nem játszódott a renderelésben.
- Javítás a karakterláncok C#-ban történő adatátvitelére, amely lehetővé teszi a teljes nyelvi támogatást.
- A .NET core-alkalmazásban a net461 célplatform használatával a magkönyvtár betöltésének problémájának megoldása a mintákban.
- A minták kimeneti mappájában natív kódtárak üzembe helyezésével kapcsolatos alkalmi problémák megoldása
- Javítás a websockets megbízható bezárásához
- Az esetleges összeomlás javítása, amikor Linuxon nagy terhelés alatt megnyit egy kapcsolatot.
- Hiányzó metaadatok javítása a macOS keretrendszercsomagjában
- Javítás windowsos
pip install --user
problémák esetén
Speech SDK 1.5.1
Ez egy hibajavítási kiadás, amely csak a natív/felügyelt SDK-t érinti. Ez nincs hatással az SDK JavaScript-verziójára.
Hibajavítások
- A FromSubscription javítása beszélgetési átírással való használat esetén.
- Kijavíthatja a Voice Assistants kulcsszó-észlelési hibáját.
Speech SDK 1.5.0: 2019. májusi kiadás
Új funkciók
- A kulcsszó-észlelés (KWS) mostantól elérhető Windows és Linux rendszeren is. A KWS funkció bármilyen mikrofontípussal működhet, a hivatalos KWS-támogatás azonban jelenleg az Azure Kinect DK hardverben vagy a Speech Devices SDK-ban található mikrofontömbökre korlátozódik.
- A kifejezésmutató funkció az SDK-on keresztül érhető el. További információt itt talál.
- A beszélgetés átírási funkciója az SDK-on keresztül érhető el.
- A Hangsegédek támogatása a Direct Line Speech csatornával.
Minták
- Az SDK által támogatott új funkciókhoz vagy új szolgáltatásokhoz hozzáadott minták.
Fejlesztések/módosítások
- Különböző felismerő tulajdonságokat adott hozzá a szolgáltatás viselkedésének vagy a szolgáltatás eredményeinek módosításához (például a trágárság maszkolásához és másokhoz).
- Most már konfigurálhatja a felismerőt a szabványos konfigurációs tulajdonságokon keresztül, még akkor is, ha létrehozta a felismerőt
FromEndpoint
. - Objective-C:
OutputFormat
tulajdonság lett hozzáadva aSPXSpeechConfiguration
. - Az SDK mostantól Linux-disztribúcióként támogatja a Debian 9-et.
Hibajavítások
- Kijavítottunk egy problémát, amely miatt a beszédgenerátor erőforrása túl korán került törlésre a szövegfelolvasás során.
Speech SDK 1.4.2
Ez egy hibajavítási kiadás, amely csak a natív/felügyelt SDK-t érinti. Ez nincs hatással az SDK JavaScript-verziójára.
Speech SDK 1.4.1
Ez a kiadás kizárólag JavaScript-re épül. Nem adtak hozzá új funkciókat. A következő javítások történtek:
- Megakadályozza, hogy a webcsomag betöltse a https-proxy-agentet.
Speech SDK 1.4.0: 2019. áprilisi kiadás
Új funkciók
- Az SDK mostantól bétaverzióként támogatja a Szövegfelolvasás szolgáltatást. Windowsos és linuxos asztali számítógépeken támogatott a C++ és C# programnyelveken. További információkért tekintse át a Szöveg a beszédhez című témakör áttekintését.
- Az SDK mostantól streambemeneti fájlként támogatja az MP3 és az Opus/OGG hangfájlokat. Ez a funkció csak Linuxon érhető el c++ és C# nyelven, és jelenleg bétaverzióban érhető el (további részletek itt).
- A Java-hoz készült Speech SDK, a .NET Core, a C++ és a Objective-C macOS-támogatást kaptak. A macOS Objective-C támogatása jelenleg bétaverzióban érhető el.
- iOS: Az iOS Speech SDK (Objective-C) mostantól CocoaPodként is elérhető.
- JavaScript: Nem alapértelmezett mikrofon támogatása bemeneti eszközként.
- JavaScript: Proxy szolgáltatás Node.jsbemenetre.
Minták
- A Speech SDK c++ és Objective-C macOS rendszeren való használatára vonatkozó minták lettek hozzáadva.
- A szöveg beszédszolgáltatásban való használatát bemutató minták lettek hozzáadva.
Fejlesztések/módosítások
- Python: A felismerési eredmények további tulajdonságai mostantól elérhetők a
properties
tulajdonságon keresztül. - További fejlesztési és hibakeresési támogatásért átirányíthatja az SDK naplózási és diagnosztikai adatait egy naplófájlba (további részletek itt).
- JavaScript: A hangfeldolgozás teljesítményének javítása.
Hibajavítások
- Mac/iOS: Kijavítottunk egy hibát, amely hosszú várakozást eredményezett, amikor nem sikerült kapcsolatot létesíteni a Speech szolgáltatással.
- Python: az argumentumok hibakezelésének javítása a Python-visszahívásokban.
- JavaScript: Kijavítottuk a helytelen állapotjelentést a RequestSession szolgáltatásban befejeződött beszédhez.
Speech SDK 1.3.1: 2019–februári frissítés
Ez egy hibajavítási kiadás, amely csak a natív/felügyelt SDK-t érinti. Ez nincs hatással az SDK JavaScript-verziójára.
Hibajavítás
- Kijavítottunk egy memóriaszivárgást a mikrofon bemenetének használatakor. A stream alapú vagy fájl alapú bemenetre nincs hatással.
Speech SDK 1.3.0: 2019–februári kiadás
Új funkciók
- A Speech SDK támogatja a bemeneti mikrofon kiválasztását az
AudioConfig
osztályon keresztül. Ez lehetővé teszi, hogy hangadatokat streameljen a Speech szolgáltatásba egy nem alapértelmezett mikrofonból. További információkért tekintse meg a hangbemeneti eszköz kiválasztását ismertető dokumentációt. Ez a funkció még nem érhető el a JavaScriptből. - A Speech SDK mostantól bétaverzióban támogatja a Unityt. Küldjön visszajelzést a GitHub-mintaadattár problémás szakaszán keresztül. Ez a kiadás támogatja a Unityt Windows x86-on és x64-en (asztali vagy univerzális Windows Platform-alkalmazások), valamint Androidon (ARM32/64, x86). További információt a Unity rövid útmutatójában talál.
- A fájl
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
, amelyet a korábbi verziókban szállítottak, már nincs szükség. A funkció most már integrálva van az alapvető SDK-ba.
Minták
A mintaadattárban a következő új tartalom érhető el:
- További minták a
AudioConfig.FromMicrophoneInput
számára. - További Python-minták szándékfelismeréshez és fordításhoz.
- További minták az
Connection
objektum iOS-ben való használatához. - További Java-minták hangkimenettel történő fordításhoz.
- Új minta a Batch Transcription REST API használatához.
Fejlesztések/módosítások
- Piton
- Továbbfejlesztett paraméter-ellenőrzés és hibaüzenetek a következőben
SpeechConfig
: . - Támogatás hozzáadása a(z)
Connection
objektumhoz. - 32 bites Python (x86) támogatása Windows rendszeren.
- A Python Speech SDK-jának bétaverziója nem érhető el.
- Továbbfejlesztett paraméter-ellenőrzés és hibaüzenetek a következőben
- Ios
- Az SDK mostantól az iOS SDK 12.1-es verziójára épül.
- Az SDK mostantól támogatja az iOS 9.2-s és újabb verzióit.
- A referenciadokumentáció javítása és több tulajdonságnév javítása.
- JavaScript
- Támogatás hozzáadása a(z)
Connection
objektumhoz. - Típusdefiníciós fájlok hozzáadása a csomagolt JavaScripthez
- A kifejezésmutatók kezdeti támogatása és implementálása.
- Tulajdonságok gyűjteményének visszaadése a JSON szolgáltatással a felismeréshez
- Támogatás hozzáadása a(z)
- A Windows DLL-ek már tartalmaznak verzióerőforrást.
- Ha létrehoz egy felismerőt
FromEndpoint
, paramétereket adhat hozzá közvetlenül a végpont URL-címéhez. EzzelFromEndpoint
nem konfigurálhatja a felismerőt a szabványos konfigurációs tulajdonságokon keresztül.
Hibajavítások
- Az üres proxy felhasználóneve és proxyjelszava nem megfelelően lett kezelve. Ebben a kiadásban, ha a proxynevét és a proxyjelszót üres sztringre állítja be, akkor azok nem lesznek elküldve a proxyhoz való csatlakozáskor.
- Az SDK által létrehozott SessionId nem mindig volt mindig véletlenszerű bizonyos nyelvek/ környezetek esetében. Véletlenszerű generátor inicializálása lett hozzáadva a probléma megoldásához.
- Az engedélyezési jogkivonat kezelésének javítása. Ha engedélyezési jogkivonatot szeretne használni, adja meg a
SpeechConfig
mezőben, és hagyja üresen az API-kulcsot. Ezután hozza létre a felismerőt a szokásos módon. - Bizonyos esetekben az
Connection
objektum nem lett megfelelően felszabadítva. Ez a probléma már ki lett javítva. - A JavaScript-mintát úgy javítottuk, hogy támogassa a fordítási szintézis hangkimenetét a Safariban is.
Speech SDK 1.2.1
Ez a kiadás kizárólag JavaScript-re épül. Nem adtak hozzá új funkciókat. A következő javítások történtek:
- A stream vége a turn.end-en, nem a speech.end-en.
- Kijavítottuk a hangszivattyú azon hibáját, amely nem ütemezte a következő küldést, ha az aktuális küldés sikertelen volt.
- A folyamatos felismerés javítása hitelesítési jogkivonattal.
- Hibajavítás különböző felismerőkhöz/ végpontokhoz.
- Dokumentációs fejlesztések.
Speech SDK 1.2.0: 2018. decemberi kiadás
Új funkciók
- Piton
- A Python-támogatás bétaverziója (3.5-ös vagy újabb verzió) ebben a kiadásban érhető el. További információ: itt](.. /.. /quickstart-python.md).
- JavaScript
-
Connection
tárgy- A
Recognizer
helyről elérhet egyConnection
objektumot. Ezzel az objektummal explicit módon kezdeményezheti a szolgáltatáskapcsolatot, és előfizethet a kapcsolódási és leválasztási eseményekre. (Ez a funkció még nem érhető el a JavaScript és a Python használatával.)
- A
- Az Ubuntu 18.04 támogatása.
- Android
- Bekapcsolt ProGuard támogatás az APK létrehozása során.
Fejlesztések
- A belső szálhasználat fejlesztései, a szálak, a zárolások, a mutexek számának csökkentése.
- Továbbfejlesztett hibajelentés/ információ. Több esetben a hibaüzenetek nem jutottak el teljes mértékben.
- A JavaScriptben frissítettük a fejlesztési függőségeket, hogy a up-to-date modulokat használják.
Hibajavítások
- Kijavítottuk a memóriaszivárgásokat a
RecognizeAsync
-ban előforduló típuseltérés miatti hiba miatt. - Bizonyos esetekben kivételeket szivárogtak ki.
- Memóriavesztés javítása a fordítási esemény argumentumaiban.
- Kijavítottunk egy zárolási hibát a hosszú ideig futó munkamenetekben való újracsatlakozáskor.
- Kijavítottunk egy hibát, amely a sikertelen fordítások végleges eredményének hiányát okozhatta.
- C#: Ha
async
egy művelet nem várt a főszálban, lehetséges volt, hogy a felismerő az aszinkron feladat befejezése előtt el lett helyezve. - Java: Kijavítottunk egy hibát, amely a Java virtuális gép összeomlását eredményezte.
- Objective-C: Enum leképezés helyesbítése; a RecognizedIntent-et adta vissza
RecognizingIntent
helyett. - JavaScript: Állítsa be az alapértelmezett kimeneti formátumot "egyszerű" értékre a következőben
SpeechConfig
: - JavaScript: Inkonzisztencia eltávolítása a konfigurációs objektum tulajdonságai között JavaScriptben és más nyelveken.
Minták
- Több mintát frissített és kijavított (például a fordításhoz használt kimeneti hangokat stb.).
- Hozzáadtam Node.js mintákat a mintaadattárhoz.
Speech SDK 1.1.0
Új funkciók
- Android x86/x64 támogatása.
- Proxytámogatás: Az
SpeechConfig
objektumban mostantól meghívhat egy függvényt a proxyadatok (állomásnév, port, felhasználónév és jelszó) beállításához. Ez a funkció még nem érhető el iOS rendszeren. - Továbbfejlesztett hibakód és üzenetek. Ha egy felismerés hibát adott vissza, akkor már a
Reason
(a megszakított eseményben) vagy aCancellationDetails
(a felismerési eredményben) be lett állítvaError
-ra. Az elmaradt esemény most már két további tagot tartalmaz,ErrorCode
ésErrorDetails
. Ha a kiszolgáló további hibainformációkat adott vissza a jelentett hibával együtt, az mostantól elérhető lesz az új tagokban.
Fejlesztések
- Hozzáadott további ellenőrzést a felismerő konfigurációjában, és további hibaüzenetet adott hozzá.
- A hangfájl közepén a hosszú ideig tartó csend jobb kezelése.
- NuGet-csomag: .NET-keretrendszer-projektek esetén megakadályozza az AnyCPU-konfigurációval való építést.
Hibajavítások
- Kijavítottunk néhány kivételt, amely a felismerőkben található. Emellett a kivételeket a rendszer elkapja, és eseménysé
Canceled
alakítja. - Megszüntesse a memóriaszivárgást az ingatlangazdálkodásban.
- Kijavítottuk azt a hibát, amely miatt egy hangbemeneti fájl összeomlott a felismerőben.
- Kijavítottunk egy hibát, amely miatt eseményeket lehetett fogadni egy munkamenet-leállítási esemény után.
- Kijavítottunk néhány versenyhelyzetet a szálkezelés során.
- Kijavítottunk egy iOS-kompatibilitási hibát, amely összeomlást okozhatott.
- Stabilitási fejlesztések androidos mikrofonok támogatásához.
- Kijavítottunk egy hibát, amely miatt a JavaScript egyik felismerője figyelmen kívül hagyta a felismerési nyelvet.
- Kijavítottunk egy hibát, amely megakadályozta a
EndpointId
JavaScript (bizonyos esetekben) beállítását. - Módosította a paraméter sorrendjét az AddIntentben a JavaScriptben, és hiányzó
AddIntent
JavaScript-aláírást adott hozzá.
Minták
- C++ és C# mintákat adott hozzá a lekéréses és leküldéses streamek használatához a mintaadattárban.
Speech SDK 1.0.1
Megbízhatósági fejlesztések és hibajavítások:
- Kijavítottuk a lehetséges végzetes hibát egy versenyhelyzet miatt a felismerő eltávolításakor.
- Kijavítottuk a lehetséges végzetes hibát, amikor nem beállított tulajdonságok fordulnak elő.
- Újabb hibák és paraméterek ellenőrzése hozzáadva.
- Objective-C: Kijavítottuk az NSStringben a név felülírása által okozott lehetséges végzetes hibát.
- Objective-C: Az API korrigált láthatósága
- JavaScript: Kijavítva az események és a hasznos adatok tekintetében.
- Dokumentációs fejlesztések.
A mintaadattárban egy új JavaScript-mintát vettünk fel.
Azure AI Speech SDK 1.0.0: 2018. szeptemberi kiadás
Új funkciók
- Az iOS-en Objective-C támogatása. Tekintse meg az iOS-hez készültObjective-C rövid útmutatót.
- JavaScript támogatása böngészőben. Tekintse meg a JavaScript rövid útmutatót.
kompatibilitástörő változások
- Ezzel a kiadással számos kompatibilitástörő módosítást vezetünk be. A részletekért tekintse meg ezt a lapot .
Azure AI Speech SDK 0.6.0: 2018. augusztusi kiadás
Új funkciók
- A Speech SDK-val készült UWP-alkalmazások mostantól át tudják adni a Windows Alkalmazástanúsítvány-készletet (WACK). Tekintse meg az UWP rövid útmutatót.
- A .NET Standard 2.0 támogatása Linuxon (Ubuntu 16.04 x64).
- Kísérleti: Java 8 támogatása Windows (64 bites) és Linux rendszeren (Ubuntu 16.04 x64). Tekintse meg a Java Runtime Environment rövid útmutatót.
Funkcionális változás
- További részletes hibainformációk megjeleníthetők a csatlakozási hibákról.
kompatibilitástörő változások
- Java (Android) esetén a
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
függvénynek már nincs szüksége elérésiút-paraméterre. Most a rendszer automatikusan észleli az elérési utat az összes támogatott platformon. - A Java és a C# tulajdonság
EndpointUrl
get-kiegészítője el lett távolítva.
Hibajavítások
- A Java-ban a fordítás-felismerő hangszintézisének eredménye már implementálva van.
- Kijavítottunk egy hibát, amely inaktív szálakat és nagyobb számú nyitott és nem használt szoftvercsatornát okozhatott.
- Kijavítottunk egy hibát, amely miatt a hosszú ideig futó felismerés leállhatott az átvitel közepén.
- Kijavítottunk egy versenyfeltételt a felismerő leállításakor.
Azure AI Speech SDK 0.5.0: 2018. júliusi kiadás
Új funkciók
- Android-platform támogatása (API 23: Android 6.0 Marshmallow vagy újabb). Tekintse meg az Android rövid útmutatót.
- A .NET Standard 2.0 támogatása Windows rendszeren. Tekintse meg a .NET Core rövid útmutatóját.
- Kísérleti: Az UWP támogatása Windows rendszeren (1709-es vagy újabb verzió).
- Tekintse meg az UWP rövid útmutatót.
- Vegye figyelembe, hogy a Speech SDK-val készült UWP-alkalmazások még nem felelnek meg a Windows App Certification Kit (WACK) követelményeinek.
- A hosszú ideig futó felismerés támogatása automatikus újracsatlakozással.
Funkcionális változások
-
StartContinuousRecognitionAsync()
támogatja a hosszú ideig futó felismerést. - A felismerés eredménye több mezőt tartalmaz. Ezek el vannak tolva a felismert szöveg hangjának kezdetétől és időtartamától (mind a osztásjelekkel), mind pedig a felismerési állapotot jelző további értékektől,
InitialSilenceTimeout
például aInitialBabbleTimeout
. - Az AuthorizationToken támogatása gyári példányok létrehozásához.
kompatibilitástörő változások
- Felismerési események:
NoMatch
az eseménytípus egyesítve lett azError
eseménybe. - A C#-ban található SpeechOutputFormat úgy lett átnevezve, hogy
OutputFormat
igazodjon a C++-hoz. - A felület egyes metódusainak visszatérési
AudioInputStream
típusa kissé megváltozott:- Java-ban a metódus most már
read
-t ad visszalong
helyett. - A C#-ban a metódus most
Read
a helyett ad visszauint
int
. - C++-ban a
Read
ésGetFormat
metódusok most mársize_t
térnek vissza, ahelyett hogyint
-t.
- Java-ban a metódus most már
- C++: A hangbemeneti streamek példányai mostantól csak
shared_ptr
formátumban adhatók át.
Hibajavítások
- Kijavítottuk az eredmény helytelen visszatérési értékeit, ha
RecognizeAsync()
túllépi az időkorlátot. - A Windows media foundation-kódtáraitól való függőség el lett távolítva. Az SDK mostantól Core Audio API-kat használ.
- Dokumentáció javítása: Hozzáadott egy régiók lapot a támogatott régiók leírásához.
Ismert probléma
- Az Android Speech SDK nem jelenti a beszédszintézis eredményeit a fordításhoz. Ez a probléma a következő kiadásban lesz kijavítva.
Azure AI Speech SDK 0.4.0: 2018. júniusi kiadás
Funkcionális változások
AudioInputStream
A felismerő mostantól használhat streamet hangforrásként. További információkért tekintse meg a kapcsolódó útmutatót.
Részletes kimeneti formátum
Amikor létrehoz egy
SpeechRecognizer
, kérheti aDetailed
vagySimple
kimeneti formátumot. ADetailedSpeechRecognitionResult
egy bizalmi pontszámot, felismert szöveget, nyers lexikális formát, normalizált formát és trágárságokat maszkoló normalizált formát tartalmaz.
Kompatibilitást megszakító változás
- "
SpeechRecognitionResult.Text
-rőlSpeechRecognitionResult.RecognizedText
-ra változott C#-ban."
Hibajavítások
- Kijavítottunk egy lehetséges visszahívási hibát az USP-rétegben a leállítás során.
- Ha a felismerő feldolgozott egy hangbemeneti fájlt, az szükségtelenül hosszú ideig tartotta a fájl fogantyút.
- Eltávolítottunk több holtpontot az üzenetszivattyú és a felismerő között.
-
NoMatch
A szolgáltatás válaszának időtúllépése esetén aktiválja az eredményt. - A Windows Media Foundation könyvtárai késleltetve töltődnek be. Ez a kódtár csak a mikrofon bemenetéhez szükséges.
- A hangadatok feltöltési sebessége az eredeti hangsebesség körülbelül kétszeresére korlátozódik.
- Windows rendszeren a C# .NET-szerelvények mostantól erős névvel vannak elnevezve.
- Dokumentáció javítása:
Region
a felismerő létrehozásához szükséges információk.
További minták lettek hozzáadva, és folyamatosan frissülnek. A legújabb mintákért tekintse meg a Speech SDK-minták GitHub-adattárát.
Azure AI Speech SDK 0.2.12733: 2018– májusi kiadás
Ez a kiadás az Azure AI Speech SDK első nyilvános előzetes verziója.