Vad är nytt i Azure AI Speech?

2025-04-28

Azure AI Speech uppdateras kontinuerligt. För att hålla dig uppdaterad om den senaste utvecklingen får du information om nya versioner och funktioner i den här artikeln.

Senaste markeringar

Om du vill transkribera flerspråkigt innehåll kontinuerligt och korrekt i en ljudfil kan du nu använda den senaste flerspråkiga modellen utan att ange språkkoderna via API för snabb transkription. Mer information finns i flerspråkig transkription i snabb transkription.
Snabb transkription är nu allmänt tillgänglig. Det kan transkribera ljud mycket snabbare än den faktiska ljudvaraktigheten. Mer information finns i api-guiden för snabb transkription.
Azure AI Speech Toolkit-tillägget är nu tillgängligt för Visual Studio Code-användare. Den innehåller en lista över snabbstarter för tal och scenarioexempel som enkelt kan skapas och köras med enkla klick. Mer information finns i Azure AI Speech Toolkit i Visual Studio Code Marketplace.
Hd-röster (Azure AI Speech High Definition) är tillgängliga i offentlig förhandsversion. HD-rösterna kan förstå innehållet, automatiskt identifiera känslor i indatatexten och justera talartonen i realtid för att matcha sentimentet. Mer information finns i Vad är HD-röster (High Definition) för Azure AI Speech?.
Videoöversättning är nu tillgängligt i Azure AI Speech-tjänsten. Mer information finns i Vad är videoöversättning?.

Versionsinformation

Välj en tjänst eller resurs

Viktigt!

Innehållsutvärdering (förhandsversion) via Speech SDK dras tillbaka i juli 2025. I stället kan du använda Azure OpenAI-modeller för att få resultat av innehållsutvärdering enligt beskrivningen i dokumentationen för innehållsutvärdering.

Speech SDK 1.44.1: Korrigeringsversion

SDK version 1.44.1 släpps endast för JavaScript med 4 felkorrigeringar:

Felkorrigeringar

Ett utanför intervall undantagsfel har åtgärdats när endast en segmenteringskontrollparameter angavs.
enableDictation skickades inte korrekt till Speech Service.
ConversationTranscriber använde inte rätt URL-sökväg när den skapades med metoden fromEndpoint.
Fel har blivit löst när data skickas till en indataström efter att den har kopplats från.

Speech SDK 1.44: 2025-maj utgåva

Viktigt!

Stödet för målplattformar ändras:

Den lägsta Android-versionen som stöds är nu Android 8.0 (API-nivå 26).
Publiceringen av Speech SDK Unity-paket pausas efter den här versionen.

Nya funktioner:

Stöd för 16 KB minnessidor på Android har lagts till.
Kortare svarstid för SpeechStartDetected-händelser i inbäddad taligenkänning.
[C++, Python] En metod har lagts till för att hämta den tillgängliga storleken på AudioDataStream.
[C++, Python] Stöd har lagts till för anpassade lexikon-URL:er och önskade nationella inställningar i begäranden om talsyntes.
[Java, Python] Stöd har lagts till för Microsoft Entra-tokenbaserad autentisering med automatisk tokenuppdatering.
[Go] Stöd har lagts till för konversationstranskription.

Felkorrigeringar

Översättningstalsyntesen fungerade inte när källspråkidentifiering användes.
Korrigerade filsökvägar med icke-ASCII-tecken som inte fungerar för inbäddade talmodeller, KWS-modeller eller loggfiler (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288).
En NoMatch-loop har åtgärdats i vissa situationer i den inbäddade taligenkänningen.
Korrigerade destruering av inbyggda objekt som blockeras på grund av att igenkänningen inte har markerats som stoppad när händelser kopplas från.
Fast IntentRecognizer-mönstermatchning fungerar inte korrekt med tecken med flera byte under vissa förhållanden.
Det var inte synkront att anropa Close() ett anslutningsobjekt.
Ett konkurrenstillstånd har åtgärdats i en anslutningsallokering som kan leda till en krasch.
[macOS] "Info:"-meddelanden som visas i konsolen (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610har åtgärdats).

Exempel

[Python] Exempelkod har lagts till för recognizer med token-autentiseringsuppgifter från Microsoft Entra.

Speech SDK för JavaScript

Nya funktioner:

Uppdaterat utvecklingsberoende: TypeScript 3.5.3 → 4.5
TranslationRecognizer har uppdaterats för att använda V2-slutpunkter som standard.
SpeechRecongizer har uppdaterats för att använda V2-slutpunkter.
- Detta resulterar i att NoMatch-resultat inte längre tas emot.
Stöd har lagts till för Microsoft Entra-tokenbaserad autentisering för taligenkänning och översättning.
FromEndpoint API har uppdaterats till den rekommenderade metoden för att konstruera en SpeechConfig för de flesta scenarier.
- Gäller för användning:
  - Taligenkännare
  - TranslationRecognizer (via SpeechTranslationConfig)
  - Konversationsavskrivare
  - SpeechSynthesizer (på engelska)
- Nu kan du använda slutpunkten från Azure-portalen för Speech- och Azure AI Foundry-resurser för att konstruera ett SpeechConfig-objekt.
- Alla andra metoder för att konstruera en SpeechConfig fortsätter att fungera och stöds.

Felkorrigeringar

En oändlig anslutningsåterförsöksloop har åtgärdats på anslutningsslutkoder som inte stöds (https://github.com/microsoft/cognitive-services-speech-sdk-js/issues/896).

Speech CLI (SPX)

Nya funktioner

Stöd har lagts till för autentisering med autentiseringsuppgifter för Microsoft Entra-token.
Stöd har lagts till för API:et för snabb transkription.

Felkorrigeringar

Fasta icke-fungerande semikolonavgränsade indata-URL:er och indatafil-/URL-listor från en fil.

Speech SDK 1.43: mars 2025

Anteckning

Ubuntu 20.04 "standardsäkerhetsunderhåll" upphör att gälla i april 2025 och kommer inte längre att vara tillgängligt som ADO Build-agenter. Framtida Speech SDK-versioner kräver Ubuntu 22.04 LTS (i stället för Ubuntu 20.04) som lägsta version som stöds.

Nya funktioner:

FromEndpoint API har uppdaterats till den rekommenderade metoden för att konstruera en SpeechConfig för de flesta scenarier.
- Gäller för användning:
  - Taligenkännare
  - TranslationRecognizer (via SpeechTranslationConfig)
  - Konversationsavskrivare
  - SpeechSynthesizer I alla programmeringsspråk utom JavaScript.
- Nu kan du använda slutpunkten från Azure-portalen för Speech- och Cognitive Services-resurser för att konstruera ett SpeechConfig-objekt.
- Alla andra metoder för att konstruera en SpeechConfig fortsätter att fungera och stöds.
TranslationRecognizer har uppdaterats för att använda V2-slutpunkter som standard.
- Detta flyttar kontrollparametrar från URL:en till meddelanden i kanalen när du använder en V2-slutpunkt.
- Beteendeförändring: Standardspråket som returneras för "zh" är nu "zh-CN" i stället för "zh-hans"
Egenskaps-ID:t har lagts till för SpeechSynthesis_FrameTimeoutInterval och SpeechSynthesis_RtfTimeoutThreshold.
Optimerade antalet gånger som SDK återansluter för tidskrävande igenkänningar.
[C++, Python] Stöd har lagts till för att ange format och temperatur i begäranden om textströmning.
[C#] Stöd har lagts till för automatisk uppdatering av AAD-token när du använder FromEndpoint för att konstruera ett konfigurationsobjekt.
- Detta lägger till ett beroende från Speech SDK till Azure.Core-nuget-paketet.
- Speech SDK kan nu acceptera TokenCredential-härledda objekt för autentisering när du använder:
  - Taligenkännare
  - Översättningsigenkännare
  - Konversationsavskrivare
[Objective-C] SPXTranslationRecognizer har uppdaterats för att stödja automatisk identifiering av källspråk från öppet intervall.
[Objective-C , Python] Api:er för diagnostik har lagts till EventLogger, FileLogger och MemoryLogger.
[Go]: Stöd för TranslationRecognizer har lagts till

Felkorrigeringar

Stöd för OpenSSL 3 har åtgärdats på Linux arm32 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2736).
Åtgärdade det saknade statusfältet i talsyntesens röstlista (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2771).
Fast IntentRecognizer-mönster som matchar den japanska språkparsern identifierar inte heltalstecken korrekt.
Ett potentiellt problem med duplicerade resultat från inbäddad taligenkänning har åtgärdats.
[Java] Fixa problemet med tomma deltagare i ConversationParticipantsChangedEventArgs på Android 12 och senare (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2687).

Exempel

[C++] Ett exempel har lagts till för fristående avsiktsigenkänning med hjälp av mönstermatchning.
- När LUIS-tjänsten upphör i oktober 2025 kommer Speech SDK också att dra tillbaka IntentRecognizer-objektfamiljen.
- Innan det ville vi dela implementeringen för mönstermatchning.
[C++, C#, Java, Python] De flesta exempel har uppdaterats för att använda FromEndpoint API i stället för FromSubscription.
[C#] Ett scenarioexempel har lagts till för ett taligenkänningsprogram på flera nivåer.
- Visar en metod för ljuduppspelning och återanslutning från en gränsenhet till en mellannivåtjänst som sedan vidarebefordrar ljud till Speech Service via Speech SDK
[C#] Uppdaterade exempel för att använda automatisk AAD-tokenuppdatering.
[Python] Exempel har lagts till för nya diagnostik-API:er.
[Unity] Instruktioner har lagts till för att installera det nya Azure.Core-beroendet.

Speech SDK 1.42.0: 2024–december

Nya funktioner

Java: Api:er för diagnostikloggning har lagts till med hjälp av klasser av FileLogger, MemoryLogger, EventLogger och SpxTrace.
Stöd för att skicka JSON-egenskapen "detaljer" om mötesdeltagare till tjänsten
Go: Det offentliga egenskaps-ID:t har lagts till SpeechServiceConnection_ProxyHostBypass för att ange värdar som proxyn inte används för.
JavaScript, Go: Lade till offentligt egenskaps-ID Speech_SegmentationStrategy för att avgöra när en talad fras har avslutats och ett slutligt identifierat resultat ska genereras (inklusive semantisk segmentering)
JavaScript, Go: Tillagd offentlig egenskap id Speech_SegmentationMaximumTimeMs som bestämmer slutet på en talad fras baserat på tid i Java, Python, C#, C++

Felkorrigeringar

Fixerad inbäddad TTS-röst laddas om vid varje syntestillfälle om röstnamnet inte är satt.
Åtgärdade problem med förskjutningsberäkning vid användning av MeetingTranscriber i vissa scenarier.
Problem med potentiellt dödläge vid samtidigt registrering av flera diagnostikhändelselyssnare har åtgärdats.
(JavaScript) Korrigerade eventuella förlorade NoMatch-resultat när ljudet var slut. Den här korrigeringen justerar också beteendet i slutet av talet med de andra SDK-språken och kan leda till att vissa tomma händelser inte längre genereras.
(JavaScript) Justera förskjutningar i resultat-JSON för att stämma överens med förskjutningarna på resultatobjekten. Tidigare korrigerades endast resultatobjektets förskjutningsegenskap för återanslutningar av tjänsten.
Go-språk: Ett kompileringsfel har åtgärdats https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
Rättade felmarginaler i mötestranskription när en återanslutning till tjänsten sker.
Ett dödläge i logghanteringen har åtgärdats.

Exempel

C#-exempel har uppdaterats för att använda .NET 8.0.
Java-exempel använder API för diagnostikloggning som visar användningen av de nya diagnostikloggningsklasserna.

Release i november 2024

Azure AI Speech Toolkit-tillägget för Visual Studio Code

Azure AI Speech Toolkit-tillägget är nu tillgängligt för Visual Studio Code-användare. Den innehåller en lista över snabbstarter för tal och scenarioexempel som enkelt kan skapas och köras med enkla klick. Mer information finns i Azure AI Speech Toolkit i Visual Studio Code Marketplace.

Kodexempel för text till tal-avatar

Vi har lagt till text i kodexempel för talavatar för Android och iOS. De här exemplen visar hur du använder text i realtid till talavatarer i dina mobilprogram.

Speech SDK 1.41.1: 2024–Oktober-utgåva

Nya funktioner

Stöd har lagts till för Amazon Linux 2023 och Azure Linux 3.0.
Det offentliga egenskaps-ID:t har lagts till SpeechServiceConnection_ProxyHostBypass för att ange värdar för vilka proxyn inte används.
Egenskaper har lagts till för att styra nya strategier för frassegmentering.

Felkorrigeringar

Fast ofullständigt stöd för nyckelordsigenkänning Avancerade modeller som producerades efter augusti 2024.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Observera att med Swift i iOS måste projektet antingen använda MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (från https://aka.ms/csspeech/iosbinaryembedded) eller MicrosoftCognitiveServicesSpeechEmbedded-iOS-podden som innehåller stöd för avancerad modell.
En minnesläcka i C# som rör stränganvändning har åtgärdats.
Åtgärdade problemet med att det inte gick att hämta SPXAutoDetectSourceLanguageResult från SPXConversationTranscriptionResult i programmeringsspråken Objective-C och Swift.
En tillfällig krasch vid användning av Microsoft Audio Stack för igenkänning har åtgärdats.
Typhänvisningar har åtgärdats i Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
Det gick inte att hämta listan över TTS-röster när en anpassad slutpunkt används.
Åtgärdade problemet med inbäddad TTS-ominitiering som inträffade vid varje talförfrågan när rösten angavs med ett kort namn.
Api-referensdokumentationen har åtgärdats för maximal varaktighet för RecognizeOnce-ljud.
Åtgärdat fel vid hantering av godtyckliga samplingsfrekvenser i JavaScript
- Tack till rseanhall för detta bidrag.
Ett fel har åtgärdats vid beräkning av ljudförskjutningen i JavaScript
- Tack vare motamed för detta bidrag.

Icke-bakåtkompatibla ändringar

Stöd för nyckelordsigenkänning i Windows ARM 32-bitars har tagits bort på grund av att den nödvändiga ONNX-körningen inte är tillgänglig för den här plattformen.

Speech SDK 1.40: 2024–augusti

Anteckning

Speech SDK version 1.39.0 var en intern version och saknas inte.

Nya funktioner

Stöd har lagts till för strömning av G.722 komprimerat ljud i taligenkänning.
Stöd har lagts till för inställning av tonhöjd, frekvens och volym i indatatextströmning i talsyntes.
Stöd för direktuppspelning av personlig röstinmatningstext har lagts till genom introduktionen av PersonalVoiceSynthesisRequest i talsyntesen. Det här API:et är i förhandsversion och kan komma att ändras i framtida versioner.
Stöd har lagts till för diarisering av mellanliggande resultat när ConversationTranscriber används.
CentOS/RHEL 7-stöd har tagits bort på grund av CentOS 7 EOL och slutet av RHEL 7 Underhållssupport 2.
Användning av inbäddade talmodeller kräver nu en modelllicens i stället för en modellnyckel. Om du är en befintlig kund för inbäddad talteknik och vill uppgradera, var vänlig kontakta din supportkontakt på Microsoft för mer information om modelluppdateringar.

Felkorrigeringar

Skapade Speech SDK-binärfiler för Windows med flaggan _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR som åtgärd för Visual C++-körningsproblemet Åtkomstöverträdelse med std::mutex::lock efter uppgradering till VS 2022 version 17.10.0 – Developer Community (visualstudio.com). Windows C++-program som använder Speech SDK kan behöva använda samma byggkonfigurationsflagga om koden använder std::mutex (se information i det länkade problemet).
Åtgärdade en icke fungerande detektion av OpenSSL 3.x på Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
Åtgärdat problemet med att när du distribuerar en UWP-app kopieras inte bibliotek och modeller från MAS NuGet-paketet till distributionsplatsen.
En innehållsleverantörskonflikt har åtgärdats i Android-paket (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
Fel med att alternativ för efterbearbetning inte tillämpades på mellanliggande taligenkänningsresultat har åtgärdats.
Åtgärdades .NET 8-varningen om distributionsspecifika körningsidentifierare (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).

Exempel

Uppdaterade inbäddade talexempel för att använda en modelllicens i stället för en nyckel.

Speech SDK 1.38.0: 2024-juniutgåva.

Nya funktioner

Uppgradera Krav för Speech SDK Linux-plattformen:
- Den nya minimibaslinjen är Ubuntu 20.04 LTS eller kompatibel med glibc 2.31 eller senare.
- Binärfiler för Linux x86 tas bort i enlighet med stöd för Ubuntu 20.04-plattformen.
- Observera att RHEL/CentOS 7 fortfarande stöds fram till den 30 juni (slutet av CentOS 7 och slutet av RHEL 7 Underhållssupport 2). Binärfiler för dem tas bort i Speech SDK 1.39.0-versionen.
Lägg till stöd för OpenSSL 3 i Linux.
Lägg till stöd för g722-16khz-64kbps ljudutdataformat med talsyntes.
Lägg till stöd för att skicka meddelanden via ett anslutningsobjekt med talsyntes.
Lägg till API:er för Start/StopKeywordRecognition i Objective-C och Swift.
Lägg till API för att välja en anpassad översättningsmodellkategori.
Uppdatera GStreamer-användning med talsyntes.

Felkorrigeringar

Åtgärda felet "Websocket-meddelandestorleken får inte överstiga 65 536 byte" under Start/StopKeywordRecognition.
Åtgärda ett Python-segmenteringsfel under talsyntesen.

Exempel

Uppdatera C#-exempel så att de använder .NET 6.0 som standard.

Speech SDK 1.37.0: 2024-April-release

Nya funktioner

Lägg till stöd för indatatextströmning i talsyntesen.
Ändra standardtalsyntesrösten till en-US-AvaMultilingualNeural.
Uppdatera Android-versioner för att använda OpenSSL 3.x.

Felkorrigeringar

Åtgärda enstaka JVM-krascher vid avslutning av SpeechRecognizer vid användning av MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Förbättra identifieringen av standardljudenheter i Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Exempel

Uppdaterad för nya funktioner.

Speech SDK 1.36.0: 2024 Mars

Nya funktioner

Lägg till stöd för språkidentifiering i flerspråkig översättning på v2-slutpunkter med autodetectSourceLanguageConfig::FromOpenRange().

Felkorrigeringar

Åtgärda att en SynthesisCanceled-händelse inte utlöses om stopp anropas under en SynthesisStarted-händelse.
Åtgärda ett brusproblem i inbäddad talsyntes.
Åtgärda en krasch i inbäddad taligenkänning när du kör flera identifierare parallellt.
Åtgärda inställningen för frasidentifieringsläge på v1/v2-slutpunkter.
Åtgärdar olika problem med Microsoft Audio Stack.

Exempel

Uppdateringar för nya funktioner.

Speech SDK 1.35.0: Februari 2024 utgåva

Nya funktioner

Ändra standardtexten till talröst från en-US-JennyMultilingualNeural till en-US-AvaNeural.
Stöd för information på ordnivå i inbäddade talöversättningsresultat med hjälp av det detaljerade utdataformatet.

Felkorrigeringar

Åtgärda position getter-API:et för AudioDataStream i Python.
Åtgärda talöversättning med v2-slutpunkter utan språkidentifiering.
Åtgärda en slumpmässig krasch och duplicera ordgränshändelser i inbäddad text till tal.
Returnera en korrekt felkod för annullering för ett internt serverfel på WebSocket-anslutningar.
Åtgärda misslyckandet med att läsa in FPIEProcessor.dll-biblioteket när MAS används med C#.

Exempel

Mindre formateringsuppdateringar för inbäddade igenkänningsexempel.

Speech SDK 1.34.1: Januari 2024-utgåva

Förändringar som bryter kompatibilitet

Endast buggkorrigeringar

Nya funktioner

Endast buggkorrigeringar

Felkorrigeringar

Åtgärda regression som introducerades i 1.34.0 där url:en för tjänstslutpunkten skapades med felaktig språkinformation för användare i flera Kina-regioner.

Speech SDK 1.34.0: November 2023-utgåva

Förändringar som bryter kompatibilitet

SpeechRecognizer uppdateras för att använda en ny slutpunkt som standard (dvs. när du inte uttryckligen anger en URL) som inte längre stöder frågesträngsparametrar för de flesta egenskaperna. Använd motsvarande API-funktioner i stället för att ställa in frågesträngsparametrar direkt med ServicePropertyChannel.UriQueryParameter.

Nya funktioner

Kompatibilitet med .NET 8 (Korrigering med undantag för en varning angående centos7-x64)
Stöd för inbäddade talprestandamått som kan användas för att utvärdera en enhets förmåga att köra inbäddat tal.
Stöd för källspråkidentifiering i inbäddad flerspråkig översättning.
Stöd för inbäddad tal-till-text, text-till-tal och översättning för iOS och Swift/Objective-C, tillgänglig som förhandsversion.
Inbäddad support tillhandahålls i MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Felkorrigeringar

Korrigering för dubblering av binärstorlek i iOS SDK · Problem #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Korrigering för Det går inte att hämta tidsstämplar på ordnivå från Azure-tal till text-API · Problem #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Korrigering för DialogServiceConnector-nedmonteringsfas för att koppla från händelser på rätt sätt. Detta orsakade krascher ibland.
Åtgärd för undantag vid skapandet av en igenkännare när MAS används.
FPIEProcessor.dll från Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-paketet för Windows UWP x64 och Arm64 var beroende av VC-körningsbibliotek för inbyggd C++. Problemet har åtgärdats genom att uppdatera beroendet till rätt VC-körningsbibliotek (för UWP).
Korrigering för [MAS] Återkommande anrop till recognizeOnceAsync leder till SPXERR_ALREADY_INITIALIZED vid användning av MAS · Ärende nr 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Fix för krasch av inbäddad taligenkänning när fraslistor används.

Exempel

Inbäddade iOS-exempel för tal till text, text till tal och översättning.

Speech CLI 1.34.0: November 2023 utgåva

Nya funktioner

** Stöd för ordgränshändelser vid att syntetisera tal.

Felkorrigeringar

JMESPath-beroendet har uppdaterats till den senaste versionen, förbättrar strängutvärderingar

Speech SDK 1.33.0: Oktober 2023-utgåva

Meddelande om brytande ändring

Det nya NuGet-paketet som lagts till för Microsoft Audio Stack (MAS) måste nu inkluderas av program som använder MAS i sina paketkonfigurationsfiler.

Nya funktioner

Det nya NuGet-paketet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg har lagts till, vilket ger bättre ekoreduceringsprestanda när du använder Microsoft Audio Stack
Uttalsbedömning: stöd för prosody- och innehållsutvärdering har lagts till, vilket kan utvärdera det talade talet när det gäller prosodi, vokabulär, grammatik och ämne.

Felkorrigeringar

Korrigerade nyckelordsigenkänningens resultatförskjutningar så att de korrekt matchar ljudströmmen från början. Korrigeringen gäller både fristående nyckelordsigenkänning och nyckelordsutlöst taligenkänning.
Fixed Synthesizer stopSpeaking returnerar inte omedelbart SPXSpeechSynthesizer stopSpeaking()-metoden kan inte returnera omedelbart på iOS 17 – Problem #2081
Problem med import av Mac-katalysator på Swift-modulen Stöd för mac-katalysator med apple-kisel har åtgärdats. Problem #1948
JS: AudioWorkletNode-modulen använder nu en betrodd URL, med en reservlösning för CDN-webbläsarintegrationer.
JS: Packade lib-filer riktar sig nu till ES6 JS, med stöd för ES5 JS borttaget.
JS: mellanliggande händelser i översättningsscenario som riktar sig mot v2-slutpunkt hanteras korrekt
JS: Språkegenskapen för TranslationRecognitionEventArgs har nu angetts för translation.hypoteshändelser.
Talsyntes: En synthesisCompleted-händelse genereras garanterat efter alla metadatahändelser, så den kan användas för att indikera händelseslutet. Hur identifierar man när visemer tas emot helt? Problem #2093 Azure-Samples/cognitive-services-speech-sdk

Exempel

Exempel har lagts till för att demonstrera MULAW-strömning med Python)
Korrigering för NAudio-exempel med tal till text

Speech CLI 1.33.0: Oktober 2023-utgåva

Nya funktioner

** Stöd för ordgränshändelser vid att syntetisera tal.

Felkorrigeringar

inget

Speech SDK 1.32.1: september 2023 lansering

Felkorrigeringar

Android-paketuppdateringar med de senaste säkerhetskorrigeringarna från OpenSSL1.1.1v
JS – Egenskapen WebWorkerLoadType har lagts till för att tillåta förbikoppling av data-URL-inläsning för timeout-arbetare
JS – Åtgärda frånkoppling av konversationsöversättning efter 10 minuter
JS – Autentiseringstoken för konversationsöversättning från konversation sprids nu till översättningstjänstens anslutning

Exempel

Konversationstranskription med Swift-API:er

Speech SDK 1.31.0: Augusti 2023 lansering

Nya funktioner

Stöd för realtidsdiarisering är tillgängligt i offentlig förhandsversion med Speech SDK 1.31.0. Den här funktionen är tillgänglig i följande SDK:er: C#, C++, Java, JavaScript, Python och Objective-C/Swift.
Synkroniserad talsyntes med ordgränser och viseme-händelser vid ljuduppspelning

Förändringar som bryter kompatibilitet

Det tidigare scenariot "konversationstranskription" har bytt namn till "mötestranskription". Använd till exempel MeetingTranscriber i stället för ConversationTranscriberoch använd CreateMeetingAsync i stället för CreateConversationAsync. Även om namnen på SDK-objekt och -metoder har ändrats ändras inte själva funktionen. Använd mötestranskriptionsobjekt för transkription av möten med användarprofiler och röstsignaturer. Objekten och metoderna för konversationsöversättning påverkas inte av dessa ändringar. Du kan fortfarande använda ConversationTranslator objektet och dess metoder för att uppfylla översättningsscenarier.
För diarisering i realtid introduceras ett nytt ConversationTranscriber objekt. Den nya objektmodellen "konversationstranskription" och anropsmönster liknar kontinuerlig igenkänning med SpeechRecognizer objektet. En viktig skillnad är att ConversationTranscriber objektet är utformat för att användas i ett konversationsscenario där du vill särskilja flera talare (diarisering). Användarprofiler och röstsignaturer är inte tillämpliga. Se snabbstartsguiden för diarisering i realtid för mer information.

Den här tabellen visar tidigare och nya objektnamn för diarisering i realtid och mötestranskription. Scenarionamnet finns i den första kolumnen, de tidigare objektnamnen finns i den andra kolumnen och de nya objektnamnen finns i den tredje kolumnen.

Scenarionamn	Tidigare objektnamn	Nya objektnamn
Diarisering i realtid	Ej tillämpligt	`ConversationTranscriber`
Mötestranskription	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant` ¹ `ParticipantChangedReason` ¹ `User` ¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting` ²

¹ Objekten Participant, ParticipantChangedReasonoch User gäller både för mötestranskription och mötesöversättningsscenarier.

² Objektet Meeting är nytt och används med objektet MeetingTranscriber .

Felkorrigeringar

Fastställd minsta version av macOS som stöds https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Bugg för utvärdering av uttal har åtgärdats:
- Åtgärdat problem med fonetaktskor, vilket säkerställer att de nu korrekt endast återspeglar det specifika felaktigt uttalade fonemet. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Löste ett problem där uttalsbedömningsfunktionen felaktigt identifierade helt korrekta uttal som felaktiga, särskilt i situationer där ord kunde ha flera giltiga uttal. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Exempel

Speech SDK 1.30.0: Juli 2023-utgåvan

Nya funktioner

C++, C#, Java – Stöd har lagts till för DisplayWords i Den inbäddade taligenkänningens detaljerade resultat.
Objective-C/Swift – Stöd har lagts till för ConnectionMessageReceived händelse i Objective-C/Swift.
Objective-C/Swift – Förbättrade nyckelords-spotting-modeller för iOS. Den här ändringen har ökat storleken på vissa paket, som innehåller iOS-binärfiler (till exempel NuGet, XCFramework). Vi arbetar för att minska storleken på framtida versioner.

Felkorrigeringar

En minnesläcka har åtgärdats vid användning av taligenkänning med PhraseListGrammar, enligt rapporter från en kund (GitHub-problem).
Ett dödläge har åtgärdats i API:et för öppen anslutning för text till tal.

Fler anteckningar

Java – Vissa internt använda public Java API-metoder har ändrats till att paketera internal, protected eller private. Den här ändringen bör inte påverka utvecklare eftersom vi inte förväntar oss att program ska använda dem. Antecknat här för tydlighet.

Exempel

Nya uttalsutvärderingsexempel på hur du anger ett inlärningsspråk i ditt eget program
- C#: Se exempelkod.
- C++: Se exempelkod.
- JavaScript: Se exempelkod.
- Objective-C: Se exempelkod.
- Python: Se exempelkod.
- Swift: Se exempelkod.

Speech SDK 1.29.0: Juni 2023-utgåva

Nya funktioner

C++, C#, Java – förhandsversion av API:er för inbäddad talöversättning. Nu kan du göra talöversättning utan molnanslutning!
JavaScript – Kontinuerlig språkidentifiering (LID) har nu aktiverats för talöversättning.
JavaScript – Community-bidrag för att lägga till LocaleName egenskapen i VoiceInfo klassen. Tack GitHub-användaren shivsarthak för pull-begäran.
C++, C#, Java – Stöd för omsampling av inbäddad text till tal-utdata från en samplingshastighet på 16 kHz till 48 kHz har lagts till.
Stöd har lagts till för hi-IN språkvariant i Intent Recognizer med enkel mönstermatchning.

Felkorrigeringar

Åtgärdade en krasch orsakad av ett konkurrenstillstånd i Speech Recognizer under objektförstörelse, vilket visas i några av våra Android-tester
Åtgärdade möjliga dödlägen i Intent Recognizer med Simple Pattern Matcher

Exempel

Nya exempel på inbäddad talöversättning

Speech SDK 1.28.0: Maj 2023 utgåva

Icke-kompatibel ändring

JavaScript SDK: OCSP (Online Certificate Status Protocol) har tagits bort. Detta gör det möjligt för klienter att bättre följa webbläsar- och nodstandarder för certifikathantering. Version 1.28 och senare innehåller inte längre vår anpassade OCSP-modul.

Nya funktioner

Inbäddad taligenkänning returneras NoMatchReason::EndSilenceTimeout nu när en tidsgräns för tystnad inträffar i slutet av ett yttrande. Detta överensstämmer med beteendet när du gör igenkänning med hjälp av realtidstaltjänsten.
JavaScript SDK: Ange egenskaper på SpeechTranslationConfig genom att använda PropertyId uppräkningsvärden.

Felkorrigeringar

C# på Windows – Åtgärda potentiellt kapplöpningstillstånd/låssituation i Windows ljudtillägg. I scenarier där man både snabbt gör sig av med ljudåtergivaren och använder metoden Synthesizer för att avbryta tal, återställs inte den underliggande händelsen vid stopp och kan leda till att återgivningsobjektet aldrig tas bort. Samtidigt kan det hålla ett globalt lås för borttagning, vilket fryser .NET:s GC-tråd.

Exempel

Lade till ett inbäddat talexempel för MAUI.
Det inbäddade talexemplet för Android Java har uppdaterats så att det innehåller text till tal.

Speech SDK 1.27.0: Släpp april 2023

Meddelande om kommande ändringar

Vi planerar att ta bort OCSP (Online Certificate Status Protocol) i nästa JavaScript SDK-version. Detta gör det möjligt för klienter att bättre följa webbläsar- och nodstandarder för certifikathantering. Version 1.27 är den senaste versionen som innehåller vår anpassade OCSP-modul.

Nya funktioner

JavaScript – Stöd har lagts till för mikrofoninmatning från webbläsaren med talaridentifiering och verifiering.
Inbäddad taligenkänning – Uppdateringsstöd för PropertyId::Speech_SegmentationSilenceTimeoutMs inställning.

Felkorrigeringar

Allmänt – Tillförlitlighetsuppdateringar i tjänståteranslutningslogik (alla programmeringsspråk utom JavaScript).
Allmänt – Åtgärda strängkonverteringar som läcker minne i Windows (alla relevanta programmeringsspråk utom JavaScript).
Inbäddad taligenkänning – Åtgärda krasch i fransk taligenkänning när vissa poster i grammatiklistan används.
Källkodsdokumentation – Kommentarer om korrigeringar av SDK-referensdokumentation som rör ljudloggning på tjänsten.
Avsiktsigenkänning – Justera prioriteringar för mönstermatchning med avseende på listentiteter.

Exempel

Hantera autentiseringsfel på rätt sätt i ett exempel på konversationstranskription (CTS) i C#.
Lade till exempel på direktuppspelande uttalsutvärdering för Python, JavaScript, Objective-C och Swift.

Speech SDK 1.26.0: version mars 2023

Förändringar som bryter kompatibilitet

Bitcode har inaktiverats i alla iOS-mål i följande paket: Cocoapod med xcframework, NuGet (för Xamarin och MAUI) och Unity. Ändringen beror på Apples utfasning av bitkodsstöd från Xcode 14 och senare. Den här ändringen innebär också att om du använder Xcode 13-versionen eller om du uttryckligen har aktiverat bitkoden i ditt program med hjälp av Speech SDK kan det uppstå ett fel som säger "ramverket innehåller inte bitkod och du måste återskapa det". Lös problemet genom att kontrollera att dina mål har bitkod inaktiverats.
Det lägsta iOS-distributionsmålet uppgraderas till 11.0 i den här versionen, vilket innebär att armv7 HW inte längre stöds.

Nya funktioner

Inbäddad taligenkänning (på enheten) stöder nu både 8- och 16 kHz samplingsfrekvens för indataljud (16 bitar per exempel, mono PCM).
Speech Synthesis rapporterar nu anslutnings-, nätverks- och tjänstfördröjningar i resultatet för att hjälpa optimering av svarstid från slutpunkt till slutpunkt.
Nya avgörande regler för igenkänning av intentioner med enkel mönstermatchning. Ju fler teckenbyte som matchas, vinner över mönstermatchningar med lägre antal teckenbyte. Exempel: Mönstret "Välj {something} längst upp till höger" vinner över "Välj {something}"

Felkorrigeringar

Talsyntes: Åtgärda en bugg där emojin inte är korrekt i ordgränshändelser.
Avsiktsigenkänning med CONVERSATIONAL Language Understanding (CLU):
- Avsikter från CLU Orchestrator-arbetsflödet visas nu korrekt.
- JSON-resultatet är nu tillgängligt via egenskaps-ID:t LanguageUnderstandingServiceResponse_JsonResult.
Taligenkänning med nyckelordsaktivering: Korrigering för saknade ~150 ms ljud efter en nyckelordsigenkänning.
Korrigering för Speech SDK NuGet iOS MAUI Release build, rapporterad av kunden (GitHub-problem)

Exempel

Korrigering för Swift iOS-exempel, rapporterat av kunden (GitHub-problem)

Speech SDK 1.25.0: Januari 2023 lansering

Förändringar som bryter kompatibilitet

API:er för språkidentifiering (förhandsversion) har förenklats. Om du uppdaterar till Speech SDK 1.25 och ser en versionspaus går du till sidan Språkidentifiering för att lära dig mer om den nya egenskapen SpeechServiceConnection_LanguageIdMode. Den här enskilda egenskapen ersätter de två föregående SpeechServiceConnection_SingleLanguageIdPriority och SpeechServiceConnection_ContinuousLanguageIdPriority. Det är inte längre nödvändigt att prioritera mellan låg svarstid och hög noggrannhet efter de senaste modellförbättringarna. Nu behöver du bara välja om du vill köra i början eller kontinuerlig språkidentifiering när du utför kontinuerlig taligenkänning eller översättning.

Nya funktioner

C#/C++/Java: Embedded Speech SDK släpps nu under gated public preview. Se dokumentationen om Inbäddat tal (förhandsversion). Nu kan du göra tal till text och text till tal på enheten när molnanslutningen är tillfällig eller otillgänglig. Stöds på Android-, Linux-, macOS- och Windows-plattformar
C# MAUI: Stöd har lagts till för iOS- och Mac Catalyst-mål i Speech SDK NuGet (kundproblem)
Unity: Android x86_64-arkitektur har lagts till i Unity-paketet (kundproblem)
Gå:
- Direktuppspelningsstöd för ALAW/MULAW har lagts till för taligenkänning (kundproblem)
- Stöd har lagts till för PhraseListGrammar. Tack GitHub-användaren czkoko för communityns bidrag!
C#/C++: Intent Recognizer stöder nu modeller för konversationsspråkstolkning i C++ och C# med orkestrering i Microsoft-tjänsten

Felkorrigeringar

Åtgärda en tillfällig låsning i KeywordRecognizer när du försöker stoppa den
Python:
- Korrigering för att hämta uttalsutvärderingsresultat när PronunciationAssessmentGranularity.FullText har angetts (kundproblem)
- Åtgärda problemet med att könsegenskapen för manliga röster inte hämtas när talsyntesröster erhålls.
JavaScript
- Korrigering för parsning av vissa WAV-filer som har registrerats på iOS-enheter (kundproblem)
- JS SDK kompileras nu utan att använda npm-force-resolutions (Customer issue)
- Konversationsöversättaren ställer nu in tjänstslutpunkten korrekt när du använder en speechConfig-instans som skapats med SpeechConfig.fromEndpoint()

Exempel

Exempel som visar hur du använder Inbäddat tal har lagts till
Ett tal-till-text-exempel har lagts till för MAUI

Se Lagringsplatsen för Speech SDK-exempel.

Speech SDK 1.24.2: November 2022-utgåvan

Nya funktioner

Inga nya funktioner, bara en inbäddad motorkorrigering för att stödja nya modellfiler.

Felkorrigeringar

Alla programmeringsspråk
- Ett problem med kryptering av inbäddade taligenkänningsmodeller har åtgärdats.

Speech SDK 1.24.1: November 2022-utgåva

Nya funktioner

Publicerade paket för förhandsversionen av Embedded Speech. Mer information finns i https://aka.ms/embedded-speech.

Felkorrigeringar

Alla programmeringsspråk
- Åtgärda inbäddad TTS-krasch när röstteckensnitt inte stöds
- Korrigering av stopSpeaking() kan inte stoppa uppspelning på Linux (#1686)
JavaScript SDK
- Åtgärdad regression i hur konversationstranskriberingen hanterade ljud.
Java
- Tillfälligt publicerade uppdaterade POM- och Javadocs-filer till Maven Central för att göra det möjligt för docs-pipelinen att uppdatera onlinereferensdokument.
Python
- Åtgärda regression där Python speak_text(ssml) returnerar void.

Speech SDK 1.24.0: Oktober 2022

Nya funktioner

Alla programmeringsspråk: AMR-WB (16khz) har lagts till i listan över text-till-tal-ljudutdataformat som stöds
Python: Paketet har lagts till för Linux Arm64 för Linux-distributioner som stöds.
C#/C++/Java/Python: Stöd har lagts till för direktuppspelning av ALAW och MULAW till taltjänsten (förutom befintlig PCM-ström) med hjälp av AudioStreamWaveFormat.
C# MAUI: NuGet-paketet har uppdaterats för att stödja Android-mål för .NET MAUI-utvecklare (kundproblem)
Mac: Lade till separat XCframework för Mac, som inte innehåller några iOS-binärfiler. Detta erbjuder ett alternativ för utvecklare som bara behöver Mac-binärfiler med ett mindre XCframework-paket.
Microsoft Audio Stack (MAS):
- När strålformningsvinklar anges ignoreras ljud som kommer utanför angivet intervall bättre.
- Ungefär 70 % minskning av storleken på libMicrosoft.CognitiveServices.Speech.extension.mas.so för Linux ARM32 och Linux Arm64.
Avsiktsigenkänning med mönstermatchning:
- Lägga till ortografistöd för språken fr, de, es, jp
- Fördefinierat stöd för heltal har lagts till för språket es.

Felkorrigeringar

iOS: Åtgärda talsyntesfel på iOS 16 som orsakas av komprimerat ljud avkodningsfel (kundproblem).
JavaScript:
- Åtgärda att autentiseringstoken inte fungerar när röstlistan för talsyntes hämtas (kundproblem).
- Använd data-URL för laddning av arbetare (kundärende).
- Skapa endast en ljudprocessorarbetare om AudioWorklet stöds i webbläsaren (Kundproblem). Detta var ett samhällsbidrag av William Wong. Tack William!
- Åtgärda igenkända motringningar när LUIS-svaret connectionMessage är tomt (kundproblem).
- Ange tidsgränsen för talsegmentering korrekt.
Avsiktsigenkänning med mönstermatchning:
- Icke-JSON-tecken i modeller läses nu in korrekt.
- Åtgärda hängande problem när recognizeOnceAsync(text) anropades under kontinuerlig igenkänning.

Speech SDK 1.23.0: Juli 2022-utgåvan

Nya funktioner

C#, C++, Java: Stöd har lagts till för språk zh-cn och zh-hk i Avsiktsigenkänning med mönstermatchning.
C#: Stöd har lagts till för AnyCPU .NET Framework-versioner

Felkorrigeringar

Android: Åtgärdat OpenSSL-sårbarhets-CVE-2022-2068 genom att uppdatera OpenSSL till 1.1.1q
Python: Åtgärda krasch när du använder PushAudioInputStream
iOS: Åtgärda "EXC_BAD_ACCESS: Försökte avreferera nullpekare" som rapporterats på iOS (GitHub-ärende)

Speech SDK 1.22.0: Juni 2022 utgåva

Nya funktioner

Java: IntentRecognitionResult API för getEntities(), applyLanguageModels() och recognizeOnceAsync(text) har lagts till för att stödja "motorn för enkel mönstermatchning".
Unity: Stöd har lagts till för Mac M1 (Apple Silicon) för Unity-paket (GitHub-problem)
C#: Stöd för x86_64 för Xamarin Android (GitHub-problem) har lagts till
C#: .NET Framework lägsta version uppdaterad till v4.6.2 för SDK C#-paketet eftersom v4.6.1 har dragits tillbaka (se Microsoft .NET Framework Component Lifecycle Policy)
Linux: Stöd har lagts till för Debian 11 och Ubuntu 22.04 LTS. Ubuntu 22.04 LTS kräver manuell installation av libssl1.1 antingen som ett binärt paket härifrån (till exempel libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb eller senare för x64) eller genom kompilering från källor.

Felkorrigeringar

UWP: OpenSSL-beroendet har tagits bort från UWP-bibliotek och ersatts med WinRT-websocket- och HTTP-API:er för att uppfylla säkerhetsefterlevnad och mindre binärt fotavtryck.
Mac: Problemet "MicrosoftCognitiveServicesSpeech Module Not Found" har åtgärdats vid användning av Swift-projekt som riktar sig till macOS-plattformen
Windows, Mac: Åtgärdat ett plattformsspecifikt problem där ljudkällor som konfigurerats via egenskaper för att strömma i realtid ibland hamnade efter och så småningom överskred kapaciteten

Exempel (GitHub)

C#: .NET Framework-exempel har uppdaterats för användning av v4.6.2
Unity: Exempel på virtuell assistent korrigerat för Android och UWP
Unity: Unity-exempel uppdaterade för Unity 2020 LTS-version

Speech SDK 1.21.0: April 2022-version

Nya funktioner

Java & JavaScript: Stöd för kontinuerlig språkidentifiering har lagts till när du använder SpeechRecognizer-objektet
JavaScript, diagnostiska API:er har lagts till för att möjliggöra nivå för konsollogging och filloggning (endast Node.js) för att hjälpa Microsoft att felsöka kundrapporterade problem
Python: Stöd för konversationstranskription har lagts till
Go: Stöd för talarigenkänning har lagts till
C++ & C#: Stöd har lagts till för en obligatorisk grupp ord i avsiktsigenkänningen (enkel mönstermatchning). Till exempel: "(set|start|begin) a timer" där antingen "set", "start" eller "begin" måste finnas för att avsikten ska kunna identifieras.
Alla programmeringsspråk, Speech Synthesis: Egenskapen duration har lagts till i ordgränshändelser. Stöd har lagts till för skiljeteckengräns och meningsgräns
Objective-C/Swift/Java: Lade till resultat på ordnivå i resultatobjektet Uttalsbedömning (liknar C#). Programmet behöver inte längre parsa en JSON-resultatsträng för att få information på ordnivå (GitHub-problem)
iOS-plattform: Lade till experimentellt stöd för ARMv7-arkitektur

Felkorrigeringar

iOS-plattform: Korrigering för att tillåta att målet "Alla iOS-enheter" skapas när du använder CocoaPod (GitHub-problem)
Android-plattform: OpenSSL-versionen har uppdaterats till 1.1.1n för att åtgärda säkerhetsrisker CVE-2022-0778
JavaScript: Åtgärda problem där wav-huvudet inte uppdaterades med filstorlek (GitHub-problem)
JavaScript: Åtgärda desynkroniseringsproblemet med begärande-ID som stör översättningsscenarier (GitHub-problem)
JavaScript: Åtgärda problem när du instansierar SpeakerAudioDestination utan ström (GitHub-problem]
C++: Åtgärda C++-huvuden för att ta bort en varning vid kompilering för C++17 eller senare

Exempel på GitHub

Nya Java-exempel för taligenkänning med språkidentifiering
Nya Python - och Java-exempel för konversationstranskription
Nytt Go-exempel för talarigenkänning
Nytt C++ och C#- verktyg för Windows som räknar upp alla enheter för ljudinspelning och återgivning för att hitta deras enhets-ID. Det här ID:t krävs av Speech SDK om du planerar att spela in ljud från eller återge ljud till en nondefault-enhet.

Speech SDK 1.20.0: Januari 2022

Nya funktioner

Objective-C, Swift och Python: Stöd har lagts till för DialogServiceConnector, som används för scenarier med röstassistenter.
Python: Stöd för Python 3.10 har lagts till. Stöd för Python 3.6 har tagits bort, i enlighet med Pythons slutet på livscykeln för 3.6.
Unity: Speech SDK stöds nu för Unity-program i Linux.
C++, C#: IntentRecognizer med mönstermatchning stöds nu i C#. Dessutom stöds scenarier med anpassade entiteter, valfria grupper och entitetsroller i C++ och C#.
C++, C#: Förbättrad spårningsloggning för diagnostik med hjälp av de nya klasserna FileLogger, MemoryLogger och EventLogger. SDK-loggar är ett viktigt verktyg för Microsoft för att diagnostisera kundrapporterade problem. Dessa nya klasser gör det enklare för kunder att integrera Speech SDK-loggar i sitt eget loggningssystem.
Alla programmeringsspråk: PronunciationAssessmentConfig har nu egenskaper för att ange önskat fonem-alfabet (IPA eller SAPI) och N-Best Phoneme Count (undvika behovet av att skapa en konfigurations-JSON enligt GitHub-problem 1284). Utdata på stavelsenivå stöds nu också.
Android, iOS och macOS (alla programmeringsspråk): GStreamer behövs inte längre för att stödja nätverk med begränsad bandbredd. SpeechSynthesizer använder nu operativsystemets ljudavkodningsfunktioner för att avkoda komprimerat ljud som strömmas från text till taltjänst.
Alla programmeringsspråk: SpeechSynthesizer har nu stöd för tre nya Opus-format för råutdata (utan container), som ofta används i scenarier med liveuppspelning.
JavaScript: Api:et getVoicesAsync() har lagts till i SpeechSynthesizer för att hämta listan över syntesröster som stöds (GitHub-nummer 1350)
JavaScript: Api:et getWaveFormat() har lagts till i AudioStreamFormat för att stödja icke-PCM-vågformat (GitHub-problem 452)
JavaScript: Har lagt till volymens getter/setter och mute()/unmute()-API:er till SpeakerAudioDestination (GitHub-ärende 463)

Felkorrigeringar

C++, C#, Java, JavaScript, Objective-C och Swift: Åtgärda för att ta bort en 10-sekunders fördröjning när du stoppar en taligenkänning som använder en PushAudioInputStream. Detta gäller för de fall då inget nytt ljud skickas in efter att StopContinuousRecognition anropats (GitHub-problem 1318, 331)
Unity på Android och UWP: Unity-metafiler har åtgärdats för UWP, Android Arm64 och Windows-undersystem för Android (WSA) Arm64 (GitHub-problem 1360)
iOS: Kompilera ditt Speech SDK-program på valfri iOS-enhet när du använder CocoaPods är nu åtgärdat (GitHub-problem 1320)
iOS: När SpeechSynthesizer har konfigurerats för att mata ut ljud direkt till en högtalare stoppades uppspelningen i början under sällsynta förhållanden. Det här har åtgärdats.
JavaScript: Använd fallback för skriptprocessor för mikrofonindata om ingen ljudarbetsmodul hittas (GitHub-problem 455)
JavaScript: Lägg till protokoll till agenten för att åtgärda buggar som hittats med Sentry-integrering (GitHub-problem 465)

Exempel på GitHub

C++-, C#-, Python- och Java-exempel som visar hur du får detaljerade igenkänningsresultat. Informationen omfattar alternativa igenkänningsresultat, konfidenspoäng, lexikalt formulär, Normaliserat formulär, Maskerat normaliserat formulär, med tidsinställning på ordnivå för var och en.
iOS-exempel har lagts till med AVFoundation som extern ljudkälla.
Java-exempel har lagts till för att visa hur du hämtar SRT-format (SubRip Text) med hjälp av WordBoundary-händelsen.
Android-exempel för uttalsutvärdering.
C++, C# som visar användningen av de nya diagnostikloggningsklasserna.

Speech SDK 1.19.0: 2021-Nov-utgåva

Höjdpunkter

Tjänsten för talarigenkänning är allmänt tillgänglig (GA) nu. Speech SDK-API:er är tillgängliga på C++, C#, Java och JavaScript. Med talarigenkänning kan du korrekt verifiera och identifiera talare med hjälp av deras unika röstegenskaper. Mer information om det här avsnittet finns i dokumentationen.
Vi har tagit bort stödet för Ubuntu 16.04 tillsammans med Azure DevOps och GitHub. Ubuntu 16.04 nådde slutet av livet redan i april 2021. Migrera dina Ubuntu 16.04-arbetsflöden till Ubuntu 18.04 eller senare.
OpenSSL-länkning i Linux-binärfiler har ändrats till dynamisk. Binär Linux-storlek har minskat med cirka 50 %.
Stöd för Mac M1 baserad på ARM-arkitektur har lagts till.

Nya funktioner

C++/C#/Java: Nya API:er har lagts till för att aktivera stöd för ljudbearbetning för talinmatning med Microsoft Audio Stack. Dokumentation här.
C++: Nya API:er för avsiktsigenkänning för att underlätta mer avancerad mönstermatchning. Detta inkluderar entiteter för list- och fördefinierade heltal samt stöd för gruppering av avsikter och entiteter som modeller (dokumentation, uppdateringar och exempel är under utveckling och kommer att publiceras inom en snar framtid).
Mac: Stöd för Arm64-baserade (M1) processorer för CocoaPod-, Python-, Java- och NuGet-paket relaterade till GitHub-ärende 1244.
iOS/Mac: iOS- och macOS-binärfiler paketeras nu i xcframework relaterade till GitHub-problem 919.
iOS/Mac: Stöd för Mac Catalyst som rör GitHub-fråga 1171.
Linux: Nytt tar-paket har lagts till för CentOS7 About the Speech SDK. Linux-.tar-paketet innehåller nu specifika bibliotek för RHEL/CentOS 7 i lib/centos7-x64. Speech SDK-bibliotek i lib/x64 gäller fortfarande för alla andra Linux x64-distributioner som stöds (inklusive RHEL/CentOS 8) och fungerar inte på RHEL/CentOS 7.
JavaScript: VoiceProfile- och SpeakerRecognizer-API:er har gjorts asynkrona och väntbara.
JavaScript: Stöd har lagts till för azure-regioner för amerikanska myndigheter.
Windows: Stöd har lagts till för uppspelning på Universell Windows-plattform (UWP).

Felkorrigeringar

Android: OpenSSL-säkerhetsuppdatering (uppdaterad till version 1.1.1l) för Android-paket.
Python: Åtgärdat fel där det inte går att välja högtalarenhet i Python.
Kärna: Återanslut automatiskt när ett anslutningsförsök misslyckas.
iOS: Ljudkomprimering inaktiveras på iOS-paket på grund av instabilitet och problem med bitkodsgenerering när du använder GStreamer. Information finns tillgänglig via GitHub-problem 1209.

Exempel på GitHub

Mac/iOS: Uppdaterade exempel och snabbstarter för att använda xcframework-paketet.
.NET: Exempel har uppdaterats för att använda .NET Core 3.1-versionen.
JavaScript: Ett exempel har lagts till för röstassistenter.

Speech SDK 1.18.0: juli 2021-versionen

Obs! Kom igång med Speech SDK här.

Sammanfattning av höjdpunkter

Ubuntu 16.04 nådde slutet av livet i april 2021. Med Azure DevOps och GitHub släpper vi supporten för 16.04 i september 2021. Migrera ubuntu-16.04-arbetsflöden till ubuntu-18.04 eller senare innan dess.

Nya funktioner

C++: Enkel språkmönstermatchning med intent recognizer gör det nu enklare att implementera enkla scenarier för avsiktsigenkänning.
C++/C#/Java: Vi har lagt till ett nytt API i GetActivationPhrasesAsync() klassen för att VoiceProfileClient ta emot en lista över giltiga aktiveringsfraser i registreringsfasen för talarigenkänning för oberoende igenkänningsscenarier.
- Viktigt: Funktionen talarigenkänning finns i förhandsversion. Alla röstprofiler som skapats i förhandsversionen upphör 90 dagar efter att funktionen Talarigenkänning har flyttats från förhandsversionen till Allmän tillgänglighet. Då slutar röstprofilerna för förhandsversionen att fungera.
Python: Stöd har lagts till för kontinuerlig språkidentifiering (LID) för befintliga SpeechRecognizer objekt och TranslationRecognizer objekt.
Python: Lade till ett nytt Python-objekt med namnet SourceLanguageRecognizer för att göra enstaka eller kontinuerlig LID (utan igenkänning eller översättning).
JavaScript: getActivationPhrasesAsync API har lagts till i klassen för att VoiceProfileClient ta emot en lista över giltiga aktiveringsfraser i registreringsfasen för talarigenkänning för oberoende igenkänningsscenarier.
JavaScriptsVoiceProfileClientenrollProfileAsync API kan nu använda async/await. Se den här oberoende identifieringskoden, till exempel användning.

Förbättringar

Java: AutoCloseable-stöd har lagts till i många Java-objekt. Nu stöds try-with-resources-modellen för att frigöra resurser. Se det här exemplet som använder try-with-resources. Se även dokumentationshandledningen för Oracle Java för try-with-resources-instruktionen för att lära dig om detta mönster.
Diskavtrycket har minskat avsevärt för många plattformar och arkitekturer. Exempel för Microsoft.CognitiveServices.Speech.core binärfilen: x64 Linux är 475 KB mindre (8,0 % minskning); Arm64 Windows UWP är 464 KB mindre (11,5 % minskning); x86 Windows är 343 KB mindre (17,5 % minskning); och x64 Windows är 451 KB mindre (19,4 % minskning).

Felkorrigeringar

Java: Åtgärdat syntesfel när syntestexten innehåller surrogattecken. Information här.
JavaScript: Ljudbearbetning för mikrofonen i webbläsaren använder nu AudioWorkletNode i stället för den inaktuella ScriptProcessorNode. Information här.
JavaScript: Håll konversationerna vid liv under långvariga scenarier för konversationsöversättning. Information här.
JavaScript: Åtgärdat problem med att identifieraren återansluter till en mediastream i kontinuerlig igenkänning. Information här.
JavaScript: Åtgärdat problem med att identifieraren återansluter till en pushStream i kontinuerlig igenkänning. Information här.
JavaScript: Korrigerad förskjutningsberäkning på ordnivå i detaljerade igenkänningsresultat. Information här.

Exempel

Java-snabbstartsexempel uppdaterade här.
JavaScript-talarigenkänningsexempel har uppdaterats för att visa ny användning av enrollProfileAsync(). Se exempel här.

Speech SDK 1.17.0: 2021-Maj utgåva

Anteckning

Kom igång med Speech SDK här.

Sammanfattning av höjdpunkter

Mindre fotavtryck – vi fortsätter att minska minnet och diskavtrycket för Speech SDK och dess komponenter.
Med ett nytt fristående API för språkidentifiering kan du känna igen vilket språk som talas.
Utveckla talaktiverade appar för mixad verklighet och spel med Unity på macOS.
Nu kan du använda Text till tal utöver taligenkänning från programmeringsspråket Go.
Flera buggkorrigeringar för att åtgärda problem som du, våra värdefulla kunder, har flaggat på GitHub! TACK! Fortsätt att ge feedback!

Nya funktioner

C++/C#: Ny fristående initiering och kontinuerlig språkdetektion via SourceLanguageRecognizer-API:et. Om du bara vill identifiera språk som talas i ljudinnehåll är detta API:et för att göra det. Mer information finns i C++ och C#.
C++/C#: Taligenkänning och översättningsigenkänning stöder nu både start- och kontinuerlig språkidentifiering så att du programmatiskt kan avgöra vilka språk som talas innan de transkriberas eller översätts. Se dokumentationen här för Taligenkänning och här för Talöversättning.
C#: Stöd för Unity-stöd för macOS (x64) har lagts till. Detta låser upp användningsfall för taligenkänning och talsyntes i mixad verklighet och spel!
Go: Vi har lagt till stöd för talsyntestext till tal till programmeringsspråket Go för att göra talsyntes tillgänglig i ännu fler användningsfall. Se vår snabbstart eller vår referensdokumentation.
C++/C#/Java/Python/Objective-C/Go: Talsyntesen stöder nu objektet connection . Detta hjälper dig att hantera och övervaka anslutningen till Speech-tjänsten och är särskilt användbart för att föransluta för att minska svarstiden. Se dokumentationen här.
C++/C#/Java/Python/Objective-C/Go: Vi exponerar nu latens och underkörningstid i SpeechSynthesisResult för att hjälpa dig övervaka och diagnostisera latensproblem i talsyntes. Mer information finns i C++, C#, Java, Python, Objective-C och Go.
C++/C#/Java/Python/Objective-C: Text till tal använder nu neurala röster som standard när du inte anger en röst som ska användas. Detta ger dig högre återgivningsutdata som standard, men ökar även standardpriset.
C++/C#/Java/Python/Objective-C/Go: Vi har lagt till en könsegenskap i röstinformationen för syntes för att göra det enklare att välja röster baserat på kön. Detta åtgärdar GitHub-problem #1055.
C++, C#, Java, JavaScript: Vi stöder retrieveEnrollmentResultAsyncnu , getAuthorizationPhrasesAsyncoch getAllProfilesAsync() i talarigenkänning för att underlätta användarhanteringen av alla röstprofiler för ett visst konto. Se dokumentationen för C++, C#, Java, JavaScript. Detta åtgärdar GitHub-problem #338.
JavaScript: Vi har lagt till ett nytt försök för anslutningsfel som gör dina JavaScript-baserade talprogram mer robusta.

Förbättringar

Linux- och Android Speech SDK-binärfiler har uppdaterats för att använda den senaste versionen av OpenSSL (1.1.1k)
Förbättringar av kodstorlek:
- Language Understanding är nu uppdelat i ett separat "lu"-bibliotek.
- Binär storlek för Windows x64-kärnor minskade med 14,4 %.
- Android Arm64 kärnbinärens storlek minskade med 13,7 %.
- andra komponenter minskade också i storlek.

Felkorrigeringar

Alla: GitHub-problem #842 för ServiceTimeout har åtgärdats. Nu kan du transkribera långa ljudfiler med hjälp av Speech SDK utan att anslutningen till tjänsten avslutas med det här felet. Vi rekommenderar dock fortfarande att du använder batch-transkription för långa filer.
C#: Åtgärdat GitHub-problem #947 där avsaknaden av talinmatning kunde leda till att appen hamnade i ett felaktigt tillstånd.
Java: GitHub-problem #997 har åtgärdats där Speech SDK för Java 1.16 kraschar när du använder DialogServiceConnector utan nätverksanslutning eller en ogiltig prenumerationsnyckel.
En krasch har åtgärdats när taligenkänningen plötsligt stoppades (till exempel genom att använda CTRL+C i konsolappen).
Java: En korrigering har lagts till för att ta bort temporära filer i Windows när du använder Speech SDK för Java.
Java: GitHub-problem #994 har åtgärdats där anrop DialogServiceConnector.stopListeningAsync kan resultera i ett fel.
Java: Ett kundproblem har åtgärdats i snabbstarten för den virtuella assistenten.
JavaScript: Åtgärdade GitHub-problem #366, där ConversationTranslator orsakade ett felmeddelande om att 'this.cancelSpeech inte är en funktion'.
JavaScript: Fixa GitHub-problemet #298 där exemplet 'Få resultat som en ström i minnet' spelades upp högt.
JavaScript: GitHub-problem #350 har åtgärdats där anrop AudioConfig kan resultera i att "ReferenceError: MediaStream inte har definierats".
JavaScript: En UnhandledPromiseRejection-varning har åtgärdats i Node.js för långvariga sessioner.

Exempel

Dokumentationen om Unity-exempel för macOS har uppdaterats här.
Ett React Native-exempel för Azure AI Speech-igenkänningstjänsten är nu tillgängligt här.

Speech SDK 1.16.0: 2021–marsutgåvan

Anteckning

Speech SDK för Windows är beroende av Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019.

Nya funktioner

C++/C#/Java/Python: Flyttade till den senaste versionen av GStreamer (1.18.3) för att lägga till stöd för transkribering av medieformat i Windows, Linux och Android. Se dokumentationen här.
C++/C#/Java/Objective-C/Python: Stöd har lagts till för avkodning av komprimerat TTS/syntetiserat ljud till SDK. Om du ställer in utdataljudformatet på PCM och GStreamer är tillgängligt i systemet begär SDK automatiskt komprimerat ljud från tjänsten för att spara bandbredd och avkoda ljudet på klienten. Du kan ställa in SpeechServiceConnection_SynthEnableCompressedAudioTransmission till false för att inaktivera den här funktionen. Information om C++, C#, Java, Objective-C, Python.
JavaScript: Node.js användare kan nu använda APIAudioConfig.fromWavFileInput. Detta åtgärdar GitHub-problem #252.
C++/C#/Java/Objective-C/Python: En ny metod har lagts till för TTS som returnerar alla tillgängliga syntesröster. Information om C++, C#, Java, Objective-C och Python.
C++/C#/Java/JavaScript/Objective-C/Python: Lade till VisemeReceived händelse för TTS/talsyntes för att returnera synkron viseme-animering. Se dokumentationen här.
C++/C#/Java/JavaScript/Objective-C/Python: Lagt till händelse BookmarkReached för TTS. Du kan ange bokmärken med indata-SSML och få ljudoffsetar för varje bokmärke. Se dokumentationen här.
Java: Stöd för API:er för talarigenkänning har lagts till. Information här.
C++/C#/Java/JavaScript/Objective-C/Python: Lade till två nya utdataljudformat med WebM-container för TTS (Webm16Khz16BitMonoOpus och Webm24Khz16BitMonoOpus). Det här är bättre format för direktuppspelning av ljud med Opus codec. Information om C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: Stöd har lagts till för att hämta röstprofilen för scenariot talarigenkänning. Information om C++, C#och Java.
C++/C#/Java/Objective-C/Python: Stöd har lagts till för separat delat bibliotek för ljudmikrofon och talarkontroll. På så sätt kan utvecklaren använda SDK:t i miljöer som inte har nödvändiga beroenden för ljudbibliotek.
Objective-C/Swift: Stöd har lagts till för modulramverk med paraplyrubrik. På så sätt kan utvecklaren importera Speech SDK som en modul i iOS/Mac Objective-C/Swift-appar. Detta åtgärdar GitHub-problem #452.
Python: Stöd för Python 3.9 har lagts till och stöd för Python 3.5 har tagits bort på grund av att version 3.5 nått slutet på sin livscykel.

Kända problem

C++/C#/Java: DialogServiceConnector kan inte använda en CustomCommandsConfig för att komma åt ett program för anpassade kommandon och kommer i stället att stöta på ett anslutningsfel. Du kan kringgå detta genom att manuellt lägga till ditt program-ID i begäran med config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Det förväntade beteendet hos CustomCommandsConfig kommer att återställas i nästa version.

Förbättringar

Som en del av vårt arbete med flera versioner för att minska Speech SDK:s minnesanvändning och diskfotavtryck är Android-binärfiler nu 3 till 5 % mindre.
Förbättrad noggrannhet, läsbarhet och se-även-avsnitt i vår C#-referensdokumentation här.

Felkorrigeringar

JavaScript: Stora WAV-filhuvuden parsas nu korrekt (ökar rubriksegmentet till 512 byte). Detta åtgärdar GitHub-problem #962.
JavaScript: Korrigerat problem med mikrofontidsinställning om mikrofonströmmen slutar att fungera innan igenkänningen stoppas, vilket åtgärdar ett problem med att taligenkänning inte fungerar i Firefox.
JavaScript: Vi hanterar nu initieringslöftet korrekt när webbläsaren tvingar mikrofonen av innan turnOn slutförs.
JavaScript: Vi ersatte URL-beroendet med url-parse. Detta åtgärdar GitHub-problem #264.
Android: Fasta återanrop fungerar inte när minifyEnabled är inställt på sant.
C++/C#/Java/Objective-C/Python: TCP_NODELAY är korrekt inställt på underliggande socket-I/O för TTS för att minska svarstiden.
C++/C#/Java/Python/Objective-C/Go: Åtgärdade en tillfällig krasch när identifieraren förstördes strax efter att en igenkänning påbörjats.
C++/C#/Java: En tillfällig krasch relaterad till förstöringen av talarigenkännaren har blivit åtgärdad.

Exempel

JavaScript: Webbläsarexempel kräver inte längre separat nedladdning av JavaScript-biblioteksfil.

Speech SDK 1.15.0: 2021-januariutgåva

Anteckning

Speech SDK för Windows är beroende av Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019.

Sammanfattning av höjdpunkter

Mindre minne och diskfotavtryck gör SDK:et mer effektivt.
Utdataformat med högre återgivning är tillgängliga för privat förhandsversion av anpassad neural röst.
Avsiktsigenkänning kan nu få mer avkastning än den främsta avsikten, vilket ger dig möjlighet att göra en separat utvärdering av kundens avsikt.
Röstassistenter och robotar är nu enklare att konfigurera, och du kan få det att sluta lyssna direkt och utöva större kontroll över hur det svarar på fel.
Förbättrad enhetsprestanda genom att göra komprimering valfritt.
Använd Speech SDK på Windows ARM/Arm64.
Förbättrad felsökning på låg nivå.
Uttalsbedömningsfunktionen är nu mer allmänt tillgänglig.
Flera buggkorrigeringar för att åtgärda problem som du, våra värdefulla kunder, har flaggat på GitHub! TACK! Fortsätt att ge feedback!

Förbättringar

Speech SDK är nu effektivare och enklare. Vi har påbörjat ett arbete med flera versioner för att minska Speech SDK:s minnesanvändning och diskavtryck. Som ett första steg gjorde vi betydande filstorleksminskningar i delade bibliotek på de flesta plattformar. Jämfört med 1.14-versionen:
- 64-bitars UWP-kompatibla Windows-bibliotek är cirka 30 % mindre.
- 32-bitars Windows-bibliotek ser ännu ingen storleksförbättring.
- Linux-bibliotek är 20–25 % mindre.
- Android-bibliotek är 3–5 % mindre.

Nya funktioner

Alla: Nya ljudformat på 48 KHz som är tillgängliga för den privata förhandstitt av anpassad neuroröst genom TTS talsyntes-API:t: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Alla: Anpassad röst är också enklare att använda. Stöd har lagts till för att ställa in anpassad röst via EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Innan den här ändringen behövde anpassade röstanvändare ange slutpunkts-URL:en via FromEndpoint -metoden. Nu kan kunderna använda FromSubscription metoden precis som standardröster och sedan ange distributions-ID:t genom att ange EndpointId. Detta förenklar konfigurationen av anpassade röster.
C++/C#/Java/Objective-C/Python: Hämta mer än den främsta avsikten frånIntentRecognizer. Nu har den stöd för att konfigurera JSON-resultatet som innehåller alla avsikter och inte bara avsikten med högsta poäng via LanguageUnderstandingModel FromEndpoint metoden med hjälp av URI-parametern verbose=true . Detta åtgärdar GitHub-problem #880. Se uppdaterad dokumentation här.
C++/C#/Java: Gör så att röstassistenten eller roboten slutar lyssna direkt. DialogServiceConnector (C++, C#, Java) har nu en StopListeningAsync() metod att följa med ListenOnceAsync(). Detta stoppar omedelbart ljudinspelningen och väntar graciöst på ett resultat, vilket gör det perfekt för användning med knapptryckningsscenarier "stoppa nu".
C++/C#/Java/JavaScript: Få röstassistenten eller roboten att reagera bättre på underliggande systemfel. DialogServiceConnector (C++, C#, Java, JavaScript) har nu en ny TurnStatusReceived händelsehanterare. Dessa valfria händelser motsvarar varje ITurnContext resolution på roboten och rapporterar körningsfel när de inträffar, till exempel på grund av ett ohanterat undantag, en timeout eller ett nätverksavbrott mellan Direct Line Speech och roboten. TurnStatusReceived gör det enklare att svara på feltillstånd. Om en robot till exempel tar för lång tid på en backend-databasfråga (till exempel när du letar upp en produkt), TurnStatusReceived kan klienten veta att den bör be om ett svar igen med "förlåt, jag förstod inte riktigt det, kan du försöka igen" eller något liknande.
C++/C#: Använd Speech SDK på fler plattformar. NuGet-paketet för Speech SDK stöder nu interna binärfiler för Windows ARM/Arm64-skrivbord (UWP stöds redan) för att göra Speech SDK mer användbart för fler datortyper.
Java: DialogServiceConnector har nu en setSpeechActivityTemplate() metod som oavsiktligt exkluderades från språket tidigare. Detta motsvarar att ange Conversation_Speech_Activity_Template egenskapen och begär att alla framtida Bot Framework-aktiviteter som kommer från Direct Line Speech-tjänsten sammanfogar det angivna innehållet i deras JSON-nyttolaster.
Java: Förbättrad felsökning på låg nivå. Klassen Connection har nu en MessageReceived händelse som liknar andra programmeringsspråk (C++, C#). Den här händelsen ger åtkomst på låg nivå till inkommande data från tjänsten och kan vara användbar för diagnostik och felsökning.
JavaScript: Enklare installation för röstassistenter och robotar via BotFrameworkConfig, som nu har fromHost() och fromEndpoint() fabriksmetoder som förenklar användningen av anpassade tjänstplatser jämfört med att ange egenskaper manuellt. Vi har också standardiserat valfri specifikation för botId för att använda en icke-standardbot över konfigurationsfabrikerna.
JavaScript: Förbättrad enhetsprestanda genom att lägga till strängkontrollegenskap för websocket-komprimering. Av prestandaskäl inaktiverade vi websocket-komprimering som standard. Detta kan återanvändas för scenarier med låg bandbredd. Mer information finns här. Detta åtgärdar GitHub-problem #242.
JavaScript: Stöd för lPronunciation Assessment har lagts till för att möjliggöra utvärdering av tal uttal. Se snabbstarten här.

Felkorrigeringar

Alla (utom JavaScript): Korrigerade en regression i version 1.14, där för mycket minne allokerades av identifieraren.
C++: Ett problem med skräpinsamling har åtgärdats med DialogServiceConnector, vilket åtgärdar GitHub-problemet #794.
C#: Åtgärdat ett problem med trådavstängning som gjorde att objekt blockerades i ungefär en sekund när de kasserades.
C++/C#/Java: Ett undantag som tidigare hindrade en applikation från att ställa in token för talauktorisering eller aktivitetsmall mer än en gång på en DialogServiceConnector har åtgärdats.
C++/C#/Java: Åtgärdade en igenkänningskrasch orsakad av ett konkurrensproblem vid nedmontering.
JavaScript: DialogServiceConnector respekterade tidigare inte den valfria parametern botId som definierades i BotFrameworkConfig-fabrikerna. Detta gjorde det nödvändigt att ange botId frågesträngsparametern manuellt för att använda en robot som inte är standard. Buggen har korrigerats och de botId-värden som tillhandahålls till BotFrameworkConfig:s fabriker kommer att beaktas och användas, vilket inkluderar de nya fromHost() och fromEndpoint()-tilläggen. Detta gäller även för parametern applicationId för CustomCommandsConfig.
JavaScript: GitHub-problem #881 har åtgärdats, vilket tillåter återanvändning av identifierarobjekt.
JavaScript: Ett problem där SDK skickades speech.config flera gånger i en TTS-session har åtgärdats, vilket ledde till slöseri med bandbredd.
JavaScript: Förenklad felhantering vid mikrofonauktorisering, vilket gör att mer beskrivande meddelande kan bubbla upp när användaren inte har tillåtit mikrofoninmatning i webbläsaren.
JavaScript: GitHub-problem #249 har åtgärdats där typfel i ConversationTranslator och ConversationTranscriber orsakade ett kompileringsfel för TypeScript-användare.
Objective-C: Åtgärdade ett problem där GStreamer-versionen misslyckades för iOS på Xcode 11.4 och åtgärdade GitHub-problem #911.
Python: GitHub-problemet #870 har åtgärdats, vilket tar bort "DeprecationWarning: the imp module is deprecated in favor of importlib".

Exempel

Exempel från fil för JavaScript-webbläsaren använder nu filer för taligenkänning. Detta åtgärdar GitHub-problem #884.

Speech SDK 1.14.0: utgåva oktober 2020

Anteckning

Speech SDK för Windows är beroende av Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019.

Nya funktioner

Linux: Stöd har lagts till för Debian 10 och Ubuntu 20.04 LTS.
Python/Objective-C: Stöd har lagts till för API:et KeywordRecognizer . Dokumentationen kommer att finnas här.
C++/Java/C#: Stöd har lagts till för att ange valfri HttpHeader nyckel/värde via ServicePropertyChannel::HttpHeader.
JavaScript: Lagt till stöd för ConversationTranscriber-API:et. Läs dokumentationen här.
C++/C#: Ny metod har lagts till AudioDataStream FromWavFileInput (för att läsa . WAV-filer) här (C++) och här (C#).
C++/C#/Java/Python/Objective-C/Swift: Lade till en stopSpeakingAsync() metod för att stoppa text till talsyntes. Läs referensdokumentationen här (C++), här (C#), här (Java), här (Python)och här (Objective-C/Swift).
C#, C++, Java: En funktion har lagts FromDialogServiceConnector() till i Connection klassen som kan användas för att övervaka anslutnings- och frånkopplingshändelser för DialogServiceConnector. Läs referensdokumentationen här (C#), här (C++), och här (Java).
C++/C#/Java/Python/Objective-C/Swift: Stöd för uttalsbedömning har lagts till, vilket utvärderar tal uttal och ger talare feedback om noggrannhet och flyt i talat ljud. Läs dokumentationen här.

Icke-kompatibel ändring

JavaScript: PullAudioOutputStream.read() har en returtypsändring från ett internt promise till ett Native JavaScript Promise.

Felkorrigeringar

Alla: Fast 1,13-regression där SetServiceProperty värden med vissa specialtecken ignorerades.
C#: Åtgärdade ett problem där Windows-konsolexempel i Visual Studio 2019 inte kunde hitta inbyggda DLL:er.
C#: En krasch med minneshantering har åtgärdats om dataström används som KeywordRecognizer indata.
ObjectiveC/Swift: En krasch med minneshantering har åtgärdats om dataström används som indata för identifierare.
Windows: Problem med samexistens med BT HFP/A2DP på UWP har åtgärdats.
JavaScript: Fast mappning av sessions-ID:er för att förbättra loggning och hjälp vid interna felsöknings-/tjänstkorrelationer.
JavaScript: Korrigering har lagts till för DialogServiceConnector att inaktivera ListenOnce anrop efter att det första anropet har gjorts.
JavaScript: Ett problem har åtgärdats där resultatet alltid bara var "enkel".
JavaScript: Problem med kontinuerlig igenkänning har åtgärdats i Safari på macOS.
JavaScript: Processorbelastningsreducering för scenario med dataflöde med höga begäranden.
JavaScript: Tillåt åtkomst till information om röstprofilregistreringsresultat.
JavaScript: Korrigering har lagts till för kontinuerlig igenkänning i IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: Korrigerade felaktig URL för australiaeast och brazilsouth i IntentRecognizer.
C++/C#: Har lagts till VoiceProfileType som ett argument när ett VoiceProfile objekt skapas.
C++/C#/Java/Python/Swift/ObjectiveC: Fast potential SPX_INVALID_ARG vid försök att läsa AudioDataStream från en viss position.
IOS: En krasch med taligenkänning på Unity har åtgärdats

Exempel

ObjectiveC: Exempel för nyckelordsigenkänning har lagts till här.
C#/JavaScript: Snabbstart för konversationstranskription har lagts till här (C#) och här (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: Exempel för uttalsutvärdering har lagts till här

Känt problem

DigiCert Global Root G2-certifikat stöds inte som standard i HoloLens 2 och Android 4.4 (KitKat) och måste läggas till i systemet för att Speech SDK ska fungera. Certifikatet läggs till i HoloLens 2 OS-avbildningar inom en snar framtid. Android 4.4-kunder måste lägga till det uppdaterade certifikatet i systemet.

COVID-19-förkortad testning

På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. I det osannolika fallet att vi missade något kan du meddela oss på GitHub.
Håll dig frisk!

Speech SDK 1.13.0: juli 2020-utgåva

Anteckning

Speech SDK för Windows är beroende av Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019.

Nya funktioner

C#: Stöd för asynkron konversationstranskription har lagts till. Se dokumentationen här.
JavaScript: Stöd för talarigenkänning har lagts till för både webbläsare och Node.js.
JavaScript: Stöd för språkidentifiering/språk-ID har lagts till. Se dokumentationen här.
Objective-C: Stöd har lagts till för konversation och konversationstranskription med flera enheter.
Python: Stöd för komprimerat ljud har lagts till för Python i Windows och Linux. Se dokumentationen här.

Felkorrigeringar

Alla: Åtgärdat ett problem som gjorde att KeywordRecognizer inte gick vidare med strömmarna efter en igenkänning.
Alla: Ett problem som gjorde att dataströmmen från keywordRecognitionResult inte innehöll nyckelordet har åtgärdats.
Alla: Åtgärdade ett problem där SendMessageAsync inte riktigt skickar meddelandet över nätverket efter att användarna har avslutat att vänta på det.
Alla: En krasch i API:er för talarigenkänning har åtgärdats när användare anropar Metoden VoiceProfileClient::SpeakerRecEnrollProfileAsync flera gånger och väntade inte på att anropen skulle slutföras.
Alla: Åtgärdade att aktivera filloggning i klasserna VoiceProfileClient och SpeakerRecognizer.
JavaScript: Ett problem med begränsningen har åtgärdats när webbläsaren minimeras.
JavaScript: Åtgärdade ett problem med en minnesläcka på strömmar.
JavaScript: Cachelagring har lagts till för OCSP-svar från NodeJS.
Java: Ett problem som gjorde att BigInteger-fält alltid returnerades 0 har åtgärdats.
iOS: Ett problem med att publicera Speech SDK-baserade appar i iOS App Store har åtgärdats.

Exempel

C++: Exempelkoden för talarigenkänning har lagts till här.

COVID-19-förkortad testning

Speech SDK 1.12.1: 2020-juniutgåva

Nya funktioner

C#, C++: Förhandsversion av talarigenkänning: Den här funktionen möjliggör talaridentifiering (vem talar?) och talarverifiering (är talaren den som de påstår sig vara?). Se översiktsdokumentationen.

Felkorrigeringar

C#, C++: Fast mikrofoninspelning fungerade inte i 1.12 i talarigenkänning.
JavaScript: Korrigeringar för text till tal i Firefox och Safari på macOS och iOS.
Korrigering för krasch på grund av åtkomstöverträdelse i Windows-programverifieraren vid transkribering av konversationer när en åttakanalsström används.
Korrigering för krasch som orsakas av att Windows-programverifieraren försummar åtkomst vid översättning av konversationer med flera enheter.

Exempel

C#: Kodexempel för talarigenkänning.
C++: Kodexempel för talarigenkänning.
Java: Kodexempel för avsiktsigenkänning på Android.

COVID-19-förkortad testning

Speech SDK 1.12.0: 2020-Maj-utgåva

Nya funktioner

Go: Nytt Go-språkstöd för taligenkänning och anpassad röstassistent. Konfigurera utvecklingsmiljön här. Exempelkod finns i avsnittet Exempel nedan.
JavaScript: Stöd för text till tal har lagts till i webbläsaren. Se dokumentationen här.
C++, C#, Java: Nya KeywordRecognizer objekt och API:er som stöds på Windows-, Android-, Linux- och iOS-plattformar. Läs dokumentationen här. Exempelkod finns i avsnittet Exempel nedan.
Java: Konversation med flera enheter har lagts till med översättningsstöd. Se referensdokumentet här.

Förbättringar och optimeringar

JavaScript: Optimerad implementering av webbläsarens mikrofon förbättrar taligenkänningens noggrannhet.
Java: Omstrukturerade bindningar med direkt JNI-implementering utan SWIG. Den här ändringen minskar med 10 x bindningsstorleken för alla Java-paket som används för Windows, Android, Linux och Mac och underlättar ytterligare utveckling av Speech SDK Java-implementeringen.
Linux: Uppdaterad supportdokumentation med de senaste RHEL 7-specifika anteckningarna.
Förbättrad anslutningslogik för att försöka ansluta flera gånger när tjänst- och nätverksfel inträffar.
Uppdaterade snabbstartssidan för portal.azure.com Speech för att hjälpa utvecklare att ta nästa steg i Azure AI Speech-resan.

Felkorrigeringar

C#, Java: Åtgärdat ett problem med att läsa in SDK-bibliotek i Linux ARM (både 32-bitars och 64-bitars).
C#: Fixade explicit frånkoppling av inbyggda hanterare för TranslationRecognizer, IntentRecognizer och Anslutningsobjekt.
C#: Livslängdshantering för fast ljudinmatning för ConversationTranscriber-objekt.
Ett problem där IntentRecognizer resultatorsaken inte angavs korrekt vid identifiering av avsikter från enkla fraser har åtgärdats.
Ett problem har åtgärdats där SpeechRecognitionEventArgs resultatförskjutningen inte angavs korrekt.
Ett tävlingstillstånd har åtgärdats där SDK försökte skicka ett nätverksmeddelande innan websocket-anslutningen öppnades. Var reproducerbar för TranslationRecognizer när deltagarna lades till.
Åtgärdade minnesläckor i nyckelordsigenkänningsmotorn.

Exempel

Go: Snabbstarter för taligenkänning och anpassad röstassistent har lagts till. Hitta exempelkod här.
JavaScript: Snabbstarter för text till tal, översättning och avsiktsigenkänning har lagts till.
Exempel på nyckelordsigenkänning för C# och Java (Android).

COVID-19-förkortad testning

På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. Om vi har missat något kan du meddela oss på GitHub.
Håll dig frisk!

Speech SDK 1.11.0: 2020-marsutgåva

Nya funktioner

Linux: Stöd har lagts till för Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
Linux: Stöd har lagts till för .NET Core C# på Linux ARM32 och Arm64. Läs mer här.
C#, C++: Har lagts till UtteranceId i ConversationTranscriptionResult, ett konsekvent ID för alla mellanliggande och slutligt taligenkänningsresultat. Information om C#, C++.
Python: Stöd har lagts till för Language ID. Se speech_sample.py i GitHub-lagringsplatsen.
Windows: Stöd för komprimerat ljudinmatningsformat har lagts till på Windows-plattformen för alla win32-konsolprogram. Information här.
JavaScript: Stöd för talsyntes (text till tal) i NodeJS. Läs mer här.
JavaScript: Lägg till nya API:er för att aktivera kontroll av alla skicka och mottagna meddelanden. Läs mer här.

Felkorrigeringar

C#, C++: Ett problem har åtgärdats, så SendMessageAsync nu skickas binärt meddelande som binär typ. Information om C#, C++.
C#, C++: Ett problem har åtgärdats där användning av Connection MessageReceived-händelsen kan orsaka krasch om Recognizer tas bort före objekt Connection. Information om C#, C++.
Android: Ljudbuffertstorleken från mikrofonen minskade från 800 ms till 100 ms för att förbättra svarstiden.
Android: Ett problem med x86 Android-emulatorn i Android Studio har åtgärdats.
JavaScript: Stöd har lagts till för regioner i Kina med API:et fromSubscription . Information här.
JavaScript: Lägg till mer felinformation för anslutningsfel från NodeJS.

Exempel

Unity: Det offentliga exemplet för avsiktsigenkänning har åtgärdats, där LUIS json-importen misslyckades. Information här.
Python: Exempel har lagts till för Language ID. Information här.

Covid19-förkortad testning: På grund av fjärrarbete under de senaste veckorna kunde vi inte utföra så mycket manuell enhetsverifieringstestning som normalt. Vi kunde till exempel inte testa mikrofonindata och högtalarutdata i Linux, iOS och macOS. Vi har inte gjort några ändringar som vi tror kan ha brutit något på dessa plattformar, och våra automatiserade tester har alla godkänts. I det osannolika fallet att vi missade något meddelar du oss på GitHub.
Tack för ditt fortsatta stöd. Som alltid kan du skicka frågor eller feedback på GitHub eller Stack Overflow.
Håll dig frisk!

Speech SDK 1.10.0: 2020-februari release

Nya funktioner

Python-paket har lagts till för att stödja den nya 3.8-versionen av Python.
Stöd för Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

Anteckning

Kunder måste konfigurera OpenSSL enligt dessa instruktioner.
Linux ARM32-stöd för Debian och Ubuntu.
DialogServiceConnector stöder nu en valfri "bot ID"-parameter på BotFrameworkConfig. Den här parametern tillåter användning av flera Direct Line Speech-robotar med en enda Speech-resurs. Utan den angivna parametern används standardroboten (enligt konfigurationssidan för Direct Line Speech-kanalen).
DialogServiceConnector har nu en SpeechActivityTemplate-egenskap. Innehållet i den här JSON-strängen används av Direct Line Speech för att fylla i en mängd olika fält som stöds i alla aktiviteter som når en Direct Line Speech-robot, inklusive aktiviteter som genereras automatiskt som svar på händelser som taligenkänning.
TTS använder nu prenumerationsnyckel för autentisering, vilket minskar den första bytefördröjningen för det första syntesresultatet när du har skapat en synthesizer.
Uppdaterade taligenkänningsmodeller för 19 språk för en genomsnittlig minskning av ordfelfrekvensen med 18,6 % (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). De nya modellerna medför betydande förbättringar i flera domäner, inklusive diktering, callcenter-transkription och videoindexeringsscenarier.

Felkorrigeringar

En bugg har åtgärdats där konversationstranskriberaren inte väntade korrekt i JAVA-API:er.
Lägg till saknade (Get|Set)Egenskapsmetoder till AudioConfig.
Åtgärda en TTS-bugg där audioDataStream inte kunde stoppas när anslutningen misslyckas.
Att använda en slutpunkt utan en region skulle orsaka USP-fel för konversationsöversättaren.
ID-genereringen i de universella Windows-programmen använder nu en lämpligt unik GUID-algoritm. Tidigare hade den oavsiktligt standardiserats till en förenklad implementering som ofta orsakade kollisioner över stora uppsättningar av interaktioner.

Exempel

Unity-exempel för användning av Speech SDK med Unity-mikrofon och direktuppspelning i push-läge

Andra ändringar

Dokumentation om OpenSSL-konfiguration uppdaterad för Linux

Speech SDK 1.9.0: 2020-januariutgåvan

Nya funktioner

Konversation med flera enheter: Anslut flera enheter till samma tal- eller textbaserade konversation och om du vill översätta meddelanden som skickas mellan dem. Läs mer i den här artikeln.
Stöd för nyckelordsigenkänning har lagts till för Android-paket .aar och stöd för x86- och x64-smaker har lagts till.
Objective-C: SendMessage och SetMessageProperty metoder har lagts till Connection objektet. Se dokumentationen här.
TTS C++ api stöder std::wstring nu som syntestextindata, vilket tar bort behovet av att konvertera en wstring till sträng innan den skickas till SDK:n. Mer information finns här
C#: Språk-ID och källspråkkonfiguration är nu tillgängliga.
JavaScript: Lade till en funktion till Connection-objektet för att vidarebefordra anpassade meddelanden från Speech-tjänsten som en återanrop receivedServiceMessage.
JavaScript: Stöd har lagts till för FromHost API att underlätta användningen med lokala containrar och nationella moln. Se dokumentationen här.
JavaScript: Vi hedrar NODE_TLS_REJECT_UNAUTHORIZED nu tack vare ett bidrag från orgads. Mer information finns här

Kritiska ändringar

OpenSSL har uppdaterats till version 1.1.1b och är statiskt länkad till Speech SDK-kärnbiblioteket för Linux. Detta kan orsaka avbrott om inkorgen OpenSSL inte har installerats i /usr/lib/ssl katalogen i systemet. Läs vår dokumentation under Speech SDK-dokument för att lösa problemet.
Vi har ändrat datatypen som returneras för C# WordLevelTimingResult.Offset från int till long för att tillåta åtkomst till WordLevelTimingResults när taldata är längre än 2 minuter.
PushAudioInputStream och PullAudioInputStream skickar nu wav-rubrikinformation till Speech-tjänsten baserat på AudioStreamFormat, som valfritt kan anges när de skapades. Kunder måste nu använda det ljudinmatningsformat som stöds. Alla andra format kommer att ge suboptimala igenkänningsresultat eller kan orsaka andra problem.

Felkorrigeringar

Se OpenSSL uppdateringen under Kritiska ändringar ovan. Vi har åtgärdat både en tillfällig krasch och ett prestandaproblem (låskonflikt under hög belastning) i Linux och Java.
Java: Förbättrade objektstängning i scenarier med hög samtidighet.
Omstrukturerade vårt NuGet-paket. Vi har tagit bort de tre kopiorna av Microsoft.CognitiveServices.Speech.core.dll och Microsoft.CognitiveServices.Speech.extension.kws.dll under lib-mappar, vilket gör NuGet-paketet mindre och snabbare att ladda ned, och vi har lagt till rubriker som behövs för att kompilera vissa C++-interna appar.
Snabbstartsexemplen är fixade här. Dessa avslutades utan att visa undantaget "mikrofon hittades inte" i Linux, macOS, Windows.
Vi har åtgärdat en SDK-krasch med långa taligenkänningsresultat på vissa kodsökvägar, som det här exemplet.
SDK-distributionsfel har åtgärdats i Azure Web App-miljön för att åtgärda det här kundproblemet.
Ett TTS-fel har åtgärdats vid användning av flera <voice> taggar eller <audio> taggar för att åtgärda det här kundproblemet.
Ett TTS 401-fel har åtgärdats när SDK:t återställs från paus.
JavaScript: En cirkulär import av ljuddata har åtgärdats tack vare ett bidrag från euirim.
JavaScript: stöd har lagts till för att ange tjänstegenskaper, som lagts till i 1.7.
JavaScript: Åtgärdade ett problem där ett anslutningsfel kan leda till kontinuerliga, misslyckade websocket-återanslutningsförsök.

Exempel

Exempel på nyckelordsigenkänning har lagts till för Android här.
TTS-exempel har lagts till för serverscenariot här.
Snabbstarter för konversationer med flera enheter har lagts till för C# och C++ här.

Andra ändringar

Optimerad SDK-kärnbiblioteksstorlek på Android.
SDK i 1.9.0 och senare stöder både int och string typer i fältet version av röstsignatur för Conversation Transcriber.

Speech SDK 1.8.0: 2019–november

Nya funktioner

Lade till ett FromHost() API för att underlätta användningen med lokala containrar och nationella moln.
Källspråksidentifiering har lagts till för taligenkänning (i Java och C++)
Objekt har lagts SourceLanguageConfig till för taligenkänning som används för att ange förväntade källspråk (i Java och C++)
Stöd har lagts till KeywordRecognizer för Windows (UWP), Android och iOS via NuGet- och Unity-paketen
Java-API:et för fjärrkonversation har lagts till för att göra konversationstranskription i asynkrona batchar.

Kritiska ändringar

Funktioner för konversationstranskriberare som flyttas under namnområdet Microsoft.CognitiveServices.Speech.Transcription.
Delar av metoderna för konversationstranskribering flyttas till en ny Conversation klass.
Stöd för 32-bitars (ARMv7 och x86) iOS har tagits bort

Felkorrigeringar

Korrigering för krasch om lokal KeywordRecognizer används utan en giltig prenumerationsnyckel för Speech-tjänsten

Exempel

Xamarin-exempel för KeywordRecognizer
Unity-exempel för KeywordRecognizer
C++ och Java-exempel för automatisk källspråkidentifiering.

Speech SDK 1.7.0: 2019–september utgåva

Nya funktioner

Betastöd har lagts till för Xamarin på Universell Windows-plattform (UWP), Android och iOS
IOS-stöd har lagts till för Unity
Indatastöd har lagts till Compressed för ALaw, Mulaw, FLAC på Android, iOS och Linux
Har lagts till SendMessageAsync i Connection klassen för att skicka ett meddelande till tjänsten
Har lagts till SetMessageProperty i Connection klassen för att ange egenskapen för ett meddelande
TTS har lagt till bindningar för Java (JRE och Android), Python, Swift och Objective-C
TTS har lagt till uppspelningsstöd för macOS, iOS och Android.
Information om "ordgräns" har lagts till för TTS.

Felkorrigeringar

Problem med IL2CPP-build på Unity 2019 för Android har åtgärdats
Åtgärdat problem med felaktiga rubriker i wav-filindata som bearbetas felaktigt
Problem med att UUID:erna inte är unika i vissa anslutningsegenskaper har åtgärdats
Några varningar om nullabilitetsspecificerare i Swift-bindningar har åtgärdats (kan kräva små kodändringar)
Åtgärdade en bugg som gjorde att websocket-anslutningar stängdes felaktigt under nätverksbelastning
Åtgärdat ett problem på Android som ibland resulterar i duplicerade visnings-ID:n som används av DialogServiceConnector
Förbättringar av anslutningens stabilitet i interaktioner med flera omgångar och rapportering av fel (via Canceled-händelser) när de inträffar i samband med DialogServiceConnector
DialogServiceConnector sessionstarter ger nu händelser korrekt, inklusive när du anropar ListenOnceAsync() under en pågående StartKeywordRecognitionAsync()
Åtgärdat en krasch som är associerad med DialogServiceConnector aktiviteter som mottas

Exempel

Snabbstart för Xamarin
Uppdaterad CPP-snabbstart med Linux Arm64-information
Uppdaterad Unity-snabbstart med iOS-information

Speech SDK 1.6.0: juni 2019 släpp

Exempel

Snabbstartsexempel för Text till tal på UWP och Unity
Snabbstartsexempel för Swift i iOS
Unity-exempel för tal- och avsiktsigenkänning och översättning
Uppdaterade snabbstartsexempel för DialogServiceConnector

Förbättringar/ändringar

Dialognamnområde:
- SpeechBotConnector har bytt namn till DialogServiceConnector
- BotConfig har bytt namn till DialogServiceConfig
- BotConfig::FromChannelSecret() har mappats om till DialogServiceConfig::FromBotSecret()
- Alla befintliga Direct Line Speech-klienter fortsätter att stödjas efter namnbytet
Uppdatera TTS REST-adaptern för att stödja proxy, beständig anslutning
Förbättra felmeddelandet när en ogiltig region skickas
Swift/Objective-C:
- Förbättrad felrapportering: Metoder som kan resultera i ett fel finns nu i två versioner: En som exponerar ett NSError objekt för felhantering och en som skapar ett undantag. De förstnämnda är exponerade för Swift. Den här ändringen kräver anpassningar av befintlig Swift-kod.
- Förbättrad händelsehantering

Felkorrigeringar

Korrigering för TTS: där SpeakTextAsync framtiden returnerades utan att vänta tills ljudet har slutfört renderingen
Åtgärd för att överföra strängar i C# för att möjliggöra fullständigt språkstöd
Korrigering för problem med .NET Core-appen för att ladda kärnbiblioteket med målramverket net461 i exempel.
Korrigering för tillfälliga problem med att distribuera ursprungliga bibliotek till utdatamappen i provexemplen
Åtgärd för att stänga webbssocket på ett tillförlitligt sätt.
Korrigering för eventuell krasch när du öppnar en anslutning under hög belastning på Linux
Korrigering för saknade metadata i ramverkspaketet för macOS
Åtgärda problem med pip install --user i Windows

Speech SDK 1.5.1

Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.

Felkorrigeringar

Åtgärda FromSubscription när det används med konversationstranskription.
Åtgärda bugg i nyckelordsigenkänning för röstassistenter.

Speech SDK 1.5.0: 2019-maj release

Nya funktioner

KWS (Keyword Spotting) är nu tillgängligt för Windows och Linux. KWS-funktioner kan fungera med alla mikrofontyper, men det officiella KWS-stödet är för närvarande begränsat till mikrofonmatriserna som finns i Azure Kinect DK-maskinvaran eller Speech Devices SDK.
Funktioner för frastips är tillgängliga via SDK. Mer information finns här.
Funktionen för transkription av konversationer är tillgänglig via SDK:et.
Lägg till stöd för röstassistenter med hjälp av Direct Line Speech-kanalen.

Exempel

Exempel har lagts till för nya funktioner eller nya tjänster som stöds av SDK.

Förbättringar/ändringar

Olika egenskaper för identifierare har lagts till för att justera tjänstens beteende eller tjänstresultat (till exempel maskering av svordomar och andra).
Nu kan du konfigurera identifieraren via standardkonfigurationsegenskaperna, även om du har skapat identifieraren FromEndpoint.
Objective-C: OutputFormat egenskapen lades till i SPXSpeechConfiguration.
SDK stöder nu Debian 9 som en Linux-distribution.

Felkorrigeringar

Ett problem där talarresursen förstördes för tidigt i text till tal har åtgärdats.

Speech SDK 1.4.2

Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.

Speech SDK 1.4.1

Det här är en version med endast JavaScript. Inga funktioner har lagts till. Följande korrigeringar har gjorts:

Förhindra att webbpaketet läser in https-proxy-agent.

Speech SDK 1.4.0: utgåva april 2019

Nya funktioner

SDK stöder nu text till tal-tjänsten som en betaversion. Det stöds i Windows och Linux Desktop från C++ och C#. För mer information, se Översikt över text-till-tal.
SDK stöder nu MP3- och Opus/OGG-ljudfiler som strömningsindatafiler. Den här funktionen är endast tillgänglig i Linux från C++ och C# och är för närvarande i betaversion (mer information här).
Speech SDK för Java, .NET Core, C++ och Objective-C har fått stöd för macOS. Objective-C-stödet för macOS är för närvarande i betaversion.
iOS: Speech SDK för iOS (Objective-C) publiceras nu också som en CocoaPod.
JavaScript: Stöd för mikrofon som inte är standard som indataenhet.
JavaScript: Proxystöd för Node.js.

Exempel

Exempel för att använda Speech SDK med C++ och Objective-C på macOS har lagts till.
Exempel som visar användningen av text-till-tal-tjänsten har lagts till.

Förbättringar/ändringar

Python: Ytterligare egenskaper för igenkänningsresultat exponeras nu via egenskapen properties .
Om du vill ha ytterligare stöd för utveckling och felsökning kan du omdirigera SDK-loggning och diagnostikinformation till en loggfil (mer information här).
JavaScript: Förbättra prestanda för ljudbearbetning.

Felkorrigeringar

Mac/iOS: En bugg som ledde till lång väntan när en anslutning till Speech-tjänsten inte kunde upprättas har åtgärdats.
Python: Förbättra felhanteringen för argument i Python-återanrop.
JavaScript: Åtgärdade felaktig tillståndsrapportering för avslutat tal i RequestSession.

Speech SDK 1.3.1: uppdatering 2019–februari

Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.

Felkorrigering

En minnesläcka har åtgärdats vid användning av mikrofonindata. Indata från datastreamar eller filer påverkas inte.

Speech SDK 1.3.0: Februari 2019-talet

Nya funktioner

Speech SDK stöder val av indatamikrofon via AudioConfig klassen. På så sätt kan du strömma ljuddata till Speech-tjänsten från en mikrofon som inte är standard. Mer information finns i dokumentationen som beskriver valet av ljudinmatningsenhet. Den här funktionen är ännu inte tillgänglig från JavaScript.
Speech SDK stöder nu Unity i en betaversion. Ge feedback via avsnittet med problem i GitHub-exempellagringsplatsen. Den här versionen stöder Unity i Windows x86 och x64 (skrivbords- eller Universell Windows-plattform-program) och Android (ARM32/64, x86). Mer information finns i vår Unity-snabbstart.
Filen Microsoft.CognitiveServices.Speech.csharp.bindings.dll (som levererades i tidigare versioner) behövs inte längre. Funktionerna är nu integrerade i SDK:et.

Exempel

Följande nya innehåll är tillgängligt i vår exempellagringsplats:

Ytterligare exempel för AudioConfig.FromMicrophoneInput.
Ytterligare Python-exempel för avsiktsigenkänning och översättning.
Ytterligare exempel för att använda objektet Connection i iOS.
Ytterligare Java-exempel för översättning med ljudutdata.
Nytt exempel för användning av REST-API:et för Batch-transkription.

Förbättringar/ändringar

Python
- Förbättrad parameterverifiering och felmeddelanden i SpeechConfig.
- Lägg till stöd för objektet Connection .
- Stöd för 32-bitars Python (x86) i Windows.
- Speech SDK för Python har lämnat beta.
Ios
- SDK:n har nu skapats mot iOS SDK version 12.1.
- SDK stöder nu iOS-versionerna 9.2 och senare.
- Förbättra referensdokumentationen och åtgärda flera egenskapsnamn.
JavaScript
- Lägg till stöd för objektet Connection .
- Lägg till typdefinitionsfiler för paketerade JavaScript
- Inledande stöd och implementering för frastips.
- Returnera samling av egenskaper med tjänstens JSON för igenkänning
Windows DLL:er innehåller nu en versionsresurs.
Om du skapar en identifierare FromEndpointkan du lägga till parametrar direkt till slutpunkts-URL:en. Med hjälp av FromEndpoint kan du inte konfigurera identifieraren via standardkonfigurationsegenskaperna.

Felkorrigeringar

Tomt proxyanvändarnamn och proxylösenord hanterades inte korrekt. Med den här versionen, om du anger proxyanvändarnamn och proxylösenord till en tom sträng, skickas de inte när du ansluter till proxyn.
SessionId som skapats av SDK:t var inte alltid slumpmässigt för vissa språk/miljöer. Slumpmässig generatorinitiering har lagts till för att åtgärda problemet.
Förbättra hanteringen av auktoriseringstoken. Om du vill använda en auktoriseringstoken anger du i SpeechConfig och lämnar API-nyckeln tom. Skapa sedan identifieraren som vanligt.
I vissa fall släpptes inte Connection objektet korrekt. Det här problemet har åtgärdats.
JavaScript-exemplet har åtgärdats för att stödja ljudutdata för översättningssyntes även i Safari.

Speech SDK 1.2.1

Det här är en version med endast JavaScript. Inga funktioner har lagts till. Följande korrigeringar har gjorts:

Avsluta strömmen vid turn.end, inte vid speech.end.
Åtgärdade bugg i ljudpumpen som inte schemalade nästa sändning när den aktuella överföringen misslyckades.
Åtgärda kontinuerlig igenkänning med autentiseringstokenen.
Felkorrigering för olika identifierare/slutpunkter.
Dokumentationsförbättringar.

Speech SDK 1.2.0, 2018–december

Nya funktioner

Python
- Betaversionen av Python-stöd (3.5 och senare) är tillgänglig med den här versionen. Mer information finns här](.. /.. /quickstart-python.md).
JavaScript
- Speech SDK för JavaScript har öppen källkod. Källkoden är tillgänglig på GitHub.
- Vi stöder nu Node.js, mer information finns här.
- Längdbegränsningen för ljudsessioner har tagits bort, återanslutning sker automatiskt under omslaget.
Connection objekt
- RecognizerFrån kan du komma åt ett Connection objekt. Med det här objektet kan du uttryckligen initiera tjänstanslutningen och prenumerera på anslutnings- och frånkopplingshändelser. (Den här funktionen är ännu inte tillgänglig från JavaScript och Python.)
Stöd för Ubuntu 18.04.
Android
- ProGuard-stöd har aktiverats under APK-genereringen.

Förbättringar

Förbättringar i den interna trådanvändningen, minskning av antalet trådar, lås och mutexar.
Förbättrad felrapportering/information. I flera fall har felmeddelanden inte spridits hela vägen ut.
Uppdaterade utvecklingsberoenden i JavaScript för att använda aktuella moduler.

Felkorrigeringar

Minnesläckor åtgärdades på grund av felaktig typmatchning i RecognizeAsync.
I vissa fall läckte undantag ut.
Åtgärda minnesläcka i översättningshändelseargument.
Ett låsningsproblem har åtgärdats vid återanslutning i långvariga sessioner.
Ett problem som kan leda till att slutresultatet för misslyckade översättningar saknas har åtgärdats.
C#: Om en async åtgärd inte väntades i huvudtråden var det möjligt att identifieraren kunde tas bort innan asynkroniseringsuppgiften slutfördes.
Java: Ett problem som resulterade i en krasch på den virtuella Java-datorn har åtgärdats.
Objective-C: Fast uppräkningsmappning; RecognizedIntent returnerades i stället för RecognizingIntent.
JavaScript: Ange standardutdataformatet till "enkelt" i SpeechConfig.
JavaScript: Ta bort inkonsekvens mellan egenskaper på konfigurationsobjektet i JavaScript och andra språk.

Exempel

Uppdaterade och fixade flera exempel, som exempelvis utdata för översättningsröster med mera.
Lade till Node.js exempel på exempellagringsplatsen.

Speech SDK 1.1.0

Nya funktioner

Stöd för Android x86/x64.
Proxysupport: I SpeechConfig objektet kan du nu anropa en funktion för att ange proxyinformationen (värdnamn, port, användarnamn och lösenord). Den här funktionen är ännu inte tillgänglig i iOS.
Förbättrad felkod och meddelanden. Om en igenkänning returnerade ett fel har detta redan angett Reason (i avbruten händelse) eller CancellationDetails (i igenkänningsresultatet) till Error. Den avbrutna händelsen innehåller nu ytterligare två medlemmar, ErrorCode och ErrorDetails. Om servern returnerade ytterligare felinformation med det rapporterade felet blir den nu tillgänglig i de nya medlemmarna.

Förbättringar

Ytterligare verifiering har lagts till i konfigurationen av identifieraren och ytterligare felmeddelande har lagts till.
Förbättrad hantering av långvarig tystnad mitt i en ljudfil.
NuGet-paket: För .NET Framework-projekt förhindrar det att du skapar med AnyCPU-konfiguration.

Felkorrigeringar

Flera undantag åtgärdades i igenkännare. Dessutom fångas undantag och konverteras till Canceled händelse.
Åtgärda en minnesläcka i egenskapshanteringen.
Ett fel har åtgärdats där en ljudindatafil kan krascha igenkänningen.
En bugg där händelser kunde tas emot efter en sessionsstopphändelse har åtgärdats.
Vissa tävlingsförhållanden i trådning har åtgärdats.
Ett iOS-kompatibilitetsproblem som kan leda till en krasch har åtgärdats.
Stabilitetsförbättringar för Stöd för Android-mikrofon.
En bugg där en identifierare i JavaScript skulle ignorera igenkänningsspråket har åtgärdats.
En bugg som förhindrade inställningen EndpointId (i vissa fall) i JavaScript har åtgärdats.
Ändrad parameterordning i AddIntent i JavaScript och lade till den saknade JavaScript-signaturen AddIntent.

Exempel

C++ och C#-exempel har lagts till för användning av pull- och push-dataström på exempellagringsplatsen.

Speech SDK 1.0.1

Tillförlitlighetsförbättringar och felkorrigeringar:

Åtgärdat ett potentiellt allvarligt fel på grund av konkurrenstillstånd vid avvecklande av igenkännare.
Ett potentiellt allvarligt fel har åtgärdats när egenskaper är odefinierade.
Ytterligare fel- och parameterkontroll har lagts till.
Objective-C: Åtgärdade ett möjligt kritiskt fel orsakat av överskrivning av namn i NSString.
Objective-C: Justerad synlighet för API
JavaScript: Åtgärdat gällande händelser och deras nyttolaster.
Dokumentationsförbättringar.

I vår exempellagringsplats lades ett nytt exempel för JavaScript till.

Azure AI Speech SDK 1.0.0: 2018: September

Nya funktioner

Stöd för Objective-C på iOS. Kolla in vår Objective-C-snabbstart för iOS.
Stöd för JavaScript i webbläsaren. Kolla in vår JavaScript-snabbstart.

Kritiska ändringar

Med den här versionen införs ett antal icke-bakåtkompatibla ändringar. Mer information finns på den här sidan .

Azure AI Speech SDK 0.6.0: 2018–augusti utgåva

Nya funktioner

UWP-appar som skapats med Speech SDK kan nu klara av Windows App Certification Kit (WACK). Titta på UWP quickstart.
Stöd för .NET Standard 2.0 på Linux (Ubuntu 16.04 x64).
Experimentell: Stöd för Java 8 i Windows (64-bitars) och Linux (Ubuntu 16.04 x64). Läs snabbstarten för Java Runtime Environment.

Funktionsändring

Visa ytterligare detaljerad information om anslutningsfel.

Kritiska ändringar

I Java (Android) SpeechFactory.configureNativePlatformBindingWithDefaultCertificate kräver funktionen inte längre en sökvägsparameter. Nu identifieras sökvägen automatiskt på alla plattformar som stöds.
Get-accessorn för egenskapen EndpointUrl i Java och C# är borttagen.

Felkorrigeringar

I Java implementeras ljudsyntesresultatet på översättningsigenkänningen nu.
En bugg som kan orsaka inaktiva trådar och ett ökat antal öppna och oanvända socketar har åtgärdats.
Ett problem har åtgärdats, där en långvarig igenkänning kunde avslutas mitt i överföringen.
Åtgärdade ett tävlingsvillkor vid nedstängning av igenkänningssystemet.

Azure AI Speech SDK 0.5.0: 2018–Juli release

Nya funktioner

Stöd för Android-plattform (API 23: Android 6.0 Marshmallow eller senare). Kolla in Android-snabbstarten.
Stöd för .NET Standard 2.0 i Windows. Kolla in snabbstartsguiden för .NET Core.
Experimentell: Stöd för UWP i Windows (version 1709 eller senare).
- Titta på UWP quickstart.
- Observera att UWP-appar som skapats med Speech SDK ännu inte klarar Windows App Certification Kit (WACK).
Stöd för långvarig igenkänning med automatisk återanslutning.

Funktionella ändringar

StartContinuousRecognitionAsync() stöder långvarig igenkänning.
Igenkänningsresultatet innehåller fler fält. De är förskjutna från början av ljudet och varaktigheten (båda i tick) för den identifierade texten, samt ytterligare värden som representerar igenkänningsstatus, till exempel InitialSilenceTimeout och InitialBabbleTimeout.
Stöd auktorisationstoken för att skapa fabriksinstanser.

Kritiska ändringar

Igenkänningshändelser: NoMatch händelsetypen sammanfogades till Error händelsen.
SpeechOutputFormat i C# har bytt namn till OutputFormat för att förbli i linje med C++.
Returtypen för vissa metoder i AudioInputStream gränssnittet ändrades något:
- I Java returnerar metoden read nu long istället för int.
- I C# returnerar metoden Read nu uint istället för int.
- I C++ returnerar metoderna Read och GetFormat nu size_t istället för int.
C++: Exemplar av ljudindataströmmar kan nu endast överföras som en shared_ptr.

Felkorrigeringar

Korrigerade felaktiga returvärden i resultatet när tidsgränsen för RecognizeAsync() överskrids.
Beroendet av media foundation-bibliotek i Windows har tagits bort. SDK använder nu Core Audio API:er.
Dokumentationskorrigering: En regionssida har lagts till för att beskriva de regioner som stöds.

Känt problem

Speech SDK för Android rapporterar inte talsyntesresultat för översättning. Det här problemet åtgärdas i nästa version.

Azure AI Speech SDK 0.4.0: 2018–juni

Funktionella ändringar

AudioInputStream (på engelska)

En identifierare kan nu använda en ström som ljudkälla. Mer information finns i den relaterade instruktioner-guiden.
Detaljerat utdataformat

När du skapar ett SpeechRecognizerkan du begära Detailed eller Simple utdataformat. Innehåller DetailedSpeechRecognitionResult en konfidenspoäng, igenkänd text, rå lexikal form, normaliserade former och normaliserad form med maskad svordom.

Icke-kompatibel ändring

Har ändrats till SpeechRecognitionResult.Text från SpeechRecognitionResult.RecognizedText i C#.

Felkorrigeringar

Ett möjligt återanropsproblem har åtgärdats i USP-lagret under avstängningen.
Om en identifierare förbrukade en ljudindatafil höll den fast vid filhandtaget längre än nödvändigt.
Flera dödlägen mellan meddelandepumpen och identifieraren har tagits bort.
Utlös ett NoMatch resultat när det sker en timeout för svaret från tjänsten.
Media Foundation-biblioteken i Windows är fördröjda. Det här biblioteket krävs endast för mikrofoninmatning.
Uppladdningshastigheten för ljuddata är begränsad till ungefär dubbelt så mycket som den ursprungliga ljudhastigheten.
På Windows har C# .NET-sammansättningar nu starka namn.
Dokumentationskorrigering: Region är nödvändig information för att skapa en identifierare.

Fler exempel har lagts till och uppdateras ständigt. Den senaste uppsättningen exempel finns i GitHub-lagringsplatsen för Speech SDK-exempel.

Azure AI Speech SDK 0.2.12733: 2018–Maj utgåva

Den här versionen är den första offentliga förhandsversionen av Azure AI Speech SDK.

Speech CLI 1.43: 2025–mars utgåva

Nya funktioner

SPX har uppdaterats för att använda .NET 8.

Felkorrigeringar

Åtgärdade problemet där SPX Docker-containern inte fungerade i lokala batchscenarier.

Speech CLI version 1.40.0: Augusti 2024 utgåva

Har uppdaterats för att använda Speech SDK 1.40.0

Nya funktioner

inget

Felkorrigeringar

inget

Speech CLI 1.38.0: Utgåva juni 2024

Har uppdaterats för att använda Speech SDK 1.38.0

Nya funktioner

inget

Felkorrigeringar

inget

Speech CLI 1.37.0: Utgiven i april 2024

Har uppdaterats för att använda Speech SDK 1.37.0

Nya funktioner

inget

Felkorrigeringar

inget

Speech CLI 1.36.0: version mars 2024

Har uppdaterats för att använda Speech SDK 1.36.0

Nya funktioner

inget

Felkorrigeringar

inget

Speech CLI 1.35.0: Version februari 2024

Har uppdaterats för att använda Speech SDK 1.35.0

Nya funktioner

inget

Felkorrigeringar

Uppdatera JMESPath-beroendet till senaste

Speech CLI 1.34.0: November 2023 utgåva

Har uppdaterats för att använda Speech SDK 1.34.0

Speech CLI 1.33.0: Oktober 2023-utgåva

Har uppdaterats för att använda Speech SDK 1.33.0

Speech CLI 1.31.0: Augusti 2023-utgåva

Har uppdaterats för att använda Speech SDK 1.31.0

Speech CLI 1.30.0: Juli 2023-versionen

Har uppdaterats för att använda Speech SDK 1.30.0

Speech CLI 1.29.0: Juni 2023-utgåva

Har uppdaterats för att använda Speech SDK 1.29.0

Speech CLI 1.28.0: maj 2023-utgåva

Har uppdaterats för att använda Speech SDK 1.28.0

Speech CLI 1.27.0: April 2023-utgåva

Uppdateringar

Har uppdaterats för att använda Speech SDK 1.27.0
Uppdatera standardslutpunkten så att v3.1 REST-API:er används för anpassad taligenkänning och Batch-taligenkänning.

Felkorrigeringar

Korrigeringar som rör hur frågeparametrar parsas/konfigureras.

Speech CLI 1.26.0: version mars 2023

Har uppdaterats för att använda Speech SDK 1.26.0.

Speech CLI 1.25.0: Januari 2023 utgåva

Har uppdaterats för att använda Speech SDK 1.25.0.

Speech CLI 1.24.0: Oktober 2022-utgåva

Använder Speech SDK 1.24.0.

Nya funktioner

Utökad "spx-kontroll" för att stödja JMESPath-frågor mot alla spx-händelser

Felkorrigeringar

Olika förbättringar av robusthet mot JMESPath-frågeutvärderingar
Korrigering av trunkeringar av filskrivningar som kan inträffa på resursbegränsade maskiner

Speech CLI 1.23.0: Juli 2022-version

Använder Speech SDK 1.23.0.

Nya funktioner

Bättre bildtext (--output vtt och --output srt) stor resultatdelning (37 tecken max, 3 rader)
spx synthesize --format Dokumenterade alternativ (se spx help synthesize format)
Dokumenterade de flesta kommandon/alternativ för spx csr (se spx help csr)
Lagt till spx csr model copy kommandot (se spx help csr model copy)
Lade till --check result alternativ med JMES-frågor (se spx help check result)
Förbättrade felmeddelanden när ogiltiga kommandoalternativ angavs
Flyttade från .NET Core 3.1 till .NET 6.0. För att kunna köra Speech CLI måste du installera .NET 6.0 Runtime (eller senare).

Felkorrigeringar

Uppdaterade alla URL:er för att ta bort språk (till exempel "en-US")
Versionsinformationen har åtgärdats för att rapportera korrekt i alla fall (tidigare visade den ibland ett tomt värde)

Speech CLI 1.22.0: Juni 2022 utgåva

Använder Speech SDK 1.22.0.

Nya funktioner

Kommandot har lagts spx init till för att vägleda användarna genom skapande av talresursnyckeln utan att gå till Azure-webbportalen.
Speech Docker-containrar har nu Azure CLI inkluderat, så spx init kommandot fungerar direkt.
Tidsstämpeln har lagts till som ett alternativ för händelseutdata för att göra SPX mer användbart vid beräkning av svarstider.

Speech CLI 1.21.0: April 2022-version

Använder Speech SDK 1.21.0.

Nya funktioner

Generering av WEBVTT-undertext
- --output vtt-stöd har lagts till för spx translate
- Stöder --output vtt file FILENAME för att åsidosätta standard-VTT FILNAMN
- Stöder --output vtt file - för att skriva till standardutdata
- Enskilda VTT-filer skapas för varje målspråk (till exempel --target en;de;fr)
Generering av SRT-bildtext
- Stöd har lagts till --output srt för spx recognize, spx intent och spx translate
- Stöd --output srt file FILENAME för att åsidosätta standard-SRT FILNAMN
- Stöder --output srt file - för att skriva till standardutdata
- För spx translateskapas enskilda SRT-filer för varje målspråk (till exempel --target en;de;fr)

Felkorrigeringar

Korrigerade WEBVTT-tidsintervall för att korrekt använda hh:mm:ss.fff-formatet

Speech CLI 1.20.0: Januari 2022-utgåva

Nya funktioner

Talarigenkänning
- spx profile enroll och spx speaker [identify/verify] stöder nu mikrofoninmatning
Avsiktsigenkänning (spx intent)
- --keyword FILE.table
- --pattern och --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, --once+, --continuous (kontinuerlig nu standard)
- --output all/each connection EVENT
- --output all/each connection message (till exempel text, path)
CLI-konsolens förväntningar på kontroll/redigering av utdata:
- --expect PATTERN och --not expect PATTERN stöd för alla kommandon
- --auto expect för att hjälpa till med redigering av förväntade mönster
SDK-loggutdata för förväntningsverifiering/författande
- --log expect PATTERN och --not log expect PATTERN stöd för alla kommandon
- --log auto expect [FILTER] stöd för alla kommandon
- --log FILE supporten för spx profile och spx speaker
Ljudfilsindata
- --format ANY stöd för alla kommandon
- --file - support (läsa från standardindata genom att aktivera rörledningsscenarier)
Utdata för ljudfil
- --audio output - Skriva till standardutdata, aktivera scenarier med rörledning
Utdatafiler
- --output all/each file - Skriv till standardutdata
- --output batch file - Skriv till standardutdata
- --output vtt file - Skriv till standardutdata
- --output json file - Skriv till standardutdata för spx csr och spx batch kommandon
Utdataegenskaper
- --output […] result XXX property (PropertyId eller en sträng)
- --output […] connection message received XXX property (PropertyId eller en sträng)
- --output […] recognizer XXX property (PropertyId eller en sträng)
Azure WebJob-integrering
- spx webjob följer nu underkommandomönstret
- WebJob-hjälpen har uppdaterats för att återspegla underkommandomönstret (se spx help webjob)

Felkorrigeringar

Fel har åtgärdats när både --output vtt FILE och --output batch FILE används samtidigt
spx [...] --zip ZIPFILENAME innehåller nu alla binärfiler som krävs för alla scenarier (om sådana finns)
spx profile och spx speaker kommandon returnerar nu detaljerad felinformation om annullering

Version 2021-maj

Nya funktioner

Stöd har lagts till för profil-, talar-ID- och talarverifiering – Försök spx profile och spx speaker från kommandoraden.
Vi har också lagt till dialogstöd – Prova spx dialog från kommandoraden.
Förbättrad spx hjälp. Ge oss feedback om hur detta fungerar för dig genom att öppna ett GitHub-problem.
Vi minskade storleken på .NET-verktygsinstallationen.

COVID-19-förkortad testning

Eftersom den pågående pandemin fortsätter att kräva att våra tekniker arbetar hemifrån reduceras manuella verifieringsskript före pandemin för att testa på färre enheter med färre konfigurationer, och sannolikheten för att miljöspecifika buggar glider igenom kan ökas. Vi fortsätter att noggrant validera med ett stort antal automatiseringsverktyg. I det osannolika fallet att vi missade något, låt oss veta på GitHub.
Håll dig frisk!

2021-marsutgåva

Nya funktioner

Lade till spx intent-kommandot för avsiktsigenkänning, vilket ersätter spx recognize intent.
Identifiera och intention kan nu använda Azure-funktioner för att beräkna ordfelfrekvens med spx recognize --wer url <URL>.
Recognize kan nu mata ut resultat som VTT-filer med hjälp av spx recognize --output vtt file <FILENAME>.
Känslig nyckelinformation är nu dold i debug-/detaljerad utdata.
URL-kontroll och felmeddelande har lagts till för innehållsfältet i skapandet av batchtranskriptioner.

COVID-19-förkortad testning

Utgåva januari 2021

Nya funktioner

Speech CLI är nu tillgängligt som ett NuGet-paket och kan installeras via .NET CLI som ett globalt .NET-verktyg som du kan anropa från gränssnittet/kommandoraden.
Det anpassade tal-DevOps-repot har uppdaterats för att använda Speech CLI för sina skräddarsydda talarbetsflöden.

COVID-19-förkortad testning

Utgåva oktober 2020

SPX är kommandoradsgränssnittet för att använda Speech-tjänsten utan att skriva kod. Ladda ned den senaste versionen här.

Nya funktioner

spx csr dataset upload --kind audio|language|acoustic – skapa datauppsättningar från lokala data, inte bara från URL:er.
spx csr evaluation create|status|list|update|delete – jämföra nya modeller med baslinje sanning/andra modeller.
spx * list – stödjer en sidlös upplevelse (kräver inte kommandon som --top X --skip X).
spx * --http header A=B – stöd för anpassade rubriker (läggs till för Office för anpassad autentisering).
spx help – förbättrad text- och back-tick-textfärg kodad (blå).

Utgåva juni 2020

In-CLI-hjälpsökningsfunktioner har lagts till:
- spx help find --text TEXT
- spx help find --topic NAME
Har uppdaterats för att fungera med nyligen distribuerade v3.0 Batch- och anpassade tal-API:er:
- spx help batch examples
- spx help csr examples

COVID-19-förkortad testning

Speech CLI (även kallat SPX): 2020-maj-version

SPX är ett nytt kommandoradsverktyg som gör att du kan utföra igenkänning, syntes, översättning, batch-transkription och anpassad talhantering från kommandoraden. Använd den för att testa Speech-tjänsten eller för att skripta de Speech-tjänstuppgifter som du behöver utföra. Ladda ned verktyget och läs dokumentationen här.

Lansering april 2025

Offentlig förhandsversion av nya HD-röster

Följande HD-röster är nu tillgängliga för förhandsversion:

Regionala inställningar (BCP-47)	Röstnamn
`en-US`	`en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeural` (Neutral)
`en-US`	`en-US-Bree:DragonHDLatestNeural` (Kvinna)
`en-US`	`en-US-AshTurboMultilingualNeural` (Man)

Version mars 2025

Allmän tillgänglighet för vissa HD-röster

Följande HD-röster är nu allmänt tillgängliga:

Regionala inställningar (BCP-47)	Röstnamn
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (Man)
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (Kvinna)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (Kvinna)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Emma:DragonHDLatestNeural` (Kvinna)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (Kvinna)
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (Man)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (Man)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (Kvinna)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (Man)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (Kvinna)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (Man)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (Kvinna)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (Kvinna)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (Man)

Flera röster för podcastsammanhang (förhandsversion)

Regionala inställningar (BCP-47)	Röstnamn
`en-US`	`en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural` (Neutral)

Nya HD-röster (förhandsversion)

Regionala inställningar (BCP-47)	Röstnamn
`en-US`	`en-US-Ava3:DragonHDLatestNeural` (Kvinna) – optimerad för podcast
`en-US`	`en-US-Andrew3:DragonHDLatestNeural` (Manlig) – optimerad för podcast

Dragon HD Flash-modeller (förhandsversion)

Regionala inställningar (BCP-47)	Röstnamn
`zh-CN`	`zh-CN-Xiaochen:DragonHDFlashLatestNeural` (Kvinna)
`zh-CN`	`zh-CN-Xiaoxiao:DragonHDFlashLatestNeural` (Kvinna)
`zh-CN`	`zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural` (Kvinna, optimerad för friprat)
`zh-CN`	`zh-CN-Yunxiao:DragonHDFlashLatestNeural` (Man)
`zh-CN`	`zh-CN-Yunyi:DragonHDFlashLatestNeural` (Man)

Version februari 2025

Uppdaterade HD-röster (förhandsversion)

Uppdaterade 13 aktuella HD-röster som har uppdaterats för att stödja flerspråkiga röster.

Regionala inställningar (BCP-47)	Röstnamn
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (Kvinna)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (Kvinna)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (Man) – optimerad för fria samtal
`en-US`	`en-US-Emma:DragonHDLatestNeural` (Kvinna)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (Kvinna) – optimerad för friprat
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Aria:DragonHDLatestNeural` (Kvinna)
`en-US`	`en-US-Jenny:DragonHDLatestNeural` (Kvinna)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (Man)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (Kvinna)

Nya HD-röster (förhandsversion)

Ytterligare 14 HD-röster har lagts till

Regionala inställningar (BCP-47)	Röstnamn
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Phoebe:DragonHDLatestNeural` (Kvinna)
`en-US`	`en-US-Serena:DragonHDLatestNeural` (Kvinna)
`en-US`	`en-US-Alloy:DragonHDLatestNeural` (Man)
`en-US`	`en-US-Nova:DragonHDLatestNeural` (Kvinna)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (Kvinna)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (Man)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (Kvinna)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (Man)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (Kvinna)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (Man)

Introduktion till nya flerspråkiga röster (förhandsversion)

Lades 4 ytterligare flerspråkiga röster till i en-US med stöd för känslor.

Regionala inställningar (BCP-47)	Röstnamn	Stilar
`en-US`	`DerekMultilingualNeural` (Man)	`empathetic`, `excited`, , `relievedshy`
`en-US`	`PhoebeMultilingualNeural` (Kvinna)	`empathetic` `sad` `serious`
`en-US`	`DavisMultilingualNeural` (Man)	`empathetic` `funny` `relieved`
`en-US`	`NancyMultilingualNeural` (Kvinna)	`excited`, `friendly`, `funny`, , , `relievedshy`

Azure OpenAI i Azure AI Foundry Models turboröster (allmänt tillgängliga)

Dessa 6 turboröster är nu allmänt tillgängliga:

Regionala inställningar (BCP-47)	Röstnamn
`en-US`	`en-US-AlloyTurboMultilingualNeural` (Man)
`en-US`	`en-US-EchoTurboMultilingualNeural` (Man)
`en-US`	`en-US-FableTurboMultilingualNeural` (Neutral)
`en-US`	`en-US-NovaTurboMultilingualNeural` (Kvinna)
`en-US`	`en-US-OnyxTurboMultilingualNeural` (Man)
`en-US`	`en-US-ShimmerTurboMultilingualNeural` (Kvinna)

Förbättringar av röstkvalitet (allmänt tillgängliga)

Förbättrade kvaliteten på 16 röster.

Regionala inställningar (BCP-47)	Röstnamn
`ar-EG`	`ar-EG-ShakirNeural` (Man)
`ca-ES`	`ca-ES-EnricNeural` (Man)
`en-IE`	`en-IE-EmilyNeural` (Kvinna)
`fi-FI`	`fi-FI-HarriNeural` (Man)
`fi-FI`	`fi-FI-SelmaNeural` (Kvinna)
`fr-CH`	`fr-CH-FabriceNeural` (Kvinna)
`hr-HR`	`hr-HR-GabrijelaNeural` (Kvinna)
`nl-NL`	`nl-NL-MaartenNeural` (Man)
`pt-PT`	`pt-PT-RaquelNeural` (Kvinna)
`ro-RO`	`ro-RO-AlinaNeural` (Kvinna)
`sv-SE`	`sv-SE-MattiasNeural` (Man)
`sv-SE`	`sv-SE-SofieNeural` (Kvinna)
`vi-VN`	`vi-VN-HoaiMyNeural` (Kvinna)
`vi-VN`	`vi-VN-NamMinhNeural` (Man)
`zh-HK`	`zh-HK-HiuMaanNeural` (Kvinna)
`zh-HK`	`zh-HK-WanLungNeural` (Man)

Flerstilad inbäddad Jenny (nu tillgänglig)

Stöd för format har lagts till för en-US-JennyNeural i inbäddade tal. Samma format stöds som i molnet. Följande format stöds: angry, assistant, chat, cheerful, customerservice, excited, friendly, hopeful, newscast, sad, shouting, terrified, unfriendly, och whispering.

Version januari 2025

Anpassad avatarträning

Nu kan du träna anpassade avatarer i Speech Studio. Tidigare var du tvungen att vänta på att Microsoft skulle träna din anpassade avatar.

Mer information om hur du skapar en anpassad avatar finns i skapa en anpassad text till tal-avatar.

Oktober 2024-utgåva

Standardröst

Introducerade 4 turboversioner av Azure OpenAI-röster i offentlig förhandsversion: en-US-EchoTurboMultilingualNeural, en-US-FableTurboMultilingualNeural, en-US-OnyxTurboMultilingualNeuraloch en-US-ShimmerTurboMultilingualNeural. Turbo-versionen av Azure OpenAI-röster har liknande röstpersona som Azure OpenAI-röster, men har stöd för extra funktioner. Turbo-röster stöder hela uppsättningen SSML-element och fler funktioner som ordgräns, precis som andra Azure AI Speech-röster. Mer information finns i den fullständiga språk- och röstlistan .

Dessa röster är nu allmänt tillgängliga:

Regionala inställningar (BCP-47)	Röstnamn
`de-DE`	`SeraphinaMultilingualNeural`
`de-DE`	`FlorianMultilingualNeural`
`en-GB`	`AdaMultilingualNeural`
`en-GB`	`OllieMultilingualNeural`
`en-US`	`LunaNeural`
`en-US`	`KaiNeural`
`en-US`	`CoraMultilingualNeural`
`en-US`	`ChristopherMultilingualNeural`
`en-US`	`BrandonMultilingualNeural`
`es-ES`	`IsidoraMultilingualNeural`
`es-ES`	`ArabellaMultilingualNeural`
`es-ES`	`TristanMultilingualNeural`
`es-ES`	`XimenaMultilingualNeural`
`fr-FR`	`LucienMultilingualNeural`
`fr-FR`	`VivienneMultilingualNeural`
`fr-FR`	`RemyMultilingualNeural`
`it-IT`	`IsabellaMultilingualNeural`
`it-IT`	`MarcelloMultilingualNeural`
`it-IT`	`AlessioMultilingualNeural`
`it-IT`	`GiuseppeMultilingualNeural`
`ko-KR`	`HyunsuMultilingualNeural`
`pt-BR`	`ThalitaMultilingualNeural`
`pt-BR`	`MacerioMultilingualNeural`

Hd-röst (Standard High Definition)

Hd-röster (Azure AI Speech High Definition) är tillgängliga i offentlig förhandsversion. HD-rösterna kan förstå innehållet, automatiskt identifiera känslor i indatatexten och justera talartonen i realtid för att matcha sentimentet. HD-röster upprätthåller en konsekvent röstpersona från sina neurala (och icke HD) motsvarigheter och levererar ännu mer värde genom förbättrade funktioner. Mer information finns i Vad är HD-röster (High Definition) för Azure AI Speech?.

Anpassad neuroröst

Tidigare stöddes vissa lokala inställningar endast med V3 för träningsmetoden. Dessa nationella inställningar stöder nu även V9, vilket ger bättre träningskvalitet och utökade funktioner. För dessa platser, se följande tabell:

Regionala inställningar (BCP-47)	Språk
`ar-EG`	Arabiska (Egypten)
`ar-SA`	Arabiska (Saudiarabien)
`ca-ES`	Katalanska
`cs-CZ`	Tjeckiska (Tjeckien)
`da-DK`	Danska (Danmark)
`de-AT`	Tyska (Österrike)
`de-CH`	Tyska (Schweiz)
`el-GR`	Grekiska (Grekland)
`en-IN`	Engelska (Indien)
`fi-FI`	Finska (Finland)
`fr-CH`	Franska (Schweiz)
`he-IL`	Hebreiska (Israel)
`hi-IN`	Hindi (Indien)
`hu-HU`	Ungerska (Ungern)
`ms-MY`	Malajiska (Malaysia)
`nb-NO`	Norska, bokmål (Norge)
`nl-NL`	Nederländska (Nederländerna)
`pl-PL`	Polska (Polen)
`pt-PT`	Portugisiska (Portugal)
`ro-RO`	Rumänska (Rumänien)
`ru-RU`	Ryska (Ryssland)
`sk-SK`	Slovakiska (Slovakien)
`sv-SE`	Svenska (Sverige)
`th-TH`	Thailändska (Thailand)
`r-TR`	Turkiska (Turkiet)
`vi-VN`	Vietnamesiska (Vietnam)
`zh-HK`	Kinesiska (kantonesiska, traditionella)
`zh-TW`	Kinesiska (taiwanesisk mandarin, traditionell)

Anpassad neural röst Pro stöder nu följande nya språkmiljöer:
- en-NZ: Engelska (Nya Zeeland)
- es-CL: Spanska (Chile)
- es-US: Spanska (USA)
- ta-MY: Tamil (Malaysia)
Se listan över språk och regioner för Anpassad neural röst för den fullständiga listan över språk och regioner som stöds.

Flerspråksfunktionen stöder nu följande nya lokaler som källspråk:

Regionala inställningar (BCP-47)	Språk
`da-DK`	Danska (Danmark)
`de-AT`	Tyska (Österrike)
`de-CH`	Tyska (Schweiz)
`de-DE`	Tyska (Tyskland)
`en-CA`	Engelska (Kanada)
`fi-FI`	Finska (Finland)
`fr-CH`	Franska (Schweiz)
`hu-HU`	Ungerska (Ungern)
`ms-MY`	Malajiska (Malaysia)
`nb-NO`	Norska, bokmål (Norge)
`pt-PT`	Portugisiska (Portugal)
`sv-SE`	Svenska (Sverige)
`tr-TR`	Turkiska (Turkiet)
`ta-IN`	Tamiliska (Indien)
`zh-HK`	Kinesiska (kantonesiska, traditionella)

Se listan över språk och regioner för Anpassad neural röst för den fullständiga listan över språk och regioner som stöds.

Röstfunktionen i flera format stöder nu följande nya nationella inställningar:

Regionala inställningar (BCP-47)	Språk
`ar-EG`	Arabiska (Egypten)
`ar-SA`	Arabiska (Saudiarabien)
`ca-ES`	Katalanska
`cs-CZ`	Tjeckiska (Tjeckien)
`da-DK`	Danska (Danmark)
`de-AT`	Tyska (Österrike)
`de-CH`	Tyska (Schweiz)
`de-DE`	Tyska (Tyskland)
`el-GR`	Grekiska (Grekland)
`en-AU`	Engelska (Australien)
`en-CA`	Engelska (Kanada)
`en-GB`	Engelska (Storbritannien)
`en-IN`	Engelska (Indien)
`es-ES`	Spanska (Spanien)
`es-MX`	Spanska (Mexiko)
`fi-FI`	Finska (Finland)
`fr-CA`	Franska (Kanada)
`fr-CH`	Franska (Schweiz)
`fr-FR`	Franska (Frankrike)
`he-IL`	Hebreiska (Israel)
`hi-IN`	Hindi (Indien)
`hu-HU`	Ungerska (Ungern)
`it-IT`	Italienska (Italien)
`ko-KR`	Koreanska (Korea)
`ms-MY`	Malajiska (Malaysia)
`nb-NO`	Norska, bokmål (Norge)
`nl-BE`	Nederländska (Belgien)
`nl-NL`	Nederländska (Nederländerna)
`pl-PL`	Polska (Polen)
`pt-BR`	Portugisiska (Brasilien)
`pt-PT`	Portugisiska (Portugal)
`ro-RO`	Rumänska (Rumänien)
`ru-RU`	Ryska (Ryssland)
`sk-SK`	Slovakiska (Slovakien)
`sv-SE`	Svenska (Sverige)
`th-TH`	Thailändska (Thailand)
`tr-TR`	Turkiska (Turkiet)
`vi-VN`	Vietnamesiska (Vietnam)
`zh-HK`	Kinesiska (kantonesiska, traditionella)
`zh-TW`	Kinesiska (taiwanesisk mandarin, traditionell)

Se listan över språk och regioner för Anpassad neural röst för den fullständiga listan över språk och regioner som stöds.

Utgåvan september 2024

Standardröst

Stöd och allmän tillgänglighet har lagts till för nya röster på följande språk:

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`as-IN`	Assamese (Indien)	`as-IN-YashicaNeural` (Kvinna) `as-IN-PriyomNeural` (Man)
`or-IN`	Odia (Indien)	`or-IN-SubhasiniNeural` (Kvinna) `or-IN-SukantNeural` (Man)
`pa-IN`	Punjabi (Indien)	`pa-IN-OjasNeural` (Man) `pa-IN-VaaniNeural` (Kvinna)

Den enda rösten i den här tabellen är allmänt tillgänglig och stöder endast språkvarianten "en-IN".

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`en-IN`	Engelska (Indien)	`en-IN-AashiNeural` (Kvinna)

De fem rösterna i den här tabellen är allmänt tillgängliga och stöder både "en-IN" och "hi-IN" lokaliseringar.

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`en-IN`	Engelska (Indien)	`en-IN-AaravNeural` (Man) `en-IN-AnanyaNeural` (Kvinna) `en-IN-KavyaNeural` (Kvinna) `en-IN-KunalNeural` (Man) `en-IN-RehaanNeural` (Man)
`hi-IN`	Hindi (Indien)	`hi-IN-AaravNeural` (Man) `hi-IN-AnanyaNeural` (Kvinna) `hi-IN-KavyaNeural` (Kvinna) `hi-IN-KunalNeural` (Man) `hi-IN-RehaanNeural` (Man)

Röstformat och roller

Stöd för newscast, cheerful, empathetic formatmallar har lagts till för rösterna en-IN-NeerjaNeural och hi-IN-SwaraNeural.

Nya format för följande röster har lagts till:

es-MX-DaliaNeural: whispering, sad, cheerful
fr-FR-DeniseNeural: whispering, sad, excited
it-IT-IsabellaNeural: whispering, sad, , excitedcheerful
pt-PT-RaquelNeural: whispering, sad
de-DE-ConradNeural: sad, cheerful
en-GB-RyanNeural: whispering, sad
es-MX-JorgeNeural: whispering, sad, , excitedcheerful
fr-FR-HenriNeural: whispering, sad, excited
it-IT-DiegoNeural: sad, excited, cheerful
es-ES-AlvaroNeural: cheerful, sad
ko-KR-InjoonNeural: sad

Mer information finns i Röstformat och roller .

Augusti 2024 utgåva

Standardröst

Introducera nya flerspråkiga röster i offentlig förhandsversion. Mer information finns i den fullständiga språk- och röstlistan .

Helt nya flerspråkiga röster

Lokala inställningar	Språk	Kön	Röstnamn
en-US	Engelska (USA)	Man	en-US-AdamMultilingualNeural
en-US	Engelska (USA)	Kvinna	en-US-AmandaMultilingualNeural
en-US	Engelska (USA)	Man	en-US-DerekMultilingualNeural
en-US	Engelska (USA)	Man	en-US-LewisMultilingualNeural
en-US	Engelska (USA)	Kvinna	en-US-LolaMultilingualNeural
en-US	Engelska (USA)	Kvinna	en-US-PhoebeMultilingualNeural
en-US	Engelska (USA)	Man	en-US-SamuelMultilingualNeural
en-US	Engelska (USA)	Kvinna	en-US-SerenaMultilingualNeural
en-US	Engelska (USA)	Man	en-US-DustinFlerspråkigNeural
en-US	Engelska (USA)	Kvinna	en-US-EvelynMultilingualNeural
es-ES	Spanska (Spanien)	Man	es-ES-TristanMultilingualNeural
fr-FR	Franska (Frankrike)	Man	sv-SE: fr-FR-LucienMultilingualNeural
portugisiska (Brasilien)	Portugisiska (Brasilien)	Man	pt-BR-MacerioMultilingualNeural
Språkkod för förenklad kinesiska (zh-CN)	Kinesiska (mandarin, förenklad)	Man	zh-CN-YunfanMultilingualNeural
Språkkod för förenklad kinesiska (zh-CN)	Kinesiska (mandarin, förenklad)	Man	zh-CN-YunxiaoMultilingualNeural
Språkkod för förenklad kinesiska (zh-CN)	Kinesiska (mandarin, förenklad)	Man	zh-CN-YunyiMultilingualNeural

Enspråkiga modeller uppdaterade till flerspråkiga röster med förbättringar i naturlighet

Lokala inställningar	Språk	Kön	Röstnamn
en-US	Engelska (USA)	Kvinna	en-US-NancyMultilingualNeural
en-US	Engelska (USA)	Man	en-US-BrandonMultilingualNeural
en-US	Engelska (USA)	Man	en-US-ChristopherMultilingualNeural
en-US	Engelska (USA)	Kvinna	en-US-CoraMultilingualNeural
en-US	Engelska (USA)	Man	en-US-DavisMultilingualNeural
en-US	Engelska (USA)	Man	en-US-SteffanMultilingualNeural
es-ES	Spanska (Spanien)	Kvinna	es-ES-XimenaMultilingualNeural
it-IT	Italienska (Italien)	Man	it-IT-GiuseppeMultilingualNeural
ko-KR	Koreanska (Korea)	Man	ko-KR-HyunsuMultilingualNeural

Förbättra kvaliteten på de följande nuvarande flerspråkiga rösterna.

Lokala inställningar Språk Kön Röstnamn

en-US Engelska (USA) Man en-US-AndrewMultilingualNeural

en-US Engelska (USA) Kvinna en-US-AvaMultilingualNeural
Tre flerspråkiga röster stöder nu formatmallar. Mer information finns i Röstformat och roller .
- en-US-SerenaMultilingualNeural: empathetic, excited, friendly, shy, serious, relieved och sad.
- en-US-AndrewMultilingualNeural: empathetic och relieved.
- zh-CN-XiaoxiaoMultilingualNeural: affectionate, cheerful, empathetic, excited, poetry-reading, sorry och story.

Lokala inställningar	Språk	Kön	Röstnamn
en-US	Engelska (USA)	Man	en-US-AndrewMultilingualNeural
en-US	Engelska (USA)	Kvinna	en-US-AvaMultilingualNeural

Juli 2024-utgåvan

Text-till-tal-avatar (GA)

Text till tal avatar är nu allmänt tillgänglig. Mer information finns i text till tal-avatar.

Standardröst

Introducera 2 turboversioner av Azure OpenAI-röster i offentlig förhandsversion: en-US-AlloyTurboMultilingualNeural och en-US-NovaTurboMultilingualNeural. Turbo-versionen av Azure OpenAI-röster har liknande röstpersona som Azure OpenAI-röster, men har stöd för extra funktioner. Turbo-röster stöder hela uppsättningen SSML-element och fler funktioner som ordgräns, precis som andra Azure AI Speech-röster. Mer information finns i den fullständiga språk- och röstlistan .
Introducera 2 nya flerspråkiga röster i offentlig förhandsversion: zh-CN-YunfanMultilingualNeural och zh-CN-YunxiaoMultilingualNeural. Mer information finns i den fullständiga språk- och röstlistan .

Inbäddad neuraltal

en-US-JennyMultilingual-rösten släpps i produktion och stöder upp till 24 språk för enhetsupplevelserna. För de nationella inställningar som stöds, se tabellen nedan.

Lokala inställningar	Språk
`da-DK`	Danska (Danmark)
`de-DE`	Tyska (Tyskland)
`en-AU`	Engelska (Australien)
`en-GB`	Engelska (Storbritannien)
`en-IN`	Engelska (Indien)
`en-US`	Engelska (USA)
`es-ES`	Spanska (Spanien)
`es-MX`	Spanska (Mexiko)
`fr-CA`	Franska (Kanada)
`fr-FR`	Franska (Frankrike)
`he-IL`	Hebreiska (Israel)
`it-IT`	Italienska (Italien)
`ja-JP`	Japanska (Japan)
`ko-KR`	Koreanska (Korea)
`nb-NO`	Norska, bokmål (Norge)
`nl-NL`	Nederländska (Nederländerna)
`pl-PL`	Polska (Polen)
`pt-PT`	Portugisiska (Portugal)
`sv-SE`	Svenska (Sverige)
`th-TH`	Thailändska (Thailand)
`tr-TR`	Turkiska (Turkiet)
`zh-CN`	Kinesiska (mandarin, förenklad)
`zh-HK`	Kinesiska (kantonesiska, traditionella)
`zh-TW`	Kinesiska (taiwanesisk mandarin, traditionell)

Utgåva juni 2024

Standardröst

Introduktion av 6 nya röster i offentlig förhandsvisning, tillgängliga i specifika regioner: Östra Asien, Sydostasien, Östra USA, Västra USA och Centrala Indien.

Lokala inställningar	Språk	Röster för text-till-tal
`or-IN`	Odia (Indien)	`or-IN-SubhasiniNeural` (Kvinna)
`or-IN`	Odia (Indien)	`or-IN-SukantNeural` (Man)
`pa-IN`	Punjabi (Indien)	`pa-IN-VaaniNeural` (Kvinna)
`pa-IN`	Punjabi (Indien)	`pa-IN-OjasNeural` (Man)
`as-IN`	Assamese (Indien)	`as-IN-YashicaNeural` (Kvinna)
`as-IN`	Assamese (Indien)	`as-IN-PriyomNeural` (Man)

Mer information finns i den fullständiga språk- och röstlistan .

Text-till-tal-avatar

Text till tal-avatar stöder nu följande regioner: Sydostasien, Nord Europa, Väst Europa, Sverige Central, Södra centrala USA och Västra USA 2. Mer information finns i Speech Service-regioner.

Version maj 2024

Personlig röst (GA)

Personlig röst är nu allmänt tillgänglig. Med personlig röst kan du få AI-genererad replikering av din röst (eller användare av ditt program) på några sekunder. Du ger ett talexempel på en minut som ljudprompt och använder det sedan för att generera tal på något av de mer än 90 språk som stöds över fler än 100 lokaler. Mer information finns i översikten över personlig röst.

Standardröst

Introducera 8 nya flerspråkiga röster i offentlig förhandsversion: en-GB-AdaMultilingualNeural, en-GB-OllieMultilingualNeural, es-ES-ArabellaMultilingualNeural, es-ES-IsidoraMultilingualNeural, it-IT-AlessioMultilingualNeural, it-IT-IsabellaMultilingualNeural, it-IT-MarcelloMultilingualNeuraloch pt-BR-ThalitaMultilingualNeural. Mer information finns i den fullständiga språk- och röstlistan .
Introducera 2 nya en-US röster som är optimerade för Call Center-scenariot i offentlig förhandsversion: en-US-LunaNeural och en-US-KaiNeural. Mer information finns i den fullständiga språk- och röstlistan .

April 2024-utgåva

Text-till-tal-avatar

Nu kan du ange en statisk bakgrundsbild för dina avatarer. Om du vill använda den här funktionen använder avatarConfig.backgroundImage du bara egenskapen och anger en URL som pekar på den önskade bilden. Mer information finns i Så här redigerar du bakgrunden.

Version mars 2024

Standardröst

9 flerspråkiga röster är allmänt tillgängliga i alla regioner: en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeuraloch zh-CN-XiaoxiaoMultilingualNeural. Mer information finns i den fullständiga språk- och röstlistan .
Vi introducerar en ny flerspråkig röst för offentlig förhandsversion: ja-JP-MasaruMultilingualNeural. Mer information finns i den fullständiga språk- och röstlistan .
Ytterligare uppdateringar:
- en-US-RyanMultilingualNeural är allmänt tillgänglig i alla regioner.
- en-US-JennyMultilingualV2Neural är allmänt tillgängligt i alla regioner, sammanfogat med en-US-JennyMultilingualNeural.
- Förhandsgranskning tillgänglig för de uppdaterade en-IN-NeerjaNeural och hi-IN-SwaraNeural med 3 nya stilar i Östra USA, Västeuropa och Sydostasien.
- Förhandsversion tillgänglig för nya kvinnliga röster i centrala Indien: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeuraloch hi-IN-AnanyaNeural.

Text-till-tal-avatar

Tog bort beroendet av AZURE Communication Services (ACS) TURN för realtidsavatar. Exempelkoden har uppdaterats i enlighet med detta för att återspegla den här ändringen.
Priser för text-till-tal-avatar publicerade. Mer information finns på prissidan. Observera att avatarpriser endast visas för tjänstregioner där funktionen är tillgänglig.

Version februari 2024

OpenAI-röster

Azure AI Speech-tjänsten stöder OpenAI-text till talröster i följande regioner: USA, norra centrala och Sverige, centrala. Precis som Azure AI Speech-röster levererar OpenAI-text till talröster högkvalitativ talsyntes för att konvertera skriven text till naturligt talat ljud. Detta låser upp en mängd olika möjligheter för uppslukande och interaktiva användarupplevelser. Mer information finns i Vad är OpenAI-text till talröster?.

Anteckning

OpenAI-text till talröster finns också i Azure OpenAI.
Med den här uppdateringen har vi justerat prissättningen för standardröster med Azure AI Speech. Kontrollera den uppdaterade prissättningen här.

Personlig röst

Den personliga röstfunktionen har nu stöd för DragonLatestNeural- och PhoenixLatestNeural-modeller. Dessa nya modeller förbättrar naturaliteten hos syntetiserade röster, vilket bättre liknar röstens talegenskaper i prompten. Mer information finns i Integrera personlig röst i ditt program.

Utgåva December 2023

Anpassat röst-API

Det anpassade röst-API:et är tillgängligt för att skapa och hantera professionella och personliga anpassade neurala röstmodeller.

Anpassad neuroröst

De nytränade röstmodellerna stöder nu 48 kHz-exempelfrekvens, oavsett modellversion. För tidigare tränade röstmodeller är det nödvändigt att uppgradera motorversionen till minst 2023.11.13.0-versionen för att förbättra exempelfrekvensen till 48 kHz.

Standardröst

Introduktion till nya flerspråkiga röster för offentlig förhandsversion:

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`de-DE`	Tyska (Tyskland)	`de-DE-FlorianMultilingualNeural` (Man)
`de-DE`	Tyska (Tyskland)	`de-DE-SeraphinaMultilingualNeural` (Kvinna)
`en-US`	Engelska (USA)	`en-US-AvaMultilingualNeural` (Kvinna)
`en-US`	Engelska (USA)	`en-US-EmmaMultilingualNeural` (Kvinna)
`fr-FR`	Franska (Frankrike)	`fr-FR-RemyMultilingualNeural` (Man)
`en-US`	Engelska (USA)	`en-US-BrianMultilingualNeural` (Man)
`en-US`	Engelska (USA)	`en-US-AndrewMultilingualNeural` (Man)
`fr-FR`	Franska (Frankrike)	`fr-FR-VivienneMultilingualNeural` (Kvinna)
`zh-CN`	Kinesiska (mandarin, förenklad)	`zh-CN-XiaoxiaoMultilingualNeural` (Kvinna)
`zh-CN`	Kinesiska (mandarin, förenklad)	`zh-CN-XiaochenMultilingualNeural` (Kvinna)
`zh-CN`	Kinesiska (mandarin, förenklad)	`zh-CN-YunyiMultilingualNeural` (Man)

Introduktion till nya zh-CN-XiaoxiaoDialectsNeural röster för offentlig förhandsversion som stöder flera kinesiska dialekter och accenter:

Röstnamn	Sekundärt språk	Dialekt/Accent
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Kinesiska (Zhongyuan Mandarin Shaanxi, förenklad)
	`zh-CN-sichuan`	Kinesiska (sydvästra mandarin, förenklad)
	`zh-CN-shanxi`	Kinesiska (Shanxi Accent Mandarin, förenklad)
	`nan-CN`	Kinesiska (Södra Min, förenklad)
	`zh-CN-anhui`	Kinesiska (Jianghuai Mandarin Anhui, förenklad)
	`zh-CN-hunan`	Kinesiska (hunan accent mandarin, förenklad)
	`zh-CN-gansu`	Kinesiska (Lanyin Mandarin Gansu, förenklad)
	`zh-CN-shandong`	Kinesiska (jilu mandarin, förenklad)
	`zh-CN-henan`	Kinesiska (Zhongyuan Mandarin Henan, förenklad)
	`zh-CN-liaoning`	Kinesiska (nordöstra mandarin, förenklad)
	`zh-TW`	Kinesiska (taiwanesisk mandarin, traditionell)

November 2023-utgåva

Personlig röst

Personlig röst är tillgänglig som förhandsversion i följande regioner: Europa, västra, USA, östra och Sydostasien. Med personlig röst (förhandsversion) kan du få AI-genererad replikering av din röst (eller användare av ditt program) på några sekunder. Du ger ett talexempel på en minut som ljudprompt och använder det sedan för att generera tal på något av de mer än 90 språk som stöds över fler än 100 lokaler.

Mer information finns i personlig röst.

Text-till-tal-avatar

Text till tal-avatar finns i förhandsversion i följande regioner: Västra USA 2, Västra Europa och Sydostasien.

Text till tal avatar konverterar text till en digital video av en fotorealistisk människa (antingen en standard avatar eller en anpassad text till tal avatar) talar med en naturligt klingande röst. Videon text till tal-avatar kan syntetiseras asynkront eller i realtid. Utvecklare kan skapa program som är integrerade med text till tal-avatar via ett API eller använda ett verktyg för att skapa innehåll i Speech Studio för att skapa videoinnehåll utan kodning.

Mer information finns i text till talavatar, transparensanteckningar och avslöjande för röst- och avatartalanger.

Anpassad neuroröst

Stöd har lagts till för 24 nya språklokaliseringar för flerspråkigt tal. Mer information finns i den fullständiga språklistan .

Standardröst

Vi introducerar nya röster för offentlig förhandsvisning.

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`de-DE`	Tyska (Tyskland)	`SeraphinaNeural` (Kvinna)
`es-ES`	Spanska (Spanien)	`XimenaNeural` (Kvinna)
`fr-CA`	Franska (Kanada)	`ThierryNeural` (Man)
`fr-FR`	Franska (Frankrike)	`VivienneNeural` (Kvinna)
`it-IT`	Italienska (Italien)	`GiuseppeNeural` (Man)
`ko-KR`	Koreanska (Korea)	`HyunsuNeural` (Man)
`pt-BR`	Portugisiska (Brasilien)	`ThalitaNeural` (Kvinna)

Modeller uppdaterade med buggar och kvalitetsförbättringar:

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`es-ES`	Spanska (Spanien)	`AlvaroNeural` (Man)
`en-GB`	Engelska (Storbritannien)	`RyanNeural` (Man)
`ko-KR`	Koreanska (Korea)	`InjoonNeural` (Man)

Mer information finns i den fullständiga språk- och röstlistan .

Version oktober 2023

Anpassad neuroröst

Stöd har lagts till för de 12 nya lokaliseringarna med anpassad neural röst Pro. Mer information finns i den fullständiga språklistan .

September 2023-utgåva

Standardröst

Vi introducerar nya röster för offentlig förhandsvisning.

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`en-US`	Engelska (USA)	`en-US-EmmaNeural` (Kvinna)
`en-US`	Engelska (USA)	`en-US-AndrewNeural` (Man)
`en-US`	Engelska (USA)	`en-US-BrianNeural` (Man)

Mer information finns i den fullständiga språk- och röstlistan .

Inbäddad neuraltal

Alla 147 lokaler här (utom fa-IR, persiska (Iran)) är direkt tillgängliga med antingen 1 valt kvinnlig röst och/eller 1 valt manlig röst.

Augusti 2023 utgåva

Anpassad neuroröst

Den senaste CNV Lite-träningsreceptversionen har släppts nu. Den här versionen ger flera förbättringar av kvaliteten på dina språkmodeller. Prova Speech Studio.

Juli 2023 utgåva

Anpassad neuroröst

Röst i flera format är allmänt tillgängligt.
Två nya lokalvarianter har lagts till i offentlig förhandsversion för röst med flera stilar: ja-JP och zh-CN. Mer information finns i den fullständiga språk- och röstlistan . Se listan med förinställda formatmallar för olika språk.
Korsspråkig röst är allmänt tillgänglig.
Lade till två nya nationella inställningar för korsspråkig röst: id-ID och nl-NL. Mer information finns i den fullständiga språk- och röstlistan .

Standardröster

Introduktion till ny en-US könsneutral röst för offentlig förhandsversion:

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`en-US`	Engelska (USA)	`en-US-BlueNeural` (Neutral)

Introduktion till nya flerspråkiga röster för offentlig förhandsversion:

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`en-US`	Engelska (USA)	`en-US-JennyMultilingualV2Neural` (Kvinna)
`en-US`	Engelska (USA)	`en-US-RyanMultilingualNeural` (Man)

Flerspråkiga röster en-US-JennyMultilingualV2Neural och en-US-RyanMultilingualNeural identifiera språket i indatatexten automatiskt. Du kan dock fortfarande använda elementet <lang> för att justera talarspråket för dessa röster.

Dessa nya flerspråkiga röster kan tala på 41 språk och accenter: Arabic (Egypt), Arabic (Saudi Arabia), Catalan, Czech (Czechia), Danish (Denmark), German (Austria), German (Switzerland), German (Germany), English (Australia), English (Canada), English (United Kingdom), English (Hong Kong SAR), English (Ireland), English (India), English (United States), Spanish (Spain), Spanish (Mexico), Finnish (Finland), French (Belgium), French (Canada), French (Switzerland), French (France), Hindi (India), Hungarian (Hungary), Indonesian (Indonesia), Italian (Italy), Japanese (Japan), Korean (Korea), Norwegian Bokmål (Norway), Dutch (Belgium), Dutch (Netherlands), Polish (Poland), Portuguese (Brazil), Portuguese (Portugal), Russian (Russia), Swedish (Sweden), Thai (Thailand), Turkish (Türkiye), Chinese (Mandarin, Simplified), Chinese (Cantonese, Traditional), Chinese (Taiwanese Mandarin, Traditional).

Dessa flerspråkiga röster stöder inte helt vissa SSML-element, till exempel paus, betoning, tystnad och sub.

Viktigt!

Rösten en-US-JennyMultilingualV2Neural tillhandahålls tillfälligt i offentlig förhandsversion enbart i utvärderingssyfte. Den kommer att tas bort i framtiden.

För att kunna tala på ett annat språk än engelska kräver den aktuella implementeringen av en-US-JennyMultilingualNeural rösten att du anger elementet <lang xml:lang> . Vi förväntar oss att under fjärde kvartalet kalenderåret 2023 kommer rösten att uppdateras för att tala på indatatextens språk utan en-US-JennyMultilingualNeural-elementet. Detta kommer att vara i linje med en-US-JennyMultilingualV2Neural rösten.

Introduktion till nya funktioner i offentlig förhandsversion för röster nedan:

Har lagt till latinsk inmatning för serbiska (Serbien) sr-RS röster: sr-latn-RS-SophieNeural och sr-latn-RS-NicholasNeural.
Lade till engelskt uttalsstöd för albanska (Albanien)sq-AL röster: sq-AL-AnilaNeural och sq-AL-IlirNeural.

Maj 2023 utgåva

Skapa ljudinnehåll

Alla standardröster med talstilar och anpassade röster med flera stilar stöder justering av stilgrader.
Nu kan du åtgärda uttalet av ett ord genom att tala ordet och spela in det. Fonem kan identifieras automatiskt från inspelningen. Funktionen Identifiera genom att tala finns nu i offentlig förhandsversion.

Utgåva april 2023

Standardröster

Följande funktioner i dessa röster har flyttats från offentlig förhandsversion till GA:

Stil	Röster för text-till-tal
stil="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural` och `it-IT-IsabellaNeural`
style="upplyftande"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural`, och `it-IT-IsabellaNeural`
style="ledsen"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural` och `fr-FR-HenriNeural`

Förbättra det engelska uttalet för hi-IN, ta-IN och te-IN röster, nu tillgängligt i offentliga förhandsgranskningsregioner

Mer information finns i språk- och röstlistan.

Mars 2023 utgåva

Nya funktioner

Speech Synthesis Markup Language (SSML) har uppdaterats för att stödja ljudeffektprocessorelement som optimerar kvaliteten på den syntetiserade talutgången för specifika scenarier på enheter. Läs mer på markering för talsyntes.

Anpassad neuroröst

Stöd har lagts till för språkvarianten nl-BE med Anpassad neural röst Pro. Mer information finns i den fullständiga språk- och röstlistan .

Standardröster

Följande röster är nu allmänt tillgängliga. Mer information finns i den fullständiga språk- och röstlistan .

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`en-AU`	Engelska (Australien)	`en-AU-AnnetteNeural` (Kvinna) `en-AU-CarlyNeural` (Kvinna) `en-AU-DarrenNeural` (Man) `en-AU-DuncanNeural` (Man) `en-AU-ElsieNeural` (Kvinna) `en-AU-FreyaNeural` (Kvinna) `en-AU-JoanneNeural` (Kvinna) `en-AU-KenNeural` (Man) `en-AU-KimNeural` (Kvinna) `en-AU-NeilNeural` (Man) `en-AU-TimNeural` (Man) `en-AU-TinaNeural` (Kvinna) `en-AU-WilliamNeural` (Man)
`en-GB`	Engelska (Storbritannien)	`en-GB-RyanNeural` (Man) `en-GB-SoniaNeural` (Kvinna)
`es-ES`	Spanska (Spanien)	`es-ES-AbrilNeural` (Kvinna) `es-ES-ArnauNeural` (Man) `es-ES-DarioNeural` (Man) `es-ES-EliasNeural` (Man) `es-ES-EstrellaNeural` (Kvinna) `es-ES-IreneNeural` (Kvinna) `es-ES-LaiaNeural` (Kvinna) `es-ES-LiaNeural` (Kvinna) `es-ES-NilNeural` (Man) `es-ES-SaulNeural` (Man) `es-ES-TeoNeural` (Man) `es-ES-TrianaNeural` (Kvinna) `es-ES-VeraNeural` (Kvinna)
`es-MX`	Spanska (Mexiko)	`es-MX-JorgeNeural` (Man)
`fr-FR`	Franska (Frankrike)	`fr-FR-HenriNeural` (Man)
`it-IT`	Italienska (Italien)	`it-IT-IsabellaNeural` (Kvinna)
`ja-JP`	Japanska (Japan)	`ja-JP-AoiNeural` (Kvinna) `ja-JP-DaichiNeural` (Man) `ja-JP-MayuNeural` (Kvinna) `ja-JP-NaokiNeural` (Man) `ja-JP-ShioriNeural` (Kvinna)

Lagt till stöd för cheerful-stilen med de-DE-ConradNeural-rösten.

Version februari 2023

Standardröster

Följande röster är nu allmänt tillgängliga. Mer information finns i den fullständiga språk- och röstlistan .

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`zh-CN`	Kinesiska (mandarin, förenklad)	`zh-CN-XiaomengNeural` (Kvinna) `zh-CN-XiaoyiNeural` (Kvinna) `zh-CN-XiaozhenNeural` (Kvinna) `zh-CN-YunfengNeural` (Man) `zh-CN-YunhaoNeural` (Man) `zh-CN-YunjianNeural` (Man) `zh-CN-YunxiaNeural` (Man) `zh-CN-YunzeNeural` (Man)
`zh-CN-henan`	Kinesiska (Zhongyuan Mandarin Henan, förenklad)	`zh-CN-henan-YundengNeural` (Man)

December 2022-utgåva

REST API för batchsyntes (förhandsversion)

Batch-syntes-API:et finns för närvarande i offentlig förhandsversion. När det är allmänt tillgängligt är API:et för långt ljud inaktuellt. Mer information finns i Migrera till batchsyntes-API.

November 2022-utgåvan

Standardröster (GA)

Följande röster är nu allmänt tillgängliga. Mer information finns i den fullständiga språk- och röstlistan .

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`es-MX`	Spanska (Mexiko)	`es-MX-BeatrizNeural` (Kvinna) `es-MX-CandelaNeural` (Kvinna) `es-MX-CarlotaNeural` (Kvinna) `es-MX-CecilioNeural` (Man) `es-MX-GerardoNeural` (Man) `es-MX-LarissaNeural` (Kvinna) `es-MX-LibertoNeural` (Man) `es-MX-LucianoNeural` (Man) `es-MX-MarinaNeural` (Kvinna) `es-MX-NuriaNeural` (Kvinna) `es-MX-PelayoNeural` (Man) `es-MX-RenataNeural` (Kvinna) `es-MX-YagoNeural` (Man)
`it-IT`	Italienska (Italien)	`it-IT-BenignoNeural` (Man) `it-IT-CalimeroNeural` (Man) `it-IT-CataldoNeural` (Man) `it-IT-FabiolaNeural` (Kvinna) `it-IT-FiammaNeural` (Kvinna) `it-IT-GianniNeural` (Man) `it-IT-ImeldaNeural` (Kvinna) `it-IT-IrmaNeural` (Kvinna) `it-IT-LisandroNeural` (Man) `it-IT-PalmiraNeural` (Kvinna) `it-IT-PierinaNeural` (Kvinna) `it-IT-RinaldoNeural` (Man)
`pt-BR`	Portugisiska (Brasilien)	`pt-BR-BrendaNeural` (Kvinna) `pt-BR-DonatoNeural` (Man) `pt-BR-ElzaNeural` (Kvinna) `pt-BR-FabioNeural` (Man) `pt-BR-GiovannaNeural` (Kvinna) `pt-BR-HumbertoNeural` (Man) `pt-BR-JulioNeural` (Man) `pt-BR-LeilaNeural` (Kvinna) `pt-BR-LeticiaNeural` (Kvinna) `pt-BR-ManuelaNeural` (Kvinna) `pt-BR-NicolauNeural` (Man) `pt-BR-ValerioNeural` (Man) `pt-BR-YaraNeural` (Kvinna)

Anpassad neuroröst

Följande lokalstöd läggs till för Anpassad Neural Röst. Mer information finns i den fullständiga språk- och röstlistan .

Stöd har lagts till för språkvarianten fr-BE med den anpassade neurala rösten Pro.
Stöd har lagts till för språkvarianten es-ES med anpassad neural röstlitter.

Oktober 2022-utgåva

Standardröster (GA)

Följande röster är nu allmänt tillgängliga. Mer information finns i den fullständiga språk- och röstlistan .

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`eu-ES`	Baskiska	`eu-ES-AinhoaNeural` (Kvinna) `eu-ES-AnderNeural` (Man)
`hy-AM`	Armeniska (Armenien)	`hy-AM-AnahitNeural` (Kvinna) `hy-AM-HaykNeural` (Man)

Standardröster (förhandsversion)

Följande röster är nu tillgängliga i offentlig förhandsversion. Mer information finns i den fullständiga språk- och röstlistan .

Språk- och regionsinställningar (BCP-47)	Språk	Röster för text-till-tal
`en-AU`	Engelska (Australien)	`en-AU-AnnetteNeural`(Kvinna) `en-AU-CarlyNeural`(Kvinna) `en-AU-DarrenNeural`(Man) `en-AU-DuncanNeural`(Man) `en-AU-ElsieNeural`(Kvinna) `en-AU-FreyaNeural`(Kvinna) `en-AU-JoanneNeural`(Kvinna) `en-AU-KenNeural`(Man) `en-AU-KimNeural`(Kvinna) `en-AU-NeilNeural`(Man) `en-AU-TimNeural`(Man) `en-AU-TinaNeural`(Kvinna)
`es-ES`	Spanska (Spanien)	`es-ES-AbrilNeural`(Kvinna) `es-ES-AlvaroNeural`(Man) `es-ES-ArnauNeural`(Man) `es-ES-DarioNeural`(Man) `es-ES-EliasNeural`(Man) `es-ES-EstrellaNeural`(Kvinna) `es-ES-IreneNeural`(Kvinna) `es-ES-LaiaNeural`(Kvinna) `es-ES-LiaNeural`(Kvinna) `es-ES-NilNeural`(Man) `es-ES-SaulNeural`(Man) `es-ES-TeoNeural`(Man) `es-ES-TrianaNeural`(Kvinna) `es-ES-VeraNeural`(Kvinna)
`ja-JP`	Japanska (Japan)	`ja-JP-AoiNeural`(Kvinna) `ja-JP-DaichiNeural`(Man) `ja-JP-MayuNeural`(Kvinna) `ja-JP-NaokiNeural`(Man) `ja-JP-ShioriNeural`(Kvinna)
`ko-KR`	Koreanska (Korea)	`ko-KR-BongJinNeural`(Man) `ko-KR-GookMinNeural`(Man) `ko-KR-JiMinNeural`(Kvinna) `ko-KR-SeoHyeonNeural`(Kvinna) `ko-KR-SoonBokNeural`(Kvinna) `ko-KR-YuJinNeural`(Kvinna)
`wuu-CN`	Kinesiska (Wu, förenklad)	`wuu-CN-XiaotongNeural` (Kvinna) `wuu-CN-YunzheNeural` (Man)
`yue-CN`	Kinesiska (kantonesiska, förenklad)	`yue-CN-XiaoMinNeural` (Kvinna) `yue-CN-YunSongNeural` (Man)

Allmänna TTS-röstuppdateringar

Förbättrad kvalitet för fil-PH-AngeloNeural och fil-PH-BlessicaNeural röster.
Regler för textnormalisering uppdateras för röster för språkregionerna es-CL spanska (Chile) och uz-UZ uzbekiska (Uzbekistan).
Lade till stavning med engelska bokstäver för röster med de albanska (Albanien) och azerbajdzjanska (Azerbajdzjan) språkversionerna.
Förbättrat engelskt uttal för zh-HK-WanLungNeural rösten.
Förbättrad frågeton för nl-NL-MaartenNeural och pt-BR-AntonioNeural röster.
Stöd har lagts till för taggen <lang ="en-US"> för bättre engelskt uttal med följande röster: de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeural och it-IT-IsabellaNeural.
Stöd för style="chat"-taggen har lagts till med följande röster: en-GB-RyanNeural, es-MX-JorgeNeural, och it-IT-IsabellaNeural.
Stöd för taggen style="cheerful" har lagts till med följande röster: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeuraloch it-IT-IsabellaNeural.
Stöd har lagts till för taggen style="sad" med följande röster: en-GB-SoniaNeural, fr-FR-DeniseNeural och fr-FR-HenriNeural.

Utgåva september 2022

Standardröst

Alla standardröster har uppgraderats till röster med hög trohet med 48 kHz samplingsfrekvens.

Augusti 2022 utgåva

Standardröst

Släppte nya röster i offentlig förhandsversion:

Röster för engelska (USA): en-US-AIGenerate1Neural och en-US-AIGenerate2Neural.
Röster för kinesiska regionala språk: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeuraloch zh-CN-shandong-YunxiangNeural.

Mer information finns i språk- och röstlistan.

Versionen från juli 2022

Standardröst

Lade till 5 nya röster från zh-CN kinesiska (mandarin, förenklad) och 1 ny röst på en-US engelska (USA) i public preview. Se fullständig språk- och röstlista.

Språk	Lokala inställningar	Kön	Röstnamn	Stöd för stil
Kinesiska (mandarin, förenklad)	`zh-CN`	Kvinna	`zh-CN-XiaomengNeural` ^Ny	Allmänt, flera format som är tillgängliga med SSML
Kinesiska (mandarin, förenklad)	`zh-CN`	Kvinna	`zh-CN-XiaoyiNeural` ^Ny	Allmänt, flera format som är tillgängliga med SSML
Kinesiska (mandarin, förenklad)	`zh-CN`	Kvinna	`zh-CN-XiaozhenNeural` ^Ny	Allmänt, flera format som är tillgängliga med SSML
Kinesiska (mandarin, förenklad)	`zh-CN`	Man	`zh-CN-YunxiaNeural` ^Ny	Allmänt, flera format som är tillgängliga med SSML
Kinesiska (mandarin, förenklad)	`zh-CN`	Man	`zh-CN-YunzeNeural` ^Ny	Allmänt, flera format som är tillgängliga med SSML
Engelska (USA)	`en-US`	Man	`en-US-RogerNeural` ^Ny	Allmänt

Stilar och roller som stöds för de neurala rösterna som lagts till.

Röst	Stilar	Stilgrad	Roller
zh-CN-XiaomengNeural ^{Offentlig förhandsversion}	`chat`	Stöds av
zh-CN-XiaoyiNeural ^{Offentlig förhandsversion}	`affectionate`, `angry`, `cheerful`, `disgruntled`, `embarrassed`, `fearful`, , `gentle`, , `sadserious`	Stöds av
zh-CN-XiaozhenNeural ^{Offentlig förhandsversion}	`angry`, `cheerful`, `disgruntled`, `fearful`, `sadserious`	Stöds av
zh-CN-YunxiaNeural ^{Offentlig förhandsversion}	`angry`, `calm`, `cheerful`, , , `fearfulsad`	Stöds av
zh-CN-YunzeNeural ^{Offentlig förhandsversion}	`angry`, `calm`, `cheerful`, `depressed`, `disgruntled`, `documentary-narration`, , `fearful`, , `sadserious`	Stöds av	Stöds av

Få ansiktsposition med viseme

Stöd har lagts till för blendegenskaper för att styra ansiktsrörelserna i en 3D-karaktär som du har designat. Lär dig mer om hur du får ansiktsposition med viseme.
SSML har uppdaterats för att stödja viseme-element. Se uppmärkning för talsyntes.

Utgåva juni 2022

Standardröst

Nio nya språk och varianter har lagts till för neural text-till-tal:

Språk	Lokala inställningar	Kön	Röstnamn	Stöd för stil
Arabiska (Libanon)	`ar-LB`	Kvinna	`ar-LB-LaylaNeural` ^Ny	Allmänt
Arabiska (Libanon)	`ar-LB`	Man	`ar-LB-RamiNeural` ^Ny	Allmänt
Arabiska (Oman)	`ar-OM`	Kvinna	`ar-OM-AyshaNeural` ^Ny	Allmänt
Arabiska (Oman)	`ar-OM`	Man	`ar-OM-AbdullahNeural` ^Ny	Allmänt
Azerbajdzjan (Azerbajdzjan)	`az-AZ`	Kvinna	`az-AZ-BabekNeural` ^Ny	Allmänt
Azerbajdzjan (Azerbajdzjan)	`az-AZ`	Man	`az-AZ-BanuNeural` ^Ny	Allmänt
Bosniska (Bosnien och Hercegovina)	`bs-BA`	Kvinna	`bs-BA-VesnaNeural` ^Ny	Allmänt
Bosniska (Bosnien och Hercegovina)	`bs-BA`	Man	`bs-BA-GoranNeural` ^Ny	Allmänt
Georgiska (Georgien)	`ka-GE`	Kvinna	`ka-GE-EkaNeural` ^Ny	Allmänt
Georgiska (Georgien)	`ka-GE`	Man	`ka-GE-GiorgiNeural` ^Ny	Allmänt
Mongoliska (Mongoliet)	`mn-MN`	Kvinna	`mn-MN-YesuiNeural` ^Ny	Allmänt
Mongoliska (Mongoliet)	`mn-MN`	Man	`mn-MN-BataaNeural` ^Ny	Allmänt
Nepalesiska (Nepal)	`ne-NP`	Kvinna	`ne-NP-HemkalaNeural` ^Ny	Allmänt
Nepalesiska (Nepal)	`ne-NP`	Man	`ne-NP-SagarNeural` ^Ny	Allmänt
Albanska (Albanien)	`sq-AL`	Kvinna	`sq-AL-AnilaNeural` ^Ny	Allmänt
Albanska (Albanien)	`sq-AL`	Man	`sq-AL-IlirNeural` ^Ny	Allmänt
Tamil (Malaysia)	`ta-MY`	Kvinna	`ta-MY-KaniNeural` ^Ny	Allmänt
Tamil (Malaysia)	`ta-MY`	Man	`ta-MY-SuryaNeural` ^Ny	Allmänt

GA 36 röster från publik förhandsgranskning för en-GB engelska (Storbritannien), fr-FR franska (Frankrike) och de-DE tyska (Tyskland):

Språk	Lokala inställningar	Kön	Röstnamn	Stöd för stil
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-AbbiNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-BellaNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-HollieNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-MaisieNeural`	Allmän, barnröst
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-OliviaNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-SoniaNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-AlfieNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-ElliotNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-EthanNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-NoahNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-OliverNeural`	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-ThomasNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-BrigitteNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-CelesteNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-CoralieNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-EloiseNeural`	Allmän, barnröst
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-JacquelineNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-JosephineNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-YvetteNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-AlainNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-ClaudeNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-JeromeNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-MauriceNeural`	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-YvesNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-AmalaNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-ElkeNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-GiselaNeural`	Allmän, barnröst
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-KlarissaNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-LouisaNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-MajaNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-TanjaNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-BerndNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-ChristophNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-KasperNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-KillianNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-KlausNeural`	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-RalfNeural`	Allmänt

Lade till 40 nya röster från es-MX spanska (Mexiko), it-IT italienska (Italien), pt-BR portugisiska (Brasilien) och 2 accenter för zh-CN kinesiska (mandarin, förenklad) i offentlig förhandsversion:

Språk	Lokala inställningar	Kön	Röstnamn	Stöd för stil
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-BeatrizNeural` ^Ny	Allmänt
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-CarlotaNeural` ^Ny	Allmänt
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-NuriaNeural` ^Ny	Allmänt
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-RenataNeural` ^Ny	Allmänt
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-LarissaNeural` ^Ny	Allmänt
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-CandelaNeural` ^Ny	Allmänt
Spanska (Mexiko)	`es-MX`	Kvinna	`es-MX-MarinaNeural` ^Ny	Allmänt
Italienska (Italien)	`it-IT`	Kvinna	`it-IT-FiammaNeural` ^Ny	Allmänt
Italienska (Italien)	`it-IT`	Kvinna	`it-IT-IrmaNeural` ^Ny	Allmänt
Italienska (Italien)	`it-IT`	Kvinna	`it-IT-FabiolaNeural` ^Ny	Allmänt
Italienska (Italien)	`it-IT`	Kvinna	`it-IT-PalmiraNeural` ^Ny	Allmänt
Italienska (Italien)	`it-IT`	Kvinna	`it-IT-ImeldaNeural` ^Ny	Allmänt
Italienska (Italien)	`it-IT`	Kvinna	`it-IT-PierinaNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-ElzaNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-ManuelaNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-BrendaNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-LeilaNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-YaraNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-GiovannaNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Kvinna	`pt-BR-LeticiaNeural` ^Ny	Allmänt
Spanska (Mexiko)	`es-MX`	Man	`es-MX-CecilioNeural` ^Ny	Allmänt
Spanska (Mexiko)	`es-MX`	Man	`es-MX-LibertoNeural` ^Ny	Allmänt
Spanska (Mexiko)	`es-MX`	Man	`es-MX-LucianoNeural` ^Ny	Allmänt
Spanska (Mexiko)	`es-MX`	Man	`es-MX-PelayoNeural` ^Ny	Allmänt
Spanska (Mexiko)	`es-MX`	Man	`es-MX-YagoNeural` ^Ny	Allmänt
Spanska (Mexiko)	`es-MX`	Man	`es-MX-GerardoNeural` ^Ny	Allmänt
Italienska (Italien)	`it-IT`	Man	`it-IT-BenignoNeural` ^Ny	Allmänt
Italienska (Italien)	`it-IT`	Man	`it-IT-CataldoNeural` ^Ny	Allmänt
Italienska (Italien)	`it-IT`	Man	`it-IT-LisandroNeural` ^Ny	Allmänt
Italienska (Italien)	`it-IT`	Man	`it-IT-CalimeroNeural` ^Ny	Allmänt
Italienska (Italien)	`it-IT`	Man	`it-IT-RinaldoNeural` ^Ny	Allmänt
Italienska (Italien)	`it-IT`	Man	`it-IT-GianniNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Man	`pt-BR-DonatoNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Man	`pt-BR-HumbertoNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Man	`pt-BR-FabioNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Man	`pt-BR-JulioNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Man	`pt-BR-ValerioNeural` ^Ny	Allmänt
Portugisiska (Brasilien)	`pt-BR`	Man	`pt-BR-NicolauNeural` ^Ny	Allmänt
Kinesiska (mandarin, förenklad)	`zh-CN-sichuan`	Man	`zh-CN-sichuan-YunxiSichuanNeural` ^Ny	allmänt, sichuan-dialekt
Kinesiska (mandarin, förenklad)	`zh-CN-liaoning`	Kvinna	`zh-CN-liaoning-XiaobeiNeural` ^Ny	Allmänt, Liaoning-accent

Förbättrad kvalitet för en-SG-LunaNeural och en-SG-WayneNeural
Stöd för 48kHz-utdata för den offentliga förhandsversionen med en-US-JennyNeural, en-US-AriaNeural och zh-CN-XiaoxiaoNeural

Anpassad neuroröst

Aktiverad för att åtgärda dataproblem online. Läs mer om hur du löser dataproblem i Speech Studio.
Lade till en version av träningsrecept. Läs mer om hur du väljer träningsreceptversionen för din röstmodell.

Verktyg för att skapa ljudinnehåll

Stöd för paginering.
Aktiverad för att sortera globalt efter namn, filtyp och uppdateringstid på arbetsfilsidan.

Version maj 2022

Standardröst

Släppte 5 nya röster i offentlig förhandsversion med flera stilar för att berika variationen av amerikansk engelska. Se fullständig språk- och röstlista.
Stöd för dessa nya format , AngryExcited, Friendly, Hopeful, Sad, Shouting, UnfriendlyTerrifiedoch Whispering i offentlig förhandsversion för en-US-AriaNeural.
Stöd för dessa nya format , AngryCheerful, Excited, Friendly, Hopeful, Sad, Shouting, UnfriendlyTerrifiedoch Whispering i offentlig förhandsversion för en-US-GuyNeural, en-US-JennyNeural.
Stöd för dessa nya format , ExcitedFriendly, Hopeful, Shouting, UnfriendlyTerrifiedoch Whispering i offentlig förhandsversion för en-US-SaraNeural. Se röstformat och roller.
Nya röster zh-CN-YunjianNeural, zh-CN-YunhaoNeural, och zh-CN-YunfengNeural släpptes i offentlig förhandsversion. Se fullständig språk- och röstlista.
Stöd för 2 nya format: sports-commentary, sports-commentary-excited i offentlig förhandsversion för zh-CN-YunjianNeural. Se röstformat och roller.
Stöd för 1 ny stil advertisement-upbeat i offentlig förhandsversion för zh-CN-YunhaoNeural. Se röstformat och roller.
Formaten cheerful och sad för fr-FR-DeniseNeural är allmänt tillgängliga i alla regioner.
SSML har uppdaterats för att stödja MathML-element för en-US- och en-AU-röster. Läs mer på markering för talsyntes.

Anpassad neuroröst

Aktiverade möjligheten att avbryta träningen av röstmodellen under själva träningsprocessen. Läs mer om hur du avbryter träningen.
Aktiverad för att klona modellen (byt namn på röstmodell). Läs mer om hur du byter namn på din röstmodell.
Aktiverad för att testa din röstmodell genom att lägga till ett eget testskript. Läs mer om hur du laddar upp testskriptet.
Aktiverad för att uppdatera motorversionen för din röstmodell. Läs mer om hur du uppdaterar modellmotorversionen.
Stöd för fler träningsregioner. Se regionstöd.
10 lokaler som stödjer anpassade neuralröster (förhandsversion). Se språkstöd.

Verktyg för att skapa ljudinnehåll

Aktiverad för att testa verktyget För att skapa ljudinnehåll utan att logga in.
Förbättrad layout för att justera fonem.
Förbättrad prestanda: Det maximala antalet (200) filer som ska laddas upp samtidigt har angetts.
Förbättrad prestanda: Angav den maximala katalogdjupsnivån (5 nivåer).

Version mars 2022

Standardröst

Stöd har lagts till i offentlig förhandsversion för formatmallarna Cheerful och Sad med fr-FR-DeniseNeural. Se röstformat och roller.
Frisläppt standardröster för frånkopplade containrar i offentlig förhandsversion. Se Använda Docker-containrar i frånkopplade miljöer.

Anpassad neuroröst

Rollbaserad åtkomstkontroll som stöds. Läs mer om rollbaserad åtkomstkontroll i Azure i Speech Studio
Privata slutpunkter och tjänstslutpunkter för virtuella nätverk som stöds. Läs mer om hur du använder privata slutpunkter med taltjänsten.

Verktyg för att skapa ljudinnehåll

Uppdaterade filstorleken och samtidighetsgränsen för F0-resurser (free-tier) för att göra upplevelsen konsekvent med Speech SDK och API:er. Se kvoter och gränser för taltjänsten.

Version februari 2022

Anpassad neuroröst

Släppte anpassad neuralröst Lite i offentlig testversion. Läs mer om vad anpassad neural röst lite är.
Utökat språkstöd till 49 språk. Se språkstöd.
Stöd för fler regioner/datacenter. Se regionstöd.

Verktyg för att skapa ljudinnehåll

Tog bort utdatalängdsgränsen för att ladda ned ljud.

Version januari 2022

Nya språk och röster

10 nya språk och varianter har lagts till för Neural text-till-tal.

Språk	Lokala inställningar	Kön	Röstnamn	Stöd för stil
Bengali (Indien)	`bn-IN`	Kvinna	`bn-IN-TanishaaNeural` ^Ny	Allmänt
Bengali (Indien)	`bn-IN`	Man	`bn-IN-BashkarNeural` ^Ny	Allmänt
Isländska (Island)	`is-IS`	Kvinna	`is-IS-GudrunNeural` ^Ny	Allmänt
Isländska (Island)	`is-IS`	Man	`is-IS-GunnarNeural` ^Ny	Allmänt
Kannada (Indien)	`kn-IN`	Kvinna	`kn-IN-SapnaNeural` ^Ny	Allmänt
Kannada (Indien)	`kn-IN`	Man	`kn-IN-GaganNeural` ^Ny	Allmänt
Kazakiska (Kazakstan)	`kk-KZ`	Kvinna	`kk-KZ-AigulNeural` ^Ny	Allmänt
Kazakiska (Kazakstan)	`kk-KZ`	Man	`kk-KZ-DauletNeural` ^Ny	Allmänt
Lao (Laos)	`lo-LA`	Kvinna	`lo-LA-KeomanyNeural` ^Ny	Allmänt
Lao (Laos)	`lo-LA`	Man	`lo-LA-ChanthavongNeural` ^Ny	Allmänt
Makedonien (Republiken Nordmakedonien)	`mk-MK`	Kvinna	`mk-MK-MarijaNeural` ^Ny	Allmänt
Makedonien (Republiken Nordmakedonien)	`mk-MK`	Man	`mk-MK-AleksandarNeural` ^Ny	Allmänt
Malayalam (Indien)	`ml-IN`	Kvinna	`ml-IN-SobhanaNeural` ^Ny	Allmänt
Malayalam (Indien)	`ml-IN`	Man	`ml-IN-MidhunNeural` ^Ny	Allmänt
Pashto (Afghanistan)	`ps-AF`	Kvinna	`ps-AF-LatifaNeural` ^Ny	Allmänt
Pashto (Afghanistan)	`ps-AF`	Man	`ps-AF-GulNawazNeural` ^Ny	Allmänt
Serbiska (Serbien, kyrillisk)	`sr-RS`	Kvinna	`sr-RS-SophieNeural` ^Ny	Allmänt
Serbiska (Serbien, kyrillisk)	`sr-RS`	Man	`sr-RS-NicholasNeural` ^Ny	Allmänt
Sinhala (Sri Lanka)	`si-LK`	Kvinna	`si-LK-ThiliniNeural` ^Ny	Allmänt
Sinhala (Sri Lanka)	`si-LK`	Man	`si-LK-SameeraNeural` ^Ny	Allmänt

En fullständig lista över tillgängliga röster finns i Språkstöd.

Nya röster i förhandsversionen

Nya röster har lagts till för förhandsversionen av en-GB, fr-FR och de-DE:

Språk	Lokala inställningar	Kön	Röstnamn	Stöd för stil
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-AbbiNeural` ^Ny	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-BellaNeural` ^Ny	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-HollieNeural` ^Ny	Allmänt
Engelska (Storbritannien)	`en-GB`	Kvinna	`en-GB-OliviaNeural` ^Ny	Allmänt
Engelska (Storbritannien)	`en-GB`	Flicka	`en-GB-MaisieNeural` ^Ny	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-AlfieNeural` ^Ny	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-ElliotNeural` ^Ny	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-EthanNeural` ^Ny	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-NoahNeural` ^Ny	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-OliverNeural` ^Ny	Allmänt
Engelska (Storbritannien)	`en-GB`	Man	`en-GB-ThomasNeural` ^Ny	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-BrigitteNeural` ^Ny	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-CelesteNeural` ^Ny	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-CoralieNeural` ^Ny	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-JacquelineNeural` ^Ny	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-JosephineNeural` ^Ny	Allmänt
Franska (Frankrike)	`fr-FR`	Kvinna	`fr-FR-YvetteNeural` ^Ny	Allmänt
Franska (Frankrike)	`fr-FR`	Flicka	`fr-FR-EloiseNeural` ^Ny	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-AlainNeural` ^Ny	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-ClaudeNeural` ^Ny	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-JeromeNeural` ^Ny	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-MauriceNeural` ^Ny	Allmänt
Franska (Frankrike)	`fr-FR`	Man	`fr-FR-YvesNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-AmalaNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-ElkeNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-KlarissaNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-LouisaNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-MajaNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Kvinna	`de-DE-TanjaNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Flicka	`de-DE-GiselaNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-BerndNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-ChristophNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-KasperNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-KillianNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-KlausNeural` ^Ny	Allmänt
Tyska (Tyskland)	`de-DE`	Man	`de-DE-RalfNeural` ^Ny	Allmänt

En fullständig lista över tillgängliga röster finns i Språkstöd.

Uttalsprecision

Förbättrat uttal av engelska för alla he-IL röster.
Förbättrad uttalsprecision på ordnivå för cs-CZ och da-DK.
Förbättrad hantering av arabiska diakritiska tecken och hebreiska nikud.
Förbättrad entitetsläsning för ja-JP

Talstudio

Anpassad neural röst: tillåten ytterligare modelltestning med batch-API:et (API för långt ljud)
Skapande av ljudinnehåll: fler utdataformat har aktiverats

Oktober 2021-version

Nya språk och röster

Lade till 49 nya språk och 98 röster för neural text-till-tal.

Adri på af-ZA Afrikaans (Sydafrika), Willem på af-ZA Afrikaans (Sydafrika), Mekdes på am-ET Amhariska (Etiopien), Ameha på am-ET Amhariska (Etiopien), Fatima på ar-AE arabiska (Förenade Arabemiraten), Hamdan på ar-AE arabiska (Förenade Arabemiraten), Laila på ar-BH arabiska (Bahrain), Ali på ar-BH arabiska (Bahrain), Amina på ar-DZ arabiska (Algeriet), Ismael på ar-DZ arabiska (Algeriet), Rana på ar-IQ arabiska (Irak), Bassel på ar-IQ arabiska (Irak), Sana på ar-JO arabiska (Jordanien), Taim på ar-JO arabiska (Jordanien), Noura på ar-KW arabiska (Kuwait), Fahed på ar-KW arabiska (Kuwait), Iman på ar-LY arabiska (Libyen), Omar på ar-LY arabiska (Libyen), Mouna på ar-MA arabiska (Marocko), Jamal på ar-MA arabiska (Marocko), Amal på ar-QA arabiska (Qatar), Moaz på ar-QA arabiska (Qatar), Amany på ar-SY arabiska (Syrien), Laith på ar-SY arabiska (Syrien), Reem på ar-TN arabiska (Tunisien), Hedi på ar-TN arabiska (Tunisien), Maryam på ar-YE arabiska (Jemen), Saleh på ar-YE arabiska (Jemen), Nabanita på bn-BD bangla (Bangladesh), Pradeep på bn-BD bangla (Bangladesh), Asilia på en-KE engelska (Kenya), Chilemba på en-KE engelska (Kenya), Ezinne på en-NG engelska (Nigeria), Abeo på en-NG engelska (Nigeria), Imani på en-TZ engelska (Tanzania), Elimu på en-TZ engelska (Tanzania), Sofia på es-BO spanska (Bolivia), Marcelo på es-BO spanska (Bolivia), Catalina på es-CL spanska (Chile), Lorenzo på es-CL spanska (Chile), Maria på es-CR spanska (Costa Rica), Juan på es-CR spanska (Costa Rica), Belkys på es-CU spanska (Kuba), Manuel på es-CU spanska (Kuba), Ramona på es-DO spanska (Dominikanska republiken), Emilio på es-DO spanska (Dominikanska republiken), Andrea på es-EC spanska (Ecuador), Luis på es-EC spanska (Ecuador), Teresa på es-GQ spanska (Ekvatorialguinea), Javier på es-GQ spanska (Ekvatorialguinea), Marta på es-GT spanska (Guatemala), Andres på es-GT spanska (Guatemala), Karla på es-HN spanska (Honduras), Carlos på es-HN spanska (Honduras), Yolanda på es-NI spanska (Nicaragua), Federico på es-NI spanska (Nicaragua), Margarita på es-PA spanska (Panama), Roberto på es-PA spanska (Panama), Camila på es-PE spanska (Peru), Alex på es-PE spanska (Peru), Karina på es-PR spanska (Puerto Rico), Victor på es-PR spanska (Puerto Rico), Tania på es-PY spanska (Paraguay), Mario på es-PY spanska (Paraguay), Lorena på es-SV spanska (El Salvador), Rodrigo på es-SV spanska (El Salvador), Valentina på es-UY spanska (Uruguay), Mateo på es-UY spanska (Uruguay), Paola på es-VE spanska (Venezuela), Sebastian på es-VE spanska (Venezuela), Dilara på fa-IR persiska (Iran), Farid på fa-IR persiska (Iran), Blessica på fil-PH filippinska (Filippinerna), Angelo på fil-PH filippinska (Filippinerna), Sabela på gl-ES galiciska, Roi på gl-ES galiciska, Siti på jv-ID javanesiska (Indonesien), Dimas på jv-ID javanesiska (Indonesien), Sreymom på km-KH khmer (Kambodja), Piseth på km-KH khmer (Kambodja), Nilar på my-MM burmesiska (Myanmar), Thiha på my-MM burmesiska (Myanmar), Ubax på so-SO somaliska (Somalia), Muuse på so-SO somaliska (Somalia), Tuti på su-ID sundanesiska (Indonesien), Jajang på su-ID sundanesiska (Indonesien), Rehema på sw-TZ swahili (Tanzania), Daudi på sw-TZ swahili (Tanzania), Saranya på ta-LK tamil (Sri Lanka), Kumar på ta-LK tamil (Sri Lanka), Venba på ta-SG tamil (Singapore), Anbu på ta-SG tamil (Singapore), Gul på ur-IN urdu (Indien), Salman på ur-IN urdu (Indien), Madina på uz-UZ uzbekiska (Uzbekistan), Sardor på uz-UZ uzbekiska (Uzbekistan), Thando på zu-ZA zulu (Sydafrika), Themba på zu-ZA zulu (Sydafrika).

Utgåva september 2021

Ny chattrobotröst på en-US engelska (USA): Sara representerar en ung kvinnlig vuxen som pratar mer avslappnat och passar bäst för chattrobotscenarierna.
Nya stilar har lagts till för ja-JP den japanska rösten Nanami: Tre nya stilar är nu tillgängliga med Nanami: chatt, kundservice och glad.
Övergripande uttal förbättring: Ardi i id-ID, Premwadee i th-TH, Christel i da-DK, HoaiMy och NamMinh i vi-VN.
Två nya röster på zh-CN kinesiska (mandarin, Kina) i förhandsversion: Xiaochen & Xiaoyan, optimerad för spontana tal- och kundtjänstscenarier.

Juli 2021-version

Uppdateringar om neuralt text till tal

Minskade uttalsfel på hebreiska med 20 %.

Speech Studio-uppdateringar

Anpassad neural röst: Uppdaterade träningsprocessen till UniTTSv3, vilket förbättrar modellkvaliteten samtidigt som träningstiden minskas med 50 % för de akustiska modellerna.
Ljudinnehållsskapande: Åtgärdade prestandaproblemet vid "Export" och buggen vid val av anpassad neural röst.

Version juni 2021

Speech Studio-uppdateringar

Anpassad neural röst: Träningen av anpassade neurala röster har utökats för att stödja länder i Sydostasien. Nya funktioner som har släppts för att stödja statuskontroll för datauppladdning.
Skapande av ljudinnehåll: Släppte en ny funktion för att stödja anpassat lexikon. Med den här funktionen kan användarna enkelt skapa sina lexikonfiler och definiera det anpassade uttalet för sina ljudutdata.

Version maj 2021

Nya språk och röster har lagts till för neural TTS

Tio nya språk introducerade - 20 nya röster på 10 nya språk läggs till i den neurala TTS-språklistan: Yan på en-HK engelska (Hongkong), Sam på en-HK engelska (Hongkong), Molly på en-NZ engelska (Nya Zeeland), Mitchell på en-NZ engelska (Nya Zeeland), Luna på en-SG engelska (Singapore), Wayne på en-SG engelska (Singapore), Leah på en-ZA engelska (Sydafrika), Luke på en-ZA engelska (Sydafrika), Dhwani i gu-IN Gujarati (Indien), Niranjan i gu-IN Gujarati (Indien), Aarohi i mr-IN Marathi (Indien), Manohar i mr-IN Marathi (Indien), Elena på es-AR spanska (Argentina), Tomas på es-AR spanska (Argentina), Salome på es-CO spanska (Colombia), Gonzalo på es-CO spanska (Colombia), Paloma på es-US spanska (USA), Alonso på es-US spanska (USA), Zuri i sw-KE Swahili (Kenya), Rafiki i sw-KE Swahili (Kenya).
Elva nya en-US-röster i förhandsversion - 11 nya en-US-röster i förhandsversion läggs till amerikansk engelska, de är Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Fem zh-CN kinesiska (mandarin, förenklade) röster är allmänt tillgängliga - 5 kinesiska (mandarin, förenklade) röster ändras från förhandsversion till allmänt tillgängliga. De är Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Nu är dessa röster tillgängliga i alla regioner. Yunxi läggs till med en ny "assistent"-stil, som är lämplig för chattrobot och röstagent. Xiaomos röststilar förfinas för att vara mer naturliga och framträdande.

April 2021-utgåva

Neural text-till-tal är tillgängligt i 21 regioner

Tolv nya regioner har lagts till – Neural text till tal är nu tillgängligt i dessa nya 12 regioner: Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US, West US 2. Här finns en fullständig lista över 21 regioner som stöds.

Version mars 2021

Nya språk och röster har lagts till för neural TTS

Sex nya språk introduceras - 12 nya röster på 6 nya språk läggs till i den neurala TTS-språklistan: Nia på cy-GB walesiska (Storbritannien), Aled på cy-GB walesiska (Storbritannien), Rosa på en-PH engelska (Filippinerna), James på en-PH engelska (Filippinerna), Charline på fr-BE franska (Belgien), Gerard på fr-BE franska (Belgien), Dena på nl-BE nederländska (Belgien), Arnaud på nl-BE nederländska (Belgien), Polina på uk-UA ukrainska (Ukraina), Ostap i uk-UA Ukrainska (Ukraina), Uzma i ur-PK Urdu (Pakistan), Asad i ur-PK Urdu (Pakistan).
Fem språk från förhandsversion till GA - 10 röster på 5 språk som introducerades i november är nu GA: Kert i et-EE estniska (Estland), Colm på ga-IE irländska (Irland), Nils på lv-LV lettiska (Lettland), Leonas i lt-LT Litauiska (Litauen), Joseph på mt-MT maltesiska (Malta).
Ny manlig röst tillagd för franska (Kanada) - En ny röst Antoine är tillgänglig för fr-CA franska (Kanada).
Kvalitetsförbättring – Minskning av uttalsfelfrekvens på hu-HU ungerska - 48,17 %, nb-NO norska - 52,76 %, nl-NL nederländska (Nederländerna) - 22,11 %.

Med den här versionen stödjer vi nu totalt 142 neurala röster fördelade på 60 språk och regioner. Dessutom finns över 70 standardröster tillgängliga på 49 språk/regioner. Besök Språkstöd för den fullständiga listan.

Hämta ansiktsuttryckshändelser för att animera karaktärer

Neural text-till-tal innehåller nu viseme-händelsen. Viseme-händelser gör det möjligt för användare att få en sekvens av ansiktsställningar tillsammans med syntetiserat tal. Visemes kan användas för att styra förflyttningen av 2D- och 3D-avatarmodeller, som matchar munrörelser till syntetiserat tal. Viseme-händelser är endast tillgängliga för en-US-AriaNeural-rösten just nu.

Lägg till bokmärkeselementet i Speech Synthesis Markup Language (SSML)

Med bokmärkeselementet kan du infoga anpassade markörer i SSML för att få förskjutningen av varje markör i ljudströmmen. Den kan användas för att referera till en specifik plats i text- eller taggsekvensen.

Version februari 2021

Anpassad neural röst - allmänt tillgänglig

I februari blir anpassad neural röst allmänt tillgänglig på 13 språk: kinesiska (mandarin, förenklad), engelska (Australien), engelska (Indien), engelska (Storbritannien), engelska (USA), franska (Kanada), franska (Frankrike), tyska (Tyskland), italienska (Italien), japanska (Japan), koreanska (Korea), portugisiska (Brasilien), spanska (Mexiko) och spanska (Spanien). Läs mer om vad anpassad neural röst är och hur du använder den på ett ansvarsfullt sätt. Anpassad neural röstfunktion kräver registrering och Microsoft kan begränsa åtkomsten baserat på Microsofts berättigandekriterier. Läs mer om begränsad åtkomst.

December 2020-utgåva

Nya neurala röster i GA och förhandsversion

Släppt 51 nya röster för totalt 129 neurala röster på 54 språk/regioner.

46 nya röster i GA-språk: Shakir på ar-EG arabiska (Egypten), Hamed på ar-SA arabiska (Saudiarabien), Borislav på bg-BG bulgariska (Bulgarien), Joana på ca-ES katalanska, Antonin på cs-CZ tjeckiska (Tjeckien), Jeppe på da-DK danska (Danmark), Jonas på de-AT tyska (Österrike), Jan på de-CH tyska (Schweiz), Nestoras på el-GR grekiska (Grekland), Liam på en-CA engelska (Kanada), Connor på en-IE engelska (Irland), Madhur på en-IN hindi (Indien), Mohan på en-IN telugu (Indien), Prabhat på en-IN engelska (Indien), Valluvar på en-IN tamil (Indien), Enric på es-ES katalanska, Kert på et-EE estniska (Estland), Harri på fi-FI finska (Finland), Selma på fi-FI finska (Finland), Fabrice på fr-CH franska (Schweiz), Colm på ga-IE irländska (Irland), Avri på he-IL hebreiska (Israel), Srecko på hr-HR kroatiska (Kroatien), Tamas på hu-HU ungerska (Ungern), Gadis på id-ID indonesiska (Indonesien), Leonas på lt-LT litauiska (Litauen), Nils på lv-LV lettiska (Lettland), Osman på ms-MY malajiska (Malaysia), Joseph på mt-MT maltesiska (Malta), Finn på nb-NO norska, Bokmål (Norge), Pernille på nb-NO norska, Bokmål (Norge), Fenna på nl-NL nederländska (Nederländerna), Maarten på nl-NL nederländska (Nederländerna), Agnieszka på pl-PL polska (Polen), Marek på pl-PL polska (Polen), Duarte på pt-BR portugisiska (Brasilien), Raquel på pt-PT portugisiska (Potugal), Emil på ro-RO rumänska (Rumänien), Dmitry på ru-RU ryska (Ryssland), Svetlana på ru-RU ryska (Ryssland), Lukas på sk-SK slovakiska (Slovakien), Rok på sl-SI slovenska (Slovenien), Mattias på sv-SE svenska (Sverige), Sofie på sv-SE svenska (Sverige), Niwat på th-TH thailändska (Thailand), Ahmet på tr-TR turkiska (Türkiye), NamMinh på vi-VN vietnamesiska (Vietnam), HsiaoChen på zh-TW taiwanesisk mandarin (Taiwan), YunJhe på zh-TW taiwanesisk mandarin (Taiwan), HiuMaan på zh-HK kinesiska kantonesiska (Hongkongs särskilda administrativa region), WanLung på zh-HK kinesiska kantonesiska (Hongkong SAR).
5 nya röster i förhandsgranskningsspråk: Kert i et-EE estniska (Estland), Colm på ga-IE irländska (Irland), Nils i lv-LV lettiska (Lettland), Leonas på lt-LT litauiska (Litauen), Joseph på mt-MT maltesiska (Malta).

Med den här versionen har vi nu stöd för totalt 129 neurala röster på 54 språk/regioner. Dessutom finns över 70 standardröster tillgängliga på 49 språk/regioner. Besök Språkstöd för den fullständiga listan.

Uppdateringar för skapande av ljudinnehåll

Förbättrat användargränssnitt för röstval med röstkategorier och detaljerade röstbeskrivningar.
Aktiverade intonationsjustering för alla neurala röster på olika språk.
Automatiserad UI-lokalisering baserat på språket i webbläsaren.
Aktiverade StyleDegree kontroller för alla zh-CN neurala röster. Gå till verktyget Skapa ljudinnehåll för att se de nya funktionerna.

Uppdateringar av röster för zh-CN

Uppdaterade alla zh-CN neurala röster för att stödja engelska.
Aktiverade alla zh-CN neurala röster för att stödja intonationsjustering. Verktyget SSML eller skapande av ljudinnehåll kan användas för att justera för bästa intonation.
Uppdaterade alla zh-CN neurala röster med flera stilar för att underlätta StyleDegree kontroll. Känslointensitet (mjuk eller stark) är justerbar.
Har uppdaterat zh-CN-YunyeNeural för att stödja flera stilar som kan uttrycka olika känslouttryck.

Utgåva november 2020

Nya nationella inställningar och röster i förhandsversionen

Fem nya röster och språk introduceras i portföljen för neural röstsyntes. De är: Grace på maltesiska (Malta), Ona på litauiska (Litauen), Anu i estniska (Estland), Orla på irländska (Irland) och Everita på lettiska (Lettland).
Fem nya zh-CN röster med stöd för flera stilar och roller: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan och Yunxi.

Dessa röster är tillgängliga i offentlig förhandsversion i tre Azure-regioner: EastUS, SouthEastAsia och WestEurope.

Neural text-till-tal Container GA

Med neural text till tal-container kan utvecklare köra talsyntes med de mest naturliga digitala rösterna i sin egen miljö för specifika krav på säkerhet och datastyrning. Kontrollera hur du installerar Speech Containers.

Nya funktioner

Anpassad röst: möjliggjorde för användare att kopiera en röstmodell från en region till en annan; stöder avstängning och återupptagning av slutpunkter. Gå till Azure Portal här.
Stöd för SSML-tystnadstagg .
Allmänna förbättringar av TTS-röstkvaliteten: Förbättrad uttalsprecision på ordnivå i nb-NO. Uttalsfel på 53 % minskade.

Läs mer på den här techbloggen.

Oktober 2020 version

Nya funktioner

Jenny har stöd för en ny newscast stil. Se hur du använder talformaten i SSML.
Neurala röster uppgraderade till HiFiNet vocoder, med högre ljudåtergivning och snabbare synteshastighet. Detta gynnar kunder vars scenario är beroende av hi-fi-ljud eller långa interaktioner, inklusive videoöversättning, ljudböcker eller onlineutbildningsmaterial. Läs mer om berättelsen och hör röstexempel på vår tech community-blogg
Anpassad röst - och ljudinnehållsskapande Studio lokaliserad till 17 språk. Användarna kan enkelt växla användargränssnittet till ett lokalt språk för en mer användarvänlig upplevelse.
Skapande av ljudinnehåll: Stilkontroll har lagts till för XiaoxiaoNeural; Förfinade den anpassade break-funktionen så att den innehåller inkrementella pauser på 50 ms.

Allmänna förbättringar av TTS-röstkvaliteten

Förbättrad uttalsprecision på ordnivå i pl-PL (felfrekvensminskning: 51 %) och fi-FI (felfrekvensminskning: 58 %)
Förbättrad ja-JP läsning av enskilda ord för ordlistans scenario. Uttalsfelet minskade med 80 %.
zh-CN-XiaoxiaoNeural: Förbättrad röststil/CustomerService/Newscast/Glad/Arg röstkvalitet.
zh-CN: Förbättrad Erhua-uttal och ljus ton och förfinad prosodi, vilket avsevärt förbättrar förståelse.

Utgåva September 2020

Nya funktioner

Neural text till tal
- Utökad för att stödja 18 nya språk/nationella inställningar. De är bulgariska, tjeckiska, tyska (Österrike), tyska (Schweiz), grekiska, engelska (Irland), franska (Schweiz), hebreiska, kroatiska, ungerska, indonesiska, malay, rumänska, slovakiska, slovenska, tamilska, telugu och vietnamesiska.
- Släppte 14 nya röster för att berika variationen i de befintliga språken. Se fullständig språk- och röstlista.
- Nya talstilar för en-US och zh-CN röster. Jenny, den nya rösten på engelska (USA), har stöd för chattrobotar, kundtjänst och assistentstilar. 10 nya talstilar är tillgängliga med vår zh-CN röst, XiaoXiao. Dessutom stöder den neurala rösten XiaoXiao justering. Se hur du använder talformaten i SSML.
Containers: Neural text till tal-container släppt i offentlig förhandsversion, med 16 röster tillgängliga på 14 språk. Läs mer om hur du implementerar röstbehållare för neuralt text-till-tal

Läs det fullständiga tillkännagivandet av TTS-uppdateringarna för Ignite 2020

Augusti 2020-utgåvan

Nya funktioner

Neural text till tal: nytt talsätt för en-US Aria-rösten. AriaNeural kan låta som en nyhetskastare när du läser nyheter. Den "newscast-formella" stilen låter allvarligare, medan "newscast-casual"-stilen är mer avslappnad och informell. Se hur du använder talformaten i SSML.
Anpassad röst: en ny funktion släpps för att automatiskt kontrollera kvaliteten på träningsdata. När du laddar upp dina data kommer systemet att undersöka olika aspekter av dina ljud- och transkriptionsdata och automatiskt åtgärda eller filtrera problem för att förbättra kvaliteten på röstmodellen. Detta täcker volymen av ditt ljud, ljudnivån, uttalsprecisionen av tal, justeringen av tal med normaliserad text, tystnad i ljudet, förutom ljud- och skriptformatet.
Skapande av ljudinnehåll: en uppsättning nya funktioner för att möjliggöra kraftfullare funktioner för röstjustering och ljudhantering.
- Uttal: uttalsjusteringsfunktionen uppdateras till den senaste fonetikuppsättningen. Du kan välja rätt phoneme-element från biblioteket och förfina uttalet av de ord som du har valt.
- Ladda ned: Funktionen "Ladda ned"/"Exportera" har förbättrats för att ge stöd för att generera ljud per stycke. Du kan redigera innehåll i samma fil/SSML samtidigt som du genererar flera ljudutdata. Filstrukturen för "Download" förfinas också. Nu kan du enkelt hämta alla ljudfiler i en mapp.
- Uppgiftsstatus: Exportupplevelsen för flera filer har förbättrats. Om en av filerna har misslyckats misslyckas hela aktiviteten när du exporterar flera filer tidigare. Men nu exporteras alla andra filer. Aktivitetsrapporten utökas med mer detaljerad och strukturerad information. Du kan kontrollera loggarna för alla misslyckade filer och meningar nu med rapporten.
- SSML-dokumentation: länkad till SSML-dokument som hjälper dig att kontrollera reglerna för hur du använder alla justeringsfunktioner.
API:et för röstlista har uppdaterats så att det innehåller ett användarvänligt visningsnamn och de talformat som stöds för neurala röster.

Allmänna förbättringar av TTS-röstkvaliteten

Minskat uttalsfel på ordnivå % för ru-RU (fel minskade med 56 %) och sv-SE (fel minskade med 49 %)
Förbättrad polyfon läsning av ord på en-US neurala röster med 40%. Exempel på polyfoniska ord är "läsa", "leva", "innehåll", "spela in", "föremål" osv.
Förbättrade naturligheten i frågetonen i fr-FR. MOS (Mean Opinion Score) ökning: +0,28
Vocoders har uppdaterats för följande röster, med förbättrad ljudkvalitet och prestandaökning med 40 %.

Lokala inställningar Röst

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Lokala inställningar	Röst
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Felkorrigeringar

Ett antal buggar har åtgärdats med verktyget Skapa ljudinnehåll
- Problem med automatisk uppdatering har åtgärdats.
- Problem med röststilar har åtgärdats i zh-CN i regionen Sydostasien.
- Åtgärdat stabilitetsproblem, inklusive ett exportfel med taggen "break", och fel i skiljetecken.

Juni 2025-utgåva

Förbättrad utvärderingsmodell för uttal

Vi har distribuerat betydande uppgraderingar till utvärderingsmodellerna för uttal för ta-IN och ms-MY. Du ser ett märkbart hopp i Pearson Correlation Coefficients (PCC), vilket innebär mer exakta och pålitliga utvärderingar.

De uppdaterade modellerna är redo att användas via API:et och Azure AI Foundry Playground, precis som tidigare.

Förbättrade tal-till-textmodeller

Noggrannheten för tal till textmodeller i snabb transkription för de-DE, en-US, en-GB, es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR och zh-CN lokaler förbättras med 10%-25% procent, särskilt med förbättrad läsbarhet och igenkänning av entiteter.

Version maj 2025

Förbättrade tal-till-textmodeller

Noggrannheten för tal-till-textmodeller för ta-IN, te-IN, en-IN och hu-HU lokala inställningar förbättras med 5–10 procent. Vi uppskattar också en 20 gånger minskning av spökord för ta-IN- och te-IN-modellerna.

API för snabb transkription – flerspråkig talranskription

Om du vill transkribera flerspråkigt innehåll kontinuerligt och korrekt i en ljudfil kan du nu använda den senaste flerspråkiga modellen utan att ange språkkoderna via API för snabb transkription. Mer information finns i flerspråkig transkription i snabb transkription.

Nya lokalinställningar som stöds i snabb transkription

Snabb transkription stöder nu ytterligare språk och regioner, inklusive fi-FI, he-IL, id-ID, pl-PL, pt-PT, sv-SEosv. Mer information finns i Tal-till-text: språk som stöds.

Lansering april 2025

Uttalsbedömning

Vi är glada över att kunna presentera betydande förbättringar av våra utvärderingsmodeller för uttal för dessa språk: de-DE, es-MX, it-IT, ja-JP, ko-KRoch pt-BR. Dessa förbättringar medför betydande framsteg inom Pearson Correlation Coefficients (PCC), vilket säkerställer mer exakta och tillförlitliga utvärderingar.

Precis som tidigare är modellerna tillgängliga via API:et och Azure AI Foundry Playground.

Version mars 2025

Samtalstranskription med flerkanalsdiarisering (avvecklad)

Konversationstranskription med flera kanaler tas ur bruk den 28 mars 2025.

Om du vill fortsätta använda tal till text med diarisering använder du följande funktioner i stället:

Dessa tal till text-funktioner stöder endast diarisering för enkanalsljud. Multikanalsljud som du använde med konversationstranskription och multikanalsdiarisering stöds inte.

Version januari 2025

Ny funktion – semantisk segmentering

Vi presenterar lanseringen av en ny funktion: Semantisk segmentering. Den här funktionen integrerar en skiljeteckenmodul i avkodaren som segmenterar ljud baserat på semantisk information, vilket resulterar i mer logiska och exakta segmenteringsgränser. Viktiga fördelar:

Förbättrad segmenteringsnoggrannhet: Med hjälp av semantisk information minskar den här funktionen avsevärt instanser av långa segment som orsakas av frånvaron av pauser i indataljudet.
Minska svarstiden som orsakas av undersegmentering: Den totala svarstiden för taligenkänning minskas, med en minskning på 40–60 % av längden på de längsta 5 % segmenten.
Minskning av översegmentering: Den här funktionen hjälper också till att förhindra översegmentering genom att fördröja segmenteringen när en bättre mening kan skapas.

Lokaler som stöds:

Engelska (en-US, en-GB)
Kinesiska (zh-CN, zh-HK)
Japanska (ja-JP)
Koreanska (ko-KR)
Tyska (de-DE)
Franska (fr-FR)
Italienska (it-IT)
Spanska (es-ES, es-MX)
Hindi (hi-IN)
Portugisiska (pt-BR, pt-PT)
Turkiska (tr-TR)
Ryska (ru-RU)
Thai (th-TH)
Indonesiska (id-ID)

Mer information om implementering finns i dokumentationen: Så här känner du igen tal i avsnittet "Semantisk segmentering".

Tal till text i realtid – ny engelsk modellversion

Vi presenterar lanseringen av den senaste engelska talmodellen (en-US, en-CA), som ger betydande förbättringar i olika prestandamått. Nedan visas de viktigaste höjdpunkterna i den här versionen:

Hjälpmedelsförbättringar: Uppnådde en 36-procentig minskning av Word Error Rate (WER) på Microsofts interna hjälpmedelstestuppsättningar, vilket gör taligenkänningen mer exakt och tillförlitlig för att identifiera tal från personer med talsvårigheter.
Minskning av spökord: En anmärkningsvärd 90% minskning av spökord på spökordets utvecklingsuppsättning och minskningar sträcker sig från 63 % till 100 % över andra spökordsdatauppsättningar, vilket avsevärt förbättrar tydligheten och noggrannheten hos transkriptioner.

Den nya modellen förbättrade också den övergripande prestandan, inklusive entitetsigenkänning och bättre igenkänning av stavade bokstäver.

Dessa framsteg förväntas ge en mer exakt, effektiv och tillfredsställande upplevelse för alla användare. Den nya modellen är tillgänglig via API:et och Azure AI Foundry Playground. Feedback uppmuntras för att ytterligare förfina dess möjligheter.

November 2024-släpp

Tal till text REST API version 2024-11-15

Tal till text REST API version 2024-11-15 släpps för allmän tillgänglighet. För mer information, se referensdokumentationen för REST API för tal till text och guiden för REST API för tal till text.

Anteckning

Tal till text REST API version 2024-05-15-preview är avvecklad.

Snabb transkription (GA)

Snabb transkription är nu allmänt tillgänglig via tal till text REST API version 2024-11-15. Med snabb transkribering kan du transkribera en ljudfil till text korrekt och i realtid, med hög hastighet. Det kan transkribera ljud snabbare än den faktiska ljudvaraktigheten. Mer information finns i api-guiden för snabb transkription.

Oktober 2024-utgåva

Tal till text i realtid (tvåspråkig)

Betydande förbättringar har gjorts i erkännandekvaliteten för korta spanska termer via de tvåspråkiga es-US modellerna. Modellen är tvåspråkig och stöder även engelska. Kvaliteten på engelskt erkännande förbättras också.

Videoöversättning (förhandsversion)

API:et för videoöversättning är nu tillgängligt i offentlig förhandsversion. Mer information finns i Så här använder du videoöversättning.

Utgåvan september 2024

Tal till text i realtid

Tal till text i realtid har släppt nya modeller med bättre kvalitet för följande språk.

fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ

Snabb transkription (förhandsversion)

Snabb transkription har nu stöd för diarisering för att identifiera och separera flera högtalare i enkanals ljudfil. Mer information finns i api-guiden för snabb transkription.

Augusti 2024 utgåva

Språkinlärning (förhandsversion)

Språkinlärning är nu tillgängligt i offentlig förhandsversion. Interaktiv språkinlärning kan göra din inlärningsupplevelse mer engagerande och effektiv. Mer information finns i Interaktiv språkinlärning med uttalsbedömning.

Uttalsbedömning

Uttalsutvärdering av tal stöder nu 33 språk som är allmänt tillgängliga, och varje språk är tillgängligt i alla tal till text-regioner. Mer information finns i den fullständiga språklistan för utvärdering av uttal.

Språk	Språk- och regionsinställningar (BCP-47)
Arabiska (Egypten)	`ar-EG`
Arabiska (Saudiarabien)	`ar-SA`
Katalanska	`ca-ES`
Kinesiska (kantonesiska, traditionella)	`zh-HK`
Kinesiska (mandarin, förenklad)	`zh-CN`
Kinesiska (taiwanesisk mandarin, traditionell)	`zh-TW`
Danska (Danmark)	`da-DK`
Nederländska (Nederländerna)	`nl-NL`
Engelska (Australien)	`en-AU`
Engelska (Kanada)	`en-CA`
Engelska (Indien)	`en-IN`
Engelska (Storbritannien)	`en-GB`
Engelska (USA)	`en-US`
Finska (Finland)	`fi-FI`
Franska (Kanada)	`fr-CA`
Franska (Frankrike)	`fr-FR`
Tyska (Tyskland)	`de-DE`
Hindi (Indien)	`hi-IN`
Italienska (Italien)	`it-IT`
Japanska (Japan)	`ja-JP`
Koreanska (Korea)	`ko-KR`
Malajiska (Malaysia)	`ms-MY`
Norska, bokmål (Norge)	`nb-NO`
Polska (Polen)	`pl-PL`
Portugisiska (Brasilien)	`pt-BR`
Portugisiska (Portugal)	`pt-PT`
Ryska (Ryssland)	`ru-RU`
Spanska (Mexiko)	`es-MX`
Spanska (Spanien)	`es-ES`
Svenska (Sverige)	`sv-SE`
Tamiliska (Indien)	`ta-IN`
Thailändska (Thailand)	`th-TH`
Vietnamesiska (Vietnam)	`vi-VN`

Juli 2024-utgåvan

API för snabb transkription (förhandsversion)

Snabb transkription är nu tillgänglig i offentlig förhandsgranskning. Med snabb transkribering kan du transkribera en ljudfil till text korrekt och i realtid, med hög hastighet. Det kan transkribera ljud snabbare än den faktiska ljudvaraktigheten. Mer information finns i api-guiden för snabb transkription.

Tips

Prova snabb transkription i Azure AI Foundry-portalen.

Utgåva juni 2024

Tal till text REST API v3.2 allmän tillgänglighet

Speech to text REST API version 3.2 är nu allmänt tillgänglig. Mer information om tal till text REST API v3.2 finns i referensdokumentationen för REST API v3.2 för tal till text och REST API-guiden Tal till text.

Anteckning

Förhandsversionerna 3.2-preview.1 och 3.2-preview.2 dras tillbaka från och med september 2024.

Tal till text REST API v3.1 dras tillbaka vid ett ännu ej tillkännagivet datum. Tal till text REST API v3.0 dras tillbaka den 31 mars 2026. Mer information om uppgradering finns i migreringsguiderna Speech to text REST API v3.0 till v3.1 och v3.1 till v3.2 .

Version maj 2024

Videoöversättning (förhandsversion)

Videoöversättning är nu tillgängligt i offentlig förhandsversion. Videoöversättning är en funktion i Azure AI Speech som gör att du smidigt kan översätta och generera videor på flera språk automatiskt. Den här funktionen är utformad för att hjälpa dig att lokalisera ditt videoinnehåll för att tillgodose olika målgrupper runt om i världen. Du kan effektivt skapa uppslukande, lokaliserade videor i olika användningsfall, till exempel vlogs, utbildning, nyheter, företagsutbildning, reklam, film, TV-program med mera. För mer information, se översikten över videoöversättning.

Uttalsbedömning

Speech Pronunciation Assessment stöder nu 24 språk som är allmänt tillgängliga (med ett nytt språk till) med ytterligare 7 språk tillgängliga i den offentliga förhandsversionen. Mer information finns i den fullständiga språklistan för utvärdering av uttal.

April 2024-utgåva

Automatisk flerspråkig talöversättning (förhandsversion)

Automatisk flerspråkig talöversättning är tillgänglig i offentlig förhandsversion. Den här innovativa funktionen revolutionerar hur språkbarriärer övervinns och erbjuder oöverträffade funktioner för sömlös kommunikation över olika språkliga landskap.

Viktiga markeringar

Ospecificerat indataspråk: Flerspråkig talöversättning kan ta emot ljud på en mängd olika språk och det finns inget behov av att ange vad det förväntade indataspråket är. Det gör det till en ovärderlig funktion att förstå och samarbeta i globala kontexter utan att behöva förinställa.
Språkväxling: Flerspråkig talöversättning gör att flera språk kan talas under samma session och få dem översatta till samma målspråk. Du behöver inte starta om en session när indataspråket ändras eller andra åtgärder utförs av dig.

Hur det fungerar

Resetolkare: flerspråkig talöversättning kan förbättra upplevelsen för turister som besöker utländska destinationer genom att ge dem information och hjälp på det språk de föredrar. Hotellets conciergetjänster, guidade turer och besökscenter kan använda denna teknik för att tillgodose olika språkbehov.
Internationella konferenser: flerspråkig talöversättning kan underlätta kommunikationen mellan deltagare från olika regioner som kan tala olika språk med hjälp av liveöversatt bildtext. Deltagarna kan tala på sina egna språk utan att behöva ange dem, vilket säkerställer sömlös förståelse och samarbete.
Utbildningsmöten: I flerkulturella klassrum eller i utbildningsmiljöer online kan flerspråkig talöversättning stödja språklig mångfald bland elever och lärare. Det möjliggör sömlös kommunikation och deltagande utan att behöva ange varje elevs eller lärares språk.

Så här kommer du åt

En detaljerad introduktion finns i Översikt över talöversättning. Dessutom kan du läsa kodexemplen om hur du översätter tal. Den här nya funktionen stöds fullt ut av alla SDK-versioner från 1.37.0 och senare.

Tal-till-text i realtid med talaridentifiering (GA)

Tal-till-text i realtid med diarisering är nu allmänt tillgängligt.

Du kan skapa tal till text-program som använder diarisering för att skilja mellan de olika talare som deltar i konversationen. Mer information om diarisering i realtid finns i snabbstarten för realtidsdiarisering.

Uppdatering av tal till textmodell

Tal till text i realtid har släppt nya modeller med tvåspråkiga funktioner. Modellen en-IN stöder nu tvåspråkiga scenarier på både engelska och hindi och ger bättre noggrannhet. Arabiska områden (ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, ar-OM, ar-PS, ar-QA, ar-SA, ar-SY, ar-TN, ar-YE) är nu utrustade med tvåspråkigt stöd för engelska, förbättrad noggrannhet och support för callcenter.

Batch-transkription ger modeller med ny arkitektur för dessa lokaler: es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR och zh-CN. Dessa modeller förbättrar avsevärt läsbarheten och entitetsigenkänningen.

Version mars 2024

Allmän tillgänglighet för Whisper (GA)

Whisper-modellen för tal till text med Azure AI Speech är nu allmänt tillgänglig.

Kolla in Vad är Whisper-modellen? för att lära dig mer om när du ska använda Azure AI Speech jämfört med Azure OpenAI i Azure AI Foundry Models.

Version februari 2024

Uttalsbedömning

Speech Pronunciation Assessment har nu stöd för 23 språk som är allmänt tillgängliga (med 5 nya språk tillagda), och ytterligare 3 språk är tillgängliga i offentlig förhandsversion. Mer information finns i den fullständiga språklistan för utvärdering av uttal.

Fraslista

Stöd för fraslista har lagts till för följande språk: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

November 2023-utgåva

Introduktion till tvåspråkig talmodellering!

Vi är glada över att kunna presentera ett banbrytande tillägg till vår talmodellering i realtid – tvåspråkig talmodellering. Med den här betydande förbättringen kan vår talmodell sömlöst stödja tvåspråkiga språkpar, till exempel engelska och spanska, samt engelska och franska. Den här funktionen gör det möjligt för användare att enkelt växla mellan språk under realtidsinteraktioner, vilket markerar ett avgörande ögonblick i vårt åtagande att förbättra kommunikationsupplevelserna.

Viktiga markeringar:

Tvåspråkig support: Med vår senaste version kan användarna sömlöst växla mellan engelska och spanska eller mellan engelska och franska under talinteraktioner i realtid. Den här funktionen är skräddarsydd för tvåspråkiga talare som ofta övergår mellan dessa två språk.
Förbättrad användarupplevelse: Tvåspråkiga talare, oavsett om de är på jobbet, hemma eller i olika communityinställningar, kommer att finna den här funktionen oerhört fördelaktig. Modellens förmåga att förstå och svara på både engelska och spanska i realtid öppnar nya möjligheter för effektiv och flytande kommunikation.

Så här använder du:

Välj es-US (spanska och engelska) eller fr-CA (franska och engelska) när du anropar Speech Service-API:et eller provar det i Speech Studio. Du kan tala något av språken eller blanda dem – modellen är utformad för att anpassas dynamiskt, vilket ger korrekta och sammanhangsmedvetna svar på båda språken.

Det är dags att höja ditt kommunikationsspel med vår senaste funktionsversion – sömlös, flerspråkig kommunikation till hands!

Uppdatering av tal-till-text-modeller

Vi är glada över att kunna introducera en betydande uppdatering av våra talmodeller med förbättrad noggrannhet, förbättrad läsbarhet och förfinad entitetsigenkänning. Den här uppgraderingen levereras med en robust ny struktur, förstärkt av en utökad träningsdatauppsättning, vilket säkerställer en markant förbättring av övergripande prestanda. Den innehåller nyligen släppta modeller för en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE och he-IL.

Höjdpunkter:

Bättre noggrannhet med ny modellstruktur: Den omdefinierade modellstrukturen, tillsammans med en rikare träningsdatauppsättning, höjer noggrannhetsnivåerna och lovar mer exakt taloutput.
Läsbarhetsförbättring: Vår senaste modell ger en betydande ökning av läsbarheten, vilket ökar enhetligheten och tydligheten i talat innehåll.
Avancerad entitetsigenkänning: Entitetsigenkänning får en omfattande uppgradering, vilket resulterar i mer exakta och nyanserade resultat.

Potentiella effekter: Trots dessa framsteg är det viktigt att tänka på potentiella effekter:

Timeout-funktion för anpassad tystnad: Användare som använder anpassad tidsgräns för tystnad, särskilt med låga inställningar, kan stöta på översegmentering och potentiella utelämnanden av enordsfraser.
Den nya modellen kan ha kompatibilitetsproblem med funktionen Nyckelordsprefix och användarna uppmanas att utvärdera dess prestanda i sina specifika program.
Minskade utfyllnadsord eller fraser: Användare kan märka en minskning av utfyllnadsord eller fraser som "uhm" eller "äh" i talet.
Felaktigheter i ordtidsstämpelns varaktighet: Vissa fyllnadsord kan visa felaktigheter i tidsstämpelns varaktighet, vilket kräver uppmärksamhet i program som är beroende av exakta tidsangivelser.
Distributionsavvikelse för konfidenspoäng: Användare som förlitar sig på konfidenspoäng och tillhörande tröskelvärden bör vara medvetna om potentiella variationer i distributionen, vilket kräver justeringar för optimal prestanda.
Precisionsförbättringen av fraslistfunktionen kan påverkas av feltolkning av vissa fraser.

Vi rekommenderar att du utforskar dessa förbättringar och överväger potentiella problem för en sömlös övergång, och som alltid är din feedback avgörande för att förfina och utveckla våra tjänster.

Uttalsbedömning

Speech Pronunciation Assessment stöder nu 18 språk som är allmänt tillgängliga, och ytterligare sex språk är tillgängliga i offentlig förhandsversion. Mer information finns i den fullständiga språklistan för utvärdering av uttal.
Vi är glada över att kunna meddela att Uttalsutvärdering introducerar nya funktioner från och med den 1 november 2023: Prosody, Grammatik, Vokabulär och Ämne. Dessa förbättringar syftar till att ge en ännu mer omfattande språkinlärningsupplevelse för både läs- och talutvärderingar. Uppgradera till SDK version 1.35.0 eller senare för att få mer information om hur du använder uttalsbedömning och uttalsbedömning i Speech Studio.

September 2023-utgåva

Whisper offentlig förhandsversion

Azure AI Speech stöder nu OpenAI:s Whisper-modell via batch-transkriptions-API:et. Mer information finns i guiden Skapa en batch-transkription .

Anteckning

Azure OpenAI har också stöd för OpenAI:s Whisper-modell för tal till text med ett synkront REST-API. Mer information finns i snabbstarten.

Ta en titt på Vad är Whisper-modellen? för att lära dig mer om när du ska använda Azure AI Speech jämfört med Azure OpenAI.

Tal till text REST API v3.2 offentlig förhandsversion

Tal till text REST API v3.2 är tillgängligt i förhandsversionen. Tal till text REST API v3.1 är allmänt tillgängligt. Tal till text REST API v3.0 dras tillbaka den 31 mars 2026. Mer information finns i migreringsguiderna Tal till text REST API v3.0 till v3.1 och v3.1 till v3.2 .

Augusti 2023 utgåva

Nya språk och regionala inställningar för röst-till-text

Röst-till-text stöder två nya språkområden som visas i följande tabell. Se den fullständiga språklistan här.

Lokala inställningar	Språk
`pa-IN`	Punjabi (Indien)
`ur-IN`	Urdu (Indien)

Uttalsbedömning

Speech Pronunciation Assessment stöder nu ytterligare tre språk som är allmänt tillgängliga på engelska (Kanada), engelska (Indien) och franska (Kanada), med ytterligare tre språk tillgängliga i förhandsversionen. Mer information finns i den fullständiga språklistan för utvärdering av uttal.

Maj 2023 utgåva

Uttalsbedömning

Speech Pronunciation Assessment stöder nu ytterligare tre språk som är allmänt tillgängliga på tyska (Tyskland), japanska (Japan) och spanska (Mexiko), med ytterligare 4 språk tillgängliga i förhandsversionen. Mer information finns i den fullständiga språklistan för utvärdering av uttal.
Nu kan du använda standardnivån tal till text för uttalsbedömning i alla offentliga regioner. Om du köper en åtagandenivå för tal till standardtext går utgiften för uttalsbedömningen till att uppfylla åtagandet. Se prisnivåer för åtagande.

Version februari 2023

Uttalsbedömning

Speech Pronunciation Assessment stöder nu ytterligare 5 språk som är allmänt tillgängliga på engelska (Storbritannien), engelska (Australien), franska (Frankrike), spanska (Spanien) och kinesiska (mandarin, förenklad), med andra språk tillgängliga i förhandsversion.
Exempelkoder har lagts till som visar hur du använder Uttalsutvärdering i strömningsläge i ditt eget program.
- C#: Se exempelkod.
- C++: Se exempelkod.
- java: Se exempelkod.
- javascript: Se exempelkod.
- Objective-C: Se exempelkod.
- Python: Se exempelkod.
- Swift: Se exempelkod.

Skräddarsytt tal

Stöd för ljud + mänskligt etiketterad transkription läggs till för de-AT språkinställningar.

Version januari 2023

Skräddarsytt tal

Stöd för ljud + mänskligt märkt avskrift läggs till för ytterligare språkvarianter: ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YE, och ja-JP.

Stöd för strukturerad textanpassning läggs till för nationella inställningar de-AT.

December 2022-utgåva

REST API för tal till text

Version 3.1 av REST API för tal till text är allmänt tillgänglig. Version 3.0 av REST API för tal till text dras tillbaka. Mer information om hur du migrerar finns i guiden.

Oktober 2022-utgåva

Nytt tal till text-lokal

Stöd har lagts till för Malayalam (Indien) med nationella ml-IN inställningar. Se den fullständiga språklistan här.

Versionen från juli 2022

Nya språk och regionala inställningar för röst-till-text

Sju nya platser har lagts till enligt följande tabell. Se den fullständiga språklistan här.

Lokala inställningar	Språk
`bs-BA`	Bosniska (Bosnien och Hercegovina)
`yue-CN`	Kinesiska (kantonesiska, förenklad)
`zh-CN-sichuan`	Kinesiska (sydvästra mandarin, förenklad)
`wuu-CN`	Kinesiska (Wu, förenklad)
`ps-AF`	Pashto (Afghanistan)
`so-SO`	Somaliska (Somalia)
`cy-GB`	Welsh (Storbritannien)

Utgåva juni 2022

Nya språk och regionala inställningar för röst-till-text

Har lagt till 10 nya lokaler enligt följande tabell. Se den fullständiga språklistan här.

Lokala inställningar	Språk
`sq-AL`	Albanska (Albanien)
`hy-AM`	Armeniska (Armenien)
`az-AZ`	Azerbajdzjan (Azerbajdzjan)
`eu-ES`	Baskiska
`gl-ES`	Galiciska
`ka-GE`	Georgiska (Georgien)
`it-CH`	Italienska (Schweiz)
`kk-KZ`	Kazakiska (Kazakstan)
`mn-MN`	Mongoliska (Mongoliet)
`ne-NP`	Nepalesiska (Nepal)

April 2022-version

Nya språk och regionala inställningar för röst-till-text

Nedan visas en lista över de nya nationella lokaliseringarna. Se den fullständiga språklistan här.

Lokala inställningar	Språk
`bn-IN`	Bengali (Indien)

Version januari 2022

Nya språk och regionala inställningar för röst-till-text

Nedan visas en lista över de nya nationella lokaliseringarna. Se den fullständiga språklistan här.

Lokala inställningar	Språk
`af-ZA`	Afrikaans (Sydafrika)
`am-ET`	Amhariska (Etiopien)
`de-CH`	Tyska (Schweiz)
`fr-BE`	Franska (Belgien)
`is-IS`	Isländska (Island)
`jv-ID`	Javanesiska (Indonesien)
`km-KH`	Khmer (Kambodja)
`kn-IN`	Kannada (Indien)
`lo-LA`	Lao (Laos)
`mk-MK`	Makedonien (Nordmakedonien)
`my-MM`	Burmesiska (Myanmar)
`nl-BE`	Nederländska (Belgien)
`si-LK`	Sinhala (Sri Lanka)
`sr-RS`	Serbiska (Serbien)
`sw-TZ`	Swahili (Tanzania)
`uk-UA`	Ukrainska (Ukraina)
`uz-UZ`	Uzbekiska (Uzbekistan)
`zu-ZA`	Zulu (Sydafrika)

Juli 2021-version

Nya språk och regionala inställningar för röst-till-text

Nedan visas en lista över de nya nationella lokaliseringarna. Se den fullständiga språklistan här.

Lokala inställningar	Språk
`ar-DZ`	Arabiska (Algeriet)
`ar-LY`	Arabiska (Libyen)
`ar-MA`	Arabiska (Marocko)
`ar-TN`	Arabiska (Tunisien)
`ar-YE`	Arabiska (Jemen)
`bg-BG`	Bulgariska (Bulgarien)
`el-GR`	Grekiska (Grekland)
`et-EE`	Estniska (Estland)
`fa-IR`	Persiska (Iran)
`ga-IE`	Irländska språket (Irland)
`hr-HR`	Kroatiska (Kroatien)
`lt-LT`	Litauiska (Litauen)
`lv-LV`	Lettiska (Lettland)
`mt-MT`	Maltesiska (Malta)
`ro-RO`	Rumänska (Rumänien)
`sk-SK`	Slovakiska (Slovakien)
`sl-SI`	slovenska (Slovenien)
`sw-KE`	Swahili (Kenya)

Version januari 2021

Nya språk och regionala inställningar för röst-till-text

Nedan visas en lista över de nya nationella lokaliseringarna. Se den fullständiga språklistan här.

Lokala inställningar	Språk
`ar-AE`	Arabiska (Förenade Arabemiraten)
`ar-IL`	Arabiska (Israel)
`ar-IQ`	Arabiska (Irak)
`ar-OM`	Arabiska (Oman)
`ar-PS`	Arabiska (palestinska myndigheten)
`de-AT`	Tyska (Österrike)
`en-GH`	Engelska (Ghana)
`en-KE`	Engelska (Kenya)
`en-NG`	Engelska (Nigeria)
`en-TZ`	Engelska (Tanzania)
`es-GQ`	Spanska (Ekvatorialguinea)
`fil-PH`	Filipino-språket (Filippinerna)
`fr-CH`	Franska (Schweiz)
`he-IL`	Hebreiska (Israel)
`id-ID`	Indonesiska (Indonesien)
`ms-MY`	Malajiska (Malaysia)
`vi-VN`	Vietnamesiska (Vietnam)

Augusti 2020 Utgåva

Nya språkområden för tal till text:

Tal till text släppte 26 nya språk i augusti: 2 europeiska språk cs-CZ och hu-HU, 5 engelska språk och 19 spanska språk som täcker de flesta sydamerikanska länder/regioner. Nedan visas en lista över de nya nationella lokaliseringarna. Se den fullständiga språklistan här.

Lokala inställningar	Språk
`cs-CZ`	Tjeckiska (Tjeckien)
`en-HK`	Engelska (Hongkongs särskilda administrativa region)
`en-IE`	Engelska (Irland)
`en-PH`	Engelska (Filippinerna)
`en-SG`	Engelska (Singapore)
`en-ZA`	Engelska (Sydafrika)
`es-AR`	Spanska (Argentina)
`es-BO`	Spanska (Bolivia)
`es-CL`	Spanska (Chile)
`es-CO`	Spanska (Colombia)
`es-CR`	Spanska (Costa Rica)
`es-CU`	Spanska (Kuba)
`es-DO`	Spanska (Dominikanska republiken)
`es-EC`	Spanska (Ecuador)
`es-GT`	Spanska (Guatemala)
`es-HN`	Spanska (Honduras)
`es-NI`	Spanska (Nicaragua)
`es-PA`	Spanska (Panama)
`es-PE`	Spanska (Peru)
`es-PR`	Spanska (Puerto Rico)
`es-PY`	Spanska (Paraguay)
`es-SV`	Spanska (El Salvador)
`es-US`	Spanska (USA)
`es-UY`	Spanska (Uruguay)
`es-VE`	Spanska (Venezuela)
`hu-HU`	Ungerska (Ungern)

Utgåva 2025–juni

Neural text till tal 3.11.0

Släppte neural text till talversion 3.11.0.

Stöd har lagts till för nya neurala röster: de-DE-SeraphinaMultilingualNeural, es-ES-XimenaMultilingualNeural, fi-FI-SelmaNeural, nb-NO-FinnNeural.
Stöd har lagts till för flerspråkiga anpassade lexikon.

Version 2025-maj

Lägg till stöd för de senaste modellversionerna:

Neural text-till-tal 3.10.0

För text till tal:

Uppdaterade backend- och frontend-motorn för text-till-tal-systemet till de senaste versionerna.
Stöd har lagts till för flerspråkiga anpassade lexikon.
Förbättrade funktionerna för hälsokontroll. Slutpunkten för hälsokontroll är nu /synthesize/health. När tjänsten är felfri returnerar den här slutpunkten HTTP-status 200. Om tjänsten inte är felfri returnerar den HTTP-status 503.
Uppdaterade basavbildningen till AspNet 8.0.16 för att åtgärda säkerhetsrisker från säkerhetsuppdateringen mars/april 2025 Microsoft ASP.NET Core.

Lansering mars 2025

Lägg till stöd för de senaste modellversionerna:

Neural text-till-tal 3.9.0
Tal till text 5.0.1 (förhandsversion)
Anpassat tal till text 5.0.1 (förhandsversion)

För tal till text och anpassat tal till text ingår följande funktioner:

Stöd för nya tal-till-textmodeller
Ändra operativsystem till Azure Linux 3.0
Stöd för nya regioner: ar-dz, as-in, es-gq or-in, pa-in och ur-in
Uppdatering av avkodare
Möjlighet att använda nyare anpassade modeller (2023+) i container

För text till tal har stöd för nya neurala röster lagts till: en-GB-OliviaNeural, en-US-ChristopherNeural och nl-NL-FennaNeural.

Februari 2025-utgåva

Lägg till stöd för de senaste modellversionerna:

Talspråksidentifiering 1.18.0
Neuralt tal från text 3.7.0
Tal till text 4.12.0
Skräddarsytt tal-till-text 4.12.0

Här är höjdpunkterna i släppen:

Funktionsuppdatering	Tal till text	Anpassad omvandling av tal till text	Neuralt text till tal	Identifiering av talspråk
Sårbarhetskorrigeringar	✅	✅	✅	✅
Migrerat operativsystem från Ubuntu 20.04 till Ubuntu 22.04	✅	✅	✅	✅
Nya lokaliseringar: ar-ly, fr-be, nl-be och uz-uz	✅	✅
Nuget-paket har uppdaterats, Go-version	✅	✅
Modellnedladdningsparallellisering har lagts till för att minska nedladdningstiden för modellen	✅	✅	✅

Utgåva oktober 2024

Lägg till stöd för de senaste modellversionerna:

Talspråksidentifiering 1.16.0
Neural text till tal 3.5.0
- Skapa en-us-ariacpuneural ett alias för en-us-jessacpuneural
- Uppdatera versionen av bakgrundsmotorn för text-till-tal-programvaran
Tal-till-text 4.10.0
- Återställ stöd för nationella inställningar uk-UA
- Åtgärda tystnadsinställningarna så att de fungerar med långa perioder av tystnad i ljudet
- Ersätt inaktuella modeller: cs-CZ, da-DK, en-GB, , fr-CA, hu-HU, it-CH, , tr-TRzh-CN-sichuan
Anpassat tal till text 4.10.0

Lansering september 2024

Lägg till stöd för de senaste modellversionerna:

Tal- och språklig identifiering 1.15.0
- Minimera sårbarheter
Neuralt text-till-tal 3.4.0
- Nya röster: en-us-andrewmultilingualneural, en-us-jessaneural, es-us-alonsoneural, , es-us-palomaneuralit-it-isabellamultilingualneural
- Minimera sårbarheter
Tal till text 4.9.0
- Nya lokalinställningar: ar-YE, af-ZA, am-ET, ar-MA, ar-TN, sw-KE, sw-TZ, zu-ZA
- Minimera sårbarheter
- Uppdatera inaktuella modeller
Skräddarsydd tal-till-text 4.9.0
- Minimera sårbarheter

Augusti 2024 års utgåva

Lägg till stöd för de senaste modellversionerna:

Taligenkänning för språk 1.14.0
- Uppgradera .NET 8.0
- Minimera sårbarheter
Neuronal text-till-tal 3.3.0
- Uppgradera .NET 8.0
- Minimera sårbarheter
Tal till text 4.8.0
- Uppgradera .NET 8.0
- Minimera sårbarheter
- Uppgraderad igenkänningsmotor
- Åtgärda problemet där PropertyId.Speech_SegmentationSilenceTimeoutMs ignorerades.
- Uppdatera inaktuella modeller
- Ta bort språkvarianten uk-UA

Februariutgåva 2024

Lägg till stöd för de senaste modellversionerna:

Anpassningsbart tal till text 4.6.0
Tal till text-konvertering 4.6.0
Neural text till tal 3.1.0

Uppgradera tal-till-text-komponenterna till den senaste versionen. Uppgradera alla es nationella modeller till den senaste. Öka medietransformeringsbufferten för användningsfall för tal till text.

Utgåva november 2023

Lägg till stöd för de senaste modellversionerna:

Anpassad taligenkänning till text 4.5.0
Tal till text 4.5.0
Neural Text-til-tal 2.19.0

Oktober 2023-utgåva

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 4.4.0
Tal till text 4.4.0
Neural text till tal 2.18.0

Åtgärda en massa problem med hög riskrisk.

Ta bort redundanta loggar i containrar.

Uppgradera den interna mediekomponenten till den senaste.

Lägg till stöd för röst en-IN-NeerjaNeural.

2023 septemberutgåva

Lägg till stöd för de senaste modellversionerna:

Tal- och språkindentifiering 1.12.0
Anpassat tal till text 4.3.0
Tal till text 4.3.0
Neural text till tal 2.17.0

Uppgradera anpassat tal till text och tal till text till det senaste ramverket.

Åtgärda sårbarhetsproblem.

Lägg till stöd för röst ar-AE-FatimaNeural.

Utgåva 2023-juli

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 4.1.0
Tal till text 4.1.0
Neural text till tal 2.15.0

Åtgärda problemet med att köra tal till textcontainer via docker monteringsalternativ med lokala anpassade modellfiler.

Åtgärda problemet att RECOGNIZING händelsen ibland inte visas som svar genom Speech SDK.

Åtgärda sårbarhetsproblem.

Juni 2023-utgåva

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 4.0.0
Tal till text 4.0.0
Neuralt text-till-tal 2.14.0

Lokal tal-till-text-teknik uppgraderas till .NET 6.0

Uppgradera visningsmodeller för lokaler inklusive en-us, ar-eg, ar-bh, ja-jp, ko-kr och mer.

Uppgradera komponenten tal till textcontainer för att åtgärda sårbarhetsproblem.

Lägg till stöd för språkvariantröster de-DE-AmalaNeural,de-AT-IngridNeural,de-AT-JonasNeural och en-US-JennyMultilingualNeural

2023 maj-utgåvan

Lägg till stöd för de senaste modellversionerna:

Anpassad taligenkänning till text 3.14.0
Tal till text 3.14.0
Neural Text-till-tal 2.13.0

Åtgärda problemet med he-IL interpunktion

Åtgärda sårbarhetsproblem

Lägg till ny lokal röstinställning en-US-MichelleNeural och es-MX-CandelaNeural

2023-aprilutgåva

Säkerhetsuppdateringar

Åtgärda sårbarhetsproblem

Mars 2023-utgåva

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 3.12.0
Tal till text 3.12.0
Tal- och språksidentifiering 1.11.0
Neuralt text-till-tal 2.11.0

Åtgärda sårbarhetsproblem

Åtgärda problemet med tr-TR kapitalisering

Uppgradera tal till textvisningsmodeller en-US

Lägg till stöd för standardrösten ar-AE-HamdanNeural .

Februari 2023-utgåva

Nya containerversioner

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 3.11.0
Tal till text 3.11.0
Neural text till tal 2.10.0

Åtgärda sårbarhetsproblem

Regelbunden uppgradering för talmodeller

Lägg till nya arabiska lokaler:

ar-IL
ar-PS

Uppgradera hebreiska och turkiska visningsmodeller

Utgåva januari 2023

Nya containerversioner

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 3.10.0
Röst-till-text 3.10.0
Neuralt text-till-tal 2.9.0

Åtgärda problem med hypotesläge

Åtgärda HTTP-proxyproblem

Frånkopplat läge för anpassad tal-till-text-container

Lägg till stöd för CNV-frånkopplad container i TTS-klientdelen

Lägg till stöd för dessa lokalanpassade röster:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Utgåva december 2022

Nya containerversioner

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 3.9.0
Tal-till-text 3.9.0
Neural text-till-tal 2.8.0

Åtgärda ipv4/ipv6-problem

Åtgärda sårbarhetsproblem

2022-November-utgåvan

Nya containerversioner

Lägg till stöd för de senaste modellversionerna:

Skräddarsydd tal-till-text 3.8.0
Tal till text 3.8.0
Neuralt text-till-tal 2.7.0

Oktober 2022-utgåva

Nya containerversioner

Lägg till stöd för de senaste modellversionerna:

Anpassat tal till text 3.7.0
Tal till text 3.7.0
Neuralt text-till-talsystem 2.6.0

September 2022-utgåva

Tal-till-text 3.6.0-amd64

Lägg till stöd för de senaste modellversionerna.

Lägg till stöd för dessa regioninställningar:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
så där
sq-al
wuu-cn
yue-cn
zh-cn-Sichuan

Regelbundna månatliga uppdateringar, inklusive säkerhetsuppgraderingar och sårbarhetskorrigeringar.

Anpassat tal till text 3.6.0-amd64

Regelbundna månatliga uppdateringar, inklusive säkerhetsuppgraderingar och sårbarhetskorrigeringar.

Neuralt text-till-tal v2.5.0

Lägg till stöd för dessa standardröster:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Regelbundna månatliga uppdateringar, inklusive säkerhetsuppgraderingar och sårbarhetskorrigeringar.

Version 2022-maj

Container för talspråksidentifiering v1.9.0-amd64-preview

Felkorrigeringar för identifiering av talspråk.

Utgåva mars 2022

Anpassat tal till text Container v3.1.0

Lägg till stöd för att hämta visningsmodeller.

Januariutgåvan 2022

Tal-till-text-behållare v3.0.0

Lägg till stöd för att använda containrar i frånkopplade miljöer.

Tal till text Behållare v2.18.0

Regelbundna månatliga uppdateringar, inklusive säkerhetsuppgraderingar och sårbarhetskorrigeringar.

Neural-neural text till talmodul v1.12.0

Lägg till stöd för dessa standardröster: am-et-amehaneural, am-et-mekdesneural, so-so-muuseneuraloch so-so-ubaxneural.

Regelbundna månatliga uppdateringar, inklusive säkerhetsuppgraderingar och sårbarhetskorrigeringar.

Dela via

Vad är nytt i Azure AI Speech?

Senaste markeringar

Versionsinformation

Speech SDK 1.44.1: Korrigeringsversion

Felkorrigeringar

Speech SDK 1.44: 2025-maj utgåva

Nya funktioner:

Felkorrigeringar

Exempel

Speech SDK för JavaScript

Nya funktioner:

Felkorrigeringar

Speech CLI (SPX)

Nya funktioner

Felkorrigeringar

Speech SDK 1.43: mars 2025

Nya funktioner:

Felkorrigeringar

Exempel

Speech SDK 1.42.0: 2024–december

Nya funktioner

Felkorrigeringar

Exempel

Release i november 2024

Azure AI Speech Toolkit-tillägget för Visual Studio Code

Kodexempel för text till tal-avatar

Speech SDK 1.41.1: 2024–Oktober-utgåva

Nya funktioner

Felkorrigeringar

Icke-bakåtkompatibla ändringar

Speech SDK 1.40: 2024–augusti

Nya funktioner

Felkorrigeringar

Exempel

Speech SDK 1.38.0: 2024-juniutgåva.

Nya funktioner

Felkorrigeringar

Exempel

Speech SDK 1.37.0: 2024-April-release

Nya funktioner

Felkorrigeringar

Exempel

Speech SDK 1.36.0: 2024 Mars

Nya funktioner

Felkorrigeringar

Exempel

Speech SDK 1.35.0: Februari 2024 utgåva

Nya funktioner

Felkorrigeringar

Exempel

Speech SDK 1.34.1: Januari 2024-utgåva

Förändringar som bryter kompatibilitet

Nya funktioner

Felkorrigeringar

Speech SDK 1.34.0: November 2023-utgåva

Förändringar som bryter kompatibilitet

Nya funktioner

Felkorrigeringar

Exempel

Speech CLI 1.34.0: November 2023 utgåva

Nya funktioner

Felkorrigeringar

Speech SDK 1.33.0: Oktober 2023-utgåva

Meddelande om brytande ändring

Nya funktioner

Felkorrigeringar

Exempel

Speech CLI 1.33.0: Oktober 2023-utgåva

Nya funktioner

Felkorrigeringar

Speech SDK 1.32.1: september 2023 lansering

Felkorrigeringar

Exempel

Speech SDK 1.31.0: Augusti 2023 lansering

Nya funktioner

Förändringar som bryter kompatibilitet

Felkorrigeringar

Exempel

Speech SDK 1.30.0: Juli 2023-utgåvan