Dela via


Vad är nytt i Azure AI Speech?

Azure AI Speech uppdateras kontinuerligt. För att hålla dig uppdaterad om den senaste utvecklingen får du information om nya versioner och funktioner i den här artikeln.

Senaste markeringar

  • Om du vill transkribera flerspråkigt innehåll kontinuerligt och korrekt i en ljudfil kan du nu använda den senaste flerspråkiga modellen utan att ange språkkoderna via API för snabb transkription. Mer information finns i flerspråkig transkription i snabb transkription.
  • Snabb transkription är nu allmänt tillgänglig. Det kan transkribera ljud mycket snabbare än den faktiska ljudvaraktigheten. Mer information finns i api-guiden för snabb transkription.
  • Azure AI Speech Toolkit-tillägget är nu tillgängligt för Visual Studio Code-användare. Den innehåller en lista över snabbstarter för tal och scenarioexempel som enkelt kan skapas och köras med enkla klick. Mer information finns i Azure AI Speech Toolkit i Visual Studio Code Marketplace.
  • Hd-röster (Azure AI Speech High Definition) är tillgängliga i offentlig förhandsversion. HD-rösterna kan förstå innehållet, automatiskt identifiera känslor i indatatexten och justera talartonen i realtid för att matcha sentimentet. Mer information finns i Vad är HD-röster (High Definition) för Azure AI Speech?.
  • Videoöversättning är nu tillgängligt i Azure AI Speech-tjänsten. Mer information finns i Vad är videoöversättning?.

Versionsinformation

Välj en tjänst eller resurs

Viktigt!

Innehållsutvärdering (förhandsversion) via Speech SDK dras tillbaka i juli 2025. I stället kan du använda Azure OpenAI-modeller för att få resultat av innehållsutvärdering enligt beskrivningen i dokumentationen för innehållsutvärdering.

Speech SDK 1.44.1: Korrigeringsversion

SDK version 1.44.1 släpps endast för JavaScript med 4 felkorrigeringar:

Felkorrigeringar

  • Ett utanför intervall undantagsfel har åtgärdats när endast en segmenteringskontrollparameter angavs.
  • enableDictation skickades inte korrekt till Speech Service.
  • ConversationTranscriber använde inte rätt URL-sökväg när den skapades med metoden fromEndpoint.
  • Fel har blivit löst när data skickas till en indataström efter att den har kopplats från.

Speech SDK 1.44: 2025-maj utgåva

Viktigt!

Stödet för målplattformar ändras:

  • Den lägsta Android-versionen som stöds är nu Android 8.0 (API-nivå 26).
  • Publiceringen av Speech SDK Unity-paket pausas efter den här versionen.

Nya funktioner:

  • Stöd för 16 KB minnessidor på Android har lagts till.
  • Kortare svarstid för SpeechStartDetected-händelser i inbäddad taligenkänning.
  • [C++, Python] En metod har lagts till för att hämta den tillgängliga storleken på AudioDataStream.
  • [C++, Python] Stöd har lagts till för anpassade lexikon-URL:er och önskade nationella inställningar i begäranden om talsyntes.
  • [Java, Python] Stöd har lagts till för Microsoft Entra-tokenbaserad autentisering med automatisk tokenuppdatering.
  • [Go] Stöd har lagts till för konversationstranskription.

Felkorrigeringar

  • Översättningstalsyntesen fungerade inte när källspråkidentifiering användes.
  • Korrigerade filsökvägar med icke-ASCII-tecken som inte fungerar för inbäddade talmodeller, KWS-modeller eller loggfiler (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288).
  • En NoMatch-loop har åtgärdats i vissa situationer i den inbäddade taligenkänningen.
  • Korrigerade destruering av inbyggda objekt som blockeras på grund av att igenkänningen inte har markerats som stoppad när händelser kopplas från.
  • Fast IntentRecognizer-mönstermatchning fungerar inte korrekt med tecken med flera byte under vissa förhållanden.
  • Det var inte synkront att anropa Close() ett anslutningsobjekt.
  • Ett konkurrenstillstånd har åtgärdats i en anslutningsallokering som kan leda till en krasch.
  • [macOS] "Info:"-meddelanden som visas i konsolen (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610har åtgärdats).

Exempel

  • [Python] Exempelkod har lagts till för recognizer med token-autentiseringsuppgifter från Microsoft Entra.

Speech SDK för JavaScript

Nya funktioner:

  • Uppdaterat utvecklingsberoende: TypeScript 3.5.3 → 4.5
  • TranslationRecognizer har uppdaterats för att använda V2-slutpunkter som standard.
  • SpeechRecongizer har uppdaterats för att använda V2-slutpunkter.
    • Detta resulterar i att NoMatch-resultat inte längre tas emot.
  • Stöd har lagts till för Microsoft Entra-tokenbaserad autentisering för taligenkänning och översättning.
  • FromEndpoint API har uppdaterats till den rekommenderade metoden för att konstruera en SpeechConfig för de flesta scenarier.
    • Gäller för användning:
      • Taligenkännare
      • TranslationRecognizer (via SpeechTranslationConfig)
      • Konversationsavskrivare
      • SpeechSynthesizer (på engelska)
    • Nu kan du använda slutpunkten från Azure-portalen för Speech- och Azure AI Foundry-resurser för att konstruera ett SpeechConfig-objekt.
    • Alla andra metoder för att konstruera en SpeechConfig fortsätter att fungera och stöds.
Felkorrigeringar

Speech CLI (SPX)

Nya funktioner

  • Stöd har lagts till för autentisering med autentiseringsuppgifter för Microsoft Entra-token.
  • Stöd har lagts till för API:et för snabb transkription.
Felkorrigeringar
  • Fasta icke-fungerande semikolonavgränsade indata-URL:er och indatafil-/URL-listor från en fil.

Speech SDK 1.43: mars 2025

Anteckning

Ubuntu 20.04 "standardsäkerhetsunderhåll" upphör att gälla i april 2025 och kommer inte längre att vara tillgängligt som ADO Build-agenter. Framtida Speech SDK-versioner kräver Ubuntu 22.04 LTS (i stället för Ubuntu 20.04) som lägsta version som stöds.

Nya funktioner:

  • FromEndpoint API har uppdaterats till den rekommenderade metoden för att konstruera en SpeechConfig för de flesta scenarier.
    • Gäller för användning:
      • Taligenkännare
      • TranslationRecognizer (via SpeechTranslationConfig)
      • Konversationsavskrivare
      • SpeechSynthesizer I alla programmeringsspråk utom JavaScript.
    • Nu kan du använda slutpunkten från Azure-portalen för Speech- och Cognitive Services-resurser för att konstruera ett SpeechConfig-objekt.
    • Alla andra metoder för att konstruera en SpeechConfig fortsätter att fungera och stöds.
  • TranslationRecognizer har uppdaterats för att använda V2-slutpunkter som standard.
    • Detta flyttar kontrollparametrar från URL:en till meddelanden i kanalen när du använder en V2-slutpunkt.
    • Beteendeförändring: Standardspråket som returneras för "zh" är nu "zh-CN" i stället för "zh-hans"
  • Egenskaps-ID:t har lagts till för SpeechSynthesis_FrameTimeoutInterval och SpeechSynthesis_RtfTimeoutThreshold.
  • Optimerade antalet gånger som SDK återansluter för tidskrävande igenkänningar.
  • [C++, Python] Stöd har lagts till för att ange format och temperatur i begäranden om textströmning.
  • [C#] Stöd har lagts till för automatisk uppdatering av AAD-token när du använder FromEndpoint för att konstruera ett konfigurationsobjekt.
    • Detta lägger till ett beroende från Speech SDK till Azure.Core-nuget-paketet.
    • Speech SDK kan nu acceptera TokenCredential-härledda objekt för autentisering när du använder:
      • Taligenkännare
      • Översättningsigenkännare
      • Konversationsavskrivare
  • [Objective-C] SPXTranslationRecognizer har uppdaterats för att stödja automatisk identifiering av källspråk från öppet intervall.
  • [Objective-C , Python] Api:er för diagnostik har lagts till EventLogger, FileLogger och MemoryLogger.
  • [Go]: Stöd för TranslationRecognizer har lagts till

Felkorrigeringar

Exempel

  • [C++] Ett exempel har lagts till för fristående avsiktsigenkänning med hjälp av mönstermatchning.
    • När LUIS-tjänsten upphör i oktober 2025 kommer Speech SDK också att dra tillbaka IntentRecognizer-objektfamiljen.
    • Innan det ville vi dela implementeringen för mönstermatchning.
  • [C++, C#, Java, Python] De flesta exempel har uppdaterats för att använda FromEndpoint API i stället för FromSubscription.
  • [C#] Ett scenarioexempel har lagts till för ett taligenkänningsprogram på flera nivåer.
    • Visar en metod för ljuduppspelning och återanslutning från en gränsenhet till en mellannivåtjänst som sedan vidarebefordrar ljud till Speech Service via Speech SDK
  • [C#] Uppdaterade exempel för att använda automatisk AAD-tokenuppdatering.
  • [Python] Exempel har lagts till för nya diagnostik-API:er.
  • [Unity] Instruktioner har lagts till för att installera det nya Azure.Core-beroendet.

Speech SDK 1.42.0: 2024–december

Nya funktioner

  • Java: Api:er för diagnostikloggning har lagts till med hjälp av klasser av FileLogger, MemoryLogger, EventLogger och SpxTrace.
  • Stöd för att skicka JSON-egenskapen "detaljer" om mötesdeltagare till tjänsten
  • Go: Det offentliga egenskaps-ID:t har lagts till SpeechServiceConnection_ProxyHostBypass för att ange värdar som proxyn inte används för.
  • JavaScript, Go: Lade till offentligt egenskaps-ID Speech_SegmentationStrategy för att avgöra när en talad fras har avslutats och ett slutligt identifierat resultat ska genereras (inklusive semantisk segmentering)
  • JavaScript, Go: Tillagd offentlig egenskap id Speech_SegmentationMaximumTimeMs som bestämmer slutet på en talad fras baserat på tid i Java, Python, C#, C++

Felkorrigeringar

  • Fixerad inbäddad TTS-röst laddas om vid varje syntestillfälle om röstnamnet inte är satt.
  • Åtgärdade problem med förskjutningsberäkning vid användning av MeetingTranscriber i vissa scenarier.
  • Problem med potentiellt dödläge vid samtidigt registrering av flera diagnostikhändelselyssnare har åtgärdats.
  • (JavaScript) Korrigerade eventuella förlorade NoMatch-resultat när ljudet var slut. Den här korrigeringen justerar också beteendet i slutet av talet med de andra SDK-språken och kan leda till att vissa tomma händelser inte längre genereras.
  • (JavaScript) Justera förskjutningar i resultat-JSON för att stämma överens med förskjutningarna på resultatobjekten. Tidigare korrigerades endast resultatobjektets förskjutningsegenskap för återanslutningar av tjänsten.
  • Go-språk: Ett kompileringsfel har åtgärdats https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
  • Rättade felmarginaler i mötestranskription när en återanslutning till tjänsten sker.
  • Ett dödläge i logghanteringen har åtgärdats.

Exempel

  • C#-exempel har uppdaterats för att använda .NET 8.0.
  • Java-exempel använder API för diagnostikloggning som visar användningen av de nya diagnostikloggningsklasserna.

Release i november 2024

Azure AI Speech Toolkit-tillägget för Visual Studio Code

Azure AI Speech Toolkit-tillägget är nu tillgängligt för Visual Studio Code-användare. Den innehåller en lista över snabbstarter för tal och scenarioexempel som enkelt kan skapas och köras med enkla klick. Mer information finns i Azure AI Speech Toolkit i Visual Studio Code Marketplace.

Kodexempel för text till tal-avatar

Vi har lagt till text i kodexempel för talavatar för Android och iOS. De här exemplen visar hur du använder text i realtid till talavatarer i dina mobilprogram.

Speech SDK 1.41.1: 2024–Oktober-utgåva

Nya funktioner

  • Stöd har lagts till för Amazon Linux 2023 och Azure Linux 3.0.
  • Det offentliga egenskaps-ID:t har lagts till SpeechServiceConnection_ProxyHostBypass för att ange värdar för vilka proxyn inte används.
  • Egenskaper har lagts till för att styra nya strategier för frassegmentering.

Felkorrigeringar

Icke-bakåtkompatibla ändringar

  • Stöd för nyckelordsigenkänning i Windows ARM 32-bitars har tagits bort på grund av att den nödvändiga ONNX-körningen inte är tillgänglig för den här plattformen.

Speech SDK 1.40: 2024–augusti

Anteckning

Speech SDK version 1.39.0 var en intern version och saknas inte.

Nya funktioner

  • Stöd har lagts till för strömning av G.722 komprimerat ljud i taligenkänning.
  • Stöd har lagts till för inställning av tonhöjd, frekvens och volym i indatatextströmning i talsyntes.
  • Stöd för direktuppspelning av personlig röstinmatningstext har lagts till genom introduktionen av PersonalVoiceSynthesisRequest i talsyntesen. Det här API:et är i förhandsversion och kan komma att ändras i framtida versioner.
  • Stöd har lagts till för diarisering av mellanliggande resultat när ConversationTranscriber används.
  • CentOS/RHEL 7-stöd har tagits bort på grund av CentOS 7 EOL och slutet av RHEL 7 Underhållssupport 2.
  • Användning av inbäddade talmodeller kräver nu en modelllicens i stället för en modellnyckel. Om du är en befintlig kund för inbäddad talteknik och vill uppgradera, var vänlig kontakta din supportkontakt på Microsoft för mer information om modelluppdateringar.

Felkorrigeringar

Exempel

  • Uppdaterade inbäddade talexempel för att använda en modelllicens i stället för en nyckel.

Speech SDK 1.38.0: 2024-juniutgåva.

Nya funktioner

  • Uppgradera Krav för Speech SDK Linux-plattformen:
    • Den nya minimibaslinjen är Ubuntu 20.04 LTS eller kompatibel med glibc 2.31 eller senare.
    • Binärfiler för Linux x86 tas bort i enlighet med stöd för Ubuntu 20.04-plattformen.
    • Observera att RHEL/CentOS 7 fortfarande stöds fram till den 30 juni (slutet av CentOS 7 och slutet av RHEL 7 Underhållssupport 2). Binärfiler för dem tas bort i Speech SDK 1.39.0-versionen.
  • Lägg till stöd för OpenSSL 3 i Linux.
  • Lägg till stöd för g722-16khz-64kbps ljudutdataformat med talsyntes.
  • Lägg till stöd för att skicka meddelanden via ett anslutningsobjekt med talsyntes.
  • Lägg till API:er för Start/StopKeywordRecognition i Objective-C och Swift.
  • Lägg till API för att välja en anpassad översättningsmodellkategori.
  • Uppdatera GStreamer-användning med talsyntes.

Felkorrigeringar

  • Åtgärda felet "Websocket-meddelandestorleken får inte överstiga 65 536 byte" under Start/StopKeywordRecognition.
  • Åtgärda ett Python-segmenteringsfel under talsyntesen.

Exempel

  • Uppdatera C#-exempel så att de använder .NET 6.0 som standard.

Speech SDK 1.37.0: 2024-April-release

Nya funktioner

  • Lägg till stöd för indatatextströmning i talsyntesen.
  • Ändra standardtalsyntesrösten till en-US-AvaMultilingualNeural.
  • Uppdatera Android-versioner för att använda OpenSSL 3.x.

Felkorrigeringar

Exempel

  • Uppdaterad för nya funktioner.

Speech SDK 1.36.0: 2024 Mars

Nya funktioner

  • Lägg till stöd för språkidentifiering i flerspråkig översättning på v2-slutpunkter med autodetectSourceLanguageConfig::FromOpenRange().

Felkorrigeringar

  • Åtgärda att en SynthesisCanceled-händelse inte utlöses om stopp anropas under en SynthesisStarted-händelse.

  • Åtgärda ett brusproblem i inbäddad talsyntes.

  • Åtgärda en krasch i inbäddad taligenkänning när du kör flera identifierare parallellt.

  • Åtgärda inställningen för frasidentifieringsläge på v1/v2-slutpunkter.

  • Åtgärdar olika problem med Microsoft Audio Stack.

Exempel

  • Uppdateringar för nya funktioner.

Speech SDK 1.35.0: Februari 2024 utgåva

Nya funktioner

  • Ändra standardtexten till talröst från en-US-JennyMultilingualNeural till en-US-AvaNeural.
  • Stöd för information på ordnivå i inbäddade talöversättningsresultat med hjälp av det detaljerade utdataformatet.

Felkorrigeringar

  • Åtgärda position getter-API:et för AudioDataStream i Python.
  • Åtgärda talöversättning med v2-slutpunkter utan språkidentifiering.
  • Åtgärda en slumpmässig krasch och duplicera ordgränshändelser i inbäddad text till tal.
  • Returnera en korrekt felkod för annullering för ett internt serverfel på WebSocket-anslutningar.
  • Åtgärda misslyckandet med att läsa in FPIEProcessor.dll-biblioteket när MAS används med C#.

Exempel

  • Mindre formateringsuppdateringar för inbäddade igenkänningsexempel.

Speech SDK 1.34.1: Januari 2024-utgåva

Förändringar som bryter kompatibilitet

  • Endast buggkorrigeringar

Nya funktioner

  • Endast buggkorrigeringar

Felkorrigeringar

  • Åtgärda regression som introducerades i 1.34.0 där url:en för tjänstslutpunkten skapades med felaktig språkinformation för användare i flera Kina-regioner.

Speech SDK 1.34.0: November 2023-utgåva

Förändringar som bryter kompatibilitet

  • SpeechRecognizer uppdateras för att använda en ny slutpunkt som standard (dvs. när du inte uttryckligen anger en URL) som inte längre stöder frågesträngsparametrar för de flesta egenskaperna. Använd motsvarande API-funktioner i stället för att ställa in frågesträngsparametrar direkt med ServicePropertyChannel.UriQueryParameter.

Nya funktioner

  • Kompatibilitet med .NET 8 (Korrigering med undantag för en varning angående centos7-x64)
  • Stöd för inbäddade talprestandamått som kan användas för att utvärdera en enhets förmåga att köra inbäddat tal.
  • Stöd för källspråkidentifiering i inbäddad flerspråkig översättning.
  • Stöd för inbäddad tal-till-text, text-till-tal och översättning för iOS och Swift/Objective-C, tillgänglig som förhandsversion.
  • Inbäddad support tillhandahålls i MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Felkorrigeringar

  • Korrigering för dubblering av binärstorlek i iOS SDK · Problem #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Korrigering för Det går inte att hämta tidsstämplar på ordnivå från Azure-tal till text-API · Problem #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Korrigering för DialogServiceConnector-nedmonteringsfas för att koppla från händelser på rätt sätt. Detta orsakade krascher ibland.
  • Åtgärd för undantag vid skapandet av en igenkännare när MAS används.
  • FPIEProcessor.dll från Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-paketet för Windows UWP x64 och Arm64 var beroende av VC-körningsbibliotek för inbyggd C++. Problemet har åtgärdats genom att uppdatera beroendet till rätt VC-körningsbibliotek (för UWP).
  • Korrigering för [MAS] Återkommande anrop till recognizeOnceAsync leder till SPXERR_ALREADY_INITIALIZED vid användning av MAS · Ärende nr 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Fix för krasch av inbäddad taligenkänning när fraslistor används.

Exempel

  • Inbäddade iOS-exempel för tal till text, text till tal och översättning.

Speech CLI 1.34.0: November 2023 utgåva

Nya funktioner

  • ** Stöd för ordgränshändelser vid att syntetisera tal.

Felkorrigeringar

  • JMESPath-beroendet har uppdaterats till den senaste versionen, förbättrar strängutvärderingar

Speech SDK 1.33.0: Oktober 2023-utgåva

Meddelande om brytande ändring

  • Det nya NuGet-paketet som lagts till för Microsoft Audio Stack (MAS) måste nu inkluderas av program som använder MAS i sina paketkonfigurationsfiler.

Nya funktioner

  • Det nya NuGet-paketet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg har lagts till, vilket ger bättre ekoreduceringsprestanda när du använder Microsoft Audio Stack
  • Uttalsbedömning: stöd för prosody- och innehållsutvärdering har lagts till, vilket kan utvärdera det talade talet när det gäller prosodi, vokabulär, grammatik och ämne.

Felkorrigeringar

Exempel

Speech CLI 1.33.0: Oktober 2023-utgåva

Nya funktioner

  • ** Stöd för ordgränshändelser vid att syntetisera tal.

Felkorrigeringar

  • inget

Speech SDK 1.32.1: september 2023 lansering

Felkorrigeringar

  • Android-paketuppdateringar med de senaste säkerhetskorrigeringarna från OpenSSL1.1.1v
  • JS – Egenskapen WebWorkerLoadType har lagts till för att tillåta förbikoppling av data-URL-inläsning för timeout-arbetare
  • JS – Åtgärda frånkoppling av konversationsöversättning efter 10 minuter
  • JS – Autentiseringstoken för konversationsöversättning från konversation sprids nu till översättningstjänstens anslutning

Exempel

Speech SDK 1.31.0: Augusti 2023 lansering

Nya funktioner

  • Stöd för realtidsdiarisering är tillgängligt i offentlig förhandsversion med Speech SDK 1.31.0. Den här funktionen är tillgänglig i följande SDK:er: C#, C++, Java, JavaScript, Python och Objective-C/Swift.

  • Synkroniserad talsyntes med ordgränser och viseme-händelser vid ljuduppspelning

Förändringar som bryter kompatibilitet

  • Det tidigare scenariot "konversationstranskription" har bytt namn till "mötestranskription". Använd till exempel MeetingTranscriber i stället för ConversationTranscriberoch använd CreateMeetingAsync i stället för CreateConversationAsync. Även om namnen på SDK-objekt och -metoder har ändrats ändras inte själva funktionen. Använd mötestranskriptionsobjekt för transkription av möten med användarprofiler och röstsignaturer. Objekten och metoderna för konversationsöversättning påverkas inte av dessa ändringar. Du kan fortfarande använda ConversationTranslator objektet och dess metoder för att uppfylla översättningsscenarier.

  • För diarisering i realtid introduceras ett nytt ConversationTranscriber objekt. Den nya objektmodellen "konversationstranskription" och anropsmönster liknar kontinuerlig igenkänning med SpeechRecognizer objektet. En viktig skillnad är att ConversationTranscriber objektet är utformat för att användas i ett konversationsscenario där du vill särskilja flera talare (diarisering). Användarprofiler och röstsignaturer är inte tillämpliga. Se snabbstartsguiden för diarisering i realtid för mer information.

Den här tabellen visar tidigare och nya objektnamn för diarisering i realtid och mötestranskription. Scenarionamnet finns i den första kolumnen, de tidigare objektnamnen finns i den andra kolumnen och de nya objektnamnen finns i den tredje kolumnen.

Scenarionamn Tidigare objektnamn Nya objektnamn
Diarisering i realtid Ej tillämpligt ConversationTranscriber
Mötestranskription ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant 1
ParticipantChangedReason 1
User 1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting 2

1 Objekten Participant, ParticipantChangedReasonoch User gäller både för mötestranskription och mötesöversättningsscenarier.

2 Objektet Meeting är nytt och används med objektet MeetingTranscriber .

Felkorrigeringar

Exempel

Speech SDK 1.30.0: Juli 2023-utgåvan

Nya funktioner

  • C++, C#, Java – Stöd har lagts till för DisplayWords i Den inbäddade taligenkänningens detaljerade resultat.
  • Objective-C/Swift – Stöd har lagts till för ConnectionMessageReceived händelse i Objective-C/Swift.
  • Objective-C/Swift – Förbättrade nyckelords-spotting-modeller för iOS. Den här ändringen har ökat storleken på vissa paket, som innehåller iOS-binärfiler (till exempel NuGet, XCFramework). Vi arbetar för att minska storleken på framtida versioner.

Felkorrigeringar

  • En minnesläcka har åtgärdats vid användning av taligenkänning med PhraseListGrammar, enligt rapporter från en kund (GitHub-problem).
  • Ett dödläge har åtgärdats i API:et för öppen anslutning för text till tal.

Fler anteckningar

  • Java – Vissa internt använda public Java API-metoder har ändrats till att paketera internal, protected eller private. Den här ändringen bör inte påverka utvecklare eftersom vi inte förväntar oss att program ska använda dem. Antecknat här för tydlighet.

Exempel

Speech SDK 1.29.0: Juni 2023-utgåva

Nya funktioner

  • C++, C#, Java – förhandsversion av API:er för inbäddad talöversättning. Nu kan du göra talöversättning utan molnanslutning!
  • JavaScript – Kontinuerlig språkidentifiering (LID) har nu aktiverats för talöversättning.
  • JavaScript – Community-bidrag för att lägga till LocaleName egenskapen i VoiceInfo klassen. Tack GitHub-användaren shivsarthak för pull-begäran.
  • C++, C#, Java – Stöd för omsampling av inbäddad text till tal-utdata från en samplingshastighet på 16 kHz till 48 kHz har lagts till.
  • Stöd har lagts till för hi-IN språkvariant i Intent Recognizer med enkel mönstermatchning.

Felkorrigeringar

  • Åtgärdade en krasch orsakad av ett konkurrenstillstånd i Speech Recognizer under objektförstörelse, vilket visas i några av våra Android-tester
  • Åtgärdade möjliga dödlägen i Intent Recognizer med Simple Pattern Matcher

Exempel

  • Nya exempel på inbäddad talöversättning

Speech SDK 1.28.0: Maj 2023 utgåva

Icke-kompatibel ändring

  • JavaScript SDK: OCSP (Online Certificate Status Protocol) har tagits bort. Detta gör det möjligt för klienter att bättre följa webbläsar- och nodstandarder för certifikathantering. Version 1.28 och senare innehåller inte längre vår anpassade OCSP-modul.

Nya funktioner

  • Inbäddad taligenkänning returneras NoMatchReason::EndSilenceTimeout nu när en tidsgräns för tystnad inträffar i slutet av ett yttrande. Detta överensstämmer med beteendet när du gör igenkänning med hjälp av realtidstaltjänsten.
  • JavaScript SDK: Ange egenskaper på SpeechTranslationConfig genom att använda PropertyId uppräkningsvärden.

Felkorrigeringar

  • C# på Windows – Åtgärda potentiellt kapplöpningstillstånd/låssituation i Windows ljudtillägg. I scenarier där man både snabbt gör sig av med ljudåtergivaren och använder metoden Synthesizer för att avbryta tal, återställs inte den underliggande händelsen vid stopp och kan leda till att återgivningsobjektet aldrig tas bort. Samtidigt kan det hålla ett globalt lås för borttagning, vilket fryser .NET:s GC-tråd.

Exempel

  • Lade till ett inbäddat talexempel för MAUI.
  • Det inbäddade talexemplet för Android Java har uppdaterats så att det innehåller text till tal.

Speech SDK 1.27.0: Släpp april 2023

Meddelande om kommande ändringar

  • Vi planerar att ta bort OCSP (Online Certificate Status Protocol) i nästa JavaScript SDK-version. Detta gör det möjligt för klienter att bättre följa webbläsar- och nodstandarder för certifikathantering. Version 1.27 är den senaste versionen som innehåller vår anpassade OCSP-modul.

Nya funktioner

  • JavaScript – Stöd har lagts till för mikrofoninmatning från webbläsaren med talaridentifiering och verifiering.
  • Inbäddad taligenkänning – Uppdateringsstöd för PropertyId::Speech_SegmentationSilenceTimeoutMs inställning.

Felkorrigeringar

  • Allmänt – Tillförlitlighetsuppdateringar i tjänståteranslutningslogik (alla programmeringsspråk utom JavaScript).
  • Allmänt – Åtgärda strängkonverteringar som läcker minne i Windows (alla relevanta programmeringsspråk utom JavaScript).
  • Inbäddad taligenkänning – Åtgärda krasch i fransk taligenkänning när vissa poster i grammatiklistan används.
  • Källkodsdokumentation – Kommentarer om korrigeringar av SDK-referensdokumentation som rör ljudloggning på tjänsten.
  • Avsiktsigenkänning – Justera prioriteringar för mönstermatchning med avseende på listentiteter.

Exempel

  • Hantera autentiseringsfel på rätt sätt i ett exempel på konversationstranskription (CTS) i C#.
  • Lade till exempel på direktuppspelande uttalsutvärdering för Python, JavaScript, Objective-C och Swift.

Speech SDK 1.26.0: version mars 2023

Förändringar som bryter kompatibilitet

  • Bitcode har inaktiverats i alla iOS-mål i följande paket: Cocoapod med xcframework, NuGet (för Xamarin och MAUI) och Unity. Ändringen beror på Apples utfasning av bitkodsstöd från Xcode 14 och senare. Den här ändringen innebär också att om du använder Xcode 13-versionen eller om du uttryckligen har aktiverat bitkoden i ditt program med hjälp av Speech SDK kan det uppstå ett fel som säger "ramverket innehåller inte bitkod och du måste återskapa det". Lös problemet genom att kontrollera att dina mål har bitkod inaktiverats.
  • Det lägsta iOS-distributionsmålet uppgraderas till 11.0 i den här versionen, vilket innebär att armv7 HW inte längre stöds.

Nya funktioner

  • Inbäddad taligenkänning (på enheten) stöder nu både 8- och 16 kHz samplingsfrekvens för indataljud (16 bitar per exempel, mono PCM).
  • Speech Synthesis rapporterar nu anslutnings-, nätverks- och tjänstfördröjningar i resultatet för att hjälpa optimering av svarstid från slutpunkt till slutpunkt.
  • Nya avgörande regler för igenkänning av intentioner med enkel mönstermatchning. Ju fler teckenbyte som matchas, vinner över mönstermatchningar med lägre antal teckenbyte. Exempel: Mönstret "Välj {something} längst upp till höger" vinner över "Välj {something}"

Felkorrigeringar

  • Talsyntes: Åtgärda en bugg där emojin inte är korrekt i ordgränshändelser.
  • Avsiktsigenkänning med CONVERSATIONAL Language Understanding (CLU):
    • Avsikter från CLU Orchestrator-arbetsflödet visas nu korrekt.
    • JSON-resultatet är nu tillgängligt via egenskaps-ID:t LanguageUnderstandingServiceResponse_JsonResult.
  • Taligenkänning med nyckelordsaktivering: Korrigering för saknade ~150 ms ljud efter en nyckelordsigenkänning.
  • Korrigering för Speech SDK NuGet iOS MAUI Release build, rapporterad av kunden (GitHub-problem)

Exempel

  • Korrigering för Swift iOS-exempel, rapporterat av kunden (GitHub-problem)

Speech SDK 1.25.0: Januari 2023 lansering

Förändringar som bryter kompatibilitet

  • API:er för språkidentifiering (förhandsversion) har förenklats. Om du uppdaterar till Speech SDK 1.25 och ser en versionspaus går du till sidan Språkidentifiering för att lära dig mer om den nya egenskapen SpeechServiceConnection_LanguageIdMode. Den här enskilda egenskapen ersätter de två föregående SpeechServiceConnection_SingleLanguageIdPriority och SpeechServiceConnection_ContinuousLanguageIdPriority. Det är inte längre nödvändigt att prioritera mellan låg svarstid och hög noggrannhet efter de senaste modellförbättringarna. Nu behöver du bara välja om du vill köra i början eller kontinuerlig språkidentifiering när du utför kontinuerlig taligenkänning eller översättning.

Nya funktioner

  • C#/C++/Java: Embedded Speech SDK släpps nu under gated public preview. Se dokumentationen om Inbäddat tal (förhandsversion). Nu kan du göra tal till text och text till tal på enheten när molnanslutningen är tillfällig eller otillgänglig. Stöds på Android-, Linux-, macOS- och Windows-plattformar
  • C# MAUI: Stöd har lagts till för iOS- och Mac Catalyst-mål i Speech SDK NuGet (kundproblem)
  • Unity: Android x86_64-arkitektur har lagts till i Unity-paketet (kundproblem)
  • :
    • Direktuppspelningsstöd för ALAW/MULAW har lagts till för taligenkänning (kundproblem)
    • Stöd har lagts till för PhraseListGrammar. Tack GitHub-användaren czkoko för communityns bidrag!
  • C#/C++: Intent Recognizer stöder nu modeller för konversationsspråkstolkning i C++ och C# med orkestrering i Microsoft-tjänsten

Felkorrigeringar

  • Åtgärda en tillfällig låsning i KeywordRecognizer när du försöker stoppa den
  • Python:
    • Korrigering för att hämta uttalsutvärderingsresultat när PronunciationAssessmentGranularity.FullText har angetts (kundproblem)
    • Åtgärda problemet med att könsegenskapen för manliga röster inte hämtas när talsyntesröster erhålls.
  • JavaScript
    • Korrigering för parsning av vissa WAV-filer som har registrerats på iOS-enheter (kundproblem)
    • JS SDK kompileras nu utan att använda npm-force-resolutions (Customer issue)
    • Konversationsöversättaren ställer nu in tjänstslutpunkten korrekt när du använder en speechConfig-instans som skapats med SpeechConfig.fromEndpoint()

Exempel

  • Exempel som visar hur du använder Inbäddat tal har lagts till

  • Ett tal-till-text-exempel har lagts till för MAUI

    Se Lagringsplatsen för Speech SDK-exempel.

Speech SDK 1.24.2: November 2022-utgåvan

Nya funktioner

  • Inga nya funktioner, bara en inbäddad motorkorrigering för att stödja nya modellfiler.

Felkorrigeringar

  • Alla programmeringsspråk
    • Ett problem med kryptering av inbäddade taligenkänningsmodeller har åtgärdats.

Speech SDK 1.24.1: November 2022-utgåva

Nya funktioner

Felkorrigeringar

  • Alla programmeringsspråk
    • Åtgärda inbäddad TTS-krasch när röstteckensnitt inte stöds
    • Korrigering av stopSpeaking() kan inte stoppa uppspelning på Linux (#1686)
  • JavaScript SDK
    • Åtgärdad regression i hur konversationstranskriberingen hanterade ljud.
  • Java
    • Tillfälligt publicerade uppdaterade POM- och Javadocs-filer till Maven Central för att göra det möjligt för docs-pipelinen att uppdatera onlinereferensdokument.
  • Python
    • Åtgärda regression där Python speak_text(ssml) returnerar void.

Speech SDK 1.24.0: Oktober 2022

Nya funktioner

  • Alla programmeringsspråk: AMR-WB (16khz) har lagts till i listan över text-till-tal-ljudutdataformat som stöds
  • Python: Paketet har lagts till för Linux Arm64 för Linux-distributioner som stöds.
  • C#/C++/Java/Python: Stöd har lagts till för direktuppspelning av ALAW och MULAW till taltjänsten (förutom befintlig PCM-ström) med hjälp av AudioStreamWaveFormat.
  • C# MAUI: NuGet-paketet har uppdaterats för att stödja Android-mål för .NET MAUI-utvecklare (kundproblem)
  • Mac: Lade till separat XCframework för Mac, som inte innehåller några iOS-binärfiler. Detta erbjuder ett alternativ för utvecklare som bara behöver Mac-binärfiler med ett mindre XCframework-paket.
  • Microsoft Audio Stack (MAS):
    • När strålformningsvinklar anges ignoreras ljud som kommer utanför angivet intervall bättre.
    • Ungefär 70 % minskning av storleken på libMicrosoft.CognitiveServices.Speech.extension.mas.so för Linux ARM32 och Linux Arm64.
  • Avsiktsigenkänning med mönstermatchning:
    • Lägga till ortografistöd för språken fr, de, es, jp
    • Fördefinierat stöd för heltal har lagts till för språket es.

Felkorrigeringar

  • iOS: Åtgärda talsyntesfel på iOS 16 som orsakas av komprimerat ljud avkodningsfel (kundproblem).
  • JavaScript:
    • Åtgärda att autentiseringstoken inte fungerar när röstlistan för talsyntes hämtas (kundproblem).
    • Använd data-URL för laddning av arbetare (kundärende).
    • Skapa endast en ljudprocessorarbetare om AudioWorklet stöds i webbläsaren (Kundproblem). Detta var ett samhällsbidrag av William Wong. Tack William!
    • Åtgärda igenkända motringningar när LUIS-svaret connectionMessage är tomt (kundproblem).
    • Ange tidsgränsen för talsegmentering korrekt.
  • Avsiktsigenkänning med mönstermatchning:
    • Icke-JSON-tecken i modeller läses nu in korrekt.
    • Åtgärda hängande problem när recognizeOnceAsync(text) anropades under kontinuerlig igenkänning.

Speech SDK 1.23.0: Juli 2022-utgåvan

Nya funktioner

  • C#, C++, Java: Stöd har lagts till för språk zh-cn och zh-hk i Avsiktsigenkänning med mönstermatchning.
  • C#: Stöd har lagts till för AnyCPU .NET Framework-versioner

Felkorrigeringar

  • Android: Åtgärdat OpenSSL-sårbarhets-CVE-2022-2068 genom att uppdatera OpenSSL till 1.1.1q
  • Python: Åtgärda krasch när du använder PushAudioInputStream
  • iOS: Åtgärda "EXC_BAD_ACCESS: Försökte avreferera nullpekare" som rapporterats på iOS (GitHub-ärende)

Speech SDK 1.22.0: Juni 2022 utgåva

Nya funktioner

  • Java: IntentRecognitionResult API för getEntities(), applyLanguageModels() och recognizeOnceAsync(text) har lagts till för att stödja "motorn för enkel mönstermatchning".
  • Unity: Stöd har lagts till för Mac M1 (Apple Silicon) för Unity-paket (GitHub-problem)
  • C#: Stöd för x86_64 för Xamarin Android (GitHub-problem) har lagts till
  • C#: .NET Framework lägsta version uppdaterad till v4.6.2 för SDK C#-paketet eftersom v4.6.1 har dragits tillbaka (se Microsoft .NET Framework Component Lifecycle Policy)
  • Linux: Stöd har lagts till för Debian 11 och Ubuntu 22.04 LTS. Ubuntu 22.04 LTS kräver manuell installation av libssl1.1 antingen som ett binärt paket härifrån (till exempel libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb eller senare för x64) eller genom kompilering från källor.

Felkorrigeringar

  • UWP: OpenSSL-beroendet har tagits bort från UWP-bibliotek och ersatts med WinRT-websocket- och HTTP-API:er för att uppfylla säkerhetsefterlevnad och mindre binärt fotavtryck.
  • Mac: Problemet "MicrosoftCognitiveServicesSpeech Module Not Found" har åtgärdats vid användning av Swift-projekt som riktar sig till macOS-plattformen
  • Windows, Mac: Åtgärdat ett plattformsspecifikt problem där ljudkällor som konfigurerats via egenskaper för att strömma i realtid ibland hamnade efter och så småningom överskred kapaciteten

Exempel (GitHub)

  • C#: .NET Framework-exempel har uppdaterats för användning av v4.6.2
  • Unity: Exempel på virtuell assistent korrigerat för Android och UWP
  • Unity: Unity-exempel uppdaterade för Unity 2020 LTS-version

Speech SDK 1.21.0: April 2022-version

Nya funktioner

  • Java & JavaScript: Stöd för kontinuerlig språkidentifiering har lagts till när du använder SpeechRecognizer-objektet
  • JavaScript, diagnostiska API:er har lagts till för att möjliggöra nivå för konsollogging och filloggning (endast Node.js) för att hjälpa Microsoft att felsöka kundrapporterade problem
  • Python: Stöd för konversationstranskription har lagts till
  • Go: Stöd för talarigenkänning har lagts till
  • C++ & C#: Stöd har lagts till för en obligatorisk grupp ord i avsiktsigenkänningen (enkel mönstermatchning). Till exempel: "(set|start|begin) a timer" där antingen "set", "start" eller "begin" måste finnas för att avsikten ska kunna identifieras.
  • Alla programmeringsspråk, Speech Synthesis: Egenskapen duration har lagts till i ordgränshändelser. Stöd har lagts till för skiljeteckengräns och meningsgräns
  • Objective-C/Swift/Java: Lade till resultat på ordnivå i resultatobjektet Uttalsbedömning (liknar C#). Programmet behöver inte längre parsa en JSON-resultatsträng för att få information på ordnivå (GitHub-problem)
  • iOS-plattform: Lade till experimentellt stöd för ARMv7-arkitektur

Felkorrigeringar

  • iOS-plattform: Korrigering för att tillåta att målet "Alla iOS-enheter" skapas när du använder CocoaPod (GitHub-problem)
  • Android-plattform: OpenSSL-versionen har uppdaterats till 1.1.1n för att åtgärda säkerhetsrisker CVE-2022-0778
  • JavaScript: Åtgärda problem där wav-huvudet inte uppdaterades med filstorlek (GitHub-problem)
  • JavaScript: Åtgärda desynkroniseringsproblemet med begärande-ID som stör översättningsscenarier (GitHub-problem)
  • JavaScript: Åtgärda problem när du instansierar SpeakerAudioDestination utan ström (GitHub-problem]
  • C++: Åtgärda C++-huvuden för att ta bort en varning vid kompilering för C++17 eller senare

Exempel på GitHub

  • Nya Java-exempel för taligenkänning med språkidentifiering
  • Nya Python - och Java-exempel för konversationstranskription
  • Nytt Go-exempel för talarigenkänning
  • Nytt C++ och C#- verktyg för Windows som räknar upp alla enheter för ljudinspelning och återgivning för att hitta deras enhets-ID. Det här ID:t krävs av Speech SDK om du planerar att spela in ljud från eller återge ljud till en nondefault-enhet.

Speech SDK 1.20.0: Januari 2022

Nya funktioner

  • Objective-C, Swift och Python: Stöd har lagts till för DialogServiceConnector, som används för scenarier med röstassistenter.
  • Python: Stöd för Python 3.10 har lagts till. Stöd för Python 3.6 har tagits bort, i enlighet med Pythons slutet på livscykeln för 3.6.
  • Unity: Speech SDK stöds nu för Unity-program i Linux.
  • C++, C#: IntentRecognizer med mönstermatchning stöds nu i C#. Dessutom stöds scenarier med anpassade entiteter, valfria grupper och entitetsroller i C++ och C#.
  • C++, C#: Förbättrad spårningsloggning för diagnostik med hjälp av de nya klasserna FileLogger, MemoryLogger och EventLogger. SDK-loggar är ett viktigt verktyg för Microsoft för att diagnostisera kundrapporterade problem. Dessa nya klasser gör det enklare för kunder att integrera Speech SDK-loggar i sitt eget loggningssystem.
  • Alla programmeringsspråk: PronunciationAssessmentConfig har nu egenskaper för att ange önskat fonem-alfabet (IPA eller SAPI) och N-Best Phoneme Count (undvika behovet av att skapa en konfigurations-JSON enligt GitHub-problem 1284). Utdata på stavelsenivå stöds nu också.
  • Android, iOS och macOS (alla programmeringsspråk): GStreamer behövs inte längre för att stödja nätverk med begränsad bandbredd. SpeechSynthesizer använder nu operativsystemets ljudavkodningsfunktioner för att avkoda komprimerat ljud som strömmas från text till taltjänst.
  • Alla programmeringsspråk: SpeechSynthesizer har nu stöd för tre nya Opus-format för råutdata (utan container), som ofta används i scenarier med liveuppspelning.
  • JavaScript: Api:et getVoicesAsync() har lagts till i SpeechSynthesizer för att hämta listan över syntesröster som stöds (GitHub-nummer 1350)
  • JavaScript: Api:et getWaveFormat() har lagts till i AudioStreamFormat för att stödja icke-PCM-vågformat (GitHub-problem 452)
  • JavaScript: Har lagt till volymens getter/setter och mute()/unmute()-API:er till SpeakerAudioDestination (GitHub-ärende 463)

Felkorrigeringar

  • C++, C#, Java, JavaScript, Objective-C och Swift: Åtgärda för att ta bort en 10-sekunders fördröjning när du stoppar en taligenkänning som använder en PushAudioInputStream. Detta gäller för de fall då inget nytt ljud skickas in efter att StopContinuousRecognition anropats (GitHub-problem 1318, 331)
  • Unity på Android och UWP: Unity-metafiler har åtgärdats för UWP, Android Arm64 och Windows-undersystem för Android (WSA) Arm64 (GitHub-problem 1360)
  • iOS: Kompilera ditt Speech SDK-program på valfri iOS-enhet när du använder CocoaPods är nu åtgärdat (GitHub-problem 1320)
  • iOS: När SpeechSynthesizer har konfigurerats för att mata ut ljud direkt till en högtalare stoppades uppspelningen i början under sällsynta förhållanden. Det här har åtgärdats.
  • JavaScript: Använd fallback för skriptprocessor för mikrofonindata om ingen ljudarbetsmodul hittas (GitHub-problem 455)
  • JavaScript: Lägg till protokoll till agenten för att åtgärda buggar som hittats med Sentry-integrering (GitHub-problem 465)

Exempel på GitHub

  • C++-, C#-, Python- och Java-exempel som visar hur du får detaljerade igenkänningsresultat. Informationen omfattar alternativa igenkänningsresultat, konfidenspoäng, lexikalt formulär, Normaliserat formulär, Maskerat normaliserat formulär, med tidsinställning på ordnivå för var och en.
  • iOS-exempel har lagts till med AVFoundation som extern ljudkälla.
  • Java-exempel har lagts till för att visa hur du hämtar SRT-format (SubRip Text) med hjälp av WordBoundary-händelsen.
  • Android-exempel för uttalsutvärdering.
  • C++, C# som visar användningen av de nya diagnostikloggningsklasserna.

Speech SDK 1.19.0: 2021-Nov-utgåva

Höjdpunkter

  • Tjänsten för talarigenkänning är allmänt tillgänglig (GA) nu. Speech SDK-API:er är tillgängliga på C++, C#, Java och JavaScript. Med talarigenkänning kan du korrekt verifiera och identifiera talare med hjälp av deras unika röstegenskaper. Mer information om det här avsnittet finns i dokumentationen.

  • Vi har tagit bort stödet för Ubuntu 16.04 tillsammans med Azure DevOps och GitHub. Ubuntu 16.04 nådde slutet av livet redan i april 2021. Migrera dina Ubuntu 16.04-arbetsflöden till Ubuntu 18.04 eller senare.

  • OpenSSL-länkning i Linux-binärfiler har ändrats till dynamisk. Binär Linux-storlek har minskat med cirka 50 %.

  • Stöd för Mac M1 baserad på ARM-arkitektur har lagts till.

Nya funktioner

  • C++/C#/Java: Nya API:er har lagts till för att aktivera stöd för ljudbearbetning för talinmatning med Microsoft Audio Stack. Dokumentation här.

  • C++: Nya API:er för avsiktsigenkänning för att underlätta mer avancerad mönstermatchning. Detta inkluderar entiteter för list- och fördefinierade heltal samt stöd för gruppering av avsikter och entiteter som modeller (dokumentation, uppdateringar och exempel är under utveckling och kommer att publiceras inom en snar framtid).

  • Mac: Stöd för Arm64-baserade (M1) processorer för CocoaPod-, Python-, Java- och NuGet-paket relaterade till GitHub-ärende 1244.

  • iOS/Mac: iOS- och macOS-binärfiler paketeras nu i xcframework relaterade till GitHub-problem 919.

  • iOS/Mac: Stöd för Mac Catalyst som rör GitHub-fråga 1171.

  • Linux: Nytt tar-paket har lagts till för CentOS7 About the Speech SDK. Linux-.tar-paketet innehåller nu specifika bibliotek för RHEL/CentOS 7 i lib/centos7-x64. Speech SDK-bibliotek i lib/x64 gäller fortfarande för alla andra Linux x64-distributioner som stöds (inklusive RHEL/CentOS 8) och fungerar inte på RHEL/CentOS 7.

  • JavaScript: VoiceProfile- och SpeakerRecognizer-API:er har gjorts asynkrona och väntbara.

  • JavaScript: Stöd har lagts till för azure-regioner för amerikanska myndigheter.

  • Windows: Stöd har lagts till för uppspelning på Universell Windows-plattform (UWP).

Felkorrigeringar

  • Android: OpenSSL-säkerhetsuppdatering (uppdaterad till version 1.1.1l) för Android-paket.

  • Python: Åtgärdat fel där det inte går att välja högtalarenhet i Python.

  • Kärna: Återanslut automatiskt när ett anslutningsförsök misslyckas.

  • iOS: Ljudkomprimering inaktiveras på iOS-paket på grund av instabilitet och problem med bitkodsgenerering när du använder GStreamer. Information finns tillgänglig via GitHub-problem 1209.

Exempel på GitHub

  • Mac/iOS: Uppdaterade exempel och snabbstarter för att använda xcframework-paketet.

  • .NET: Exempel har uppdaterats för att använda .NET Core 3.1-versionen.

  • JavaScript: Ett exempel har lagts till för röstassistenter.

Speech SDK 1.18.0: juli 2021-versionen

Obs! Kom igång med Speech SDK här.

Sammanfattning av höjdpunkter

  • Ubuntu 16.04 nådde slutet av livet i april 2021. Med Azure DevOps och GitHub släpper vi supporten för 16.04 i september 2021. Migrera ubuntu-16.04-arbetsflöden till ubuntu-18.04 eller senare innan dess.

Nya funktioner

  • C++: Enkel språkmönstermatchning med intent recognizer gör det nu enklare att implementera enkla scenarier för avsiktsigenkänning.
  • C++/C#/Java: Vi har lagt till ett nytt API i GetActivationPhrasesAsync() klassen för att VoiceProfileClient ta emot en lista över giltiga aktiveringsfraser i registreringsfasen för talarigenkänning för oberoende igenkänningsscenarier.
    • Viktigt: Funktionen talarigenkänning finns i förhandsversion. Alla röstprofiler som skapats i förhandsversionen upphör 90 dagar efter att funktionen Talarigenkänning har flyttats från förhandsversionen till Allmän tillgänglighet. Då slutar röstprofilerna för förhandsversionen att fungera.
  • Python: Stöd har lagts till för kontinuerlig språkidentifiering (LID) för befintliga SpeechRecognizer objekt och TranslationRecognizer objekt.
  • Python: Lade till ett nytt Python-objekt med namnet SourceLanguageRecognizer för att göra enstaka eller kontinuerlig LID (utan igenkänning eller översättning).
  • JavaScript: getActivationPhrasesAsync API har lagts till i klassen för att VoiceProfileClient ta emot en lista över giltiga aktiveringsfraser i registreringsfasen för talarigenkänning för oberoende igenkänningsscenarier.
  • JavaScriptsVoiceProfileClientenrollProfileAsync API kan nu använda async/await. Se den här oberoende identifieringskoden, till exempel användning.

Förbättringar

  • Java: AutoCloseable-stöd har lagts till i många Java-objekt. Nu stöds try-with-resources-modellen för att frigöra resurser. Se det här exemplet som använder try-with-resources. Se även dokumentationshandledningen för Oracle Java för try-with-resources-instruktionen för att lära dig om detta mönster.
  • Diskavtrycket har minskat avsevärt för många plattformar och arkitekturer. Exempel för Microsoft.CognitiveServices.Speech.core binärfilen: x64 Linux är 475 KB mindre (8,0 % minskning); Arm64 Windows UWP är 464 KB mindre (11,5 % minskning); x86 Windows är 343 KB mindre (17,5 % minskning); och x64 Windows är 451 KB mindre (19,4 % minskning).

Felkorrigeringar

  • Java: Åtgärdat syntesfel när syntestexten innehåller surrogattecken. Information här.
  • JavaScript: Ljudbearbetning för mikrofonen i webbläsaren använder nu AudioWorkletNode i stället för den inaktuella ScriptProcessorNode. Information här.
  • JavaScript: Håll konversationerna vid liv under långvariga scenarier för konversationsöversättning. Information här.
  • JavaScript: Åtgärdat problem med att identifieraren återansluter till en mediastream i kontinuerlig igenkänning. Information här.
  • JavaScript: Åtgärdat problem med att identifieraren återansluter till en pushStream i kontinuerlig igenkänning. Information här.
  • JavaScript: Korrigerad förskjutningsberäkning på ordnivå i detaljerade igenkänningsresultat. Information här.

Exempel

  • Java-snabbstartsexempel uppdaterade här.
  • JavaScript-talarigenkänningsexempel har uppdaterats för att visa ny användning av enrollProfileAsync(). Se exempel här.

Speech SDK 1.17.0: 2021-Maj utgåva

Anteckning

Kom igång med Speech SDK här.

Sammanfattning av höjdpunkter

  • Mindre fotavtryck – vi fortsätter att minska minnet och diskavtrycket för Speech SDK och dess komponenter.
  • Med ett nytt fristående API för språkidentifiering kan du känna igen vilket språk som talas.
  • Utveckla talaktiverade appar för mixad verklighet och spel med Unity på macOS.
  • Nu kan du använda Text till tal utöver taligenkänning från programmeringsspråket Go.
  • Flera buggkorrigeringar för att åtgärda problem som du, våra värdefulla kunder, har flaggat på GitHub! TACK! Fortsätt att ge feedback!

Nya funktioner

  • C++/C#: Ny fristående initiering och kontinuerlig språkdetektion via SourceLanguageRecognizer-API:et. Om du bara vill identifiera språk som talas i ljudinnehåll är detta API:et för att göra det. Mer information finns i C++ och C#.
  • C++/C#: Taligenkänning och översättningsigenkänning stöder nu både start- och kontinuerlig språkidentifiering så att du programmatiskt kan avgöra vilka språk som talas innan de transkriberas eller översätts. Se dokumentationen här för Taligenkänning och här för Talöversättning.
  • C#: Stöd för Unity-stöd för macOS (x64) har lagts till. Detta låser upp användningsfall för taligenkänning och talsyntes i mixad verklighet och spel!
  • Go: Vi har lagt till stöd för talsyntestext till tal till programmeringsspråket Go för att göra talsyntes tillgänglig i ännu fler användningsfall. Se vår snabbstart eller vår referensdokumentation.
  • C++/C#/Java/Python/Objective-C/Go: Talsyntesen stöder nu objektet connection . Detta hjälper dig att hantera och övervaka anslutningen till Speech-tjänsten och är särskilt användbart för att föransluta för att minska svarstiden. Se dokumentationen här.
  • C++/C#/Java/Python/Objective-C/Go: Vi exponerar nu latens och underkörningstid i SpeechSynthesisResult för att hjälpa dig övervaka och diagnostisera latensproblem i talsyntes. Mer information finns i C++, C#, Java, Python, Objective-C och Go.
  • C++/C#/Java/Python/Objective-C: Text till tal använder nu neurala röster som standard när du inte anger en röst som ska användas. Detta ger dig högre återgivningsutdata som standard, men ökar även standardpriset.
  • C++/C#/Java/Python/Objective-C/Go: Vi har lagt till en könsegenskap i röstinformationen för syntes för att göra det enklare att välja röster baserat på kön. Detta åtgärdar GitHub-problem #1055.
  • C++, C#, Java, JavaScript: Vi stöder retrieveEnrollmentResultAsyncnu , getAuthorizationPhrasesAsyncoch getAllProfilesAsync() i talarigenkänning för att underlätta användarhanteringen av alla röstprofiler för ett visst konto. Se dokumentationen för C++, C#, Java, JavaScript. Detta åtgärdar GitHub-problem #338.
  • JavaScript: Vi har lagt till ett nytt försök för anslutningsfel som gör dina JavaScript-baserade talprogram mer robusta.

Förbättringar

  • Linux- och Android Speech SDK-binärfiler har uppdaterats för att använda den senaste versionen av OpenSSL (1.1.1k)
  • Förbättringar av kodstorlek:
    • Language Understanding är nu uppdelat i ett separat "lu"-bibliotek.
    • Binär storlek för Windows x64-kärnor minskade med 14,4 %.
    • Android Arm64 kärnbinärens storlek minskade med 13,7 %.
    • andra komponenter minskade också i storlek.

Felkorrigeringar

  • Alla: GitHub-problem #842 för ServiceTimeout har åtgärdats. Nu kan du transkribera långa ljudfiler med hjälp av Speech SDK utan att anslutningen till tjänsten avslutas med det här felet. Vi rekommenderar dock fortfarande att du använder batch-transkription för långa filer.
  • C#: Åtgärdat GitHub-problem #947 där avsaknaden av talinmatning kunde leda till att appen hamnade i ett felaktigt tillstånd.
  • Java: GitHub-problem #997 har åtgärdats där Speech SDK för Java 1.16 kraschar när du använder DialogServiceConnector utan nätverksanslutning eller en ogiltig prenumerationsnyckel.
  • En krasch har åtgärdats när taligenkänningen plötsligt stoppades (till exempel genom att använda CTRL+C i konsolappen).
  • Java: En korrigering har lagts till för att ta bort temporära filer i Windows när du använder Speech SDK för Java.
  • Java: GitHub-problem #994 har åtgärdats där anrop DialogServiceConnector.stopListeningAsync kan resultera i ett fel.
  • Java: Ett kundproblem har åtgärdats i snabbstarten för den virtuella assistenten.
  • JavaScript: Åtgärdade GitHub-problem #366, där ConversationTranslator orsakade ett felmeddelande om att 'this.cancelSpeech inte är en funktion'.
  • JavaScript: Fixa GitHub-problemet #298 där exemplet 'Få resultat som en ström i minnet' spelades upp högt.
  • JavaScript: GitHub-problem #350 har åtgärdats där anrop AudioConfig kan resultera i att "ReferenceError: MediaStream inte har definierats".
  • JavaScript: En UnhandledPromiseRejection-varning har åtgärdats i Node.js för långvariga sessioner.

Exempel

  • Dokumentationen om Unity-exempel för macOS har uppdaterats här.
  • Ett React Native-exempel för Azure AI Speech-igenkänningstjänsten är nu tillgängligt här.

Speech SDK 1.16.0: 2021–marsutgåvan

Anteckning

Speech SDK för Windows är beroende av Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019.

Nya funktioner

  • C++/C#/Java/Python: Flyttade till den senaste versionen av GStreamer (1.18.3) för att lägga till stöd för transkribering av medieformat i Windows, Linux och Android. Se dokumentationen här.
  • C++/C#/Java/Objective-C/Python: Stöd har lagts till för avkodning av komprimerat TTS/syntetiserat ljud till SDK. Om du ställer in utdataljudformatet på PCM och GStreamer är tillgängligt i systemet begär SDK automatiskt komprimerat ljud från tjänsten för att spara bandbredd och avkoda ljudet på klienten. Du kan ställa in SpeechServiceConnection_SynthEnableCompressedAudioTransmission till false för att inaktivera den här funktionen. Information om C++, C#, Java, Objective-C, Python.
  • JavaScript: Node.js användare kan nu använda APIAudioConfig.fromWavFileInput. Detta åtgärdar GitHub-problem #252.
  • C++/C#/Java/Objective-C/Python: En ny metod har lagts till för TTS som returnerar alla tillgängliga syntesröster. Information om C++, C#, Java, Objective-C och Python.
  • C++/C#/Java/JavaScript/Objective-C/Python: Lade till VisemeReceived händelse för TTS/talsyntes för att returnera synkron viseme-animering. Se dokumentationen här.
  • C++/C#/Java/JavaScript/Objective-C/Python: Lagt till händelse BookmarkReached för TTS. Du kan ange bokmärken med indata-SSML och få ljudoffsetar för varje bokmärke. Se dokumentationen här.
  • Java: Stöd för API:er för talarigenkänning har lagts till. Information här.
  • C++/C#/Java/JavaScript/Objective-C/Python: Lade till två nya utdataljudformat med WebM-container för TTS (Webm16Khz16BitMonoOpus och Webm24Khz16BitMonoOpus). Det här är bättre format för direktuppspelning av ljud med Opus codec. Information om C++, C#, Java, JavaScript, Objective-C, Python.
  • C++/C#/Java: Stöd har lagts till för att hämta röstprofilen för scenariot talarigenkänning. Information om C++, C#och Java.
  • C++/C#/Java/Objective-C/Python: Stöd har lagts till för separat delat bibliotek för ljudmikrofon och talarkontroll. På så sätt kan utvecklaren använda SDK:t i miljöer som inte har nödvändiga beroenden för ljudbibliotek.
  • Objective-C/Swift: Stöd har lagts till för modulramverk med paraplyrubrik. På så sätt kan utvecklaren importera Speech SDK som en modul i iOS/Mac Objective-C/Swift-appar. Detta åtgärdar GitHub-problem #452.
  • Python: Stöd för Python 3.9 har lagts till och stöd för Python 3.5 har tagits bort på grund av att version 3.5 nått slutet på sin livscykel.

Kända problem

  • C++/C#/Java: DialogServiceConnector kan inte använda en CustomCommandsConfig för att komma åt ett program för anpassade kommandon och kommer i stället att stöta på ett anslutningsfel. Du kan kringgå detta genom att manuellt lägga till ditt program-ID i begäran med config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Det förväntade beteendet hos CustomCommandsConfig kommer att återställas i nästa version.

Förbättringar

  • Som en del av vårt arbete med flera versioner för att minska Speech SDK:s minnesanvändning och diskfotavtryck är Android-binärfiler nu 3 till 5 % mindre.
  • Förbättrad noggrannhet, läsbarhet och se-även-avsnitt i vår C#-referensdokumentation här.

Felkorrigeringar

  • JavaScript: Stora WAV-filhuvuden parsas nu korrekt (ökar rubriksegmentet till 512 byte). Detta åtgärdar GitHub-problem #962.
  • JavaScript: Korrigerat problem med mikrofontidsinställning om mikrofonströmmen slutar att fungera innan igenkänningen stoppas, vilket åtgärdar ett problem med att taligenkänning inte fungerar i Firefox.
  • JavaScript: Vi hanterar nu initieringslöftet korrekt när webbläsaren tvingar mikrofonen av innan turnOn slutförs.
  • JavaScript: Vi ersatte URL-beroendet med url-parse. Detta åtgärdar GitHub-problem #264.
  • Android: Fasta återanrop fungerar inte när minifyEnabled är inställt på sant.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY är korrekt inställt på underliggande socket-I/O för TTS för att minska svarstiden.
  • C++/C#/Java/Python/Objective-C/Go: Åtgärdade en tillfällig krasch när identifieraren förstördes strax efter att en igenkänning påbörjats.
  • C++/C#/Java: En tillfällig krasch relaterad till förstöringen av talarigenkännaren har blivit åtgärdad.

Exempel

  • JavaScript: Webbläsarexempel kräver inte längre separat nedladdning av JavaScript-biblioteksfil.

Speech SDK 1.15.0: 2021-januariutgåva

Anteckning

Speech SDK för Windows är beroende av Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019.

Sammanfattning av höjdpunkter

  • Mindre minne och diskfotavtryck gör SDK:et mer effektivt.
  • Utdataformat med högre återgivning är tillgängliga för privat förhandsversion av anpassad neural röst.
  • Avsiktsigenkänning kan nu få mer avkastning än den främsta avsikten, vilket ger dig möjlighet att göra en separat utvärdering av kundens avsikt.
  • Röstassistenter och robotar är nu enklare att konfigurera, och du kan få det att sluta lyssna direkt och utöva större kontroll över hur det svarar på fel.
  • Förbättrad enhetsprestanda genom att göra komprimering valfritt.
  • Använd Speech SDK på Windows ARM/Arm64.
  • Förbättrad felsökning på låg nivå.
  • Uttalsbedömningsfunktionen är nu mer allmänt tillgänglig.
  • Flera buggkorrigeringar för att åtgärda problem som du, våra värdefulla kunder, har flaggat på GitHub! TACK! Fortsätt att ge feedback!

Förbättringar

  • Speech SDK är nu effektivare och enklare. Vi har påbörjat ett arbete med flera versioner för att minska Speech SDK:s minnesanvändning och diskavtryck. Som ett första steg gjorde vi betydande filstorleksminskningar i delade bibliotek på de flesta plattformar. Jämfört med 1.14-versionen:
    • 64-bitars UWP-kompatibla Windows-bibliotek är cirka 30 % mindre.
    • 32-bitars Windows-bibliotek ser ännu ingen storleksförbättring.
    • Linux-bibliotek är 20–25 % mindre.
    • Android-bibliotek är 3–5 % mindre.

Nya funktioner

  • Alla: Nya ljudformat på 48 KHz som är tillgängliga för den privata förhandstitt av anpassad neuroröst genom TTS talsyntes-API:t: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • Alla: Anpassad röst är också enklare att använda. Stöd har lagts till för att ställa in anpassad röst via EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Innan den här ändringen behövde anpassade röstanvändare ange slutpunkts-URL:en via FromEndpoint -metoden. Nu kan kunderna använda FromSubscription metoden precis som standardröster och sedan ange distributions-ID:t genom att ange EndpointId. Detta förenklar konfigurationen av anpassade röster.
  • C++/C#/Java/Objective-C/Python: Hämta mer än den främsta avsikten frånIntentRecognizer. Nu har den stöd för att konfigurera JSON-resultatet som innehåller alla avsikter och inte bara avsikten med högsta poäng via LanguageUnderstandingModel FromEndpoint metoden med hjälp av URI-parametern verbose=true . Detta åtgärdar GitHub-problem #880. Se uppdaterad dokumentation här.
  • C++/C#/Java: Gör så att röstassistenten eller roboten slutar lyssna direkt. DialogServiceConnector (C++, C#, Java) har nu en StopListeningAsync() metod att följa med ListenOnceAsync(). Detta stoppar omedelbart ljudinspelningen och väntar graciöst på ett resultat, vilket gör det perfekt för användning med knapptryckningsscenarier "stoppa nu".
  • C++/C#/Java/JavaScript: Få röstassistenten eller roboten att reagera bättre på underliggande systemfel. DialogServiceConnector (C++, C#, Java, JavaScript) har nu en ny TurnStatusReceived händelsehanterare. Dessa valfria händelser motsvarar varje ITurnContext resolution på roboten och rapporterar körningsfel när de inträffar, till exempel på grund av ett ohanterat undantag, en timeout eller ett nätverksavbrott mellan Direct Line Speech och roboten. TurnStatusReceived gör det enklare att svara på feltillstånd. Om en robot till exempel tar för lång tid på en backend-databasfråga (till exempel när du letar upp en produkt), TurnStatusReceived kan klienten veta att den bör be om ett svar igen med "förlåt, jag förstod inte riktigt det, kan du försöka igen" eller något liknande.
  • C++/C#: Använd Speech SDK på fler plattformar. NuGet-paketet för Speech SDK stöder nu interna binärfiler för Windows ARM/Arm64-skrivbord (UWP stöds redan) för att göra Speech SDK mer användbart för fler datortyper.
  • Java: DialogServiceConnector har nu en setSpeechActivityTemplate() metod som oavsiktligt exkluderades från språket tidigare. Detta motsvarar att ange Conversation_Speech_Activity_Template egenskapen och begär att alla framtida Bot Framework-aktiviteter som kommer från Direct Line Speech-tjänsten sammanfogar det angivna innehållet i deras JSON-nyttolaster.
  • Java: Förbättrad felsökning på låg nivå. Klassen Connection har nu en MessageReceived händelse som liknar andra programmeringsspråk (C++, C#). Den här händelsen ger åtkomst på låg nivå till inkommande data från tjänsten och kan vara användbar för diagnostik och felsökning.
  • JavaScript: Enklare installation för röstassistenter och robotar via BotFrameworkConfig, som nu har fromHost() och fromEndpoint() fabriksmetoder som förenklar användningen av anpassade tjänstplatser jämfört med att ange egenskaper manuellt. Vi har också standardiserat valfri specifikation för botId för att använda en icke-standardbot över konfigurationsfabrikerna.
  • JavaScript: Förbättrad enhetsprestanda genom att lägga till strängkontrollegenskap för websocket-komprimering. Av prestandaskäl inaktiverade vi websocket-komprimering som standard. Detta kan återanvändas för scenarier med låg bandbredd. Mer information finns här. Detta åtgärdar GitHub-problem #242.
  • JavaScript: Stöd för lPronunciation Assessment har lagts till för att möjliggöra utvärdering av tal uttal. Se snabbstarten här.

Felkorrigeringar

  • Alla (utom JavaScript): Korrigerade en regression i version 1.14, där för mycket minne allokerades av identifieraren.
  • C++: Ett problem med skräpinsamling har åtgärdats med DialogServiceConnector, vilket åtgärdar GitHub-problemet #794.
  • C#: Åtgärdat ett problem med trådavstängning som gjorde att objekt blockerades i ungefär en sekund när de kasserades.
  • C++/C#/Java: Ett undantag som tidigare hindrade en applikation från att ställa in token för talauktorisering eller aktivitetsmall mer än en gång på en DialogServiceConnector har åtgärdats.
  • C++/C#/Java: Åtgärdade en igenkänningskrasch orsakad av ett konkurrensproblem vid nedmontering.
  • JavaScript: DialogServiceConnector respekterade tidigare inte den valfria parametern botId som definierades i BotFrameworkConfig-fabrikerna. Detta gjorde det nödvändigt att ange botId frågesträngsparametern manuellt för att använda en robot som inte är standard. Buggen har korrigerats och de botId-värden som tillhandahålls till BotFrameworkConfig:s fabriker kommer att beaktas och användas, vilket inkluderar de nya fromHost() och fromEndpoint()-tilläggen. Detta gäller även för parametern applicationId för CustomCommandsConfig.
  • JavaScript: GitHub-problem #881 har åtgärdats, vilket tillåter återanvändning av identifierarobjekt.
  • JavaScript: Ett problem där SDK skickades speech.config flera gånger i en TTS-session har åtgärdats, vilket ledde till slöseri med bandbredd.
  • JavaScript: Förenklad felhantering vid mikrofonauktorisering, vilket gör att mer beskrivande meddelande kan bubbla upp när användaren inte har tillåtit mikrofoninmatning i webbläsaren.
  • JavaScript: GitHub-problem #249 har åtgärdats där typfel i ConversationTranslator och ConversationTranscriber orsakade ett kompileringsfel för TypeScript-användare.
  • Objective-C: Åtgärdade ett problem där GStreamer-versionen misslyckades för iOS på Xcode 11.4 och åtgärdade GitHub-problem #911.
  • Python: GitHub-problemet #870 har åtgärdats, vilket tar bort "DeprecationWarning: the imp module is deprecated in favor of importlib".

Exempel

Speech SDK 1.14.0: utgåva oktober 2020

Anteckning

Speech SDK för Windows är beroende av Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019.

Nya funktioner

  • Linux: Stöd har lagts till för Debian 10 och Ubuntu 20.04 LTS.
  • Python/Objective-C: Stöd har lagts till för API:et KeywordRecognizer . Dokumentationen kommer att finnas här.
  • C++/Java/C#: Stöd har lagts till för att ange valfri HttpHeader nyckel/värde via ServicePropertyChannel::HttpHeader.
  • JavaScript: Lagt till stöd för ConversationTranscriber-API:et. Läs dokumentationen här.
  • C++/C#: Ny metod har lagts till AudioDataStream FromWavFileInput (för att läsa . WAV-filer) här (C++) och här (C#).
  • C++/C#/Java/Python/Objective-C/Swift: Lade till en stopSpeakingAsync() metod för att stoppa text till talsyntes. Läs referensdokumentationen här (C++), här (C#), här (Java), här (Python)och här (Objective-C/Swift).
  • C#, C++, Java: En funktion har lagts FromDialogServiceConnector() till i Connection klassen som kan användas för att övervaka anslutnings- och frånkopplingshändelser för DialogServiceConnector. Läs referensdokumentationen här (C#), här (C++), och här (Java).
  • C++/C#/Java/Python/Objective-C/Swift: Stöd för uttalsbedömning har lagts till, vilket utvärderar tal uttal och ger talare feedback om noggrannhet och flyt i talat ljud. Läs dokumentationen här.

Icke-kompatibel ändring

  • JavaScript: PullAudioOutputStream.read() har en returtypsändring från ett internt promise till ett Native JavaScript Promise.

Felkorrigeringar

  • Alla: Fast 1,13-regression där SetServiceProperty värden med vissa specialtecken ignorerades.
  • C#: Åtgärdade ett problem där Windows-konsolexempel i Visual Studio 2019 inte kunde hitta inbyggda DLL:er.
  • C#: En krasch med minneshantering har åtgärdats om dataström används som KeywordRecognizer indata.
  • ObjectiveC/Swift: En krasch med minneshantering har åtgärdats om dataström används som indata för identifierare.
  • Windows: Problem med samexistens med BT HFP/A2DP på UWP har åtgärdats.
  • JavaScript: Fast mappning av sessions-ID:er för att förbättra loggning och hjälp vid interna felsöknings-/tjänstkorrelationer.
  • JavaScript: Korrigering har lagts till för DialogServiceConnector att inaktivera ListenOnce anrop efter att det första anropet har gjorts.
  • JavaScript: Ett problem har åtgärdats där resultatet alltid bara var "enkel".
  • JavaScript: Problem med kontinuerlig igenkänning har åtgärdats i Safari på macOS.
  • JavaScript: Processorbelastningsreducering för scenario med dataflöde med höga begäranden.
  • JavaScript: Tillåt åtkomst till information om röstprofilregistreringsresultat.
  • JavaScript: Korrigering har lagts till för kontinuerlig igenkänning i IntentRecognizer.
  • C++/C#/Java/Python/Swift/ObjectiveC: Korrigerade felaktig URL för australiaeast och brazilsouth i IntentRecognizer.
  • C++/C#: Har lagts till VoiceProfileType som ett argument när ett VoiceProfile objekt skapas.
  • C++/C#/Java/Python/Swift/ObjectiveC: Fast potential SPX_INVALID_ARG vid försök att läsa AudioDataStream från en viss position.
  • IOS: En krasch med taligenkänning på Unity har åtgärdats

Exempel

Känt problem

  • DigiCert Global Root G2-certifikat stöds inte som standard i HoloLens 2 och Android 4.4 (KitKat) och måste läggas till i systemet för att Speech SDK ska fungera. Certifikatet läggs till i HoloLens 2 OS-avbildningar inom en snar framtid. Android 4.4-kunder måste lägga till det uppdaterade certifikatet i systemet.

COVID-19-förkortad testning

På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. I det osannolika fallet att vi missade något kan du meddela oss på GitHub.
Håll dig frisk!

Speech SDK 1.13.0: juli 2020-utgåva

Anteckning

Speech SDK för Windows är beroende av Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019.

Nya funktioner

  • C#: Stöd för asynkron konversationstranskription har lagts till. Se dokumentationen här.
  • JavaScript: Stöd för talarigenkänning har lagts till för både webbläsare och Node.js.
  • JavaScript: Stöd för språkidentifiering/språk-ID har lagts till. Se dokumentationen här.
  • Objective-C: Stöd har lagts till för konversation och konversationstranskription med flera enheter.
  • Python: Stöd för komprimerat ljud har lagts till för Python i Windows och Linux. Se dokumentationen här.

Felkorrigeringar

  • Alla: Åtgärdat ett problem som gjorde att KeywordRecognizer inte gick vidare med strömmarna efter en igenkänning.
  • Alla: Ett problem som gjorde att dataströmmen från keywordRecognitionResult inte innehöll nyckelordet har åtgärdats.
  • Alla: Åtgärdade ett problem där SendMessageAsync inte riktigt skickar meddelandet över nätverket efter att användarna har avslutat att vänta på det.
  • Alla: En krasch i API:er för talarigenkänning har åtgärdats när användare anropar Metoden VoiceProfileClient::SpeakerRecEnrollProfileAsync flera gånger och väntade inte på att anropen skulle slutföras.
  • Alla: Åtgärdade att aktivera filloggning i klasserna VoiceProfileClient och SpeakerRecognizer.
  • JavaScript: Ett problem med begränsningen har åtgärdats när webbläsaren minimeras.
  • JavaScript: Åtgärdade ett problem med en minnesläcka på strömmar.
  • JavaScript: Cachelagring har lagts till för OCSP-svar från NodeJS.
  • Java: Ett problem som gjorde att BigInteger-fält alltid returnerades 0 har åtgärdats.
  • iOS: Ett problem med att publicera Speech SDK-baserade appar i iOS App Store har åtgärdats.

Exempel

COVID-19-förkortad testning

På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. I det osannolika fallet att vi missade något kan du meddela oss på GitHub.
Håll dig frisk!

Speech SDK 1.12.1: 2020-juniutgåva

Nya funktioner

  • C#, C++: Förhandsversion av talarigenkänning: Den här funktionen möjliggör talaridentifiering (vem talar?) och talarverifiering (är talaren den som de påstår sig vara?). Se översiktsdokumentationen.

Felkorrigeringar

  • C#, C++: Fast mikrofoninspelning fungerade inte i 1.12 i talarigenkänning.
  • JavaScript: Korrigeringar för text till tal i Firefox och Safari på macOS och iOS.
  • Korrigering för krasch på grund av åtkomstöverträdelse i Windows-programverifieraren vid transkribering av konversationer när en åttakanalsström används.
  • Korrigering för krasch som orsakas av att Windows-programverifieraren försummar åtkomst vid översättning av konversationer med flera enheter.

Exempel

COVID-19-förkortad testning

På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. I det osannolika fallet att vi missade något kan du meddela oss på GitHub.
Håll dig frisk!

Speech SDK 1.12.0: 2020-Maj-utgåva

Nya funktioner

  • Go: Nytt Go-språkstöd för taligenkänning och anpassad röstassistent. Konfigurera utvecklingsmiljön här. Exempelkod finns i avsnittet Exempel nedan.
  • JavaScript: Stöd för text till tal har lagts till i webbläsaren. Se dokumentationen här.
  • C++, C#, Java: Nya KeywordRecognizer objekt och API:er som stöds på Windows-, Android-, Linux- och iOS-plattformar. Läs dokumentationen här. Exempelkod finns i avsnittet Exempel nedan.
  • Java: Konversation med flera enheter har lagts till med översättningsstöd. Se referensdokumentet här.

Förbättringar och optimeringar

  • JavaScript: Optimerad implementering av webbläsarens mikrofon förbättrar taligenkänningens noggrannhet.
  • Java: Omstrukturerade bindningar med direkt JNI-implementering utan SWIG. Den här ändringen minskar med 10 x bindningsstorleken för alla Java-paket som används för Windows, Android, Linux och Mac och underlättar ytterligare utveckling av Speech SDK Java-implementeringen.
  • Linux: Uppdaterad supportdokumentation med de senaste RHEL 7-specifika anteckningarna.
  • Förbättrad anslutningslogik för att försöka ansluta flera gånger när tjänst- och nätverksfel inträffar.
  • Uppdaterade snabbstartssidan för portal.azure.com Speech för att hjälpa utvecklare att ta nästa steg i Azure AI Speech-resan.

Felkorrigeringar

  • C#, Java: Åtgärdat ett problem med att läsa in SDK-bibliotek i Linux ARM (både 32-bitars och 64-bitars).
  • C#: Fixade explicit frånkoppling av inbyggda hanterare för TranslationRecognizer, IntentRecognizer och Anslutningsobjekt.
  • C#: Livslängdshantering för fast ljudinmatning för ConversationTranscriber-objekt.
  • Ett problem där IntentRecognizer resultatorsaken inte angavs korrekt vid identifiering av avsikter från enkla fraser har åtgärdats.
  • Ett problem har åtgärdats där SpeechRecognitionEventArgs resultatförskjutningen inte angavs korrekt.
  • Ett tävlingstillstånd har åtgärdats där SDK försökte skicka ett nätverksmeddelande innan websocket-anslutningen öppnades. Var reproducerbar för TranslationRecognizer när deltagarna lades till.
  • Åtgärdade minnesläckor i nyckelordsigenkänningsmotorn.

Exempel

COVID-19-förkortad testning

På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. Om vi har missat något kan du meddela oss på GitHub.
Håll dig frisk!

Speech SDK 1.11.0: 2020-marsutgåva

Nya funktioner

  • Linux: Stöd har lagts till för Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
  • Linux: Stöd har lagts till för .NET Core C# på Linux ARM32 och Arm64. Läs mer här.
  • C#, C++: Har lagts till UtteranceId i ConversationTranscriptionResult, ett konsekvent ID för alla mellanliggande och slutligt taligenkänningsresultat. Information om C#, C++.
  • Python: Stöd har lagts till för Language ID. Se speech_sample.py i GitHub-lagringsplatsen.
  • Windows: Stöd för komprimerat ljudinmatningsformat har lagts till på Windows-plattformen för alla win32-konsolprogram. Information här.
  • JavaScript: Stöd för talsyntes (text till tal) i NodeJS. Läs mer här.
  • JavaScript: Lägg till nya API:er för att aktivera kontroll av alla skicka och mottagna meddelanden. Läs mer här.

Felkorrigeringar

  • C#, C++: Ett problem har åtgärdats, så SendMessageAsync nu skickas binärt meddelande som binär typ. Information om C#, C++.
  • C#, C++: Ett problem har åtgärdats där användning av Connection MessageReceived-händelsen kan orsaka krasch om Recognizer tas bort före objekt Connection. Information om C#, C++.
  • Android: Ljudbuffertstorleken från mikrofonen minskade från 800 ms till 100 ms för att förbättra svarstiden.
  • Android: Ett problem med x86 Android-emulatorn i Android Studio har åtgärdats.
  • JavaScript: Stöd har lagts till för regioner i Kina med API:et fromSubscription . Information här.
  • JavaScript: Lägg till mer felinformation för anslutningsfel från NodeJS.

Exempel

  • Unity: Det offentliga exemplet för avsiktsigenkänning har åtgärdats, där LUIS json-importen misslyckades. Information här.
  • Python: Exempel har lagts till för Language ID. Information här.

Covid19-förkortad testning: På grund av fjärrarbete under de senaste veckorna kunde vi inte utföra så mycket manuell enhetsverifieringstestning som normalt. Vi kunde till exempel inte testa mikrofonindata och högtalarutdata i Linux, iOS och macOS. Vi har inte gjort några ändringar som vi tror kan ha brutit något på dessa plattformar, och våra automatiserade tester har alla godkänts. I det osannolika fallet att vi missade något meddelar du oss på GitHub.
Tack för ditt fortsatta stöd. Som alltid kan du skicka frågor eller feedback på GitHub eller Stack Overflow.
Håll dig frisk!

Speech SDK 1.10.0: 2020-februari release

Nya funktioner

  • Python-paket har lagts till för att stödja den nya 3.8-versionen av Python.
  • Stöd för Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

    Anteckning

    Kunder måste konfigurera OpenSSL enligt dessa instruktioner.

  • Linux ARM32-stöd för Debian och Ubuntu.
  • DialogServiceConnector stöder nu en valfri "bot ID"-parameter på BotFrameworkConfig. Den här parametern tillåter användning av flera Direct Line Speech-robotar med en enda Speech-resurs. Utan den angivna parametern används standardroboten (enligt konfigurationssidan för Direct Line Speech-kanalen).
  • DialogServiceConnector har nu en SpeechActivityTemplate-egenskap. Innehållet i den här JSON-strängen används av Direct Line Speech för att fylla i en mängd olika fält som stöds i alla aktiviteter som når en Direct Line Speech-robot, inklusive aktiviteter som genereras automatiskt som svar på händelser som taligenkänning.
  • TTS använder nu prenumerationsnyckel för autentisering, vilket minskar den första bytefördröjningen för det första syntesresultatet när du har skapat en synthesizer.
  • Uppdaterade taligenkänningsmodeller för 19 språk för en genomsnittlig minskning av ordfelfrekvensen med 18,6 % (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). De nya modellerna medför betydande förbättringar i flera domäner, inklusive diktering, callcenter-transkription och videoindexeringsscenarier.

Felkorrigeringar

  • En bugg har åtgärdats där konversationstranskriberaren inte väntade korrekt i JAVA-API:er.
  • Lägg till saknade (Get|Set)Egenskapsmetoder till AudioConfig.
  • Åtgärda en TTS-bugg där audioDataStream inte kunde stoppas när anslutningen misslyckas.
  • Att använda en slutpunkt utan en region skulle orsaka USP-fel för konversationsöversättaren.
  • ID-genereringen i de universella Windows-programmen använder nu en lämpligt unik GUID-algoritm. Tidigare hade den oavsiktligt standardiserats till en förenklad implementering som ofta orsakade kollisioner över stora uppsättningar av interaktioner.

Exempel

Andra ändringar

Speech SDK 1.9.0: 2020-januariutgåvan

Nya funktioner

  • Konversation med flera enheter: Anslut flera enheter till samma tal- eller textbaserade konversation och om du vill översätta meddelanden som skickas mellan dem. Läs mer i den här artikeln.
  • Stöd för nyckelordsigenkänning har lagts till för Android-paket .aar och stöd för x86- och x64-smaker har lagts till.
  • Objective-C: SendMessage och SetMessageProperty metoder har lagts till Connection objektet. Se dokumentationen här.
  • TTS C++ api stöder std::wstring nu som syntestextindata, vilket tar bort behovet av att konvertera en wstring till sträng innan den skickas till SDK:n. Mer information finns här
  • C#: Språk-ID och källspråkkonfiguration är nu tillgängliga.
  • JavaScript: Lade till en funktion till Connection-objektet för att vidarebefordra anpassade meddelanden från Speech-tjänsten som en återanrop receivedServiceMessage.
  • JavaScript: Stöd har lagts till för FromHost API att underlätta användningen med lokala containrar och nationella moln. Se dokumentationen här.
  • JavaScript: Vi hedrar NODE_TLS_REJECT_UNAUTHORIZED nu tack vare ett bidrag från orgads. Mer information finns här

Kritiska ändringar

  • OpenSSL har uppdaterats till version 1.1.1b och är statiskt länkad till Speech SDK-kärnbiblioteket för Linux. Detta kan orsaka avbrott om inkorgen OpenSSL inte har installerats i /usr/lib/ssl katalogen i systemet. Läs vår dokumentation under Speech SDK-dokument för att lösa problemet.
  • Vi har ändrat datatypen som returneras för C# WordLevelTimingResult.Offset från int till long för att tillåta åtkomst till WordLevelTimingResults när taldata är längre än 2 minuter.
  • PushAudioInputStream och PullAudioInputStream skickar nu wav-rubrikinformation till Speech-tjänsten baserat på AudioStreamFormat, som valfritt kan anges när de skapades. Kunder måste nu använda det ljudinmatningsformat som stöds. Alla andra format kommer att ge suboptimala igenkänningsresultat eller kan orsaka andra problem.

Felkorrigeringar

  • Se OpenSSL uppdateringen under Kritiska ändringar ovan. Vi har åtgärdat både en tillfällig krasch och ett prestandaproblem (låskonflikt under hög belastning) i Linux och Java.
  • Java: Förbättrade objektstängning i scenarier med hög samtidighet.
  • Omstrukturerade vårt NuGet-paket. Vi har tagit bort de tre kopiorna av Microsoft.CognitiveServices.Speech.core.dll och Microsoft.CognitiveServices.Speech.extension.kws.dll under lib-mappar, vilket gör NuGet-paketet mindre och snabbare att ladda ned, och vi har lagt till rubriker som behövs för att kompilera vissa C++-interna appar.
  • Snabbstartsexemplen är fixade här. Dessa avslutades utan att visa undantaget "mikrofon hittades inte" i Linux, macOS, Windows.
  • Vi har åtgärdat en SDK-krasch med långa taligenkänningsresultat på vissa kodsökvägar, som det här exemplet.
  • SDK-distributionsfel har åtgärdats i Azure Web App-miljön för att åtgärda det här kundproblemet.
  • Ett TTS-fel har åtgärdats vid användning av flera <voice> taggar eller <audio> taggar för att åtgärda det här kundproblemet.
  • Ett TTS 401-fel har åtgärdats när SDK:t återställs från paus.
  • JavaScript: En cirkulär import av ljuddata har åtgärdats tack vare ett bidrag från euirim.
  • JavaScript: stöd har lagts till för att ange tjänstegenskaper, som lagts till i 1.7.
  • JavaScript: Åtgärdade ett problem där ett anslutningsfel kan leda till kontinuerliga, misslyckade websocket-återanslutningsförsök.

Exempel

  • Exempel på nyckelordsigenkänning har lagts till för Android här.
  • TTS-exempel har lagts till för serverscenariot här.
  • Snabbstarter för konversationer med flera enheter har lagts till för C# och C++ här.

Andra ändringar

  • Optimerad SDK-kärnbiblioteksstorlek på Android.
  • SDK i 1.9.0 och senare stöder både int och string typer i fältet version av röstsignatur för Conversation Transcriber.

Speech SDK 1.8.0: 2019–november

Nya funktioner

  • Lade till ett FromHost() API för att underlätta användningen med lokala containrar och nationella moln.
  • Källspråksidentifiering har lagts till för taligenkänning (i Java och C++)
  • Objekt har lagts SourceLanguageConfig till för taligenkänning som används för att ange förväntade källspråk (i Java och C++)
  • Stöd har lagts till KeywordRecognizer för Windows (UWP), Android och iOS via NuGet- och Unity-paketen
  • Java-API:et för fjärrkonversation har lagts till för att göra konversationstranskription i asynkrona batchar.

Kritiska ändringar

  • Funktioner för konversationstranskriberare som flyttas under namnområdet Microsoft.CognitiveServices.Speech.Transcription.
  • Delar av metoderna för konversationstranskribering flyttas till en ny Conversation klass.
  • Stöd för 32-bitars (ARMv7 och x86) iOS har tagits bort

Felkorrigeringar

  • Korrigering för krasch om lokal KeywordRecognizer används utan en giltig prenumerationsnyckel för Speech-tjänsten

Exempel

  • Xamarin-exempel för KeywordRecognizer
  • Unity-exempel för KeywordRecognizer
  • C++ och Java-exempel för automatisk källspråkidentifiering.

Speech SDK 1.7.0: 2019–september utgåva

Nya funktioner

  • Betastöd har lagts till för Xamarin på Universell Windows-plattform (UWP), Android och iOS
  • IOS-stöd har lagts till för Unity
  • Indatastöd har lagts till Compressed för ALaw, Mulaw, FLAC på Android, iOS och Linux
  • Har lagts till SendMessageAsync i Connection klassen för att skicka ett meddelande till tjänsten
  • Har lagts till SetMessageProperty i Connection klassen för att ange egenskapen för ett meddelande
  • TTS har lagt till bindningar för Java (JRE och Android), Python, Swift och Objective-C
  • TTS har lagt till uppspelningsstöd för macOS, iOS och Android.
  • Information om "ordgräns" har lagts till för TTS.

Felkorrigeringar

  • Problem med IL2CPP-build på Unity 2019 för Android har åtgärdats
  • Åtgärdat problem med felaktiga rubriker i wav-filindata som bearbetas felaktigt
  • Problem med att UUID:erna inte är unika i vissa anslutningsegenskaper har åtgärdats
  • Några varningar om nullabilitetsspecificerare i Swift-bindningar har åtgärdats (kan kräva små kodändringar)
  • Åtgärdade en bugg som gjorde att websocket-anslutningar stängdes felaktigt under nätverksbelastning
  • Åtgärdat ett problem på Android som ibland resulterar i duplicerade visnings-ID:n som används av DialogServiceConnector
  • Förbättringar av anslutningens stabilitet i interaktioner med flera omgångar och rapportering av fel (via Canceled-händelser) när de inträffar i samband med DialogServiceConnector
  • DialogServiceConnector sessionstarter ger nu händelser korrekt, inklusive när du anropar ListenOnceAsync() under en pågående StartKeywordRecognitionAsync()
  • Åtgärdat en krasch som är associerad med DialogServiceConnector aktiviteter som mottas

Exempel

  • Snabbstart för Xamarin
  • Uppdaterad CPP-snabbstart med Linux Arm64-information
  • Uppdaterad Unity-snabbstart med iOS-information

Speech SDK 1.6.0: juni 2019 släpp

Exempel

  • Snabbstartsexempel för Text till tal på UWP och Unity
  • Snabbstartsexempel för Swift i iOS
  • Unity-exempel för tal- och avsiktsigenkänning och översättning
  • Uppdaterade snabbstartsexempel för DialogServiceConnector

Förbättringar/ändringar

  • Dialognamnområde:
    • SpeechBotConnector har bytt namn till DialogServiceConnector
    • BotConfig har bytt namn till DialogServiceConfig
    • BotConfig::FromChannelSecret() har mappats om till DialogServiceConfig::FromBotSecret()
    • Alla befintliga Direct Line Speech-klienter fortsätter att stödjas efter namnbytet
  • Uppdatera TTS REST-adaptern för att stödja proxy, beständig anslutning
  • Förbättra felmeddelandet när en ogiltig region skickas
  • Swift/Objective-C:
    • Förbättrad felrapportering: Metoder som kan resultera i ett fel finns nu i två versioner: En som exponerar ett NSError objekt för felhantering och en som skapar ett undantag. De förstnämnda är exponerade för Swift. Den här ändringen kräver anpassningar av befintlig Swift-kod.
    • Förbättrad händelsehantering

Felkorrigeringar

  • Korrigering för TTS: där SpeakTextAsync framtiden returnerades utan att vänta tills ljudet har slutfört renderingen
  • Åtgärd för att överföra strängar i C# för att möjliggöra fullständigt språkstöd
  • Korrigering för problem med .NET Core-appen för att ladda kärnbiblioteket med målramverket net461 i exempel.
  • Korrigering för tillfälliga problem med att distribuera ursprungliga bibliotek till utdatamappen i provexemplen
  • Åtgärd för att stänga webbssocket på ett tillförlitligt sätt.
  • Korrigering för eventuell krasch när du öppnar en anslutning under hög belastning på Linux
  • Korrigering för saknade metadata i ramverkspaketet för macOS
  • Åtgärda problem med pip install --user i Windows

Speech SDK 1.5.1

Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.

Felkorrigeringar

  • Åtgärda FromSubscription när det används med konversationstranskription.
  • Åtgärda bugg i nyckelordsigenkänning för röstassistenter.

Speech SDK 1.5.0: 2019-maj release

Nya funktioner

  • KWS (Keyword Spotting) är nu tillgängligt för Windows och Linux. KWS-funktioner kan fungera med alla mikrofontyper, men det officiella KWS-stödet är för närvarande begränsat till mikrofonmatriserna som finns i Azure Kinect DK-maskinvaran eller Speech Devices SDK.
  • Funktioner för frastips är tillgängliga via SDK. Mer information finns här.
  • Funktionen för transkription av konversationer är tillgänglig via SDK:et.
  • Lägg till stöd för röstassistenter med hjälp av Direct Line Speech-kanalen.

Exempel

  • Exempel har lagts till för nya funktioner eller nya tjänster som stöds av SDK.

Förbättringar/ändringar

  • Olika egenskaper för identifierare har lagts till för att justera tjänstens beteende eller tjänstresultat (till exempel maskering av svordomar och andra).
  • Nu kan du konfigurera identifieraren via standardkonfigurationsegenskaperna, även om du har skapat identifieraren FromEndpoint.
  • Objective-C: OutputFormat egenskapen lades till i SPXSpeechConfiguration.
  • SDK stöder nu Debian 9 som en Linux-distribution.

Felkorrigeringar

  • Ett problem där talarresursen förstördes för tidigt i text till tal har åtgärdats.

Speech SDK 1.4.2

Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.

Speech SDK 1.4.1

Det här är en version med endast JavaScript. Inga funktioner har lagts till. Följande korrigeringar har gjorts:

  • Förhindra att webbpaketet läser in https-proxy-agent.

Speech SDK 1.4.0: utgåva april 2019

Nya funktioner

  • SDK stöder nu text till tal-tjänsten som en betaversion. Det stöds i Windows och Linux Desktop från C++ och C#. För mer information, se Översikt över text-till-tal.
  • SDK stöder nu MP3- och Opus/OGG-ljudfiler som strömningsindatafiler. Den här funktionen är endast tillgänglig i Linux från C++ och C# och är för närvarande i betaversion (mer information här).
  • Speech SDK för Java, .NET Core, C++ och Objective-C har fått stöd för macOS. Objective-C-stödet för macOS är för närvarande i betaversion.
  • iOS: Speech SDK för iOS (Objective-C) publiceras nu också som en CocoaPod.
  • JavaScript: Stöd för mikrofon som inte är standard som indataenhet.
  • JavaScript: Proxystöd för Node.js.

Exempel

  • Exempel för att använda Speech SDK med C++ och Objective-C på macOS har lagts till.
  • Exempel som visar användningen av text-till-tal-tjänsten har lagts till.

Förbättringar/ändringar

  • Python: Ytterligare egenskaper för igenkänningsresultat exponeras nu via egenskapen properties .
  • Om du vill ha ytterligare stöd för utveckling och felsökning kan du omdirigera SDK-loggning och diagnostikinformation till en loggfil (mer information här).
  • JavaScript: Förbättra prestanda för ljudbearbetning.

Felkorrigeringar

  • Mac/iOS: En bugg som ledde till lång väntan när en anslutning till Speech-tjänsten inte kunde upprättas har åtgärdats.
  • Python: Förbättra felhanteringen för argument i Python-återanrop.
  • JavaScript: Åtgärdade felaktig tillståndsrapportering för avslutat tal i RequestSession.

Speech SDK 1.3.1: uppdatering 2019–februari

Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.

Felkorrigering

  • En minnesläcka har åtgärdats vid användning av mikrofonindata. Indata från datastreamar eller filer påverkas inte.

Speech SDK 1.3.0: Februari 2019-talet

Nya funktioner

  • Speech SDK stöder val av indatamikrofon via AudioConfig klassen. På så sätt kan du strömma ljuddata till Speech-tjänsten från en mikrofon som inte är standard. Mer information finns i dokumentationen som beskriver valet av ljudinmatningsenhet. Den här funktionen är ännu inte tillgänglig från JavaScript.
  • Speech SDK stöder nu Unity i en betaversion. Ge feedback via avsnittet med problem i GitHub-exempellagringsplatsen. Den här versionen stöder Unity i Windows x86 och x64 (skrivbords- eller Universell Windows-plattform-program) och Android (ARM32/64, x86). Mer information finns i vår Unity-snabbstart.
  • Filen Microsoft.CognitiveServices.Speech.csharp.bindings.dll (som levererades i tidigare versioner) behövs inte längre. Funktionerna är nu integrerade i SDK:et.

Exempel

Följande nya innehåll är tillgängligt i vår exempellagringsplats:

  • Ytterligare exempel för AudioConfig.FromMicrophoneInput.
  • Ytterligare Python-exempel för avsiktsigenkänning och översättning.
  • Ytterligare exempel för att använda objektet Connection i iOS.
  • Ytterligare Java-exempel för översättning med ljudutdata.
  • Nytt exempel för användning av REST-API:et för Batch-transkription.

Förbättringar/ändringar

  • Python
    • Förbättrad parameterverifiering och felmeddelanden i SpeechConfig.
    • Lägg till stöd för objektet Connection .
    • Stöd för 32-bitars Python (x86) i Windows.
    • Speech SDK för Python har lämnat beta.
  • Ios
    • SDK:n har nu skapats mot iOS SDK version 12.1.
    • SDK stöder nu iOS-versionerna 9.2 och senare.
    • Förbättra referensdokumentationen och åtgärda flera egenskapsnamn.
  • JavaScript
    • Lägg till stöd för objektet Connection .
    • Lägg till typdefinitionsfiler för paketerade JavaScript
    • Inledande stöd och implementering för frastips.
    • Returnera samling av egenskaper med tjänstens JSON för igenkänning
  • Windows DLL:er innehåller nu en versionsresurs.
  • Om du skapar en identifierare FromEndpointkan du lägga till parametrar direkt till slutpunkts-URL:en. Med hjälp av FromEndpoint kan du inte konfigurera identifieraren via standardkonfigurationsegenskaperna.

Felkorrigeringar

  • Tomt proxyanvändarnamn och proxylösenord hanterades inte korrekt. Med den här versionen, om du anger proxyanvändarnamn och proxylösenord till en tom sträng, skickas de inte när du ansluter till proxyn.
  • SessionId som skapats av SDK:t var inte alltid slumpmässigt för vissa språk/miljöer. Slumpmässig generatorinitiering har lagts till för att åtgärda problemet.
  • Förbättra hanteringen av auktoriseringstoken. Om du vill använda en auktoriseringstoken anger du i SpeechConfig och lämnar API-nyckeln tom. Skapa sedan identifieraren som vanligt.
  • I vissa fall släpptes inte Connection objektet korrekt. Det här problemet har åtgärdats.
  • JavaScript-exemplet har åtgärdats för att stödja ljudutdata för översättningssyntes även i Safari.

Speech SDK 1.2.1

Det här är en version med endast JavaScript. Inga funktioner har lagts till. Följande korrigeringar har gjorts:

  • Avsluta strömmen vid turn.end, inte vid speech.end.
  • Åtgärdade bugg i ljudpumpen som inte schemalade nästa sändning när den aktuella överföringen misslyckades.
  • Åtgärda kontinuerlig igenkänning med autentiseringstokenen.
  • Felkorrigering för olika identifierare/slutpunkter.
  • Dokumentationsförbättringar.

Speech SDK 1.2.0, 2018–december

Nya funktioner

  • Python
    • Betaversionen av Python-stöd (3.5 och senare) är tillgänglig med den här versionen. Mer information finns här](.. /.. /quickstart-python.md).
  • JavaScript
    • Speech SDK för JavaScript har öppen källkod. Källkoden är tillgänglig på GitHub.
    • Vi stöder nu Node.js, mer information finns här.
    • Längdbegränsningen för ljudsessioner har tagits bort, återanslutning sker automatiskt under omslaget.
  • Connection objekt
    • RecognizerFrån kan du komma åt ett Connection objekt. Med det här objektet kan du uttryckligen initiera tjänstanslutningen och prenumerera på anslutnings- och frånkopplingshändelser. (Den här funktionen är ännu inte tillgänglig från JavaScript och Python.)
  • Stöd för Ubuntu 18.04.
  • Android
    • ProGuard-stöd har aktiverats under APK-genereringen.

Förbättringar

  • Förbättringar i den interna trådanvändningen, minskning av antalet trådar, lås och mutexar.
  • Förbättrad felrapportering/information. I flera fall har felmeddelanden inte spridits hela vägen ut.
  • Uppdaterade utvecklingsberoenden i JavaScript för att använda aktuella moduler.

Felkorrigeringar

  • Minnesläckor åtgärdades på grund av felaktig typmatchning i RecognizeAsync.
  • I vissa fall läckte undantag ut.
  • Åtgärda minnesläcka i översättningshändelseargument.
  • Ett låsningsproblem har åtgärdats vid återanslutning i långvariga sessioner.
  • Ett problem som kan leda till att slutresultatet för misslyckade översättningar saknas har åtgärdats.
  • C#: Om en async åtgärd inte väntades i huvudtråden var det möjligt att identifieraren kunde tas bort innan asynkroniseringsuppgiften slutfördes.
  • Java: Ett problem som resulterade i en krasch på den virtuella Java-datorn har åtgärdats.
  • Objective-C: Fast uppräkningsmappning; RecognizedIntent returnerades i stället för RecognizingIntent.
  • JavaScript: Ange standardutdataformatet till "enkelt" i SpeechConfig.
  • JavaScript: Ta bort inkonsekvens mellan egenskaper på konfigurationsobjektet i JavaScript och andra språk.

Exempel

  • Uppdaterade och fixade flera exempel, som exempelvis utdata för översättningsröster med mera.
  • Lade till Node.js exempel på exempellagringsplatsen.

Speech SDK 1.1.0

Nya funktioner

  • Stöd för Android x86/x64.
  • Proxysupport: I SpeechConfig objektet kan du nu anropa en funktion för att ange proxyinformationen (värdnamn, port, användarnamn och lösenord). Den här funktionen är ännu inte tillgänglig i iOS.
  • Förbättrad felkod och meddelanden. Om en igenkänning returnerade ett fel har detta redan angett Reason (i avbruten händelse) eller CancellationDetails (i igenkänningsresultatet) till Error. Den avbrutna händelsen innehåller nu ytterligare två medlemmar, ErrorCode och ErrorDetails. Om servern returnerade ytterligare felinformation med det rapporterade felet blir den nu tillgänglig i de nya medlemmarna.

Förbättringar

  • Ytterligare verifiering har lagts till i konfigurationen av identifieraren och ytterligare felmeddelande har lagts till.
  • Förbättrad hantering av långvarig tystnad mitt i en ljudfil.
  • NuGet-paket: För .NET Framework-projekt förhindrar det att du skapar med AnyCPU-konfiguration.

Felkorrigeringar

  • Flera undantag åtgärdades i igenkännare. Dessutom fångas undantag och konverteras till Canceled händelse.
  • Åtgärda en minnesläcka i egenskapshanteringen.
  • Ett fel har åtgärdats där en ljudindatafil kan krascha igenkänningen.
  • En bugg där händelser kunde tas emot efter en sessionsstopphändelse har åtgärdats.
  • Vissa tävlingsförhållanden i trådning har åtgärdats.
  • Ett iOS-kompatibilitetsproblem som kan leda till en krasch har åtgärdats.
  • Stabilitetsförbättringar för Stöd för Android-mikrofon.
  • En bugg där en identifierare i JavaScript skulle ignorera igenkänningsspråket har åtgärdats.
  • En bugg som förhindrade inställningen EndpointId (i vissa fall) i JavaScript har åtgärdats.
  • Ändrad parameterordning i AddIntent i JavaScript och lade till den saknade JavaScript-signaturen AddIntent.

Exempel

Speech SDK 1.0.1

Tillförlitlighetsförbättringar och felkorrigeringar:

  • Åtgärdat ett potentiellt allvarligt fel på grund av konkurrenstillstånd vid avvecklande av igenkännare.
  • Ett potentiellt allvarligt fel har åtgärdats när egenskaper är odefinierade.
  • Ytterligare fel- och parameterkontroll har lagts till.
  • Objective-C: Åtgärdade ett möjligt kritiskt fel orsakat av överskrivning av namn i NSString.
  • Objective-C: Justerad synlighet för API
  • JavaScript: Åtgärdat gällande händelser och deras nyttolaster.
  • Dokumentationsförbättringar.

I vår exempellagringsplats lades ett nytt exempel för JavaScript till.

Azure AI Speech SDK 1.0.0: 2018: September

Nya funktioner

Kritiska ändringar

Azure AI Speech SDK 0.6.0: 2018–augusti utgåva

Nya funktioner

  • UWP-appar som skapats med Speech SDK kan nu klara av Windows App Certification Kit (WACK). Titta på UWP quickstart.
  • Stöd för .NET Standard 2.0 på Linux (Ubuntu 16.04 x64).
  • Experimentell: Stöd för Java 8 i Windows (64-bitars) och Linux (Ubuntu 16.04 x64). Läs snabbstarten för Java Runtime Environment.

Funktionsändring

  • Visa ytterligare detaljerad information om anslutningsfel.

Kritiska ändringar

  • I Java (Android) SpeechFactory.configureNativePlatformBindingWithDefaultCertificate kräver funktionen inte längre en sökvägsparameter. Nu identifieras sökvägen automatiskt på alla plattformar som stöds.
  • Get-accessorn för egenskapen EndpointUrl i Java och C# är borttagen.

Felkorrigeringar

  • I Java implementeras ljudsyntesresultatet på översättningsigenkänningen nu.
  • En bugg som kan orsaka inaktiva trådar och ett ökat antal öppna och oanvända socketar har åtgärdats.
  • Ett problem har åtgärdats, där en långvarig igenkänning kunde avslutas mitt i överföringen.
  • Åtgärdade ett tävlingsvillkor vid nedstängning av igenkänningssystemet.

Azure AI Speech SDK 0.5.0: 2018–Juli release

Nya funktioner

  • Stöd för Android-plattform (API 23: Android 6.0 Marshmallow eller senare). Kolla in Android-snabbstarten.
  • Stöd för .NET Standard 2.0 i Windows. Kolla in snabbstartsguiden för .NET Core.
  • Experimentell: Stöd för UWP i Windows (version 1709 eller senare).
    • Titta på UWP quickstart.
    • Observera att UWP-appar som skapats med Speech SDK ännu inte klarar Windows App Certification Kit (WACK).
  • Stöd för långvarig igenkänning med automatisk återanslutning.

Funktionella ändringar

  • StartContinuousRecognitionAsync() stöder långvarig igenkänning.
  • Igenkänningsresultatet innehåller fler fält. De är förskjutna från början av ljudet och varaktigheten (båda i tick) för den identifierade texten, samt ytterligare värden som representerar igenkänningsstatus, till exempel InitialSilenceTimeout och InitialBabbleTimeout.
  • Stöd auktorisationstoken för att skapa fabriksinstanser.

Kritiska ändringar

  • Igenkänningshändelser: NoMatch händelsetypen sammanfogades till Error händelsen.
  • SpeechOutputFormat i C# har bytt namn till OutputFormat för att förbli i linje med C++.
  • Returtypen för vissa metoder i AudioInputStream gränssnittet ändrades något:
    • I Java returnerar metoden read nu long istället för int.
    • I C# returnerar metoden Read nu uint istället för int.
    • I C++ returnerar metoderna Read och GetFormat nu size_t istället för int.
  • C++: Exemplar av ljudindataströmmar kan nu endast överföras som en shared_ptr.

Felkorrigeringar

  • Korrigerade felaktiga returvärden i resultatet när tidsgränsen för RecognizeAsync() överskrids.
  • Beroendet av media foundation-bibliotek i Windows har tagits bort. SDK använder nu Core Audio API:er.
  • Dokumentationskorrigering: En regionssida har lagts till för att beskriva de regioner som stöds.

Känt problem

  • Speech SDK för Android rapporterar inte talsyntesresultat för översättning. Det här problemet åtgärdas i nästa version.

Azure AI Speech SDK 0.4.0: 2018–juni

Funktionella ändringar

  • AudioInputStream (på engelska)

    En identifierare kan nu använda en ström som ljudkälla. Mer information finns i den relaterade instruktioner-guiden.

  • Detaljerat utdataformat

    När du skapar ett SpeechRecognizerkan du begära Detailed eller Simple utdataformat. Innehåller DetailedSpeechRecognitionResult en konfidenspoäng, igenkänd text, rå lexikal form, normaliserade former och normaliserad form med maskad svordom.

Icke-kompatibel ändring

  • Har ändrats till SpeechRecognitionResult.Text från SpeechRecognitionResult.RecognizedText i C#.

Felkorrigeringar

  • Ett möjligt återanropsproblem har åtgärdats i USP-lagret under avstängningen.
  • Om en identifierare förbrukade en ljudindatafil höll den fast vid filhandtaget längre än nödvändigt.
  • Flera dödlägen mellan meddelandepumpen och identifieraren har tagits bort.
  • Utlös ett NoMatch resultat när det sker en timeout för svaret från tjänsten.
  • Media Foundation-biblioteken i Windows är fördröjda. Det här biblioteket krävs endast för mikrofoninmatning.
  • Uppladdningshastigheten för ljuddata är begränsad till ungefär dubbelt så mycket som den ursprungliga ljudhastigheten.
  • På Windows har C# .NET-sammansättningar nu starka namn.
  • Dokumentationskorrigering: Region är nödvändig information för att skapa en identifierare.

Fler exempel har lagts till och uppdateras ständigt. Den senaste uppsättningen exempel finns i GitHub-lagringsplatsen för Speech SDK-exempel.

Azure AI Speech SDK 0.2.12733: 2018–Maj utgåva

Den här versionen är den första offentliga förhandsversionen av Azure AI Speech SDK.