Wat is er nieuw in Azure AI Speech?

Artikel
04/22/2024

Azure AI Speech wordt doorlopend bijgewerkt. Om op de hoogte te blijven van recente ontwikkelingen, vindt u in dit artikel informatie over nieuwe releases en functies.

Recente hoogtepunten

De Azure AI Speech-service ondersteunt OpenAI-tekst naar spraakstemmen. Zie Wat zijn OpenAI-tekst voor spraakstemmen? voor meer informatie.
De aangepaste spraak-API is beschikbaar voor het maken en beheren van professionele en persoonlijke aangepaste neurale spraakmodellen.
Azure AI Speech ondersteunt nu het Whisper-model van OpenAI via de batchtranscriptie-API. Raadpleeg de handleiding Een batchtranscriptie maken voor meer informatie.

Opmerkingen bij de release

Een service of resource kiezen

Geplande plannen voor Linux- en Android-gebruikers:

Let op

In dit artikel wordt verwezen naar CentOS, een Linux-distributie die de status End Of Life (EOL) nadert. Overweeg uw gebruik en planning dienovereenkomstig. Zie de Richtlijnen voor het einde van de levensduur van CentOS voor meer informatie.

Ubuntu 18.04 raakt ook het einde van de levensduur in april 2023, dus onze gebruikers moeten ons voorbereiden op het verplaatsen van onze minimale versie tot Ubuntu 20.04.

Speech SDK 1.37.0: release van 2024-april

Nieuwe functies

Voeg ondersteuning toe voor invoertekststreaming in spraaksynthese.
Wijzig de standaard spraaksynthesestem in en-US-AvaMultiavelNeural.
Android-builds bijwerken voor gebruik van OpenSSL 3.x.

Bugfixes

Corrigeer incidentele JVM-crashes tijdens het verwijderen van SpeechRecognizer bij gebruik van MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Verbeter de detectie van standaardaudioapparaten in Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Voorbeelden

Bijgewerkt voor nieuwe functies.

Speech SDK 1.36.0: release van 2024-maart

Nieuwe functies

Voeg ondersteuning toe voor taalidentificatie in meertalige vertaling op v2-eindpunten met behulp van AutoDetectSourceLanguageConfig::FromOpenRange().

Bugfixes

Fix SynthesisCanceled-gebeurtenis niet geactiveerd als stop wordt aangeroepen tijdens de SynthesisStarted-gebeurtenis.
Los een ruisprobleem op ingesloten spraaksynthese.
Herstel een crash in ingesloten spraakherkenning bij het parallel uitvoeren van meerdere recognizers.
Herstel de instelling voor de woordgroepsdetectiemodus op v1/v2-eindpunten.
Oplossingen voor verschillende problemen met Microsoft Audio Stack.

Voorbeelden

Updates voor nieuwe functies.

Speech SDK 1.35.0: release van februari 2024

Nieuwe functies

Wijzig de standaardtekst in spraakstem van en-US-JennyMultiplicalNeural in en-US-AvaNeural.
Ondersteuning voor detail op woordniveau in ingesloten spraakomzettingsresultaten met behulp van de gedetailleerde uitvoerindeling.

Bugfixes

Herstel de getter-API voor audioDataStream-posities in Python.
Herstel spraakomzetting met v2-eindpunten zonder taaldetectie.
Corrigeer een willekeurige crash en dubbele woordgrensgebeurtenissen in ingesloten tekst naar spraak.
Retourneert een juiste annuleringsfoutcode voor een interne serverfout in WebSocket-verbindingen.
Los de fout op bij het laden van FPIEProcessor.dll bibliotheek wanneer MAS wordt gebruikt met C#.

Voorbeelden

Kleine opmaakupdates voor voorbeelden van ingesloten herkenning.

Speech SDK 1.34.1: release van januari 2024

Wijzigingen die fouten veroorzaken

Alleen oplossingen voor fouten

Nieuwe functies

Alleen oplossingen voor fouten

Bugfixes

Regressie opgelost die is geïntroduceerd in 1.34.0, waarbij de URL van het service-eindpunt is samengesteld met slechte landinstellingen voor gebruikers in verschillende Regio's in China.

Speech SDK 1.34.0: release van november 2023

Wijzigingen die fouten veroorzaken

SpeechRecognizer is standaard bijgewerkt om een nieuw eindpunt te gebruiken (bijvoorbeeld wanneer u niet expliciet een URL opgeeft) die geen queryreeksparameters meer ondersteunt voor de meeste eigenschappen. Gebruik de bijbehorende API-functies in plaats van queryreeksparameters rechtstreeks in te stellen met ServicePropertyChannel.UriQueryParameter.

Nieuwe functies

Compatibiliteit met .NET 8 (Oplossing voor https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 behalve waarschuwing over centos7-x64)
Ondersteuning voor metrische gegevens over ingesloten spraakprestaties die kunnen worden gebruikt om de mogelijkheid van een apparaat voor het uitvoeren van ingesloten spraak te evalueren.
Ondersteuning voor brontaalidentificatie in ingesloten meertalige vertaling.
Ondersteuning voor ingesloten spraak-naar-tekst, tekst naar spraak en vertaling voor iOS en Swift/Objective-C die in de preview-versie zijn uitgebracht.
Embedded-ondersteuning wordt geboden in MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Bugfixes

Oplossing voor groei van binaire grootte van iOS SDK x2 maal · Probleem #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Oplossing voor het niet ophalen van tijdstempels op woordniveau van Azure speech naar tekst-API · Probleem 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Oplossing voor dialogservice Verbinding maken of vernietigingsfase om gebeurtenissen correct te verbreken. Dit veroorzaakte af en toe crashes.
Oplossing voor uitzondering tijdens het maken van een recognizer wanneer MAS wordt gebruikt.
FPIEProcessor.dll van het NuGet-pakket Microsoft.CognitiveServices.Speech.Extension.MAS voor Windows UWP x64 en ARM64 was afhankelijk van VC-runtimebibliotheken voor systeemeigen C++. Het probleem is opgelost door de afhankelijkheid bij te werken om VC-runtimebibliotheken (voor UWP) te corrigeren.
Oplossing voor [MAS] Terugkerende aanroepen om Te herkennenOnceAsync leiden tot SPXERR_ALREADY_INITIALIZED bij het gebruik van MAS · Probleem 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Oplossing voor ingesloten spraakherkenning loopt vast wanneer woordgroepenlijsten worden gebruikt.

Voorbeelden

Ingesloten iOS-voorbeelden voor spraak-naar-tekst, tekst naar spraak en vertaling.

Speech CLI 1.34.0: release van november 2023

Nieuwe functies

Ondersteuning voor woordgrensgebeurtenissen die worden uitgevoerd bij het synthetiseren van spraak.

Bugfixes

JMESPath-afhankelijkheid bijgewerkt naar de nieuwste versie, verbetert tekenreeksevaluaties

Speech SDK 1.33.0: release van oktober 2023

Wijzigingsmelding die fouten veroorzaken

Het nieuwe NuGet-pakket dat is toegevoegd voor Microsoft Audio Stack (MAS) moet nu worden opgenomen door toepassingen die MAS gebruiken in hun pakketconfiguratiebestanden.

Nieuwe functies

Het nieuwe NuGet-pakket Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg toegevoegd, dat verbeterde echoannuleringsprestaties biedt bij het gebruik van Microsoft Audio Stack
Uitspraakbeoordeling: ondersteuning toegevoegd voor prosody en inhoudsevaluatie, waarmee de gesproken spraak kan worden beoordeeld in termen van prosody, vocabulaire, grammatica en onderwerp.

Bugfixes

Het resultaat van trefwoordherkenning is opgelost, zodat deze correct overeenkomen met de invoeraudiostream sinds het begin. De oplossing is van toepassing op zowel zelfstandige trefwoordherkenning als door trefwoorden geactiveerde spraakherkenning.
Opgeloste synthesizerstopSpeaking retourneert niet onmiddellijk SPXSpeechSynthesizer stopSpeaking() methode kan niet direct worden geretourneerd op iOS 17 - Probleem #2081
Er is een probleem opgelost met het importeren van Mac-katalysatoren op Swift-moduleOndersteuning voor mac-katalysator met apple silicon. Probleem 1948
JS: De module AudioWorkletNode wordt nu geladen met een vertrouwde URL, met terugval voor de CDN-browser.
JS: Verpakte lib-bestanden zijn nu gericht op ES6 JS, met ondersteuning voor ES5 JS verwijderd.
JS: tussenliggende gebeurtenissen voor vertaalscenario's die gericht zijn op het v2-eindpunt, worden correct verwerkt
JS: De taaleigenschap voor TranslationRecognitionEventArgs is nu ingesteld voor translation.hypothese-gebeurtenissen.
Spraaksynthese: SynthesisCompleted-gebeurtenis wordt gegarandeerd verzonden na alle metagegevensgebeurtenissen, zodat deze kan worden gebruikt om aan het einde van gebeurtenissen aan te geven. Hoe kan ik detecteren wanneer visemes volledig worden ontvangen? Probleem #2093 Azure-Samples/cognitive-services-speech-sdk

Voorbeelden

Voorbeeld toegevoegd om MULAW-streaming te demonstreren met behulp van Python)
Oplossing voor NAudio-voorbeeld voor spraak-naar-tekst

Speech CLI 1.33.0: release van oktober 2023

Nieuwe functies

Ondersteuning voor woordgrensgebeurtenissen die worden uitgevoerd bij het synthetiseren van spraak.

Bugfixes

Geen

Speech SDK 1.32.1: release van september 2023

Bugfixes

Updates voor Android-pakketten met de nieuwste beveiligingsoplossingen van OpenSSL1.1.1v
JS : eigenschap WebWorkerLoadType toegevoegd om het laden van gegevens-URL's voor time-outwerkrol toe te staan
JS: verbinding met gespreksomzetting na 10 minuten oplossen
JS: verificatietoken voor gespreksomzetting van gesprek wordt nu doorgegeven aan de verbinding van de vertaalservice

Voorbeelden

Gesprektranscriptie met Swift-API's

Speech SDK 1.31.0: release van augustus 2023

Nieuwe functies

Ondersteuning voor realtime-diarisatie is beschikbaar in openbare preview met de Speech SDK 1.31.0. Deze functie is beschikbaar in de volgende SDK's: C#, C++, Java, JavaScript, Python en Objective-C/Swift.
Gesynchroniseerde spraaksynthese woordgrens en visemegebeurtenissen met audio afspelen

Wijzigingen die fouten veroorzaken

De naam van het voormalige scenario voor gesprektranscriptie wordt gewijzigd in 'transcriptie van vergadering'. Gebruik bijvoorbeeld MeetingTranscriber in plaats van ConversationTranscriber, en gebruik CreateMeetingAsync in plaats van CreateConversationAsync. Hoewel de namen van SDK-objecten en -methoden zijn gewijzigd, verandert de naam van de functie zelf niet. Gebruik transcriptieobjecten voor vergaderingen voor transcriptie van vergaderingen met gebruikersprofielen en spraakhandtekeningen. Zie Transcriptie van vergaderingen voor meer informatie. De objecten en methoden voor het vertalen van gesprekken worden niet beïnvloed door deze wijzigingen. U kunt het object en de ConversationTranslator bijbehorende methoden nog steeds gebruiken voor het vergaderen van vertaalscenario's.

Voor realtime-diarisatie wordt een nieuw ConversationTranscriber object geïntroduceerd. Het nieuwe objectmodel voor gesprektranscriptie en gesprekspatronen zijn vergelijkbaar met continue herkenning met het SpeechRecognizer object. Een belangrijk verschil is dat het ConversationTranscriber object is ontworpen om te worden gebruikt in een gespreksscenario waarin u meerdere sprekers wilt onderscheiden (diarisatie). Gebruikersprofielen en spraakhandtekeningen zijn niet van toepassing. Zie de quickstart voor realtime diarization voor meer informatie.

In deze tabel ziet u de vorige en nieuwe objectnamen voor realtime diarisatie en transcriptie van vergaderingen. De scenarionaam bevindt zich in de eerste kolom, de vorige objectnamen bevinden zich in de tweede kolom en de nieuwe objectnamen bevinden zich in de derde kolom.

Scenarionaam	Vorige objectnamen	Nieuwe objectnamen
Realtime diarisatie	N.v.t.	`ConversationTranscriber`
Transcriptie van vergadering	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ De Participant, ParticipantChangedReasonen User objecten zijn van toepassing op zowel transcriptie van vergaderingen als scenario's voor het vertalen van vergaderingen.

² Het Meeting object is nieuw en wordt gebruikt met het MeetingTranscriber object.

Bugfixes

Minimaal ondersteunde macOS-versie opgelost https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Er is een bug opgelost in de beoordeling van de uitspraak:
- Er is een probleem opgelost met de nauwkeurigheidsscores van het telefoonme, zodat deze nu alleen het specifieke verkeerd aangekondigde foneme weerspiegelen. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Er is een probleem opgelost waarbij de functie Uitspraakbeoordeling onnauwkeurig de juiste uitspraak identificeerde als onjuist, met name in situaties waarin woorden meerdere geldige uitspraken konden hebben. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Voorbeelden

Speech SDK 1.30.0: release van juli 2023

Nieuwe functies

C++, C#, Java - Ondersteuning toegevoegd voor DisplayWords het gedetailleerde resultaat van Embedded Speech Recognition.
Objective-C/Swift - Ondersteuning toegevoegd voor ConnectionMessageReceived gebeurtenissen in Objective-C/Swift.
Objective-C/Swift - Verbeterde modellen voor trefwoordspotting voor iOS. Deze wijziging heeft de grootte van bepaalde pakketten vergroot, die binaire iOS-bestanden bevatten (zoals NuGet, XCFramework). We werken eraan om de grootte voor toekomstige releases te verkleinen.

Bugfixes

Er is een geheugenlek opgelost bij het gebruik van spraakherkenning met PhraseListGrammar, zoals gerapporteerd door een klant (GitHub-probleem).
Er is een impasse opgelost in tekst naar de open verbindings-API voor spraak.

Aanvullende opmerkingen

Java : sommige intern gebruikte public Java-API-methoden zijn gewijzigd in het pakket internalof protectedprivate. Deze wijziging mag geen effect hebben op ontwikkelaars, omdat we niet verwachten dat toepassingen deze gebruiken. Hier vermeld voor transparantie.

Voorbeelden

Nieuwe voorbeelden van uitspraakbeoordeling over het opgeven van een leertaal in uw eigen toepassing
- C#: Zie voorbeeldcode.
- C++: Zie voorbeeldcode.
- JavaScript: Zie voorbeeldcode.
- Objective-C: Zie voorbeeldcode.
- Python: Zie voorbeeldcode.
- Swift: Zie voorbeeldcode.

Speech SDK 1.29.0: release van juni 2023

Nieuwe functies

C++, C#, Java - Preview van ingesloten spraakomzettings-API's. U kunt nu spraakomzetting uitvoeren zonder cloudverbinding.
JavaScript - Continuous Language Identification (LID) is nu ingeschakeld voor spraakomzetting.
JavaScript : communitybijdrage voor het toevoegen van LocaleName eigenschap aan VoiceInfo klasse. Bedankt gitHub-gebruiker shivsarthak voor de pull-aanvraag.
C++, C#, Java - Ondersteuning toegevoegd voor het opnieuwamplen van ingesloten tekst naar spraakuitvoer van 16 kHz tot 48 kHz sample rate.
Er is ondersteuning toegevoegd voor hi-IN landinstellingen in Intent Recognizer met Simple Pattern Matching.

Bugfixes

Een crash opgelost die wordt veroorzaakt door een racevoorwaarde in Speech Recognizer tijdens objectvernietiging, zoals te zien is in sommige van onze Android-tests
Mogelijke impasses in Intent Recognizer opgelost met Simple Pattern Matcher

Voorbeelden

Nieuwe voorbeelden van ingesloten spraakomzetting

Speech SDK 1.28.0: release van mei 2023

Wijziging die fouten veroorzaken

JavaScript SDK: OcSP (Online Certificate Status Protocol) is verwijderd. Hierdoor kunnen clients beter voldoen aan browser- en Node-standaarden voor certificaatafhandeling. Versie 1.28 en hoger bevatten niet langer onze aangepaste OCSP-module.

Nieuwe functies

Ingesloten spraakherkenning wordt nu geretourneerd NoMatchReason::EndSilenceTimeout wanneer er een time-out voor stilte optreedt aan het einde van een utterance. Dit komt overeen met het gedrag bij het uitvoeren van herkenning met behulp van de realtime spraakservice.
JavaScript SDK: eigenschappen instellen voor SpeechTranslationConfig het gebruik van PropertyId enum-waarden.

Bugfixes

C# in Windows - Mogelijke racevoorwaarde/impasse oplossen in de Windows-audio-extensie. In scenario's die zowel de audio-renderer snel verwijderen als ook de Synthesizer-methode gebruiken om te stoppen met spreken, werd de onderliggende gebeurtenis niet opnieuw ingesteld door stop en kon het rendererobject nooit worden verwijderd, allemaal terwijl het een globale vergrendeling voor verwijdering vasthoudt, de dotnet GC-thread blokkeert.

Voorbeelden

Er is een ingesloten spraakvoorbeeld toegevoegd voor MAUI.
Het ingesloten spraakvoorbeeld voor Android Java bijgewerkt om tekst naar spraak op te nemen.

Speech SDK 1.27.0: release van april 2023

Melding over aanstaande wijzigingen

We zijn van plan om OCSP (Online Certificate Status Protocol) te verwijderen in de volgende JavaScript SDK-release. Hierdoor kunnen clients beter voldoen aan browser- en Node-standaarden voor certificaatafhandeling. Versie 1.27 is de laatste release die onze aangepaste OCSP-module bevat.

Nieuwe functies

JavaScript : ondersteuning toegevoegd voor microfooninvoer vanuit de browser met sprekeridentificatie en verificatie.
Embedded Speech Recognition - Update-ondersteuning voor PropertyId::Speech_SegmentationSilenceTimeoutMs instelling.

Bugfixes

Algemeen : betrouwbaarheidsupdates in serviceherconnectielogica (alle programmeertalen behalve JavaScript).
Algemeen : corrigeer tekenreeksconversies die geheugen in Windows lekken (alle relevante programmeertalen behalve JavaScript).
Ingesloten spraakherkenning : herstel crash in Franse spraakherkenning bij het gebruik van bepaalde vermeldingen in de grammaticalijst.
Broncodedocumentatie : correcties voor SDK-referentiedocumentatieopmerkingen met betrekking tot audiologboekregistratie in de service.
Intentieherkenning : corrigeer prioriteiten van Pattern Matcher met betrekking tot lijstentiteiten.

Voorbeelden

De verificatiefout in het C#-voorbeeld van gesprektranscriptie (CTS) correct afhandelen.
Voorbeeld van streaming-uitspraakbeoordeling toegevoegd voor Python, JavaScript, Objective-C en Swift.

Speech SDK 1.26.0: release van maart 2023

Wijzigingen die fouten veroorzaken

Bitcode is uitgeschakeld in alle iOS-doelen in de volgende pakketten: Cocoapod met xcframework, NuGet (voor Xamarin en MAUI) en Unity. De wijziging wordt veroorzaakt door de afschaffing van bitcodeondersteuning van Apple vanaf Xcode 14 en hoger. Deze wijziging betekent ook dat als u Xcode 13-versie gebruikt of als u de bitcode expliciet hebt ingeschakeld voor uw toepassing met behulp van de Speech SDK, er mogelijk een fout optreedt met de tekst 'Framework bevat geen bitcode en u moet deze opnieuw opbouwen'. U kunt dit probleem oplossen door ervoor te zorgen dat de doelen bitcode hebben uitgeschakeld.
Het minimale iOS-implementatiedoel is bijgewerkt naar 11.0 in deze release, wat betekent dat armv7 HW niet meer wordt ondersteund.

Nieuwe functies

Ingesloten (on-device) Spraakherkenning ondersteunt nu zowel 8 als 16 kHz sampling rate input audio (16-bits per sample, mono PCM).
Spraaksynthese rapporteert nu verbindings-, netwerk- en servicelatenties in het resultaat om end-to-end latentieoptimalisatie te helpen.
Nieuwe regels voor het verbreken van bindingen voor intentieherkenning met eenvoudige patroonkoppelingen. Hoe meer tekenbytes die overeenkomen, winnen patroonovereenkomsten met een lager aantal tekens byte. Voorbeeld: Het patroon 'Select {something} in de rechterbovenhoek' wint over 'Select {something}'

Bugfixes

Spraaksynthese: los een fout op waarbij de emoji niet juist is in woordgrensgebeurtenissen.
Intentieherkenning met Conversational Language Understanding (CLU):
- Intenties uit de CLU Orchestrator-werkstroom worden nu correct weergegeven.
- Het JSON-resultaat is nu beschikbaar via de eigenschaps-id LanguageUnderstandingServiceResponse_JsonResult.
Spraakherkenning met trefwoordactivering: Oplossing voor ontbrekende ~150 ms audio na een trefwoordherkenning.
Oplossing voor Speech SDK NuGet iOS SDK Release-build, gerapporteerd door de klant (GitHub-probleem)

Voorbeelden

Oplossing voor Swift iOS-voorbeeld, gerapporteerd door klant (GitHub-probleem)

Speech SDK 1.25.0: release van januari 2023

Wijzigingen die fouten veroorzaken

Taalidentificatie-API's (preview) zijn vereenvoudigd. Als u bijwerkt naar Speech SDK 1.25 en een build-einde ziet, gaat u naar de pagina Taalidentificatie voor meer informatie over de nieuwe eigenschap SpeechServiceConnection_LanguageIdMode. Deze enkele eigenschap vervangt de twee vorige en SpeechServiceConnection_SingleLanguageIdPrioritySpeechServiceConnection_ContinuousLanguageIdPriority. Prioriteit geven tussen lage latentie en hoge nauwkeurigheid is niet meer nodig na recente modelverbeteringen. Nu hoeft u alleen te selecteren of u aan het begin of continue taalidentificatie wilt uitvoeren bij het uitvoeren van continue spraakherkenning of vertaling.

Nieuwe functies

C#/C++/Java: Embedded Speech SDK wordt nu uitgebracht onder beperkte openbare preview. Zie de documentatie over Embedded Speech (preview). U kunt nu spraak op het apparaat naar tekst en tekst naar spraak uitvoeren wanneer de cloudverbinding onregelmatig of niet beschikbaar is. Ondersteund op Android-, Linux-, macOS- en Windows-platforms
C# MAUI: Ondersteuning toegevoegd voor iOS- en Mac Catalyst-doelen in Speech SDK NuGet (probleem van de klant)
Unity: Android x86_64-architectuur toegevoegd aan Unity-pakket (probleem met klant)
Ga naar:
- Directe streamingondersteuning voor ALAW/MULAW toegevoegd voor spraakherkenning (probleem van de klant)
- Ondersteuning toegevoegd voor PhraseListGrammar. Bedankt GitHub-gebruiker opgegevenoko voor de bijdrage van de community!
C#/C++: Intent Recognizer biedt nu ondersteuning voor Conversational Language Understanding-modellen in C++ en C# met indeling in de Microsoft-service

Bugfixes

Een incidentele vastloper in KeywordRecognizer oplossen wanneer u deze probeert te stoppen
Python:
- Oplossing voor het ophalen van de resultaten van de uitspraakbeoordeling wanneer PronunciationAssessmentGranularity.FullText deze is ingesteld (probleem van de klant)
- Oplossing voor geslachtseigenschap voor mannelijke stemmen die niet worden opgehaald, wanneer spraaksynthesestemmen worden opgehaald
JavaScript
- Oplossing voor het parseren van sommige WAV-bestanden die zijn vastgelegd op iOS-apparaten (probleem van de klant)
- JS SDK bouwt nu zonder npm-force-oplossingen te gebruiken (probleem van de klant)
- Gesprek Vertalen stelt nu het service-eindpunt correct in wanneer u een speechConfig-exemplaar gebruikt dat is gemaakt met SpeechConfig.fromEndpoint()

Voorbeelden

Voorbeelden toegevoegd die laten zien hoe u Ingesloten spraak gebruikt
Spraak toegevoegd aan tekstvoorbeeld voor MAUI

Zie de opslagplaats met voorbeelden van speech-SDK.

Speech SDK 1.24.2: release van november 2022

Nieuwe functies

Geen nieuwe functies, alleen een ingesloten engineoplossing ter ondersteuning van nieuwe modelbestanden.

Bugfixes

Alle programmeertalen
- Er is een probleem opgelost met versleuteling van ingesloten spraakherkenningsmodellen.

Speech SDK 1.24.1: release van november 2022

Nieuwe functies

Gepubliceerde pakketten voor de preview-versie van Embedded Speech. Zie https://aka.ms/embedded-speech voor meer informatie.

Bugfixes

Alle programmeertalen
- Ingesloten TTS-crash herstellen wanneer spraaklettertype niet wordt ondersteund
- Fix stopSpeaking() kan het afspelen niet stoppen in Linux (#1686)
JavaScript SDK
- Regressie opgelost in de wijze waarop audio van gesprekstranscriber wordt verholpen.
Java
- Tijdelijk bijgewerkte POM- en Javadocs-bestanden gepubliceerd naar Maven Central om de docs-pijplijn in staat te stellen online referentiedocumenten bij te werken.
Python
- Regressie herstellen waarbij Python speak_text(ssml) ongeldigheid retourneert.

Speech SDK 1.24.0: release van oktober 2022

Nieuwe functies

Alle programmeertalen: AMR-WB (16khz) toegevoegd aan de ondersteunde lijst met tekst-naar-spraak audio-uitvoerindelingen
Python: Pakket toegevoegd voor Linux ARM64 voor ondersteunde Linux-distributies.
C#/C++/Java/Python: ondersteuning toegevoegd voor directe streaming van ALAW & MULAW naar de spraakservice (naast de bestaande PCM-stream) met behulp van AudioStreamWaveFormat.
C# MAUI: NuGet-pakket bijgewerkt ter ondersteuning van Android-doelen voor .NET MAUI-ontwikkelaars (probleem van de klant)
Mac: Afzonderlijke XCframework voor Mac toegevoegd, die geen binaire iOS-bestanden bevat. Dit biedt een optie voor ontwikkelaars die alleen binaire Mac-bestanden nodig hebben met behulp van een kleiner XCframework-pakket.
Microsoft Audio Stack (MAS):
- Wanneer straalvormende hoeken worden opgegeven, wordt het geluid dat buiten het opgegeven bereik afkomstig is beter onderdrukt.
- Ongeveer 70% vermindering van de grootte van libMicrosoft.CognitiveServices.Speech.extension.mas.so Linux ARM32 en Linux ARM64.
Intentieherkenning met behulp van patroonkoppeling:
- Ondersteuning voor orthografie toevoegen voor de talen fr, , deesjp
- Vooraf samengestelde gehele getallen voor taal estoegevoegd.

Bugfixes

iOS: oplossing voor spraaksynthesefout in iOS 16 veroorzaakt door gecomprimeerde audiodecoderingsfout (probleem van de klant).
JavaScript:
- Verificatietoken werkt niet wanneer spraaksynthese spraaklijst wordt opgehaald (probleem van de klant).
- Gegevens-URL gebruiken voor het laden van werkrollen (probleem met klant).
- Maak alleen een worklet voor audioprocessor wanneer AudioWorklet wordt ondersteund in de browser (probleem van de klant). Dit was een bijdrage van william Wong. Bedankt William!
- Er is een herkende callback opgelost wanneer het LUIS-antwoord connectionMessage leeg is (klantprobleem).
- Time-out voor spraaksegmentatie juist instellen.
Intentieherkenning met behulp van patroonkoppeling:
- Niet-json-tekens in modellen worden nu correct geladen.
- Los het probleem met vasthangen op wanneer recognizeOnceAsync(text) deze werd aangeroepen tijdens continue herkenning.

Speech SDK 1.23.0: release van juli 2022

Nieuwe functies

C#, C++, Java: ondersteuning toegevoegd voor talen zh-cn en zh-hk in intentieherkenning met patroonkoppeling.
C#: ondersteuning toegevoegd voor AnyCPU .NET Framework-builds

Bugfixes

Android: Opgeloste OpenSSL-beveiligingsprobleem CVE-2022-2068 door OpenSSL bij te werken naar 1.1.1q
Python: Crash oplossen bij gebruik van PushAudioInputStream
iOS: Fix "EXC_BAD_ACCESS: Poging om null-aanwijzer te deductie ongedaan te maken" zoals gerapporteerd op iOS (GitHub-probleem)

Speech SDK 1.22.0: release van juni 2022

Nieuwe functies

Java: IntentRecognitionResult-API voor getEntities(), applyLanguageModels() en recognizeOnceAsync(text) toegevoegd ter ondersteuning van de engine voor eenvoudige patroonkoppeling.
Unity: Ondersteuning toegevoegd voor Mac M1 (Apple Silicon) voor Unity-pakket (GitHub-probleem)
C#: ondersteuning toegevoegd voor x86_64 voor Xamarin Android (GitHub-probleem)
C#: minimaal bijgewerkte versie van .NET Framework naar v4.6.2 voor SDK C#-pakket omdat v4.6.1 buiten gebruik is gesteld (zie levenscyclusbeleid voor Microsoft .NET Framework-onderdelen)
Linux: Ondersteuning toegevoegd voor Debian 11 en Ubuntu 22.04 LTS. Ubuntu 22.04 LTS vereist handmatige installatie van bibliothekensl1.1 als een binair pakket van hier (bijvoorbeeld libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb of nieuwer voor x64), of door uit bronnen te compileren.

Bugfixes

UWP: OpenSSL-afhankelijkheid verwijderd uit UWP-bibliotheken en vervangen door WinRT-websocket en HTTP-API's om te voldoen aan de beveiligingsnaleving en een kleinere binaire footprint.
Mac: Probleem 'MicrosoftCognitiveServicesSpeech Module Niet gevonden' opgelost bij het gebruik van Swift-projecten die gericht zijn op macOS-platform
Windows, Mac: Er is een platformspecifiek probleem opgelost waarbij audiobronnen die zijn geconfigureerd via eigenschappen om te streamen in realtime soms achter en uiteindelijk de capaciteit overschreden

Voorbeelden (GitHub)

C#: .NET Framework-voorbeelden bijgewerkt voor gebruik van v4.6.2
Unity: Voorbeeld van virtuele assistent opgelost voor Android en UWP
Unity: Unity-voorbeelden bijgewerkt voor unity 2020 LTS-versie

Speech SDK 1.21.0: release van april 2022

Nieuwe functies

Java & JavaScript: ondersteuning toegevoegd voor continue taalidentificatie bij gebruik van het SpeechRecognizer-object
JavaScript: Diagnostische API's toegevoegd om logboekregistratie van consolelogboeken en (alleen Node)-bestanden in te schakelen, om Microsoft te helpen bij het oplossen van door de klant gerapporteerde problemen
Python: ondersteuning toegevoegd voor gesprektranscriptie
Go: Ondersteuning toegevoegd voor Speaker Recognition
C++ & C#: ondersteuning toegevoegd voor een vereiste groep woorden in intent recognizer (eenvoudige patroonkoppeling). Bijvoorbeeld: '(set|start|begin) een timer' waarbij 'set', 'start' of 'begin' aanwezig moeten zijn om de intentie te kunnen herkennen.
Alle programmeertalen, Spraaksynthese: eigenschap Duur toegevoegd in woordgrensgebeurtenissen. Ondersteuning toegevoegd voor interpunctiegrens en zinsgrens
Objective-C/Swift/Java: Resultaten op woordniveau toegevoegd aan het resultaatobject Uitspraakbeoordeling (vergelijkbaar met C#). De toepassing hoeft geen JSON-resultaattekenreeks meer te parseren om informatie op woordniveau op te halen (GitHub-probleem)
iOS-platform: experimentele ondersteuning toegevoegd voor ARMv7-architectuur

Bugfixes

iOS-platform: Oplossing voor het bouwen van het doel 'Elk iOS-apparaat' bij gebruik van CocoaPod (GitHub-probleem)
Android-platform: OpenSSL-versie is bijgewerkt naar 1.1.1n om beveiligingsprobleem CVE-2022-0778 op te lossen
JavaScript: Probleem opgelost waarbij wav-header niet is bijgewerkt met de bestandsgrootte (GitHub-probleem)
JavaScript: Probleem met het oplossen van probleem met de synchronisatie van aanvraag-id's die fouten veroorzaken in vertaalscenario's (GitHub-probleem)
JavaScript: Probleem oplossen bij het instantiëren van SpeakerAudioDestination zonder stream (GitHub-probleem]
C++: C++-headers herstellen om een waarschuwing te verwijderen bij het compileren van C++17 of hoger

Voorbeelden van GitHub

Nieuwe Java-voorbeelden voor spraakherkenning met taalidentificatie
Nieuwe Python- en Java-voorbeelden voor gesprektranscriptie
Nieuw Go-voorbeeld voor Speaker Recognition
Nieuw C++ en C# -hulpprogramma voor Windows waarmee alle audio-opname- en renderapparaten worden opgesomd om hun apparaat-id te vinden. Deze id is nodig voor de Speech SDK als u van plan bent audio vast te leggen van of audio weer te geven op een niet-standaardapparaat.

Speech SDK 1.20.0: release van januari 2022

Nieuwe functies

Objective-C, Swift en Python: ondersteuning toegevoegd voor DialogService Verbinding maken or, gebruikt voor scenario's met spraakassistenten.
Python: ondersteuning voor Python 3.10 is toegevoegd. Ondersteuning voor Python 3.6 is verwijderd, per einde van de levensduur van Python voor 3.6.
Unity: Speech SDK wordt nu ondersteund voor Unity-toepassingen in Linux.
C++, C#: IntentRecognizer met behulp van patroonkoppeling wordt nu ondersteund in C#. Daarnaast worden scenario's met aangepaste entiteiten, optionele groepen en entiteitsrollen nu ondersteund in C++ en C#.
C++, C#: Verbeterde logboekregistratie van diagnostische gegevens met behulp van nieuwe klassen FileLogger, MemoryLogger en EventLogger. SDK-logboeken zijn een belangrijk hulpprogramma voor Microsoft om door de klant gerapporteerde problemen vast te stellen. Deze nieuwe klassen maken het eenvoudiger voor klanten om Speech SDK-logboeken te integreren in hun eigen logboekregistratiesysteem.
Alle programmeertalen: PronunciationAssessmentConfig heeft nu eigenschappen voor het instellen van het gewenste phoneme-alfabet (IPA of SAPI) en N-Best Telefoon me Count (om te voorkomen dat een JSON voor configuratie moet worden gemaakt volgens GitHub-probleem 1284). Uitvoer op lettergreepniveau wordt nu ook ondersteund.
Android, iOS en macOS (alle programmeertalen): GStreamer is niet meer nodig om netwerken met beperkte bandbreedte te ondersteunen. SpeechSynthesizer maakt nu gebruik van de audiocoderingsmogelijkheden van het besturingssysteem om gecomprimeerde audio te decoderen die wordt gestreamd van de tekst naar de spraakservice.
Alle programmeertalen: SpeechSynthesizer ondersteunt nu drie nieuwe opus-indelingen voor onbewerkte uitvoer (zonder container), die veel worden gebruikt in scenario's voor live streamen.
JavaScript: GetVoicesAsync() API toegevoegd aan SpeechSynthesizer om de lijst met ondersteunde synthesestemmen op te halen (GitHub-probleem 1350)
JavaScript: GetWaveFormat() API toegevoegd aan AudioStreamFormat ter ondersteuning van niet-PCM-golfindelingen (GitHub-probleem 452)
JavaScript: volume getter/setter en mute()/unmute() API's toegevoegd aan SpeakerAudioDestination (GitHub-probleem 463)

Bugfixes

C++, C#, Java, JavaScript, Objective-C en Swift: Oplossing voor het verwijderen van een vertraging van 10 seconden tijdens het stoppen van een spraakherkenningsfunctie die gebruikmaakt van een PushAudioInputStream. Dit is voor het geval dat er geen nieuwe audio wordt gepusht nadat StopContinuousRecognition is aangeroepen (GitHub-problemen 1318, 331)
Unity op Android en UWP: Unity-metabestanden zijn opgelost voor UWP, Android ARM64 en Windows-subsysteem voor Android (WSA) ARM64 (GitHub-probleem 1360)
iOS: het compileren van uw Speech SDK-toepassing op elk iOS-apparaat wanneer u CocoaPods gebruikt, is nu opgelost (GitHub-probleem 1320)
iOS: Wanneer SpeechSynthesizer is geconfigureerd voor het rechtstreeks uitvoeren van audio naar een luidspreker, wordt afspelen gestopt aan het begin in zeldzame omstandigheden. Dit is opgelost.
JavaScript: Gebruik scriptprocessorback voor microfooninvoer als er geen audiowerklet is gevonden (GitHub-probleem 455)
JavaScript: Protocol toevoegen aan agent om de fout te beperken die is gevonden met Sentry-integratie (GitHub-probleem 465)

Voorbeelden van GitHub

C++-, C#-, Python- en Java-voorbeelden die laten zien hoe u gedetailleerde herkenningsresultaten krijgt. De details omvatten alternatieve herkenningsresultaten, betrouwbaarheidsscore, lexicale vorm, genormaliseerd formulier, gemaskeerde genormaliseerde vorm, met tijdsinstellingen op woordniveau voor elk formulier.
iOS-voorbeeld toegevoegd met AVFoundation als externe audiobron.
Java-voorbeeld toegevoegd om te laten zien hoe u de SRT-indeling (SubRip Text) kunt ophalen met behulp van wordBoundary-gebeurtenis.
Android-voorbeelden voor uitspraakbeoordeling.
C++, C# met het gebruik van de nieuwe klassen Diagnostische logboekregistratie.

Speech SDK 1.19.0: release van 2021-nov

Hoogtepunten

De Speaker Recognition-service is nu algemeen beschikbaar. Speech SDK-API's zijn beschikbaar op C++, C#, Java en JavaScript. Met Speaker Recognition kunt u sprekers nauwkeurig verifiëren en identificeren op basis van hun unieke stemkenmerken. Zie de documentatie voor meer informatie over dit onderwerp.
We hebben ondersteuning voor Ubuntu 16.04 verwijderd in combinatie met Azure DevOps en GitHub. Ubuntu 16.04 bereikte het einde van de levensduur in april 2021. Migreer uw Ubuntu 16.04-werkstromen naar Ubuntu 18.04 of hoger.
OpenSSL-koppeling in binaire Linux-bestanden is gewijzigd in dynamisch. De binaire grootte van Linux is met ongeveer 50% verminderd.
Mac M1 ARM-gebaseerde siliciumondersteuning toegevoegd.

Nieuwe functies

C++/C#/Java: nieuwe API's toegevoegd om ondersteuning voor audioverwerking in te schakelen voor spraakinvoer met Microsoft Audio Stack. Documentatie hier.
C++: Nieuwe API's voor intentieherkenning om geavanceerdere patroonkoppeling mogelijk te maken. Dit omvat lijsten en vooraf gedefinieerde gehele getallen en ondersteuning voor groeperingsintenties en entiteiten als modellen (documentatie, updates en voorbeelden zijn in ontwikkeling en worden in de nabije toekomst gepubliceerd).
Mac: Ondersteuning voor OP ARM64 (M1) gebaseerde silicium voor CocoaPod-, Python-, Java- en NuGet-pakketten met betrekking tot GitHub-probleem 1244.
iOS/Mac: binaire iOS- en macOS-bestanden worden nu verpakt in xcframework met betrekking tot GitHub-probleem 919.
iOS/Mac: Ondersteuning voor Mac-katalysator met betrekking tot GitHub-probleem 1171.
Linux: Nieuw tar-pakket toegevoegd voor CentOS7 Over de Speech SDK. Het Linux-.tar-pakket bevat nu specifieke bibliotheken voor RHEL/CentOS 7 in lib/centos7-x64. Speech SDK-bibliotheken in lib/x64 zijn nog steeds van toepassing op alle andere ondersteunde Linux x64-distributies (inclusief RHEL/CentOS 8) en werken niet op RHEL/CentOS 7.
JavaScript: VoiceProfile & SpeakerRecognizer-API's zijn asynchroon/wachtbaar gemaakt.
JavaScript: ondersteuning toegevoegd voor Azure-regio's voor de Amerikaanse overheid.
Windows: Ondersteuning toegevoegd voor afspelen op Universeel Windows-platform (UWP).

Bugfixes

Android: OpenSSL-beveiligingsupdate (bijgewerkt naar versie 1.1.1l) voor Android-pakketten.
Python: Opgeloste fout waarbij het selecteren van een luidsprekerapparaat in Python mislukt.
Kern: automatisch opnieuw verbinding maken wanneer een verbindingspoging mislukt.
iOS: Audiocompressie uitgeschakeld op iOS-pakketten vanwege instabiliteit en bitcode-buildproblemen bij het gebruik van GStreamer. Details zijn beschikbaar via GitHub-probleem 1209.

Voorbeelden van GitHub

Mac/iOS: Voorbeelden en quickstarts bijgewerkt voor het gebruik van het xcframework-pakket.
.NET: voorbeelden die zijn bijgewerkt voor gebruik van .NET Core 3.1-versie.
JavaScript: Voorbeeld toegevoegd voor Spraakassistenten.

Speech SDK 1.18.0: release van 2021-juli

Opmerking: Ga hier aan de slag met de Speech SDK.

Overzicht van markeringen

Ubuntu 16.04 bereikte het einde van de levensduur in april 2021. Met Azure DevOps en GitHub wordt in september 2021 ondersteuning voor 16.04 weggeslagen. Migreer ubuntu-16.04-werkstromen naar ubuntu-18.04 of hoger voor die tijd.

Nieuwe functies

C++: Eenvoudig taalpatroon dat overeenkomt met intent Recognizer maakt het nu eenvoudiger om eenvoudige scenario's voor intentieherkenning te implementeren.
C++/C#/Java: er is een nieuwe API GetActivationPhrasesAsync() toegevoegd aan de klasse voor het VoiceProfileClient ontvangen van een lijst met geldige activeringstermen in de registratiefase van Speaker Recognition voor onafhankelijke herkenningsscenario's.
- Belangrijk: de functie Speaker Recognition is beschikbaar als preview-versie. Alle spraakprofielen die zijn gemaakt in preview, worden 90 dagen nadat de functie Speaker Recognition uit preview is verplaatst naar Algemene beschikbaarheid. Op dat moment werken de preview-spraakprofielen niet meer.
Python: Ondersteuning toegevoegd voor continue taalidentificatie (LID) op de bestaande SpeechRecognizer en TranslationRecognizer objecten.
Python: Er is een nieuw Python-object toegevoegd met de naam SourceLanguageRecognizer eenmalige of continue LID (zonder herkenning of vertaling).
JavaScript: getActivationPhrasesAsync API toegevoegd aan VoiceProfileClient klasse voor het ontvangen van een lijst met geldige activeringstermen in de registratiefase van Speaker Recognition voor onafhankelijke herkenningsscenario's.
De API van enrollProfileAsync JavaScriptVoiceProfileClient is nu asynchroon te wachten. Zie deze onafhankelijke identificatiecode, bijvoorbeeld het gebruik.

Verbeteringen

Java: AutoCloseable-ondersteuning toegevoegd aan veel Java-objecten. Nu wordt het model try-with-resources ondersteund om resources vrij te geven. Bekijk dit voorbeeld waarin gebruik wordt gemaakt van try-with-resources. Zie ook de zelfstudie over de Oracle Java-documentatie voor de instructie try-with-resources voor meer informatie over dit patroon.
De schijfvoetafdruk is aanzienlijk verminderd voor veel platforms en architecturen. Voorbeelden voor het Microsoft.CognitiveServices.Speech.core binaire bestand: x64 Linux is kleiner dan 475 kB (8,0% reductie); ARM64 Windows UWP is 464 kB kleiner (11,5% reductie); x86 Windows is kleiner dan 343 kB (17,5% reductie); en x64 Windows is kleiner dan 451 kB (19,4% reductie).

Bugfixes

Java: Er is een synthesefout opgelost wanneer de synthesetekst surrogaattekens bevat. Details hier.
JavaScript: Audioverwerking van browsermicrofoon wordt nu gebruikt AudioWorkletNode in plaats van afgeschaft ScriptProcessorNode. Details hier.
JavaScript: houd gesprekken correct actief tijdens langdurige gespreksomzettingsscenario's. Details hier.
JavaScript: Er is een probleem opgelost waarbij recognizer opnieuw verbinding maakt met een mediastream in continue herkenning. Details hier.
JavaScript: Er is een probleem opgelost waarbij recognizer opnieuw verbinding maakt met een pushStream in continue herkenning. Details hier.
JavaScript: Gecorrigeerde offsetberekening op woordniveau in gedetailleerde herkenningsresultaten. Details hier.

Voorbeelden

Java-snelstartvoorbeelden zijn hier bijgewerkt.
Voorbeelden van JavaScript Speaker Recognition zijn bijgewerkt om nieuw gebruik van enrollProfileAsync(). Bekijk hier voorbeelden.

Speech SDK 1.17.0: release van 2021-mei

Notitie

Ga hier aan de slag met de Speech SDK.

Overzicht van markeringen

Kleinere footprint: we blijven de geheugen- en schijfvoetafdruk van de Speech SDK en de bijbehorende onderdelen verminderen.
Met een nieuwe zelfstandige Taalidentificatie-API kunt u herkennen welke taal wordt gesproken.
Ontwikkel mixed reality- en gamingtoepassingen met behulp van Unity in macOS.
U kunt nu Tekst naar spraak gebruiken naast spraakherkenning vanuit de programmeertaal Go.
Verschillende oplossingen voor problemen die U, onze gewaardeerde klanten, op GitHub hebben gemarkeerd. DANK U! Blijf de feedback ontvangen.

Nieuwe functies

C++/C#: Nieuwe zelfstandige at-start en continue taaldetectie via de SourceLanguageRecognizer API. Als u alleen de taal(en) wilt detecteren die in audio-inhoud worden gesproken, is dit de API om dat te doen. Zie de details voor C++ en C#.
C++/C#: Spraakherkenning en vertaalherkenning ondersteunen nu zowel at-start als continue taalidentificatie, zodat u programmatisch kunt bepalen welke taal(en) worden gesproken voordat ze worden getranscribeerd of vertaald. Zie de documentatie hier voor Spraakherkenning en hier voor Spraakomzetting.
C#: Ondersteuning voor Unity toegevoegd aan macOS (x64). Dit ontgrendelt gebruiksvoorbeelden voor spraakherkenning en spraaksynthese in mixed reality en gaming.
Go: We hebben ondersteuning toegevoegd voor spraaksynthesetekst naar spraak naar de programmeertaal Go om spraaksynthese beschikbaar te maken in nog meer gebruiksvoorbeelden. Raadpleeg onze quickstart of onze referentiedocumentatie.
C++/C#/Java/Python/Objective-C/Go: de spraaksynthese ondersteunt nu het connection object. Dit helpt u bij het beheren en bewaken van de verbinding met de Speech-service en is vooral handig om vooraf verbinding te maken om de latentie te verminderen. Zie de documentatie hier.
C++/C#/Java/Python/Objective-C/Go: we maken nu de latentie en onderlooptijd SpeechSynthesisResult beschikbaar om u te helpen bij het bewaken en diagnosticeren van latentieproblemen met spraaksynthese. Zie de details voor C++, C#, Java, Python, Objective-C en Go.
C++/C#/Java/Python/Objective-C: voor tekst naar spraak worden nu standaard neurale stemmen gebruikt wanneer u geen stem opgeeft die moet worden gebruikt. Dit biedt standaard een hogere betrouwbaarheidsuitvoer, maar verhoogt ook de standaardprijs. U kunt een van onze meer dan 70 standaardstemmen of meer dan 130 neurale stemmen opgeven om de standaardinstelling te wijzigen.
C++/C#/Java/Python/Objective-C/Go: We hebben een eigenschap Gender toegevoegd aan de synthesestemgegevens om het gemakkelijker te maken stemmen te selecteren op basis van geslacht. Hiermee wordt het GitHub-probleem #1055 opgelost.
C++, C#, Java, JavaScript: we bieden nu ondersteuning retrieveEnrollmentResultAsyncvoor getAllProfilesAsync() en getAuthorizationPhrasesAsyncin Speaker Recognition om het beheer van alle spraakprofielen voor een bepaald account te vereenvoudigen. Raadpleeg de documentatie voor C++, C#, Java, JavaScript. Hiermee wordt het GitHub-probleem #338 opgelost.
JavaScript: Er is een nieuwe poging toegevoegd voor verbindingsfouten waardoor uw op JavaScript gebaseerde spraaktoepassingen robuuster worden.

Verbeteringen

Binaire linux- en Android Speech SDK-bestanden zijn bijgewerkt om de nieuwste versie van OpenSSL (1.1.1.1k) te gebruiken
Verbeteringen in codegrootte:
- Language Understanding is nu gesplitst in een afzonderlijke lu-bibliotheek.
- Binaire grootte van Windows x64-kern is met 14,4% afgenomen.
- Binaire grootte van Android ARM64-kern is met 13,7% afgenomen.
- andere onderdelen zijn ook kleiner geworden.

Bugfixes

Alles: Probleem met GitHub opgelost #842 voor ServiceTimeout. U kunt nu lange audiobestanden transcriberen met behulp van de Speech SDK zonder dat de verbinding met de service wordt beëindigd met deze fout. We raden u echter nog steeds aan batchtranscriptie te gebruiken voor lange bestanden.
C#: GitHub-probleem #947 opgelost waarbij geen spraakinvoer uw app in een slechte status kon laten.
Java: Probleem met GitHub #997 opgelost waarbij de Speech SDK voor Java 1.16 vastloopt bij het gebruik van DialogService Verbinding maken or zonder een netwerkverbinding of een ongeldige abonnementssleutel.
Er is een crash opgelost bij het plotseling stoppen van spraakherkenning (bijvoorbeeld met Ctrl+C in de console-app).
Java: Er is een oplossing toegevoegd voor het verwijderen van tijdelijke bestanden in Windows bij het gebruik van de Speech SDK voor Java.
Java: Er is een probleem opgelost met GitHub #994 waarbij aanroepen DialogServiceConnector.stopListeningAsync een fout kon veroorzaken.
Java: Er is een probleem opgelost met de klant in de quickstart van de virtuele assistent.
JavaScript: GitHub-probleem #366 opgelost waarbij ConversationTranslator een fout 'this.cancelSpeech is geen functie'.
JavaScript: GitHub-probleem #298 opgelost waarbij het voorbeeld 'Resultaat ophalen als een in-memory stream' hardop werd afgespeeld.
JavaScript: Er is een Probleem opgelost met GitHub #350 waarbij aanroepen AudioConfig kon leiden tot een 'ReferenceError: MediaStream is niet gedefinieerd'.
JavaScript: Er is een waarschuwing voor unhandledPromiseRejection opgelost in Node.js voor langdurige sessies.

Voorbeelden

Hier is de documentatie voor Unity-voorbeelden voor macOS bijgewerkt.
Een React Native-voorbeeld voor de Azure AI Speech Recognition-service is nu hier beschikbaar.

Speech SDK 1.16.0: release van 2021-maart

Notitie

De Speech SDK in Windows is afhankelijk van het gedeelde Microsoft Visual C++ Redistributable voor Visual Studio 2015, 2017 en 2019. Download het hier.

Nieuwe functies

C++/C#/Java/Python: verplaatst naar de nieuwste versie van GStreamer (1.18.3) om ondersteuning toe te voegen voor het transcriberen van media-indelingen in Windows, Linux en Android. Zie de documentatie hier.
C++/C#/Java/Objective-C/Python: ondersteuning toegevoegd voor het decoderen van gecomprimeerde TTS/gesynthetiseerde audio aan de SDK. Als u de uitvoeraudioindeling instelt op PCM en GStreamer beschikbaar is op uw systeem, vraagt de SDK automatisch gecomprimeerde audio aan van de service om bandbreedte te besparen en de audio op de client te decoderen. U kunt instellen SpeechServiceConnection_SynthEnableCompressedAudioTransmission om deze functie uit te false schakelen. Details voor C++, C#, Java, Objective-C, Python.
JavaScript: Node.js gebruikers nu de AudioConfig.fromWavFileInput API kunnen gebruiken. Hiermee wordt het GitHub-probleem #252 opgelost.
C++/C#/Java/Objective-C/Python: methode GetVoicesAsync() toegevoegd voor TTS om alle beschikbare synthesestemmen te retourneren. Details voor C++, C#, Java, Objective-C en Python.
C++/C#/Java/JavaScript/Objective-C/Python: gebeurtenis VisemeReceived toegevoegd voor TTS/spraaksynthese om synchrone viseme-animatie te retourneren. Zie de documentatie hier.
C++/C#/Java/JavaScript/Objective-C/Python: gebeurtenis toegevoegd BookmarkReached voor TTS. U kunt bladwijzers instellen in de invoer-SSML en de audio-offsets voor elke bladwijzer ophalen. Zie de documentatie hier.
Java: Ondersteuning toegevoegd voor Speaker Recognition-API's. Details hier.
C++/C#/Java/JavaScript/Objective-C/Python: er zijn twee nieuwe audio-indelingen toegevoegd met WebM-container voor TTS (Webm16Khz16BitMonoOpus en Webm24Khz16BitMonoOpus). Dit zijn betere indelingen voor het streamen van audio met de Opus-codec. Details voor C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: ondersteuning toegevoegd voor het ophalen van spraakprofiel voor sprekerherkenningsscenario's. Details voor C++, C# en Java.
C++/C#/Java/Objective-C/Python: ondersteuning toegevoegd voor afzonderlijke gedeelde bibliotheek voor audiomicrofoon en luidsprekerbesturing. Hierdoor kan de ontwikkelaar de SDK gebruiken in omgevingen waarvoor geen vereiste audiobibliotheekafhankelijkheden zijn vereist.
Objective-C/Swift: ondersteuning toegevoegd voor moduleframework met parapluheader. Hierdoor kan de ontwikkelaar Speech SDK importeren als een module in iOS-/Mac Objective-C/Swift-apps. Hiermee wordt het GitHub-probleem #452 opgelost.
Python: Ondersteuning toegevoegd voor Python 3.9 en verwijderde ondersteuning voor Python 3.5 per einde van python voor 3.5.

Bekende problemen

C++/C#/Java: DialogServiceConnector kan geen toegang krijgen CustomCommandsConfig tot een toepassing voor aangepaste opdrachten en treedt in plaats daarvan een verbindingsfout op. Dit kan worden omzeild door handmatig uw toepassings-id toe te voegen aan de aanvraag met config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Het verwachte gedrag van CustomCommandsConfig wordt hersteld in de volgende release.

Verbeteringen

Als onderdeel van onze multirelease-inspanning om het geheugengebruik en de schijfvoetafdruk van de Speech SDK te verminderen, zijn binaire Android-bestanden nu 3% tot 5% kleiner.
Verbeterde nauwkeurigheid, leesbaarheid en secties van onze C#-referentiedocumentatie hier.

Bugfixes

JavaScript: Grote WAV-bestandsheaders worden nu correct geparseerd (vergroot het koptekstsegment tot 512 bytes). Hiermee wordt het GitHub-probleem #962 opgelost.
JavaScript: Probleem met timing van microfoon gecorrigeerd als de microfoonstream eindigt voordat de herkenning wordt gestopt, waarbij een probleem wordt opgelost waarbij spraakherkenning niet werkt in Firefox.
JavaScript: De initialisatiebelofte wordt nu correct verwerkt wanneer de browser microfoon uitschakelt voordat turnOn is voltooid.
JavaScript: We hebben URL-afhankelijkheid vervangen door URL-parse. Hiermee wordt het GitHub-probleem #264 opgelost.
Android: Vaste callbacks werken niet wanneer minifyEnabled deze is ingesteld op waar.
C++/C#/Java/Objective-C/Python: TCP_NODELAY wordt correct ingesteld op onderliggende socket-IO voor TTS om de latentie te verminderen.
C++/C#/Java/Python/Objective-C/Go: er is een incidentele crash opgelost toen de recognizer net na het starten van een herkenning werd vernietigd.
C++/C#/Java: Er is een incidentele crash opgelost in de vernietiging van speaker recognizer.

Voorbeelden

JavaScript: voor browservoorbeelden is het downloaden van afzonderlijke JavaScript-bibliotheekbestanden niet meer vereist.

Speech SDK 1.15.0: release van 2021-januari

Notitie

De Speech SDK in Windows is afhankelijk van het gedeelde Microsoft Visual C++ Redistributable voor Visual Studio 2015, 2017 en 2019. Download het hier.

Overzicht van markeringen

Kleinere geheugen- en schijfvoetafdruk waardoor de SDK efficiënter wordt.
Uitvoerindelingen met een hogere kwaliteit die beschikbaar zijn voor aangepaste neurale spraak private preview.
Intent Recognizer kan nu meer retourneren dan de belangrijkste intentie, zodat u een afzonderlijke beoordeling kunt maken over de intentie van uw klant.
Spraakassistenten en bots zijn nu eenvoudiger in te stellen en u kunt ervoor zorgen dat deze niet meer luistert en meer controle uitoefenen over hoe het reageert op fouten.
Verbeterde prestaties van het apparaat door het optioneel maken van compressie.
Gebruik de Speech SDK in Windows ARM/ARM64.
Verbeterde foutopsporing op laag niveau.
De functie Uitspraakbeoordeling is nu breder beschikbaar.
Verschillende oplossingen voor problemen die U, onze gewaardeerde klanten, op GitHub hebben gemarkeerd. DANK U! Blijf de feedback ontvangen.

Verbeteringen

De Speech SDK is nu efficiënter en lichtgewicht. We hebben een multirelease-inspanning gestart om het geheugengebruik en de schijfvoetafdruk van de Speech SDK te verminderen. Als eerste stap hebben we aanzienlijke verminderingen van de bestandsgrootte in gedeelde bibliotheken op de meeste platforms gemaakt. Vergeleken met de release 1.14:
- 64-bits UWP-compatibele Windows-bibliotheken zijn ongeveer 30% kleiner.
- 32-bits Windows-bibliotheken zien nog geen verbetering van de grootte.
- Linux-bibliotheken zijn 20-25% kleiner.
- Android-bibliotheken zijn 3-5% kleiner.

Nieuwe functies

All: Nieuwe 48 KHz-uitvoerindelingen beschikbaar voor de persoonlijke preview van aangepaste neurale spraak via de TTS-spraaksynthese-API: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Alles: Aangepaste spraak is ook gemakkelijker te gebruiken. Ondersteuning toegevoegd voor het instellen van aangepaste spraak via EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Vóór deze wijziging moesten aangepaste spraakgebruikers de eindpunt-URL instellen via de FromEndpoint methode. Klanten kunnen nu dezelfde FromSubscription methode gebruiken als vooraf gemaakte stemmen en vervolgens de implementatie-id opgeven door deze in te stellen EndpointId. Dit vereenvoudigt het instellen van aangepaste stemmen.
C++/C#/Java/Objective-C/Python: Haal meer dan de belangrijkste intentie opIntentRecognizer. Het biedt nu ondersteuning voor het configureren van het JSON-resultaat met alle intenties en niet alleen de meest scorende intentie via LanguageUnderstandingModel FromEndpoint methode met behulp van verbose=true de URI-parameter. Hiermee wordt het GitHub-probleem #880 opgelost. Raadpleeg de bijgewerkte documentatie hier.
C++/C#/Java: zorg ervoor dat uw spraakassistent of bot niet meer luistert. DialogServiceConnector (C++, C#, Java) heeft nu een StopListeningAsync() methode om bij te horen ListenOnceAsync(). Hierdoor wordt het vastleggen van audio onmiddellijk gestopt en wordt er op een juiste manier gewacht op een resultaat, waardoor het perfect is voor gebruik met 'nu stoppen'-knoppersscenario's.
C++/C#/Java/JavaScript: zorg ervoor dat uw spraakassistent of bot beter reageert op onderliggende systeemfouten. DialogServiceConnector (C++, C#, Java, JavaScript) heeft nu een nieuwe TurnStatusReceived gebeurtenis-handler. Deze optionele gebeurtenissen komen overeen met elke ITurnContext oplossing van de bot en rapporteren uitvoeringsfouten wanneer ze optreden, bijvoorbeeld als gevolg van een niet-verwerkte uitzondering, time-out of netwerkuitval tussen Direct Line Speech en de bot. TurnStatusReceived maakt het gemakkelijker om te reageren op foutvoorwaarden. Als een bot bijvoorbeeld te lang duurt voor een back-enddatabasequery (bijvoorbeeld om een product op te zoeken), TurnStatusReceived kan de client weten dat hij of zij kan weten dat hij of zij kan reageren met 'sorry, dat heb ik niet helemaal gedaan, kunt u het opnieuw proberen' of iets dergelijks.
C++/C#: gebruik de Speech SDK op meer platforms. Het NuGet-pakket van de Speech SDK biedt nu ondersteuning voor systeemeigen binaire bestanden van Windows ARM/ARM64 (UWP) om de Speech SDK nuttiger te maken voor meer computertypen.
Java: DialogServiceConnector heeft nu een setSpeechActivityTemplate() methode die eerder onbedoeld is uitgesloten van de taal. Dit komt overeen met het instellen van de Conversation_Speech_Activity_Template eigenschap en vraagt om alle toekomstige Bot Framework-activiteiten die afkomstig zijn van de Direct Line Speech-service, de opgegeven inhoud samen te voegen in hun JSON-nettoladingen.
Java: Verbeterde foutopsporing op laag niveau. De Connection klasse heeft nu een MessageReceived gebeurtenis, vergelijkbaar met andere programmeertalen (C++, C#). Deze gebeurtenis biedt toegang op laag niveau tot binnenkomende gegevens van de service en kan nuttig zijn voor diagnostische gegevens en foutopsporing.
JavaScript: Eenvoudiger instellen voor spraakassistenten en bots, BotFrameworkConfigdie nu methoden hebben fromHost() en fromEndpoint() factory's waarmee het gebruik van aangepaste servicelocaties wordt vereenvoudigd en eigenschappen handmatig worden ingesteld. We hebben ook gestandaardiseerde optionele specificatie van het gebruik van botId een niet-standaardbot in de configuratie factory's.
JavaScript: Verbeterde prestaties van apparaten via toegevoegde eigenschap voor tekenreeksbeheer voor websocket-compressie. Om prestatieredenen hebben we websocket-compressie standaard uitgeschakeld. Dit kan opnieuw worden uitgevoerd voor scenario's met lage bandbreedte. Hier vindt u meer informatie. Hiermee wordt het GitHub-probleem #242 opgelost.
JavaScript: ondersteuning toegevoegd voor lPronunciation Assessment om de uitspraak van spraak te evalueren. Zie de quickstart hier.

Bugfixes

Alle (behalve JavaScript): Er is een regressie opgelost in versie 1.14, waarin te veel geheugen werd toegewezen door de recognizer.
C++: Er is een probleem met de garbagecollection opgelost, DialogServiceConnectorwaarbij gitHub-probleem #794 wordt opgelost.
C#: Er is een probleem opgelost met het afsluiten van threads waardoor objecten ongeveer een seconde worden geblokkeerd wanneer ze worden verwijderd.
C++/C#/Java: er is een uitzondering opgelost waardoor een toepassing meer dan één keer een spraakautorisatietoken of een activiteitssjabloon kan instellen.DialogServiceConnector
C++/C#/Java: een herkenningscrash opgelost vanwege een racevoorwaarde in teardown.
JavaScript: DialogServiceConnector de optionele botId parameter die is opgegeven in BotFrameworkConfig's factory's, werd niet eerder uitgevoerd. Hierdoor is het nodig om de botId querytekenreeksparameter handmatig in te stellen voor het gebruik van een niet-standaardbot. De bug is gecorrigeerd en botId de waarden die aan 's factory's worden verstrekt BotFrameworkConfig, worden gehonoreerd en gebruikt, inclusief de nieuwe fromHost() en fromEndpoint() toevoegingen. Dit geldt ook voor de applicationId parameter voor CustomCommandsConfig.
JavaScript: GitHub-probleem #881 opgelost, waardoor het herkennen van objecten opnieuw kan worden gebruikt.
JavaScript: Er is een probleem opgelost waarbij de SKD meerdere keren in één TTS-sessie werd verzonden speech.config , bandbreedte verspillen.
JavaScript: Vereenvoudigde foutafhandeling bij microfoonautorisatie, waardoor er meer beschrijvend bericht kan opbellen wanneer de gebruiker geen microfooninvoer heeft toegestaan in de browser.
JavaScript: GitHub-probleem #249 opgelost waarbij typefouten zich voordoen ConversationTranslator en ConversationTranscriber een compilatiefout hebben veroorzaakt voor TypeScript-gebruikers.
Objective-C: Er is een probleem opgelost waarbij GStreamer-build is mislukt voor iOS op Xcode 11.4, waardoor gitHub-probleem #911 wordt opgelost.
Python: GitHub-probleem #870 opgelost, waarbij 'DeprecationWarning: the imp module is afgeschaft in het voordeel van importlib' wordt verwijderd.

Voorbeelden

Voorbeeld van bestand voor JavaScript-browser maakt nu gebruik van bestanden voor spraakherkenning. Hiermee wordt het GitHub-probleem #884 opgelost.

Speech SDK 1.14.0: release van 2020-oktober

Notitie

De Speech SDK in Windows is afhankelijk van het gedeelde Microsoft Visual C++ Redistributable voor Visual Studio 2015, 2017 en 2019. Download het hier.

Nieuwe functies

Linux: Ondersteuning toegevoegd voor Debian 10 en Ubuntu 20.04 LTS.
Python/Objective-C: ondersteuning toegevoegd voor de KeywordRecognizer API. De documentatie is hier.
C++/Java/C#: ondersteuning toegevoegd voor het instellen van een HttpHeader sleutel/waarde via ServicePropertyChannel::HttpHeader.
JavaScript: ondersteuning toegevoegd voor de ConversationTranscriber API. Lees hier documentatie.
C++/C#: nieuwe AudioDataStream FromWavFileInput methode toegevoegd (om te lezen. WAV-bestanden) hier (C++) en hier (C#).
C++/C#/Java/Python/Objective-C/Swift: er is een stopSpeakingAsync() methode toegevoegd om tekst te stoppen met spraaksynthese. Lees hier de referentiedocumentatie (C++), hier (C#), hier (Java), hier (Python) en hier (Objective-C/Swift).
C#, C++, Java: Er is een FromDialogServiceConnector() functie toegevoegd aan de klasse die kan worden gebruikt voor het Connection bewaken van verbindings- en verbroken gebeurtenissen voor DialogServiceConnector. Lees hier de referentiedocumentatie (C#), hier (C++) en hier (Java).
C++/C#/Java/Python/Objective-C/Swift: ondersteuning toegevoegd voor uitspraakbeoordeling, waarmee gesproken uitspraak wordt geëvalueerd en sprekers feedback geven over de nauwkeurigheid en de vloeiendheid van gesproken audio. Lees hier de documentatie.

Wijziging die fouten veroorzaken

JavaScript: PullAudioOutputStream.read() heeft een wijziging van het retourtype van een interne promise in een native JavaScript Promise.

Bugfixes

Alle: Regressie van 1,13 opgelost waarbij SetServiceProperty waarden met bepaalde speciale tekens werden genegeerd.
C#: Opgeloste Windows-consolevoorbeelden in Visual Studio 2019 kunnen geen systeemeigen DLL's vinden.
C#: Vastlopen met geheugenbeheer opgelost als de stream wordt gebruikt als KeywordRecognizer invoer.
ObjectiveC/Swift: Vastlopen met geheugenbeheer opgelost als de stream wordt gebruikt als recognizer-invoer.
Windows: Er is een probleem opgelost met co-existentie met BT HFP/A2DP op UWP.
JavaScript: Er is een vaste toewijzing van sessie-id's opgelost om logboekregistratie en hulp te verbeteren in interne foutopsporings-/servicecorrelaties.
JavaScript: Er is een oplossing toegevoegd voor DialogServiceConnector het uitschakelen van ListenOnce aanroepen nadat de eerste aanroep is uitgevoerd.
JavaScript: Er is een probleem opgelost waarbij resultaatuitvoer slechts 'eenvoudig' zou zijn.
JavaScript: Er is een probleem opgelost met continue herkenning in Safari in macOS.
JavaScript: CPU-belastingbeperking voor scenario met hoge aanvraagdoorvoer.
JavaScript: Toegang tot details van het resultaat van voiceprofielinschrijving toestaan.
JavaScript: Oplossing toegevoegd voor continue herkenning in IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: onjuiste URL opgelost voor australiaeast en brazilsouth in IntentRecognizer.
C++/C#: Toegevoegd VoiceProfileType als argument bij het maken van een VoiceProfile object.
C++/C#/Java/Python/Swift/ObjectiveC: er is een SPX_INVALID_ARG probleem opgelost bij het lezen AudioDataStream vanaf een bepaalde positie.
IOS: Crash opgelost met spraakherkenning op Unity

Voorbeelden

ObjectiveC: Voorbeeld toegevoegd voor trefwoordherkenning hier.
C#/JavaScript: Quickstart toegevoegd voor gesprektranscriptie hier (C#) en hier (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: Voorbeeld toegevoegd voor uitspraakbeoordeling hier
Xamarin: Quickstart bijgewerkt naar de nieuwste Visual Studio-sjabloon hier.

Bekend probleem

DigiCert Global Root G2-certificaat wordt niet standaard ondersteund in HoloLens 2 en Android 4.4 (KitKat) en moet worden toegevoegd aan het systeem om de Speech SDK functioneel te maken. Het certificaat wordt in de nabije toekomst toegevoegd aan installatiekopieën van het HoloLens 2-besturingssysteem. Android 4.4-klanten moeten het bijgewerkte certificaat toevoegen aan het systeem.

COVID-19 verkorte tests

Omdat we de afgelopen weken op afstand werken, konden we niet zoveel handmatige verificatietests uitvoeren als normaal. We hebben geen wijzigingen aangebracht die we denken te hebben verbroken, en onze geautomatiseerde tests zijn allemaal geslaagd. In het onwaarschijnlijke geval dat we iets hebben gemist, laat het ons dan weten op GitHub.
Blijf gezond!

Speech SDK 1.13.0: release van 2020 juli

Notitie

De Speech SDK in Windows is afhankelijk van het gedeelde Microsoft Visual C++ Redistributable voor Visual Studio 2015, 2017 en 2019. Download en installeer het vanaf hier.

Nieuwe functies

C#: ondersteuning toegevoegd voor asynchrone gesprektranscriptie. Zie de documentatie hier.
JavaScript: Ondersteuning voor sprekerherkenning toegevoegd voor zowel browser als Node.js.
JavaScript: ondersteuning toegevoegd voor taalidentificatie/taal-id. Zie de documentatie hier.
Objective-C: ondersteuning toegevoegd voor gespreks- en gesprektranscriptie met meerdere apparaten.
Python: gecomprimeerde audioondersteuning toegevoegd voor Python in Windows en Linux. Zie de documentatie hier.

Bugfixes

Alles: Er is een probleem opgelost waardoor de KeywordRecognizer de streams niet vooruit zou verplaatsen na een herkenning.
All: Er is een probleem opgelost waardoor de stroom die is verkregen uit een KeywordRecognitionResult, het trefwoord niet bevatte.
Alles: Er is een probleem opgelost waarbij sendMessageAsync het bericht niet echt via de kabel verzendt nadat de gebruikers klaar zijn met wachten.
All: Er is een crash in Speaker Recognition-API's opgelost wanneer gebruikers VoiceProfileClient aanroepen::SpeakerRecEnrollProfileAsync-methode meerdere keren en niet hebben gewacht totdat de aanroepen zijn voltooid.
Alles: Logboekregistratie van bestanden in VoiceProfileClient en SpeakerRecognizer-klassen is opgelost.
JavaScript: Er is een probleem opgelost met beperking wanneer de browser wordt geminimaliseerd.
JavaScript: Er is een probleem opgelost met een geheugenlek op streams.
JavaScript: caching toegevoegd voor OCSP-antwoorden van NodeJS.
Java: Er is een probleem opgelost waardoor BigInteger-velden altijd 0 retourneren.
iOS: Er is een probleem opgelost met het publiceren van op Speech SDK gebaseerde apps in de iOS App Store.

Voorbeelden

C++: Hier is voorbeeldcode toegevoegd voor Speaker Recognition.

COVID-19 verkorte tests

Speech SDK 1.12.1: release van 2020-juni

Nieuwe functies

C#, C++: Sprekerherkenningsvoorbeeld: met deze functie kunt u sprekeridentificatie (wie spreekt?) en sprekercontrole (is de spreker die ze beweren te zijn?). Begin met een overzicht, lees het artikel over de basisbeginselen van Speaker Recognition of de API-referentiedocumenten.

Bugfixes

C#, C++: Vaste microfoonopname werkte niet in 1.12 in Speaker Recognition.
JavaScript: Fixes voor tekst-naar-spraak in Firefox en Safari in macOS en iOS.
Oplossing voor toegangsschending van Windows-toepassingsverificator bij het vastlopen van gesprektranscriptie bij gebruik van een stream met acht kanalen.
Oplossing voor toegangsschending van Windows-toepassingsverificator bij het vastlopen van gesprekken met meerdere apparaten.

Voorbeelden

C#: Codevoorbeeld voor Sprekerherkenning.
C++: Codevoorbeeld voor Sprekerherkenning.
Java: Codevoorbeeld voor intentieherkenning op Android.

COVID-19 verkorte tests

Speech SDK 1.12.0: release van 2020 mei

Nieuwe functies

Go: Nieuwe Go-taalondersteuning voor spraakherkenning en aangepaste spraakassistent. Stel hier uw ontwikkelomgeving in. Zie de sectie Voorbeelden hieronder voor voorbeeldcode.
JavaScript: browserondersteuning toegevoegd voor tekst naar spraak. Zie de documentatie hier.
C++, C#, Java: Nieuw KeywordRecognizer object en API's die worden ondersteund op Windows-, Android-, Linux- en iOS-platforms. Lees hier de documentatie. Zie de sectie Voorbeelden hieronder voor voorbeeldcode.
Java: Gesprek met meerdere apparaten toegevoegd met vertaalondersteuning. Zie het referentiedocument hier.

Verbeteringen en optimalisaties

JavaScript: De implementatie van de geoptimaliseerde browsermicrofoon verbetert de nauwkeurigheid van spraakherkenning.
Java: Gerestructureerde bindingen met behulp van directe JNI-implementatie zonder SWIG. Deze wijziging vermindert met 10x de bindingengrootte voor alle Java-pakketten die worden gebruikt voor Windows, Android, Linux en Mac en vereenvoudigt de verdere ontwikkeling van de Java-implementatie van de Speech SDK.
Linux: ondersteuningsdocumentatie bijgewerkt met de nieuwste specifieke RHEL 7-notities.
Verbeterde verbindingslogica om meerdere keren verbinding te maken wanneer service- en netwerkfouten optreden.
De pagina portal.azure.com Speech-quickstart bijgewerkt om ontwikkelaars te helpen de volgende stap in het Azure AI Speech-traject uit te voeren.

Bugfixes

C#, Java: Er is een probleem opgelost met het laden van SDK-bibliotheken in Linux ARM (zowel 32-bits als 64-bits).
C#: Expliciete verwijdering van systeemeigen ingangen opgelost voor TranslationRecognizer-, IntentRecognizer- en Verbinding maken ion-objecten.
C#: Vast levensduurbeheer voor audio-invoer voor ConversationTranscriber-object.
Er is een probleem opgelost waarbij IntentRecognizer de resultaatreden niet goed werd ingesteld bij het herkennen van intenties uit eenvoudige woordgroepen.
Er is een probleem opgelost waarbij SpeechRecognitionEventArgs resultaatverschil niet correct werd ingesteld.
Er is een racevoorwaarde opgelost waarbij SDK een netwerkbericht probeerde te verzenden voordat de websocket-verbinding werd geopend. Was reproduceerbaar voor TranslationRecognizer het toevoegen van deelnemers.
Er zijn geheugenlekken opgelost in de engine voor trefwoordherkenning.

Voorbeelden

Go: Quickstarts toegevoegd voor spraakherkenning en aangepaste spraakassistent. Hier vindt u voorbeeldcode.
JavaScript: quickstarts toegevoegd voor tekst-naar-spraak-, vertaling- en intentieherkenning.
Voorbeelden van trefwoordherkenning voor C# en Java (Android).

COVID-19 verkorte tests

Omdat we de afgelopen weken op afstand werken, konden we niet zoveel handmatige verificatietests uitvoeren als normaal. We hebben geen wijzigingen aangebracht die we denken te hebben verbroken, en onze geautomatiseerde tests zijn allemaal geslaagd. Als we iets hebben gemist, laat het ons dan weten op GitHub.
Blijf gezond!

Speech SDK 1.11.0: release van 2020-maart

Nieuwe functies

Linux: Ondersteuning toegevoegd voor Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 met instructies voor het configureren van het systeem voor Speech SDK.
Linux: ondersteuning toegevoegd voor .NET Core C# in Linux ARM32 en ARM64. Meer informatie is hier beschikbaar.
C#, C++: Toegevoegd UtteranceId aan ConversationTranscriptionResult, een consistente id voor alle tussenliggende en uiteindelijke spraakherkenningsresultaten. Details voor C#, C++.
Python: ondersteuning toegevoegd voor Language ID. Zie speech_sample.py in de GitHub-opslagplaats.
Windows: ondersteuning voor gecomprimeerde audio-invoerindeling toegevoegd op het Windows-platform voor alle win32-consoletoepassingen. Details hier.
JavaScript: ondersteuning voor spraaksynthese (tekst-naar-spraak) in NodeJS. U vindt hier meer informatie.
JavaScript: voeg nieuwe API's toe om inspectie van alle verzonden en ontvangen berichten mogelijk te maken. U vindt hier meer informatie.

Bugfixes

C#, C++: er is een probleem opgelost, waardoor SendMessageAsync nu binair bericht wordt verzonden als binair type. Details voor C#, C++.
C#, C++: er is een probleem opgelost waarbij het gebruik van Connection MessageReceived een gebeurtenis crash kan veroorzaken als Recognizer het object wordt verwijderd voordat Connection het object wordt verwijderd. Details voor C#, C++.
Android: De grootte van de audiobuffer van de microfoon is afgenomen van 800 ms tot 100 ms om de latentie te verbeteren.
Android: Er is een probleem opgelost met x86 Android Emulator in Android Studio.
JavaScript: ondersteuning toegevoegd voor regio's in China met de fromSubscription API. Details hier.
JavaScript: Voeg meer foutinformatie toe voor verbindingsfouten vanuit NodeJS.

Voorbeelden

Unity: Openbare sample van intentieherkenning is opgelost, waarbij het importeren van LUIS json mislukt. Details hier.
Python: Voorbeeld toegevoegd voor Language ID. Details hier.

Covid19 verkorte tests: omdat we de afgelopen weken op afstand werken, konden we niet zoveel handmatige tests voor apparaatverificatie uitvoeren als normaal. We kunnen bijvoorbeeld geen microfooninvoer en luidsprekeruitvoer testen in Linux, iOS en macOS. We hebben geen wijzigingen aangebracht die we denken te hebben verbroken op deze platforms en onze geautomatiseerde tests zijn allemaal geslaagd. In het onwaarschijnlijke geval dat we iets hebben gemist, laat het ons dan weten op GitHub.
Bedankt voor uw voortdurende ondersteuning. Zoals altijd kunt u vragen of feedback posten op GitHub of Stack Overflow.
Blijf gezond!

Speech SDK 1.10.0: release van 2020-februari

Nieuwe functies

Python-pakketten toegevoegd ter ondersteuning van de nieuwe 3.8-versie van Python.
Red Hat Enterprise Linux (RHEL)/CentOS 8 x64-ondersteuning (C++, C#, Java, Python).

Notitie

Klanten moeten OpenSSL configureren volgens deze instructies.
Linux ARM32-ondersteuning voor Debian en Ubuntu.
DialogService Verbinding maken or ondersteunt nu een optionele parameter 'bot-id' in BotFrameworkConfig. Met deze parameter kunt u meerdere Direct Line Speech-bots gebruiken met één Spraak-resource. Zonder de opgegeven parameter wordt de standaardbot (zoals bepaald door de configuratiepagina van het Direct Line Speech-kanaal) gebruikt.
DialogService Verbinding maken or heeft nu de eigenschap SpeechActivityTemplate. De inhoud van deze JSON-tekenreeks wordt door Direct Line Speech gebruikt om een groot aantal ondersteunde velden vooraf in te vullen in alle activiteiten die een Direct Line Speech-bot bereiken, inclusief activiteiten die automatisch worden gegenereerd als reactie op gebeurtenissen zoals spraakherkenning.
TTS maakt nu gebruik van abonnementssleutel voor verificatie, waardoor de eerste bytelatentie van het eerste syntheseresultaat na het maken van een synthesizer wordt verminderd.
Bijgewerkte spraakherkenningsmodellen voor 19 landinstellingen voor een gemiddelde foutpercentage van 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). De nieuwe modellen brengen aanzienlijke verbeteringen in meerdere domeinen met zich mee, waaronder dicteren, callcentertranscriptie en video-indexeringsscenario's.

Bugfixes

Er is een fout opgelost waarbij gesprekstranscriber niet goed in JAVA-API's wachtte
Probleem met Android x86-emulator voor Xamarin GitHub
Ontbrekend toevoegen (Ophalen|Eigenschapsmethoden instellen op AudioConfig
Er is een TTS-fout opgelost waarbij de audioDataStream niet kon worden gestopt wanneer de verbinding mislukt
Het gebruik van een eindpunt zonder een regio veroorzaakt USP-fouten voor de gespreksvertaler
Id-generatie in Universele Windows-toepassingen maakt nu gebruik van een correct uniek GUID-algoritme; voorheen en onbedoeld standaard een gestobbelde implementatie die vaak conflicten veroorzaakten via grote sets interacties.

Voorbeelden

Unity-voorbeeld voor het gebruik van Speech SDK met Unity-microfoon en pushmodusstreaming

Andere wijzigingen

OpenSSL-configuratiedocumentatie bijgewerkt voor Linux

Speech SDK 1.9.0: release van 2020-januari

Nieuwe functies

Gesprek met meerdere apparaten: verbind meerdere apparaten met hetzelfde spraak- of tekstgesprek en vertaal eventueel berichten die ertussen worden verzonden. Meer informatie vindt u in dit artikel.
Ondersteuning voor trefwoordherkenning toegevoegd voor Android-pakket .aar en ondersteuning toegevoegd voor x86- en x64-smaken.
Objective-C: SendMessage en SetMessageProperty methoden toegevoegd aan Connection object. Zie de documentatie hier.
TTS C++ api ondersteunt std::wstring nu als synthesetekstinvoer, waardoor het niet meer nodig is om een wstring te converteren naar tekenreeks voordat deze wordt doorgegeven aan de SDK. Hier vindt u meer informatie.
C#: Taal-id en brontaalconfiguratie zijn nu beschikbaar.
JavaScript: Er is een functie toegevoegd aan Connection het object om aangepaste berichten van de Speech-service door te geven als callback receivedServiceMessage.
JavaScript: ondersteuning toegevoegd voor FromHost API gebruiksgemak met on-premises containers en onafhankelijke clouds. Zie de documentatie hier.
JavaScript: We honoreren NODE_TLS_REJECT_UNAUTHORIZED nu dankzij een bijdrage van orgads. Hier vindt u meer informatie.

Belangrijke wijzigingen

OpenSSL is bijgewerkt naar versie 1.1.1b en is statisch gekoppeld aan de Speech SDK-kernbibliotheek voor Linux. Dit kan leiden tot een onderbreking als uw Postvak OpenSSL IN niet is geïnstalleerd in de /usr/lib/ssl map in het systeem. Raadpleeg onze documentatie onder Speech SDK-documenten om het probleem te omzeilen.
We hebben het geretourneerde gegevenstype voor C# WordLevelTimingResult.Offsetint gewijzigd om long toegang te WordLevelTimingResults verlenen tot wanneer spraakgegevens langer zijn dan 2 minuten.
PushAudioInputStream en PullAudioInputStream verzend nu wav-headergegevens naar de Speech-service op AudioStreamFormatbasis van , optioneel opgegeven toen ze zijn gemaakt. Klanten moeten nu de ondersteunde audio-invoerindeling gebruiken. Andere indelingen krijgen suboptimale herkenningsresultaten of kunnen andere problemen veroorzaken.

Bugfixes

Zie de OpenSSL update onder Wijzigingen die fouten veroorzaken hierboven. We hebben zowel een onregelmatige crash als een prestatieprobleem (conflicten vergrendelen onder hoge belasting) in Linux en Java opgelost.
Java: Verbeterde objectsluiting in scenario's met hoge gelijktijdigheid.
Het NuGet-pakket is geherstructureerd. We hebben de drie kopieën van Microsoft.CognitiveServices.Speech.core.dll en Microsoft.CognitiveServices.Speech.extension.kws.dll onder lib-mappen verwijderd, waardoor het NuGet-pakket kleiner en sneller te downloaden is en we hebben headers toegevoegd die nodig zijn om enkele systeemeigen C++-apps te compileren.
Hier zijn snelstartvoorbeelden opgelost. Deze zijn afgesloten zonder de uitzondering 'microfoon niet gevonden' weer te geven in Linux, macOS, Windows.
Er is een oplossing gevonden voor het vastlopen van SDK met lange spraakherkenningsresultaten op bepaalde codepaden zoals dit voorbeeld.
Er is een sdk-implementatiefout opgelost in de Azure Web App-omgeving om dit probleem van de klant op te lossen.
Er is een TTS-fout opgelost tijdens het gebruik van meerdere <voice> tags of <audio> tags om dit probleem van de klant op te lossen.
Er is een TTS 401-fout opgelost wanneer de SDK is hersteld van onderbroken.
JavaScript: Er is een circulaire import van audiogegevens opgelost dankzij een bijdrage van euirim.
JavaScript: ondersteuning toegevoegd voor het instellen van service-eigenschappen, zoals toegevoegd in 1.7.
JavaScript: er is een probleem opgelost waarbij een verbindingsfout kon leiden tot continue, mislukte pogingen om opnieuw verbinding te maken met websocket.

Voorbeelden

Voorbeeld van trefwoordherkenning toegevoegd voor Android hier.
TTS-voorbeeld toegevoegd voor het serverscenario hier.
Hier zijn quickstarts voor gesprekken met meerdere apparaten toegevoegd voor C# en C++.

Andere wijzigingen

Geoptimaliseerde SDK-kernbibliotheekgrootte op Android.
SDK in 1.9.0 en hoger ondersteunt zowel intstring als typen in het veld voice signature-versie voor gesprekstranscriber.

Speech SDK 1.8.0: release van 2019-november

Nieuwe functies

Er is een FromHost() API toegevoegd voor gebruiksgemak met on-premises containers en onafhankelijke clouds.
Brontaalidentificatie toegevoegd voor spraakherkenning (in Java en C++)
Object SourceLanguageConfig toegevoegd voor Spraakherkenning, gebruikt om verwachte brontalen op te geven (in Java en C++)
Ondersteuning toegevoegd KeywordRecognizer voor Windows (UWP), Android en iOS via de NuGet- en Unity-pakketten
Java-API voor externe gesprekken toegevoegd om gesprektranscriptie uit te voeren in asynchrone batches.

Belangrijke wijzigingen

Functies voor gesprekstranscriber zijn verplaatst onder naamruimte Microsoft.CognitiveServices.Speech.Transcription.
Onderdelen van de methoden gesprekstranscriber worden verplaatst naar een nieuwe Conversation klasse.
Verwijderde ondersteuning voor 32-bits iOS (ARMv7 en x86)

Bugfixes

Oplossing voor vastlopen als lokaal KeywordRecognizer wordt gebruikt zonder een geldige abonnementssleutel voor de Speech-service

Voorbeelden

Xamarin-voorbeeld voor KeywordRecognizer
Unity-voorbeeld voor KeywordRecognizer
C++ en Java-voorbeelden voor automatische brontaalidentificatie.

Speech SDK 1.7.0: release van 2019-september

Nieuwe functies

Bèta-ondersteuning toegevoegd voor Xamarin op Universeel Windows-platform (UWP), Android en iOS
iOS-ondersteuning toegevoegd voor Unity
Invoerondersteuning toegevoegd Compressed voor ALaw, Mulaw, FLAC, op Android, iOS en Linux
Toegevoegd SendMessageAsync in Connection klasse voor het verzenden van een bericht naar service
Toegevoegd SetMessageProperty in Connection klasse voor het instellen van de eigenschap van een bericht
TTS heeft bindingen toegevoegd voor Java (JRE en Android), Python, Swift en Objective-C
TTS heeft ondersteuning toegevoegd voor afspelen voor macOS, iOS en Android.
Informatie over 'woordgrens' toegevoegd voor TTS.

Bugfixes

Probleem met IL2CPP-build opgelost in Unity 2019 voor Android
Probleem opgelost waarbij ongeldige headers in wav-bestandsinvoer onjuist werden verwerkt
Probleem opgelost waarbij UUID's niet uniek waren in sommige verbindingseigenschappen
Er zijn enkele waarschuwingen over null-abilityaanduidingen in de Swift-bindingen opgelost (mogelijk zijn kleine codewijzigingen vereist)
Er is een fout opgelost waardoor websocket-verbindingen geforceerd onder netwerkbelasting gesloten waren
Er is een probleem opgelost in Android dat soms resulteert in dubbele indruk-id's die worden gebruikt door DialogServiceConnector
Verbeteringen in de stabiliteit van verbindingen tussen interacties met meerdere bochten en het rapporteren van fouten (via Canceled gebeurtenissen) wanneer ze optreden met DialogServiceConnector
DialogServiceConnector sessie wordt nu op de juiste manier geleverd, ook wanneer er wordt gebeld ListenOnceAsync() tijdens een actieve StartKeywordRecognitionAsync()
Een crash opgelost die DialogServiceConnector is gekoppeld aan activiteiten die worden ontvangen

Voorbeelden

Quickstart voor Xamarin
CPP-quickstart bijgewerkt met Linux ARM64-informatie
Bijgewerkte Unity-quickstart met iOS-informatie

Speech SDK 1.6.0: release van 2019-juni

Voorbeelden

Quickstartvoorbeelden voor Text To Speech op UWP en Unity
Snelstartvoorbeeld voor Swift in iOS
Unity-voorbeelden voor spraak- en intentieherkenning en -vertaling
Bijgewerkte quickstartvoorbeelden voor DialogServiceConnector

Verbeteringen/wijzigingen

Dialoogvensternaamruimte:
- De naam van SpeechBotConnector is gewijzigd in DialogServiceConnector
- De naam van BotConfig is gewijzigd in DialogServiceConfig
- BotConfig::FromChannelSecret() is opnieuw toegewezen aan DialogServiceConfig::FromBotSecret()
- Alle bestaande Direct Line Speech-clients worden nog steeds ondersteund na de naamswijziging
TTS REST-adapter bijwerken ter ondersteuning van proxy, permanente verbinding
Foutbericht verbeteren wanneer een ongeldige regio wordt doorgegeven
Swift/Objective-C:
- Verbeterde foutrapportage: methoden die kunnen resulteren in een fout zijn nu aanwezig in twee versies: een die een NSError object beschikbaar maakt voor foutafhandeling en een methode die een uitzondering genereert. De voormalige zijn blootgesteld aan Swift. Deze wijziging vereist aanpassingen aan bestaande Swift-code.
- Verbeterde verwerking van gebeurtenissen

Bugfixes

Oplossing voor TTS: waarbij SpeakTextAsync de toekomst wordt geretourneerd zonder te wachten totdat het weergeven van audio is voltooid
Oplossing voor marshalingtekenreeksen in C# om volledige taalondersteuning in te schakelen
Oplossing voor probleem met .NET Core-apps voor het laden van de kernbibliotheek met net461-doelframework in voorbeelden
Oplossing voor incidentele problemen bij het implementeren van systeemeigen bibliotheken in de uitvoermap in voorbeelden
Oplossing voor het sluiten van websockets op betrouwbare wijze
Oplossing voor mogelijk vastlopen tijdens het openen van een verbinding onder zware belasting in Linux
Oplossing voor ontbrekende metagegevens in de frameworkbundel voor macOS
Oplossing voor problemen met pip install --user Windows

Speech SDK 1.5.1

Dit is een foutoplossing die alleen van invloed is op de systeemeigen/beheerde SDK. Dit heeft geen invloed op de JavaScript-versie van de SDK.

Bugfixes

Los FromSubscription op wanneer deze wordt gebruikt met gesprektranscriptie.
Er is een fout opgelost bij trefwoordspotting voor spraakassistenten.

Speech SDK 1.5.0: release van 2019-mei

Nieuwe functies

KwS (Trefwoordspotting) is nu beschikbaar voor Windows en Linux. KWS-functionaliteit kan werken met elk microfoontype, officiële KWS-ondersteuning, maar is momenteel beperkt tot de microfoonmatrices die zijn gevonden in de Azure Kinect DK-hardware of de Speech Devices SDK.
De zinshintfunctionaliteit is beschikbaar via de SDK. Zie voor meer informatie hier.
De functionaliteit voor gesprektranscriptie is beschikbaar via de SDK.
Voeg ondersteuning toe voor Spraakassistenten met behulp van het Direct Line Speech-kanaal.

Voorbeelden

Voorbeelden toegevoegd voor nieuwe functies of nieuwe services die worden ondersteund door de SDK.

Verbeteringen/wijzigingen

Verschillende recognizer-eigenschappen toegevoegd om servicegedrag of serviceresultaten aan te passen (zoals maskering van grof taalgebruik en andere).
U kunt de recognizer nu configureren via de standaardconfiguratie-eigenschappen, zelfs als u de recognizer FromEndpointhebt gemaakt.
Objective-C: OutputFormat eigenschap is toegevoegd aan SPXSpeechConfiguration.
De SDK ondersteunt nu Debian 9 als Linux-distributie.

Bugfixes

Er is een probleem opgelost waarbij de sprekerresource te vroeg in tekst naar spraak werd gedestructeerd.

Speech SDK 1.4.2

Dit is een foutoplossing die alleen van invloed is op de systeemeigen/beheerde SDK. Dit heeft geen invloed op de JavaScript-versie van de SDK.

Speech SDK 1.4.1

Dit is een alleen-JavaScript-versie. Er zijn geen functies toegevoegd. De volgende correcties zijn aangebracht:

Voorkomen dat webpack https-proxy-agent laadt.

Speech SDK 1.4.0: release van 2019-april

Nieuwe functies

De SDK biedt nu ondersteuning voor de Text to Speech-service als bètaversie. Het wordt ondersteund in Windows en Linux Desktop vanuit C++ en C#. Raadpleeg het overzicht van tekst naar spraak voor meer informatie.
De SDK biedt nu ondersteuning voor MP3- en Opus-/MSP-audiobestanden als invoerbestanden voor stromen. Deze functie is alleen beschikbaar in Linux vanuit C++ en C# en is momenteel beschikbaar in de bètaversie (hier vindt u meer informatie).
De Speech SDK voor Java, .NET Core, C++ en Objective-C heeft macOS-ondersteuning gekregen. De Objective-C-ondersteuning voor macOS is momenteel in bètaversie.
iOS: De Speech SDK voor iOS (Objective-C) is nu ook gepubliceerd als een CocoaPod.
JavaScript: ondersteuning voor niet-standaardmicrofoon als invoerapparaat.
JavaScript: proxyondersteuning voor Node.js.

Voorbeelden

Voorbeelden voor het gebruik van de Speech SDK met C++ en objective-C in macOS zijn toegevoegd.
Voorbeelden waarin het gebruik van de tekst-naar-spraakservice wordt gedemonstreerd, zijn toegevoegd.

Verbeteringen/wijzigingen

Python: Aanvullende eigenschappen van herkenningsresultaten worden nu weergegeven via de properties eigenschap.
Voor aanvullende ondersteuning voor ontwikkeling en foutopsporing kunt u SDK-logboekregistratie en diagnostische gegevens omleiden naar een logboekbestand (hier vindt u meer informatie).
JavaScript: de prestaties van audioverwerking verbeteren.

Bugfixes

Mac/iOS: Een fout die heeft geleid tot een lange wachttijd wanneer er geen verbinding met de Speech-service tot stand kon worden gebracht, is opgelost.
Python: foutafhandeling verbeteren voor argumenten in Python-callbacks.
JavaScript: foute statusrapportage voor spraak is beëindigd op RequestSession.

Speech SDK 1.3.1: vernieuwing van 2019-februari

Dit is een foutoplossing die alleen van invloed is op de systeemeigen/beheerde SDK. Dit heeft geen invloed op de JavaScript-versie van de SDK.

Opgeloste fout

Er is een geheugenlek opgelost bij het gebruik van microfooninvoer. Stroom- of bestandsinvoer wordt niet beïnvloed.

Speech SDK 1.3.0: release van 2019-februari

Nieuwe functies

De Speech SDK ondersteunt het selecteren van de invoermicrofoon via de AudioConfig klasse. Hiermee kunt u audiogegevens streamen naar de Speech-service vanaf een niet-standaardmicrofoon. Zie de documentatie waarin de selectie van audio-invoerapparaten wordt beschreven voor meer informatie. Deze functie is nog niet beschikbaar via JavaScript.
De Speech SDK biedt nu ondersteuning voor Unity in een bètaversie. Geef feedback via de sectie probleem in de GitHub-voorbeeldopslagplaats. Deze release ondersteunt Unity op Windows x86 en x64 (desktop- of Universeel Windows-platform-toepassingen) en Android (ARM32/64, x86). Meer informatie is beschikbaar in onze Unity-quickstart.
Het bestand Microsoft.CognitiveServices.Speech.csharp.bindings.dll (verzonden in eerdere releases) is niet meer nodig. De functionaliteit is nu geïntegreerd in de kern-SDK.

Voorbeelden

De volgende nieuwe inhoud is beschikbaar in onze voorbeeldopslagplaats:

Aanvullende voorbeelden voor AudioConfig.FromMicrophoneInput.
Aanvullende Python-voorbeelden voor intentieherkenning en vertaling.
Aanvullende voorbeelden voor het gebruik van het Connection object in iOS.
Aanvullende Java-voorbeelden voor vertaling met audio-uitvoer.
Nieuw voorbeeld voor gebruik van de REST API voor BatchTranscriptie.

Verbeteringen/wijzigingen

Python
- Verbeterde parameterverificatie en foutberichten in SpeechConfig.
- Voeg ondersteuning toe voor het Connection object.
- Ondersteuning voor 32-bits Python (x86) in Windows.
- De Speech SDK voor Python is niet beschikbaar in de bètaversie.
Ios
- De SDK is nu gebouwd op basis van de iOS SDK versie 12.1.
- De SDK ondersteunt nu iOS-versies 9.2 en hoger.
- Verbeter de referentiedocumentatie en corrik verschillende eigenschapsnamen.
JavaScript
- Voeg ondersteuning toe voor het Connection object.
- Typedefinitiebestanden toevoegen voor gebundelde JavaScript
- Initiële ondersteuning en implementatie voor woordgroepenhints.
- Verzameling eigenschappen retourneren met service-JSON voor herkenning
Windows-DLL's bevatten nu een versieresource.
Als u een recognizer FromEndpointmaakt, kunt u parameters rechtstreeks toevoegen aan de eindpunt-URL. U FromEndpoint kunt de recognizer niet configureren via de standaardconfiguratie-eigenschappen.

Bugfixes

Lege proxygebruikersnaam en proxywachtwoord zijn niet correct verwerkt. Als u in deze release een proxy-gebruikersnaam en proxywachtwoord instelt op een lege tekenreeks, worden deze niet verzonden wanneer u verbinding maakt met de proxy.
SessionId's die door de SDK zijn gemaakt, waren niet altijd echt willekeurig voor sommige talen/omgevingen. Er is een initialisatie van willekeurige generator toegevoegd om dit probleem op te lossen.
De verwerking van autorisatietoken verbeteren. Als u een autorisatietoken wilt gebruiken, geeft u de SpeechConfig abonnementssleutel op en laat u deze leeg. Maak vervolgens de recognizer zoals gebruikelijk.
In sommige gevallen is het Connection object niet correct vrijgegeven. Dit probleem is opgelost.
Het JavaScript-voorbeeld is opgelost ter ondersteuning van audio-uitvoer voor omzettingssynthese ook in Safari.

Speech SDK 1.2.1

Dit is een alleen-JavaScript-versie. Er zijn geen functies toegevoegd. De volgende correcties zijn aangebracht:

Brand het einde van de stroom op turn.end, niet bij speech.end.
Probleem opgelost in de audiopomp die niet de volgende verzendplanning heeft gepland als de huidige verzendfout is mislukt.
Herstel continue herkenning met verificatietoken.
Opgeloste fout voor verschillende recognizer/eindpunten.
Documentatieverbeteringen.

Speech SDK 1.2.0: release van 2018-december

Nieuwe functies

Python
- De bètaversie van Python-ondersteuning (3.5 en hoger) is beschikbaar in deze release. Voor meer informatie, zie hier](.. /.. /quickstart-python.md).
JavaScript
- De Speech SDK voor JavaScript is opensourced. De broncode is beschikbaar op GitHub.
- We ondersteunen nu Node.js. Meer informatie vindt u hier.
- De lengtebeperking voor audiosessies is verwijderd, er wordt automatisch opnieuw verbinding gemaakt.
Connection Object
- Vanuit de Recognizerpagina hebt u toegang tot een Connection object. Met dit object kunt u de serviceverbinding expliciet initiëren en u abonneren op verbinding maken en de verbinding verbreken. (Deze functie is nog niet beschikbaar via JavaScript en Python.)
Ondersteuning voor Ubuntu 18.04.
Android
- Ingeschakelde ProGuard-ondersteuning tijdens het genereren van apk's.

Verbeteringen

Verbeteringen in het interne threadgebruik, waardoor het aantal threads, vergrendelingen en mutexes wordt verminderd.
Verbeterde foutrapportage/informatie. In verschillende gevallen zijn foutberichten niet helemaal doorgegeven.
Bijgewerkte ontwikkelingsafhankelijkheden in JavaScript om up-to-date modules te gebruiken.

Bugfixes

Er zijn geheugenlekken opgelost als gevolg van een type dat niet overeenkomt in RecognizeAsync.
In sommige gevallen werden uitzonderingen gelekt.
Geheugenlek herstellen in gebeurtenisargumenten voor vertaling.
Er is een vergrendelingsprobleem opgelost bij opnieuw verbinding maken in langdurige sessies.
Er is een probleem opgelost waardoor het uiteindelijke resultaat voor mislukte vertalingen kon ontbreken.
C#: Als een async bewerking niet in de hoofdthread werd verwacht, was het mogelijk dat de recognizer kan worden verwijderd voordat de asynchrone taak werd voltooid.
Java: Er is een probleem opgelost waardoor de Java-VM vastloopt.
Objective-C: vaste opsommingstoewijzing; RecognizedIntent is geretourneerd in plaats van RecognizingIntent.
JavaScript: standaarduitvoerindeling instellen op 'eenvoudig' in SpeechConfig.
JavaScript: inconsistentie tussen eigenschappen in het configuratieobject in JavaScript en andere talen verwijderen.

Voorbeelden

Verschillende voorbeelden bijgewerkt en opgelost (bijvoorbeeld uitvoerstemmen voor vertaling, enzovoort).
Er zijn Node.js voorbeelden toegevoegd in de voorbeeldopslagplaats.

Speech SDK 1.1.0

Nieuwe functies

Ondersteuning voor Android x86/x64.
Proxyondersteuning: In het SpeechConfig object kunt u nu een functie aanroepen om de proxygegevens (hostnaam, poort, gebruikersnaam en wachtwoord) in te stellen. Deze functie is nog niet beschikbaar in iOS.
Verbeterde foutcode en berichten. Als een herkenning een fout heeft geretourneerd, is dit al ingesteld Reason (in geannuleerde gebeurtenis) of CancellationDetails (in herkenningsresultaat) op Error. De geannuleerde gebeurtenis bevat nu twee extra leden en ErrorCodeErrorDetails. Als de server aanvullende foutinformatie heeft geretourneerd met de gemelde fout, is deze nu beschikbaar in de nieuwe leden.

Verbeteringen

Extra verificatie toegevoegd in de configuratie van de recognizer en extra foutbericht toegevoegd.
Verbeterde verwerking van langdurige stilte in het midden van een audiobestand.
NuGet-pakket: voor .NET Framework-projecten voorkomt het bouwen met AnyCPU-configuratie.

Bugfixes

Er zijn verschillende uitzonderingen opgelost die zijn gevonden in recognizers. Daarnaast worden uitzonderingen gevangen en geconverteerd naar Canceled gebeurtenis.
Herstel een geheugenlek in eigenschapsbeheer.
Er is een fout opgelost waarbij een audio-invoerbestand de recognizer kon vastlopen.
Er is een fout opgelost waarbij gebeurtenissen konden worden ontvangen na een sessiestopgebeurtenis.
Bepaalde raceomstandigheden in threading opgelost.
Er is een iOS-compatibiliteitsprobleem opgelost dat kan leiden tot een crash.
Stabiliteitsverbeteringen voor android-microfoonondersteuning.
Er is een fout opgelost waarbij een recognizer in JavaScript de herkenningstaal negeerde.
Er is een fout opgelost waardoor de EndpointId (in sommige gevallen) niet in JavaScript werd ingesteld.
Parametervolgorde gewijzigd in AddIntent in JavaScript en ontbrekende AddIntent JavaScript-handtekening toegevoegd.

Voorbeelden

C++- en C#-voorbeelden toegevoegd voor het gebruik van pull- en pushstreams in de voorbeeldopslagplaats.

Speech SDK 1.0.1

Betrouwbaarheidsverbeteringen en oplossingen voor fouten:

Mogelijke fatale fout opgelost vanwege racevoorwaarde in disponeren recognizer
Er is een mogelijke fatale fout opgelost bij het ongedaan maken van eigenschappen.
Extra fout- en parametercontrole toegevoegd.
Objective-C: Er is een mogelijke fatale fout opgelost die is veroorzaakt door het overschrijven van de naam in NSString.
Objective-C: Aangepaste zichtbaarheid van API
JavaScript: Opgelost met betrekking tot gebeurtenissen en hun nettoladingen.
Documentatieverbeteringen.

In onze voorbeeldopslagplaats is een nieuw voorbeeld voor JavaScript toegevoegd.

Azure AI Speech SDK 1.0.0: release van 2018-september

Nieuwe functies

Ondersteuning voor Objective-C in iOS. Bekijk onze Objective-C-quickstart voor iOS.
Ondersteuning voor JavaScript in de browser. Bekijk onze JavaScript-quickstart.

Belangrijke wijzigingen

In deze release worden een aantal belangrijke wijzigingen geïntroduceerd. Controleer deze pagina voor meer informatie.

Azure AI Speech SDK 0.6.0: release van 2018-augustus

Nieuwe functies

UWP-apps die zijn gebouwd met de Speech SDK, kunnen nu de Windows App Certification Kit (WACK) doorgeven. Bekijk de quickstart voor UWP.
Ondersteuning voor .NET Standard 2.0 op Linux (Ubuntu 16.04 x64).
Experimenteel: Ondersteuning voor Java 8 op Windows (64-bits) en Linux (Ubuntu 16.04 x64). Bekijk de quickstart voor Java Runtime Environment.

Functionele wijziging

Aanvullende informatie over foutdetails weergeven over verbindingsfouten.

Belangrijke wijzigingen

Voor Java (Android) is voor de SpeechFactory.configureNativePlatformBindingWithDefaultCertificate functie geen padparameter meer vereist. Het pad wordt nu automatisch gedetecteerd op alle ondersteunde platforms.
De get-accessor van de eigenschap EndpointUrl in Java en C# is verwijderd.

Bugfixes

In Java wordt het audiosyntheseresultaat op de vertaalherkenning nu geïmplementeerd.
Er is een fout opgelost die inactieve threads en een verhoogd aantal geopende en ongebruikte sockets kon veroorzaken.
Er is een probleem opgelost waarbij een langlopende herkenning in het midden van de transmissie kon worden beëindigd.
Er is een racevoorwaarde opgelost bij het afsluiten van de recognizer.

Azure AI Speech SDK 0.5.0: release van 2018-juli

Nieuwe functies

Ondersteuning voor Android-platform (API 23: Android 6.0 Marshmallow of hoger). Bekijk de Snelstartgids voor Android.
Ondersteuning voor .NET Standard 2.0 in Windows. Bekijk de quickstart voor .NET Core.
Experimenteel: Ondersteuning voor UWP in Windows (versie 1709 of hoger).
- Bekijk de quickstart voor UWP.
- Houd er rekening mee dat UWP-apps die zijn gebouwd met de Speech SDK nog niet voldoen aan de Windows App Certification Kit (WACK).
Ondersteuning voor langdurige herkenning met automatische opnieuw verbinding maken.

Functionele wijzigingen

StartContinuousRecognitionAsync() ondersteunt langdurige herkenning.
Het herkenningsresultaat bevat meer velden. Ze worden verschoven van het begin en de duur van het geluid (zowel in tikken) van de herkende tekst als extra waarden die de herkenningsstatus vertegenwoordigen, bijvoorbeeld InitialSilenceTimeout en InitialBabbleTimeout.
Ondersteuning voor AuthorizationToken voor het maken van factory-exemplaren.

Belangrijke wijzigingen

Herkenningsgebeurtenissen: NoMatch gebeurtenistype is samengevoegd in de Error gebeurtenis.
SpeechOutputFormat in C# is hernoemd om OutputFormat afgestemd te blijven op C++.
Het retourtype van sommige methoden van de AudioInputStream interface is enigszins gewijzigd:
- In Java retourneert long de read methode nu in plaats van int.
- In C# retourneert uint de Read methode nu in plaats van int.
- In C++worden de Read en GetFormat methoden nu geretourneerd size_t in plaats van int.
C++: Exemplaren van audio-invoerstromen kunnen nu alleen worden doorgegeven als een shared_ptr.

Bugfixes

Er zijn onjuiste retourwaarden in het resultaat opgelost wanneer er een time-out RecognizeAsync() optreedt.
De afhankelijkheid van mediabasisbibliotheken in Windows is verwijderd. De SDK maakt nu gebruik van Core Audio-API's.
Oplossing voor documentatie: Er is een regiopagina toegevoegd om de ondersteunde regio's te beschrijven.

Bekend probleem

De Speech SDK voor Android rapporteert geen resultaten van spraaksynthese voor vertaling. Dit probleem wordt opgelost in de volgende release.

Azure AI Speech SDK 0.4.0: release van 2018-juni

Functionele wijzigingen

AudioInputStream

Een recognizer kan nu een stream gebruiken als de audiobron. Zie de bijbehorende handleiding voor meer informatie.
Gedetailleerde uitvoerindeling

Wanneer u een SpeechRecognizerindeling maakt, kunt u de indeling aanvragen Detailed of Simple uitvoeren. De DetailedSpeechRecognitionResult bevat een betrouwbaarheidsscore, herkende tekst, onbewerkte lexicale vorm, genormaliseerde vorm en genormaliseerde vorm met gemaskeerde grof taalgebruik.

Wijziging die fouten veroorzaken

SpeechRecognitionResult.Text Gewijzigd in van SpeechRecognitionResult.RecognizedText in C#.

Bugfixes

Er is een mogelijk callbackprobleem opgelost in de USP-laag tijdens het afsluiten.
Als een recognizer een audio-invoerbestand gebruikte, hield het langer dan nodig vast aan de bestandsgreep.
Er zijn verschillende impasses tussen de berichtpomp en de herkenning verwijderd.
Er wordt een resultaat geactiveerd wanneer er een NoMatch time-out optreedt voor het antwoord van de service.
De mediabasisbibliotheken in Windows worden vertraagd geladen. Deze bibliotheek is alleen vereist voor microfooninvoer.
De uploadsnelheid voor audiogegevens is beperkt tot ongeveer twee keer de oorspronkelijke audiosnelheid.
In Windows zijn C# .NET-assembly's nu sterk benoemd.
Oplossing voor documentatie: Region is vereiste informatie voor het maken van een recognizer.

Er zijn meer voorbeelden toegevoegd en worden voortdurend bijgewerkt. Zie de GitHub-opslagplaats met Speech SDK-voorbeelden voor de nieuwste set voorbeelden.

Azure AI Speech SDK 0.2.12733: release van 2018-mei

Deze release is de eerste openbare preview-versie van de Azure AI Speech SDK.

Speech CLI 1.37.0: release van april 2024

Bijgewerkt voor gebruik van Speech SDK 1.37.0

Nieuwe functies

Geen

Bugfixes

Geen

Speech CLI 1.36.0: release van maart 2024

Bijgewerkt voor gebruik van Speech SDK 1.36.0

Nieuwe functies

Geen

Bugfixes

Geen

Speech CLI 1.35.0: release van februari 2024

Bijgewerkt voor gebruik van Speech SDK 1.35.0

Nieuwe functies

Geen

Bugfixes

JMESPath-afhankelijkheid bijwerken naar de nieuwste versie

Speech CLI 1.34.0: release van november 2023

Bijgewerkt voor gebruik van Speech SDK 1.34.0

Speech CLI 1.33.0: release van oktober 2023

Bijgewerkt voor gebruik van Speech SDK 1.34.0

Speech CLI 1.31.0: release van augustus 2023

Bijgewerkt voor gebruik van Speech SDK 1.31.0

Speech CLI 1.30.0: release van juli 2023

Bijgewerkt voor gebruik van Speech SDK 1.30.0

Speech CLI 1.29.0: release van juni 2023

Bijgewerkt voor gebruik van Speech SDK 1.29.0

Speech CLI 1.28.0: release van mei 2023

Bijgewerkt voor gebruik van Speech SDK 1.28.0

Speech CLI 1.27.0: release van april 2023

Updates

Bijgewerkt voor gebruik van Speech SDK 1.27.0
Werk het standaardeindpunt bij voor het gebruik van v3.1 REST API's voor aangepaste spraakherkenning en Batch-spraakherkenning.

Bugfixes

Oplossingen met betrekking tot de wijze waarop queryparameters worden geparseerd/geconfigureerd.

Speech CLI 1.26.0: release van maart 2023

Bijgewerkt voor gebruik van Speech SDK 1.26.0.

Speech CLI 1.25.0: release van januari 2023

Bijgewerkt voor gebruik van Speech SDK 1.25.0.

Speech CLI 1.24.0: release van oktober 2022

Gebruikt Speech SDK 1.24.0.

Nieuwe functies

Uitgebreide 'spx-controle' ter ondersteuning van JMESPath-query's voor alle SPX-gebeurtenissen

Bugfixes

Verschillende verbeteringen in robuustheid ten opzichte van JMESPath-queryevaluaties
Oplossing voor afkappingen naar bestandsschrijfbewerkingen die kunnen optreden op machines met beperkte resources

Speech CLI 1.23.0: release van juli 2022

Gebruikt Speech SDK 1.23.0.

Nieuwe functies

Betere onderschrift (--output vtt en --output srt) grote resultaatsplitsing (maximaal 37 tekens, 3 lijnen)
Gedocumenteerde spx synthesize--format opties (zie spx help synthesize format)
De meeste spx csr opdrachten/opties gedocumenteerd (zie spx help csr)
Opdracht toegevoegd spx csr model copy (zie spx help csr model copy)
Optie toegevoegd --check result met behulp van JMES-query's (zie spx help check result)
Verbeterde foutberichten bij het opgeven van ongeldige opdrachtopties
Verplaatst van .NET Core 3.1 naar .NET 6.0. Als u Speech CLI wilt uitvoeren, moet u de .NET 6.0 Runtime (of hoger) installeren.

Bugfixes

Alle URL's bijgewerkt om taal te verwijderen (bijvoorbeeld 'en-US')
Er is een probleem opgelost met versiegegevens om correct te rapporteren in alle gevallen (voorheen werd er soms een lege versie weergegeven)

Speech CLI 1.22.0: release van juni 2022

Gebruikt Speech SDK 1.22.0.

Nieuwe functies

Opdracht toegevoegd spx init om gebruikers te begeleiden bij het maken van de Spraak-resourcesleutel zonder naar Azure Web Portal te gaan.
Speech Docker-containers hebben nu Azure CLI opgenomen, dus de spx init opdracht werkt standaard.
Tijdstempel toegevoegd als uitvoeroptie voor gebeurtenissen, om SPX nuttiger te maken bij het berekenen van latenties.

Speech CLI 1.21.0: release van april 2022

Gebruikt Speech SDK 1.21.0.

Nieuwe functies

WEBVTT-bijschrift genereren
- Ondersteuning voor --output vtt toegevoegd aan spx translate
- Ondersteunt --output vtt file FILENAME het overschrijven van standaard-VTT-BESTANDSNAAM
- Ondersteunt --output vtt file - schrijven naar standaarduitvoer
- Afzonderlijke VTT-bestanden worden gemaakt voor elke doeltaal (bijvoorbeeld --target en;de;fr)
SRT-bijschrift genereren
- Ondersteuning toegevoegd --output srt aan spx recognize, spx intenten spx translate
- Ondersteunt --output srt file FILENAME het overschrijven van standaard-SRT-BESTANDSNAAM
- Ondersteunt --output srt file - schrijven naar standaarduitvoer
- Voor spx translateelke doeltaal worden afzonderlijke SRT-bestanden gemaakt (bijvoorbeeld --target en;de;fr)

Bugfixes

Uitvoer van WEBVTT-tijdspanne gecorrigeerd om de indeling goed te gebruiken hh:mm:ss.fff

Speech CLI 1.20.0: release van januari 2022

Nieuwe functies

Sprekerherkenning
- spx profile enroll en spx speaker [identify/verify] nu microfooninvoer ondersteunen
Intentieherkenning (spx intent)
- --keyword FILE.table
- --pattern en --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, , --once+--continuous (doorlopend nu standaard)
- --output all/each connection EVENT
- --output all/each connection message(bijvoorbeeld , textpath)
Controle/creatie van de uitvoer van de CLI-console:
- --expect PATTERN en --not expect PATTERN ondersteuning voor alle opdrachten
- --auto expect om verwachte patronen te ontwerpen
Controle/creatie van uitvoer van SDK-logboekregistratie
- --log expect PATTERN en --not log expect PATTERN ondersteuning voor alle opdrachten
- --log auto expect [FILTER] ondersteuning voor alle opdrachten
- --log FILE ondersteuning voor spx profile en spx speaker
Invoer van audiobestanden
- --format ANY ondersteuning voor alle opdrachten
- --file - ondersteuning (lezen van standaardinvoer, het inschakelen van pijpscenario's)
Uitvoer van audiobestand
- --audio output - Schrijven naar standaarduitvoer, waardoor pijpscenario's mogelijk zijn
Uitvoerbestanden
- --output all/each file - Schrijven naar standaarduitvoer
- --output batch file - Schrijven naar standaarduitvoer
- --output vtt file - Schrijven naar standaarduitvoer
- --output json file - Schrijven naar standaarduitvoer, voor spx csr en spx batch opdrachten
Uitvoereigenschappen
- --output […] result XXX property (PropertyId of tekenreeks)
- --output […] connection message received XXX property (PropertyId of tekenreeks)
- --output […] recognizer XXX property (PropertyId of tekenreeks)
Integratie van Azure WebJob
- spx webjob volgt nu het subopdrachtpatroon
- Bijgewerkte WebJob help om het subopdrachtpatroon weer te geven (zie spx help webjob)

Bugfixes

Er is een fout opgelost wanneer beide --output vtt FILE en --output batch FILE tegelijkertijd worden gebruikt
spx [...] --zip ZIPFILENAME bevat nu alle binaire bestanden die vereist zijn voor alle scenario's (indien aanwezig)
spx profile en spx speaker opdrachten retourneren nu gedetailleerde foutinformatie over annulering

Release van 2021-mei

Nieuwe functies

Er is ondersteuning toegevoegd voor profiel-, spreker-id- en sprekercontrole: probeer spx profile en spx speaker vanaf de opdrachtregel.
We hebben ook ondersteuning voor dialoogvensters toegevoegd: probeer spx dialog het vanaf de opdrachtregel.
Verbeterde spx hulp. Geef ons feedback over hoe dit voor u werkt door een GitHub-probleem te openen.
We hebben de grootte van de installatie van het .NET-hulpprogramma verkleind.

COVID-19 verkorte tests

Omdat de doorlopende pandemie onze technici blijft verplichten om thuis te werken, zijn handmatige verificatiescripts voor de pre-pandemie aanzienlijk verminderd. We testen op minder apparaten met minder configuraties en de kans op omgevingsspecifieke fouten die zich voordoen, kan worden verhoogd. We valideren nog steeds grondig met een grote set automatisering. In het onwaarschijnlijke geval dat we iets hebben gemist, laat het ons dan weten op GitHub.
Blijf gezond!

Release van 2021-maart

Nieuwe functies

Opdracht spx intent toegevoegd voor intentieherkenning, vervangen spx recognize intent.
Herkennen en intenties kunnen nu Azure-functies gebruiken om het foutpercentage van woorden te berekenen met behulp van spx recognize --wer url <URL>.
Recognize kan nu resultaten uitvoeren als VTT-bestanden met behulp van spx recognize --output vtt file <FILENAME>.
Gevoelige sleutelgegevens worden nu verborgen in foutopsporing/uitgebreide uitvoer.
URL-controle en foutbericht toegevoegd voor inhoudsveld in batchtranscriptie maken.

COVID-19 verkorte tests

Release van 2021-januari

Nieuwe functies

Speech CLI is nu beschikbaar als een NuGet-pakket en kan worden geïnstalleerd via .NET CLI als een algemeen .NET-hulpprogramma dat u kunt aanroepen vanuit de shell/opdrachtregel.
De devOps-sjabloonopslagplaats voor aangepaste spraak is bijgewerkt om Speech CLI te gebruiken voor de aangepaste spraakwerkstromen.

COVID-19 verkorte tests

Release van 2020-oktober

SPX is de opdrachtregelinterface voor het gebruik van de Speech-service zonder code te schrijven. Download hier de nieuwste versie.

Nieuwe functies

spx csr dataset upload --kind audio|language|acoustic – gegevenssets maken op basis van lokale gegevens, niet alleen van URL's.
spx csr evaluation create|status|list|update|delete – vergelijk nieuwe modellen met basislijnwaar/andere modellen.
spx * list – ondersteunt niet-pagina-ervaring (vereist geen --top X --skip X).
spx * --http header A=B – ondersteuning voor aangepaste headers (toegevoegd voor Office voor aangepaste verificatie).
spx help – verbeterde tekst- en back-tick-tekstkleur gecodeerd (blauw).

Release van 2020-juni

In-CLI help-zoekfuncties toegevoegd:
- spx help find --text TEXT
- spx help find --topic NAME
Bijgewerkt voor gebruik met nieuw geïmplementeerde v3.0 Batch- en aangepaste spraak-API's:
- spx help batch examples
- spx help csr examples

COVID-19 verkorte tests

Speech CLI (ook wel BEKEND als SPX): release van 2020 mei

SPX is een nieuw opdrachtregelprogramma waarmee u vanaf de opdrachtregel herkenning, synthese, vertaling, batchtranscriptie en aangepast spraakbeheer kunt uitvoeren. Gebruik deze om de Speech-service te testen of om de Speech-servicetaken te scripten die u moet uitvoeren. Download het hulpprogramma en lees de documentatie hier.

Release van april 2024

Avatar tekst naar spraak

U kunt nu een statische achtergrondafbeelding instellen voor uw avatars. Als u deze functie wilt gebruiken, gebruikt u de avatarConfig.backgroundImage eigenschap en geeft u een URL op die verwijst naar de gewenste afbeelding. Voor detialen raadpleegt u Hoe u de achtergrond bewerkt.

Release van maart 2024

Vooraf samengestelde neurale stem

9 meertalige stemmen zijn algemeen beschikbaar in alle regio's: en-US-AvaMultilingualNeural, , en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, de-DE-FlorianMultilingualNeuralen-US-BrianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, , fr-FR-RemyMultilingualNeural, , , fr-FR-VivienneMultilingualNeuralen zh-CN-XiaoxiaoMultilingualNeural. Zie de volledige taal- en spraaklijst voor meer informatie.
Introductie van een nieuwe meertalige stem voor openbare preview: ja-JP-MasaruMultilingualNeural. Zie de volledige taal- en spraaklijst voor meer informatie.
Aanvullende updates:
- en-US-RyanMultilingualNeural is algemeen beschikbaar in alle regio's.
- en-US-JennyMultilingualV2Neural is algemeen beschikbaar in alle regio's, samengevoegd met en-US-JennyMultilingualNeural.
- Preview beschikbaar voor de bijgewerkte en-IN-NeerjaNeural en hi-IN-SwaraNeural met drie nieuwe stijlen in VS - oost, Europa - west en Azië - zuidoost.
- Preview beschikbaar voor nieuwe vrouwelijke stemmen in Centraal-India: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeuralen hi-IN-AnanyaNeural.

Avatar tekst naar spraak

Afhankelijkheid van ACS (Azure Communication Services) TURN verwijderd voor realtime avatar. De voorbeeldcode is dienovereenkomstig bijgewerkt om deze wijziging weer te geven.
Prijzen voor gepubliceerde tekst-naar-spraak-avatars. Zie de pagina met prijzen voor meer informatie. De prijzen van avatars zijn alleen zichtbaar voor serviceregio's waar de functie beschikbaar is, waaronder VS - west 2, Europa - west en Azië - zuidoost.

Release van februari 2024

OpenAI-stemmen

De Azure AI Speech-service ondersteunt OpenAI-tekst naar spraakstemmen in de volgende regio's: VS - noord-centraal en Zweden - centraal. Net als Azure AI Speech-stemmen leveren OpenAI-tekst naar spraakstemmen spraaksynthese van hoge kwaliteit om geschreven tekst om te zetten in natuurlijk klinkende gesproken audio. Dit biedt een breed scala aan mogelijkheden voor insluitende en interactieve gebruikerservaringen. Zie Wat zijn OpenAI-tekst voor spraakstemmen? voor meer informatie.

Notitie

OpenAI-tekst naar spraakstemmen zijn ook beschikbaar in Azure OpenAI Service.
Met deze update hebben we de prijzen van vooraf samengestelde neurale stemmen aangepast met Azure AI Speech. Bekijk hier de bijgewerkte prijzen.

Persoonlijke stem

De persoonlijke spraakfunctie ondersteunt DragonLatestNeural nu en PhoenixLatestNeural modellen. Deze nieuwe modellen verbeteren de natuurlijkheid van gesynthetiseerde stemmen en lijken beter op de spraakkenmerken van de stem in de prompt. Raadpleeg Persoonlijke stem integreren in uw toepassing voor meer informatie.

Release van december 2023

Aangepaste spraak-API

De aangepaste spraak-API is beschikbaar voor het maken en beheren van professionele en persoonlijke aangepaste neurale spraakmodellen.

Aangepaste neurale spraak

De nieuw getrainde spraakmodellen ondersteunen nu de samplefrequentie van 48 kHz, ongeacht de modelversie. Voor eerder getrainde spraakmodellen is het noodzakelijk om de engineversie te upgraden naar ten minste 2023.11.13.0 om de steekproefsnelheid te verbeteren tot 48 kHz.

Vooraf samengestelde neurale stem

Introductie van nieuwe meertalige stemmen voor openbare preview:

Landinstelling (BCP-47)	Taal	Stemmen voor tekst naar spraak
`de-DE`	Duits (Duitsland)	`de-DE-FlorianMultilingualNeural` (Mannelijk)
`de-DE`	Duits (Duitsland)	`de-DE-SeraphinaMultilingualNeural` (Vrouwelijk)
`en-US`	Engels (Verenigde Staten)	`en-US-AvaMultilingualNeural` (Vrouwelijk)
`en-US`	Engels (Verenigde Staten)	`en-US-EmmaMultilingualNeural` (Vrouwelijk)
`fr-FR`	Frans (Frankrijk)	`fr-FR-RemyMultilingualNeural` (Mannelijk)
`en-US`	Engels (Verenigde Staten)	`en-US-BrianMultilingualNeural` (Mannelijk)
`en-US`	Engels (Verenigde Staten)	`en-US-AndrewMultilingualNeural` (Mannelijk)
`fr-FR`	Frans (Frankrijk)	`fr-FR-VivienneMultilingualNeural` (Vrouwelijk)
`zh-CN`	Chinees (Mandarijn, Vereenvoudigd)	`zh-CN-XiaoxiaoMultilingualNeural` (Vrouwelijk)
`zh-CN`	Chinees (Mandarijn, Vereenvoudigd)	`zh-CN-XiaochenMultilingualNeural` (Vrouwelijk)
`zh-CN`	Chinees (Mandarijn, Vereenvoudigd)	`zh-CN-YunyiMultilingualNeural` (Mannelijk)

Introductie van nieuwe zh-CN-XiaoxiaoDialectsNeural stemmen voor openbare preview die ondersteuning bieden voor verschillende Chinese dialecten en accenten:

Voicename	Secundaire taal	Dialect/accent
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Chinees (Het Mandarijn Shaanxi, Vereenvoudigd)
	`zh-CN-sichuan`	Chinees (Zuidwestelijk Mandarijn, Vereenvoudigd)
	`zh-CN-shanxi`	Chinees (Shanxi Accent Mandarijn, Vereenvoudigd)
	`nan-CN`	Chinees (Zuid-Min, Vereenvoudigd)
	`zh-CN-anhui`	Chinees (Jianghuai Mandarijn Anhui, Vereenvoudigd)
	`zh-CN-hunan`	Chinees (Hunan Accent Mandarijn, Vereenvoudigd)
	`zh-CN-gansu`	Chinees (Lanyin Mandarijn Gansu, Vereenvoudigd)
	`zh-CN-shandong`	Chinees (Jilu Mandarijn, Vereenvoudigd)
	`zh-CN-henan`	Chinees (Het Mandarijn Henan, Vereenvoudigd)
	`zh-CN-liaoning`	Chinees (Noordoostelijk Mandarijn, Vereenvoudigd)
	`zh-TW`	Chinees (Taiwanese Mandarijn, Traditioneel)

Release van november 2023

Persoonlijke stem

Persoonlijke stem is beschikbaar in preview in de volgende regio's: Europa - west, VS - oost en Azië - zuidoost. Met persoonlijke stem (preview) kunt u binnen een paar seconden ai-gegenereerde replicatie van uw stem (of gebruikers van uw toepassing) krijgen. U geeft een spraakvoorbeeld van één minuut op als de audioprompt en gebruikt deze om spraak te genereren in een van de meer dan 90 talen die worden ondersteund in meer dan 100 landinstellingen.

Zie persoonlijke stem voor meer informatie.

Avatar tekst naar spraak

Avatar voor tekst-naar-spraak is beschikbaar in de preview-versie in de volgende regio's: VS - west 2, Europa - west en Azië - zuidoost.

Tekst naar spraak-avatar converteert tekst naar een digitale video van een fotorealistisch mens (een vooraf samengestelde avatar of een aangepaste tekst naar spraak avatar) die spreekt met een natuurlijke stem. De video van de tekst naar spraak-avatar kan asynchroon of in realtime worden gesynthetiseerd. Ontwikkelaars kunnen toepassingen bouwen die zijn geïntegreerd met tekst-naar-spraak-avatar via een API of een hulpprogramma voor het maken van inhoud in Speech Studio gebruiken om video-inhoud te maken zonder code te coderen.

Zie tekst-naar-spraak-avatar, transparantienotities en openbaarmaking voor stem- en avatartalent voor meer informatie.

Aangepaste neurale spraak

Ondersteuning toegevoegd voor de 24 nieuwe landinstellingen voor cross-lingual voice. Zie de volledige taallijst voor meer informatie.

Vooraf samengestelde neurale stem

Introductie van nieuwe stemmen voor openbare preview:

Landinstelling (BCP-47)	Taal	Stemmen voor tekst naar spraak
`de-DE`	Duits (Duitsland)	`SeraphinaNeural` (Vrouwelijk)
`es-ES`	Spaans (Spanje)	`XimenaNeural` (Vrouwelijk)
`fr-CA`	Frans (Canada)	`ThierryNeural` (Mannelijk)
`fr-FR`	Frans (Frankrijk)	`VivienneNeural` (Vrouwelijk)
`it-IT`	Italiaans (Italië)	`GiuseppeNeural` (Mannelijk)
`ko-KR`	Koreaans (Korea)	`HyunsuNeural` (Mannelijk)
`pt-BR`	Portugees (Brazilië)	`ThalitaNeural` (Vrouwelijk)

Modellen bijgewerkt met fouten die zijn opgelost en kwaliteitsverbetering:

Landinstelling (BCP-47)	Taal	Stemmen voor tekst naar spraak
`es-ES`	Spaans (Spanje)	`AlvaroNeural` (Mannelijk)
`en-GB`	Engels (Verenigd Koninkrijk)	`RyanNeural` (Mannelijk)
`ko-KR`	Koreaans (Korea)	`InjoonNeural` (Mannelijk)

Zie de volledige taal- en spraaklijst voor meer informatie.

Versie van oktober 2023

Aangepaste neurale spraak

Ondersteuning toegevoegd voor de 12 nieuwe landinstellingen met aangepaste neurale spraak Pro. Zie de volledige taallijst voor meer informatie.

Release van september 2023

Vooraf samengestelde neurale stem

Introductie van nieuwe stemmen voor openbare preview:

Landinstelling (BCP-47)	Taal	Stemmen voor tekst naar spraak
`en-US`	Engels (Verenigde Staten)	`en-US-EmmaNeural` (Vrouwelijk)
`en-US`	Engels (Verenigde Staten)	`en-US-AndrewNeural` (Mannelijk)
`en-US`	Engels (Verenigde Staten)	`en-US-BrianNeural` (Mannelijk)

Zie de volledige taal- en spraaklijst voor meer informatie.

Ingesloten neurale stem

Alle 147 landinstellingen (behalve fa-IR, Perzisch (Iran)) zijn beschikbaar in de doos met ofwel 1 geselecteerde vrouwelijke en/of 1 geselecteerde mannelijke stemmen.

Release augustus 2023

Aangepaste neurale spraak

De nieuwste CNV Lite trainingsreceptversie is nu uitgebracht. Deze release biedt verschillende verbeteringen aan de kwaliteit van uw taalmodellen. Probeer Speech Studio uit.

Release van juli 2023

Aangepaste neurale spraak

Spraak in meerdere stijlen is algemeen beschikbaar.
Er zijn twee nieuwe landinstellingen toegevoegd in openbare preview voor spraak in meerdere stijlen: ja-JP en zh-CN. Zie de volledige taal- en spraaklijst voor meer informatie. Raadpleeg de vooraf ingestelde stijllijst voor verschillende talen.
Cross-lingual voice is algemeen beschikbaar.
Er zijn twee nieuwe landinstellingen toegevoegd voor taaloverschrijdende spraak: id-ID en nl-NL. Zie de volledige taal- en spraaklijst voor meer informatie.

Vooraf samengestelde neurale TTS-stemmen

Introductie van nieuwe en-US genderneutrale stem voor openbare preview:

Landinstelling (BCP-47)	Taal	Stemmen voor tekst naar spraak
`en-US`	Engels (Verenigde Staten)	`en-US-BlueNeural` (Neutraal)

Introductie van nieuwe meertalige stemmen voor openbare preview:

Landinstelling (BCP-47)	Taal	Stemmen voor tekst naar spraak
`en-US`	Engels (Verenigde Staten)	`en-US-JennyMultilingualV2Neural` (Vrouwelijk)
`en-US`	Engels (Verenigde Staten)	`en-US-RyanMultilingualNeural` (Mannelijk)

De meertalige stemmen en-US-JennyMultilingualV2Neural en en-US-RyanMultilingualNeural automatisch de taal van de invoertekst detecteren. U kunt het <lang> element echter nog steeds gebruiken om de spreektaal voor deze stemmen aan te passen.

Deze nieuwe meertalige stemmen kunnen spreken in 41 talen en accenten: Arabic (Egypt), , Arabic (Saudi Arabia), Dutch (Netherlands)French (France)French (Switzerland)French (Canada)Hindi (India)Russian (Russia)Swedish (Sweden)Thai (Thailand)Portuguese (Portugal)Polish (Poland)Chinese (Mandarin, Simplified)Portuguese (Brazil)Chinese (Taiwanese Mandarin, Traditional)Norwegian Bokmål (Norway)Dutch (Belgium)Japanese (Japan)Korean (Korea)Turkish (Türkiye)Chinese (Cantonese, Traditional)Indonesian (Indonesia)Italian (Italy)Hungarian (Hungary)CatalanCzech (Czechia)Danish (Denmark)German (Austria)German (Switzerland)German (Germany)English (Australia)English (Canada)English (United Kingdom)English (Hong Kong SAR)English (Ireland)English (India)English (United States)Spanish (Spain)Spanish (Mexico)Finnish (Finland)French (Belgium)

Deze meertalige stemmen ondersteunen bepaalde SSML-elementen niet volledig, zoals onderbreking, nadruk, stilte en sub.

Belangrijk

De en-US-JennyMultilingualV2Neural stem wordt tijdelijk aangeboden in openbare preview soley voor evaluatiedoeleinden. Deze wordt in de toekomst verwijderd.

Als u in een andere taal dan Engels wilt spreken, moet u voor de huidige implementatie van de en-US-JennyMultilingualNeural stem het <lang xml:lang> element instellen. We verwachten dat in het kalenderjaar 2023 van Q4 de en-US-JennyMultilingualNeural stem wordt bijgewerkt om te spreken in de taal van de invoertekst zonder het <lang xml:lang> element. Dit is in pariteit met de en-US-JennyMultilingualV2Neural stem.

Maak kennis met nieuwe functies in openbare preview voor onderstaande stemmen:

Latijnse invoer toegevoegd voor Servische stemmen sr-latn-RS-SophieNeural (Servië): sr-RS en sr-latn-RS-NicholasNeural.
Engelse uitspraakondersteuning toegevoegd voor Albanese stemmen sq-AL-AnilaNeural (Albanië): sq-AL en sq-AL-IlirNeural.

Versie van mei 2023

Audio-inhoud maken

Alle vooraf gemaakte stemmen met spreekstijlen en aangepaste stemmen met meerdere stijlen ondersteunen aanpassing van stijlgraden.
U kunt nu de uitspraak van een woord oplossen door het woord te spreken en op te nemen. De telefoontjes kunnen automatisch worden herkend vanuit uw opname. De functie Recognize by speaking is nu beschikbaar als openbare preview.

Versie van april 2023

Vooraf samengestelde neurale TTS-stemmen

De volgende functies van deze stemmen zijn verplaatst van openbare preview naar algemene beschikbaarheid:

Stijl	Stemmen voor tekst naar spraak
style="chat"	`en-GB-RyanNeural`, en `es-MX-JorgeNeuralit-IT-IsabellaNeural`
style="vrolijk"	`en-GB-RyanNeural`, , `en-GB-SoniaNeurales-MX-JorgeNeural`, `fr-FR-DeniseNeural`, , , en `fr-FR-HenriNeuralit-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural` en `fr-FR-HenriNeural`

Verbeter de Engelse uitspraak voor hi-IN, ta-IN en te-IN stemmen, nu vlucht in openbare preview-regio's

Zie de taal- en spraaklijst voor meer informatie.

Release van maart 2023

Nieuwe functies

Speech Synthesis Markup Language (SSML) wordt bijgewerkt ter ondersteuning van audio-effectprocessorelementen die de kwaliteit van de gesynthetiseerde spraakuitvoer optimaliseren voor specifieke scenario's op apparaten. Meer informatie over spraaksynthesemarkeringen.

Aangepaste neurale spraak

Ondersteuning toegevoegd voor de nl-BE landinstelling met Custom Neural Voice Pro. Zie de volledige taal- en spraaklijst voor meer informatie.

Vooraf samengestelde neurale TTS-stemmen

De volgende stemmen zijn nu algemeen beschikbaar. Zie de volledige taal- en spraaklijst voor meer informatie.

Landinstelling (BCP-47)	Taal	Stemmen voor tekst naar spraak
`en-AU`	Engels (Australië)	`en-AU-AnnetteNeural` (Vrouwelijk) `en-AU-CarlyNeural` (Vrouwelijk) `en-AU-DarrenNeural` (Mannelijk) `en-AU-DuncanNeural` (Mannelijk) `en-AU-ElsieNeural` (Vrouwelijk) `en-AU-FreyaNeural` (Vrouwelijk) `en-AU-JoanneNeural` (Vrouwelijk) `en-AU-KenNeural` (Mannelijk) `en-AU-KimNeural` (Vrouwelijk) `en-AU-NeilNeural` (Mannelijk) `en-AU-TimNeural` (Mannelijk) `en-AU-TinaNeural` (Vrouwelijk) `en-AU-WilliamNeural` (Mannelijk)
`en-GB`	Engels (Verenigd Koninkrijk)	`en-GB-RyanNeural` (Mannelijk) `en-GB-SoniaNeural` (Vrouwelijk)
`es-ES`	Spaans (Spanje)	`es-ES-AbrilNeural` (Vrouwelijk) `es-ES-ArnauNeural` (Mannelijk) `es-ES-DarioNeural` (Mannelijk) `es-ES-EliasNeural` (Mannelijk) `es-ES-EstrellaNeural` (Vrouwelijk) `es-ES-IreneNeural` (Vrouwelijk) `es-ES-LaiaNeural` (Vrouwelijk) `es-ES-LiaNeural` (Vrouwelijk) `es-ES-NilNeural` (Mannelijk) `es-ES-SaulNeural` (Mannelijk) `es-ES-TeoNeural` (Mannelijk) `es-ES-TrianaNeural` (Vrouwelijk) `es-ES-VeraNeural` (Vrouwelijk)
`es-MX`	Spaans (Mexico)	`es-MX-JorgeNeural` (Mannelijk)
`fr-FR`	Frans (Frankrijk)	`fr-FR-HenriNeural` (Mannelijk)
`it-IT`	Italiaans (Italië)	`it-IT-IsabellaNeural` (Vrouwelijk)
`ja-JP`	Japans (Japan)	`ja-JP-AoiNeural` (Vrouwelijk) `ja-JP-DaichiNeural` (Mannelijk) `ja-JP-MayuNeural` (Vrouwelijk) `ja-JP-NaokiNeural` (Mannelijk) `ja-JP-ShioriNeural` (Vrouwelijk)

Ondersteuning toegevoegd voor de cheerful stijl met de de-DE-ConradNeural stem.

Release van februari 2023

Vooraf samengestelde neurale TTS-stemmen

De volgende stemmen zijn nu algemeen beschikbaar. Zie de volledige taal- en spraaklijst voor meer informatie.

Landinstelling (BCP-47)	Taal	Stemmen voor tekst naar spraak
`zh-CN`	Chinees (Mandarijn, Vereenvoudigd)	`zh-CN-XiaomengNeural` (Vrouwelijk) `zh-CN-XiaoyiNeural` (Vrouwelijk) `zh-CN-XiaozhenNeural` (Vrouwelijk) `zh-CN-YunfengNeural` (Mannelijk) `zh-CN-YunhaoNeural` (Mannelijk) `zh-CN-YunjianNeural` (Mannelijk) `zh-CN-YunxiaNeural` (Mannelijk) `zh-CN-YunzeNeural` (Mannelijk)
`zh-CN-henan`	Chinees (Het Mandarijn Henan, Vereenvoudigd)	`zh-CN-henan-YundengNeural` (Mannelijk)

Release van december 2022

REST API voor batchsynthese (preview)

De Batch-synthese-API is momenteel beschikbaar als openbare preview. Zodra deze algemeen beschikbaar is, wordt de Long Audio-API afgeschaft. Zie Migreren naar batchsynthese-API voor meer informatie.

Release van november 2022

Vooraf gedefinieerde neurale TTS-stemmen (GA)

De volgende stemmen zijn nu algemeen beschikbaar. Zie de volledige taal- en spraaklijst voor meer informatie.

Landinstelling (BCP-47)	Taal	Stemmen voor tekst naar spraak
`es-MX`	Spaans (Mexico)	`es-MX-BeatrizNeural` (Vrouwelijk) `es-MX-CandelaNeural` (Vrouwelijk) `es-MX-CarlotaNeural` (Vrouwelijk) `es-MX-CecilioNeural` (Mannelijk) `es-MX-GerardoNeural` (Mannelijk) `es-MX-LarissaNeural` (Vrouwelijk) `es-MX-LibertoNeural` (Mannelijk) `es-MX-LucianoNeural` (Mannelijk) `es-MX-MarinaNeural` (Vrouwelijk) `es-MX-NuriaNeural` (Vrouwelijk) `es-MX-PelayoNeural` (Mannelijk) `es-MX-RenataNeural` (Vrouwelijk) `es-MX-YagoNeural` (Mannelijk)
`it-IT`	Italiaans (Italië)	`it-IT-BenignoNeural` (Mannelijk) `it-IT-CalimeroNeural` (Mannelijk) `it-IT-CataldoNeural` (Mannelijk) `it-IT-FabiolaNeural` (Vrouwelijk) `it-IT-FiammaNeural` (Vrouwelijk) `it-IT-GianniNeural` (Mannelijk) `it-IT-ImeldaNeural` (Vrouwelijk) `it-IT-IrmaNeural` (Vrouwelijk) `it-IT-LisandroNeural` (Mannelijk) `it-IT-PalmiraNeural` (Vrouwelijk) `it-IT-PierinaNeural` (Vrouwelijk) `it-IT-RinaldoNeural` (Mannelijk)
`pt-BR`	Portugees (Brazilië)	`pt-BR-BrendaNeural` (Vrouwelijk) `pt-BR-DonatoNeural` (Mannelijk) `pt-BR-ElzaNeural` (Vrouwelijk) `pt-BR-FabioNeural` (Mannelijk) `pt-BR-GiovannaNeural` (Vrouwelijk) `pt-BR-HumbertoNeural` (Mannelijk) `pt-BR-JulioNeural` (Mannelijk) `pt-BR-LeilaNeural` (Vrouwelijk) `pt-BR-LeticiaNeural` (Vrouwelijk) `pt-BR-ManuelaNeural` (Vrouwelijk) `pt-BR-NicolauNeural` (Mannelijk) `pt-BR-ValerioNeural` (Mannelijk) `pt-BR-YaraNeural` (Vrouwelijk)

Aangepaste neurale spraak

De volgende landinstellingsondersteuning wordt toegevoegd voor aangepaste neurale spraak. Zie de volledige taal- en spraaklijst voor meer informatie.

Ondersteuning toegevoegd voor de fr-BE landinstelling met aangepaste neurale spraak Pro.
Ondersteuning toegevoegd voor de es-ES landinstelling met aangepaste neurale spraak lite.

Release van oktober 2022

Vooraf gedefinieerde neurale TTS-stemmen (GA)

De volgende stemmen zijn nu algemeen beschikbaar. Zie de volledige taal- en spraaklijst voor meer informatie.

Landinstelling (BCP-47)	Taal	Stemmen voor tekst naar spraak
`eu-ES`	Baskisch	`eu-ES-AinhoaNeural` (Vrouwelijk) `eu-ES-AnderNeural` (Mannelijk)
`hy-AM`	Armeens (Armenië)	`hy-AM-AnahitNeural` (Vrouwelijk) `hy-AM-HaykNeural` (Mannelijk)

Vooraf gemaakte neurale TTS-stemmen (preview)

De volgende stemmen zijn nu beschikbaar in openbare preview. Zie de volledige taal- en spraaklijst voor meer informatie.

Landinstelling (BCP-47)	Taal	Stemmen voor tekst naar spraak
`en-AU`	Engels (Australië)	`en-AU-AnnetteNeural`(Vrouwelijk) `en-AU-CarlyNeural`(Vrouwelijk) `en-AU-DarrenNeural`(Mannelijk) `en-AU-DuncanNeural`(Mannelijk) `en-AU-ElsieNeural`(Vrouwelijk) `en-AU-FreyaNeural`(Vrouwelijk) `en-AU-JoanneNeural`(Vrouwelijk) `en-AU-KenNeural`(Mannelijk) `en-AU-KimNeural`(Vrouwelijk) `en-AU-NeilNeural`(Mannelijk) `en-AU-TimNeural`(Mannelijk) `en-AU-TinaNeural`(Vrouwelijk)
`es-ES`	Spaans (Spanje)	`es-ES-AbrilNeural`(Vrouwelijk) `es-ES-AlvaroNeural`(Mannelijk) `es-ES-ArnauNeural`(Mannelijk) `es-ES-DarioNeural`(Mannelijk) `es-ES-EliasNeural`(Mannelijk) `es-ES-EstrellaNeural`(Vrouwelijk) `es-ES-IreneNeural`(Vrouwelijk) `es-ES-LaiaNeural`(Vrouwelijk) `es-ES-LiaNeural`(Vrouwelijk) `es-ES-NilNeural`(Mannelijk) `es-ES-SaulNeural`(Mannelijk) `es-ES-TeoNeural`(Mannelijk) `es-ES-TrianaNeural`(Vrouwelijk) `es-ES-VeraNeural`(Vrouwelijk)
`ja-JP`	Japans (Japan)	`ja-JP-AoiNeural`(Vrouwelijk) `ja-JP-DaichiNeural`(Mannelijk) `ja-JP-MayuNeural`(Vrouwelijk) `ja-JP-NaokiNeural`(Mannelijk) `ja-JP-ShioriNeural`(Vrouwelijk)
`ko-KR`	Koreaans (Korea)	`ko-KR-BongJinNeural`(Mannelijk) `ko-KR-GookMinNeural`(Mannelijk) `ko-KR-JiMinNeural`(Vrouwelijk) `ko-KR-SeoHyeonNeural`(Vrouwelijk) `ko-KR-SoonBokNeural`(Vrouwelijk) `ko-KR-YuJinNeural`(Vrouwelijk)
`wuu-CN`	Chinees (Wu, Vereenvoudigd)	`wuu-CN-XiaotongNeural` (Vrouwelijk) `wuu-CN-YunzheNeural` (Mannelijk)
`yue-CN`	Chinees (Kantonees, Vereenvoudigd)	`yue-CN-XiaoMinNeural` (Vrouwelijk) `yue-CN-YunSongNeural` (Mannelijk)

Algemene TTS-spraakupdates

Verbeterde kwaliteit voor de fil-PH-AngeloNeural en fil-PH-BlessicaNeural stemmen.
Tekstnormalisatieregels worden bijgewerkt voor stemmen met de es-CL Spaanse (Chili) en uz-UZ Oezbeekse landinstellingen ....
Engelse lettersspelling toegevoegd voor stemmen met de sq-AL Albanese (Albanië) en az-AZ Azerbeidzjaanse landinstellingen (Azerbeidzjaans).
Verbeterde Engelse uitspraak voor de zh-HK-WanLungNeural stem.
Verbeterde vraagtoon voor de nl-NL-MaartenNeural en pt-BR-AntonioNeural stemmen.
Ondersteuning toegevoegd voor de <lang ="en-US"> tag voor betere Engelse uitspraak met de volgende stemmen: de-DE-ConradNeural, , de-DE-KatjaNeural, es-MX-DaliaNeurales-ES-AlvaroNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, , fr-FR-DeniseNeural, , fr-FR-HenriNeural, en it-IT-DiegoNeuralit-IT-IsabellaNeural.
Er is ondersteuning toegevoegd voor de style="chat" tag met de volgende stemmen: en-GB-RyanNeural, es-MX-JorgeNeuralen it-IT-IsabellaNeural.
Er is ondersteuning toegevoegd voor de style="cheerful" tag met de volgende stemmen: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, en fr-FR-HenriNeuralit-IT-IsabellaNeural.
Er is ondersteuning toegevoegd voor de style="sad" tag met de volgende stemmen: en-GB-SoniaNeuralen fr-FR-DeniseNeuralfr-FR-HenriNeural.

Release van september 2022

Vooraf samengestelde neurale TTS-stem

Alle vooraf samengestelde neurale stemmen zijn geüpgraded naar stemmen met een hoge kwaliteit met een samplefrequentie van 48 kHz.

Release van augustus 2022

Vooraf samengestelde neurale TTS-stem

Uitgebrachte nieuwe stemmen in openbare preview:

Stemmen voor Engels (Verenigde Staten): en-US-AIGenerate1Neural en en-US-AIGenerate2Neural.
Stemmen voor Chinese regionale talen: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeuralen zh-CN-shandong-YunxiangNeural.

Zie de taal- en spraaklijst voor meer informatie.

Release van juli 2022

Vooraf samengestelde neurale TTS-stem

5 nieuwe stemmen van zh-CN Chinees (Mandarijn, Vereenvoudigd) en 1 nieuwe stem van en-US Engels (Verenigde Staten) toegevoegd in openbare preview. Bekijk de volledige taal en spraaklijst.

Taal	Landinstelling	Geslacht	Spraaknaam	Stijlondersteuning
Chinees (Mandarijn, Vereenvoudigd)	`zh-CN`	Vrouwelijk	`zh-CN-XiaomengNeural`^New	Algemeen, meerdere stijlen beschikbaar met SSML
Chinees (Mandarijn, Vereenvoudigd)	`zh-CN`	Vrouwelijk	`zh-CN-XiaoyiNeural`^New	Algemeen, meerdere stijlen beschikbaar met SSML
Chinees (Mandarijn, Vereenvoudigd)	`zh-CN`	Vrouwelijk	`zh-CN-XiaozhenNeural`^New	Algemeen, meerdere stijlen beschikbaar met SSML
Chinees (Mandarijn, Vereenvoudigd)	`zh-CN`	Mannelijk	`zh-CN-YunxiaNeural`^New	Algemeen, meerdere stijlen beschikbaar met SSML
Chinees (Mandarijn, Vereenvoudigd)	`zh-CN`	Mannelijk	`zh-CN-YunzeNeural`^New	Algemeen, meerdere stijlen beschikbaar met SSML
Engels (Verenigde Staten)	`en-US`	Mannelijk	`en-US-RogerNeural`^New	Algemeen

Ondersteunde stijlen en rollen voor de toegevoegde neurale stemmen.

Spraak	Stijlen	Stijlgraad	Rollen
zh-CN-GewenstemengNeural ^{Openbare preview}	`chat`	Ondersteund
zh-CN-Azure-Azure Public ^Preview	`affectionate`, , `cheerfulangry`, `disgruntled`, , `embarrassed`, `fearful`, `sadgentleserious`	Ondersteund
zh-CN-SourcezhenNeural ^{Openbare preview}	`angry`, , `cheerfuldisgruntled`, `fearful`, , , `sadserious`	Ondersteund
zh-CN-YunxiaNeural ^{Openbare preview}	`angrycheerful`, `calm`, `fearfulsad`	Ondersteund
zh-CN-YunzeNeural ^{Openbare preview}	`angry`, , `cheerfulcalm`, `depressed`, , `disgruntled`, `documentary-narration`, `sadfearfulserious`	Ondersteund	Ondersteund

Gezichtspositie met viseme krijgen

Ondersteuning toegevoegd voor blendshapes om de gezichtsbewegingen van een 3D-teken te stimuleren dat u hebt ontworpen. Meer informatie over hoe u gezichtspositie krijgt met viseme.
SSML is bijgewerkt ter ondersteuning van het viseme-element. Zie markeringen voor spraaksynthese.

Release van juni 2022

Vooraf samengestelde neurale TTS-stem

Er zijn 9 nieuwe talen en varianten toegevoegd voor neurale tekst naar spraak:

Taal	Landinstelling	Geslacht	Spraaknaam	Stijlondersteuning
Arabisch (Libanon)	`ar-LB`	Vrouwelijk	`ar-LB-LaylaNeural`^New	Algemeen
Arabisch (Libanon)	`ar-LB`	Mannelijk	`ar-LB-RamiNeural`^New	Algemeen
Arabisch (Oman)	`ar-OM`	Vrouwelijk	`ar-OM-AyshaNeural`^New	Algemeen
Arabisch (Oman)	`ar-OM`	Mannelijk	`ar-OM-AbdullahNeural`^New	Algemeen
Azerbeidzjaans (Azerbeidzjaans)	`az-AZ`	Vrouwelijk	`az-AZ-BabekNeural`^New	Algemeen
Azerbeidzjaans (Azerbeidzjaans)	`az-AZ`	Mannelijk	`az-AZ-BanuNeural`^New	Algemeen
Bosnisch (Bosnië en Herzegovina)	`bs-BA`	Vrouwelijk	`bs-BA-VesnaNeural`^New	Algemeen
Bosnisch (Bosnië en Herzegovina)	`bs-BA`	Mannelijk	`bs-BA-GoranNeural`^New	Algemeen
Georgisch (Georgië)	`ka-GE`	Vrouwelijk	`ka-GE-EkaNeural`^New	Algemeen
Georgisch (Georgië)	`ka-GE`	Mannelijk	`ka-GE-GiorgiNeural`^New	Algemeen
Mongools (Mongools)	`mn-MN`	Vrouwelijk	`mn-MN-YesuiNeural`^New	Algemeen
Mongools (Mongools)	`mn-MN`	Mannelijk	`mn-MN-BataaNeural`^New	Algemeen
Nepalee (Nepalee)	`ne-NP`	Vrouwelijk	`ne-NP-HemkalaNeural`^New	Algemeen
Nepalee (Nepalee)	`ne-NP`	Mannelijk	`ne-NP-SagarNeural`^New	Algemeen
Albanese (Albanië)	`sq-AL`	Vrouwelijk	`sq-AL-AnilaNeural`^New	Algemeen
Albanese (Albanië)	`sq-AL`	Mannelijk	`sq-AL-IlirNeural`^New	Algemeen
Tamil (Maleisië)	`ta-MY`	Vrouwelijk	`ta-MY-KaniNeural`^New	Algemeen
Tamil (Maleisië)	`ta-MY`	Mannelijk	`ta-MY-SuryaNeural`^New	Algemeen

GA 36 stemmen van openbare preview voor en-GB Engels (Verenigd Koninkrijk), fr-FR Frans (Frankrijk) en de-DE Duits (Duitsland):

Taal	Landinstelling	Geslacht	Spraaknaam	Stijlondersteuning
Engels (Verenigd Koninkrijk)	`en-GB`	Vrouwelijk	`en-GB-AbbiNeural`	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Vrouwelijk	`en-GB-BellaNeural`	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Vrouwelijk	`en-GB-HollieNeural`	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Vrouwelijk	`en-GB-MaisieNeural`	Algemene, kinderstem
Engels (Verenigd Koninkrijk)	`en-GB`	Vrouwelijk	`en-GB-OliviaNeural`	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Vrouwelijk	`en-GB-SoniaNeural`	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Mannelijk	`en-GB-AlfieNeural`	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Mannelijk	`en-GB-ElliotNeural`	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Mannelijk	`en-GB-EthanNeural`	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Mannelijk	`en-GB-NoahNeural`	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Mannelijk	`en-GB-OliverNeural`	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Mannelijk	`en-GB-ThomasNeural`	Algemeen
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-BrigitteNeural`	Algemeen
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-CelesteNeural`	Algemeen
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-CoralieNeural`	Algemeen
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-EloiseNeural`	Algemene, kinderstem
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-JacquelineNeural`	Algemeen
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-JosephineNeural`	Algemeen
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-YvetteNeural`	Algemeen
Frans (Frankrijk)	`fr-FR`	Mannelijk	`fr-FR-AlainNeural`	Algemeen
Frans (Frankrijk)	`fr-FR`	Mannelijk	`fr-FR-ClaudeNeural`	Algemeen
Frans (Frankrijk)	`fr-FR`	Mannelijk	`fr-FR-JeromeNeural`	Algemeen
Frans (Frankrijk)	`fr-FR`	Mannelijk	`fr-FR-MauriceNeural`	Algemeen
Frans (Frankrijk)	`fr-FR`	Mannelijk	`fr-FR-YvesNeural`	Algemeen
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-AmalaNeural`	Algemeen
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-ElkeNeural`	Algemeen
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-GiselaNeural`	Algemene, kinderstem
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-KlarissaNeural`	Algemeen
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-LouisaNeural`	Algemeen
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-MajaNeural`	Algemeen
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-TanjaNeural`	Algemeen
Duits (Duitsland)	`de-DE`	Mannelijk	`de-DE-BerndNeural`	Algemeen
Duits (Duitsland)	`de-DE`	Mannelijk	`de-DE-ChristophNeural`	Algemeen
Duits (Duitsland)	`de-DE`	Mannelijk	`de-DE-KasperNeural`	Algemeen
Duits (Duitsland)	`de-DE`	Mannelijk	`de-DE-KillianNeural`	Algemeen
Duits (Duitsland)	`de-DE`	Mannelijk	`de-DE-KlausNeural`	Algemeen
Duits (Duitsland)	`de-DE`	Mannelijk	`de-DE-RalfNeural`	Algemeen

Er zijn 40 nieuwe stemmen toegevoegd voor es-MX Spaans (Mexico), it-IT Italiaans (Italië), pt-BR Portugees (Brazilië) en 2 accenten voor zh-CN Chinees (Mandarijn, Vereenvoudigd) in openbare preview:

Taal	Landinstelling	Geslacht	Spraaknaam	Stijlondersteuning
Spaans (Mexico)	`es-MX`	Vrouwelijk	`es-MX-BeatrizNeural`^New	Algemeen
Spaans (Mexico)	`es-MX`	Vrouwelijk	`es-MX-CarlotaNeural`^New	Algemeen
Spaans (Mexico)	`es-MX`	Vrouwelijk	`es-MX-NuriaNeural`^New	Algemeen
Spaans (Mexico)	`es-MX`	Vrouwelijk	`es-MX-RenataNeural`^New	Algemeen
Spaans (Mexico)	`es-MX`	Vrouwelijk	`es-MX-LarissaNeural`^New	Algemeen
Spaans (Mexico)	`es-MX`	Vrouwelijk	`es-MX-CandelaNeural`^New	Algemeen
Spaans (Mexico)	`es-MX`	Vrouwelijk	`es-MX-MarinaNeural`^New	Algemeen
Italiaans (Italië)	`it-IT`	Vrouwelijk	`it-IT-FiammaNeural`^New	Algemeen
Italiaans (Italië)	`it-IT`	Vrouwelijk	`it-IT-IrmaNeural`^New	Algemeen
Italiaans (Italië)	`it-IT`	Vrouwelijk	`it-IT-FabiolaNeural`^New	Algemeen
Italiaans (Italië)	`it-IT`	Vrouwelijk	`it-IT-PalmiraNeural`^New	Algemeen
Italiaans (Italië)	`it-IT`	Vrouwelijk	`it-IT-ImeldaNeural`^New	Algemeen
Italiaans (Italië)	`it-IT`	Vrouwelijk	`it-IT-PierinaNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Vrouwelijk	`pt-BR-ElzaNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Vrouwelijk	`pt-BR-ManuelaNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Vrouwelijk	`pt-BR-BrendaNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Vrouwelijk	`pt-BR-LeilaNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Vrouwelijk	`pt-BR-YaraNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Vrouwelijk	`pt-BR-GiovannaNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Vrouwelijk	`pt-BR-LeticiaNeural`^New	Algemeen
Spaans (Mexico)	`es-MX`	Mannelijk	`es-MX-CecilioNeural`^New	Algemeen
Spaans (Mexico)	`es-MX`	Mannelijk	`es-MX-LibertoNeural`^New	Algemeen
Spaans (Mexico)	`es-MX`	Mannelijk	`es-MX-LucianoNeural`^New	Algemeen
Spaans (Mexico)	`es-MX`	Mannelijk	`es-MX-PelayoNeural`^New	Algemeen
Spaans (Mexico)	`es-MX`	Mannelijk	`es-MX-YagoNeural`^New	Algemeen
Spaans (Mexico)	`es-MX`	Mannelijk	`es-MX-GerardoNeural`^New	Algemeen
Italiaans (Italië)	`it-IT`	Mannelijk	`it-IT-BenignoNeural`^New	Algemeen
Italiaans (Italië)	`it-IT`	Mannelijk	`it-IT-CataldoNeural`^New	Algemeen
Italiaans (Italië)	`it-IT`	Mannelijk	`it-IT-LisandroNeural`^New	Algemeen
Italiaans (Italië)	`it-IT`	Mannelijk	`it-IT-CalimeroNeural`^New	Algemeen
Italiaans (Italië)	`it-IT`	Mannelijk	`it-IT-RinaldoNeural`^New	Algemeen
Italiaans (Italië)	`it-IT`	Mannelijk	`it-IT-GianniNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Mannelijk	`pt-BR-DonatoNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Mannelijk	`pt-BR-HumbertoNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Mannelijk	`pt-BR-FabioNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Mannelijk	`pt-BR-JulioNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Mannelijk	`pt-BR-ValerioNeural`^New	Algemeen
Portugees (Brazilië)	`pt-BR`	Mannelijk	`pt-BR-NicolauNeural`^New	Algemeen
Chinees (Mandarijn, Vereenvoudigd)	`zh-CN-sichuan`	Mannelijk	`zh-CN-sichuan-YunxiSichuanNeural`^New	Algemeen, Sichuan accent
Chinees (Mandarijn, Vereenvoudigd)	`zh-CN-liaoning`	Vrouwelijk	`zh-CN-liaoning-XiaobeiNeural`^New	Algemeen, Liaoning accent

Verbeterde kwaliteit voor en-SG-LunaNeural en en-SG-WayneNeural
48kHz-uitvoerondersteuning voor openbare preview met en-US-JennyNeural, en-US-AriaNeural en zh-CN-SturingselementxiaoNeural

Aangepaste neurale spraak

Ingeschakeld om gegevensproblemen online op te lossen. Meer informatie over het oplossen van gegevensproblemen in Speech Studio.
Versie van trainingsrecept toegevoegd. Meer informatie over het selecteren van de trainingsreceptversie voor uw spraakmodel.

Hulpprogramma voor het maken van audio-inhoud

Ondersteunde paginering.
Ingeschakeld om globaal te sorteren op naam, bestandstype en updatetijd op werkbestandspagina.

Release van mei 2022

Vooraf samengestelde neurale TTS-stem

Uitgebracht 5 nieuwe stemmen in openbare preview met meerdere stijlen om de variëteit in amerikaans Engels te verrijken. Bekijk de volledige taal en spraaklijst.
Ondersteuning voor deze nieuwe stijlenAngry, , , FriendlyHopeful, , Sad, Shouting, en WhisperingUnfriendlyTerrified in openbare preview voor .en-US-AriaNeuralExcited
Ondersteuning voor deze nieuwe stijlenAngry, Cheerful, , Excited, Friendly, Hopeful, Sad, Shouting, en WhisperingTerrifiedUnfriendlyin openbare preview voor en-US-GuyNeural, en-US-JennyNeural.
Ondersteuning voor deze nieuwe stijlen, , , , Shoutingen WhisperingUnfriendlyTerrified in openbare preview voor en-US-SaraNeural. HopefulFriendlyExcited Toonstijlen en -rollen bekijken.
Nieuwe stemmen zh-CN-YunjianNeuraluitgebracht, zh-CN-YunhaoNeuralen zh-CN-YunfengNeural in openbare preview. Bekijk de volledige taal en spraaklijst.
Ondersteuning voor 2 nieuwe stijlen sports-commentary, sports-commentary-excited in openbare preview voor zh-CN-YunjianNeural. Toonstijlen en -rollen bekijken.
Ondersteuning voor 1 nieuwe stijl advertisement-upbeat in openbare preview voor zh-CN-YunhaoNeural. Toonstijlen en -rollen bekijken.
De cheerful stijlen en sad stijlen fr-FR-DeniseNeural voor zijn algemeen beschikbaar in alle regio's.
SSML is bijgewerkt ter ondersteuning van MathML-elementen voor en-US- en en-AU-stemmen. Meer informatie over spraaksynthesemarkeringen.

Aangepaste neurale spraak

Ingeschakeld om training te annuleren tijdens het trainingsstemmodel. Meer informatie over het annuleren van training.
Ingeschakeld om het model te klonen (naam van spraakmodel wijzigen). Meer informatie over het wijzigen van de naam van uw spraakmodel.
Ingeschakeld om uw spraakmodel te testen door uw eigen testscript toe te voegen. Meer informatie over het uploaden van uw testscript.
Ingeschakeld om de engineversie voor uw spraakmodel bij te werken. Meer informatie over het bijwerken van de versie van de model-engine.
Ondersteunde meer trainingsregio's. Zie regioondersteuning.
Ondersteunde 10 landinstellingen voor aangepaste neurale spraak lite (preview). Zie taalondersteuning.

Hulpprogramma voor het maken van audio-inhoud

Ingeschakeld om het hulpprogramma Audio-inhoud maken uit te proberen zonder u aan te melden.
Verbeterde indeling voor het aanpassen van telefoontjes.
Verbeterde prestaties: geef het maximum aantal (200) bestanden op dat tegelijk moet worden geüpload.
Verbeterde prestaties: geef het maximale niveau van de directorydiepte (5 niveaus) op.

Release van maart 2022

Vooraf samengestelde neurale TTS-stem

Ondersteuning toegevoegd in openbare preview voor de Cheerful en Sad stijlen met fr-FR-DeniseNeural. Toonstijlen en -rollen bekijken.
Losgekoppelde containers vrijgegeven voor vooraf samengestelde neurale TTS-stemmen in openbare preview. Zie Docker-containers gebruiken in niet-verbonden omgevingen.

Aangepaste neurale spraak

Ondersteund op rollen gebaseerd toegangsbeheer. Meer informatie over op rollen gebaseerd toegangsbeheer van Azure in Speech Studio
Ondersteunde privé-eindpunten en service-eindpunten voor virtuele netwerken. Meer informatie over het gebruik van privé-eindpunten met spraakservice.

Hulpprogramma voor het maken van audio-inhoud

De bestandsgrootte en gelijktijdigheidslimiet bijgewerkt voor F0-resources (free-tier) om de ervaring consistent te maken met de Speech SDK en API's. Bekijk quota en limieten voor spraakservices.

Release van februari 2022

Aangepaste neurale spraak

Aangepaste neurale spraak lite uitgebracht in openbare preview. Meer informatie over wat aangepaste neurale spraak lite is.
Uitgebreide taalondersteuning voor 49 landinstellingen. Zie taalondersteuning.
Meer regio's/datacenters worden ondersteund. Zie regioondersteuning.

Hulpprogramma voor het maken van audio-inhoud

De uitvoerlengtelimiet voor het downloaden van audio's is verwijderd.

Release van januari 2022

Nieuwe talen en stemmen

Er zijn 10 nieuwe talen en varianten toegevoegd voor neurale tekst naar spraak:

Taal	Landinstelling	Geslacht	Spraaknaam	Stijlondersteuning
Bengaals (India)	`bn-IN`	Vrouwelijk	`bn-IN-TanishaaNeural`^New	Algemeen
Bengaals (India)	`bn-IN`	Mannelijk	`bn-IN-BashkarNeural`^New	Algemeen
IJslands (IJsland)	`is-IS`	Vrouwelijk	`is-IS-GudrunNeural`^New	Algemeen
IJslands (IJsland)	`is-IS`	Mannelijk	`is-IS-GunnarNeural`^New	Algemeen
Kannada (India)	`kn-IN`	Vrouwelijk	`kn-IN-SapnaNeural`^New	Algemeen
Kannada (India)	`kn-IN`	Mannelijk	`kn-IN-GaganNeural`^New	Algemeen
Kazachs (Kazachstan)	`kk-KZ`	Vrouwelijk	`kk-KZ-AigulNeural`^New	Algemeen
Kazachs (Kazachstan)	`kk-KZ`	Mannelijk	`kk-KZ-DauletNeural`^New	Algemeen
Lao (Laos)	`lo-LA`	Vrouwelijk	`lo-LA-KeomanyNeural`^New	Algemeen
Lao (Laos)	`lo-LA`	Mannelijk	`lo-LA-ChanthavongNeural`^New	Algemeen
Macedonisch (Republiek Noord-Macedonië)	`mk-MK`	Vrouwelijk	`mk-MK-MarijaNeural`^New	Algemeen
Macedonisch (Republiek Noord-Macedonië)	`mk-MK`	Mannelijk	`mk-MK-AleksandarNeural`^New	Algemeen
Malayalam (India)	`ml-IN`	Vrouwelijk	`ml-IN-SobhanaNeural`^New	Algemeen
Malayalam (India)	`ml-IN`	Mannelijk	`ml-IN-MidhunNeural`^New	Algemeen
Pashto (Afghanistan)	`ps-AF`	Vrouwelijk	`ps-AF-LatifaNeural`^New	Algemeen
Pashto (Afghanistan)	`ps-AF`	Mannelijk	`ps-AF-GulNawazNeural`^New	Algemeen
Servisch (Servië, Cyrillisch)	`sr-RS`	Vrouwelijk	`sr-RS-SophieNeural`^New	Algemeen
Servisch (Servië, Cyrillisch)	`sr-RS`	Mannelijk	`sr-RS-NicholasNeural`^New	Algemeen
Sinhala (Sri Lanka)	`si-LK`	Vrouwelijk	`si-LK-ThiliniNeural`^New	Algemeen
Sinhala (Sri Lanka)	`si-LK`	Mannelijk	`si-LK-SameeraNeural`^New	Algemeen

Zie Taalondersteuning voor de volledige lijst met beschikbare stemmen.

Nieuwe stemmen in preview

Nieuwe stemmen toegevoegd voor en-GB, fr-FR en de-DE in preview:

Taal	Landinstelling	Geslacht	Spraaknaam	Stijlondersteuning
Engels (Verenigd Koninkrijk)	`en-GB`	Vrouwelijk	`en-GB-AbbiNeural`^New	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Vrouwelijk	`en-GB-BellaNeural`^New	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Vrouwelijk	`en-GB-HollieNeural`^New	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Vrouwelijk	`en-GB-OliviaNeural`^New	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Meisje	`en-GB-MaisieNeural`^New	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Mannelijk	`en-GB-AlfieNeural`^New	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Mannelijk	`en-GB-ElliotNeural`^New	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Mannelijk	`en-GB-EthanNeural`^New	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Mannelijk	`en-GB-NoahNeural`^New	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Mannelijk	`en-GB-OliverNeural`^New	Algemeen
Engels (Verenigd Koninkrijk)	`en-GB`	Mannelijk	`en-GB-ThomasNeural`^New	Algemeen
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-BrigitteNeural`^New	Algemeen
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-CelesteNeural`^New	Algemeen
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-CoralieNeural`^New	Algemeen
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-JacquelineNeural`^New	Algemeen
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-JosephineNeural`^New	Algemeen
Frans (Frankrijk)	`fr-FR`	Vrouwelijk	`fr-FR-YvetteNeural`^New	Algemeen
Frans (Frankrijk)	`fr-FR`	Meisje	`fr-FR-EloiseNeural`^New	Algemeen
Frans (Frankrijk)	`fr-FR`	Mannelijk	`fr-FR-AlainNeural`^New	Algemeen
Frans (Frankrijk)	`fr-FR`	Mannelijk	`fr-FR-ClaudeNeural`^New	Algemeen
Frans (Frankrijk)	`fr-FR`	Mannelijk	`fr-FR-JeromeNeural`^New	Algemeen
Frans (Frankrijk)	`fr-FR`	Mannelijk	`fr-FR-MauriceNeural`^New	Algemeen
Frans (Frankrijk)	`fr-FR`	Mannelijk	`fr-FR-YvesNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-AmalaNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-ElkeNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-KlarissaNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-LouisaNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-MajaNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Vrouwelijk	`de-DE-TanjaNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Meisje	`de-DE-GiselaNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Mannelijk	`de-DE-BerndNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Mannelijk	`de-DE-ChristophNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Mannelijk	`de-DE-KasperNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Mannelijk	`de-DE-KillianNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Mannelijk	`de-DE-KlausNeural`^New	Algemeen
Duits (Duitsland)	`de-DE`	Mannelijk	`de-DE-RalfNeural`^New	Algemeen

Zie Taalondersteuning voor de volledige lijst met beschikbare stemmen.

Nauwkeurigheid van uitspraak

Verbeterde uitspraak van Engels woord voor alle he-IL stemmen.
Verbeterde uitspraaknauwkeurigheid op woordniveau voor cs-CZ en da-DK.
Verbeterde Arabische diakritische tekens en Hebreeuwse Nikud-verwerking.
Verbeterde entiteitsleesing voor ja-JP

Speech Studio

Aangepaste neurale spraak: aanvullende modeltests ingeschakeld met behulp van de batch-API (lange audio-API)
Audio-inhoud maken: meer uitvoerindelingen inschakelen

Release van oktober 2021

Nieuwe talen en stemmen

Er zijn 49 nieuwe talen en 98 stemmen toegevoegd voor neurale tekst naar spraak:

Adri in af-ZA Afrikaans (Zuid-Afrika), Willem in af-ZA Afrikaans (Zuid-Afrika), Mekdes in am-ET Amharisch (Ethiopië), Ameha in am-ET Amharisch (Ethiopië), Azure in ar-AE Arabisch (Verenigde Arabische Emiraten), Hamdan in ar-AE Arabisch (Verenigde Arabische Emiraten), Laila in Arabisch (Arabisch), Ali in Arabisch (Jordanië), Amina in ar-DZ Arabisch (Algerije), Ismael in ar-DZ Arabisch (Algerije), Office in ar-IQ Arabisch (Irak), Bassel in ar-BHar-IQ Arabisch (Irak), Sana in Arabisch (Jordanië), Sana in ar-BHar-JO Arabisch (Jordanië), Taim in ar-JO Arabisch (Jordanië), Noura in ar-KW Arabisch (Koeweit), Fahed in ar-KW Arabisch (Koeweit), Iman in ar-LY Arabisch (Libië), Omar in ar-LY Arabisch (Libië), Mouna in ar-MA Arabisch (Marokko), Jamal in ar-MA Arabisch (Marokko), Amal in ar-QA Arabisch (Qatar), Moaz in Arabisch (Qatar), Amany in ar-SY Arabisch (Syrië), Laith in ar-SY Arabisch (Syrië), Reem in ar-TN Arabisch (Tunesië), Hedi in ar-TN Arabisch (Tunesië), Maryam in ar-QAar-YE Arabisch (Jemen), Saleh in ar-YE Arabisch (Jemen), Nabanita in bn-BD Bangla (Bangladesh), Pradeep in bn-BD Bangla (Bangladesh), Asilia in en-KE het Engels (Kenia), Chilimba in en-KE het Engels (Kenia), Ezinne in en-NG het Engels (Nigeria), Abeo in en-NG het Engels (Nigeria), Imani in en-TZ het Engels (Tanzania), Elimu in het Engels (Tanzania), Sofia in es-BO Spaans (Bolivia), Marcelo in es-BO Het Spaans (Bolivia), Catalina in es-CL Spaans (Chili), Lorenzo in es-CL Spaans (Chili), Maria in Het Spaans (Chili), Maria in en-TZes-CR Het Engels Spaans (Costa Rica), Juan in es-CR Het Spaans (Costa Rica), Belkys in es-CU Het Spaans (Cuba), Manuel in es-CU Het Spaans (Cuba), Ramona in es-DO het Spaans (Dominicaanse Republiek), Spain in es-DO Het Spaans (Dominicaanse Republiek), Andrea in es-EC Spaans (Ecuador), Luis in es-EC Spaans (Ecuador), Teresa in es-GQ Spaans (Equatoriaal Guinea), Javier in es-GQ Spaans (Equatoriaal Guinea), Martha in es-GT Het Spaans (Guatemala), Andres in es-GT Het Spaans (Guatemala), Karla in es-HN Het Spaans Spaans (Honduras), Carlos in es-HN het Spaans (Honduras), Yolanda in es-NI het Spaans (Nicaragua), De Spaans es-NI (Nicaragua), De Spaanse (Panama), De Carlos in es-PA het Spaans (Panama), Camila in es-PEes-PA het Spaans (Peru), Alex in es-PE het Spaans (Peru), Karina in es-PR het Spaans (Puerto Rico), Victor in es-PR Het Spaans (Puerto Rico), Tania in es-PY het Spaans (Paraguay), Mario in es-PY het Spaans (Paraguay), Lorena in es-SV Het Spaans (El Salvador), Eenvan es-SV Spaans (El Salvador), Valentina in es-UY het Spaans (Uruguay), Mateo in es-UY het Spaans (Uruguay), Paola in es-VE het Spaans (Venezuela), Sebastian in es-VE het Spaans (Venezuela), Dilara in fa-IR Perzisch (Iran), Farid in fa-IR Perzisch (Iran), Blessica in Filipijns (Filippijnen), Angelo in fil-PH Filipijns (Filippijnen), Sabela in Galicisch, Roi in gl-ES Galicisch, Siti in jv-ID Javaans (Indonesië), Dimas in fil-PHjv-ID Javaans (Indonesië), Sreymom in km-KH Khmer (Cambodja), Piseth in gl-ESkm-KH Khmer (Cambodja), Nilar in my-MM Burmese (Myanmar), Thiha in my-MM Burmese (Myanmar), Ubax in so-SO Somalië (Somalië), Muuse in so-SO Somalië (Somalië), Tuti in su-ID Sundanese (Indonesië), Jajang in su-ID Sundanese (Indonesië), Rehema in sw-TZ Swahili (Swahili) Tanzania), Daudi in sw-TZ Swahili (Tanzania), Saranya in ta-LK Tamil (Sri Lanka), Kumar in ta-LK Tamil (Sri Lanka), Venba in ta-SG Tamil (Singapore), Anbu in Tamil (Singapore), Gul in ta-SGur-IN Urdu (India), Salman in Urdu (India), Salman in ur-IN Urdu (India), Madina in uz-UZ Oezbeeks (Zuid-Afrika), Sardor in uz-UZ Oezbeeks (Zuid-Afrika), Thando in zu-ZA Zulu (Zuid-Afrika), Themba in zu-ZA Zulu (Zuid-Afrika).

Release van september 2021

Nieuwe chatbotstem in en-US het Engels (VS): Sara, vertegenwoordigt een jonge vrouwelijke volwassene die meer casual praat en het beste past bij de chatbotscenario's.
Nieuwe stijlen toegevoegd voor ja-JP Japanse stem Nanami: Er zijn nu drie nieuwe stijlen beschikbaar met Nanami: chat, klantenservice en vrolijk.
Algehele uitspraak verbetering: Opgegeven in id-ID, Premwadee in th-TH, Christel in da-DK, HoaiMy en NamMinh in vi-VN.
Twee nieuwe stemmen in zh-CN het Chinees (Mandarijn, China) in preview: Hiermee zijn De 10000 voor spontane spraak- en klantenservicescenario's geoptimaliseerd.

Release van juli 2021

Neurale tekst naar spraakupdates

Verminderde uitspraakfouten in het Hebreeuws met 20%.

Speech Studio-updates

Aangepaste neurale spraak: de trainingspijplijn bijgewerkt naar UniTTSv3 waarmee de modelkwaliteit wordt verbeterd terwijl de trainingstijd met 50% voor akoestische modellen wordt verminderd.
Audio-inhoud maken: het prestatieprobleem 'Exporteren' en de bug in aangepaste neurale spraakselectie opgelost.

Release van juni 2021

Speech Studio-updates

Aangepaste neurale spraak: Aangepaste neurale spraaktraining uitgebreid ter ondersteuning van Zuidoost-Azië. Nieuwe functies die zijn uitgebracht ter ondersteuning van de statuscontrole voor het uploaden van gegevens.
Audio-inhoud maken: een nieuwe functie uitgebracht ter ondersteuning van aangepaste lexicon. Met deze functie kunnen gebruikers eenvoudig hun lexiconbestanden maken en de aangepaste uitspraak voor hun audio-uitvoer definiëren.

Release van mei 2021

Nieuwe talen en stemmen toegevoegd voor neurale TTS

Tien nieuwe talen geïntroduceerd - 20 nieuwe stemmen in 10 nieuwe landinstellingen worden toegevoegd aan de neurale TTS-taallijst: Yan in en-HK het Engels (Hongkong), Sam in en-HK het Engels (Hongkong), Molly in en-NZ het Engels (Nieuw-Zeeland), Mitchell in en-NZ het Engels (Nieuw-Zeeland), Luna in en-SG het Engels (Singapore), Wayne in en-SG Het Engels (Singapore), Leah in en-ZA Het Engels (Zuid-Afrika), Luke in en-ZA het Engels (Zuid-Afrika), Dhwani in gu-IN Gujarati (India), Niranjan in gu-IN Gujarati (India), Aarohi in mr-IN Marathi (India), Manohar in mr-IN Marathi (India), Elena in es-AR Het Spaans (Argentinië), Tomas in es-AR Het Spaans (Argentinië), Salome in es-CO Het Spaans (Colombia), Gonzalo in es-CO Het Spaans (Colombia), Alonso es-US in es-US Spaans (VS), Zuri in sw-KE Swahili (Kenia), Rafiki in sw-KE Swahili (Kenia).
Elf nieuwe en-US stemmen in preview - 11 nieuwe en-US stemmen in preview worden toegevoegd aan Amerikaans Engels, ze zijn Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Vijf zh-CN Chinese stemmen (Mandarijn, Vereenvoudigd) zijn algemeen beschikbaar - 5 Chinese stemmen (Mandarijn, Vereenvoudigd) worden gewijzigd van preview naar algemeen beschikbaar. Het zijn Yunxi, Yunmo, Azure, Deman, Dexuane, Derui. Deze stemmen zijn nu beschikbaar in alle regio's. Yunxi wordt toegevoegd met een nieuwe 'assistent'-stijl, die geschikt is voor chatbot en spraakagent. De stemstijlen van Powermo zijn verfijnder om natuurlijker en aanbevolen te zijn.

Release van april 2021

Neurale tekst naar spraak is beschikbaar in 21 regio's

Twaalf nieuwe regio's toegevoegd : neurale tekst naar spraak is nu beschikbaar in deze nieuwe 12 regio's: Japan East, , Korea CentralJapan West, , North Central US, North Europe, UK SouthSoutheast Asiawest Central USSouth Central US, . West USWest US 2West Europe Kijk hier voor een volledige lijst met 21 ondersteunde regio's.

Release van maart 2021

Nieuwe talen en stemmen toegevoegd voor neurale TTS

Zes nieuwe talen geïntroduceerd - 12 nieuwe stemmen in 6 nieuwe landinstellingen worden toegevoegd aan de neurale TTS-taallijst: Nia in cy-GB Welsh (Verenigd Koninkrijk), Aled in cy-GB Welsh (Verenigd Koninkrijk), Rosa in en-PH het Engels (Filippijnen), James in en-PH het Engels (Filippijnen), Charline in fr-BE het Frans (België), Gerard in fr-BE het Frans (België), Dena in nl-BE Het Nederlands (België), Azure In nl-BE Het Nederlands (België), Polina in uk-UA Oekraïens (Oekraïne), Ostap in uk-UA Oekraïens (Oekraïne), Uzma in ur-PK Urdu (Pakistan), Asad in ur-PK Urdu (Pakistan).
Vijf talen van preview tot GA - 10 stemmen in 5 landinstellingen die in november zijn geïntroduceerd, zijn nu GA: Kert in et-EE Estland (Estland), Colm in ga-IE Iers (Ierland), Nils in lv-LV Letland (Letland), Leonas in lt-LT Litouwen (Litouwen), Joseph in mt-MT Maltees (Malta).
Nieuwe mannelijke stem toegevoegd voor Frans (Canada) - Er is een nieuwe stem Voor Frans (Canada) beschikbaar fr-CA .
Kwaliteitsverbetering - Uitspraakfoutvermindering op hu-HU Hongaars - 48,17%, nb-NO Noors - 52,76%, nl-NL Nederlands (Nederland) - 22,11%.

Met deze release ondersteunen we nu in totaal 142 neurale stemmen in 60 talen/landinstellingen. Daarnaast zijn meer dan 70 standaardstemmen beschikbaar in 49 talen/landinstellingen. Ga naar Taalondersteuning voor de volledige lijst.

Gezichtshoudingsgebeurtenissen ophalen om tekens te animeren

Neurale tekst naar spraak bevat nu de viseme-gebeurtenis. Met Viseme-gebeurtenissen kunnen gebruikers een reeks gezichtshoudingen krijgen, samen met gesynthetiseerde spraak. Visemes kan worden gebruikt om de beweging van 2D- en 3D avatarmodellen te beheersen, die overeenkomen met mondbewegingen tot gesynthetiseerde spraak. Viseme-gebeurtenissen zijn momenteel alleen beschikbaar voor en-US-AriaNeural spraak.

Het bladwijzerelement toevoegen in Speech Synthesis Markup Language (SSML)

Met het bladwijzerelement kunt u aangepaste markeringen invoegen in SSML om de offset van elke markering in de audiostream op te halen. Deze kan worden gebruikt om te verwijzen naar een specifieke locatie in de tekst- of tagvolgorde.

Release van februari 2021

Algemene beschikbaarheid van aangepaste neurale spraak

Aangepaste neurale stem is algemeen beschikbaar in februari in 13 talen: Chinees (Mandarijn, Vereenvoudigd), Engels (Australië), Engels (India), Engels (Verenigd Koninkrijk), Engels (Verenigde Staten), Frans (Canada), Frans (Frankrijk), Duits (Duitsland), Italiaans (Italië), Japans (Japan), Koreaans (Korea), Portugees (Brazilië), Spaans (Mexico) en Spaans (Spanje). Meer informatie over wat aangepaste neurale stem is en hoe u deze op verantwoorde wijze kunt gebruiken. Aangepaste neurale spraakfunctie vereist registratie en Microsoft kan de toegang beperken op basis van de geschiktheidscriteria van Microsoft. Meer informatie over de beperkte toegang.

Release van december 2020

Nieuwe neurale stemmen in algemene beschikbaarheid en preview

51 nieuwe stemmen uitgebracht voor in totaal 129 neurale stemmen in 54 talen/landinstellingen:

46 nieuwe stemmen in ga landinstellingen: Shakir in ar-EG Arabisch (Egypte), Hamed in ar-SA Arabisch (Saoedi-Arabië), Boroun in bg-BG Bulgaars (Bulgarije), Joana in Catalaans, Antonin in cs-CZ Tsjechië (Tsjechische Republiek), Jeppe in da-DK Deens (Denemarken), Jonas in de-AT Het Duits (Oostenrijk), Jan in de-CH Het Duits (Zwitserland), Nestoras in el-GR Het Grieks (Griekenland), Liam in en-CAca-ES het Engels (Canada), Connor in en-IE Het Engels (Ierland), Madhur in en-IN Hindi (India), Mohan in en-IN Telugu (India), Prabhat in en-IN het Engels (India), Valluvar in en-IN Tamil (India), Enric in es-ES Catalaans, Kert in et-EE Estlands (Estland), Harri in fi-FI Fins (Finland), Selma in fi-FI Fins (Finland), Fabrice in fr-CH Frans (Zwitserland), Colm in ga-IE Iers (Ierland), Avri in he-IL Hebreeuws (Israël), Srecko in hr-HR Kroatisch (Kroatië), Tamas in Hongaars (Hongarije), Gadis id-ID in hu-HU Indonesisch (Indonesië), Leonas in lt-LT Litouwen (Litouwen), Nils in lv-LV Lets (Letland), Osman in ms-MY Maleis (Maleisië), Joseph in mt-MT Maltees (Malta), Finn in nb-NO Noors, Bokmål (Noorwegen), Pernille in nb-NO Noors, Bokmål (Noorwegen), Fenna in nl-NL Het Nederlands (Nederland), Maarten in nl-NL Nederlands (Nederland),A in pl-PL Pools (Polen), Marek in pl-PL Pools (Polen), Duarte in pt-BR Portugees (Brazilië), Raquel in pt-PT Portugees (Potugal), Emil in ro-RO Roemeens (Roemenië), Dmitry in ru-RU Het Russisch (Rusland), Svetlana in ru-RU Russisch Russisch (Rusland), Loekas in sk-SK Slowaaks (Slowakije), Rok in sl-SI Slovenië (Slovenië), Mattias in sv-SE Zweeds (Zweden), Sofie in sv-SE Zweeds (Zweden), Niwat in th-TH Thai (Thailand), Ahmet in tr-TR Turks (), NamMinh in vi-VN Vietnamees (Vietnam), HsiaoChen in zh-TW Taiwanese Mandarijn (Taiwan), YunJhe in zh-TW Taiwanese Mandarijn (Taiwan), HiuMaan in Chinees Kantonees (Hong Kong Special Beheer istrative Region), WanLung in Taiwanese Mandarijn (Taiwan), HiuMaan in zh-HK Chinees Kantonees (Hong Kong Special Beheer istrative Region), WanLung in zh-HK Chinese Kantonees (Hongkong SAR).
5 nieuwe stemmen in preview-landinstellingen: Kert in et-EE Estland (Estland), Colm in ga-IE Iers (Ierland), Nils in lv-LV Letland (Letland), Leonas in lt-LT Litouwen (Litouwen), Joseph in mt-MT Maltees (Malta).

Met deze release ondersteunen we nu in totaal 129 neurale stemmen in 54 talen/landinstellingen. Daarnaast zijn meer dan 70 standaardstemmen beschikbaar in 49 talen/landinstellingen. Ga naar Taalondersteuning voor de volledige lijst.

Updates voor het maken van audio-inhoud

Verbeterde gebruikersinterface voor spraakselectie met spraakcategorieën en gedetailleerde spraakbeschrijvingen.
Intonatieafstemming ingeschakeld voor alle neurale stemmen in verschillende talen.
Geautomatiseerde lokalisatie van de gebruikersinterface op basis van de taal van de browser.
Besturingselementen ingeschakeld StyleDegree voor alle zh-CN neurale stemmen. Ga naar het hulpprogramma Voor het maken van audio-inhoud om de nieuwe functies te bekijken.

Updates voor zh-CN-stemmen

zh-CN Alle neurale stemmen bijgewerkt ter ondersteuning van Engels spreken.
Schakel alle zh-CN neurale stemmen in om intonatieaanpassing te ondersteunen. Het hulpprogramma voor het maken van SSML- of audio-inhoud kan worden gebruikt om de beste intonatie aan te passen.
zh-CN Alle neurale stemmen in meerdere stijlen bijgewerkt ter ondersteuning van StyleDegree de controle. Emotie-intensiteit (zacht of sterk) is aanpasbaar.
Bijgewerkt zh-CN-YunyeNeural ter ondersteuning van meerdere stijlen die verschillende emoties kunnen uitvoeren.

Release van november 2020

Nieuwe landinstellingen en stemmen in preview

Er worden vijf nieuwe stemmen en talen geïntroduceerd in de portfolio neurale tekst naar spraak. Ze zijn: Respijt in Maltees (Malta), Ona in Litouws (Litouwen), Anu in Estland (Estland), Orla in Het Ierse (Ierland) en Everita in Letland (Letland).
Vijf nieuwe zh-CN stemmen met meerdere stijlen en rollen ondersteunen: Stijlenhan, Stijlenmo, Machtigingenrui, Stijlenxuan en Yunxi.

Deze stemmen zijn beschikbaar in openbare preview in drie Azure-regio's: EastUS, SouthEastAsia en WestEurope.

Algemene beschikbaarheid van neurale tekst naar spraakcontainer

Met Neurale tekst naar spraakcontainer kunnen ontwikkelaars spraaksynthese uitvoeren met de meest natuurlijke digitale stemmen in hun eigen omgeving voor specifieke vereisten voor beveiliging en gegevensbeheer. Controleer hoe u Speech Containers installeert.

Nieuwe functies

Aangepaste spraak: ingeschakelde gebruikers om een spraakmodel van de ene regio naar de andere te kopiëren; ondersteunde eindpuntvering en hervatting. Ga hier naar de portal .
Ondersteuning voor SSML-stiltetags .
Algemene verbeteringen in de spraakkwaliteit van TTS: Verbeterde nauwkeurigheid van uitspraak op woordniveau in nb-NO. Verminderde uitspraakfout van 53%.

Lees meer op deze tech blog.

Release van oktober 2020

Nieuwe functies

Jenny ondersteunt een nieuwe newscast stijl. Lees hoe u de spreekstijlen in SSML gebruikt.
Neurale stemmen zijn bijgewerkt naar HiFiNet vocoder, met hogere geluidskwaliteit en snellere synthesesnelheid. Dit profiteert klanten van wie het scenario afhankelijk is van hifi-audio of lange interacties, waaronder videobibbelen, audioboeken of online onderwijsmateriaal. Lees meer over het verhaal en hoor de stemvoorbeelden op onze tech community-blog
Custom voice & Audio Content Creation Studio gelokaliseerd naar 17 landinstellingen. Gebruikers kunnen de gebruikersinterface eenvoudig overschakelen naar een lokale taal voor een meer vriendelijke ervaring.
Audio content creation: Added style degree control for AzureXiaoNeural; De aangepaste onderbrekingsfunctie verfijnd met incrementele einden van 50 ms.

Algemene verbeteringen in de spraakkwaliteit van TTS

Verbeterde uitspraaknauwkeurigheid op woordniveau in pl-PL (foutpercentagevermindering: 51%) en fi-FI (foutpercentagevermindering: 58%)
Verbeterd ja-JP lezen van één woord voor het woordenlijstscenario. Verminderde uitspraakfout met 80%.
zh-CN-XiaoxiaoNeural: Verbeterde sentiment/CustomerService/Newscast/Vrolijke/Boze stemkwaliteit.
zh-CN: Verbeterde Uitspraak van Erhua en lichte toon en verfijnde ruimte prosody, wat de begrijpelijkheid aanzienlijk verbetert.

Release van september 2020

Nieuwe functies

Neurale tekst naar spraak
- Uitgebreid ter ondersteuning van 18 nieuwe talen/landinstellingen. Ze zijn Bulgaars, Tsjechisch, Duits (Oostenrijk), Duits (Zwitserland), Grieks, Engels (Ierland), Frans (Zwitserland), Hebreeuws, Kroatisch, Hongaars, Indonesisch, Maleis, Roemeens, Slowaaks, Slovenië, Tamil, Telugu en Vietnamees.
- 14 nieuwe stemmen uitgebracht om de verscheidenheid in de bestaande talen te verrijken. Bekijk de volledige taal en spraaklijst.
- Nieuwe spreekstijlen voor en-US en zh-CN stemmen. Jenny, de nieuwe stem in het Engels (VS), ondersteunt chatbot-, klantenservice- en assistentstijlen. Er zijn 10 nieuwe spreekstijlen beschikbaar met onze zh-CN-stem, MicrosoftXiao. Daarnaast ondersteunt StyleDegree de neurale stem van DeXiao-neuraal stem van Het afstemmen. Lees hoe u de spreekstijlen in SSML gebruikt.
Containers: Neurale tekst naar spraakcontainer uitgebracht in openbare preview met 16 stemmen beschikbaar in 14 talen. Meer informatie over het implementeren van Spraakcontainers voor neurale tekst naar spraak

Lees de volledige aankondiging van de TTS-updates voor Ignite 2020

Release van augustus 2020

Nieuwe functies

Neurale tekst naar spraak: nieuwe spreekstijl voor en-US Aria-stem. AriaNeural kan klinken als een nieuwscaster bij het lezen van nieuws. De stijl 'newscast-formal' klinkt serieuzer, terwijl de stijl 'newscast-casual' meer ontspannen en informeel is. Lees hoe u de spreekstijlen in SSML gebruikt.
Aangepaste spraak: er wordt een nieuwe functie uitgebracht om de kwaliteit van trainingsgegevens automatisch te controleren. Wanneer u uw gegevens uploadt, onderzoekt het systeem verschillende aspecten van uw audio- en transcriptgegevens en lost het problemen automatisch op of filtert om de kwaliteit van het spraakmodel te verbeteren. Dit omvat het volume van uw audio, het ruisniveau, de uitspraaknauwkeurigheid van spraak, de uitlijning van spraak met de genormaliseerde tekst, stilte in de audio, naast de audio- en scriptindeling.
Audio-inhoud maken: een set nieuwe functies om krachtigere mogelijkheden voor spraakafstemming en audiobeheer mogelijk te maken.
- Uitspraak: de functie voor het afstemmen van de uitspraak wordt bijgewerkt naar de nieuwste telefoonset. U kunt het juiste phoneme-element uit de bibliotheek kiezen en de uitspraak van de geselecteerde woorden verfijnen.
- Download: de functie 'Downloaden'/'Exporteren' is verbeterd om het genereren van audio per alinea te ondersteunen. U kunt inhoud in hetzelfde bestand/SSML bewerken terwijl u meerdere audio-uitvoer genereert. De bestandsstructuur van 'Downloaden' is ook verfijnd. U kunt nu eenvoudig alle audiobestanden in één map ophalen.
- Taakstatus: De exportervaring voor meerdere bestanden is verbeterd. Wanneer u in het verleden meerdere bestanden exporteert en een van de bestanden is mislukt, mislukt de hele taak. Maar nu worden alle andere bestanden geëxporteerd. Het taakrapport is verrijkt met gedetailleerdere en gestructureerde informatie. U kunt nu de logboeken controleren op alle mislukte bestanden en zinnen met het rapport.
- SSML-documentatie: gekoppeld aan SSML-document om u te helpen bij het controleren van de regels voor het gebruik van alle afstemmingsfuncties.
De Voice List-API wordt bijgewerkt met een gebruiksvriendelijke weergavenaam en de spreekstijlen die worden ondersteund voor neurale stemmen.

Algemene verbeteringen in de spraakkwaliteit van TTS

Gereduceerde uitspraakfoutpercentage op woordniveau voor ru-RU (fouten verminderd met 56%) en sv-SE (fouten met 49%)
Verbeterd polyfoniewoord lezen op en-US neurale stemmen met 40%. Voorbeelden van polyfoniewoorden zijn 'read', 'live', 'content', 'record', 'object', enzovoort.
Verbeterde natuurlijkheid van de vraagtoon in fr-FR. MOS (Mean Opinion Score) winst: +0,28
De vocoders bijgewerkt voor de volgende stemmen, met kwaliteitsverbeteringen en een algehele prestatiesnelheid van 40%.

Landinstelling Spraak

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Landinstelling	Spraak
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Bugfixes

Er zijn een aantal fouten opgelost met het hulpprogramma Voor het maken van audio-inhoud
- Probleem opgelost met automatisch vernieuwen.
- Problemen met spraakstijlen in zh-CN in de regio Azië - zuidoost opgelost.
- Er is een stabiliteitsprobleem opgelost, waaronder een exportfout met de tag 'einde' en fouten in interpunctie.

Release van april 2024

Automatische meertalige spraakomzetting (preview)

Automatische meertalige spraakomzetting is beschikbaar in openbare preview. Deze innovatieve functie verandert de manier waarop taalbarrières worden overwinnen en biedt ongeëvenaarde mogelijkheden voor naadloze communicatie in diverse taalkundige landschappen.

Belangrijkste hoogtepunten

Niet-opgegeven invoertaal: spraakomzetting in meerdere talen kan audio ontvangen in een breed scala aan talen en u hoeft niet op te geven wat de verwachte invoertaal is. Het maakt het een waardevolle functie om inzicht te hebben in en samen te werken in wereldwijde contexten zonder dat er vooraf moet worden ingesteld.
Taalwisseling: spraakomzetting in meerdere talen zorgt ervoor dat meerdere talen tijdens dezelfde sessie kunnen worden gesproken en dat ze allemaal in dezelfde doeltaal worden vertaald. U hoeft een sessie niet opnieuw te starten wanneer de invoertaal of andere acties door u worden gewijzigd.

Hoe het werkt

Reisinterpreter: meertalige spraakomzetting kan de ervaring van toeristen die buitenlandse bestemmingen bezoeken verbeteren door hen informatie en hulp te geven in hun voorkeurstaal. Hotel concierge diensten, rondleidingen en bezoekerscentra kunnen gebruikmaken van deze technologie om tegemoet te komen aan diverse taalkundige behoeften.
Internationale conferenties: meertalige spraakomzetting kan communicatie mogelijk maken tussen deelnemers uit verschillende regio's die verschillende talen kunnen spreken met live vertaalde onderschrift. Deelnemers kunnen in hun eigen talen spreken zonder ze op te geven, zodat ze naadloos begrip en samenwerking kunnen garanderen.
Educatieve vergaderingen: In multi-culturele klaslokalen of onlineleeromgevingen kan meertalige spraakomzetting taaldiversiteit tussen studenten en docenten ondersteunen. Het maakt naadloze communicatie en deelname mogelijk zonder dat u de taal van elke leerling of docent hoeft op te geven.

Toegang krijgen

Ga naar het overzicht van spraakomzetting voor een gedetailleerde inleiding. Daarnaast kunt u verwijzen naar de codevoorbeelden bij het vertalen van spraak. Deze nieuwe functie wordt volledig ondersteund door alle SDK-versies vanaf 1.37.0.

Realtime spraak naar tekst met diariazation (GA)

Realtime spraak naar tekst met diariazatie is nu algemeen beschikbaar.

U kunt spraak-naar-teksttoepassingen maken die gebruikmaken van diarisatie om onderscheid te maken tussen de verschillende sprekers die deelnemen aan het gesprek. Raadpleeg de quickstart voor realtime-diarisatie voor meer informatie over realtime-diarisatie.

Spraak-naar-tekstmodel bijwerken

Realtime spraak naar tekst heeft nieuwe modellen uitgebracht met tweetalige mogelijkheden. Het en-IN model ondersteunt nu zowel Engelstalige als Hindi tweetalige scenario's en biedt verbeterde nauwkeurigheid. Arabische landinstellingen (ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, , ar-LY, , ar-PSar-SYar-OMar-YEar-MAar-QAar-SAar-TN) zijn nu uitgerust met tweetalige ondersteuning voor Engels, verbeterde nauwkeurigheid en ondersteuning van het callcenter.

Batchtranscriptie biedt modellen met nieuwe architectuur voor deze landinstellingen: es-ES, , es-MXfr-FR, it-IT, ja-JP, , ko-KR, , en pt-BRzh-CN. Deze modellen verbeteren de leesbaarheid en entiteitsherkenning aanzienlijk.

Release van maart 2024

Algemene beschikbaarheid van Fluisteren (GA)

Het Fluisterse spraak-naar-tekstmodel met Azure AI Speech is nu algemeen beschikbaar.

Bekijk wat is het Fluistermodel? voor meer informatie over wanneer u Azure AI Speech versus Azure OpenAI Service gebruikt.

Release van februari 2024

Uitspraakbeoordeling

Beoordeling van de uitspraak van spraak ondersteunt nu 23 talen die algemeen beschikbaar zijn (met 5 nieuwe talen toegevoegd), met drie talen die beschikbaar zijn in openbare preview. Zie de volledige taallijst voor uitspraakbeoordeling voor meer informatie.

Taal	Landinstelling (BCP-47)
Arabisch (Egypte)	`ar-EG`¹
Arabisch (Saoedi-Arabië)	`ar-SA`
Chinees (Kantonees, traditioneel)	`zh-HK`¹
Chinees (Mandarijn, Vereenvoudigd)	`zh-CN`
Nederlands (Nederland)	`nl-NL`¹
Engels (Australië)	`en-AU`
Engels (Canada)	`en-CA`
Engels (India)	`en-IN`
Engels (Verenigd Koninkrijk)	`en-GB`
Engels (Verenigde Staten)	`en-US`
Frans (Canada)	`fr-CA`
Frans (Frankrijk)	`fr-FR`
Duits (Duitsland)	`de-DE`
Hindi (India)	`hi-IN`
Italiaans (Italië)	`it-IT`
Japans (Japan)	`ja-JP`
Koreaans (Korea)	`ko-KR`
Maleis (Maleisië)	`ms-MY`
Noors Bokmål (Noorwegen)	`nb-NO`
Portugees (Brazilië)	`pt-BR`
Russisch (Rusland)	`ru-RU`
Spaans (Mexico)	`es-MX`
Spaans (Spanje)	`es-ES`
Zweeds (Zweden)	`sv-SE`
Tamil (India)	`ta-IN`
Vietnamees (Vietnam)	`vi-VN`

¹ De taal is in openbare preview voor uitspraakbeoordeling.

Woordgroepenlijst

Ondersteuning voor woordgroepenlijst toegevoegd voor de volgende landinstellingen: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Release van november 2023

Inleiding tot tweetalige spraakmodellering!

We zijn blij om een baanbrekende toevoeging aan onze realtime spraakmodellering te onthullen: tweetalige spraakmodellering. Dankzij deze aanzienlijke verbetering biedt ons spraakmodel naadloos ondersteuning voor tweetalige taalparen, zoals Engels en Spaans, evenals Engels en Frans. Met deze functie kunnen gebruikers moeiteloos schakelen tussen talen tijdens realtime interacties, waarbij ze een centraal moment markeren in onze toezegging om communicatie-ervaringen te verbeteren.

Belangrijke hoogtepunten:

Tweetalige ondersteuning: Met onze nieuwste release kunnen gebruikers naadloos schakelen tussen Engels en Spaans of tussen Engels en Frans tijdens realtime spraakinteracties. Deze functionaliteit is afgestemd op tweetalige sprekers die vaak schakelen tussen deze twee talen.
Verbeterde gebruikerservaring: Tweetalige sprekers, zowel op het werk, thuis als in verschillende community-instellingen, zullen deze functie enorm nuttig vinden. Het vermogen van het model om zowel Engels als Spaans in realtime te begrijpen en erop te reageren, biedt nieuwe mogelijkheden voor effectieve en vloeiende communicatie.

Procedure:

Kies es-US (Spaans en Engels) of fr-CA (Frans en Engels) wanneer u de Speech Service-API aanroept of probeer het uit in Speech Studio. Voel u vrij om taal te spreken of ze samen te combineren. Het model is ontworpen om dynamisch aan te passen en nauwkeurige en contextbewuste antwoorden in beide talen te bieden.

Het is tijd om uw communicatiespel te verhogen met onze nieuwste functierelease: naadloze, meertalige communicatie binnen handbereik!

Spraak-naar-tekstmodellen worden bijgewerkt

We zijn verheugd om een belangrijke update te introduceren voor onze spraakmodellen, veelbelovende verbeterde nauwkeurigheid, verbeterde leesbaarheid en verfijnde entiteitsherkenning. Deze upgrade wordt geleverd met een robuuste nieuwe structuur, ondersteund door een uitgebreide trainingsgegevensset, waardoor een gemarkeerde vooruitgang in de algehele prestaties wordt gegarandeerd. Het bevat onlangs uitgebrachte modellen voor en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE en he-IL.

Hoogtepunten:

Betere nauwkeurigheid met nieuwe modelstructuur: de opnieuw gedefinieerde modelstructuur, in combinatie met een uitgebreidere trainingsgegevensset, verhoogt de nauwkeurigheidsniveaus en belooft nauwkeurigere spraakuitvoer.
Verbetering van de leesbaarheid: Ons nieuwste model zorgt voor een aanzienlijke verbetering van de leesbaarheid, waardoor de samenhang en duidelijkheid van gesproken inhoud wordt verbeterd.
Geavanceerde entiteitsherkenning: Entiteitsherkenning ontvangt een aanzienlijke upgrade, wat resulteert in nauwkeurigere en genuanceerde resultaten.

Mogelijke gevolgen: Ondanks deze ontwikkelingen is het van cruciaal belang om rekening te houden met mogelijke gevolgen:

Aangepaste time-outfunctie voor stilte: gebruikers die een aangepaste time-out voor stilte gebruiken, met name met lage instellingen, kunnen te maken krijgen met oversegmentatie en mogelijke weglatingen van woordgroepen met één woord.
Het nieuwe model kan compatibiliteitsproblemen vertonen met de functie Trefwoordvoorvoegsel en gebruikers worden geadviseerd om de prestaties in hun specifieke toepassingen te beoordelen.
Minder vloeiende woorden of woordgroepen: Gebruikers merken mogelijk een vermindering van onfluency-woorden of woordgroepen zoals 'um' of 'uh' in de spraakuitvoer.
Onnauwkeurigheden in tijdstempelduur van woorden: sommige onfluencywoorden kunnen onjuistheden weergeven in tijdstempelduur, waarbij aandacht nodig is in toepassingen die afhankelijk zijn van de precieze timing.
Afwijking van betrouwbaarheidsscoreverdeling: gebruikers die afhankelijk zijn van betrouwbaarheidsscores en bijbehorende drempelwaarden, moeten rekening houden met mogelijke variaties in de distributie, waarbij aanpassingen nodig zijn voor optimale prestaties.
De nauwkeurigheidsverbetering van de woordgroepenlijstfunctie kan worden beïnvloed door de onjuiste cognitieve weergave van bepaalde zinnen.

We raden u aan om deze verbeteringen te verkennen en potentiële problemen voor een naadloze overgang te overwegen, en zoals altijd is uw feedback van cruciaal belang bij het verfijnen en bevorderen van onze services.

Uitspraakbeoordeling

Evaluatie van uitspraak van spraak ondersteunt nu 18 talen algemeen beschikbaar, met zes talen die beschikbaar zijn in openbare preview. Zie de volledige taallijst voor uitspraakbeoordeling voor meer informatie.
We zijn verheugd om aan te kondigen dat uitspraakbeoordeling nieuwe functies introduceert vanaf 1 november 2023: Prosody, Grammatica, Vocabulaire en Onderwerp. Deze verbeteringen zijn gericht op een nog uitgebreidere taalleerervaring voor zowel lees- als spreekbeoordelingen. Voer een upgrade uit naar SDK-versie 1.35.0 of hoger om meer informatie te bekijken in de uitspraakbeoordeling en uitspraakbeoordeling in Speech Studio.

Release van september 2023

Fluister openbare preview

Azure AI Speech ondersteunt nu het Whisper-model van OpenAI via de batchtranscriptie-API. Raadpleeg de handleiding Een batchtranscriptie maken voor meer informatie.

Notitie

Azure OpenAI Service biedt ook ondersteuning voor het Fluistermodel van OpenAI voor spraak-naar-tekst met een synchrone REST API. Bekijk de quickstart voor meer informatie.

Bekijk wat is het Fluistermodel? voor meer informatie over wanneer u Azure AI Speech versus Azure OpenAI Service gebruikt.

Openbare preview voor spraak-naar-tekst-REST API v3.2

Rest API v3.2 voor spraak-naar-tekst is beschikbaar in de preview-versie. Spraak-naar-tekst REST API v3.1 is algemeen beschikbaar. Spraak-naar-tekst-REST API v3.0 wordt op 1 april 2026 buiten gebruik gesteld. Zie de migratiehandleidingen spraak-naar-tekst-REST API v3.0 naar v3.1 en v3.1 naar v3.2 voor meer informatie.

Release augustus 2023

Nieuwe spraak-naar-tekst-landinstellingen:

Spraak-naar-tekst ondersteunt twee nieuwe landinstellingen, zoals wordt weergegeven in de volgende tabel. Raadpleeg hier de volledige taallijst.

Landinstellingen	Taal
`pa-IN`	Punjabi (India)
`ur-IN`	Urdu (India)

Uitspraakbeoordeling

Beoordeling van uitspraak van spraak ondersteunt nu 3 extra talen die algemeen beschikbaar zijn in het Engels (Canada), Engels (India) en Frans (Canada), met 3 extra talen die beschikbaar zijn in preview. Zie de volledige taallijst voor uitspraakbeoordeling voor meer informatie.

Versie van mei 2023

Uitspraakbeoordeling

Beoordeling van spraakuitspraak ondersteunt nu 3 extra talen die algemeen beschikbaar zijn in het Duits (Duitsland), Japans (Japan) en Spaans (Mexico), met 4 extra talen die beschikbaar zijn in preview. Zie de volledige taallijst voor uitspraakbeoordeling voor meer informatie.
U kunt nu de standaardlaag spraak-naar-teksttoezegging gebruiken voor uitspraakbeoordeling in alle openbare regio's. Als u een toezeggingslaag koopt voor standaard spraak-naar-tekst, gaat de uitgaven voor uitspraakbeoordeling naar het voldoen aan de toezegging. Zie prijscategorieën voor toezeggingscategorieën.

Release van februari 2023

Uitspraakbeoordeling

De uitspraakbeoordeling van spraak ondersteunt nu 5 extra talen die algemeen beschikbaar zijn in het Engels (Verenigd Koninkrijk), Engels (Australië), Frans (Frankrijk), Spaans (Spanje) en Chinees (Mandarijn, Vereenvoudigd), met andere talen die beschikbaar zijn in preview.
Voorbeeldcodes toegevoegd die laten zien hoe u uitspraakbeoordeling gebruikt in de streamingmodus in uw eigen toepassing.
- C#: Zie voorbeeldcode.
- C++: Zie voorbeeldcode.
- java: Zie voorbeeldcode.
- javascript: Zie voorbeeldcode.
- Objective-C: Zie voorbeeldcode.
- Python: Zie voorbeeldcode.
- Swift: Zie voorbeeldcode.

Aangepaste spraak

Ondersteuning voor audio + door mensen gelabelde transcriptie wordt toegevoegd voor de de-AT landinstellingen.

Release van januari 2023

Aangepaste spraak

Ondersteuning voor audio + door mensen gelabelde transcriptie wordt toegevoegd voor extra landinstellingen: ar-BH, , ar-DZar-EG, ar-MA, ar-SA, , ar-TNen ar-YEja-JP.

Ondersteuning voor aanpassing van gestructureerde tekst wordt toegevoegd voor landinstellingen de-AT.

Release van december 2022

REST API voor spraak-naar-tekst

Rest API-versie 3.1 van spraak-naar-tekst is algemeen beschikbaar. Versie 3.0 van de REST API voor spraak-naar-tekst wordt buiten gebruik gesteld. Zie de handleiding voor meer informatie over het migreren.

Release van oktober 2022

Nieuwe landinstelling voor spraak naar tekst

Ondersteuning toegevoegd voor Malayalam (India) met de ml-IN landinstelling. Bekijk hier de volledige taallijst.

Release van juli 2022

Nieuwe spraak-naar-tekst-landinstellingen:

Er zijn 7 nieuwe landinstellingen toegevoegd, zoals wordt weergegeven in de volgende tabel. Bekijk hier de volledige taallijst.

Landinstellingen	Taal
`bs-BA`	Bosnisch (Bosnië en Herzegovina)
`yue-CN`	Chinees (Kantonees, Vereenvoudigd)
`zh-CN-sichuan`	Chinees (Zuidwestelijk Mandarijn, Vereenvoudigd)
`wuu-CN`	Chinees (Wu, Vereenvoudigd)
`ps-AF`	Pashto (Afghanistan)
`so-SO`	Somalië (Somalië)
`cy-GB`	Welsh (Verenigd Koninkrijk)

Release van juni 2022

Nieuwe spraak-naar-tekst-landinstellingen:

Er zijn 10 nieuwe landinstellingen toegevoegd, zoals wordt weergegeven in de volgende tabel. Bekijk hier de volledige taallijst.

Landinstellingen	Taal
`sq-AL`	Albanese (Albanië)
`hy-AM`	Armeens (Armenië)
`az-AZ`	Azerbeidzjaans (Azerbeidzjaans)
`eu-ES`	Baskisch
`gl-ES`	Galicisch
`ka-GE`	Georgisch (Georgië)
`it-CH`	Italiaans (Zwitserland)
`kk-KZ`	Kazachs (Kazachstan)
`mn-MN`	Mongools (Mongools)
`ne-NP`	Nepalee (Nepalee)

Release van april 2022

Nieuwe spraak-naar-tekst-landinstellingen:

Hieronder ziet u een lijst met de nieuwe landinstellingen. Bekijk hier de volledige taallijst.

Landinstellingen	Taal
`bn-IN`	Bengaals (India)

Release van januari 2022

Nieuwe spraak-naar-tekst-landinstellingen:

Hieronder ziet u een lijst met de nieuwe landinstellingen. Bekijk hier de volledige taallijst.

Landinstellingen	Taal
`af-ZA`	Afrikaans (Zuid-Afrika)
`am-ET`	Amharisch (Ethiopië)
`de-CH`	Duits (Zwitserland)
`fr-BE`	Frans (België)
`is-IS`	IJslands (IJsland)
`jv-ID`	Javaans (Indonesië)
`km-KH`	Khmer (Cambodja)
`kn-IN`	Kannada (India)
`lo-LA`	Lao (Laos)
`mk-MK`	Macedonisch (Noord-Macedonië)
`my-MM`	Burmese (Myanmar)
`nl-BE`	Nederlands (België)
`si-LK`	Sinhala (Sri Lanka)
`sr-RS`	Servisch (Servië)
`sw-TZ`	Swahili (Tanzania)
`uk-UA`	Oekraïens (Oekraïne)
`uz-UZ`	Oezbeeks (Oezbeeks)
`zu-ZA`	Zulu (Zuid-Afrika)

Release van juli 2021

Nieuwe spraak-naar-tekst-landinstellingen:

Hieronder ziet u een lijst met de nieuwe landinstellingen. Bekijk hier de volledige taallijst.

Landinstellingen	Taal
`ar-DZ`	Arabisch (Algerije)
`ar-LY`	Arabisch (Libië)
`ar-MA`	Arabisch (Marokko)
`ar-TN`	Arabisch (Tunesië)
`ar-YE`	Arabisch (Jemen)
`bg-BG`	Bulgaars (Bulgarije)
`el-GR`	Grieks (Griekenland)
`et-EE`	Estisch (Estland)
`fa-IR`	Perzisch (Iran)
`ga-IE`	Iers (Ierland)
`hr-HR`	Kroatisch (Kroatië)
`lt-LT`	Litouws (Litouwen)
`lv-LV`	Lets (Letland)
`mt-MT`	Maltees (Malta)
`ro-RO`	Roemeens (Roemenië)
`sk-SK`	Slowaaks (Slowakije)
`sl-SI`	Sloveens (Slovenië)
`sw-KE`	Swahili (Kenia)

Release van januari 2021

Nieuwe spraak-naar-tekst-landinstellingen:

Hieronder ziet u een lijst met de nieuwe landinstellingen. Bekijk hier de volledige taallijst.

Landinstellingen	Taal
`ar-AE`	Arabisch (Verenigde Arabische Emiraten)
`ar-IL`	Arabisch (Israël)
`ar-IQ`	Arabisch (Irak)
`ar-OM`	Arabisch (Oman)
`ar-PS`	Arabisch (Palestijnse Autoriteit)
`de-AT`	Duits (Oostenrijk)
`en-GH`	Engels (Ghana)
`en-KE`	Engels (Kenia)
`en-NG`	Engels (Nigeria)
`en-TZ`	Engels (Tanzania)
`es-GQ`	Spaans (Equatoriaal Guinea)
`fil-PH`	Filipijns (Filipijnen)
`fr-CH`	Frans (Zwitserland)
`he-IL`	Hebreeuws (Israël)
`id-ID`	Indonesisch (Indonesië)
`ms-MY`	Maleis (Maleisië)
`vi-VN`	Vietnamees (Vietnam)

Release van augustus 2020

Nieuwe landinstellingen voor spraak naar tekst:

Spraak naar tekst uitgebracht 26 nieuwe landinstellingen in augustus: 2 Europese talen cs-CZ en hu-HU, 5 Engelse landinstellingen en 19 Spaanse landinstellingen die de meeste Zuid-Amerikaanse landen/regio's beslaan. Hieronder ziet u een lijst met de nieuwe landinstellingen. Bekijk hier de volledige taallijst.

Landinstellingen	Taal
`cs-CZ`	Tsjechisch (Tsjechische Republiek)
`en-HK`	Engels (Hongkong Special Beheer istrative Region)
`en-IE`	Engels (Ierland)
`en-PH`	Engels (Filipijnen)
`en-SG`	Engels (Singapore)
`en-ZA`	Engels (Zuid-Afrika)
`es-AR`	Spaans (Argentinië)
`es-BO`	Spaans (Bolivia)
`es-CL`	Spaans (Chili)
`es-CO`	Spaans (Colombia)
`es-CR`	Spaans (Costa Rica)
`es-CU`	Spaans (Cuba)
`es-DO`	Spaans (Dominicaanse Republiek)
`es-EC`	Spaans (Ecuador)
`es-GT`	Spaans (Guatemala)
`es-HN`	Spaans (Honduras)
`es-NI`	Spaans (Nicaragua)
`es-PA`	Spaans (Panama)
`es-PE`	Spaans (Peru)
`es-PR`	Spaans (Puerto Rico)
`es-PY`	Spaans (Paraguay)
`es-SV`	Spaans (El Salvador)
`es-US`	Spaans (VS)
`es-UY`	Spaans (Uruguay)
`es-VE`	Spaans (Venezuela)
`hu-HU`	Hongaars (Hongarije)

Release van 2024-februari

Voeg ondersteuning toe voor de nieuwste modelversies:

Aangepaste spraak naar tekst 4.6.0
Spraak naar tekst 4.6.0
Neurale tekst naar spraak 3.1.0

Voer een upgrade uit van spraak naar tekstonderdelen naar de nieuwste versie. Upgrade alle es landinstellingen naar de nieuwste versie. Vergroot de mediatransformatiebuffer voor gebruiksvoorbeelden voor spraak naar tekst.

Release van 2023-november

Voeg ondersteuning toe voor de nieuwste modelversies:

Aangepaste spraak naar tekst 4.5.0
Spraak naar tekst 4.5.0
Neurale tekst naar spraak 2.19.0

Release van 2023-oktober

Voeg ondersteuning toe voor de nieuwste modelversies:

Aangepaste spraak naar tekst 4.4.0
Spraak naar tekst 4.4.0
Neurale tekst naar spraak 2.18.0

Los een aantal problemen met beveiligingsproblemen met een hoog risico op.

Verwijder redundante logboeken in containers.

Voer een upgrade uit naar het interne mediaonderdeel naar de nieuwste versie.

Voeg ondersteuning toe voor spraak en-IN-NeerjaNeural.

Release van 2023-september

Voeg ondersteuning toe voor de nieuwste modelversies:

Spraaktaalidentificatie 1.12.0
Aangepaste spraak naar tekst 4.3.0
Spraak naar tekst 4.3.0
Neurale tekst naar spraak 2.17.0

Werk aangepaste spraak naar tekst en spraak naar tekst bij naar het nieuwste framework.

Los beveiligingsproblemen op.

Voeg ondersteuning toe voor spraak ar-AE-FatimaNeural.

Release van 2023-juli

Voeg ondersteuning toe voor de nieuwste modelversies:

Aangepaste spraak naar tekst 4.1.0
Spraak naar tekst 4.1.0
Neurale tekst naar spraak 2.15.0

Los het probleem op van het uitvoeren van spraak-naar-tekstcontainer via docker koppelopties met lokale aangepaste modelbestanden.

Los het probleem op dat in sommige gevallen de RECOGNIZING gebeurtenis niet wordt weergegeven als reactie via de Speech SDK.

Los beveiligingsproblemen op.

Release van 2023-juni

Voeg ondersteuning toe voor de nieuwste modelversies:

Aangepaste spraak naar tekst 4.0.0
Spraak naar tekst 4.0.0
Neurale tekst naar spraak 2.14.0

On-premises spraak-naar-tekstafbeeldingen worden bijgewerkt naar .NET 6.0

Voer een upgrade uit voor weergavemodellen voor landinstellingen, waaronderen-us, ar-bhar-eg, , ja-jpen ko-krmeer.

Werk het spraak-naar-tekstcontaineronderdeel bij om problemen met beveiligingsproblemen op te lossen.

Ondersteuning toevoegen voor landinstellingende-DE-AmalaNeural,de-AT-IngridNeuralde-AT-JonasNeural enen-US-JennyMultilingualNeural

Release van 2023-mei

Voeg ondersteuning toe voor de nieuwste modelversies:

Aangepaste spraak naar tekst 3.14.0
Spraak naar tekst 3.14.0
Neurale tekst naar spraak 2.13.0

he-IL Probleem met interpunctie oplossen

Problemen met beveiligingsproblemen oplossen

Nieuwe landinstellingsstem en-US-MichelleNeuraltoevoegen en es-MX-CandelaNeural

Release van 2023-april

Beveiligingsupdates

Problemen met beveiligingsproblemen oplossen

Release van 2023-maart

Voeg ondersteuning toe voor de nieuwste modelversies:

Aangepaste spraak naar tekst 3.12.0
Spraak naar tekst 3.12.0
Spraaktaalidentificatie 1.11.0
Neurale tekst naar spraak 2.11.0

Problemen met beveiligingsproblemen oplossen

tr-TR Het probleem met hoofdlettergebruik oplossen

De spraak-naar-tekstweergavemodellen en-US upgraden

Ondersteuning voor vooraf gemaakte neurale neurale tekst toevoegen aan spraakinstellingen ar-AE-HamdanNeural

Release van 2023-februari

Nieuwe containerversies

Ondersteuning toevoegen voor de nieuwste modelversies:

Aangepaste spraak naar tekst 3.11.0
Spraak naar tekst 3.11.0
Neurale tekst naar spraak 2.10.0

Problemen met beveiligingsproblemen oplossen

Reguliere upgrade voor spraakmodellen

Nieuwe Abraic-landinstellingen toevoegen:

ar-IL
ar-PS

Hebreeuwse en Turkse weergavemodellen upgraden

Release van 2023-januari

Nieuwe containerversies

Ondersteuning toevoegen voor de nieuwste modelversies:

Aangepaste spraak naar tekst 3.10.0
Spraak naar tekst 3.10.0
Neurale tekst naar spraak 2.9.0

Probleem met hypothesemodus oplossen

Probleem met HTTP-proxy oplossen

De niet-verbonden modus aangepaste spraak-naar-tekstcontainer

CNV-ondersteuning voor niet-verbonden containers toevoegen aan TTS-front-end

Voeg ondersteuning toe voor deze landinstellingen:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Release van 2022-december

Nieuwe containerversies

Ondersteuning toevoegen voor de nieuwste modelversies:

Aangepaste spraak naar tekst 3.9.0
Spraak naar tekst 3.9.0
Neurale tekst naar spraak 2.8.0

Probleem met ipv4/ipv6 oplossen

Probleem met beveiligingsproblemen oplossen

Release van 2022-november

Nieuwe containerversies

Ondersteuning toevoegen voor de nieuwste modelversies:

Aangepaste spraak naar tekst 3.8.0
Spraak naar tekst 3.8.0
Neurale tekst naar spraak 2.7.0

Release van 2022 oktober

Nieuwe containerversies

Ondersteuning toevoegen voor de nieuwste modelversies:

Aangepaste spraak naar tekst 3.7.0
Spraak naar tekst 3.7.0
Neurale tekst naar spraak 2.6.0

Release van 2022-september

Spraak naar tekst 3.6.0-amd64

Voeg ondersteuning toe voor de nieuwste modelversies.

Voeg ondersteuning toe voor deze landinstellingen:

az-az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

Regelmatige maandelijkse updates, waaronder beveiligingsupgrades en oplossingen voor beveiligingsproblemen.

Aangepaste spraak naar tekst 3.6.0-amd64

Regelmatige maandelijkse updates, waaronder beveiligingsupgrades en oplossingen voor beveiligingsproblemen.

Neurale neurale tekst naar spraak v2.5.0

Voeg ondersteuning toe voor deze vooraf samengestelde neurale stemmen:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Regelmatige maandelijkse updates, waaronder beveiligingsupgrades en oplossingen voor beveiligingsproblemen.

Release van 2022 mei

Speech-language-detection Container v1.9.0-amd64-preview

Oplossingen voor spraaktaaldetectie.

Release van 2022 maart

Aangepaste spraak-naar-tekstcontainer v3.1.0

Voeg ondersteuning toe om weergavemodellen op te halen.

Release van 2022-januari

Spraak-naar-tekstcontainer v3.0.0

Voeg ondersteuning toe voor het gebruik van containers in niet-verbonden omgevingen.

Spraak-naar-tekstcontainer v2.18.0

Regelmatige maandelijkse updates, waaronder beveiligingsupgrades en oplossingen voor beveiligingsproblemen.

Neurale-neurale tekst naar spraakcontainer v1.12.0

Voeg ondersteuning toe voor deze vooraf samengestelde neurale stemmen: am-et-amehaneural, am-et-mekdesneuralen so-so-muuseneuralso-so-ubaxneural.

Regelmatige maandelijkse updates, waaronder beveiligingsupgrades en oplossingen voor beveiligingsproblemen.