Azure Speech-Dienst wird fortlaufend aktualisiert. Damit Sie bezüglich der aktuellen Entwicklungen auf dem neuesten Stand bleiben, bietet dieser Artikel Informationen zu neuen Releases und Funktionen.
Wichtig
Speech SDK 1.48.2 und neuere Versionen enthalten einen wichtigen Fix für die CRL-Partitionierung (Certificate Revocation List) unter Linux und Android. Wenn Sie eine plattform mit aktivierter CRL-Überprüfung verwenden, führen Sie ein Upgrade auf 1.48.2 oder höher vor dem 1. Juli 2026 durch. Ausführliche Informationen finden Sie im CRL-Kompatibilitätsupdate.
Wichtig
Die Inhaltsbewertung (Vorschau) über das Speech SDK wurde im Juli 2025 eingestellt. Stattdessen können Sie Azure OpenAI-Modelle verwenden, um Inhaltsbewertungsergebnisse zu erhalten, wie in der Dokumentation zur Content Assessment beschrieben.
Speech SDK 1.49.1: Version vom 2026.April
Fehlerbehebungen:
- Ein Absturz in der eingebetteten Sprachtelemetrie-Verarbeitung wurde behoben.
Speech SDK 1.49: Version vom 2026.April
Hinweise zur Zielplattformunterstützung:
- Die Android x86-Unterstützung wird in dieser Version entfernt.
Neue Funktionen:
- Android OpenSSL auf 3.0.19 aktualisiert.
-
Python: Optimierte die Größe des Linux-Wheel.
Fehlerbehebungen:
- Behobene Speicherlecks in eingebetteter Spracheingabe.
- Feste Symbole wurden in der eingebetteten Spracherkennung nicht richtig transkribiert.
-
Python: Behobene Sprachsyntheseereignisse behandeln Lecks.
Speech SDK für JavaScript
Neue Funktionen:
- Verarbeitung von
PropertyId.SpeechServiceResponse_PostProcessingOption hinzugefügt.
- Sprachsyntheselatenzmessungen wurden hinzugefügt.
- Unterstützung für das Textstreaming von Sprachsyntheseeingaben hinzugefügt.
- Unterstützung für das Update der Übersetzungssynthese beim Ändern von Sprachen hinzugefügt.
Fehlerbehebungen:
- Die nicht ordnungsgemäße Anforderung detaillierter Erkennungsergebnisse wurde behoben.
- Es wurde eine unendliche Rekursion bei der Verwendung von
DialogServiceConnector mit einem ungültigen Token behoben.
- Die Fehlfunktion bei der Umleitung der Sprachsynthese-URL mit einem vom Benutzer angegebenen Pfad wurde korrigiert.
Speech SDK 1.48.2: Version vom 2026.Februar
Wichtig
Diese Version enthält einen wichtigen Fix für die CRL-Partitionierung (Certificate Revocation List) unter Linux und Android. Wenn Sie eine der Plattformen mit aktivierter CRL-Überprüfung verwenden, führen Sie ein Upgrade auf 1.48.2 vor dem 1. Juli 2026 durch. Ausführliche Informationen finden Sie im CRL-Kompatibilitätsupdate.
Fehlerbehebungen:
- Die Logik des CRL-Caches unter Linux und Android wurde korrigiert, um partitionierte CRLs ordnungsgemäß zu verarbeiten. Das SDK verwendet nun sowohl den Ausstellernamen als auch den CRL-Verteilungspunkt als Cacheschlüssel und verhindert Fehler
X509_V_ERR_DIFFERENT_CRL_SCOPE (Fehler 44) beim Herstellen von Verbindungen über Azure-Regionen oder nach einem Zertifikatwechsel.
- Es wurden potenzielle Verbindungsfehler nach der Zertifikatsrotation unter Linux und Android behoben, wenn die CRL-Überprüfung aktiviert ist.
Speech SDK 1.48.1: Version vom 2026.Februar
Hinweise zur Zielplattformunterstützung:
- Die Android x86-Unterstützung wird nach dieser Version gelöscht.
Neue Funktionen:
- Deaktivierte CRL-Prüfungen standardmäßig unter Linux und Android.
- Verbesserte Netzwerkfehlerbehandlung und -protokollierung.
- Die Erstellungszeit großer Begriffslisten wurde optimiert.
-
Java: Unterstützung für das Streamen von Sprachsyntheseeingabetexten hinzugefügt.
-
Java: Verbesserte JNI-Speicherverwaltung.
-
Javascript: Metriken der Erkennungslatenz – Erkennungsergebnisse umfassen jetzt SpeechServiceResponse_RecognitionLatencyMs Eigenschaft, die end-to-End-Latenz von Audioeingabe zu Ergebnis misst.
-
JavaScript: Stopp-Timeout für Recognizer – Die neue Recognizer_StopTimeoutMs-Eigenschaft ermöglicht Timeout-Schutz für stopContinuousRecognitionAsync(). Bei Festlegung wird der Vorgang sofort beendet, wenn der Dienst nicht innerhalb des angegebenen Zeitraums abgeschlossen wird, statt auf unbestimmte Zeit zu warten.
-
Javascript: Avatar-Szenenkonfiguration – Neue AvatarSceneConfig-Klasse ermöglicht die Konfiguration des Avatarzooms, der Position (X/Y), der Drehung (X/Y/Z) und der Amplitude. Szene kann zur Laufzeit über AvatarSynthesizer.updateSceneAsync() aktualisiert werden.
Fehlerbehebungen:
- Es wurde ein Absturz im Diktiermodus behoben, wenn die Protokollierung aktiviert ist.
- CRL-bezogene Speicherlecks im Netzwerkstapel wurden behoben.
- Behebung eines Problems, bei dem in eingebetteter Spracherkennung Leistungszähler manchmal fehlen.
- Behebung eines Problems, bei dem der Interpunktion in eingebetteter Sprachsynthese feste Pausenlängen zugeordnet werden.
- Behebung eines Problems, bei dem Wortgrenzen in hybrider Sprachsynthese zwischengespeichert werden.
-
JavaScript: Die automatische Erkennung der Quellsprache akzeptiert jetzt einen leeren Sprachparameter für "from".
-
JavaScript:@azure/core-auth als SDK-Abhängigkeit für eine verbesserte Azure Identitätsintegration hinzugefügt.
Beispiele:
Java, Python: Aktualisierte Versionen mehrerer Abhängigkeiten, um Sicherheitsrisiken zu beheben.
Speech SDK 1.47: Veröffentlichung im November 2025
Neue Funktionen:
- Die Standardrichtlinie wurde geändert, um Fehler aufgrund von Netzwerkbedingungen zu ignorieren, die den Zugriff auf Onlinezertifikatsperrinformationen auf Linux-Clients verhindern.
- [JavaScript] Unterstützung für die Angabe des Basismodellnamens für Foto-Avatare hinzugefügt.
Fehlerbehebungen:
Beispielupdates:
- Entfernte Absichtserkennungsbeispiele (mit Ausnahme der eigenständigen Implementierung der Absichtserkennung in C++) aufgrund der Einstellung des Dienstes.
- Beispiele zur Sprechererkennung wegen der Einstellung des Diensts entfernt.
- Unity-Beispiele wurden entfernt, da die letzten Speech SDK Unity-Pakete für die Version 1.44 veröffentlicht wurden und es keine direkte Unterstützung mehr gibt.
Umwälzende Änderungen:
- Die Unterstützung für die Absichtserkennung wurde aufgrund der Abschaltung des Dienstes entfernt.
- Unterstützung für die Sprechererkennung aufgrund der Einstellung des Diensts entfernt.
Speech SDK 1.46: Veröffentlichung im September 2025
Neue Funktionen:
- Unterstützung für die Empfindlichkeit von Startereignissen der Spracherkennung wurde mit der Eigenschaft
Speech_StartEventSensitivity hinzugefügt.
- Veraltete
SpeechServiceConnection_EndSilenceTimeoutMs Eigenschaft.
- Die Inhaltsbewertungsfunktionalität in der Aussprachebewertung wurde abgeschafft.
- Android OpenSSL auf 3.0.17 aktualisiert.
- Der Telemetriewarteschlange wurde eine Größenbeschränkung hinzugefügt, um das Wachstum der Speicherauslastung zu verhindern.
- Es wurde ein Timeout-Schutz für das Lesen von Caches in TTS hinzugefügt, um potenzielle E/A-Blockierungen zu verhindern.
- Konfigurierbare Eigenschaften zum Steuern des URL-Umleitungscacheverhaltens hinzugefügt.
- [C#] Unterstützung für die eventSource-basierte Protokollierung hinzugefügt.
- [Python] Unterstützung für AzureKeyCredentialauthentifizierung hinzugefügt.
Behebung von Programmfehlern
- Ein ja-JP Ausspracheproblem in eingebettetem Text-zu-Sprache wurde behoben.
- Ein bemerkenswerter Anstieg der Speicherauslastung über einen längeren Zeitraum in der eingebetteten Sprach-zu-Text-Technologie wurde behoben.
- Ein Absturz wurde behoben, der durch eine Race-Condition während des Timeouts beim Beenden der Erkennung verursacht wurde.
- [JavaScript] Es wurde ein Problem behoben, bei dem
fromHost nicht mit dem Docker-Containerdienst funktionierte.
Beispiele
- Aktualisierte Beispiele zur Veranschaulichen der Verwendung von
AzureKeyCredential und Microsoft Entra ID token credential Authentifizierungen.
- [JavaScript, Python] Aktualisierte Beispiele für die Verwendung von
fromEndpoint.
Speech SDK 1.45: Release von Juli 2025
Neue Funktionen:
- Unterstützung für das Festlegen der Grammatikgewichtung der Begriffsliste hinzugefügt.
- Spezifischere Fehlercodes für das Öffnen von Dateien hinzugefügt.
- Aktualisierte Unicode-Pfadunterstützung, sodass sich SDK-Windows DLLs unter Nicht-ASCII-Pfaden befinden können.
- Aktualisierte Beschreibungen der Segmentierungsstrategieeigenschaften, die an die Dienstlogik angepasst werden sollen.
- [C#, Java] Unterstützung für die Authentifizierung mit ApiKeyCredential hinzugefügt.
Behebung von Programmfehlern
- Es wurde ein Initialisierungsfehler im Microsoft Audio Stack (MAS) in Bezug auf die Mikrofongeometrie in bestimmten Regionen behoben.
- Feste Profanitätseinstellungen funktionieren nicht in der Sprachübersetzung (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2856).
- Es wurde ein Absturz beim Abgleich des Absichtserkennungsmusters mit der japanischen Sprache behoben.
- Benutzerdefinierte Domänenauflösung funktionierte nicht mit Node.js v22 oder höher.
Beispiele
- [Java] Hinzufügung von Beispielcode, um die Microsoft Entra ID-Authentifizierung von Tokenanmeldeinformationen zu zeigen.
Speech SDK 1.44.1: Patch-Release
SDK Version 1.44.1 wird nur für JavaScript mit vier Fehlerbehebungen veröffentlicht:
Behebung von Programmfehlern
- Es wurde eine Ausnahme außerhalb des Bereichs behoben, wenn nur ein Segmentierungssteuerelementparameter bereitgestellt wurde.
- enableDictation wurde nicht ordnungsgemäß an den Spracherkennungsdienst übergeben.
- ConversationTranscriber hat beim Erstellen mit der fromEndpoint-Methode nicht den richtigen URL-Pfad verwendet.
- Es wurde ein Fehler behoben, der auftritt, wenn Daten nach dem Abtrennen in einen Eingabestrom eingespeist werden.
Speech SDK 1.44: Veröffentlichung Mai 2025
Wichtig
Die Unterstützung für Zielplattformen ändert sich:
- Die mindestens unterstützte Android-Version ist jetzt Android 8.0 (API-Ebene 26).
- Die Veröffentlichung von Speech SDK Unity-Paketen wird nach dieser Version angehalten.
Neue Funktionen:
- Unterstützung für Android Arbeitsspeicherseitengrößen von 16 KB hinzugefügt.
- Die Latenz der SpeechStartDetected-Ereignisse bei der eingebetteten Spracherkennung wurde reduziert.
- [C++, Python] Es wurde eine Methode hinzugefügt, um die verfügbare Größe von AudioDataStream abzurufen.
- [C++, Python] Unterstützung für benutzerdefinierte Lexikon-URLs und bevorzugte Gebietsschemas in Anfragen zur Sprachsynthese hinzugefügt.
- [Java, Python] Unterstützung für Microsoft Entra tokenbasierte Authentifizierung mit automatischer Tokenaktualisierung hinzugefügt.
- [Gehe zu] Unterstützung für die Transkription von Unterhaltungen hinzugefügt.
Behebung von Programmfehlern
- Problem behoben, dass die Sprachsynthese für die Übersetzung nicht funktionierte, wenn die Quellsprachenerkennung verwendet wurde.
- Beheben von Problemen mit Dateipfaden mit Nicht-ASCII-Zeichen, die für eingebettete Sprachmodelle, KWS-Modelle oder Protokolldateien (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288) nicht funktionierten.
- Problem einer NoMatch-Schleife in eingebetteter Spracherkennung unter bestimmten Bedingungen behoben.
- Problem mit dem Destruktor nativer Objekte behoben, der aufgrund der Erkennung nicht als gestoppt markiert wurde, wenn Ereignisse getrennt wurden.
- Problem behoben, dass der Vergleich des IntentRecognizer-Musters unter bestimmten Bedingungen mit Multibytezeichen nicht ordnungsgemäß funktioniert.
- Das Aufrufen
Close() eines Connection-Objekts war nicht synchron.
- Problem mit einer Racebedingung bei der Belegungsfreigabe der Verbindung behoben, das zu einem Absturz führen konnte.
- [macOS] Behobene "Info:"-Nachrichten, die auf der Konsole angezeigt werden (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610).
Beispiele
- [Python] Beispielcode für
recognizer mit Microsoft Entra Tokenanmeldeinformationen hinzugefügt.
Speech SDK für JavaScript
Neue Funktionen:
- Aktualisierte Entwicklungsabhängigkeit: TypeScript 3.5.3 → 4.5
- TranslationRecognizer wurde aktualisiert, um V2-Endpunkte standardmäßig zu verwenden.
- SpeechRecognizer wurde aktualisiert, um V2-Endpunkte zu verwenden.
- Dies führt dazu, dass keine NoMatch-Ergebnisse mehr empfangen werden.
- Unterstützung für die token-basierte Microsoft Entra-Authentifizierung zur Spracherkennung und -übersetzung wurde hinzugefügt.
- Die FromEndpoint-API wurde aktualisiert, um die empfohlene Methode zum Erstellen einer SpeechConfig für die meisten Szenarien zu sein.
- Gilt für die Verwendung von:
- Spracherkenner
- TranslationRecognizer (über SpeechTranslationConfig)
- Konversations-Transkriptor
- Sprachsynthesizer
- Sie können nun den Endpunkt aus dem Azure-Portal für Speech- und Microsoft Foundry-Ressourcen verwenden, um ein SpeechConfig-Objekt zu erstellen.
- Alle anderen Methoden zum Erstellen einer SpeechConfig funktionieren weiterhin und werden unterstützt.
Behebung von Programmfehlern
Speech SDK 1.43: Veröffentlichung im März 2025
Neue Funktionen:
- Die FromEndpoint-API wurde aktualisiert, um die empfohlene Methode zum Erstellen einer SpeechConfig für die meisten Szenarien zu sein.
- Gilt für die Verwendung von:
- Spracherkenner
- TranslationRecognizer (über SpeechTranslationConfig)
- Konversations-Transkriptor
- SpeechSynthesizer In allen Programmiersprachen außer JavaScript.
- Sie können nun den Endpunkt aus dem Azure-Portal für Speech and Cognitive Services-Ressourcen verwenden, um ein SpeechConfig-Objekt zu erstellen.
- Alle anderen Methoden zum Erstellen einer SpeechConfig funktionieren weiterhin und werden unterstützt.
- TranslationRecognizer wurde aktualisiert, um V2-Endpunkte standardmäßig zu verwenden.
- Dadurch werden Steuerparameter von der URL zu Kanalnachrichten transferiert, wenn ein V2-Endpunkt verwendet wird.
- Verhaltensänderung: Die für "zh" zurückgegebene Standardsprache ist jetzt "zh-CN" anstelle von "zh-hans"
- Eigenschaften-IDs für SpeechSynthesis_FrameTimeoutInterval und SpeechSynthesis_RtfTimeoutThreshold hinzugefügt.
- Die Anzahl der erneuten Verbindungen des SDK für zeitintensive Erkennungen wurde optimiert.
- [C++, Python] Unterstützung für die Angabe des Stils und der Temperatur in Textstreaminganforderungen hinzugefügt.
- [C#] Unterstützung für die automatische Microsoft Entra ID Tokenaktualisierung bei Verwendung von FromEndpoint zum Erstellen eines Konfigurationsobjekts hinzugefügt.
- Dadurch wird eine Abhängigkeit vom Speech SDK zum Azure.Core NuGet-Paket hinzugefügt.
- Das Speech SDK kann jetzt abgeleitete TokenCredential-Objekte für die Authentifizierung akzeptieren, wenn Folgendes verwendet wird:
- Spracherkenner
- Übersetzungs-Recognizer
- Konversations-Transkriptor
- [Objective-C] SpXTranslationRecognizer wurde aktualisiert, um die automatische Erkennung der Quellsprache aus dem geöffneten Bereich zu unterstützen.
- [Objective-C , Python] Diagnose-APIs EventLogger, FileLogger und MemoryLogger hinzugefügt.
- [Go]: TranslationRecognizer-Unterstützung hinzugefügt
Behebung von Programmfehlern
Beispiele
- [C++] Ein Beispiel für die eigenständige Absichtserkennung mithilfe des Musterabgleichs wurde hinzugefügt.
- Mit dem Auslaufen des LUIS-Dienstes im Oktober 2025 wird auch die IntentRecognizer-Objektgruppe des Speech SDK eingestellt.
- Davor wollten wir die Implementierung für den Musterabgleich freigeben.
- [C++, C#, Java, Python] Die meisten Beispiele wurden aktualisiert, um fromEndpoint-API anstelle von FromSubscription zu verwenden.
- [C#] Ein Szenariobeispiel für eine Mehrstufige Spracherkennungsanwendung wurde hinzugefügt.
- Veranschaulicht eine Methodik für die Audiowiedergabe und erneute Verbindung von einem Edgegerät an einen Dienst auf mittlerer Ebene, der dann Audio über das Speech SDK an den Sprachdienst weiterleitet.
- [C#] Aktualisierte Beispiele zur Verwendung der automatischen Token-Aktualisierung für Microsoft Entra ID.
- [Python] Es wurden Beispiele für neue Diagnose-APIs hinzugefügt.
- [Unity] Anweisungen zum Installieren der neuen Azure.Core-Abhängigkeit hinzugefügt.
Speech SDK 1.42.0: Release von Dezember 2024
Neue Funktionen
- Java: Diagnoseprotokollierungs-APIs mit Klassen von FileLogger, MemoryLogger, EventLogger und SpxTrace hinzugefügt.
- Unterstützung beim Senden der JSON-Eigenschaft "Details" des Besprechungsteilnehmers an den Dienst
- Go: Öffentliche Eigenschaft SpeechServiceConnection_ProxyHostBypass hinzugefügt, um Hosts anzugeben, für die kein Proxy verwendet wird.
- JavaScript, Go: Hinzugefügte öffentliche Eigenschafts-ID Speech_SegmentationStrategy, um zu bestimmen, wann ein gesprochener Ausdruck beendet wurde und ein endgültiges erkanntes Ergebnis generiert werden sollte(einschließlich semantischer Segmentierung)
- JavaScript, Go: Hinzugefügte öffentliche Eigenschafts-ID Speech_SegmentationMaximumTimeMs bestimmen das Ende eines gesprochenen Ausdrucks basierend auf der Zeit in Java, Python, C#, C++
Behebung von Programmfehlern
- Es wurde eine eingebettete TTS-Stimme (neu) für jede Synthese geladen, wenn der Sprachname nicht festgelegt ist.
- Bei Verwendung von MeetingTranscriber in einigen Szenarien wurden Offsetberechnungsprobleme behoben.
- Es wurde ein potenzieller Deadlock behoben, wenn mehrere Diagnoseereignislistener parallel registriert wurden.
- (JavaScript) Mögliche Verlorene NoMatch-Ergebnisse wurden behoben, wenn am Ende des Audiosignals. Dieser Fix richtet auch das Verhalten am Ende der Sprachausgabe an die anderen SDK-Sprachen aus und führt möglicherweise dazu, dass einige leere Ereignisse nicht mehr ausgelöst werden.
- (JavaScript) Korrigiere Offsets im Ergebnis-JSON, um sie mit den Offsets der Ergebnisobjekte abzugleichen. Zuvor wurde nur die Offseteigenschaft des Ergebnisobjekts für die Dienstwiederholung festgelegt.
- Go-Sprache: Ein Kompilierungsfehler wurde behoben https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639.
- Feste Ergebnisversätze in der Besprechungstranskription, wenn eine erneute Verbindung mit dem Dienst auftritt.
- Ein Deadlock in der Protokollierung wurde behoben.
Beispiele
- Aktualisierte C#-Beispiele für die Verwendung von .NET 8.0.
- Java-Beispiel verwendet die Diagnoseprotokollierungs-API, um die Nutzung der neuen Diagnoseprotokollierungsklassen zu zeigen.
Release November 2024
Azure Speech Toolkit-Erweiterung ist jetzt für Visual Studio Code Benutzer verfügbar. Sie enthält eine Liste der Schnellstarts und Szenariobeispiele für Speech, die einfach mit wenigen Klicks erstellt und ausgeführt werden können. Weitere Informationen finden Sie unter Azure Speech Toolkit in Visual Studio Code Marketplace.
Codebeispiele für Sprachsynthese-Avatare
Wir haben Text zu Sprach-Avatarcodebeispielen für Android und iOS hinzugefügt. Diese Beispiele veranschaulichen, wie Sie Echtzeit-Avatare für die Sprachsynthese in Ihren mobilen Anwendungen verwenden.
Speech SDK 1.41.1: Release vom Oktober 2024
Neue Funktionen
- Unterstützung für Amazon Linux 2023 und Azure Linux 3.0 hinzugefügt.
- Öffentliche Eigenschafts-ID „SpeechServiceConnection_ProxyHostBypass“ hinzugefügt, um Hosts anzugeben, für die kein Proxy verwendet wird
- Eigenschaften zum Steuern neuer Begriffssegmentierungsstrategien hinzugefügt
Fehlerbehebungen
- Unvollständige Unterstützung für die Schlüsselworterkennung in Advanced-Modellen, die nach August 2024 erstellt wurden, korrigiert.
- Arbeitsspeicherverlust in C# im Zusammenhang mit der Zeichenfolgennutzung behoben
- Dass in Objective-C und Swift SPXAutoDetectSourceLanguageResult nicht von SPXConversationTranscriptionResult abgerufen werden konnte, wurde behoben.
- Es wurde ein gelegentlicher Absturz bei Verwendung des Microsoft Audiostacks in der Anerkennung behoben.
- Die Typenhinweise in Python wurden behoben.
https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- Der Fehler, dass bei Verwendung eines benutzerdefinierten Endpunkts die Liste der TTS-Stimmen nicht abgerufen werden kann, wurde behoben.
- Eingebettete TTS-Neuinitialisierung für jede Sprachanforderung wurde behoben, wenn die Stimme mit einem Kurznamen angegeben wird.
- Die API-Referenzdokumentation für die maximale Dauer von RecognizeOnce-Audiodaten wurde korrigiert.
- Ein Fehler bei der Behandlung arbiträrer Samplingraten in JavaScript wurde behoben.
- Fehler beim Berechnen des Audiooffsets in JavaScript behoben
- Vielen Dank an motamed für den Beitrag.
Aktuelle Änderungen
- Die Unterstützung der Schlüsselworterkennung für Windows ARM 32-Bit wurde aufgrund der erforderlichen ONNX-Laufzeit entfernt, die für diese Plattform nicht verfügbar ist.
Speech-SDK 1.40: Release 2024-August
Hinweis
Die Speech SDK-Version 1.39.0 war ein internes Release und fehlt nicht.
Neue Funktionen
- Unterstützung des Streamings
G.722-komprimierter Audiodateien bei der Spracherkennung wurde hinzugefügt.
- Unterstützung von Tonhöhe, Samplerate und Lautstärke im Eingabetextstreaming bei der Sprachsynthese wurde hinzugefügt.
- Unterstützung des Eingabetextstreamings mit persönlicher Stimme durch die Einführung von
PersonalVoiceSynthesisRequest bei der Sprachsynthese wurde hinzugefügt. Diese API befindet sich in der Vorschauphase und kann in zukünftigen Versionen noch geändert werden.
- Unterstützung für die Diarisierung von Zwischenergebnissen bei Verwendung von
ConversationTranscriber wurde hinzugefügt.
- Entfernung der CentOS/RHEL 7-Unterstützung aufgrund des Endes des CentOS 7-Supports und des Endes von RHEL 7 Maintenance Support 2.
- Die Verwendung eingebetteter Sprachmodelle erfordert jetzt eine Modelllizenz anstelle eines Modellschlüssels. Wenn Sie ein bestehender eingebetteter Sprachkunde sind und ein Upgrade durchführen möchten, wenden Sie sich an ihre Supportperson unter Microsoft, um Details zu Modellupdates zu erhalten.
Behebung von Programmfehlern
Beispiele
- Eingebettete Sprachbeispiele wurden aktualisiert, um anstelle eines Schlüssels eine Modelllizenz zu verwenden.
Speech-SDK 1.38.0: Release von Juni 2024
Neue Funktionen
- Linux-Plattformanforderungen für das Speech-SKD-Upgrade:
- Die neue Mindestbaseline ist Ubuntu 20.04 LTS oder eine Version, die mit
glibc 2.31 (oder höher) kompatibel ist.
- Binärdateien für Linux x86 werden nach Ubuntu 20.04-Plattformsupport entfernt.
-
Beachten Sie, dass RHEL/CentOS 7 noch bis zum 30. Juni unterstützt wird (Ende von CentOS 7 und Ende von RHEL 7-Wartungssupport 2). Binärdateien für diese werden im Release Speech-SDK 1.39.0 entfernt.
- Hinzufügen von Support für OpenSSL 3 unter Linux.
- Hinzufügen von Support für das Audioausgabeformat g722-16khz-64kbps mit Sprachsynthesizer.
- Hinzufügen von Support für das Senden von Nachrichten über ein Verbindungsobjekt mit Sprachsynthesizer.
- Hinzufügen von Start/StopKeywordRecognition-APIs in Objective-C und Swift.
- Hinzufügen einer API zum Auswählen einer benutzerdefinierten Übersetzungsmodellkategorie.
- Aktualisieren der GStreamer-Nutzung mit Sprachsynthesizer.
Behebung von Programmfehlern
- Der Fehler „Websocket-Nachrichtengröße darf 65.536 Bytes nicht überschreiten“ während „Start/StopKeywordRecognition“ wurde behoben.
- Beheben eines Python Segmentierungsfehlers während der Sprachsynthese.
Beispiele
- Aktualisieren Sie C#-Beispiele, um standardmäßig .NET 6.0 zu verwenden.
Speech SDK 1.37.0: Release von April 2024
Neue Funktionen
- Unterstützung für das Streaming von Eingabetext in der Sprachsynthese wurde hinzugefügt.
- Die Standardstimme für die Sprachsynthese wurde auf „en-US-AvaMultilingualNeural“ geändert.
- Android-Builds wurden für die Verwendung von OpenSSL 3.x. aktualisiert.
Behebung von Programmfehlern
Beispiele
- Updates für neue Features.
Speech SDK 1.36.0: Release von März 2024
Neue Funktionen
- Support für die Sprachidentifikation bei mehrsprachiger Übersetzung auf v2-Endpunkten mithilfe von AutoDetectSourceLanguageConfig::FromOpenRange().
Behebung von Programmfehlern
Das Ereignis SynthesisCanceled wird nicht ausgelöst, wenn der Stopp während des Ereignisses SynthesisStarted aufgerufen wird.
Behebung eines Rauschproblems in der eingebetteten Sprachsynthese.
Behebung eines Absturzes bei der eingebetteten Spracherkennung, wenn mehrere Erkennungsmodule parallel ausgeführt werden.
Behebung der Einstellung für den Begriffserkennungsmodus in v1/v2-Endpunkten.
Korrekturen für verschiedene Probleme mit dem Microsoft Audio Stack.
Beispiele
- Updates für neue Features.
Speech SDK 1.35.0: Version von Februar 2024
Neue Funktionen
- Ändern Sie die Standardstimme der Sprachsynthese von „en-US-JenniferMultilingualNeural“ zu „en-US-AvaNeural“.
- Unterstützen Sie Details auf Wortebene in eingebetteten Sprachübersetzungsergebnissen mithilfe des detaillierten Ausgabeformats.
Behebung von Programmfehlern
- Korrigieren Sie die Position des AudioDataStream-Getter-API in Python.
- Beheben Sie die Sprachübersetzung mithilfe von v2-Endpunkten ohne Spracherkennung.
- Beheben Sie einen zufälligen Absturz und doppelte Wortgrenzenereignisse in eingebetteter Sprachsynthese.
- Geben Sie einen korrekten Abbruchfehlercode für einen internen Serverfehler für WebSocket-Verbindungen zurück.
- Beheben Sie den Fehler beim Laden der „FPIEProcessor.dll“-Bibliothek, wenn MAS mit C# verwendet wird.
Beispiele
- Kleinere Formatierungsupdates für eingebettete Anerkennungsbeispiele.
Speech SDK 1.34.1: Release von Januar 2024
Aktuelle Änderungen
Neue Funktionen
Behebung von Programmfehlern
- Behebung der in 1.34.0 eingeführten Regression, bei der die URL des Dienstendpunkts mit fehlerhaften Gebietsschemainformationen für Benutzer*innen in mehreren Regionen In China erstellt wurde.
Speech-SDK 1.34.0: Release von November 2023
Aktuelle Änderungen
-
SpeechRecognizer wurde aktualisiert, um standardmäßig (bei fehlender expliziter URL-Angabe) einen neuen Endpunkt zu verwenden, der für die meisten Eigenschaften keine Abfragezeichenfolgenparameter mehr unterstützt. Anstatt Abfragezeichenfolgenparameter direkt mit ServicePropertyChannel.UriQueryParameter festzulegen, verwenden Sie bitte die entsprechenden API-Funktionen.
Neue Funktionen
- Kompatibilität mit .NET 8 (Fix für https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 mit Ausnahme der Warnung zu Centos7-x64)
- Unterstützung für eingebettete Sprachleistungsmetriken, die verwendet werden können, um die Funktionalität eines Geräts zum Ausführen eingebetteter Sprache auszuwerten.
- Unterstützung für die Quellsprachidentifikation in eingebetteter mehrsprachiger Übersetzung.
- Unterstützung für eingebettete Spracherkennung, Sprachsynthese und Übersetzung für iOS und Swift/Objective-C, die in der Vorschau veröffentlicht wurden.
- Eingebettete Unterstützung wird in MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod bereitgestellt.
Behebung von Programmfehlern
- Fix für iOS-SDK x2 mal binäres Größenwachstum · Issue # 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Beheben des Fehlers „Fehler beim Abrufen von Zeitstempeln auf Wortebene von der Azure Speech-to-Text API“ · Fehler #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Fix für DialogServiceConnector-Zerstörungsphase, um Ereignisse ordnungsgemäß zu trennen. Dies verursachte gelegentlich Abstürze.
- Fix für die Ausnahme beim Erstellen eines Erkennungsmoduls, wenn MAS verwendet wird.
- FPIEProcessor.dll aus Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-Paket für Windows UWP x64 und Arm64 weisen eine Abhängigkeit von VC++-Laufzeitbibliotheken für natives C++ auf. Das Problem wurde behoben, indem die Abhängigkeit auf die richtigen VC-Runtimebibliotheken (für UWP) aktualisiert wurde.
- Fix für [MAS] Wiederkehrende Aufrufe zur recognizeOnceAsync führen zu SPXERR_ALREADY_INITIALIZED bei Verwendung von MAS · Issue # 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Fix für Absturz der eingebetteten Spracherkennung beim Verwenden von Phrasenlisten.
Beispiele
- Eingebettete iOS-Beispiele für Spracherkennung, Sprachsynthese und Übersetzung.
Speech-CLI 1.34.0: Release vom November 2023
Neue Funktionen
- Support für die Ausgabe von Wörterbegrenzungsereignissen beim Synthetisieren von Sprache.
Behebung von Programmfehlern
- Aktualisierte JMESPath-Abhängigkeit zum neuesten Release, verbessert Zeichenfolgeauswertungen
Speech SDK 1.33.0: Release vom Oktober 2023
Hinweis zu Breaking Change
- Das neue NuGet-Paket, das für Microsoft Audio Stack (MAS) hinzugefügt wurde, muss jetzt von Anwendungen eingeschlossen werden, die MAS in ihren Paketkonfigurationsdateien verwenden.
Neue Funktionen
- Das neue NuGet-Paket Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg wurde hinzugefügt, das eine verbesserte Echokompensationsleistung bei Verwendung des Microsoft Audio Stacks bietet.
- Aussprachebewertung: Unterstützung für die Prosodie- und Inhaltsbewertung hinzugefügt, die die gesprochene Sprache in Bezug auf Prosodie, Vokabular, Grammatik und Thema bewerten kann.
Behebung von Programmfehlern
Beispiele
Speech CLI 1.33.0: Release vom Oktober 2023
Neue Funktionen
- Support für die Ausgabe von Wörterbegrenzungsereignissen beim Synthetisieren von Sprache.
Behebung von Programmfehlern
Speech SDK 1.32.1: Release im September 2023
Behebung von Programmfehlern
- Updates für Android-Pakete mit den neuesten Sicherheitskorrekturen von OpenSSL 1.1.1v
- JS: WebWorkerLoadType-Eigenschaft hinzugefügt, um die Umgehung des Ladens der Daten-URL für Timeout-Worker zu ermöglichen
- JS: Beheben der Verbindungstrennung der Konversationsübersetzung nach 10 Minuten
- JS: Authentifizierungstoken für die Konversationsübersetzung wird jetzt an die Übersetzungsdienstverbindung weitergegeben
Beispiele
Speech SDK 1.31.0: Release von August 2023
Neue Funktionen
Unterstützung für Echtzeitdiarisierung ist mit dem Speech SDK 1.31.0 in der öffentlichen Vorschau verfügbar. Dieses Feature ist in den folgenden SDKs verfügbar: C#, C++, Java, JavaScript, Python und Objective-C/Swift.
Synchronisierte Wortgrenzen- und viseme-Ereignisse mit Audiowiedergabe für die Sprachsynthese
Aktuelle Änderungen
Das frühere Szenario „Unterhaltungstranskription“ wird in „Besprechungstranskription“ umbenannt. Verwenden Sie beispielsweise MeetingTranscriber anstelle von ConversationTranscriber und CreateMeetingAsync anstelle von CreateConversationAsync. Obwohl sich die Namen von SDK-Objekten und -Methoden geändert haben, wird das Feature selbst durch die Umbenennung nicht geändert. Verwenden Sie Besprechungstranskriptionsobjekte für die Transkription von Besprechungen mit Benutzerprofilen und Stimmsignaturen. Die Objekte und Methoden der „Konversationsübersetzung“ sind von diesen Änderungen nicht betroffen. Sie können das ConversationTranslator-Objekt und die zugehörigen Methoden weiterhin für Besprechungsübersetzungsszenarien verwenden.
Für die Echtzeitdiarisierung wird ein neues ConversationTranscriber-Objekt eingeführt. Das neue Objektmodell der Unterhaltungstranskription und die Aufrufmuster ähneln der kontinuierlichen Erkennung mit dem SpeechRecognizer-Objekt. Ein wichtiger Unterschied besteht darin, dass das ConversationTranscriber-Objekt für die Verwendung in einem Unterhaltungsszenario konzipiert ist, in dem Sie mehrere Sprecher unterscheiden möchten (Diarisierung). Benutzerprofile und Stimmsignaturen sind nicht anwendbar. Weitere Informationen finden Sie im Schnellstart zur Echtzeitdiarisierung.
In dieser Tabelle werden die vorherigen und neuen Objektnamen für die Echtzeitdiarisierung und Besprechungstranskription angezeigt. Der Name des Szenarios befindet sich in der ersten Spalte, die vorherigen Objektnamen in der zweiten Spalte und die neuen Objektnamen in der dritten Spalte.
| Name des Szenarios |
Vorherige Objektnamen |
Neue Objektnamen |
| Echtzeit-Diarisierung |
– |
ConversationTranscriber |
| Besprechungstranskription |
ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant
1
ParticipantChangedReason
1
User
1 |
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting
2 |
1 Die Objekte Participant, ParticipantChangedReason und User gelten sowohl für Besprechungstranskriptions- als auch für Besprechungsübersetzungsszenarien.
2 Das Objekt Meeting ist neu und wird mit dem Objekt MeetingTranscriber verwendet.
Behebung von Programmfehlern
Beispiele
Speech SDK 1.30.0: Release von Juli 2023
Neue Funktionen
-
C++, C#, Java – Unterstützung für
DisplayWords im detaillierten Ergebnis der eingebetteten Spracherkennung hinzugefügt.
-
Objective-C/Swift: Unterstützung für das
ConnectionMessageReceived-Ereignis wurde in Objective-C/Swift hinzugefügt.
-
Objective-C/Swift: Verbesserte Schlüsselworterkennungs-Modelle für iOS. Diese Änderung hat die Größe bestimmter Pakete erhöht, die iOS-Binärdateien enthalten (z. B. NuGet, XCFramework). Wir arbeiten daran, die Größe für zukünftige Releases zu reduzieren.
Behebung von Programmfehlern
- Ein Speicherverlust bei Verwendung der Spracherkennung mit PhraseListGrammar wurde behoben, wie von einem Kunden gemeldet (GitHub Problem).
- Ein Deadlock in der offenen Verbindungs-API für Sprachsynthese wurde behoben.
Weitere Hinweise:
-
Java – Einige intern verwendete API-Methoden
public Java API wurden in "package internal", "protected" oder "private" geändert. Diese Änderung sollte sich nicht auf Entwickler auswirken, da Anwendungen diese Pakete wahrscheinlich nicht verwenden werden. Wird hier der Transparenz wegen erwähnt.
Beispiele
- Neue Beispiele zur Aussprachebewertung zum Angeben einer Lernsprache in Ihrer eigenen Anwendung
Speech SDK 1.29.0: Release im Juni 2023
Neue Funktionen
-
C++, C#, Java – Vorschau auf eingebettete Sprachübersetzungs-APIs. Jetzt können Sie Sprachübersetzungen ohne Cloud-Verbindung durchführen!
-
JavaScript – Kontinuierliche Spracherkennung (Continuous Language Identification, LID) jetzt für die Sprachübersetzung aktiviert.
-
JavaScript – Communitybeitrag zum Hinzufügen einer Eigenschaft
LocaleName zur Klasse VoiceInfo. Vielen Dank GitHub Benutzer shivsarthak für die Pullanforderung.
-
C++, C#, Java: Für das Resampling der eingebetteten Sprachsyntheseausgabe mit einer Abtastrate von 16 kHz bis 48 kHz wurde Unterstützung hinzugefügt.
- Unterstützung für Gebietsschema
hi-IN in der Absichtserkennung mit Simple Pattern Matcher hinzugefügt.
Behebung von Programmfehlern
- Ein Absturz, der durch eine Racebedingung in der Spracherkennung während der Objektzerstörung verursacht wurde, der in einigen unserer Android-Tests auftrat, wurde behoben.
- Mögliche Deadlocks in der Absichtserkennung mit Simple Pattern Matcher wurden behoben.
Beispiele
- Neue Beispiele für die eingebettete Sprachübersetzung
Speech SDK 1.28.0: Release von Mai 2023
Breaking Change
-
JavaScript SDK: Online Certificate Status Protocol (OCSP) wurde entfernt. Dadurch können Clients Browser- und Knotenstandards für die Zertifikatverarbeitung besser erfüllen. Ab Version 1.28 ist unser benutzerdefiniertes OCSP-Modul nicht mehr enthalten.
Neue Funktionen
-
Die eingebettete Spracherkennung gibt nun
NoMatchReason::EndSilenceTimeout zurück, wenn am Ende einer Äußerung ein Sprechpausen-Timeout auftritt. Dies entspricht dem Verhalten bei der Erkennung mithilfe des Echtzeit-Sprachdiensts.
-
JavaScript SDK: Legen Sie Eigenschaften unter
SpeechTranslationConfig mithilfe von PropertyId-Enumerationswerten fest.
Behebung von Programmfehlern
-
C# unter Windows: Beheben Sie potenzielle Racebedingungen/Deadlocks in der Windows-Audioerweiterung. In Szenarios, in denen der Audiorenderer schnell entfernt und die Synthesizer-Methode zum Beenden des Sprechens verwendet wird, wurde das zugrunde liegende Ereignis nicht durch Beenden zurückgesetzt. Dies konnte dazu führen, dass das Rendererobjekt nie entfernt wurde, während gleichzeitig eine globale Entfernungssperre bestand, die den .NET-GC-Thread angehalten hat.
Beispiele
- Ein eingebettetes Sprachbeispiel für MAUI wurde hinzugefügt.
- Das eingebettete Sprachbeispiel für Android Java wurde um Sprachsynthese erweitert.
Speech SDK 1.27.0: Release im April 2023
Benachrichtigung zur bevorstehenden Änderungen
- Wir planen, das Online Certificate Status Protocol (OCSP) im nächsten JavaScript SDK-Release zu entfernen. Dadurch können Clients Browser- und Knotenstandards für die Zertifikatverarbeitung besser erfüllen. Version 1.27 ist die letzte Version, die unser benutzerdefiniertes OCSP-Modul enthält.
Neue Funktionen
-
JavaScript: Unterstützung für Mikrofoneingaben aus dem Browser mit Sprecheridentifikation und -überprüfung hinzugefügt.
-
Eingebettete Spracherkennung: Supportupdate für die
PropertyId::Speech_SegmentationSilenceTimeoutMs-Einstellung.
Behebung von Programmfehlern
-
Allgemein: Zuverlässigkeitsupdates in der Dienstwiederverbindungslogik (alle Programmiersprachen außer JavaScript).
-
General – Beheben Sie Zeichenfolgenkonvertierungen, die zu Speicherverlusten auf Windows führen (alle relevanten Programmiersprachen mit Ausnahme von JavaScript).
-
Eingebettete Spracherkennung: Absturz in der französischen Spracherkennung bei Verwendung bestimmter Grammatiklisteneinträge wurde behoben.
-
Quellcodedokumentation: Korrekturen von Kommentaren in der SDK-Referenzdokumentation im Zusammenhang mit der Audioprotokollierung für den Dienst.
-
Absichtserkennung: Korrektur von Musterabgleichsprioritäten im Zusammenhang mit Listenentitäten.
Beispiele
- Behandeln Sie Authentifizierungsfehler im C#-Beispiel für die Unterhaltungstranskription (CTS).
- Beispiel für die Streaming-Aussprachebewertung für Python, JavaScript, Objective-C und Swift hinzugefügt.
Speech SDK 1.26.0: Release von März 2023
Aktuelle Änderungen
- Bitcode wurde in allen iOS-Zielen in den folgenden Paketen deaktiviert: Cocoapod mit xcframework, NuGet (für Xamarin und MAUI) und Unity. Die Änderung wurde vorgenommen, da Apple die Bitcodeunterstützung ab Xcode 14 einstellt. Diese Änderung bedeutet auch, dass Sie möglicherweise eine Fehlermeldung mit dem Hinweis erhalten, dass das Framework keinen Bitcode enthält und eine Neuerstellung erforderlich ist, wenn Sie Xcode 13 verwenden oder den Bitcode für Ihre Anwendung mithilfe des Speech SDK explizit aktiviert haben. Stellen Sie zur Behebung dieses Problems sicher, dass Bitcode für Ihre Ziele deaktiviert ist.
- Das iOS-Mindestbereitstellungsziel wurde in diesem Release auf 11.0 aktualisiert, was bedeutet, dass armv7-Hardware nicht mehr unterstützt wird.
Neue Funktionen
- Die eingebettete Spracherkennung (auf dem Gerät) unterstützt jetzt sowohl Audio mit einer Samplingrate von 8 kHz als auch Audio mit einer Samplingrate von 16 kHz (16 Bit pro Sample, Mono-PCM).
- Die Sprachsynthese meldet jetzt Verbindungs-, Netzwerk- und Dienstwartezeiten im Ergebnis, um die End-to-End-Latenzoptimierung zu unterstützen.
- Neue Entscheidungsregeln für die Absichtserkennung mit einfachem Musterabgleich. Musterabgleiche mit mehr übereinstimmenden Zeichenbytes haben Vorrang vor Musterabgleichen mit weniger übereinstimmenden Zeichenbytes. Beispiel: Das Muster „Wählen Sie rechts oben {etwas} aus“ hat Vorrang vor „Wählen Sie {etwas} aus“.
Behebung von Programmfehlern
- Sprachsynthese: Es wurde ein Fehler behoben, bei dem das Emoji in Wortgrenzenereignissen nicht korrekt ist.
-
Absichtserkennung mit Conversational Language Understanding (CLU):
- Absichten aus dem CLU-Orchestratorworkflow werden jetzt ordnungsgemäß angezeigt.
- Das JSON-Ergebnis ist jetzt über die Eigenschafts-ID
LanguageUnderstandingServiceResponse_JsonResultverfügbar.
- Spracherkennung mit Schlüsselwortaktivierung: Korrektur für ca. 150 ms fehlende Audiodaten nach einer Schlüsselworterkennung.
- Korrektur für NuGet-iOS-MAUI-Releasebuild des Speech SDK – vom Kunden gemeldet (GitHub-Problem)
Beispiele
- Behebung des Swift iOS-Beispiels, das vom Kunden gemeldet wurde (GitHub Problem)
Speech SDK 1.25.0: Release von Januar 2023
Aktuelle Änderungen
- Sprachenerkennungs-APIs (Vorschauversion) wurden vereinfacht. Wenn Sie ein Update auf Speech SDK 1.25 durchführen und eine Buildunterbrechung feststellen, besuchen Sie die Seite Sprachenerkennung, um mehr über die neue Eigenschaft
SpeechServiceConnection_LanguageIdMode zu erfahren. Diese einzelne Eigenschaft ersetzt die beiden vorherigen SpeechServiceConnection_SingleLanguageIdPriority und SpeechServiceConnection_ContinuousLanguageIdPriority. Die Priorisierung zwischen geringer Latenz und hoher Genauigkeit ist nach den jüngsten Modellverbesserungen nicht mehr erforderlich. Jetzt müssen Sie nur auswählen, ob die anfängliche Sprachenerkennung oder die kontinuierliche Sprachenerkennung bei der kontinuierlichen Spracherkennung oder -übersetzung ausgeführt werden soll.
Neue Funktionen
-
C#/C++/Java: Embedded Speech SDK wird jetzt unter der öffentlichen Vorschau veröffentlicht. Weitere Informationen finden Sie in der Dokumentation zu Eingebettete Sprache (Vorschau). Sie können jetzt die Spracherkennung und Sprachsynthese auf einem Gerät ausführen, auch wenn die Cloudkonnektivität unterbrochen oder nicht verfügbar ist. Unterstützt auf Android-, Linux-, macOS- und Windows-Plattformen
-
C# MAUI: Unterstützung für iOS- und Mac Catalyst-Ziele in Speech SDK NuGet (Kundenanfrage)
-
Unity: Android x86_64-Architektur, die dem Unity-Paket hinzugefügt wurde (Problem Customer)
-
Weiter zu:
- Die Unterstützung für direktes Streaming von ALAW/MULAW wurde für die Spracherkennung hinzugefügt (Kundenproblem)
- Unterstützung wurde für PhraseListGrammar hinzugefügt. Vielen Dank GitHub Benutzer czkoko für den Beitrag der Community!
-
C#/C++: Die Absichtserkennung unterstützt jetzt Conversational Language Understanding-Modelle in C++ und C# mit Orchestrierung im Microsoft-Dienst.
Behebung von Programmfehlern
- Korrektur eines gelegentlichen Hängens in KeywordRecognizer beim Versuch, die Ausführung zu beenden
-
Python:
- Korrektur für das Abrufen von Ergebnissen der Aussprachebewertung, wenn
PronunciationAssessmentGranularity.FullText festgelegt ist (Kundenproblem)
- Korrektur für die das Geschlecht betreffende Eigenschaft für männliche Stimmen, die nicht abgerufen werden, wenn Stimmen für die Sprachsynthese abgerufen werden
-
JavaScript
- Behebung des Problems bei der Analyse einiger WAV-Dateien, die auf iOS-Geräten aufgezeichnet wurden (Kundenproblem)
- Das JS SDK führt die Erstellung jetzt ohne Verwendung von npm-force-resolution durch (Kundenproblem)
- Conversation Translator legt jetzt den Dienstendpunkt richtig fest, wenn eine speechConfig-Instanz verwendet wird, die mit SpeechConfig.fromEndpoint() erstellt wurde.
Beispiele
Beispiele zur Verwendung von eingebetteter Sprache hinzugefügt
Beispiel für die Spracherkennung für MAUI hinzugefügt
Siehe Speech SDK-Beispielrepository.
Speech SDK 1.24.2: Release von November 2022
Neue Funktionen
- Keine neuen Features, nur eine Korrektur an der eingebetteten Engine zur Unterstützung neuer Modelldateien.
Behebung von Programmfehlern
-
Alle Programmiersprachen
- Es wurde ein Problem mit der Verschlüsselung eingebetteter Spracherkennungsmodelle behoben.
Speech SDK 1.24.1: Release von November 2022
Neue Funktionen
Behebung von Programmfehlern
-
Alle Programmiersprachen
- Beheben des Absturzes der TTS-Einbettung bei nicht unterstütztem Voicefont
- Fix stopSpeaking() kann die Wiedergabe unter Linux nicht beenden (#1686)
-
JavaScript SDK
- Regression bei der Abgrenzung von Audio durch die Unterhaltungstranskription korrigiert
-
Java
- Aktualisierte POM- und Javadocs-Dateien wurden vorübergehend in Maven Central veröffentlicht, um der Dokumentationspipeline das Aktualisieren von Onlinereferenzdokumenten zu ermöglichen.
-
Python
- Beheben Sie die Regression, bei der Python speak_text(ssml) "void" zurückgibt.
Speech SDK 1.24.0: Release vom Oktober 2022
Neue Funktionen
-
Alle Programmiersprachen: AMR-WB (16 kHz) zur Liste der unterstützten Sprachsynthese-Audioausgabeformate hinzugefügt
-
Python: Paket für Linux Arm64 für unterstützte Linux-Distributionen hinzugefügt.
-
C#/C++/Java/Python: Unterstützung für ALAW hinzugefügt & MULAW-Direktstreaming an den Sprachdienst (zusätzlich zum vorhandenen PCM-Stream) über
AudioStreamWaveFormat.
-
C# MAUI: NuGet-Paket wurde aktualisiert, um Android-Ziele für .NET MAUIEntwickler (problem Customer) zu unterstützen.
-
Mac: separates XCframework für Mac hinzugefügt, das keine iOS-Binärdateien enthält. Dies bietet eine Option für Entwickler, die nur Mac-Binärdateien mit einem kleineren XCframework-Paket benötigen.
-
Microsoft Audio stack (MAS):
- Wenn Beamforming-Winkel angegeben sind, wird Schall, der außerhalb des angegebenen Bereichs entsteht, besser unterdrückt.
- Etwa 70 % Reduzierung der Größe von
libMicrosoft.CognitiveServices.Speech.extension.mas.so für Linux ARM32 und Linux Arm64.
-
Musterabgleich der Absichtserkennung:
- Rechtschreibunterstützung für die Sprachen
fr, de, es, jp hinzugefügt
- Vorgefertigte Integer-Unterstützung für Sprache
es hinzugefügt.
Behebung von Programmfehlern
-
iOS: Beheben des Sprachsynthesefehlers in iOS 16, verursacht durch komprimierten Audiodecodierungsfehler (Customer Issue).
-
JavaScript:
- Behebung eines nicht funktionierenden Authentifizierungstokens beim Abrufen einer Sprachsynthese-Sprachliste (Kundenproblem).
- Verwenden von Daten-URLs zum Laden von Workern (Kundenproblem).
- Erstellen eines Audioprozessor-Worklets nur, wenn AudioWorklet im Browser unterstützt wird (Kundenproblem). Dies war ein Communitybeitrag von William Wong. Vielen Dank, William!
- Beheben Sie den erkannten Callback, wenn die LUIS-Antwort leer ist (Kundenproblem ).
- Korrektes Einstellen des Timeouts für die Sprachsegmentierung.
-
Musterabgleich der Absichtserkennung:
- Nicht-JSON-Zeichen in Modellen werden jetzt ordnungsgemäß geladen.
- Beheben eines Fehlers, wenn
recognizeOnceAsync(text) während der kontinuierlichen Erkennung aufgerufen wurde.
Speech SDK 1.23.0: Release von Juli 2022
Neue Funktionen
-
C#, C++, Java: Unterstützung für Sprachen
zh-cn und zh-hk in Intent Recognition with Pattern Matching hinzugefügt.
-
C#: Unterstützung für
AnyCPU .NET Framework-Builds hinzugefügt
Behebung von Programmfehlern
-
Android: Behobene OpenSSL-Sicherheitsrisiken CVE-2022-2068 durch Aktualisieren von OpenSSL auf 1.1.1q
-
Python: Fehler beim Verwenden von PushAudioInputStream beheben
-
iOS: Beheben Sie "EXC_BAD_ACCESS: Versuch, einen Nullzeiger zu dereferenzieren", wie auf GitHub (GitHub Issue) gemeldet.
Speech SDK 1.22.0: Release von Juni 2022
Neue Funktionen
-
Java: IntentRecognitionResult-API für getEntities(), applyLanguageModels() und recognizeOnceAsync(text) hinzugefügt, um die Engine für einfachen Musterabgleich zu unterstützen.
-
Unity: Unterstützung für Mac M1 (Apple Silicon) für Unity-Paket hinzugefügt (Problem GitHub)
-
C#: Unterstützung für x86_64 für Xamarin Android hinzugefügt (Problem GitHub)
-
C#: Mindestversion des .NET Frameworks für das SDK C#-Paket auf v4.6.2 aktualisiert, da v4.6.1 eingestellt wurde (siehe Microsoft .NET Framework Component Lifecycle Policy)
-
Linux: Unterstützung für Debian 11 und Ubuntu 22.04 LTS wurde hinzugefügt. Ubuntu 22.04 LTS erfordert die manuelle Installation von libssl1.1 entweder als Binärpaket von hier (z. B. libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb oder höher für x64), oder indem Sie aus Quellen kompilieren.
Behebung von Programmfehlern
-
UWP: OpenSSL-Abhängigkeit aus UWP-Bibliotheken entfernt und durch WinRT Websocket und HTTP-APIs ersetzt, um die Sicherheitskonformität und kleinere binäre Größe zu erfüllen.
-
Mac: Das Problem „MicrosoftCognitiveServicesSpeech-Module nicht gefunden“ wurde behoben, wenn Swift-Projekte für macOS-Plattform verwendet werden
-
Windows, Mac: Es wurde ein plattformspezifisches Problem behoben, bei dem Audioquellen, die über Eigenschaften konfiguriert wurden, um eine Echtzeitrate zu streamen, manchmal zurückfällt und schließlich die Kapazität überschritten hat
-
C#: .NET Frameworkbeispiele für die Verwendung von v4.6.2 aktualisiert
-
Unity: Beispiel für virtuelle Assistenten, das für Android und UWP behoben wurde
-
Unity: Unity-Beispiele, die für Unity 2020 LTS-Version aktualisiert wurden
Speech SDK 1.21.0: Release von April 2022
Neue Funktionen
- Java & JavaScript: Unterstützung für die kontinuierliche Sprachidentifikation bei Verwendung des SpeechRecognizer-Objekts hinzugefügt
-
JavaScript: Diagnose-APIs hinzugefügt, um die Protokollierungsstufen der Konsole und (nur für Node) die Datei-Protokollierung zu aktivieren, um Microsoft bei der Behebung von von Kunden gemeldeten Problemen zu unterstützen.
-
Python: Unterstützung für die Transkription von Unterhaltungen hinzugefügt
-
Go: Hinzugefügt: Unterstützung für Sprechererkennung
-
C++ und C#: Unterstützung für eine erforderliche Gruppe von Wörtern in der Absichtserkennung (einfacher Musterabgleich) hinzugefügt. Beispiel: „Timer (festlegen|starten|beginnen)“, wo entweder „festlegen“, „starten“ oder „beginnen“ vorhanden sein muss, damit die Absicht erkannt wird.
-
Alle Programmiersprachen, Sprachsynthese: Hinzugefügt: Eigenschaft „Dauer“ in Word-Begrenzungsereignissen. Hinzugefügt: Unterstützung für Interpunktationsgrenze und Satzgrenze
-
Objective-C/Swift/Java: Wortebene Ergebnisse zum Aussprachebewertungsobjekt hinzugefügt (ähnlich wie bei C#). Die Anwendung muss keine JSON-Ergebniszeichenfolge mehr analysieren, um Informationen auf Wortebene abzurufen (GitHub Problem)
-
iOS-Plattform: Hinzugefügt: Experimentelle Unterstützung für ARMv7-Architektur
Behebung von Programmfehlern
-
iOS-Plattform: Fix zum Ermöglichen der Erstellung von Builds für das Ziel „Jedes iOS-Gerät“ bei Verwendung von Cocoapod (GitHub-Problem)
-
Android-Plattform: Aktualisiert: Die OpenSSL-Version wurde auf 1.1.1n aktualisiert, um Sicherheitsrisiken zu beheben CVE-2022-0778
-
JavaScript: Problem behoben, bei dem wav-Header nicht mit der Dateigröße aktualisiert wurde (Problem GitHub)
-
JavaScript: Behebung des Desynchronisierungsproblems der Anforderungs-ID, das Übersetzungsszenarien beeinträchtigt (GitHub-Problem)
-
JavaScript: Behoben: Problem beim Instanziieren von SpeakerAudioDestination ohne Stream (GitHub-Problem]
-
C++: Behoben: C+-Header zum Entfernen einer Warnung beim Kompilieren für C++17 oder höher
- Neue Java-Beispiele für Spracherkennung mit Sprachidentifikation
- Neue beispiele Python und Java für die Transkription von Unterhaltungen
- Neues Go-Beispiel für die Sprechererkennung.
- Neues Werkzeug in C++ und C# für Windows, das alle Audioaufnahme- und Wiedergabegeräte auflistet, um ihre Geräte-ID zu ermitteln. Diese ID wird vom Speech SDK benötigt, wenn Sie Audio von einem nicht standardmäßigen Gerät erfassen oder darauf rendern möchten.
Speech SDK 1.20.0: Release von Januar 2022
Neue Funktionen
-
Objective-C, Swift und Python: Unterstützung für DialogServiceConnector wurde für Sprachassistenten-Szenarien hinzugefügt.
-
Python: Unterstützung für Python 3.10 wurde hinzugefügt. Die Unterstützung für Python 3.6 wurde gemäß Pythons Ende des Lebenszyklus für 3.6 entfernt.
-
Unity: Das Speech SDK wird jetzt für Unity-Anwendungen unter Linux unterstützt.
-
C++, C#: IntentRecognizer mit Musterabgleich wird jetzt in C# unterstützt. Darüber hinaus werden jetzt Szenarien mit benutzerdefinierten Entitäten, optionalen Gruppen und Entitätsrollen in C++ und C# unterstützt.
-
C++, C#: Verbesserte Protokollierung der Diagnoseablaufverfolgung mithilfe der neuen Klassen FileLogger, MemoryLogger und EventLogger. SDK-Protokolle sind ein wichtiges Tool für Microsoft, um vom Kunden gemeldete Probleme zu diagnostizieren. Diese neuen Klassen erleichtern es Kunden, Speech SDK-Protokolle in ihr eigenes Protokollierungssystem zu integrieren.
-
Alle Programmiersprachen: PronunciationAssessmentConfig verfügt jetzt über Eigenschaften zum Festlegen des gewünschten Phoneme-Alphabets (IPA oder SAPI) und der N-Best Phoneme Count (vermeiden, dass eine JSON-Konfiguration gemäß GitHub Problem 1284 erstellt werden muss). Außerdem wird jetzt die Ausgabe auf Silbenebene unterstützt.
-
Android, iOS und macOS (alle Programmiersprachen): GStreamer wird nicht mehr benötigt, um Netzwerke mit begrenzter Bandbreite zu unterstützen. SpeechSynthesizer verwendet jetzt die Audiodecodierungsfunktionen des Betriebssystems, um komprimierte Audiodaten zu decodieren, die vom Sprachsynthese-Dienst gestreamt werden.
-
Alle Programmiersprachen: SpeechSynthesizer unterstützt jetzt drei neue Opus-Rohausgabeformate (ohne Container), die häufig in Livestreamingszenarien verwendet werden.
-
JavaScript: GetVoicesAsync() API zu SpeechSynthesizer hinzugefügt, um die Liste der unterstützten Synthesestimme abzurufen (GitHub Problem 1350)
-
JavaScript: GetWaveFormat()-API zu AudioStreamFormat hinzugefügt, um Nicht-PCM-Wellenformate zu unterstützen (GitHub Problem 452)
-
JavaScript: Volume-Getter/Setter und mute()/unmute() APIs wurden zu SpeakerAudioDestination hinzugefügt (GitHub Issue 463)
Behebung von Programmfehlern
-
C++, C#, Java, JavaScript, Objective-C und Swift: Fix zum Entfernen einer 10-Sekunden-Verzögerung beim Beenden einer Spracherkennung, die einen PushAudioInputStream verwendet. Dies gilt für den Fall, dass nach dem Aufruf von StopContinuousRecognition keine neuen Audiodaten übertragen werden (GitHub Probleme 1318, 331)
-
Unity unter Android und UWP: Unity-Metadateien wurden für UWP, Android Arm64 und Windows Subsystem für Android (WSA) Arm64 (GitHub Problem 1360) behoben.
-
iOS: Kompilieren Ihrer Speech SDK-Anwendung auf einem beliebigen iOS-Gerät bei Verwendung von CocoaPods ist jetzt behoben (GitHub Problem 1320)
-
iOS: Wenn SpeechSynthesizer so konfiguriert ist, dass Audiodaten direkt an einen Lautsprecher ausgegeben werden, wurde in seltenen Fällen die Wiedergabe am Anfang angehalten. Dies wurde behoben.
-
JavaScript: Verwenden des Skriptprozessor-Fallbacks für Mikrofoneingaben, wenn kein Audio-Worklet gefunden wird (GitHub Problem 455)
-
JavaScript: Hinzufügen eines Protokolls zum Agent, um Fehler zu beheben, die bei der Sentry-Integration gefunden wurden (GitHub Problem 465)
-
C++, C#, Python und Java-Beispiele, die zeigen, wie Sie detaillierte Erkennungsergebnisse erhalten. Die Details umfassen alternative Erkennungsergebnisse, Zuverlässigkeitsbewertung, lexikalische Form, normalisierte Form, maskierte normalisierte Form mit jeweiligem Timing auf Wortebene.
-
iOS-Beispiel mithilfe von AVFoundation als externe Audioquelle hinzugefügt.
-
Java Sample hinzugefügt, um zu zeigen, wie Sie das SRT-Format (SubRip-Text) mithilfe des WordBoundary-Ereignisses abrufen.
-
Android-Beispiele für die Aussprachebewertung.
-
C++-, C# zeigt die Verwendung der neuen Diagnoseprotokollierungsklassen an.
Speech SDK 1.19.0: Release von November 2021
Höhepunkte
Sprechererkennungsdienst ist jetzt allgemein verfügbar. Speech SDK-APIs sind in C++, C#, Java und JavaScript verfügbar. Mit der Sprechererkennung können Sie Sprecher anhand ihrer einzigartigen Stimmmerkmale genau überprüfen und identifizieren. Weitere Informationen zu diesem Thema finden in der Dokumentation.
Wir haben die Unterstützung für Ubuntu 16.04 in Verbindung mit Azure DevOps und GitHub eingestellt. Ubuntu 16.04 hat im April 2021 das Ende der Lebensdauer erreicht. Migrieren Sie Ubuntu 16.04-Workflows zu mindestens Ubuntu 18.04.
OpenSSL-Verknüpfung in Linux-Binärdateien wurde in den dynamischen Modus geändert. Die Binärgröße von Linux wurde um etwa 50 % reduziert.
Mac M1 ARM-basierte Chipunterstützung wurde hinzugefügt.
Neue Funktionen
C++/C#/Java: Neue APIs, die hinzugefügt wurden, um die Unterstützung der Audioverarbeitung für die Spracheingabe mit Microsoft Audiostapel zu ermöglichen. Die Dokumentation finden Sie hier.
C++: Neue APIs für die Absichtserkennung, um einen erweiterten Musterabgleich zu ermöglichen. Dies umfasst Listenentitäten und vordefinierte Ganzzahlentitäten sowie Unterstützung für die Gruppierung von Absichten und Entitäten als Modelle (Dokumentation, Updates und Beispiele befinden sich in der Entwicklung und werden in naher Zukunft veröffentlicht).
Mac: Unterstützung für Arm64 (M1)-basiertes Silizium für CocoaPod- Python-, Java- und NuGet-Pakete im Zusammenhang mit GitHub Problem 1244.
iOS/Mac: iOS- und macOS-Binärdateien werden jetzt in xcframework im Zusammenhang mit GitHub Problem 919 verpackt.
iOS/Mac: Unterstützung für Mac-Katalysator im Zusammenhang mit GitHub Problem 1171.
Linux:Neues tar-Paket für CentOS7 Informationen zum Speech SDKwurde hinzugefügt. Das TAR-Paket von Linux enthält nun spezifische Bibliotheken für RHEL/CentOS 7 in lib/centos7-x64. Speech SDK-Bibliotheken in lib/x64 gelten weiterhin für alle anderen unterstützten Linux x64-Distributionen (einschließlich RHEL/CentOS 8) und funktionieren nicht unter RHEL/CentOS 7.
JavaScript: VoiceProfile- und SpeakerRecognizer-APIs wurden in async/awaitable geändert.
JavaScript: Unterstützung für Azure Regionen der US-Regierung hinzugefügt.
Windows: Unterstützung für die Wiedergabe auf Universelle Windows-Plattform (UWP) hinzugefügt.
Behebung von Programmfehlern
Android: OpenSSL-Sicherheitsupdate (aktualisiert auf Version 1.1.1l) für Android-Pakete.
Python: Es wurde ein Fehler behoben, bei dem die Auswahl des Lautsprechergeräts auf Python fehlschlägt.
Core: Automatisches Wiederherstellen der Verbindung, wenn ein Verbindungsversuch fehlschlägt.
iOS: Audiokomprimierung wurde für iOS-Pakete aufgrund von Instabilität und Bitcode-Buildproblemen bei Verwendung von GStreamer deaktiviert. Details sind über GitHub Problem 1209 verfügbar.
Mac/iOS: Aktualisierte Beispiele und Schnellstarts zur Verwendung des xcframework-Pakets.
.NET: Beispiele, die aktualisiert wurden, um .NET Core 3.1-Version zu verwenden.
JavaScript: Beispiel für Sprach-Assistenten wurde hinzugefügt.
Speech SDK 1.18.0: Release von Juli 2021
Hinweis: Informationen zu den ersten Schritten mit dem Speech SDK finden Sie hier.
Zusammenfassung der Highlights
- Ubuntu 16.04 hat im April 2021 das Ende der Lebensdauer erreicht. Mit Azure DevOps und GitHub werden wir die Unterstützung für 16.04 im September 2021 beenden. Migrieren Sie Ubuntu 16.04-Workflows vorher mindestens zu Ubuntu 18.04.
Neue Funktionen
-
C++: Der einfache Sprachmusterabgleich mit Absichtserkennung vereinfacht jetzt die Implementierung einfacher Absichtserkennungsszenarien.
-
C++/C#/Java: Wir haben eine neue API
GetActivationPhrasesAsync() zur klasse VoiceProfileClient hinzugefügt, um eine Liste gültiger Aktivierungsausdrücke in der Registrierungsphase der Lautsprechererkennung für unabhängige Erkennungsszenarien zu erhalten.
-
Wichtig: Das Feature zur Sprechererkennung befindet sich in der Vorschauphase. 90 Tage nach der Freigabe für die allgemeine Verfügbarkeit werden alle in der Vorschauversion des Features erstellten Sprachprofile nicht mehr unterstützt. Die Sprachprofile aus der Vorschauversion funktionieren dann nicht mehr.
- Python: Unterstützung für kontinuierliche Spracherkennung (LID) bei den vorhandenen - und -Objekten hinzugefügt.
-
Python: Es wurde ein neues Python-Objekt hinzugefügt mit dem Namen
SourceLanguageRecognizer, um einmaliges oder fortlaufendes LID (ohne Erkennung oder Übersetzung) durchzuführen.
-
JavaScript: Der
getActivationPhrasesAsync-Klasse wurde eine API VoiceProfileClient hinzugefügt, die den Empfang einer Liste gültiger Aktivierungsausdrücke in der Registrierungsphase der Sprechererkennung für unabhängige Erkennungsszenarien ermöglicht.
-
Die -API der
VoiceProfileClient-Klasse von enrollProfileAsync ist jetzt asynchron „awaitable“. Siehe zum Beispiel diesen unabhängigen Identifikationscode zur Nutzung.
Verbesserungen
-
Java: AutoCloseable Unterstützung für viele Java Objekte hinzugefügt. Für die Freigabe von Ressourcen wird jetzt das try-with-resources-Modell unterstützt. Siehe dieses Beispiel, das try-with-resources verwendet. Sie können sich auch das Tutorial zur try-with-resources-Anweisung in der Oracle Java-Dokumentation ansehen, um mehr über dieses Muster zu erfahren.
-
Der Speicherbedarf des Datenträgers wurde für viele Plattformen und Architekturen erheblich reduziert. Beispiele für die
Microsoft.CognitiveServices.Speech.core Binärdatei: x64 Linux ist 475 KB kleiner (8,0% Reduzierung); Arm64 Windows UWP ist 464 KB kleiner (11,5% Reduktion); x86 Windows ist 343 KB kleiner (17,5% Reduzierung); und x64 Windows ist 451 KB kleiner (19,4% Reduzierung).
Behebung von Programmfehlern
-
Java: Behobener Synthesefehler, wenn der Synthesetext Ersatzzeichen enthält. Details hier.
-
JavaScript: Für die Verarbeitung von Audioeingaben über das Browsermikrofon wird jetzt
AudioWorkletNode anstelle der veralteten ScriptProcessorNode-Schnittstelle verwendet. Details hier.
-
JavaScript: Halten Sie Konversationen in Szenarien mit zeitintensiver Konversationsübersetzung korrekt aufrecht. Details hier.
-
JavaScript: Es wurde ein Problem behoben, aufgrund dessen das Erkennungsmodul bei der kontinuierlichen Erkennung erneut eine Verbindung mit einem Medienstream hergestellt hat. Details hier.
-
JavaScript: Es wurde ein Problem behoben, aufgrund dessen das Erkennungsmodul bei der kontinuierlichen Erkennung erneut eine Verbindung mit einem Pushstream hergestellt hat. Details hier.
-
JavaScript: Die Offsetberechnung auf Wortebene in detaillierten Erkennungsergebnissen wurde korrigiert. Details hier.
Beispiele
- Java Schnellstartbeispiele wurden hier aktualisiert.
- Die Beispiele zur JavaScript-Sprechererkennung wurden aktualisiert, um die neue Verwendung der
enrollProfileAsync()-Methode zu veranschaulichen. Beispiele hier.
Speech SDK 1.17.0: Version aus Mai 2021
Hinweis
Erste Schritte mit dem Speech SDK finden Sie hier:
Zusammenfassung der Highlights
- Geringerer Speicherbedarf: Wir verringern weiterhin den Speicher- und Datenträgerbedarf des Speech SDK und seiner Komponenten.
- Mit einer neuen eigenständigen Sprachenerkennungs-API können Sie erkennen, welche Sprache gesprochen wird.
- Entwickeln Sie sprachaktivierte Mixed Reality- und Gaminganwendungen mit Unity unter macOS.
- Sie können jetzt in der Programmiersprache Go zusätzlich zur Spracherkennung auch die Sprachsynthese verwenden.
- Mehrere Fehlerkorrekturen zur Behebung von Problemen, die SIE, unsere geschätzten Kunden, auf GitHub gekennzeichnet haben! VIELEN DANK! Es wäre schön, wenn Sie uns weiter Feedback senden würden.
Neue Funktionen
-
C++/C#: Neue eigenständige Start- und fortlaufende Sprachenerkennung über die
SourceLanguageRecognizer-API. Wenn Sie nur die in Audioinhalten gesprochene(n) Sprache(n) erkennen möchten, ist dies die richtige API dafür. Mehr dazu finden Sie in den Details für C++ und C#.
-
C++/C#: Spracherkennung und Übersetzungserkennung unterstützen jetzt sowohl die Spracherkennung zu Beginn als auch die kontinuierliche Spracherkennung, sodass Sie programmgesteuert bestimmen können, welche Sprache(n) gesprochen werden, bevor sie transkribiert oder übersetzt werden. Weitere Informationen zur Spracherkennung finden Sie hier und weitere Informationen zur Sprachübersetzung finden Sie hier.
-
C#: Unterstützung für Unity wurde zu macOS (x64) hinzugefügt. Dadurch werden Anwendungsfälle für Spracherkennung und Sprachsynthese in Mixed Reality und Gaming ermöglicht.
-
Go: Wir haben die Unterstützung für Sprachsynthese/Text-zu-Sprache zur Programmiersprache Go hinzugefügt, um die Sprachsynthese in noch mehr Anwendungsfällen zur Verfügung zu stellen. Lesen Sie unsere Schnellstartanleitung oder unsere Referenzdokumentation.
-
C++/C#/Java/Python/Objective-C/Go: Der Sprachsynthesizer unterstützt jetzt das
connection-Objekt. Dies hilft Ihnen bei der Verwaltung und Überwachung der Verbindung mit dem Spracherkennungsdienst und ist besonders hilfreich, um eine Vorabverbindung zur Verringerung der Wartezeit herzustellen. Die zugehörige Dokumentation finden Sie hier.
-
C++/C#/Java/Python/Objective-C/Go: Wir machen jetzt die Latenz und die Underrun-Zeit in
SpeechSynthesisResult verfügbar, um Probleme mit der Sprachsyntheselatenz zu überwachen und zu diagnostizieren. Weitere Informationen finden Sie unter C++-, C#, Java, Python, Objective-C und Go.
-
C++/C#/Java/Python/Objective-C: Text zu Sprache now verwendet standardmäßig neurale Stimmen wenn Sie keine zu verwendende Stimme angeben. Dadurch erhalten Sie standardmäßig eine höhere Wiedergabetreue, dies erhöht aber auch den Standardpreis.
-
C++/C#/Java/Python/Objective-C/Go: Wir haben der Synthesestimme eine Eigenschaft "Gender" hinzugefügt, um die Auswahl von Stimmen auf der Grundlage des Geschlechts zu erleichtern. Dies behebt GitHub Problem #1055.
-
C++, C#, Java, JavaScript: Wir unterstützen jetzt
retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync und getAllProfilesAsync() in der Lautsprechererkennung, um die Benutzerverwaltung aller Sprachprofile für ein bestimmtes Konto zu vereinfachen. Weitere Informationen finden Sie in der Dokumentation zu C++, C#, Java, JavaScript. Dies behebt GitHub Problem #338.
-
JavaScript: Wir haben Wiederholungsversuche bei Verbindungsfehlern hinzugefügt, die Ihre JavaScript-basierten Sprachanwendungen zuverlässiger gestalten.
Verbesserungen
- Speech SDK-Binärdateien für Linux und Android wurden aktualisiert, um die neueste Version von OpenSSL (1.1.1k) zu verwenden.
- Verbesserungen beim Codeumfang:
- Language Understanding ist jetzt in eine separate Lu-Bibliothek unterteilt.
- Windows x64-Kern-Binärgröße verringerte sich um 14,4%.
- Die Größe der Binärdateien für den Android Arm64-Kern wurde um 13,7 % verringert.
- Andere Komponenten wurden ebenfalls verkleinert.
Behebung von Programmfehlern
-
All: GitHub-Issue #842 für ServiceTimeout wurde behoben. Sie können jetzt lange Audiodateien mithilfe des Speech SDK transkribieren, ohne dass die Verbindung mit dem Dienst mit diesem Fehler beendet wird. Es wird jedoch weiterhin empfohlen, die Batchtranskription für lange Dateien zu verwenden.
-
C#: Behoben GitHub-Problem #947, bei dem fehlende Spracheingaben Ihre App in einen schlechten Zustand versetzen konnten.
- Java: GitHub-Issue Nr. 997 behoben, bei dem das Speech-SDK Version 1.16 für Java abstürzt, wenn DialogServiceConnector ohne Netzwerkverbindung oder einen ungültigen Abonnementsschlüssel verwendet wird.
- Ein Absturz beim abrupten Beenden der Spracherkennung (z. B. mithilfe von STRG+C in der Konsolen-App) wurde behoben.
-
Java: Es wurde ein Fix zum Löschen temporärer Dateien auf Windows hinzugefügt, wenn Sie das Speech SDK für Java verwenden.
-
Java: Behebung des GitHub-Issue #994, bei dem der Aufruf von
DialogServiceConnector.stopListeningAsync zu einem Fehler führen konnte.
-
Java: Es wurde ein Kundenproblem im Virtual Assistant-Schnellstart behoben.
-
JavaScript: Fehler im GitHub-Issue #366 behoben, bei dem
ConversationTranslator den Fehler 'this.cancelSpeech isn't a function' ausgelöst hat.
-
JavaScript: GitHub-Problem #298 behoben, bei dem das Beispiel "Ergebnis als Speicherdatenstrom abrufen" Geräusche laut wiedergab.
-
JavaScript: Behoben GitHub Issue #350, bei dem das Aufrufen von
AudioConfig zu einem 'ReferenceError: MediaStream isn't defined' führen konnte.
-
JavaScript: Eine „UnhandledPromiseRejection“-Warnung in Node.js für zeitintensive Sitzungen wurde behoben.
Beispiele
- Aktualisierte Unity-Beispieldokumentation für macOS here.
- Ein React Native-Beispiel für den Azure Spracherkennungsdienst ist jetzt here verfügbar.
Speech SDK 1.16.0: Release von März 2021
Hinweis
Das Speech SDK für Windows hängt vom freigegebenen Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 ab.
Neue Funktionen
-
C++/C#/Java/Python: Wurde in die neueste Version von GStreamer (1.18.3) verschoben, um Unterstützung zum Transkribieren von Medienformaten auf Windows, Linux und Android hinzuzufügen. Die zugehörige Dokumentation finden Sie hier.
-
C++/C#/Java/Objective-C/Python: Unterstützung für die Decodierung komprimierter TTS/synthesizer-Audiodaten zum SDK hinzugefügt. Wenn Sie das Ausgabeaudioformat auf PCM festlegen und GStreamer auf Ihrem System verfügbar ist, fordert das SDK automatisch komprimierte Audiodaten vom Dienst an, um Bandbreite zu sparen und die Audiodaten auf dem Client zu decodieren. Sie können
SpeechServiceConnection_SynthEnableCompressedAudioTransmission auf false festlegen, um dieses Feature zu deaktivieren. Details zu C++, C#, Java, Objective-C, Python.
-
JavaScript: Node.js-Benutzer können jetzt die -
AudioConfig.fromWavFileInputAPIverwenden. Dies behebt GitHub Problem #252.
-
C++/C#/Java/Objective-C/Python:
GetVoicesAsync()-Methode für TTS hinzugefügt, um alle verfügbaren Synthesestimmen zurückzugeben. Details zu C++, C#, Java, Objective-C und Python.
-
C++/C#/Java/JavaScript/Objective-C/Python: Das
VisemeReceived-Ereignis für TTS/Sprachsynthese wurde hinzugefügt, um synchrone Viseme-Animation zurückzugeben. Die zugehörige Dokumentation finden Sie hier.
-
C++/C#/Java/JavaScript/Objective-C/Python:
BookmarkReached-Ereignis für TTS hinzugefügt. Sie können im Eingabe-SSML Lesezeichen festlegen und den Audiooffset jedes Lesezeichen abrufen. Die zugehörige Dokumentation finden Sie hier.
-
Java: Unterstützung für Sprechererkennungs-APIs hinzugefügt. Details hier.
-
C++/C#/Java/JavaScript/Objective-C/Python: Es wurden zwei neue Ausgabeaudioformate mit WebM-Container für TTS (Webm16Khz16BitMonoOpus und Webm24Khz16BitMonoOpus) hinzugefügt. Diese Formate sind besser für das Streaming von Audiodaten mit dem Opus-Codec geeignet. Details zu C++-, C#, Java, JavaScript, Objective-C, Python.
-
C++/C#/Java: Unterstützung für das Abrufen des Sprachprofils für das Spracherkennungsszenario hinzugefügt. Details zu C++, C# und Java.
-
C++/C#/Java/Objective-C/Python: Unterstützung für separate freigegebene Bibliothek für Audiomikrofone und Lautsprechersteuerung hinzugefügt. Dies ermöglicht dem Entwickler die Verwendung des SDK in Umgebungen ohne Abhängigkeiten von erforderlichen Audiobibliotheken.
-
Objective-C/Swift: Es wurde Unterstützung für Modulframeworks mit Umbrella-Header hinzugefügt. Dies ermöglicht dem Entwickler den Import des Speech SDK als Modul in Apps mit Objective-C (iOS oder Mac)/Swift. Dies behebt GitHub Problem #452.
-
Python: Python 3.9 wird jetzt unterstützt, während Python 3.5 aufgrund der Einstellung des Supports für Python 3.5 nicht mehr unterstützt wird.
Bekannte Probleme
-
C++/C#/Java:
DialogServiceConnector kann nicht mit CustomCommandsConfig auf eine Anwendung für benutzerdefinierte Befehle zugreifen. Stattdessen tritt ein Verbindungsfehler auf. Dies kann umgangen werden, indem Sie der Anforderung mit config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter) die Anwendungs-ID manuell hinzufügen. Das erwartete Verhalten von CustomCommandsConfig wird in der nächsten Version wiederhergestellt.
Verbesserungen
- Wir möchten die Speicherauslastung und den Datenträger-Speicherbedarf des Speech SDK releaseunabhängig verringern, und Android-Binärdateien sind jetzt um 3 % bis 5 % kleiner.
- Verbesserte Genauigkeit, Lesbarkeit und Abschnitte mit weiteren Informationen in unserer C#-Referenzdokumentation hier.
Behebung von Programmfehlern
-
JavaScript: Umfangreiche WAV-Dateiheader werden jetzt ordnungsgemäß analysiert (vergrößert das Headersegment auf 512 Bytes). Dies behebt GitHub Problem #962.
-
JavaScript: Ein Problem bei der Mikrofonzeitsteuerung wurde korrigiert, das auftritt, wenn der Mikrofonstream vor der Stopperkennung endet. Dies betrifft eine Funktionsstörung der Spracherkennung in Firefox.
-
JavaScript: Die Initialisierungszusage wird jetzt ordnungsgemäß behandelt, wenn der Browser das Ausschalten des Mikrofons erzwingt, bevor „turnon“ abgeschlossen wurde.
-
JavaScript: „url-dependency“ wurde durch „url-parse“ ersetzt. Dies behebt GitHub Problem #264.
-
Android: Das Problem wurde behoben, dass keine Rückrufe erfolgen, wenn
minifyEnabled auf „true“ festgelegt ist.
-
C++/C#/Java/Objective-C/Python:
TCP_NODELAY wird ordnungsgemäß auf die zugrunde liegende Socket-E/A für TTS festgelegt, um die Latenz zu verringern.
-
C++/C#/Java/Python/Objective-C/Go: Es wurde ein gelegentlicher Absturz behoben, wenn der Erkenner direkt nach dem Start einer Erkennung zerstört wurde.
-
C++/C#/Java: Das Problem wurde behoben, dass bei der Zerstörung der Sprechererkennung gelegentlich ein Absturz erfolgt.
Beispiele
-
JavaScript: Browser-Beispiele benötigen keinen separaten Download der JavaScript-Bibliotheksdatei mehr.
Speech-SDK 1.15.0: Release von Januar 2021
Hinweis
Das Speech SDK für Windows hängt vom freigegebenen Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 ab.
Zusammenfassung der Highlights
- Der geringere Arbeitsspeicher und Speicherbedarf des Datenträgers machen das SDK effizienter.
- Ausgabeformate mit höherer Genauigkeit für die benutzerdefinierte neurale Sprachvorschau verfügbar.
- Die Absichtserkennung kann jetzt mehr als nur die höchste Absicht abrufen und zurückgeben, sodass Sie eine separate Bewertung der Absicht Ihres Kunden durchführen können.
- Das Einrichten von Sprach-Assistenten oder Bots ist nun einfacher, Sie können das Zuhören sofort beenden und die Reaktionen auf Fehler besser steuern.
- Die Geräteleistung wurde verbessert, da die Komprimierung optional ist.
- Verwenden Sie das Speech SDK auf Windows ARM/Arm64.
- Das Debuggen auf niedriger Ebene wurde verbessert.
- Das Feature zur Bewertung der Aussprache ist jetzt in größerem Umfang verfügbar.
- Mehrere Fehlerkorrekturen zur Behebung von Problemen, die SIE, unsere geschätzten Kunden, auf GitHub gekennzeichnet haben! VIELEN DANK! Es wäre schön, wenn Sie uns weiter Feedback senden würden.
Verbesserungen
- Das Speech-SDK ist jetzt effizienter und einfacher zu verwenden. Es wurde ein Multirelease gestartet, um die Speicherauslastung und den Speicherbedarf des Speech-SDK zu reduzieren. Im ersten Schritt wurden erhebliche Änderungen an der Dateigröße in freigegebenen Bibliotheken vorgenommen. Im Vergleich zum Release 1.14:
- 64-Bit-UWP-kompatible Windows Bibliotheken sind etwa 30% kleiner.
- 32-Bit-Windows Bibliotheken sehen noch keine Größenverbesserung.
- Linux-Bibliotheken sind 20 bis 25 Prozent kleiner.
- Android-Bibliotheken sind 3 bis 5 Prozent kleiner.
Neue Funktionen
-
Alle: Für die Vorschau der benutzerdefinierten neuronalen Stimme über die TTS-Sprachsynthese-API sind neue 48-kHz-Ausgabeformate verfügbar: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
-
All: Custom Voice ist ebenfalls einfacher zu verwenden. Unterstützung für das Festlegen benutzerdefinierter VoIP über
EndpointId (C++ hinzugefügt, C#, Java, JavaScript, Objective-C, Python). Vor dieser Änderung mussten Custom Voice-Benutzer die Endpunkt-URL über die FromEndpoint-Methode festlegen. Kunden können nun die FromSubscription-Methode wie bei Standardstimmen verwenden und dann die Bereitstellungs-ID angeben, indem sie EndpointId festlegen. Dadurch wird das Einrichten von benutzerdefinierten Stimmen vereinfacht.
-
C++/C#/Java/Objective-C/Python: Rufen Sie mehr als die oberste Absicht von
IntentRecognizer ab. Jetzt wird das Konfigurieren des JSON-Ergebnisses über die LanguageUnderstandingModel FromEndpoint-Methode mithilfe des verbose=true-URI-Parameters unterstützt, das alle Absichten und nicht nur die Absicht mit der höchsten Bewertung enthält. Dies behebt GitHub Problem #880. Die aktualisierte Dokumentation finden Sie hier.
-
C++/C#/Java: Lassen Sie Ihren Sprachassistenten oder Bot sofort aufhören zuzuhören.
DialogServiceConnector (C++, C#, Java) verfügt nun über eine StopListeningAsync() Methode, die ListenOnceAsync() begleiten soll. Dadurch wird die Audioaufzeichnung sofort beendet und ordnungsgemäß auf das Ergebnis gewartet, sodass sich dies perfekt für Szenarios mit der Schaltfläche „Jetzt Beenden“ eignet.
-
C++/C#/Java/JavaScript: Lassen Sie Ihren Sprachassistenten oder Bot besser auf zugrunde liegende Systemfehler reagieren.
DialogServiceConnector (C++, C#, Java, JavaScript) verfügt jetzt über einen neuen TurnStatusReceived-Ereignishandler. Diese optionalen Ereignisse entsprechen allen ITurnContext-Auflösungen im Zusammenhang mit dem Bot und melden ggf. Ausführungsfehler (z. B. als Ergebnis eines Ausnahmefehlers, Timeouts oder Netzwerkfehlers zwischen Direct Line Speech und dem Bot).
TurnStatusReceived erleichtert das Reagieren auf Fehlerbedingungen. Wenn ein Bot beispielsweise zu viel Zeit für eine Back-End-Datenbankabfrage benötigt (z. B. bei der Suche nach einem Produkt), kann dem Client mit TurnStatusReceived und einer Nachricht wie „Entschuldigung, ich habe das nicht verstanden. Probieren Sie es später noch mal.“ mitgeteilt werden, dass er die Aufforderung später noch mal durchführen soll.
-
C++/C# : Verwenden Sie das Speech-SDK auf mehreren Plattformen. Das Speech SDK NuGet-Paket unterstützt jetzt Windows nativen ARM/Arm64-Desktop-Binärdateien (UWP wurde bereits unterstützt), um das Speech SDK für mehr Computertypen nützlicher zu machen.
-
Java:
DialogServiceConnector verfügt jetzt über eine setSpeechActivityTemplate()-Methode, die zuvor unbeabsichtigt aus der Sprache ausgeschlossen wurde. Dies entspricht dem Festlegen der eigenschaft Conversation_Speech_Activity_Template und fordert an, dass alle zukünftigen Bot Framework-Aktivitäten, die vom Direct Line Sprachdienst stammen, den bereitgestellten Inhalt in ihre JSON-Nutzlasten zusammenführen.
-
Java: Verbessertes Debuggen auf niedriger Ebene. Die
Connection-Klasse verfügt jetzt ähnlich wie andere Programmiersprachen (C++, C#) über ein MessageReceived-Ereignis. Dieses Ereignis ermöglicht den Zugriff auf vom Dienst eingehende Daten auf niedriger Ebene und kann bei der Diagnose und beim Debuggen hilfreich sein.
-
JavaScript: Das Einrichten von Sprach-Assistenten und Bots über die
BotFrameworkConfig-Klasse wird einfacher, da diese nun über die Factorymethoden fromHost() und fromEndpoint() verfügt, die die Verwendung von benutzerdefinierten Dienstidentifizierungen im Vergleich zum manuellen Festlegen von Eigenschaften vereinfachen. Die optionale Angabe von botId wurde für die Verwendung eines nicht dem Standard entsprechenden Bots in den Konfigurationsfactorys ebenfalls standardisiert.
-
JavaScript: Die Geräteleistung wurde durch das Hinzufügen der Zeichenfolgensteuerungseigenschaft für die WebSocket-Komprimierung verbessert. Aus Leistungsgründen wurde die WebSocket-Komprimierung standardmäßig deaktiviert. Diese kann für Szenarios mit geringer Bandbreite erneut aktiviert werden. Ausführlichere Informationen finden Sie hier. Dies behebt GitHub Problem #242.
-
JavaScript: Die Unterstützung für die Bewertung der Aussprache wurde hinzugefügt, um die Auswertung der Aussprache zu ermöglichen. Den Schnellstart finden Sie hier.
Behebung von Programmfehlern
-
Alle (mit Ausnahme von JavaScript): Es wurde eine Regression in Version 1.14 korrigiert, bei der das Erkennungsmodul zu viel Speicher belegt hat.
-
C++-: Es wurde ein Problem mit der Garbage Collection mit
DialogServiceConnector behoben, wobei GitHub Problem #794 behoben wurde.
-
C# : Es wurde ein Problem mit dem Herunterfahren des Threads behoben, das dazu geführt hat, dass Objekte beim Verwerfen ungefähr eine Sekunde blockiert wurden.
-
C++/C#/Java: Es wurde eine Ausnahme behoben, mit der verhindert wurde, dass eine Anwendung ein Sprachautorisierungstoken oder eine Aktivitätsvorlage mehrmals auf einem
DialogServiceConnector festlegt.
-
C++/C#/Java: Es wurde ein Problem behoben, das dazu geführt hat, dass das Erkennungsmodul aufgrund einer Racebedingung beim Löschen abgestürzt ist.
-
JavaScript:
DialogServiceConnector hat den optionalen botId-Parameter, der in den Factorys von BotFrameworkConfig angegebenen wurde, zuvor nicht berücksichtigt. Dadurch ist es notwendig, den Abfragezeichenfolgenparameter botId manuell festzulegen, um einen nicht dem Standard entsprechenden Bot zu verwenden. Der Fehler wurde korrigiert, und botId-Werte, die in den Factorys von BotFrameworkConfig bereitgestellt werden, werden einschließlich der neuen Ergänzungen fromHost() und fromEndpoint() berücksichtigt und verwendet. Dies gilt auch für den applicationId-Parameter für CustomCommandsConfig.
- JavaScript: GitHub-Issue #881 wurde behoben, sodass das Erkennungsobjekt wiederverwendet werden kann.
-
JavaScript: Es wurde ein Problem behoben, bei dem das SKD mehrmals in einer TTS-Sitzung
speech.config gesendet und somit Bandbreite verschwendet hat.
-
JavaScript: Die Fehlerbehandlung bei der Mikrofonautorisierung wurde vereinfacht, sodass mehr beschreibende Meldungen angezeigt werden können, wenn ein Benutzer die Mikrofoneingabe im Browser nicht zugelassen hat.
-
JavaScript: Problem "GitHub Problem #249 behoben, bei dem Typfehler in
ConversationTranslator und ConversationTranscriber einen Kompilierungsfehler für TypeScript-Benutzer verursacht haben.
-
Objective-C: Es wurde ein Problem behoben, bei dem der GStreamer-Build für iOS unter Xcode 11.4 fehlgeschlagen ist und GitHub Problem #911 behoben wurde.
-
Python: Problem "GitHub Problem #870 wurde behoben, wobei "DeprecationWarning" entfernt wurde: Das Imp-Modul ist zugunsten von importlib veraltet".
Beispiele
Speech SDK 1.14.0: Release vom Oktober 2020
Hinweis
Das Speech SDK für Windows hängt vom freigegebenen Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 ab.
Neue Funktionen
-
Linux: Unterstützung für Debian 10 und Ubuntu 20.04 LTS wurde hinzugefügt.
-
Python/Objective-C: Unterstützung für die API
KeywordRecognizer hinzugefügt. Die Dokumentation finden Sie hier.
-
C++/Java/C#: Unterstützung hinzugefügt, um alle
HttpHeader Key/Value über ServicePropertyChannel::HttpHeader festzulegen.
-
JavaScript: Die Unterstützung für die
ConversationTranscriber-API wurde hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
-
C++/C#: Die neue
AudioDataStream FromWavFileInput-Methode (zum Lesen von WAV-Dateien) wurde hier (C++) und hier (C#) hinzugefügt.
-
C++/C#/Java/Python/Objective-C/Swift: Es wurde eine methode
stopSpeakingAsync() hinzugefügt, um text to speech synthesis zu beenden. Lesen Sie die Referenzdokumentation here (C++), here (C#), here (Java), here (Python) und here (Objective-C/Swift).
-
C#, C++, Java:
FromDialogServiceConnector()-Funktion zur klasse Connection hinzugefügt, die zum Überwachen von Verbindungs- und Trennungsereignissen für DialogServiceConnector verwendet werden kann. Lesen Sie die Referenzdokumentation here (C#), here (C++) und here (Java).
-
C++/C#/Java/Python/Objective-C/Swift: Unterstützung für die Aussprache hinzugefügt, die die Sprachausgabe auswertet, und gibt Sprechern Feedback zur Genauigkeit und Flunz gesprochener Audiodaten. Lesen Sie die Dokumentation.
Breaking Change
-
JavaScript: Der Rückgabetyp von PullAudioOutputStream.read() wurde von einer internen Zusage in eine native JavaScript-Zusage geändert.
Behebung von Programmfehlern
-
All: Die 1.13-Regression wurde in
SetServiceProperty behoben, bei der Werte mit bestimmten Zeichen ignoriert wurden.
-
C#: Die Windows-Konsolenbeispiele in Visual Studio 2019 wurden behoben, die die systemeigenen DLLs nicht finden konnten.
-
C#: Der Absturz bei der Arbeitsspeicherverwaltung wurde behoben, wenn ein Datenstrom als
KeywordRecognizer-Eingabe verwendet wurde.
-
ObjectiveC/Swift: Der Absturz bei der Arbeitsspeicherverwaltung wurde behoben, wenn ein Datenstrom als Eingabe des Erkennungsmoduls verwendet wurde.
-
Windows: Es wurde ein Koexistenzproblem mit BT HFP/A2DP auf UWP behoben.
-
JavaScript: Die Zuordnung von Sitzungs-IDs wurde behoben, um die Protokollierung zu verbessern und bei internen Debug-/Dienstkorrelationen zu helfen.
-
JavaScript: Es wurde eine Fehlerbehebung für
DialogServiceConnector hinzugefügt, die ListenOnce-Aufrufe nach dem Ausführen des ersten Aufrufs deaktiviert.
-
JavaScript: Es wurde ein Problem behoben, bei dem die Ergebnisausgabe immer nur „simple“ (einfach) ergibt.
-
JavaScript: Ein Problem bei der fortlaufenden Erkennung wurde in Safari unter macOS behoben.
-
JavaScript: Es wurde eine Risikominderung für die CPU-Last für das Szenario mit hohem Anforderungsdurchsatz durchgeführt.
-
JavaScript: Der Zugriff auf Details des Ergebnisses der Sprachprofilregistrierung wurde zugelassen.
-
JavaScript: Ein Fehler bei der fortlaufenden Erkennung in
IntentRecognizer wurde behoben.
-
C++/C#/Java/Python/Swift/ObjectiveC: Falsche URL für australieneast und brazilsouth in
IntentRecognizer wurde behoben.
-
C++/C#: Es wurde
VoiceProfileType als Argument beim Erstellen eines VoiceProfile-Objekts hinzugefügt.
-
C++/C#/Java/Python/Swift/ObjectiveC: Es wurde ein Problem für das potenzielle
SPX_INVALID_ARG beim Versuch behoben, AudioDataStream von einer angegebenen Position zu lesen.
-
IOS: Es wurde der Absturz bei der Spracherkennung unter Unity behoben.
Beispiele
-
ObjectiveC: Beispiel für die Schlüsselworterkennung here hinzugefügt.
-
C#/JavaScript: Schnellstart für die Transkription von Unterhaltungen here (C#) und here (JavaScript) hinzugefügt.
-
C++/C#/Java/Python/Swift/ObjectiveC: Beispiel für die Aussprachebewertung hier hinzugefügt
Bekanntes Problem
- DigiCert Global Root G2-Zertifikat wird in HoloLens 2 und Android 4.4 (KitKat) standardmäßig nicht unterstützt und muss dem System hinzugefügt werden, damit das Speech SDK funktionsfähig ist. Das Zertifikat wird in Naher Zukunft zu HoloLens 2 Betriebssystemimages hinzugefügt. Kunden von Android 4.4 müssen das aktualisierte Zertifikat dem System hinzufügen.
Abgekürzte Tests aufgrund von COVID-19
Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Im unwahrscheinlichen Fall, dass wir etwas übersehen haben, lassen Sie es uns bitte auf GitHub wissen.
Bleiben Sie gesund!
Speech SDK 1.13.0: Release 2020-July
Hinweis
Das Speech SDK für Windows hängt vom freigegebenen Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 ab.
Neue Funktionen
-
C# : Unterstützung für asynchrone Unterhaltungstranskription hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
-
JavaScript: Unterstützung der Lautsprechererkennung für browser und Node.js hinzugefügt.
-
JavaScript: Unterstützung für Sprachenerkennung/Sprach-ID hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
-
Objective-C: Unterstützung für die Unterhaltung auf mehreren Geräten und Unterhaltungstranskription hinzugefügt.
-
Python: Unterstützung für komprimierte Audiodaten für Python auf Windows und Linux hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
Behebung von Programmfehlern
-
All: Es wurde ein Problem behoben, durch das der KeywordRecognizer die Streams nach einer Erkennung nicht weiterleitete.
-
All: Es wurde ein Problem behoben, durch das der aus einem KeywordRecognitionResult abgeleitete Stream nicht das Schlüsselwort enthielt.
-
All: Es wurde ein Problem behoben, durch das SendMessageAsync die Nachricht nicht wirklich über das Netzwerk gesendet hat, nachdem die Benutzer darauf warteten.
-
All: Es wurde ein Absturz in den Sprechererkennungs-APIs korrigiert, wenn Benutzer VoiceProfileClient::SpeakerRecEnrollProfileAsync mehrfach aufgerufen haben und nicht darauf warteten, dass die Aufrufe beendet wurden.
-
All: Die Aktivierung der Dateiprotokollierung in der VoiceProfileClient- und der SpeakerRecognizer-Klasse wurde korrigiert.
-
JavaScript: Es wurde ein Problem mit der Drosselung behoben, wenn der Browser minimiert wird.
-
JavaScript: Es wurde ein Problem mit einem Arbeitsspeicherverlust in Streams behoben.
-
JavaScript: Zwischenspeicherung für OCSP-Antworten von Node.js hinzugefügt.
-
Java: Es wurde ein Problem behoben, durch das BigInteger-Felder immer "0" zurückgegeben wurden.
-
iOS: Ein Problem beim Veröffentlichen von Speech SDK-basierten Apps im iOS App Store wurde behoben.
Beispiele
-
C++: Beispielcode für die Lautsprechererkennung here hinzugefügt.
Abgekürzte Tests aufgrund von COVID-19
Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Im unwahrscheinlichen Fall, dass wir etwas übersehen haben, lassen Sie es uns bitte auf GitHub wissen.
Bleiben Sie gesund!
Speech-SDK 1.12.1: Release von Juni 2020
Neue Funktionen
-
C#, C++: Sprechererkennung (Vorschauversion): Dieses Feature ermöglicht die Sprecheridentifikation („Wer spricht?“) und Sprecherüberprüfung („Ist der Sprecher die angegebene Person?“). Weitere Informationen finden Sie in der Übersichtsdokumentation.
Behebung von Programmfehlern
-
C#, C++: Die Mikrofonaufzeichnung funktionierte in 1.12 bei der Sprechererkennung nicht. Dies wurde behoben.
-
JavaScript: Fehler bei der Sprachsynthese in Firefox und Safari unter macOS und iOS wurden behoben.
- Ein Fehler wurde behoben, bei dem es durch eine Zugriffsverletzung der Windows-Anwendungsüberprüfung bei der Unterhaltungstranskription von 8-Kanal-Datenströmen zu einem Absturz kam.
- Es wurde ein Fehler behoben, bei dem es durch eine Zugriffsverletzung der Windows-Anwendungsüberprüfung bei der Konversationsübersetzung von mehreren Geräten zu einem Absturz kam.
Beispiele
Abgekürzte Tests aufgrund von COVID-19
Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Im unwahrscheinlichen Fall, dass wir etwas übersehen haben, lassen Sie es uns bitte auf GitHub wissen.
Bleiben Sie gesund!
Speech SDK 1.12.0: Release von Mai 2020
Neue Funktionen
-
Go: Neue Go-Sprachunterstützung für Die Spracherkennung und den benutzerdefinierten Sprachassistenten. Ihre Entwicklungsumgebung können Sie hier einrichten. Beispielcode finden Sie weiter unten im Abschnitt „Beispiele“.
-
JavaScript: Browserunterstützung für Sprachsynthese hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
-
C++, C#, Java: Neues
KeywordRecognizer-Objekt und APIs, das auf Windows-, Android-, Linux- und iOS-Plattformen unterstützt wird. Lesen Sie die Dokumentation. Beispielcode finden Sie weiter unten im Abschnitt „Beispiele“.
-
Java: Unterstützung für mehrgerätefähige Gespräche mit Übersetzungsunterstützung hinzugefügt. Die zugehörige Referenzdokumentation finden Sie hier.
Verbesserungen und Optimierungen
-
JavaScript: Mikrofonimplementierung für Browser optimiert, um die Genauigkeit bei der Spracherkennung zu verbessern.
-
Java: Umgestaltete Bindungen mit direkter JNI-Implementierung ohne SWIG. Durch diese Änderung wird die Größe der Bindungen für alle Java-Pakete, die für Windows, Android, Linux und Mac verwendet werden, um das Zehnfache verkleinert und die Weiterentwicklung der Speech SDK-Java-Implementierung erleichtert.
-
Linux: Die unterstützende Dokumentation wurde mit den neuesten RHEL 7-spezifischen Anmerkungen aktualisiert.
- Die Verbindungslogik wurde verbessert, um im Falle von Dienst- oder Netzwerkfehlern mehrere Verbindungsversuche zu unternehmen.
- Die portal.azure.com Sprachschnellstartseite wurde aktualisiert, um Entwicklern den nächsten Schritt in ihrer Azure Speech-Reise zu erleichtern.
Behebung von Programmfehlern
-
C#, Java: Es wurde ein issue mit dem Laden von SDK-Bibliotheken auf Linux ARM (32 Bit und 64 Bit) behoben.
-
C#: Das explizite Löschen nativer Handles für die TranslationRecognizer-, IntentRecognizer- und Connection-Objekte wurde korrigiert.
-
C# : Für das ConversationTranscriber-Objekt wurde die Lebensdauerverwaltung für Audioeingaben korrigiert.
- Es wurde ein Problem behoben, bei dem der Grund für das
IntentRecognizer-Ergebnis nicht ordnungsgemäß festgelegt wurde, wenn Absichten aus einfachen Ausdrücken erkannt wurden.
- Problem behoben, bei dem das
SpeechRecognitionEventArgs-Ergebnisoffset nicht ordnungsgemäß festgelegt wurde.
- Es wurde eine Racebedingung behoben, bei der vom SDK versucht wurde, eine Netzwerknachricht zu senden, bevor die WebSocket-Verbindung hergestellt wurde. Dies war für
TranslationRecognizer beim Hinzufügen von Teilnehmern reproduzierbar.
- Es wurden Arbeitsspeicherverluste in der Schlüsselworterkennungs-Engine korrigiert.
Beispiele
Abgekürzte Tests aufgrund von COVID-19
Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Sollten wir etwas übersehen haben, lassen Sie es uns bitte auf GitHub wissen.
Bleiben Sie gesund!
Speech SDK 1.11.0: Release von März 2020
Neue Funktionen
- Linux: Unterstützung für Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 wurde hinzugefügt.
- Linux: Unterstützung für .NET Core C# unter Linux ARM32 und Arm64 hinzugefügt. Weitere Informationen finden Sie hier.
- C#, C++:
UtteranceId in ConversationTranscriptionResult hinzugefügt. Dies ist eine konsistente ID für alle Spracherkennungs-Zwischenergebnisse und -Endergebnisse. Ausführlichere Informationen für C# und C++.
- Python: Unterstützung für
Language ID hinzugefügt. Siehe speech_sample.py in GitHub Repo.
- Windows: Unterstützung für komprimierte Audioeingabeformate auf Windows Plattform für alle Win32-Konsolenanwendungen hinzugefügt. Details hier.
- JavaScript: Unterstützung von Sprachsynthese (Text-zu-Sprache) in NodeJS. Weitere Informationen here.
- JavaScript: Fügen Sie neue APIs hinzu, um die Überprüfung aller gesendeten und empfangenen Nachrichten zu ermöglichen. Weitere Informationen here.
Behebung von Programmfehlern
- C#, C++: Es wurde ein Problem behoben, sodass
SendMessageAsync jetzt binäre Nachrichten als binären Typ sendet. Ausführlichere Informationen für C# und C++.
- C#, C++: Es wurde das Problem behoben, dass die Verwendung des
Connection MessageReceived-Ereignisses einen Absturz verursachen kann, wenn Recognizer vor dem Connection-Objekt verworfen wird. Ausführlichere Informationen für C# und C++.
- Android: Die Audiopuffergröße des Mikrofons wurde von 800 ms auf 100 ms verringert, um die Wartezeit zu reduzieren.
- Android: Ein Problem mit dem x86 Android-Emulator in Android Studio wurde behoben.
- JavaScript: Unterstützung für Regionen in China mit der
fromSubscription-API hinzugefügt. Details hier.
- JavaScript: Fügen Sie weitere Fehlerinformationen zu Verbindungsfehlern aus NodeJS hinzu.
Beispiele
- Unity: Problem bei öffentlichem Absichtserkennungsbeispiel ist behoben, bei dem der LUIS-JSON-Import fehlgeschlagen ist. Details hier.
- Python: Beispiel für
Language ID hinzugefügt. Details hier.
Abgekürzte Tests aufgrund von COVID-19: Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Geräteüberprüfung nicht im gewohnten Umfang durchführen. Beispielsweise konnten die Mikrofoneingabe und Lautsprecherausgabe unter Linux, iOS und macOS nicht getestet werden. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Beschädigungen auf diesen Plattformen geführt haben, und alle unsere automatisierten Tests wurden bestanden. Lassen Sie uns im unwahrscheinlichen Fall, dass wir etwas verpasst haben, über GitHub informieren.
Vielen Dank für Ihre Unterstützung. Wie immer posten Sie Fragen oder Feedback zu GitHub oder Stack Overflow.
Bleiben Sie gesund!
Speech SDK 1.10.0: Release von Februar 2020
Neue Funktionen
- Es wurden Python Pakete hinzugefügt, um die neue Version 3.8 von Python zu unterstützen.
- Red Hat Enterprise Linux (RHEL)/CentOS 8 x64-Unterstützung (C++, C#, Java, Python).
- Linux ARM32-Unterstützung für Debian und Ubuntu
- Von „DialogServiceConnector“ wird jetzt der optionale Parameter „bot ID“ für „BotFrameworkConfig“ unterstützt. Dieser Parameter ermöglicht die Verwendung mehrerer Direct Line Sprach-Bots mit einer einzigen Sprachausgaberessource. Ohne den angegebenen Parameter wird der Standard-Bot (wie von der Konfigurationsseite des Direct Line Sprachkanals bestimmt) verwendet.
- „DialogServiceConnector“ verfügt nun über die Eigenschaft „SpeechActivityTemplate“. Der Inhalt dieser JSON-Zeichenfolge wird von Direct Line Speech verwendet, um eine Vielzahl unterstützter Felder in allen Aktivitäten vorzufüllen, die einen Direct Line Sprach-Bot erreichen, einschließlich Aktivitäten, die automatisch als Reaktion auf Ereignisse wie die Spracherkennung generiert werden.
- Von der Sprachsynthese wird nun der Abonnementschlüssel für die Authentifizierung verwendet. Dadurch verringert sich die Wartezeit für das erste Byte des ersten Syntheseergebnisses nach der Erstellung eines Synthesizers.
- Verringerung der durchschnittlichen Wortfehlerrate um 18,6 Prozent dank aktualisierter Spracherkennungsmodelle für 19 Gebietsschemas (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Die neuen Modelle führen zu erheblichen Verbesserungen in verschiedenen Bereichen. Hierzu zählen unter anderem Diktat, Callcentertranskription und Videoindizierung.
Behebung von Programmfehlern
- Es wurde ein Fehler behoben, bei dem der Conversation Transcriber in Java-APIs nicht ordnungsgemäß gewartet hat.
- Fehlende (Get|Set)-Eigenschaftsmethoden zu AudioConfig hinzufügen.
- Behebung eines TTS-Fehlers, bei dem der audioDataStream nicht beendet werden konnte, wenn die Verbindung fehlschlägt.
- Die Verwendung eines Endpunkts ohne Region würde USP-Probleme für den Konversationsübersetzer verursachen.
- Für die ID-Generierung in universellen Windows-Anwendungen wird nun ein Algorithmus für eine angemessen eindeutige GUID verwendet. Zuvor wurde ungewollt standardmäßig eine Stubimplementierung verwendet, die bei umfangreichen Interaktionen häufig zu Konflikten führte.
Beispiele
Weitere Änderungen
Speech SDK 1.9.0: Release 2020-January
Neue Funktionen
- Mehrgerätekonversation: Verbinden Sie mehrere Geräte mit derselben sprach- oder textbasierten Konversation, und übersetzen Sie optional die zwischen ihnen gesendeten Nachrichten. Weitere Informationen finden Sie in diesem Artikel.
- Unterstützung für die Schlüsselworterkennung wurde für das
.aar-Paket für Android und für x86- und x64-Versionen hinzugefügt.
- Objective-C: Methoden
SendMessage und SetMessageProperty wurden dem Connection-Objekt hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
- DIE TTS-C++-API unterstützt
std::wstring jetzt als Synthesetexteingabe und entfernt die Notwendigkeit, eine Wstring-Zeichenfolge in eine Zeichenfolge zu konvertieren, bevor sie an das SDK übergeben wird. Ausführlichere Informationen finden Sie hier.
- C#: Sprach-ID und Ausgangssprachenkonfiguration sind jetzt verfügbar.
- JavaScript: Dem
Connection-Objekt wurde eine Funktion für die Weiterleitung benutzerdefinierter Nachrichten vom Speech-Dienst als Rückruf von receivedServiceMessage zu hinzugefügt.
- JavaScript: Unterstützung für
FromHost API wurde hinzugefügt, um die Verwendung mit lokalen Containern und Sovereign Clouds zu vereinfachen. Die zugehörige Dokumentation finden Sie hier.
- JavaScript:
NODE_TLS_REJECT_UNAUTHORIZED wird nun dank eines Beitrags von orgads berücksichtigt. Ausführlichere Informationen finden Sie hier.
Disruptive Änderungen
-
OpenSSL wurde auf Version 1.1.1b aktualisiert und ist statisch mit der Kernbibliothek des Speech SDK für Linux verknüpft. Dies kann zu einer Unterbrechung führen, wenn OpenSSL für Ihren Posteingang nicht im Verzeichnis /usr/lib/ssl im System installiert wurde. In unserer Dokumentation zum Speech SDK finden Sie Möglichkeiten, wie Sie das Problem umgehen können.
- Wir haben den in C# für
WordLevelTimingResult.Offset zurückgegebenen Datentyp von int in long geändert, um den Zugriff auf WordLevelTimingResults zu ermöglichen, wenn Sprachdaten länger als 2 Minuten sind.
-
PushAudioInputStream und PullAudioInputStream senden nun WAV-Headerinformationen an den Speech-Dienst basierend auf dem AudioStreamFormat, das bei der Erstellung optional angegeben werden kann. Kunden müssen nun das unterstützte Audioeingabeformat verwenden. Alle anderen Formate führen zu weniger guten Erkennungsergebnissen oder anderen Problemen.
Behebung von Programmfehlern
- Weitere Informationen finden Sie im obigen
OpenSSL-Update unter „Wichtige Änderungen“. Wir haben sowohl einen zeitweiligen Absturz als auch ein Leistungsproblem (Sperrkonflikte bei hoher Auslastung) in Linux und Java korrigiert.
- Java: Verbesserungen beim Schließen von Objekten in Szenarien mit hoher Parallelität.
- Das NuGet-Paket wurde umstrukturiert. Wir haben die drei Kopien von
Microsoft.CognitiveServices.Speech.core.dll und Microsoft.CognitiveServices.Speech.extension.kws.dll unter lib-Ordnern entfernt, wodurch das NuGet-Paket kleiner und schneller heruntergeladen werden kann, und wir haben Header hinzugefügt, die zum Kompilieren einiger nativer C++-Apps erforderlich sind.
- Die korrigierten Schnellstartbeispiele finden Sie hier. Diese wurden beendet, ohne dass die Ausnahme "Mikrofon nicht gefunden" unter Linux, macOS, Windows angezeigt wurde.
- Ein SDK-Absturz bei langen Spracherkennungsergebnissen für bestimmte Codepfade wie in diesem Beispiel wurde korrigiert.
- Der SDK-Bereitstellungsfehler in Azure Web App-Umgebung wurde behoben, um dieses Kundenproblem zu beheben.
- Ein TTS-Fehler bei der Verwendung mehrerer
<voice>- oder <audio>-Tags wurde behoben, um dieses Kundenproblems zu beseitigen.
- Ein TTS 401-Fehler beim Wiederherstellen des SDK nach dem Anhalten wurde behoben.
- JavaScript: Ein zirkulärer Import von Audiodaten wurde dank eines Beitrags von euirim korrigiert.
- JavaScript: Unterstützung für das Festlegen von Diensteigenschaften wurde wie in 1.7 hinzugefügt.
- JavaScript: Ein Problem wurde behoben, bei dem ein Verbindungsfehler zu kontinuierlichen erfolglosen WebSocket-Verbindungsversuchen führen konnte.
Beispiele
Weitere Änderungen
- Die Größe der SDK-Kernbibliothek unter Android wurde optimiert.
- Das SDK ab Version 1.9.0 unterstützt sowohl
int- als auch string-Typen im Feld für die Stimmensignaturversion für die Unterhaltungstranskription.
Speech SDK 1.8.0: Release von November 2019
Neue Funktionen
-
FromHost()-API hinzugefügt, um die Verwendung mit lokalen Containern und Sovereign Clouds zu vereinfachen.
- Quellsprachenidentifikation für die Spracherkennung hinzugefügt (in Java und C++)
- Objekt
SourceLanguageConfig für die Spracherkennung hinzugefügt, das verwendet wird, um die erwarteten Quellsprachen anzugeben (in Java und C++)
-
KeywordRecognizer-Unterstützung unter Windows (UWP), Android und iOS über die NuGet- und Unity-Pakete hinzugefügt
- Java-Remoteunterhaltungs-API für die Unterhaltungstranskription in asynchronen Batches hinzugefügt
Disruptive Änderungen
- Konversations-Transcriber-Funktionen wurden unter dem Namespace
Microsoft.CognitiveServices.Speech.Transcription verschoben.
- Ein Teil der Unterhaltungstranskriptionsmethoden wurde in die neue
Conversation-Klasse verschoben.
- Die Unterstützung für 32-Bit-iOS (ARMv7 und x86) wurde eingestellt.
Behebung von Programmfehlern
- Ein Absturz wurde behoben, der auftrat, wenn die lokale
KeywordRecognizer-Instanz ohne gültigen Abonnementschlüssel für den Speech-Dienst verwendet wurde.
Beispiele
- Xamarin Beispiel für
KeywordRecognizer
- Unity-Beispiel für
KeywordRecognizer
- C++ und Java Beispiele für die automatische Quellsprachenidentifikation.
Speech SDK 1.7.0: Release von September 2019
Neue Funktionen
- Betaunterstützung für Xamarin auf Universelle Windows-Plattform (UWP), Android und iOS hinzugefügt
- iOS-Unterstützung für Unity wurde hinzugefügt
- Unterstützung von
Compressed-Eingaben für ALaw, Mulaw, FLAC unter Android, iOS und Linux wurde hinzugefügt.
-
SendMessageAsync in der Klasse Connection zum Senden einer Nachricht an einen Dienst hinzugefügt
-
SetMessageProperty in der Klasse Connection zum Festlegen der Eigenschaft einer Nachricht hinzugefügt
- TTS hat Bindungen für Java (JRE und Android), Python, Swift und Objective-C hinzugefügt.
- TTS hat die Unterstützung der Wiedergabe für macOS, iOS und Android hinzugefügt
- Es wurden Informationen zur „Wortgrenze“ für TTS hinzugefügt
Behebung von Programmfehlern
- IL2CPP-Buildproblem in Unity 2019 für Android wurde behoben
- Es wurde ein Problem behoben, bei dem falsch formatierte Header in der Eingabe von WAV-Dateien falsch verarbeitet wurden
- Es wurde ein Problem behoben, bei dem UUIDs in einigen Verbindungseigenschaften nicht eindeutig waren
- Es wurden einige Warnungen bezüglich Spezifizierer für die NULL-Zulässigkeit in den Swift-Bindungen behoben (möglicherweise sind kleine Codeänderungen erforderlich)
- Es wurde ein Fehler behoben, der dazu führte, dass WebSocket-Verbindungen unter Netzwerklast nicht ordnungsgemäß geschlossen wurden
- Problem unter Android behoben, das gelegentlich dazu führt, dass
DialogServiceConnector doppelte Eindruck-IDs verwendet
- Es wurden Verbesserungen an der Stabilität von Verbindungen über Interaktionen mit Mehrfachdurchläufen und an der Berichterstellung bei Fehlern vorgenommen (über Ereignisse vom Typ
Canceled), wenn sie mit DialogServiceConnector auftreten.
-
DialogServiceConnector-Sitzungsstarts stellen jetzt ordnungsgemäß Ereignisse bereit, einschließlich des Aufrufs von ListenOnceAsync(), während StartKeywordRecognitionAsync() aktiv ist.
- Es wurde ein Absturzproblem behoben, das mit dem Empfangen von
DialogServiceConnector-Aktivitäten verbunden war.
Beispiele
- Schnellstart für Xamarin
- Aktualisierte CPP-Schnellstartanleitung mit Linux Arm64-Informationen
- Aktualisierter Unity-Schnellstart mit iOS-Informationen
Speech-SDK 1.6.0: Release von Juni 2019
Beispiele
- Schnellstartbeispiele für Sprachsynthese auf UWP und Unity
- Schnellstartbeispiel für Swift unter iOS
- Unity-Beispiele für Sprach- und Absichtserkennung sowie Übersetzung
- Schnellstartbeispiele für
DialogServiceConnector aktualisiert
Verbesserungen/Änderungen
- Dialog „Namespace“:
-
SpeechBotConnector wurde in DialogServiceConnector umbenannt.
-
BotConfig wurde in DialogServiceConfig umbenannt.
-
BotConfig::FromChannelSecret() wurde DialogServiceConfig::FromBotSecret() neu zugeordnet.
- Alle vorhandenen Direct Line Sprachclients werden nach der Umbenennung weiterhin unterstützt
- Aktualisierung des TTS-REST-Adapter zur Unterstützung von Proxys, dauerhafte Verbindung
- Verbesserung von Fehlermeldungen, wenn eine ungültige Region übergeben wird.
- Swift/Objective-C:
- Verbesserte Fehlerberichterstellung: Methoden, die zu einem Fehler führen können, sind jetzt in zwei Versionen vorhanden: Eine, die ein
NSError-Objekt für die Fehlerbehandlung bereitstellt, und eine, das eine Ausnahme auslöst. Das erste wird für Swift verfügbar gemacht. Diese Änderung erfordert Anpassungen an vorhandenem Swift-Code.
- Verbesserte Behandlung von Ereignissen
Behebung von Programmfehlern
- Korrektur für TTS: Hierbei führte
SpeakTextAsync die Rückgabe aus, ohne zu warten, bis das Audiorendering abgeschlossen war.
- Korrektur für das Marshalling von Zeichenfolgen in C#, um vollständige Sprachunterstützung zu ermöglichen.
- Korrektur für ein .NET Core-App-Problem beim Laden der Core-Bibliothek mit dem Zielframework net461 in Beispielen.
- Korrektur für gelegentlich Probleme beim Bereitstellen nativer Bibliotheken im Ausgabeordner in Beispielen.
- Korrektur für das zuverlässige Schließen von WebSockets.
- Korrektur für mögliche Abstürze beim Öffnen einer Verbindung bei hoher Auslastung unter Linux
- Korrektur für fehlende Metadaten im Frameworkbündel für macOS.
- Behebung von Problemen mit
pip install --user auf Windows
Speech SDK 1.5.1
Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.
Behebung von Programmfehlern
- Fehlerbehebung bei FromSubscription bei Verwendung mit Unterhaltungstranskription.
- Fehlerbehebung bei der Schlüsselworterkennung für Sprach-Assistenten.
Speech SDK 1.5.0: Version aus Mai 2019
Neue Funktionen
- Keyword Spotting (KWS) ist jetzt für Windows und Linux verfügbar. KWS-Funktionen funktionieren möglicherweise mit jedem Mikrofontyp, offizielle KWS-Unterstützung, ist jedoch derzeit auf die Mikrofonarrays beschränkt, die in der Azure Kinect DK Hardware oder im Speech Devices SDK zu finden sind.
- Begriffshinweisfunktionalität ist über das SDK verfügbar. Weitere Informationen finden Sie hier.
- Unterhaltungstranskriptionsfunktionalität ist über das SDK verfügbar.
- Fügen Sie Unterstützung für Sprachassistenten mithilfe des Direct Line Sprachkanals hinzu.
Beispiele
- Beispiele für neue Funktionen oder neue Dienste, die vom SDK unterstützt werden, wurden hinzugefügt.
Verbesserungen/Änderungen
- Verschiedene Erkennungseigenschaften wurden hinzugefügt, um das Dienstverhalten oder Dienstergebnisse anzupassen (z. B. Maskieren von Obszönitäten).
- Sie können die Erkennung jetzt über die Standardkonfigurationseigenschaften konfigurieren, auch wenn Sie den Erkenner
FromEndpoint erstellt haben.
- Objective-C: Die Eigenschaft
OutputFormat wurde zu SPXSpeechConfiguration hinzugefügt.
- Das SDK unterstützt jetzt Debian 9 als Linux-Distribution.
Behebung von Programmfehlern
- Ein Problem wurde behoben, bei dem die Sprecherressource in der Sprachsynthese zu früh zerstört wurde.
Speech SDK 1.4.2
Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.
Speech SDK 1.4.1
Dieses Release gilt nur für JavaScript. Es wurden keine Features hinzugefügt. Die folgenden Fehler wurden behoben:
- Verhindern Sie das Laden von „https-proxy-agent“ durch Webpack.
Speech SDK 1.4.0: Release von April 2019
Neue Funktionen
- Das SDK unterstützt jetzt den Sprachsynthese-Dienst als Betaversion. Es wird von C++ und C# auf Windows und Linux Desktop unterstützt. Weitere Informationen finden Sie in der Übersicht über die Sprachsynthese.
- Das SDK unterstützt jetzt MP3- und Opus/OGG-Audiodateien als Streameingabedateien. Dieses Feature steht nur unter Linux mit C++ und C# zur Verfügung und befindet sich derzeit in der Betaversion (weitere Details finden Sie hier).
- Das Speech SDK für Java, .NET Core, C++ und Objective-C haben macOS-Unterstützung erhalten. Die Objective-C-Unterstützung für macOS befindet sich derzeit in der Betaphase.
- iOS: Das Speech SDK für iOS (Objective-C) wird jetzt auch als ein CocoaPod veröffentlicht.
- JavaScript: Unterstützung von nicht standardisierten Mikrofonen als Eingabegeräte.
- JavaScript: Proxyunterstützung für Node.js.
Beispiele
- Beispiele für die Verwendung des Speech SDK mit C++ und Objective-C unter macOS wurden hinzugefügt.
- Beispiele zur Veranschaulichung der Verwendung des Sprachsynthese-Diensts wurden hinzugefügt.
Verbesserungen/Änderungen
- Python: Zusätzliche Eigenschaften von Erkennungsergebnissen werden jetzt über die eigenschaft
properties verfügbar gemacht.
- Zur weiteren Unterstützung beim Entwickeln und Debuggen können Sie die Informationen aus SDK-Protokollierung und Diagnose in eine Protokolldatei umleiten (weitere Details finden Sie hier).
- JavaScript: Verbesserte Prozessleistung bei Audiodaten.
Behebung von Programmfehlern
- Mac/iOS: Ein Fehler, der zu einer langen Wartezeit geführt hat, wenn keine Verbindung mit Speech Services hergestellt werden konnte, wurde behoben.
- Python: Verbesserung der Fehlerbehandlung für Argumente in Python Callbacks.
- JavaScript: Ein Fehler bei Statusmeldungen nach dem Ende der Spracheingabe mit RequestSession wurde behoben.
Sprach-SDK 1.3.1: Aktualisierung von Februar 2019
Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.
Fehlerbehebung
- Korrigiert einen Speicherverlust bei der Verwendung von Mikrofoneingabe. Streambasierte oder Dateieingaben sind nicht betroffen.
Speech SDK 1.3.0: Version von Februar 2019
Neue Funktionen
- Das Speech SDK unterstützt die Auswahl des Eingangsmikrofons über die
AudioConfig-Klasse. Dadurch können Sie Audiodaten über ein anderes als das Standardmikrofon an den Spracherkennungsdienst streamen. Weitere Informationen finden Sie in der Dokumentation, in der die Auswahl eines Audioeingabegeräts beschrieben wird. Für JavaScript ist diese Funktion noch nicht verfügbar.
- Das Speech SDK unterstützt jetzt Unity in einer Betaversion. Geben Sie Feedback über den Problemabschnitt im GitHub Beispiel-Repository. Diese Version unterstützt Unity auf Windows x86 und x64 (Desktop- oder Universelle Windows-Plattform-Anwendungen) und Android (ARM32/64, x86). Weitere Informationen finden Sie in unserem Unity-Schnellstart.
- Die Datei
Microsoft.CognitiveServices.Speech.csharp.bindings.dll (in früheren Versionen ausgeliefert) wird nicht mehr benötigt. Die Funktion ist jetzt in das Core-SDK integriert.
Beispiele
Die folgenden neuen Inhalte stehen in unserem Beispielrepository zur Verfügung:
- Weitere Beispiele für
AudioConfig.FromMicrophoneInput
- Zusätzliche Python Beispiele für die Erkennung und Übersetzung von Absichten.
- Weitere Beispiele für die Verwendung des Objekts
Connection in iOS
- Zusätzliche Java Beispiele für die Übersetzung mit Audioausgabe.
- Neues Beispiel für die Verwendung der REST-API zur Batchtranskription.
Verbesserungen/Änderungen
- Python
- Verbesserte Parameterüberprüfung und Fehlermeldungen in
SpeechConfig
- Unterstützung für das Objekt
Connection hinzugefügt
- Unterstützung für 32-Bit-Python (x86) auf Windows.
- Das Speech SDK für Python ist aus der Beta-Phase heraus.
- Ios
- Das SDK wird jetzt für das iOS SDK, Version 12.1, erstellt.
- Das SDK unterstützt jetzt die iOS-Versionen 9.2 und höher.
- Verbesserte Referenzdokumentation und Korrektur mehrerer Eigenschaftsnamen.
- JavaScript
- Unterstützung für das Objekt
Connection hinzugefügt
- Hinzugefügte Typdefinitionsdateien für JavaScript-Pakete
- Anfangsunterstützung und Implementierung für Phrasenhinweise.
- Rückgabe der Eigenschaftensammlung mit Dienst-JSON für die Erkennung.
- Windows DLLs enthalten jetzt eine Versionsressource.
- Wenn Sie eine
FromEndpoint-Erkennung erstellen, können Sie der Endpunkt-URL direkt Parameter hinzufügen. Mithilfe von FromEndpoint können Sie die Erkennung nicht über die Standardkonfigurationseigenschaften konfigurieren.
Behebung von Programmfehlern
- Leere Angaben für Proxybenutzername und Proxykennwort wurden nicht ordnungsgemäß behandelt. Wenn Sie in diesem Release den Proxybenutzernamen und das Proxykennwort auf eine leere Zeichenfolge festlegen, werden diese bei der Herstellung einer Verbindung mit dem Proxy nicht übermittelt.
- Vom SDK erstellte SessionId-Angaben waren für einige Sprachen/Umgebungen nicht immer wirklich zufällig vergeben. Es wurde eine Initialisierung des Zufallsgenerators hinzugefügt, um dieses Problem zu beheben.
- Verbesserte Verarbeitung des Autorisierungstokens. Wenn Sie ein Autorisierungstoken verwenden möchten, geben Sie es im
SpeechConfig an und lassen Sie den API-Schlüssel leer. Erstellen Sie die Erkennung dann wie gewohnt.
- In einigen Fällen wurde das
Connection-Objekt nicht ordnungsgemäß freigegeben. Dieses Problem wurde behoben.
- Das JavaScript-Beispiel wurde korrigiert, um die Audioausgabe für die Übersetzungssynthese auch in Safari zu unterstützen.
Speech SDK 1.2.1
Dieses Release gilt nur für JavaScript. Es wurden keine Features hinzugefügt. Die folgenden Fehler wurden behoben:
- Ende des Datenstroms wird bei turn.end und nicht bei speech.end ausgelöst.
- In Audiopump wurde der Fehler behoben, dass der nächste Sendevorgang nicht geplant wurde, wenn beim aktuellen Sendevorgang ein Fehler auftrat.
- Die kontinuierliche Erkennung mit Authentifizierungstoken wurde korrigiert.
- Programmfehlerbehebung für verschiedene Erkennungen/Endpunkte.
- Verbesserungen bei der Dokumentation.
Speech SDK 1.2.0: Release von Dezember 2018
Neue Funktionen
- Python
- Die Betaversion der Python-Unterstützung (3.5 und höher) ist mit dieser Version verfügbar. Weitere Informationen finden Sie hier] (../../quickstart-python.md).
- JavaScript
- Das Speech SDK für JavaScript wird jetzt als Open-Source-Code bereitgestellt. Der Quellcode ist auf GitHub verfügbar.
- Node.js wird jetzt unterstützt. Weitere Informationen finden Sie hier.
- Die Längenbeschränkung für Audiositzungen wurde entfernt. Die Verbindungswiederherstellung erfolgt automatisch im Hintergrund.
-
Connection-Objekt
- Über
Recognizer kann auf ein Objekt vom Typ Connection zugegriffen werden. Mit diesem Objekt können Sie die Dienstverbindung explizit initiieren und Verbindungsherstellungs- und Verbindungstrennungsereignisse abonnieren.
(Dieses Feature ist noch nicht in JavaScript und Python verfügbar.)
- Unterstützung von Ubuntu 18.04
- Android
- ProGuard-Unterstützung während der APK-Generierung aktiviert
Verbesserungen
- Verbesserungen bei der internen Threadverwendung (weniger Threads, Sperren, Mutexe)
- Verbesserte Fehlerberichterstellung/-informationen. In einigen Fällen wurden Fehlermeldungen nicht ordnungsgemäß weitergegeben.
- Entwicklungsabhängigkeiten in JavaScript wurden für die Verwendung aktueller Module aktualisiert.
Behebung von Programmfehlern
- Arbeitsspeicherverluste aufgrund eines Typenkonflikts in
RecognizeAsync behoben
- In einigen Fällen sind Ausnahmen verloren gegangen.
- Behebung des Arbeitsspeicherverlusts in Übersetzungsereignisargumenten
- Sperrproblem bei der Verbindungswiederherstellung in langen Sitzungen behoben
- Problem behoben, dass dazu führen konnte, dass das Endergebnis für fehlerhafte Übersetzungen verpasst wird.
- C#: Wenn im Hauptthread nicht auf einen Vorgang vom Typ
async gewartet wurde, konnte es vorkommen, dass die Erkennung vor Abschluss der asynchronen Aufgabe entfernt wurde.
- Java: Ein Problem wurde behoben, das zu einem Absturz des Java virtuellen Computers führte.
- Objective-C: Enumerationszuordnung korrigiert. Anstelle von
RecognizingIntent wurde „RecognizedIntent“ zurückgegeben.
- JavaScript: Standardausgabeformat in
SpeechConfig auf „einfach“ festgelegt
- JavaScript: Beseitigung der Inkonsistenz zwischen Eigenschaften des Konfigurationsobjekts in JavaScript und anderen Sprachen
Beispiele
- Mehrere Beispiele aktualisiert und korrigiert (z.B. die Ausgabestimmen für die Übersetzung).
- Node.js-Beispiele zum Beispielrepository hinzugefügt
Speech SDK 1.1.0
Neue Funktionen
- Unterstützung für Android x86/x64.
- Proxyunterstützung: Im
SpeechConfig-Objekt können Sie jetzt eine Funktion aufrufen, um die Proxyinformationen (Hostname, Port, Benutzername und Kennwort) festzulegen. Dieses Feature ist in iOS noch nicht verfügbar.
- Verbesserte Fehlercodes und Meldungen. Wenn eine Erkennung einen Fehler zurückgab, wurde dadurch bereits
Reason (im abgebrochenen Ereignis) oder CancellationDetails (im Erkennungsergebnis) auf Error festgelegt. Das abgebrochene Ereignis enthält jetzt zwei zusätzliche Member: ErrorCode und ErrorDetails. Wenn der Server zusätzliche Fehlerinformationen mit dem Fehler zurückgibt, sind diese jetzt in den neuen Membern verfügbar.
Verbesserungen
- In der Konfiguration der Erkennung wurde eine zusätzliche Überprüfung hinzugefügt, und es wurde eine zusätzliche Fehlermeldung hinzugefügt.
- Die Verarbeitung von langen Pausen mitten in einer Audiodatei wurde verbessert.
- NuGet-Paket: Für .NET Framework-Projekte verhindert es das Build mit der AnyCPU-Konfiguration.
Behebung von Programmfehlern
- In Erkennungen wurden verschiedene Ausnahmen behoben. Darüber hinaus werden Ausnahmen abgefangen und in Ereignisse vom Typ
Canceled konvertiert.
- Ein Arbeitsspeicherverlust in der Eigenschaftenverwaltung wurde behoben.
- Es wurde ein Fehler behoben, bei dem eine Audioeingabedatei zum Absturz der Erkennung führen konnte.
- Es wurde ein Fehler behoben, bei dem nach dem Ereignis zum Beenden einer Sitzung weiter Ereignisse empfangen werden konnten.
- Einige Racebedingungen im Threading wurden korrigiert.
- Ein iOS-Kompatibilitätsproblem wurde behoben, das zu einem Absturz führen konnte.
- Verbesserungen bei der Stabilität für die Android-Mikrofonunterstützung.
- Es wurde ein Fehler behoben, bei dem eine Erkennung in JavaScript die Erkennungssprache ignorierte.
- Es wurde ein Fehler behoben, der (in einigen Fällen) das Festlegen von
EndpointId in JavaScript verhinderte.
- Die Parameterreihenfolge in AddIntent in JavaScript wurde geändert, und es wurde eine fehlende JavaScript-Signatur für
AddIntent hinzugefügt.
Beispiele
- Dem Beispielrepository wurden C++- und C#-Beispiele für die Verwendung von Pull- und Pushstreams hinzugefügt.
Speech SDK 1.0.1
Verbesserte Zuverlässigkeit und Fehlerbehebungen:
- Ein potenziell schwerwiegender Fehler aufgrund einer Racebedingung bei der Löscherkennung wurde behoben.
- Ein potenziell schwerwiegender Fehler bei nicht festgelegten Eigenschaften wurde behoben.
- Zusätzliche Fehler- und Parameterüberprüfungen wurden hinzugefügt.
- Objective-C: Ein potenziell schwerwiegender Fehler durch Namensüberschreibungen in NSString wurde behoben.
- Objective-C: Sichtbarkeit der API wurde angepasst.
- JavaScript: Korrektur in Bezug auf Ereignisse und deren Nutzlasten.
- Verbesserungen bei der Dokumentation.
Im Beispielrepository wurde ein neues Beispiel für JavaScript hinzugefügt.
Azure Speech SDK 1.0.0: Version September 2018
Neue Funktionen
Disruptive Änderungen
- Mit diesem Release werden einige Breaking Changes eingeführt.
Ausführliche Informationen finden Sie auf dieser Seite.
Azure Speech SDK 0.6.0: Version vom August 2018
Neue Funktionen
- UWP-Apps, die mit dem Speech SDK erstellt wurden, können jetzt das Windows-App Zertifizierungskit (WACK) bestehen.
Sehen Sie sich den UWP-Schnellstart an.
- Unterstützung für .NET Standard 2.0 unter Linux (Ubuntu 16.04 x64).
- Experimental: Unterstützung Java 8 auf Windows (64-Bit) und Linux (Ubuntu 16.04 x64).
Schauen Sie sich die Schnellstartanleitung Java Runtime Environment an.
Funktionale Änderung
- Es werden weitere Detailinformationen zu Verbindungsfehlern verfügbar gemacht.
Disruptive Änderungen
- Auf Java (Android) erfordert die funktion
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate keinen Pfadparameter mehr. Der Pfad wird nun auf allen unterstützten Plattformen automatisch erkannt.
- Der Get-Accessor der Eigenschaft
EndpointUrl in Java und C# wurde entfernt.
Behebung von Programmfehlern
- In Java wird das Ergebnis der Audiosynthese für die Übersetzungserkennung jetzt implementiert.
- Ein Problem wurde behoben, das inaktive Threads und eine erhöhte Anzahl von offenen und nicht verwendeten Sockets verursachen konnte.
- Ein Problem wurde behoben, das dazu führen konnte, dass lange ausgeführte Erkennungen während der Übertragung beendet wurden.
- Eine Racebedingung beim Herunterfahren der Erkennung wurde behoben.
Azure Speech SDK 0.5.0: Version Juli 2018
Neue Funktionen
- Unterstützung für die Android-Plattform (API 23: Android 6.0 Marshmallow oder höher). Sehen Sie sich den Android-Schnellstart an.
- Unterstützung von .NET Standard 2.0 unter Windows. Schauen Sie sich die Schnellstartanleitung .NET Core an.
- Experimental: Unterstützung von UWP auf Windows (Version 1709 oder höher).
- Sehen Sie sich den UWP-Schnellstart an.
- Beachten Sie, dass mit dem Speech SDK erstellte UWP-Apps die Anforderungen des Windows-App Certification Kit (WACK) noch nicht erfüllen.
- Unterstützung einer lang andauernden Erkennung mit automatischer erneuter Verbindungsherstellung.
Funktionale Änderungen
-
StartContinuousRecognitionAsync() unterstützt eine lang andauernde Erkennung.
- Das Erkennungsergebnis enthält mehr Felder. Versatz vom Audiobeginn und Dauer (beides in Takten) des erkannten Texts und weitere Werte, die den Erkennungsstatus darstellen, z.B.
InitialSilenceTimeout und InitialBabbleTimeout.
- Unterstützung für AuthorizationToken zum Erstellen von Factoryinstanzen.
Disruptive Änderungen
- Erkennungsereignisse: Der
NoMatch-Ereignistyp wurde mit dem Error-Ereignis zusammengeführt.
- SpeechOutputFormat in C# wurde in
OutputFormat umbenannt, um mit C++ konsistent zu bleiben.
- Der Rückgabetyp einiger Methoden der
AudioInputStream-Schnittstelle wurde geringfügig geändert:
- In Java gibt die methode
read jetzt long anstelle von int zurück.
- In C# gibt die
Read-Methode jetzt uint anstelle von int zurück.
- In C++ geben die
Read- und die GetFormat-Methoden jetzt size_t anstelle von int zurück.
- C++: Instanzen von Audioeingabestreams können jetzt nur als
shared_ptr übergeben werden.
Behebung von Programmfehlern
- Korrektur falscher Rückgabewerte im Ergebnis, wenn bei
RecognizeAsync() ein Timeout auftritt.
- Die Abhängigkeit von Media Foundation-Bibliotheken für Windows wurde entfernt. Das SDK verwendet jetzt die Core Audio-APIs.
- Korrektur der Dokumentation: Eine Seite Regionen wurde hinzugefügt, um die unterstützten Regionen zu beschreiben.
Bekanntes Problem
- Das Speech SDK für Android meldet die Ergebnisse der Sprachsynthese für Übersetzungen nicht. Dieses Problem wird im nächsten Release behoben.
Azure Speech SDK 0.4.0: Juni 2018-Release
Funktionale Änderungen
AudioInputStream
Eine Erkennung kann jetzt einen Stream als Audioquelle nutzen. Weitere Informationen finden Sie in der zugehörigen Schrittanleitung.
Detailliertes Ausgabeformat
Beim Erstellen von SpeechRecognizer können Sie das Ausgabeformat Detailed oder Simple anfordern.
DetailedSpeechRecognitionResult enthält eine Zuverlässigkeitsbewertung, erkannten Text, eine lexikalische Rohform, eine normalisierte Form und eine normalisierte Form mit maskierten anstößigen Ausdrücken.
Breaking Change
- Änderung von
SpeechRecognitionResult.Text in SpeechRecognitionResult.RecognizedText in C#.
Behebung von Programmfehlern
- Ein mögliches Rückrufproblem auf USP-Ebene beim Herunterfahren wurde behoben.
- Wenn eine Audioeingabedatei von einer Erkennung genutzt wurde, wurde das Dateihandle länger als erforderlich gespeichert.
- Mehrere Deadlocks zwischen dem Nachrichtensystem und der Erkennung wurden entfernt.
- Ein
NoMatch-Ergebnis wird ausgelöst, wenn bei der Antwort vom Dienst ein Timeout auftritt.
- Die Media Foundation-Bibliotheken für Windows werden verzögert geladen. Diese Bibliothek ist nur für die Mikrofoneingabe erforderlich.
- Die Uploadgeschwindigkeit für Audiodaten ist auf das Doppelte der ursprünglichen Audiogeschwindigkeit beschränkt.
- C# .NET-Assemblys haben unter Windows nun einen starken Namen.
- Korrektur der Dokumentation:
Region ist eine erforderliche Information zum Erstellen einer Erkennung.
Weitere Beispiele wurden hinzugefügt und werden regelmäßig aktualisiert. Die neuesten Beispiele finden Sie im Speech SDK-Beispiele GitHub Repository.
Azure Speech SDK 0.2.12733: Version vom 2018. Mai
Diese Version ist die erste öffentliche Vorschauversion des Azure Speech SDK.
Speech CLI 1.49.0: Version vom 2026.April
Aktualisiert für die Verwendung von Speech SDK 1.49.0
Neue Funktionen
- Unterstützung für die Gewichtung von Phrasenlisten hinzugefügt.
Behebung von Programmfehlern
Speech CLI 1.48.0: Version vom 2026.Februar
Aktualisiert für die Verwendung von Speech SDK 1.48.0
Neue Funktionen
Behebung von Programmfehlern
Speech CLI 1.47.0: Veröffentlichung im September 2025
Aktualisiert für die Verwendung von Speech SDK 1.47.0
Neue Funktionen
Behebung von Programmfehlern
Umwälzende Änderungen:
- Die Unterstützung für die Absichtserkennung wurde aufgrund der Abschaltung des Dienstes entfernt.
- Unterstützung für die Sprechererkennung aufgrund der Einstellung des Diensts entfernt.
Speech CLI 1.46.0: Version vom September 2025
Aktualisiert für die Verwendung von Speech SDK 1.46.0
Neue Funktionen
Behebung von Programmfehlern
Speech CLI 1.45.0: Veröffentlichung Juli 2025
Aktualisiert für die Verwendung des Speech-SDK 1.45.0
Neue Funktionen
Behebung von Programmfehlern
Speech CLI 1.44: Release von Mai 2025
Neue Funktionen
- Unterstützung für die Authentifizierung mit Microsoft Entra Tokenanmeldedaten hinzugefügt.
- Unterstützung für die FAST-Transkription-API hinzugefügt.
Behebung von Programmfehlern
- Problem mit nicht funktionierenden, durch Semikolons getrennten Eingabe-URLs und Eingabedatei-/URL-Listen aus einer Datei behoben.
Speech CLI 1.43: Veröffentlichung März 2025
Neue Funktionen
- SpX wurde aktualisiert, um .NET 8 zu verwenden.
Behebung von Programmfehlern
- Es wurde ein SPX-Docker-Container behoben, der in lokalen Batchszenarien nicht funktioniert.
Speech-CLI 1.40.0: Release von August 2024
Aktualisiert für die Verwendung des Speech-SDK 1.40.0
Neue Funktionen
Behebung von Programmfehlern
Speech-CLI 1.38.0: Release vom Juni 2024
Aktualisiert für die Verwendung des Speech-SDK 1.38.0
Neue Funktionen
Behebung von Programmfehlern
Speech CLI 1.37.0: Version vom April 2024
Aktualisiert für die Verwendung von Speech SDK 1.37.0
Neue Funktionen
Behebung von Programmfehlern
Speech CLI 1.36.0: Release von März 2024
Aktualisiert für die Verwendung von Speech SDK 1.36.0
Neue Funktionen
Behebung von Programmfehlern
Speech CLI 1.35.0: Version vom Februar 2024
Aktualisiert für die Verwendung von Speech SDK 1.35.0
Neue Funktionen
Behebung von Programmfehlern
- Aktualisieren der JMESPath-Abhängigkeit auf die neueste Version
Speech-CLI 1.34.0: Release vom November 2023
Aktualisiert für die Verwendung von Speech SDK 1.34.0
Speech CLI 1.33.0: Release vom Oktober 2023
Aktualisiert für die Verwendung des Speech-SDK 1.33.0
Speech-CLI 1.31.0: Release von August 2023
Aktualisiert für die Verwendung des Speech-SDK 1.31.0
Speech CLI 1.30.0: Release vom Juli 2023
Update für die Verwendung von Speech SDK 1.30.0
Speech CLI 1.29.0: Release vom Juni 2023
Update für die Verwendung des Speech SDK 1.29.0
Speech CLI 1.28.0: Release von Mai 2023
Update für die Verwendung des Speech SDK 1.28.0
Speech CLI 1.27.0: Version vom April 2023
Aktualisierungen
- Update für die Verwendung des Speech SDK 1.27.0
- Aktualisieren Sie den Standardendpunkt, um v3.1-REST-APIs für Custom Speech Recognition und Batch Speech Recognition zu verwenden.
Behebung von Programmfehlern
- Korrekturen im Zusammenhang mit der Analyse/Konfiguration von Abfrageparametern.
Speech CLI 1.26.0: Release von März 2023
Für die Verwendung des Speech SDK 1.26.0 aktualisiert.
Speech CLI 1.25.0: Release von Januar 2023
Für die Verwendung des Speech SDK 1.25.0 aktualisiert.
Speech CLI 1.24.0: Release vom Oktober 2022
Verwendet Speech SDK 1.24.0.
Neue Funktionen
- Erweiterte „SPX-Prüfung“ zur Unterstützung von JMESPath-Abfragen für alle SPX-Ereignisse
Behebung von Programmfehlern
- Verschiedene Verbesserungen der Stabilität gegenüber Auswertungen von JMESPath-Abfragen
- Behebung von Kürzungen bei Schreibvorgängen in Dateien, die auf Computern mit eingeschränkten Ressourcen auftreten können
Speech CLI 1.23.0: Release vom Juli 2022
Verwendet Speech SDK 1.23.0.
Neue Funktionen
- Bessere Aufteilung großer Ergebnisse (max. 37 Zeichen, 3 Zeilen) für Untertitel (
--output vtt und --output srt)
- Dokumentierte
spx synthesize--format-Optionen (siehe spx help synthesize format)
- Dokumentierte die meisten
spx csr-Befehle/Optionen (siehe spx help csr)
- Hinzugefügter Befehl
spx csr model copy (siehe spx help csr model copy)
- Hinzugefügte Option
--check result mithilfe von JMES-Abfragen (siehe spx help check result)
- Verbesserte Fehlermeldungen beim Angeben ungültiger Befehlsoptionen
- Von .NET Core 3.1 in .NET 6.0 verschoben. Zum Ausführen der Speech CLI müssen Sie die .NET 6.0 Runtime (oder höher) installieren.
Behebung von Programmfehlern
- Alle URLs zum Entfernen der Sprache wurden aktualisiert (z. B. „en-US“).
- Behobene Versionsinformationen, die in allen Fällen ordnungsgemäß gemeldet werden (bisher waren sie manchmal leer)
Speech CLI 1.22.0: Release vom Juni 2022
Verwendet Speech SDK 1.22.0.
Neue Funktionen
- Befehl "
spx init" wurde hinzugefügt, um Benutzer durch die Erstellung des sprachressourcenschlüssels zu leiten, ohne zum Azure-Webportal zu wechseln.
- Sprach-Docker-Container verfügen jetzt über Azure CLI, sodass der Befehl
spx init sofort funktioniert.
- Zeitstempel als Ereignisausgabeoption hinzugefügt, um SPX beim Berechnen von Latenzen nützlicher zu machen.
Speech CLI 1.21.0: Version vom April 2022
Verwendet Speech SDK 1.21.0.
Neue Funktionen
- Generierung von WEBVTT-Untertiteln
- Unterstützung für
--output vtt zu spx translate hinzugefügt
- Unterstützt
--output vtt file FILENAME, um den standardmäßigen VTT-DATEINAMEN außer Kraft zu setzen
- Unterstützt
--output vtt file - für das Schreiben in die Standardausgabe
- Einzelne VTT-Dateien werden für jede Zielsprache (z. B.
--target en;de;fr) erstellt.
- Generierung von SRT-Untertiteln
- Hinzugefügt:
--output srt-Unterstützung für spx recognize, spx intent und spx translate
- Unterstützt
--output srt file FILENAME, um den standardmäßigen SRT-DATEINAMEN außer Kraft zu setzen
- Unterstützt
--output srt file - für das Schreiben in die Standardausgabe
- Für
spx translate werden einzelne SRT-Dateien für jede Zielsprache (z. B. --target en;de;fr) erstellt.
Behebung von Programmfehlern
- Korrigiert: WEBVTT-Zeitbereichsausgabe zur ordnungsgemäßen Verwendung des
hh:mm:ss.fff-Formats
Speech CLI 1.20.0: Release von Januar 2022
Neue Funktionen
- Sprechererkennung
-
spx profile enroll und spx speaker [identify/verify] unterstützen jetzt Mikrofoneingaben.
- Absichtserkennung (
spx intent)
--keyword FILE.table
-
--pattern und --patterns
--output all/each intentid
--output all/each entity json
--output all/each ENTITY entity
-
--once, --once+, --continuous („continuous“ ist jetzt Standard)
--output all/each connection EVENT
-
--output all/each connection message (Beispiel: text, path)
- Überprüfung/Erstellung der Ausgabeerwartung der CLI-Konsole:
-
Unterstützung von
--expect PATTERN und --not expect PATTERN für alle Befehle
-
--auto expect zur Unterstützung der Erstellung erwarteter Muster
- Überprüfung/Erstellung der Ausgabeerwartung der SDK-Protokollierung:
-
Unterstützung von
--log expect PATTERN und --not log expect PATTERN für alle Befehle
-
Unterstützung von
--log auto expect [FILTER] für alle Befehle
-
Unterstützung von
--log FILE für spx profile und spx speaker
- Audiodateieingabe
-
Unterstützung von
--format ANY für alle Befehle
-
Unterstützung von
--file - (Lesen von der Standardeingabe, Aktivieren von Pipeszenarien)
- Audiodateiausgabe
-
Unterstützung von
--audio output - Schreiben in die Standardausgabe, Aktivieren von Pipeszenarien
- Ausgabedateien
-
--output all/each file - Schreiben in die Standardausgabe
-
--output batch file - Schreiben in die Standardausgabe
-
--output vtt file - Schreiben in die Standardausgabe
-
--output json file - Schreiben in die Standardausgabe für spx csr- und spx batch-Befehle
- Ausgabeeigenschaften
-
--output […] result XXX property (PropertyId oder string)
-
--output […] connection message received XXX property (PropertyId oder string)
-
--output […] recognizer XXX property (PropertyId oder string)
- Azure WebJob-Integration
-
spx webjob folgt nun dem Unterbefehlsmuster
- Die WebJob-Hilfe wurde aktualisiert, um das Unterbefehlsmuster widerzuspiegeln (siehe
spx help webjob).
Behebung von Programmfehlern
- Fehler behoben, wenn
--output vtt FILE und --output batch FILE gleichzeitig verwendet werden.
-
spx [...] --zip ZIPFILENAME enthält jetzt alle Binärdateien, die für alle Szenarien erforderlich sind (sofern vorhanden).
-
spx profile- und spx speaker-Befehle geben jetzt ausführliche Fehlerinformationen zum Abbruch zurück.
Release von Mai 2021
Neue Funktionen
- Unterstützung für Profil, Sprecher-ID und Sprecherüberprüfung hinzugefügt. – Probieren Sie
spx profile und spx speaker über die Befehlszeile.
- Wir haben außerdem Dialogunterstützung hinzugefügt. – Probieren Sie
spx dialog über die Befehlszeile.
- Verbesserte
spx-Hilfe. Geben Sie uns Feedback dazu, wie dies für Sie funktioniert, indem Sie ein GitHub-Issue eröffnen.
- Wir haben die Größe der .NET-Toolinstallation verringert.
Abgekürzte Tests aufgrund von COVID-19
Da die andauernde Pandemie weiterhin erfordert, dass unsere Ingenieure von zu Hause aus arbeiten, sind manuelle Überprüfungsskripts im Vergleich zu vor der Pandemie reduziert, um auf weniger Geräten mit weniger Konfigurationen zu testen, und die Wahrscheinlichkeit, dass umgebungsspezifische Fehler unbemerkt bleiben, kann erhöht sein. Dennoch werden weiterhin viele verschiedene Automatisierungsansätze für die Überprüfung verwendet. Im unwahrscheinlichen Fall, dass wir etwas verpasst haben, lassen Sie es uns auf GitHub wissen.
Bleiben Sie gesund!
Release von März 2021
Neue Funktionen
- Der Befehl
spx intent für die Absichtserkennung wurde hinzugefügt. Dieser ersetzt spx recognize intent.
- Für den recognize- und intent-Befehl können jetzt Azure-Funktionen verwendet werden, um mithilfe von
spx recognize --wer url <URL> die Wort-Fehler-Rate zu berechnen.
- Der recognize-Befehl kann jetzt mit
spx recognize --output vtt file <FILENAME> Ergebnisse als VTT-Dateien ausgeben.
- Vertrauliche wichtige Informationen werden jetzt in der Debugausgabe/ausführlichen Ausgabe unkenntlich gemacht.
- Für das Inhaltsfeld bei der Erstellung von Batch-Transkriptionen wurden URL-Überprüfung und eine Fehlermeldung hinzugefügt.
Abgekürzte Tests aufgrund von COVID-19
Da die andauernde Pandemie weiterhin erfordert, dass unsere Ingenieure von zu Hause aus arbeiten, sind manuelle Überprüfungsskripts im Vergleich zu vor der Pandemie reduziert, um auf weniger Geräten mit weniger Konfigurationen zu testen, und die Wahrscheinlichkeit, dass umgebungsspezifische Fehler unbemerkt bleiben, kann erhöht sein. Dennoch werden weiterhin viele verschiedene Automatisierungsansätze für die Überprüfung verwendet. Im unwahrscheinlichen Fall, dass wir etwas verpasst haben, lassen Sie es uns auf GitHub wissen.
Bleiben Sie gesund!
Release von Januar 2021
Neue Funktionen
- Speech CLI ist jetzt als NuGet-Paket verfügbar und kann über .NET CLI als .NET globalen Tool installiert werden, das Sie über die Shell/Befehlszeile aufrufen können.
- Das Repository custom speech DevOps Template wurde aktualisiert, um die Sprach-CLI für seine benutzerdefinierten Sprachworkflows zu verwenden.
Abgekürzte Tests aufgrund von COVID-19
Da die andauernde Pandemie weiterhin erfordert, dass unsere Ingenieure von zu Hause aus arbeiten, sind manuelle Überprüfungsskripts im Vergleich zu vor der Pandemie reduziert, um auf weniger Geräten mit weniger Konfigurationen zu testen, und die Wahrscheinlichkeit, dass umgebungsspezifische Fehler unbemerkt bleiben, kann erhöht sein. Dennoch werden weiterhin viele verschiedene Automatisierungsansätze für die Überprüfung verwendet. Im unwahrscheinlichen Fall, dass wir etwas verpasst haben, lassen Sie es uns auf GitHub wissen.
Bleiben Sie gesund!
Release vom Oktober 2020
SPX ist die Befehlszeilenschnittstelle, um den Speech-Dienst ohne das Schreiben von Code zu verwenden.
Laden Sie die neueste Version hier herunter.
Neue Funktionen
-
spx csr dataset upload --kind audio|language|acoustic – Erstellen Sie Datasets aus lokalen Daten, nicht nur aus URLs.
-
spx csr evaluation create|status|list|update|delete – Vergleichen Sie neue Modelle mit grundlegenden Tatsachen/anderen Modellen.
-
spx * list – Unterstützt die nicht ausgelagerte Umgebung (erfordert kein --top X --skip X).
-
spx * --http header A=B – Unterstützen Sie benutzerdefinierte Header (zur benutzerdefinierten Authentifizierung zu Office hinzugefügt).
-
spx help – Verbesserter Text und farbcodierter Graviszeichentext (blau).
Release von Juni 2020
- Hinzugefügte Suchfeatures für die Hilfe in der Befehlszeilenschnittstelle:
spx help find --text TEXT
spx help find --topic NAME
- Für die neu bereitgestellten APIs der Version 3.0 für Batch und Custom Speech aktualisiert:
spx help batch examples
spx help csr examples
Abgekürzte Tests aufgrund von COVID-19
Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Im unwahrscheinlichen Fall, dass wir etwas verpasst haben, lassen Sie es uns auf GitHub wissen.
Bleiben Sie gesund!
Speech CLI (auch als SPX bezeichnet): Release von Mai 2020
SPX ist ein neues Befehlszeilentool, mit dem Sie Aktionen wie Erkennung, Synthese, Übersetzung, Batch-Transkription und benutzerdefinierte Sprachverwaltung über die Befehlszeile ausführen können. Verwenden Sie es zum Testen des Speech-Diensts oder zum Erstellen von Skripts für die auszuführenden Aufgaben des Speech-Diensts. Das Tool steht hier zum Download zur Verfügung. Dort finden Sie auch die Dokumentation.
Version vom März 2026
Öffentliche Vorschau von MAI-Voice-1
MAI-Voice-1 ist ein neues neuronales Text-zu-Sprache Modell, das auf Microsofts Sprachbasis-Modellen basiert. Es erzeugt ausdrucksstarke, natürliche Sprache mit konsistenter Stimmqualität und unterstützt die Kontrolle von Emotionen und Stil über SSML mstts:express-as. MAI-Voice-1 ist in der Region Ost-USA verfügbar. Weitere Informationen finden Sie unter MAI-Voice-1 in Azure Speech.
| Voice-ID |
Geschlecht |
Empfohlener Anwendungsfall |
en-us-Jasper:MAI-Voice-1 |
Male |
Allgemeine Unterhaltung, Vertrieb, Emotionale Stile |
en-us-June:MAI-Voice-1 |
Female |
Allgemeine Unterhaltung, Kundendienst, Professional, Emotionale Stile |
en-us-Grant:MAI-Voice-1 |
Male |
Allgemeine Unterhaltung, Professionell, Emotionale Stile |
en-us-Iris:MAI-Voice-1 |
Female |
Allgemeine Unterhaltung, Kommentare, emotionale Stile |
en-us-Reed:MAI-Voice-1 |
Male |
Allgemeine Unterhaltung |
en-us-Joy:MAI-Voice-1 |
Female |
Allgemeine Unterhaltung |
Neural HD 2.5-Update auf „Neueste Produktionsversion“
Neural HD 2.5 wird auf Neueste Produktionsversion heraufgestuft und bietet Verbesserungen hinsichtlich natürlicher Prosodie, Ausdruckskraft und Ausgabekonsistenz, insbesondere bei langen und komplexen Inhalten. Dieses Update erweitert die Unterstützung für ausdrucksstarke Sprachstile und paralinguistische Elemente, um menschlichere und emotional reichhaltigere Sprache in Erzählungen, Konversations-KI- und virtuellen Assistentenszenarien zu ermöglichen.
Zu den wichtigsten Verbesserungen zählen:
- Verbessertes Ausdrucksvermögen und Stabilität über verschiedene Bereiche hinweg
- Stile und paralinguistische Tags werden durch SSML und Klartext-Eingabe unterstützt
- Verbesserte Markierungen und Metadaten zur Vereinfachung der Sprachauswertung und -auswahl
Hinweis
Stile und paralinguistische Merkmale sind für alle HDLatestNeural-Stimmen verfügbar, ausgenommen Stimmen, deren primäres Gebietsschema en‑IN ist.
Neural HD Omni-Qualität und Aktualisierung der Ausdruckskraft
Neural HD Omni-Stimmen erhalten ein Qualitätsupgrade mit zusätzlicher Unterstützung für ausdrucksstarke Stile und paralinguistische Tags im Omni-Stimmensatz. Diese Verbesserung verbessert die emotionale Kontrolle und die unterhaltungsliche Natürlichkeit und bewahrt dabei den einzigartigen Charakter jeder Stimme, wodurch sie gut für Kundenservice, Barrierefreiheit und kreative Szenarien geeignet ist.
Hinweis
Stile und paralinguistische Features sind für alle HDOmniLatestNeural Stimmen verfügbar.
Neural HD Flash – HD-Stimmen mit geringer Latenz
Neural HD Flash führt eine Variante mit geringer Latenz von Neural HD ein, die für reaktionskritische Szenarien wie Sprachassistenten und Anrufcenterautomatisierung optimiert ist. HD Flash gleicht schnelle Synthese mit klarer Aussprache und natürlicher Prosodie aus, sodass Entwickler je nach Anwendungsanforderungen zwischen Ausdrucksfähigkeit und Latenz wählen können.
Neural HD Regionale Verfügbarkeitserweiterung
Ab März 2026 werden neurale HD-Stimmen über ihre ursprünglichen Regionen hinaus erweitert und stehen nun zur Verfügung in:
- Westliches USA 2
- Ost-USA 2
- Zentralindien
- Canada Central
- Frankreich, Mitte
- Schweden, Mitte
Neural HD Multi Talker-Stimmen-Erweiterung
Neural HD Multi-Talker-Stimmen unterstützen jetzt Multi-Speaker-Synthese über zusätzliche Eingabesprachen hinweg, die über en-US hinausgehen, um fr-FR, es-ES, de-DE, it-IT, pt-BR, ko-KR, ja-JP und zh-CN einzuschließen.
Mehrere neue Modelle: en‑MultiTalker‑1:DragonHDLatestNeural, fr-Multitalker:DragonHDLatestNeural, zh-Multitalker:DragonHDLatestNeural führen ein erweitertes Set von Lautsprechern ein und ermöglichen eine flexiblere Dialogerstellung für Podcasts, Geschichtenerzählen und rollenbasierte Erzählungen.
Sprecher in en‑MultiTalker‑1:DragonHDLatestNeural
|
Gender |
Sprechernamen |
| Female |
Ada, Ava, Emma, Jane |
| Male |
Andrew, Brian, Davis, Steffan |
Sprecher in fr-Multitalker:DragonHDLatestNeural
|
Gender |
Sprechernamen |
| Female |
Vivienne |
| Male |
Remy |
Sprecher in zh-Multitalker:DragonHDLatestNeural
|
Gender |
Sprechernamen |
| Female |
Xiaoxiao |
| Male |
Yunxiao |
Neural HD-Preisupdate
Ab März 2026 sinken die Preise für Neural HD. Details finden Sie unter "Preise".
Release von Dezember 2025
Öffentliche Vorschau des neuen Stimmentyps Dragon HD Omni
Dragon HD Omni vereint eine breite Palette von vorgefertigten Stimmen in einem fortschrittlichen Sprachmodell, verbessert kontextbezogene Anpassung, Prosodie, Ausdrucksfähigkeit und bewahrt den einzigartigen Charakter jeder Stimme. Sie liefert präzisere, flexiblere und lebensnahe Spracherkennung für Szenarien wie Kundendienst, Barrierefreiheit und kreative Produktion.
|
Locale (BCP-47) |
Name der Stimme |
en-US |
en-US-Ava-DragonHDOmniLatestNeural (weiblich) |
en-US |
en-US-Andrew-DragonHDOmniLatestNeural (männlich) |
en-US |
en-US-Dana-DragonHDOmniLatestNeural (weiblich) |
en-US |
en-US-Caleb-DragonHDOmniLatestNeural (männlich) |
en-US |
en-US-Phoebe-DragonHDOmniLatestNeural (weiblich) |
en-US |
en-US-Lewis-DragonHDOmniLatestNeural (männlich) |
zh-CN |
zh-CN-Xiaoyue-DragonHDOmniLatestNeural (weiblich) |
zh-CN |
zh-CN-Yunqi-DragonHDOmniLatestNeural (weiblich) |
Sie können dieses Sprachnamenformat auch verwenden, indem Sie das Suffix :DragonHDOmniLatestNeural hinzufügen, um die Omni-Version der angegebenen Stimme über einen direkten SSML-Anruf auszuprobieren.
Beispiel:
|
Vorherige neurale Stimme |
Omni-Version Sprachname |
de-DE-ConradNeural |
de-DE-Conrad:DragonHDOmniLatestNeural |
Neuronale Sprachsynthese 4.1.0
- Behobene Sicherheitsrisiken
Version vom November 2025
Öffentliche Vorschau neuer HD-Stimmen
Azure HD-Sprachstimmen (High Definition) sind in der öffentlichen Vorschau verfügbar. Die HD-Stimmen können den Inhalt verstehen, automatisch Emotionen im Eingabetext erkennen und die Sprechweise in Echtzeit an die Stimmung anpassen. Weitere Informationen finden Sie unter Was sind Azure Speech hochauflösende (HD)-Stimmen?.
|
Gebietsschema (BCP-47) |
Name der Stimme |
en-GB |
en-GB-Ada:DragonHDLatestNeural (weiblich) |
en-GB |
en-GB-Ollie:DragonHDLatestNeural (männlich) |
es-MX |
es-MX-Tristan:DragonHDLatestNeural (männlich) |
es-MX |
es-MX-Ximena:DragonHDLatestNeural (weiblich) |
fr-CA |
fr-CA-Sylvie:DragonHDLatestNeural (weiblich) |
fr-CA |
fr-CA-Thierry:DragonHDLatestNeural (männlich) |
ko-KR |
ko-KR-Hyunsu:DragonHDLatestNeural (männlich) |
ko-KR |
ko-KR-SunHi:DragonHDLatestNeural (weiblich) |
33 vorherige HD-Stimmen wurden auf v2.0 aktualisiert, mit verbesserter Qualität und Fehler behoben
|
Gebietsschema (BCP-47) |
Name der Stimme |
de-DE |
de-DE-Florian:DragonHDLatestNeural (männlich) |
de-DE |
de-DE-Seraphina:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Adam:DragonHDLatestNeural (männlich) |
en-US |
en-US-Alloy:DragonHDLatestNeural (männlich) |
en-US |
en-US-Andrew:DragonHDLatestNeural (männlich) |
en-US |
en-US-Andrew2:DragonHDLatestNeural (männlich) |
en-US |
en-US-Andrew3:DragonHDLatestNeural (männlich) |
en-US |
en-US-Aria:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Ava:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Ava3:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Bree:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Brian:DragonHDLatestNeural (männlich) |
en-US |
en-US-Davis:DragonHDLatestNeural (männlich) |
en-US |
en-US-Emma:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Emma2:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Jane:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Jenny:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Nova:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Phoebe:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Serena:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Steffan:DragonHDLatestNeural (männlich) |
es-ES |
es-ES-Tristan:DragonHDLatestNeural (männlich) |
es-ES |
es-ES-Ximena:DragonHDLatestNeural (weiblich) |
fr-FR |
fr-FR-Remy:DragonHDLatestNeural (männlich) |
fr-FR |
fr-FR-Vivienne:DragonHDLatestNeural (weiblich) |
it-IT |
it-IT-Alessio:DragonHDLatestNeural (männlich) |
it-IT |
it-IT-Isabella:DragonHDLatestNeural (weiblich) |
ja-JP |
ja-JP-Masaru:DragonHDLatestNeural (männlich) |
ja-JP |
ja-JP-Nanami:DragonHDLatestNeural (weiblich) |
pt-BR |
pt-BR-Macerio:DragonHDLatestNeural (männlich) |
pt-BR |
pt-BR-Thalita:DragonHDLatestNeural (weiblich) |
zh-CN |
zh-CN-Xiaochen:DragonHDLatestNeural (weiblich) |
zh-CN |
zh-CN-Yunfan:DragonHDLatestNeural (männlich) |
Hinweis
Wenn nach dieser Aktualisierung beim Aufrufen von en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural & en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeural, ein Problem auftritt, aktualisieren Sie den Namen Ihrer Stimme zu en-US-MultiTalker-Ava-Andrew:DragonHDv1.2Neural & en-US-MultiTalker-Ava-Steffan:DragonHDv1.2Neural
Neurales Text-zu-Sprache 4.0.0-Vorschau
- Betriebssystem auf Azure Linux 3 aktualisiert
- Behobene Sicherheitsrisiken
Version von Oktober 2025
Neuronale Sprachsynthese 3.14.0
- Unterstützung für neue neurale Stimmen hinzugefügt:
nl-nl-maartenneural, , nl-be-arnaudneural, nl-be-denaneuralde-de-elkeneural
- Behobene Sicherheitsrisiken
Version vom August 2025
Öffentliche Vorschau neuer HD-Stimmen
|
Gebietsschema (BCP-47) |
Name der Stimme |
it-IT |
it-IT-Alessio:DragonHDLatestNeural (männlich) |
it-IT |
it-IT-Isabella:DragonHDLatestNeural (weiblich) |
pt-BR |
pt-BR-Macerio:DragonHDLatestNeural (männlich) |
pt-BR |
pt-BR-Thalita:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Jane:DragonHDLatestNeural (weiblich) |
Release von Juli 2025
Public Preview Personal Voice wurde auf Version 2.1 aktualisiert
Unser neues "DragonV2.1"-Modell bietet Verbesserungen an der Natürlichkeit der Spracherkennung und bietet realistischere und stabilere Prosodie bei gleichzeitiger Beibehaltung einer besseren Aussprachegenauigkeit.
Version vom Juni 2025
VoiceLive-API-Update
- Unterstützen Sie weitere GenAI-Modelle: GPT-4.1, GPT-4.1 Mini, Phi-4 Mini und Phi-4 Multimodale Modelle werden jetzt nativ unterstützt.
- Unterstützen Sie weitere Anpassungsfunktionen
- Azure Semantic VAD wird erweitert, um die Unterstützung für GPT-Realtime und GPT-4o-Mini-Realtime zu bieten.
- Verfügbarkeit in mehr Regionen
Öffentliche Vorschau der Sprachkonvertierungsfunktion für ausgewählte en-US Stimmen
Die folgenden Stimmen sind jetzt für das Feature verfügbar:
|
Gebietsschema (BCP-47) |
Name der Stimme |
en-US |
en-US-Adam:MultilingualNeural (männlich) |
en-US |
en-US-Amanda:MultilingualNeural (weiblich) |
en-US |
en-US-Andrew:MultilingualNeural (männlich) |
en-US |
en-US-Ava:MultilingualNeural (weiblich) |
en-US |
en-US-Brandon:MultilingualNeural (männlich) |
en-US |
en-US-Brian:MultilingualNeural (männlich) |
en-US |
en-US-Christopher:MultilingualNeural (männlich) |
en-US |
en-US-Cora:MultilingualNeural (weiblich) |
en-US |
en-US-Davis:MultilingualNeural (männlich) |
en-US |
en-US-Derek:MultilingualNeural (männlich) |
en-US |
en-US-Dustin:MultilingualNeural (männlich) |
en-US |
en-US-EchoTurbo:MultilingualNeural (männlich) |
en-US |
en-US-Emma:MultilingualNeural (weiblich) |
en-US |
en-US-Evelyn:MultilingualNeural (weiblich) |
en-US |
en-US-FableTurbo:MultilingualNeural (Neutral) |
en-US |
en-US-Jenny:MultilingualNeural (weiblich) |
en-US |
en-US-Lewis:MultilingualNeural (männlich) |
en-US |
en-US-Lola:MultilingualNeural (weiblich) |
en-US |
en-US-Nancy:MultilingualNeural (weiblich) |
en-US |
en-US-NovaTurbo:MultilingualNeural (weiblich) |
en-US |
en-US-OnyxTurbo:MultilingualNeural (männlich) |
en-US |
en-US-Phoebe:MultilingualNeural (weiblich) |
en-US |
en-US-Ryan:MultilingualNeural (männlich) |
en-US |
en-US-Samuel:MultilingualNeural (männlich) |
en-US |
en-US-Serena:MultilingualNeural (weiblich) |
en-US |
en-US-ShimmerTurbo:MultilingualNeural (weiblich) |
en-US |
en-US-Steffan:MultilingualNeural (männlich) |
Version vom Mai 2025
Öffentliche Vorschau für VoiceLive-API
Azure Speech in Foundry Tools Feature bietet eine einzelne, einheitliche API zum Erstellen von Sprachassistenten. Diese neue API, die ab heute in der öffentlichen Vorschau verfügbar ist, unterstützt low-latey, skalierbare Sprach-zu-Sprache-Interaktionen mithilfe von Foundation-Modellen Ihrer Wahl.
Release von April 2025
Öffentliche Vorschau neuer HD-Stimmen
Die folgenden HD-Stimmen sind jetzt für die Vorschau verfügbar:
|
Gebietsschema (BCP-47) |
Name der Stimme |
en-US |
en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeural (Neutral) |
en-US |
en-US-Bree:DragonHDLatestNeural (weiblich) |
en-US |
en-US-AshTurboMultilingualNeural (männlich) |
Release von März 2025
Allgemeine Verfügbarkeit einiger HD-Stimmen
Die folgenden HD-Stimmen sind jetzt allgemein verfügbar:
|
Gebietsschema (BCP-47) |
Name der Stimme |
de-DE |
de-DE-Florian:DragonHDLatestNeural (männlich) |
de-DE |
de-DE-Seraphina:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Adam:DragonHDLatestNeural (männlich) |
en-US |
en-US-Andrew:DragonHDLatestNeural (männlich) |
en-US |
en-US-Andrew2:DragonHDLatestNeural (männlich) |
en-US |
en-US-Ava:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Brian:DragonHDLatestNeural (männlich) |
en-US |
en-US-Davis:DragonHDLatestNeural (männlich) |
en-US |
en-US-Emma:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Emma2:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Steffan:DragonHDLatestNeural (männlich) |
es-ES |
es-ES-Tristan:DragonHDLatestNeural (männlich) |
es-ES |
es-ES-Ximena:DragonHDLatestNeural (weiblich) |
fr-FR |
fr-FR-Remy:DragonHDLatestNeural (männlich) |
fr-FR |
fr-FR-Vivienne:DragonHDLatestNeural (weiblich) |
ja-JP |
ja-JP-Masaru:DragonHDLatestNeural (männlich) |
ja-JP |
ja-JP-Nanami:DragonHDLatestNeural (weiblich) |
zh-CN |
zh-CN-Xiaochen:DragonHDLatestNeural (weiblich) |
zh-CN |
zh-CN-Yunfan:DragonHDLatestNeural (männlich) |
Multi-Talker-Stimmen für Podcastszenarien (Vorschau)
|
Gebietsschema (BCP-47) |
Name der Stimme |
en-US |
en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural (Neutral) |
Neue HD-Stimmen (Vorschau)
|
Gebietsschema (BCP-47) |
Name der Stimme |
en-US |
en-US-Ava3:DragonHDLatestNeural (Weiblich) - optimiert für Podcast |
en-US |
en-US-Andrew3:DragonHDLatestNeural (Männlich) - optimiert für Podcasts |
Dragon HD Flash-Modelle (Vorschau)
|
Gebietsschema (BCP-47) |
Name der Stimme |
zh-CN |
zh-CN-Xiaochen:DragonHDFlashLatestNeural (weiblich) |
zh-CN |
zh-CN-Xiaoxiao:DragonHDFlashLatestNeural (weiblich) |
zh-CN |
zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural (Weiblich, optimiert für freies Sprechen) |
zh-CN |
zh-CN-Yunxiao:DragonHDFlashLatestNeural (männlich) |
zh-CN |
zh-CN-Yunyi:DragonHDFlashLatestNeural (männlich) |
Version vom Februar 2025
Aktualisierte HD-Stimmen (Vorschau)
Aktualisiert 13 aktuelle HD-Stimmen, um mehrsprachige Stimmen zu unterstützen.
|
Gebietsschema (BCP-47) |
Name der Stimme |
de-DE |
de-DE-Seraphina:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Brian:DragonHDLatestNeural (männlich) |
en-US |
en-US-Davis:DragonHDLatestNeural (männlich) |
en-US |
en-US-Ava:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Andrew:DragonHDLatestNeural (männlich) |
en-US |
en-US-Andrew2:DragonHDLatestNeural (männlich) – optimiert für freies Sprechen |
en-US |
en-US-Emma:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Emma2:DragonHDLatestNeural (weiblich) – optimiert für freies Sprechen |
en-US |
en-US-Steffan:DragonHDLatestNeural (männlich) |
en-US |
en-US-Aria:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Jenny:DragonHDLatestNeural (weiblich) |
ja-JP |
ja-JP-Masaru:DragonHDLatestNeural (männlich) |
zh-CN |
zh-CN-Xiaochen:DragonHDLatestNeural (weiblich) |
Neue HD-Stimmen (Vorschau)
14 weitere HD-Stimmen hinzugefügt
|
Gebietsschema (BCP-47) |
Name der Stimme |
de-DE |
de-DE-Florian:DragonHDLatestNeural (männlich) |
en-US |
en-US-Adam:DragonHDLatestNeural (männlich) |
en-US |
en-US-Brian:DragonHDLatestNeural (männlich) |
en-US |
en-US-Davis:DragonHDLatestNeural (männlich) |
en-US |
en-US-Phoebe:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Serena:DragonHDLatestNeural (weiblich) |
en-US |
en-US-Alloy:DragonHDLatestNeural (männlich) |
en-US |
en-US-Nova:DragonHDLatestNeural (weiblich) |
es-ES |
es-ES-Ximena:DragonHDLatestNeural (weiblich) |
es-ES |
es-ES-Tristan:DragonHDLatestNeural (männlich) |
fr-FR |
fr-FR-Vivienne:DragonHDLatestNeural (weiblich) |
fr-FR |
fr-FR-Remy:DragonHDLatestNeural (männlich) |
ja-JP |
ja-JP-Nanami:DragonHDLatestNeural (weiblich) |
zh-CN |
zh-CN-Yunfan:DragonHDLatestNeural (männlich) |
Einführung neuer mehrsprachiger Stimmen (Vorschau)
Hinzugefügt wurden 4 mehrsprachige Stimmen in en-US mit Unterstützung für Emotionen.
|
Gebietsschema (BCP-47) |
Name der Stimme |
Styles |
en-US |
DerekMultilingualNeural (männlich) |
empathetic
excited
relieved
shy
|
en-US |
PhoebeMultilingualNeural (weiblich) |
empathetic, sadserious |
en-US |
DavisMultilingualNeural (männlich) |
empathetic, funnyrelieved |
en-US |
NancyMultilingualNeural (weiblich) |
excited, , friendlyfunny, , relievedshy |
Azure OpenAI in Microsoft Foundry Models Turbo-Stimmen (Allgemein verfügbar)
Diese 6 Turbostimmen sind jetzt allgemein verfügbar.
|
Gebietsschema (BCP-47) |
Name der Stimme |
en-US |
en-US-AlloyTurboMultilingualNeural (männlich) |
en-US |
en-US-EchoTurboMultilingualNeural (männlich) |
en-US |
en-US-FableTurboMultilingualNeural (Neutral) |
en-US |
en-US-NovaTurboMultilingualNeural (weiblich) |
en-US |
en-US-OnyxTurboMultilingualNeural (männlich) |
en-US |
en-US-ShimmerTurboMultilingualNeural (weiblich) |
Verbesserungen bei der Sprachqualität (allgemein verfügbar)
Verbesserte Qualität von 16 Stimmen.
|
Gebietsschema (BCP-47) |
Name der Stimme |
ar-EG |
ar-EG-ShakirNeural (männlich) |
ca-ES |
ca-ES-EnricNeural (männlich) |
en-IE |
en-IE-EmilyNeural (weiblich) |
fi-FI |
fi-FI-HarriNeural (männlich) |
fi-FI |
fi-FI-SelmaNeural (weiblich) |
fr-CH |
fr-CH-FabriceNeural (weiblich) |
hr-HR |
hr-HR-GabrijelaNeural (weiblich) |
nl-NL |
nl-NL-MaartenNeural (männlich) |
pt-PT |
pt-PT-RaquelNeural (weiblich) |
ro-RO |
ro-RO-AlinaNeural (weiblich) |
sv-SE |
sv-SE-MattiasNeural (männlich) |
sv-SE |
sv-SE-SofieNeural (weiblich) |
vi-VN |
vi-VN-HoaiMyNeural (weiblich) |
vi-VN |
vi-VN-NamMinhNeural (männlich) |
zh-HK |
zh-HK-HiuMaanNeural (weiblich) |
zh-HK |
zh-HK-WanLungNeural (männlich) |
Eingebettete Jenny mit Mehrformatvorlagen (allgemein verfügbar)
Stilunterstützung für en-US-JennyNeural wurde in eingebettete Sprache hinzugefügt. Die gleichen Stile wie in der Cloud werden unterstützt. Die folgenden Stile werden unterstützt: angry, assistant, chat, cheerful, customerservice, excited, friendly, hopeful, newscast, sad, shouting, terrified, unfriendly und whispering.
Release von Januar 2025
Training benutzerdefinierter Avatare
Sie können jetzt benutzerdefinierte Avatare in Speech Studio trainieren. Zuvor mussten Sie auf Microsoft warten, um Ihren benutzerdefinierten Avatar zu trainieren.
Ausführlichere Informationen zum Erstellen eines benutzerdefinierten Avatars finden Sie unter Erstellen eines benutzerdefinierten Sprachsynthese-Avatars.
Release von Oktober 2024
Standardstimme
Die 4 Turbo-Versionen der Azure OpenAI-Stimmen wurden in der öffentlichen Vorschau eingeführt: en-US-EchoTurboMultilingualNeural, en-US-FableTurboMultilingualNeural, en-US-OnyxTurboMultilingualNeural und en-US-ShimmerTurboMultilingualNeural. Turbo-Version von Azure OpenAI Stimmen besitzt eine ähnliche Sprachpersona wie Azure OpenAI Stimmen, unterstützt aber zusätzliche Funktionen. Turbo-Stimmen unterstützen den vollständigen Satz von SSML-Elementen und weitere Funktionen wie Wortgrenzen, genau wie andere Azure-Sprachstimmen. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Diese Stimmen sind jetzt allgemein verfügbar:
|
Gebietsschema (BCP-47) |
Name der Stimme |
de-DE |
SeraphinaMultilingualNeural |
de-DE |
FlorianMultilingualNeural |
en-GB |
AdaMultilingualNeural |
en-GB |
OllieMultilingualNeural |
en-US |
LunaNeural |
en-US |
KaiNeural |
en-US |
CoraMultilingualNeural |
en-US |
ChristopherMultilingualNeural |
en-US |
BrandonMultilingualNeural |
es-ES |
IsidoraMultilingualNeural |
es-ES |
ArabellaMultilingualNeural |
es-ES |
TristanMultilingualNeural |
es-ES |
XimenaMultilingualNeural |
fr-FR |
LucienMultilingualNeural |
fr-FR |
VivienneMultilingualNeural |
fr-FR |
RemyMultilingualNeural |
it-IT |
IsabellaMultilingualNeural |
it-IT |
MarcelloMultilingualNeural |
it-IT |
AlessioMultilingualNeural |
it-IT |
GiuseppeMultilingualNeural |
ko-KR |
HyunsuMultilingualNeural |
pt-BR |
ThalitaMultilingualNeural |
pt-BR |
MacerioMultilingualNeural |
Standard-HD-Voice (Stimme in hoher Auflösung)
Azure HD-Stimmen (Speech High Definition) sind in der öffentlichen Vorschau verfügbar. Die HD-Stimmen können den Inhalt verstehen, automatisch Emotionen im Eingabetext erkennen und die Sprechweise in Echtzeit an die Stimmung anpassen. HD-Stimmen behalten eine konsistente Sprachpersona im Vergleich zu ihren neuronalen Gegenstücken (nicht HD) bei und bieten durch erweiterte Funktionen einen noch höheren Mehrwert. Weitere Informationen finden Sie unter Was sind Azure Speech hochauflösende (HD)-Stimmen?.
Benutzerdefinierte neuronale Stimme
Bisher wurden einige Gebietsschemas nur mit V3 für das Trainingsrezept unterstützt. Diese Gebietsschemas unterstützen jetzt auch V9 und ermöglichen eine verbesserte Trainingsqualität und erweiterte Features. Informationen zu diesen Gebietsschemas finden Sie in der folgenden Tabelle:
|
Gebietsschema (BCP-47) |
Sprache |
ar-EG |
Arabisch (Ägypten) |
ar-SA |
Arabisch (Saudi-Arabien) |
ca-ES |
Katalanisch |
cs-CZ |
Tschechisch (Tschechien) |
da-DK |
Dänisch (Dänemark) |
de-AT |
Deutsch (Österreich) |
de-CH |
Deutsch (Schweiz) |
el-GR |
Griechisch (Griechenland) |
en-IN |
Englisch (Indien) |
fi-FI |
Finnisch (Finnland) |
fr-CH |
Französisch (Schweiz) |
he-IL |
Hebräisch (Israel) |
hi-IN |
Hindi (Indien) |
hu-HU |
Ungarisch (Ungarn) |
ms-MY |
Malaiisch (Malaysia) |
nb-NO |
Norwegisch, Bokmål (Norwegen) |
nl-NL |
Niederländisch (Niederlande) |
pl-PL |
Polnisch (Polen) |
pt-PT |
Portugiesisch (Portugal) |
ro-RO |
Rumänisch (Rumänien) |
ru-RU |
Russisch (Russische Föderation) |
sk-SK |
Slowakisch (Slowakei) |
sv-SE |
Schwedisch (Schweden) |
th-TH |
Thailändisch (Thailand) |
r-TR |
Türkisch (Türkiye) |
vi-VN |
Vietnamesisch (Vietnam) |
zh-HK |
Chinesisch (Kantonesisch, traditionell) |
zh-TW |
Chinesisch (Taiwanesisch, Mandarin; traditionell) |
Benutzerdefinierte neuronale Stimme Pro unterstützt jetzt die folgenden neuen Gebietsschemas:
-
en-NZ: Englisch (Neuseeland)
-
es-CL: Spanisch (Chile)
-
es-US: Spanisch (Vereinigte Staaten)
-
ta-MY: Tamilisch (Malaysia)
Eine vollständige Liste der unterstützten Gebietsschemas finden Sie in der Sprachliste für benutzerdefinierte neuronale Stimme.
Das sprachübergreifende Feature unterstützt jetzt die folgenden neuen Gebietsschemas als Quellgebietsschemas:
|
Gebietsschema (BCP-47) |
Sprache |
da-DK |
Dänisch (Dänemark) |
de-AT |
Deutsch (Österreich) |
de-CH |
Deutsch (Schweiz) |
de-DE |
Deutsch (Deutschland) |
en-CA |
Englisch (Kanada) |
fi-FI |
Finnisch (Finnland) |
fr-CH |
Französisch (Schweiz) |
hu-HU |
Ungarisch (Ungarn) |
ms-MY |
Malaiisch (Malaysia) |
nb-NO |
Norwegisch, Bokmål (Norwegen) |
pt-PT |
Portugiesisch (Portugal) |
sv-SE |
Schwedisch (Schweden) |
tr-TR |
Türkisch (Türkiye) |
ta-IN |
Tamil (Indien) |
zh-HK |
Chinesisch (Kantonesisch, traditionell) |
Eine vollständige Liste der unterstützten Gebietsschemas finden Sie in der Sprachliste für benutzerdefinierte neuronale Stimme.
Das Feature für Stimmen mit mehreren Stilen unterstützt jetzt die folgenden neuen Gebietsschemas:
|
Gebietsschema (BCP-47) |
Sprache |
ar-EG |
Arabisch (Ägypten) |
ar-SA |
Arabisch (Saudi-Arabien) |
ca-ES |
Katalanisch |
cs-CZ |
Tschechisch (Tschechien) |
da-DK |
Dänisch (Dänemark) |
de-AT |
Deutsch (Österreich) |
de-CH |
Deutsch (Schweiz) |
de-DE |
Deutsch (Deutschland) |
el-GR |
Griechisch (Griechenland) |
en-AU |
Englisch (Australien) |
en-CA |
Englisch (Kanada) |
en-GB |
Walisisch (Großbritannien) |
en-IN |
Englisch (Indien) |
es-ES |
Spanisch (Spanien) |
es-MX |
Spanisch (Mexiko) |
fi-FI |
Finnisch (Finnland) |
fr-CA |
Französisch (Kanada) |
fr-CH |
Französisch (Schweiz) |
fr-FR |
Französisch (Frankreich) |
he-IL |
Hebräisch (Israel) |
hi-IN |
Hindi (Indien) |
hu-HU |
Ungarisch (Ungarn) |
it-IT |
Italienisch (Italien) |
ko-KR |
Koreanisch (Korea) |
ms-MY |
Malaiisch (Malaysia) |
nb-NO |
Norwegisch, Bokmål (Norwegen) |
nl-BE |
Niederländisch (Belgien) |
nl-NL |
Niederländisch (Niederlande) |
pl-PL |
Polnisch (Polen) |
pt-BR |
Portugiesisch (Brasilien) |
pt-PT |
Portugiesisch (Portugal) |
ro-RO |
Rumänisch (Rumänien) |
ru-RU |
Russisch (Russische Föderation) |
sk-SK |
Slowakisch (Slowakei) |
sv-SE |
Schwedisch (Schweden) |
th-TH |
Thailändisch (Thailand) |
tr-TR |
Türkisch (Türkiye) |
vi-VN |
Vietnamesisch (Vietnam) |
zh-HK |
Chinesisch (Kantonesisch, traditionell) |
zh-TW |
Chinesisch (Taiwanesisch, Mandarin; traditionell) |
Eine vollständige Liste der unterstützten Gebietsschemas finden Sie in der Sprachliste für benutzerdefinierte neuronale Stimme.
Release vom September 2024
Standardstimme
Unterstützung und allgemeine Verfügbarkeit für neue Stimmen in den folgenden Gebietsschemas hinzugefügt:
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
as-IN |
Assamisch (Indien) |
as-IN-YashicaNeural (weiblich)
as-IN-PriyomNeural (männlich) |
or-IN |
Odia (Indien) |
or-IN-SubhasiniNeural (weiblich)
or-IN-SukantNeural (männlich) |
pa-IN |
Punjabi (Indien) |
pa-IN-OjasNeural (männlich)
pa-IN-VaaniNeural (weiblich) |
Die einzige Stimme in dieser Tabelle ist allgemein verfügbar und unterstützt nur das Gebietsschema „en-IN“.
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
en-IN |
Englisch (Indien) |
en-IN-AashiNeural (weiblich) |
Die fünf Stimmen in dieser Tabelle sind allgemein verfügbar und unterstützen sowohl „en-IN“ als auch „hi-IN“-Gebietsschemas.
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
en-IN |
Englisch (Indien) |
en-IN-AaravNeural (männlich)
en-IN-AnanyaNeural (weiblich)
en-IN-KavyaNeural (weiblich)
en-IN-KunalNeural (männlich)
en-IN-RehaanNeural (männlich) |
hi-IN |
Hindi (Indien) |
hi-IN-AaravNeural (männlich)
hi-IN-AnanyaNeural (weiblich)
hi-IN-KavyaNeural (weiblich)
hi-IN-KunalNeural (männlich)
hi-IN-RehaanNeural (männlich) |
Sprachstile und Rollen
Unterstützung für newscast-, cheerful-, empathetic-Formatvorlagen für die en-IN-NeerjaNeural- und hi-IN-SwaraNeural-Stimmen hinzugefügt.
Neue Formatvorlagen für die folgenden Stimmen hinzugefügt:
-
es-MX-DaliaNeural: whispering, sadcheerful
-
fr-FR-DeniseNeural: whispering, sadexcited
-
it-IT-IsabellaNeural: whispering, sad, excitedcheerful
-
pt-PT-RaquelNeural: whispering, sad
-
de-DE-ConradNeural: sad, cheerful
-
en-GB-RyanNeural: whispering, sad
-
es-MX-JorgeNeural: whispering, sad, excitedcheerful
-
fr-FR-HenriNeural: whispering, sadexcited
-
it-IT-DiegoNeural: sad, excitedcheerful
-
es-ES-AlvaroNeural: cheerful, sad
-
ko-KR-InjoonNeural: sad
Weitere Informationen finden Sie unter Sprachstile und Rollen.
Release von August 2024
Standardstimme
Einführung von neuen mehrsprachigen Stimmen als öffentliche Vorschauversion. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Neue mehrsprachige Stimmen
| Gebietsschema |
Sprache |
Geschlecht |
Name der Stimme |
| de-DE |
Englisch (USA) |
Male |
en-US-AdamMultilingualNeural |
| de-DE |
Englisch (USA) |
Female |
en-US-AmandaMultilingualNeural |
| de-DE |
Englisch (USA) |
Male |
en-US-DerekMultilingualNeural |
| de-DE |
Englisch (USA) |
Male |
en-US-LewisMultilingualNeural |
| de-DE |
Englisch (USA) |
Female |
en-US-LolaMultilingualNeural |
| de-DE |
Englisch (USA) |
Female |
en-US-PhoebeMultilingualNeural |
| de-DE |
Englisch (USA) |
Male |
en-US-SamuelMultilingualNeural |
| de-DE |
Englisch (USA) |
Female |
en-US-SerenaMultilingualNeural |
| de-DE |
Englisch (USA) |
Male |
en-US-DustinMultilingualNeural |
| de-DE |
Englisch (USA) |
Female |
en-US-EvelynMultilingualNeural |
| es-ES |
Spanisch (Spanien) |
Male |
es-ES-TristanMultilingualNeural |
| fr-FR |
Französisch (Frankreich) |
Male |
fr-FR-LucienMultilingualNeural |
| pt-BR |
Portugiesisch (Brasilien) |
Male |
pt-BR-MacerioMultilingualNeural |
| zh-CN |
Chinesisch (Mandarin, vereinfacht) |
Male |
zh-CN-YunfanMultilingualNeural |
| zh-CN |
Chinesisch (Mandarin, vereinfacht) |
Male |
zh-CN-YunxiaoMultilingualNeural |
| zh-CN |
Chinesisch (Mandarin, vereinfacht) |
Male |
zh-CN-YunyiMultilingualNeural |
Einsprachige Modelle auf mehrsprachige Stimmen mit Verbesserungen der Natürlichkeit aktualisiert
| Gebietsschema |
Sprache |
Geschlecht |
Name der Stimme |
| de-DE |
Englisch (USA) |
Female |
en-US-NancyMultilingualNeural |
| de-DE |
Englisch (USA) |
Male |
en-US-BrandonMultilingualNeural |
| de-DE |
Englisch (USA) |
Male |
en-US-ChristopherMultilingualNeural |
| de-DE |
Englisch (USA) |
Female |
en-US-CoraMultilingualNeural |
| de-DE |
Englisch (USA) |
Male |
en-US-DavisMultilingualNeural |
| de-DE |
Englisch (USA) |
Male |
en-US-SteffanMultilingualNeural |
| es-ES |
Spanisch (Spanien) |
Female |
es-ES-XimenaMultilingualNeural |
| it-IT |
Italienisch (Italien) |
Male |
it-IT-GiuseppeMultilingualNeural |
| ko-KR |
Koreanisch (Korea) |
Male |
ko-KR-HyunsuMultilingualNeural |
Optimieren Sie die folgenden aktuellen mehrsprachigen Stimmen mit besserer Qualität.
| Gebietsschema |
Sprache |
Geschlecht |
Name der Stimme |
| de-DE |
Englisch (USA) |
Male |
en-US-AndrewMultilingualNeural |
| de-DE |
Englisch (USA) |
Female |
en-US-AvaMultilingualNeural |
Drei mehrsprachige Stimmen unterstützen jetzt Stile. Weitere Informationen finden Sie unter Sprachstile und Rollen.
- en-US-SerenaMultilingualNeural:
empathetic, excited, friendly, shy, serious, relieved und sad.
- en-US-AndrewMultilingualNeural:
empathetic und relieved.
- zh-CN-XiaoxiaoMultilingualNeural:
affectionate, cheerful, empathetic, excited, poetry-reading, sorry und story.
Release von Juli 2024
Sprachsynthese-Avatar (GA, allgemein verfügbar)
Der Sprachsynthese-Avatar ist jetzt allgemein verfügbar. Weitere Informationen finden Sie unter Sprachsynthese-Avatar.
Standardstimme
Führen Sie 2 Turboversionen der Azure OpenAI-Stimmen in der öffentlichen Vorschau ein: en-US-AlloyTurboMultilingualNeural und en-US-NovaTurboMultilingualNeural. Turbo-Version von Azure OpenAI Stimmen besitzt eine ähnliche Sprachpersona wie Azure OpenAI Stimmen, unterstützt aber zusätzliche Funktionen. Turbo-Stimmen unterstützen den vollständigen Satz von SSML-Elementen und weitere Funktionen wie Wortgrenzen, genau wie andere Azure-Sprachstimmen. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Einführung von 2 neuen mehrsprachigen Stimmen in der Public Preview: zh-CN-YunfanMultilingualNeural und zh-CN-YunxiaoMultilingualNeural. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Eingebettete neuronale Stimme
Release vom Juni 2024
Standardstimme
Einführung von sechs neuen Stimmen in der Public Preview, die in bestimmten Regionen verfügbar sind: Asien, Osten; Asien, Südosten; USA, Osten; USA, Westen; Indien, Mitte.
| Gebietsschema |
Sprache |
Stimmen für die Sprachsynthese |
or-IN |
Odia (Indien) |
or-IN-SubhasiniNeural (weiblich) |
or-IN |
Odia (Indien) |
or-IN-SukantNeural (männlich) |
pa-IN |
Punjabi (Indien) |
pa-IN-VaaniNeural (weiblich) |
pa-IN |
Punjabi (Indien) |
pa-IN-OjasNeural (männlich) |
as-IN |
Assamisch (Indien) |
as-IN-YashicaNeural (weiblich) |
as-IN |
Assamisch (Indien) |
as-IN-PriyomNeural (männlich) |
Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Sprachsynthese-Avatar
- Der Text-zu-Sprache-Avatar unterstützt nun die folgenden Regionen: „Asien, Südosten“, „Europa, Norden“, „Europa, Westen“, „Schweden, Mitte“, „USA, Süden-Mitte“ und „USA, Westen 2“. Weitere Informationen finden Sie unter Vom Speech-Dienst unterstützte Regionen.
Release von Mai (2024)
Personalisierte Stimme (allgemeine Verfügbarkeit)
Personalisierte Stimme ist jetzt allgemein verfügbar. Mit Personal Voice können Sie in wenigen Sekunden eine KI-generierte Replikation Ihrer Stimme (oder der Benutzer Ihrer Anwendung) erhalten. Sie geben ein einminütiges Sprachbeispiel als Audio-Prompt vor und verwenden es dann, um Sprache in einer der über 90 unterstützten Sprachen in mehr als 100 Ländern zu erzeugen. Weitere Informationen finden Sie unter Übersicht über personalisierte Stimme.
Standardstimme
Einführung von 8 neuen mehrsprachigen Stimmen in der Public Preview: en-GB-AdaMultilingualNeural, en-GB-OllieMultilingualNeural, es-ES-ArabellaMultilingualNeural, es-ES-IsidoraMultilingualNeural, it-IT-AlessioMultilingualNeural, it-IT-IsabellaMultilingualNeural, it-IT-MarcelloMultilingualNeural und pt-BR-ThalitaMultilingualNeural. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Einführung von zwei neuen en-US-Stimmen, die für das Callcenter-Szenario in der Public Preview optimiert sind: en-US-LunaNeural und en-US-KaiNeural. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Release von April 2024
Sprachsynthese-Avatar
- Sie können jetzt ein statisches Hintergrundbild für Ihre Avatare festlegen. Verwenden Sie für dieses Feature einfach die
avatarConfig.backgroundImage-Eigenschaft, und geben Sie eine URL an, die auf das gewünschte Bild zeigt. Ausführliche Informationen finden Sie in den Eigenschaften des Batchsynthese-Avatars.
Release von März 2024
Standardstimme
9 mehrsprachige Stimmen sind in allen Regionen allgemein verfügbar: en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeural, und zh-CN-XiaoxiaoMultilingualNeural. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Eine mehrsprachige Stimme wurden in der öffentlichen Vorschau eingeführt: ja-JP-MasaruMultilingualNeural. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Weitere Updates:
-
en-US-RyanMultilingualNeural ist in allen Regionen allgemein verfügbar.
-
en-US-JennyMultilingualV2Neural ist in allen Regionen allgemein verfügbar, zusammengeführt mit en-US-JennyMultilingualNeural.
- Preview, die für die aktualisierten
en-IN-NeerjaNeural und hi-IN-SwaraNeural mit 3 neuen Stilen in USA, Osten, Europa, Westen und Asien, Südosten verfügbar ist.
- Vorschau für neue weibliche Stimmen in Indien, Mitte:
en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeural, und hi-IN-AnanyaNeural.
Sprachsynthese-Avatar
Version vom Februar 2024
OpenAI-Stimmen
Der Azure-Sprachdienst unterstützt OpenAI-Text-zu-Sprache-Stimmen in den folgenden Regionen: Nord-Zentral-USA und Schweden Mitte. Wie die Sprechstimmen von Azure liefern auch die OpenAI-Text-zu-Sprache-Stimmen qualitativ hochwertige Sprachsynthese, um geschriebenen Text in natürlich klingende gesprochene Audiodaten umzuwandeln. Dadurch entstehen vielfältige Möglichkeiten für immersive und interaktive Benutzererfahrungen. Weitere Informationen finden Sie unter Was sind OpenAI-Stimmen für die Sprachsynthese?
Hinweis
Die Text-to-Speech-Stimmen von OpenAI sind auch in Azure OpenAI verfügbar.
Mit diesem Update haben wir die Preise für Standardstimmen mit Azure Speech angepasst. Überprüfen Sie die aktualisierten Preise hier.
Persönliche Stimme
Die persönliche Sprachfunktion unterstützt jetzt DragonLatestNeural- und PhoenixLatestNeural-Modelle. Diese neuen Modelle verbessern die Natürlichkeit der synthetisierten Stimmen, indem sie die Spracheigenschaften der Stimme im Prompt besser wiedergeben. Weitere Informationen finden Sie unter Integration einer personalisierten Stimme in Ihre Anwendung.
Release von Dezember 2023
Benutzerdefinierte Stimme-API
Die benutzerdefinierte Stimme-API steht zum Erstellen und Verwalten professioneller und persönlicher benutzerdefinierter neuronaler Sprachmodelle zur Verfügung.
Benutzerdefinierte neuronale Stimme
Die neu trainierten Sprachmodelle unterstützen jetzt 48 kHz Samplerate, unabhängig von der Modellversion. Für zuvor trainierte Sprachmodelle ist es erforderlich , die Modulversion auf mindestens 2023.11.13.0 zu aktualisieren, um die Samplerate auf 48 kHz zu verbessern.
Standardstimme
- Neue mehrsprachige Stimmen wurden in der öffentlichen Vorschau eingeführt:
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
de-DE |
Deutsch (Deutschland) |
de-DE-FlorianMultilingualNeural (männlich) |
de-DE |
Deutsch (Deutschland) |
de-DE-SeraphinaMultilingualNeural (weiblich) |
en-US |
Englisch (USA) |
en-US-AvaMultilingualNeural (weiblich) |
en-US |
Englisch (USA) |
en-US-EmmaMultilingualNeural (weiblich) |
fr-FR |
Französisch (Frankreich) |
fr-FR-RemyMultilingualNeural (männlich) |
en-US |
Englisch (USA) |
en-US-BrianMultilingualNeural (männlich) |
en-US |
Englisch (USA) |
en-US-AndrewMultilingualNeural (männlich) |
fr-FR |
Französisch (Frankreich) |
fr-FR-VivienneMultilingualNeural (weiblich) |
zh-CN |
Chinesisch (Mandarin, vereinfacht) |
zh-CN-XiaoxiaoMultilingualNeural (weiblich) |
zh-CN |
Chinesisch (Mandarin, vereinfacht) |
zh-CN-XiaochenMultilingualNeural (weiblich) |
zh-CN |
Chinesisch (Mandarin, vereinfacht) |
zh-CN-YunyiMultilingualNeural (männlich) |
- Einführung neuer
zh-CN-XiaoxiaoDialectsNeural-Stimmen für die öffentliche Vorschau, die mehrere chinesische Dialekte und Akzente unterstützen:
| Stimmenname |
Sekundäre Sprache |
Dialekt/Akzent |
zh-CN-XiaoxiaoDialectsNeural |
zh-CN-shaanxi |
Chinesisch (Zhongyuan Mandarin Shaanxi, vereinfacht) |
|
zh-CN-sichuan |
Chinesisch (Mandarin, Südwesten; vereinfacht) |
|
zh-CN-shanxi |
Chinesisch (Shanxi-Akzent Mandarin, vereinfacht) |
|
nan-CN |
Chinesisch (Min Nan, vereinfacht) |
|
zh-CN-anhui |
Chinesisch (Jianghuai Mandarin Anhui, vereinfacht) |
|
zh-CN-hunan |
Chinesisch (Hunan-Akzent Mandarin, vereinfacht) |
|
zh-CN-gansu |
Chinesisch (Lanyin Mandarin Gansu, vereinfacht) |
|
zh-CN-shandong |
Chinesisch (Jilu Mandarin, vereinfacht) |
|
zh-CN-henan |
Chinesisch (Zhongyuan Mandarin Henan, vereinfacht) |
|
zh-CN-liaoning |
Chinesisch (Nordöstliches Mandarin, vereinfacht) |
|
zh-TW |
Chinesisch (Taiwanesisch, Mandarin; traditionell) |
Release von November 2023
Persönliche Stimme
Persönliche Stimme steht in der Vorschau in den folgenden Regionen zur Verfügung: Westeuropa, USA, Osten und Asien, Südosten. Mit persönlicher Stimme (Vorschau) können Sie die KI-generierte Replikation Ihrer Stimme (oder die Benutzer Ihrer Anwendung) innerhalb weniger Sekunden abrufen. Sie geben ein einminütiges Sprachbeispiel als Audio-Prompt vor und verwenden es dann, um Sprache in einer der über 90 unterstützten Sprachen in mehr als 100 Ländern zu erzeugen.
Weitere Informationen finden Sie unter Persönliche Stimme.
Sprachsynthese-Avatar
Die Funktion Text-zu-Sprache-Avatar ist in der Vorschau in den folgenden Regionen verfügbar: USA, Westen 2, Europa, Westen und Asien, Südosten.
Avatar für Text-zu-Sprache wandelt Text in ein digitales Video eines fotorealistischen Menschen um (entweder ein Standard-Avatar oder ein benutzerdefinierter Text-zu-Sprache Avatar), der mit einer natürlich klingenden Stimme spricht. Der Text zu Sprach-Avatarvideo kann asynchron oder in Echtzeit synthetisiert werden. Entwickler können Anwendungen erstellen, die in den Text-zu-Sprache-Avatar integriert sind, über eine API oder mithilfe eines Inhaltserstellungstools in Speech Studio Videoinhalte ohne Codierung erstellen.
Weitere Informationen finden Sie unter Text-zu-Sprache-Avatar, Transparenzhinweise und Offenlegung des Sprach- und Avatar-Talents.
Benutzerdefinierte neuronale Stimme
Support für die 24 neuen Gebietsschemas für die sprachübergreifende Stimme hinzugefügt. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen.
Standardstimme
Neue Stimmen wurden in der öffentlichen Vorschau eingeführt:
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
de-DE |
Deutsch (Deutschland) |
SeraphinaNeural (weiblich) |
es-ES |
Spanisch (Spanien) |
XimenaNeural (weiblich) |
fr-CA |
Französisch (Kanada) |
ThierryNeural (männlich) |
fr-FR |
Französisch (Frankreich) |
VivienneNeural (weiblich) |
it-IT |
Italienisch (Italien) |
GiuseppeNeural (männlich) |
ko-KR |
Koreanisch (Korea) |
HyunsuNeural (männlich) |
pt-BR |
Portugiesisch (Brasilien) |
ThalitaNeural (weiblich) |
Modelle aktualisiert, Fehler behoben und Qualität verbessert:
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
es-ES |
Spanisch (Spanien) |
AlvaroNeural (männlich) |
en-GB |
Walisisch (Großbritannien) |
RyanNeural (männlich) |
ko-KR |
Koreanisch (Korea) |
InjoonNeural (männlich) |
Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Release von Oktober 2023
Benutzerdefinierte neuronale Stimme
- Support für die 12 neuen Gebietsschemas mit Benutzerdefinierter neuronaler Stimme Pro hinzugefügt. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen.
Release vom September 2023
Standardstimme
- Neue Stimmen wurden in der öffentlichen Vorschau eingeführt:
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
en-US |
Englisch (USA) |
en-US-EmmaNeural (weiblich) |
en-US |
Englisch (USA) |
en-US-AndrewNeural (männlich) |
en-US |
Englisch (USA) |
en-US-BrianNeural (männlich) |
Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Eingebettete neuronale Stimme
- Alle 147 Gebietsschemas hier (außer fa-IR, Persisch (Iran)) sind sofort mit entweder 1 ausgewählten weiblichen und/oder 1 ausgewählten männlichen Stimme verfügbar.
Release von August 2023
Benutzerdefinierte neuronale Stimme
- Die neueste Version des CNV Lite-Trainingsrezepts wurde jetzt veröffentlicht. Dieses Release bietet mehrere Verbesserungen an der Qualität Ihrer Sprachmodelle. Probieren Sie Speech Studio aus.
Release von Juli 2023
Benutzerdefinierte neuronale Stimme
Standardstimmen
Eine neue geschlechtsneutrale en-US-Stimme wurde in der öffentlichen Vorschau eingeführt:
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
en-US |
Englisch (USA) |
en-US-BlueNeural (Neutral) |
Neue mehrsprachige Stimmen wurden in der öffentlichen Vorschau eingeführt:
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
en-US |
Englisch (USA) |
en-US-JennyMultilingualV2Neural (weiblich) |
en-US |
Englisch (USA) |
en-US-RyanMultilingualNeural (männlich) |
Die mehrsprachigen Stimmen en-US-JennyMultilingualV2Neural und en-US-RyanMultilingualNeural erkennen automatisch die Sprache des Eingabetexts. Sie können das <lang>-Element jedoch weiterhin verwenden, um die Sprechsprache für diese Stimmen anzupassen.
Diese neuen mehrsprachigen Stimmen können in 41 Sprachen und Akzenten sprechen: , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , .
Bestimmte SSML-Elemente wie Pause (break), Betonung (emphasis), Stille (silence) und Aussprachehilfe (sub) werden in diesen mehrsprachigen Stimmen nicht vollständig unterstützt.
Wichtig
Die Stimme en-US-JennyMultilingualV2Neural wird nur vorübergehend zu Auswertungszwecken in der öffentlichen Vorschau zur Verfügung gestellt. Sie wird künftig entfernt.
Um in einer anderen Sprache als Englisch sprechen zu können, erfordert die aktuelle Implementierung der Stimme en-US-JennyMultilingualNeural die Festlegung des <lang xml:lang>-Elements. Wir gehen davon aus, dass die Stimme en-US-JennyMultilingualNeural im 4. Quartal 2023 aktualisiert wird und dann ohne das <lang xml:lang>-Element in der Sprache des Eingabetexts spricht. Dies entspricht dem Verhalten der Stimme en-US-JennyMultilingualV2Neural.
Für folgende Stimmen wurden in der öffentlichen Vorschau neue Features eingeführt:
- Lateinische Eingabe wurde für Stimmen in Serbisch (Serbien)
sr-RS hinzugefügt: sr-latn-RS-SophieNeural und sr-latn-RS-NicholasNeural.
- Unterstützung der englischen Aussprache wurde für Stimmen in Albanisch (Albanien)
sq-AL hinzugefügt: sq-AL-AnilaNeural und sq-AL-IlirNeural.
Version vom Mai 2023
Erstellung von Audioinhalten
- Alle Standardstimmen mit Sprechstilen und mehrformatigen benutzerdefinierten Stimmen unterstützen die graduelle Anpassung des Stils.
- Sie können die Aussprache eines Worts jetzt korrigieren, indem Sie es aussprechen und aufzeichnen. Phoneme können automatisch aus Ihrer Aufzeichnung erkannt werden. Das Feature Erkennen durch Sprechen befindet sich jetzt in der öffentlichen Vorschau.
Release von April 2023
Standardstimmen
- Die folgenden Features dieser Stimmen wurden von der öffentlichen Vorschau in die allgemeine Verfügbarkeit verschoben:
| Stil |
Stimmen für die Sprachsynthese |
| style="chat" |
en-GB-RyanNeural, es-MX-JorgeNeural und it-IT-IsabellaNeural |
| style="fröhlich" |
en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeuralund it-IT-IsabellaNeural |
| style="traurig" |
en-GB-SoniaNeural, fr-FR-DeniseNeural und fr-FR-HenriNeural |
- Verbesserung der englischen Aussprache für die Stimmen
hi-IN, ta-IN und te-IN, die jetzt in den Regionen mit öffentlicher Vorschau laufen.
Weitere Informationen finden Sie in der Liste der Sprachen und Stimmen.
Release von März 2023
Neue Funktionen
Die Speech Synthesis Markup Language (SSML) wurde aktualisiert und unterstützt jetzt Elemente von Audioeffektprozessoren, die die Qualität der synthetisierten Sprachausgabe für bestimmte Szenarien auf Geräten optimieren. Weitere Informationen finden Sie im Markup für Sprachsynthese.
Benutzerdefinierte neuronale Stimme
Unterstützung für das Gebietsschema nl-BE mit Benutzerdefinierte neuronale Stimme Pro hinzugefügt. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Standardstimmen
Die folgenden Stimmen sind jetzt allgemein verfügbar. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
en-AU |
Englisch (Australien) |
en-AU-AnnetteNeural (weiblich)
en-AU-CarlyNeural (weiblich)
en-AU-DarrenNeural (männlich)
en-AU-DuncanNeural (männlich)
en-AU-ElsieNeural (weiblich)
en-AU-FreyaNeural (weiblich)
en-AU-JoanneNeural (weiblich)
en-AU-KenNeural (männlich)
en-AU-KimNeural (weiblich)
en-AU-NeilNeural (männlich)
en-AU-TimNeural (männlich)
en-AU-TinaNeural (weiblich)
en-AU-WilliamNeural (männlich) |
en-GB |
Walisisch (Großbritannien) |
en-GB-RyanNeural (männlich)
en-GB-SoniaNeural (weiblich) |
es-ES |
Spanisch (Spanien) |
es-ES-AbrilNeural (weiblich)
es-ES-ArnauNeural (männlich)
es-ES-DarioNeural (männlich)
es-ES-EliasNeural (männlich)
es-ES-EstrellaNeural (weiblich)
es-ES-IreneNeural (weiblich)
es-ES-LaiaNeural (weiblich)
es-ES-LiaNeural (weiblich)
es-ES-NilNeural (männlich)
es-ES-SaulNeural (männlich)
es-ES-TeoNeural (männlich)
es-ES-TrianaNeural (weiblich)
es-ES-VeraNeural (weiblich) |
es-MX |
Spanisch (Mexiko) |
es-MX-JorgeNeural (männlich) |
fr-FR |
Französisch (Frankreich) |
fr-FR-HenriNeural (männlich) |
it-IT |
Italienisch (Italien) |
it-IT-IsabellaNeural (weiblich) |
ja-JP |
Japanisch (Japan) |
ja-JP-AoiNeural (weiblich)
ja-JP-DaichiNeural (männlich)
ja-JP-MayuNeural (weiblich)
ja-JP-NaokiNeural (männlich)
ja-JP-ShioriNeural (weiblich) |
Unterstützung für den cheerful-Stil mit der de-DE-ConradNeural-Stimme wurde hinzugefügt.
Release von Februar 2023
Standardstimmen
Die folgenden Stimmen sind jetzt allgemein verfügbar. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
zh-CN |
Chinesisch (Mandarin, vereinfacht) |
zh-CN-XiaomengNeural (weiblich)
zh-CN-XiaoyiNeural (weiblich)
zh-CN-XiaozhenNeural (weiblich)
zh-CN-YunfengNeural (männlich)
zh-CN-YunhaoNeural (männlich)
zh-CN-YunjianNeural (männlich)
zh-CN-YunxiaNeural (männlich)
zh-CN-YunzeNeural (männlich) |
zh-CN-henan |
Chinesisch (Zhongyuan Mandarin Henan, vereinfacht) |
zh-CN-henan-YundengNeural (männlich) |
Release von Dezember 2022
Batchsynthese-REST-API (Vorschau)
Die Batchsynthese-API befindet sich derzeit in der öffentlichen Vorschau. Sobald sie allgemein verfügbar ist, wird die API für lange Audiodaten veraltet sein. Weitere Informationen finden Sie unter Migrieren zur Batchsynthese-API.
Release von November 2022
Standardstimmen (GA)
Die folgenden Stimmen sind jetzt allgemein verfügbar. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
es-MX |
Spanisch (Mexiko) |
es-MX-BeatrizNeural (weiblich)
es-MX-CandelaNeural (weiblich)
es-MX-CarlotaNeural (weiblich)
es-MX-CecilioNeural (männlich)
es-MX-GerardoNeural (männlich)
es-MX-LarissaNeural (weiblich)
es-MX-LibertoNeural (männlich)
es-MX-LucianoNeural (männlich)
es-MX-MarinaNeural (weiblich)
es-MX-NuriaNeural (weiblich)
es-MX-PelayoNeural (männlich)
es-MX-RenataNeural (weiblich)
es-MX-YagoNeural (männlich) |
it-IT |
Italienisch (Italien) |
it-IT-BenignoNeural (männlich)
it-IT-CalimeroNeural (männlich)
it-IT-CataldoNeural (männlich)
it-IT-FabiolaNeural (weiblich)
it-IT-FiammaNeural (weiblich)
it-IT-GianniNeural (männlich)
it-IT-ImeldaNeural (weiblich)
it-IT-IrmaNeural (weiblich)
it-IT-LisandroNeural (männlich)
it-IT-PalmiraNeural (weiblich)
it-IT-PierinaNeural (weiblich)
it-IT-RinaldoNeural (männlich) |
pt-BR |
Portugiesisch (Brasilien) |
pt-BR-BrendaNeural (weiblich)
pt-BR-DonatoNeural (männlich)
pt-BR-ElzaNeural (weiblich)
pt-BR-FabioNeural (männlich)
pt-BR-GiovannaNeural (weiblich)
pt-BR-HumbertoNeural (männlich)
pt-BR-JulioNeural (männlich)
pt-BR-LeilaNeural (weiblich)
pt-BR-LeticiaNeural (weiblich)
pt-BR-ManuelaNeural (weiblich)
pt-BR-NicolauNeural (männlich)
pt-BR-ValerioNeural (männlich)
pt-BR-YaraNeural (weiblich) |
Benutzerdefinierte neuronale Stimme
Die folgende Gebietsschemaunterstützung wird für Benutzerdefinierte neuronale Stimme hinzugefügt. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
- Unterstützung für das Gebietsschema
fr-BE mit Benutzerdefinierte neuronale Stimme Pro hinzugefügt.
- Unterstützung für das Gebietsschema
es-ES mit Benutzerdefinierte neuronale Stimme Lite hinzugefügt.
Release von Oktober 2022
Standardstimmen (GA)
Die folgenden Stimmen sind jetzt allgemein verfügbar. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
eu-ES |
Baskisch |
eu-ES-AinhoaNeural (weiblich)
eu-ES-AnderNeural (männlich) |
hy-AM |
Armenisch (Armenien) |
hy-AM-AnahitNeural (weiblich)
hy-AM-HaykNeural (männlich) |
Standardstimmen (Vorschau)
Die folgenden Stimmen sind jetzt in der öffentlichen Vorschau verfügbar. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
| Gebietsschema (BCP-47) |
Sprache |
Stimmen für die Sprachsynthese |
en-AU |
Englisch (Australien) |
en-AU-AnnetteNeural(Weiblich)
en-AU-CarlyNeural(Weiblich)
en-AU-DarrenNeural(Männlich)
en-AU-DuncanNeural(Männlich)
en-AU-ElsieNeural(Weiblich)
en-AU-FreyaNeural(Weiblich)
en-AU-JoanneNeural(Weiblich)
en-AU-KenNeural(Männlich)
en-AU-KimNeural(Weiblich)
en-AU-NeilNeural(Männlich)
en-AU-TimNeural(Männlich)
en-AU-TinaNeural(Weiblich) |
es-ES |
Spanisch (Spanien) |
es-ES-AbrilNeural(Weiblich)
es-ES-AlvaroNeural(Männlich)
es-ES-ArnauNeural(Männlich)
es-ES-DarioNeural(Männlich)
es-ES-EliasNeural(Männlich)
es-ES-EstrellaNeural(Weiblich)
es-ES-IreneNeural(Weiblich)
es-ES-LaiaNeural(Weiblich)
es-ES-LiaNeural(Weiblich)
es-ES-NilNeural(Männlich)
es-ES-SaulNeural(Männlich)
es-ES-TeoNeural(Männlich)
es-ES-TrianaNeural(Weiblich)
es-ES-VeraNeural(Weiblich) |
ja-JP |
Japanisch (Japan) |
ja-JP-AoiNeural(Weiblich)
ja-JP-DaichiNeural(Männlich)
ja-JP-MayuNeural(Weiblich)
ja-JP-NaokiNeural(Männlich)
ja-JP-ShioriNeural(Weiblich) |
ko-KR |
Koreanisch (Korea) |
ko-KR-BongJinNeural(Männlich)
ko-KR-GookMinNeural(Männlich)
ko-KR-JiMinNeural(Weiblich)
ko-KR-SeoHyeonNeural(Weiblich)
ko-KR-SoonBokNeural(Weiblich)
ko-KR-YuJinNeural(Weiblich) |
wuu-CN |
Chinesisch (Wu, vereinfacht) |
wuu-CN-XiaotongNeural (weiblich)
wuu-CN-YunzheNeural (männlich) |
yue-CN |
Chinesisch (Kantonesisch, vereinfacht) |
yue-CN-XiaoMinNeural (weiblich)
yue-CN-YunSongNeural (männlich) |
Allgemeine TTS-Stimmupdates
- Verbesserte Qualität für die Stimmen
fil-PH-AngeloNeural und fil-PH-BlessicaNeural.
- Textnormalisierungsregeln werden für Stimmen mit den Gebietsschemas
es-CL Spanisch (Chile) und uz-UZ Usbekisch (Usbekistan) aktualisiert.
- Die Schreibweise englischer Buchstaben für Stimmen mit den Gebietsschemas
sq-AL Albanisch (Albanien) und az-AZ Aserbaidschanisch (Aserbaidschan) wurde hinzugefügt.
- Verbesserte englische Aussprache für die Stimme
zh-HK-WanLungNeural.
- Verbesserte Fragetöne für die Stimmen
nl-NL-MaartenNeural und pt-BR-AntonioNeural.
- Unterstützung für das
<lang ="en-US">-Tag für eine bessere englische Aussprache mit den folgenden Stimmen wurde hinzugefügt: de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeural und it-IT-IsabellaNeural.
- Unterstützung für das
style="chat"-Tag mit den folgenden Stimmen wurde hinzugefügt: en-GB-RyanNeural, es-MX-JorgeNeural und it-IT-IsabellaNeural.
- Unterstützung für das
style="cheerful"-Tag wurde für die folgenden Stimmen hinzugefügt: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural und it-IT-IsabellaNeural.
- Unterstützung für das
style="sad"-Tag wurde für die folgenden Stimmen hinzugefügt: en-GB-SoniaNeural, fr-FR-DeniseNeural und fr-FR-HenriNeural.
Release von September 2022
Standardstimme
- Alle Standardstimmen wurden auf High-Fidelity-Stimmen mit einer Samplingrate von 48 kHz aktualisiert.
Release von August 2022
Standardstimme
Veröffentlichte neue Stimmen in der öffentlichen Vorschau:
- Stimmen für Englisch (USA):
en-US-AIGenerate1Neural und en-US-AIGenerate2Neural.
- Stimmen für chinesische Regionalsprachen:
zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeural und zh-CN-shandong-YunxiangNeural.
Weitere Informationen finden Sie in der Liste der Sprachen und Stimmen.
Release von Juli 2022
Standardstimme
- In der öffentlichen Vorschau wurden 5 neue Stimmen von
zh-CN Chinesisch (Mandarin, vereinfacht) und 1 neue Stimme von en-US Englisch (USA) hinzugefügt. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
| Sprache |
Gebietsschema |
Geschlecht |
Name der Stimme |
Stilunterstützung |
| Chinesisch (Mandarin, vereinfacht) |
zh-CN |
Female |
zh-CN-XiaomengNeural
Neu |
Allgemein, mehrere Stile verfügbar mittels SSML |
| Chinesisch (Mandarin, vereinfacht) |
zh-CN |
Female |
zh-CN-XiaoyiNeural
Neu |
Allgemein, mehrere Stile verfügbar mittels SSML |
| Chinesisch (Mandarin, vereinfacht) |
zh-CN |
Female |
zh-CN-XiaozhenNeural
Neu |
Allgemein, mehrere Stile verfügbar mittels SSML |
| Chinesisch (Mandarin, vereinfacht) |
zh-CN |
Male |
zh-CN-YunxiaNeural
Neu |
Allgemein, mehrere Stile verfügbar mittels SSML |
| Chinesisch (Mandarin, vereinfacht) |
zh-CN |
Male |
zh-CN-YunzeNeural
Neu |
Allgemein, mehrere Stile verfügbar mittels SSML |
| Englisch (USA) |
en-US |
Male |
en-US-RogerNeural
Neu |
Allgemein |
- Unterstützte Stile und Rollen für die hinzugefügten neuronalen Stimmen.
| Sprache |
Styles |
Stilgrad |
Rollen |
| zh-CN-XiaomengNeural Öffentliche Vorschau |
chat |
Unterstützt |
|
| zh-CN-XiaoyiNeural Öffentliche Vorschau |
affectionate, angry, cheerfuldisgruntled, embarrassed, fearful, gentle, sadserious |
Unterstützt |
|
| zh-CN-XiaozhenNeural Öffentliche Vorschau |
angry, , cheerfuldisgruntled, fearful, , sadserious |
Unterstützt |
|
| zh-CN-YunxiaNeural Öffentliche Vorschau |
angry, , calmcheerful, , fearfulsad |
Unterstützt |
|
| zh-CN-YunzeNeural Öffentliche Vorschau |
angry, calm, cheerfuldepressed, disgruntled, documentary-narration, fearful, sadserious |
Unterstützt |
Unterstützt |
Abrufen der Gesichtsposition mit Mundbild
Release von Juni 2022
Standardstimme
- 9 neue Sprachen und Varianten für die neuronale Sprachsynthese wurden hinzugefügt:
| Sprache |
Gebietsschema |
Geschlecht |
Name der Stimme |
Stilunterstützung |
| Arabisch (Libanon) |
ar-LB |
Female |
ar-LB-LaylaNeural
Neu |
Allgemein |
| Arabisch (Libanon) |
ar-LB |
Male |
ar-LB-RamiNeural
Neu |
Allgemein |
| Arabisch (Oman) |
ar-OM |
Female |
ar-OM-AyshaNeural
Neu |
Allgemein |
| Arabisch (Oman) |
ar-OM |
Male |
ar-OM-AbdullahNeural
Neu |
Allgemein |
| Aserbaidschanisch (Aserbaidschan) |
az-AZ |
Female |
az-AZ-BabekNeural
Neu |
Allgemein |
| Aserbaidschanisch (Aserbaidschan) |
az-AZ |
Male |
az-AZ-BanuNeural
Neu |
Allgemein |
| Bosnien (Bosnien und Herzegowina) |
bs-BA |
Female |
bs-BA-VesnaNeural
Neu |
Allgemein |
| Bosnien (Bosnien und Herzegowina) |
bs-BA |
Male |
bs-BA-GoranNeural
Neu |
Allgemein |
| Georgisch (Georgien) |
ka-GE |
Female |
ka-GE-EkaNeural
Neu |
Allgemein |
| Georgisch (Georgien) |
ka-GE |
Male |
ka-GE-GiorgiNeural
Neu |
Allgemein |
| Mongolisch (Mongolei) |
mn-MN |
Female |
mn-MN-YesuiNeural
Neu |
Allgemein |
| Mongolisch (Mongolei) |
mn-MN |
Male |
mn-MN-BataaNeural
Neu |
Allgemein |
| Nepalesisch (Nepal) |
ne-NP |
Female |
ne-NP-HemkalaNeural
Neu |
Allgemein |
| Nepalesisch (Nepal) |
ne-NP |
Male |
ne-NP-SagarNeural
Neu |
Allgemein |
| Albanisch (Albanien) |
sq-AL |
Female |
sq-AL-AnilaNeural
Neu |
Allgemein |
| Albanisch (Albanien) |
sq-AL |
Male |
sq-AL-IlirNeural
Neu |
Allgemein |
| Tamilisch (Malaysia) |
ta-MY |
Female |
ta-MY-KaniNeural
Neu |
Allgemein |
| Tamilisch (Malaysia) |
ta-MY |
Male |
ta-MY-SuryaNeural
Neu |
Allgemein |
- GA 36 Stimmen aus Public Preview für
en-GB Englisch (Vereinigtes Königreich), fr-FR Französisch (Frankreich) und de-DE Deutsch (Deutschland):
| Sprache |
Gebietsschema |
Geschlecht |
Name der Stimme |
Stilunterstützung |
| Walisisch (Großbritannien) |
en-GB |
Female |
en-GB-AbbiNeural |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Female |
en-GB-BellaNeural |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Female |
en-GB-HollieNeural |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Female |
en-GB-MaisieNeural |
Allgemein, Kinderstimme |
| Walisisch (Großbritannien) |
en-GB |
Female |
en-GB-OliviaNeural |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Female |
en-GB-SoniaNeural |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Male |
en-GB-AlfieNeural |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Male |
en-GB-ElliotNeural |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Male |
en-GB-EthanNeural |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Male |
en-GB-NoahNeural |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Male |
en-GB-OliverNeural |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Male |
en-GB-ThomasNeural |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-BrigitteNeural |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-CelesteNeural |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-CoralieNeural |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-EloiseNeural |
Allgemein, Kinderstimme |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-JacquelineNeural |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-JosephineNeural |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-YvetteNeural |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Male |
fr-FR-AlainNeural |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Male |
fr-FR-ClaudeNeural |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Male |
fr-FR-JeromeNeural |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Male |
fr-FR-MauriceNeural |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Male |
fr-FR-YvesNeural |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-AmalaNeural |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-ElkeNeural |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-GiselaNeural |
Allgemein, Kinderstimme |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-KlarissaNeural |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-LouisaNeural |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-MajaNeural |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-TanjaNeural |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Male |
de-DE-BerndNeural |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Male |
de-DE-ChristophNeural |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Male |
de-DE-KasperNeural |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Male |
de-DE-KillianNeural |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Male |
de-DE-KlausNeural |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Male |
de-DE-RalfNeural |
Allgemein |
- Es wurden 40 neue Stimmen von
es-MX Spanisch (Mexiko), it-IT Italienisch (Italien), pt-BR Portugiesisch (Brasilien) und 2 Akzente für zh-CN Chinesisch (Mandarin, vereinfacht) in Public Preview hinzugefügt:
| Sprache |
Gebietsschema |
Geschlecht |
Name der Stimme |
Stilunterstützung |
| Spanisch (Mexiko) |
es-MX |
Female |
es-MX-BeatrizNeural
Neu |
Allgemein |
| Spanisch (Mexiko) |
es-MX |
Female |
es-MX-CarlotaNeural
Neu |
Allgemein |
| Spanisch (Mexiko) |
es-MX |
Female |
es-MX-NuriaNeural
Neu |
Allgemein |
| Spanisch (Mexiko) |
es-MX |
Female |
es-MX-RenataNeural
Neu |
Allgemein |
| Spanisch (Mexiko) |
es-MX |
Female |
es-MX-LarissaNeural
Neu |
Allgemein |
| Spanisch (Mexiko) |
es-MX |
Female |
es-MX-CandelaNeural
Neu |
Allgemein |
| Spanisch (Mexiko) |
es-MX |
Female |
es-MX-MarinaNeural
Neu |
Allgemein |
| Italienisch (Italien) |
it-IT |
Female |
it-IT-FiammaNeural
Neu |
Allgemein |
| Italienisch (Italien) |
it-IT |
Female |
it-IT-IrmaNeural
Neu |
Allgemein |
| Italienisch (Italien) |
it-IT |
Female |
it-IT-FabiolaNeural
Neu |
Allgemein |
| Italienisch (Italien) |
it-IT |
Female |
it-IT-PalmiraNeural
Neu |
Allgemein |
| Italienisch (Italien) |
it-IT |
Female |
it-IT-ImeldaNeural
Neu |
Allgemein |
| Italienisch (Italien) |
it-IT |
Female |
it-IT-PierinaNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Female |
pt-BR-ElzaNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Female |
pt-BR-ManuelaNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Female |
pt-BR-BrendaNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Female |
pt-BR-LeilaNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Female |
pt-BR-YaraNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Female |
pt-BR-GiovannaNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Female |
pt-BR-LeticiaNeural
Neu |
Allgemein |
| Spanisch (Mexiko) |
es-MX |
Male |
es-MX-CecilioNeural
Neu |
Allgemein |
| Spanisch (Mexiko) |
es-MX |
Male |
es-MX-LibertoNeural
Neu |
Allgemein |
| Spanisch (Mexiko) |
es-MX |
Male |
es-MX-LucianoNeural
Neu |
Allgemein |
| Spanisch (Mexiko) |
es-MX |
Male |
es-MX-PelayoNeural
Neu |
Allgemein |
| Spanisch (Mexiko) |
es-MX |
Male |
es-MX-YagoNeural
Neu |
Allgemein |
| Spanisch (Mexiko) |
es-MX |
Male |
es-MX-GerardoNeural
Neu |
Allgemein |
| Italienisch (Italien) |
it-IT |
Male |
it-IT-BenignoNeural
Neu |
Allgemein |
| Italienisch (Italien) |
it-IT |
Male |
it-IT-CataldoNeural
Neu |
Allgemein |
| Italienisch (Italien) |
it-IT |
Male |
it-IT-LisandroNeural
Neu |
Allgemein |
| Italienisch (Italien) |
it-IT |
Male |
it-IT-CalimeroNeural
Neu |
Allgemein |
| Italienisch (Italien) |
it-IT |
Male |
it-IT-RinaldoNeural
Neu |
Allgemein |
| Italienisch (Italien) |
it-IT |
Male |
it-IT-GianniNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Male |
pt-BR-DonatoNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Male |
pt-BR-HumbertoNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Male |
pt-BR-FabioNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Male |
pt-BR-JulioNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Male |
pt-BR-ValerioNeural
Neu |
Allgemein |
| Portugiesisch (Brasilien) |
pt-BR |
Male |
pt-BR-NicolauNeural
Neu |
Allgemein |
| Chinesisch (Mandarin, vereinfacht) |
zh-CN-sichuan |
Male |
zh-CN-sichuan-YunxiSichuanNeural
Neu |
Allgemein, Sichuan-Akzent |
| Chinesisch (Mandarin, vereinfacht) |
zh-CN-liaoning |
Female |
zh-CN-liaoning-XiaobeiNeural
Neu |
Allgemein, Liaoning-Akzent |
- Verbesserte Qualität für
en-SG-LunaNeural und en-SG-WayneNeural
- 48-kHz-Ausgabeunterstützung für Public Preview mit en-US-JennyNeural, en-US-AriaNeural und zh-CN-XiaoxiaoNeural
Benutzerdefinierte neuronale Stimme
Tool für die Audioinhaltserstellung
- Unterstützte Paginierung.
- Aktiviert, um global nach Name, Dateityp und Aktualisierungszeit auf der Arbeitsdateiseite zu sortieren.
Release von Mai 2022
Standardstimme
- Veröffentlicht: 5 neue Stimmen in der öffentlichen Vorschau mit mehreren Stilen, um die Vielfalt in amerikanischem Englisch zu bereichern. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
- Unterstützung dieser neuen Stile
Angry, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified und Whispering in der öffentlichen Vorschau für en-US-AriaNeural.
- Unterstützung dieser neuen Stile
Angry, Cheerful, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified und Whispering in der öffentlichen Vorschau für en-US-GuyNeural, en-US-JennyNeural.
- Unterstützung dieser neuen Stile
Excited, Friendly, Hopeful, Shouting, Unfriendly, Terrified und Whispering in der öffentlichen Vorschau für en-US-SaraNeural. Weitere Informationen finden Sie unter Sprachstile und Rollen.
- Veröffentlichte neue Stimmen
zh-CN-YunjianNeural, zh-CN-YunhaoNeural und zh-CN-YunfengNeural in der öffentlichen Vorschau. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
- Unterstützung von 2 neuen Formatvorlagen
sports-commentary, sports-commentary-excited in der öffentlichen Vorschau für zh-CN-YunjianNeural. Weitere Informationen finden Sie unter Sprachstile und Rollen.
- Unterstützung von 1 neuen Formatvorlagen
advertisement-upbeat in der öffentlichen Vorschau für zh-CN-YunhaoNeural. Weitere Informationen finden Sie unter Sprachstile und Rollen.
- Die Formatvorlagen
cheerful und sad für fr-FR-DeniseNeural sind im Allgemeinen in allen Regionen verfügbar.
- SSML wurde aktualisiert, um MathML-Elemente für en-US- und en-AU-Stimmen zu unterstützen. Weitere Informationen finden Sie im Markup für Sprachsynthese.
Benutzerdefinierte neuronale Stimme
Tool für die Audioinhaltserstellung
- Aktiviert, um das Tool zur Audioinhaltserstellung auszuprobieren, ohne sich anzumelden.
- Verbessertes Layout zum Anpassen von Phonemen.
- Verbesserte Leistung: Gibt die maximale Anzahl (200) von Dateien an, die gleichzeitig hochgeladen werden können.
- Verbesserte Leistung: Gibt die maximale Verzeichnistiefeebene (5 Ebenen) an.
Release von März 2022
Standardstimme
Benutzerdefinierte neuronale Stimme
Tool für die Audioinhaltserstellung
- Grenzwerte für Dateigröße und Parallelität für F0-Ressourcen (Free-Tarif) aktualisiert, um die Benutzererfahrung mit dem Speech SDK und den APIs konsistent zu machen. Weitere Informationen finden Sie unter Speech-Dienst – Kontingente und Grenzwerte.
Release von Februar 2022
Benutzerdefinierte neuronale Stimme
Tool für die Audioinhaltserstellung
- Der Grenzwert für die Ausgabelänge beim Herunterladen von Audiodaten wurde entfernt.
Release von Januar 2022
Neue Sprachen und Stimmen
10 neue Sprachen und Varianten für die neuronale Sprachsynthese wurden hinzugefügt:
| Sprache |
Gebietsschema |
Geschlecht |
Name der Stimme |
Stilunterstützung |
| Bangla (Indien) |
bn-IN |
Female |
bn-IN-TanishaaNeural
Neu |
Allgemein |
| Bangla (Indien) |
bn-IN |
Male |
bn-IN-BashkarNeural
Neu |
Allgemein |
| Isländisch (Island) |
is-IS |
Female |
is-IS-GudrunNeural
Neu |
Allgemein |
| Isländisch (Island) |
is-IS |
Male |
is-IS-GunnarNeural
Neu |
Allgemein |
| Kannada (Indien) |
kn-IN |
Female |
kn-IN-SapnaNeural
Neu |
Allgemein |
| Kannada (Indien) |
kn-IN |
Male |
kn-IN-GaganNeural
Neu |
Allgemein |
| Kasachisch (Kasachstan) |
kk-KZ |
Female |
kk-KZ-AigulNeural
Neu |
Allgemein |
| Kasachisch (Kasachstan) |
kk-KZ |
Male |
kk-KZ-DauletNeural
Neu |
Allgemein |
| Laotisch (Laos) |
lo-LA |
Female |
lo-LA-KeomanyNeural
Neu |
Allgemein |
| Laotisch (Laos) |
lo-LA |
Male |
lo-LA-ChanthavongNeural
Neu |
Allgemein |
| Mazedonisch (Republik Nordmazedonien) |
mk-MK |
Female |
mk-MK-MarijaNeural
Neu |
Allgemein |
| Mazedonisch (Republik Nordmazedonien) |
mk-MK |
Male |
mk-MK-AleksandarNeural
Neu |
Allgemein |
| Malayalam (Indien) |
ml-IN |
Female |
ml-IN-SobhanaNeural
Neu |
Allgemein |
| Malayalam (Indien) |
ml-IN |
Male |
ml-IN-MidhunNeural
Neu |
Allgemein |
| Paschtu (Afghanistan) |
ps-AF |
Female |
ps-AF-LatifaNeural
Neu |
Allgemein |
| Paschtu (Afghanistan) |
ps-AF |
Male |
ps-AF-GulNawazNeural
Neu |
Allgemein |
| Serbisch (Serbien, kyrillisch) |
sr-RS |
Female |
sr-RS-SophieNeural
Neu |
Allgemein |
| Serbisch (Serbien, kyrillisch) |
sr-RS |
Male |
sr-RS-NicholasNeural
Neu |
Allgemein |
| Sinhala (Sri Lanka) |
si-LK |
Female |
si-LK-ThiliniNeural
Neu |
Allgemein |
| Sinhala (Sri Lanka) |
si-LK |
Male |
si-LK-SameeraNeural
Neu |
Allgemein |
Eine vollständige Liste der verfügbaren Stimmen finden Sie unter Sprachenunterstützung.
Neuronale Stimmen in der Vorschauphase
Neue Stimmen für en-GB, fr-FR und de-DE in der Vorschauphase hinzugefügt:
| Sprache |
Gebietsschema |
Geschlecht |
Name der Stimme |
Stilunterstützung |
| Walisisch (Großbritannien) |
en-GB |
Female |
en-GB-AbbiNeural
Neu |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Female |
en-GB-BellaNeural
Neu |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Female |
en-GB-HollieNeural
Neu |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Female |
en-GB-OliviaNeural
Neu |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Mädchen |
en-GB-MaisieNeural
Neu |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Male |
en-GB-AlfieNeural
Neu |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Male |
en-GB-ElliotNeural
Neu |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Male |
en-GB-EthanNeural
Neu |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Male |
en-GB-NoahNeural
Neu |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Male |
en-GB-OliverNeural
Neu |
Allgemein |
| Walisisch (Großbritannien) |
en-GB |
Male |
en-GB-ThomasNeural
Neu |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-BrigitteNeural
Neu |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-CelesteNeural
Neu |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-CoralieNeural
Neu |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-JacquelineNeural
Neu |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-JosephineNeural
Neu |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Female |
fr-FR-YvetteNeural
Neu |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Mädchen |
fr-FR-EloiseNeural
Neu |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Male |
fr-FR-AlainNeural
Neu |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Male |
fr-FR-ClaudeNeural
Neu |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Male |
fr-FR-JeromeNeural
Neu |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Male |
fr-FR-MauriceNeural
Neu |
Allgemein |
| Französisch (Frankreich) |
fr-FR |
Male |
fr-FR-YvesNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-AmalaNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-ElkeNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-KlarissaNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-LouisaNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-MajaNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Female |
de-DE-TanjaNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Mädchen |
de-DE-GiselaNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Male |
de-DE-BerndNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Male |
de-DE-ChristophNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Male |
de-DE-KasperNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Male |
de-DE-KillianNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Male |
de-DE-KlausNeural
Neu |
Allgemein |
| Deutsch (Deutschland) |
de-DE |
Male |
de-DE-RalfNeural
Neu |
Allgemein |
Eine vollständige Liste der verfügbaren Stimmen finden Sie unter Sprachenunterstützung.
Aussprachegenauigkeit
- Verbesserte englische Wortaussprache für alle
he-IL-Stimmen.
- Die Genauigkeit der Aussprache auf Wortebene für
cs-CZ und da-DK wurde verbessert.
- Verbesserte Behandlung von arabischen diakritischen und hebräischen Nikudzeichen.
- Verbessertes Lesen von Entitäten für
ja-JP
Sprachstudio
- Benutzerdefinierte neuronale Stimme: Zusätzliche Modelltests mithilfe der Batch-API (API für lange Audiodaten) aktiviert
- Audioinhaltserstellung: Weitere Ausgabeformate aktiviert
Release von Oktober 2021
Neue Sprachen und Stimmen
49 neue Sprachen und 98 Stimmen für die neuronale Sprachsynthese wurden hinzugefügt:
Adri für af-ZA Afrikaans (Südafrika), Willem für af-ZA Afrikaans (Südafrika), Mekdes für am-ET Amharisch (Äthiopien), Ameha für am-ET Amharisch (Äthiopien), Fatima für ar-AE Arabisch (Vereinigte Arabische Emirate), Hamdan für ar-AE Arabisch (Vereinigte Arabische Emirate), Laila für ar-BH Arabisch (Bahrain), Ali für ar-BH Arabisch (Bahrain), Amina für ar-DZ Arabisch (Algerien), Ismael für ar-DZ Arabisch (Algerien), Rana für ar-IQ Arabisch (Irak), Bassel für ar-IQ Arabisch (Irak), Sana für ar-JO Arabisch (Jordanien), Taim für ar-JO Arabisch (Jordanien), Noura für ar-KW Arabisch (Kuwait), Fahed für ar-KW Arabisch (Kuwait), Iman für ar-LY Arabisch (Libyen), Omar für ar-LY Arabisch (Libyen), Mouna für ar-MA Arabisch (Marokko), Jamal für ar-MA Arabisch (Marokko), Amal für ar-QA Arabisch (Katar), Moaz für ar-QA Arabisch (Katar), Amany für ar-SY Arabisch (Syrien), Laith für ar-SY Arabisch (Syrien), Reem für ar-TN Arabisch (Tunesien), Hedi für ar-TN Arabisch (Tunesien), Maryam für ar-YE Arabisch (Jemen), Saleh für ar-YE Arabisch (Jemen), Nabanita für bn-BD Bangla (Bangladesch), Pradeep für bn-BD Bangla (Bangladesch), Asilia für en-KE Englisch (Kenia), Chilemba für en-KE Englisch (Kenia), Ezinne für en-NG Englisch (Nigeria), Abeo für en-NG Englisch (Nigeria), Imani für en-TZ Englisch (Tansania), Elimu für en-TZ Englisch (Tansania), Sofia für es-BO Spanisch (Bolivien), Marcelo für es-BO Spanisch (Bolivien), Catalina für es-CL Spanisch (Chile), Lorenzo für es-CL Spanisch (Chile), Maria für es-CR Spanisch (Costa Rica), Juan für es-CR Spanisch (Costa Rica), Belkys für es-CU Spanisch (Kuba), Manuel für es-CU Spanisch (Kuba), Ramona für es-DO Spanisch (Dominikanische Republik), Emilio für es-DO Spanisch (Dominikanische Republik), Andrea für es-EC Spanisch (Ecuador), Luis für es-EC Spanisch (Ecuador), Teresa für es-GQ Spanisch (Äquatorialguinea), Javier für es-GQ Spanisch (Äquatorialguinea), Marta für es-GT Spanisch (Guatemala), Andres für es-GT Spanisch (Guatemala), Karla für es-HN Spanisch (Honduras), Carlos für es-HN Spanisch (Honduras), Yolanda für es-NI Spanisch (Nicaragua), Federico für es-NI Spanisch (Nicaragua), Margarita für es-PA Spanisch (Panama), Roberto für es-PA Spanisch (Panama), Camila für es-PE Spanisch (Peru), Alex für es-PE Spanisch (Peru), Karina für es-PR Spanisch (Puerto Rico), Victor für es-PR Spanisch (Puerto Rico), Tania für es-PY Spanisch (Paraguay), Mario für es-PY Spanisch (Paraguay), Lorena für es-SV Spanisch (El Salvador), Rodrigo für es-SV Spanisch (El Salvador), Valentina für es-UY Spanisch (Uruguay), Mateo für es-UY Spanisch (Uruguay), Paola für es-VE Spanisch (Venezuela), Sebastian für es-VE Spanisch (Venezuela), Dilara für fa-IR Persisch (Iran), Farid für fa-IR Persisch (Iran), Blessica für fil-PH Filipino (Philippinen), Angelo für fil-PH Filipino (Philippinen), Sabela für gl-ES Galicisch (Spanien), Roi für gl-ES Galicisch (Spanien), Siti für jv-ID Javanisch (Indonesien), Dimas für jv-ID Javanisch (Indonesien), Sreymom für km-KH Khmer (Kambodscha), Piseth für km-KH Khmer (Kambodscha), Nilar für my-MM Birmanisch (Myanmar), Thiha für my-MM Birmanisch (Myanmar), Ubax für so-SO Somali (Somalia), Muuse für so-SO Somali (Somalia), Tuti für su-ID Sundanesisch (Indonesien), Jajang für su-ID Sundanesisch (Indonesien), Rehema für sw-TZ Suaheli (Tansania), Daudi für sw-TZ Suaheli (Tansania), Saranya für ta-LK Tamil (Sri Lanka), Kumar für ta-LK Tamil (Sri Lanka), Venba für ta-SG Tamil (Singapur), Anbu für ta-SG Tamil (Singapur), Gul für ur-IN Urdu (Indien), Salman für ur-IN Urdu (Indien), Madina für uz-UZ Usbekisch (Usbekistan), Sardor für uz-UZ Usbekisch (Usbekistan), Thando für zu-ZA isi Zulu (Südafrika), Themba für zu-ZA isi Zulu (Südafrika).
Release von September 2021
-
Neue Chatbot-Stimme in
en-US Englisch (USA): Sara stellt eine junge Erwachsene dar, die lockerer spricht und sich am besten für die Chatbotszenarien eignet.
-
Neue Stile hinzugefügt für
ja-JP Japanische Stimme Nanami: Mit Nanami sind jetzt drei neue Stile verfügbar: Chat, Kundendienst und Unterhaltung.
-
Verbesserung der Aussprache: Ardi für
id-ID, Premwadee für th-TH, Christel für da-DK, HoaiMy und NamMinh für vi-VN.
-
Zwei neue Stimmen in
zh-CN Chinesisch (Mandarin, China) in der Vorschau: Xiaochen & Xiaoyan, optimiert für Spontansprache und Kundenserviceszenarien.
Release von Juli 2021
Updates für neuronale Sprachsynthese
- Die Aussprachefehler in Hebräisch wurden um 20 % reduziert.
Speech Studio-Updates
-
Benutzerdefinierte neuronale Stimme: Die Trainingspipeline wurde auf UniTTSv3 aktualisiert, wodurch die Modellqualität verbessert und die Trainingszeit für Akustikmodelle um 50 % reduziert wird.
-
Audioinhaltserstellung: Das Leistungsproblem beim Exportieren und der Fehler bei der Auswahl benutzerdefinierter neuronaler Stimmen wurden behoben.
Release von Juni 2021
Speech Studio-Updates
-
Benutzerdefinierte neuronale Stimme: Das Training für „Benutzerdefinierte neuronale Stimme“ wurde erweitert und unterstützt jetzt „Asien, Südosten“. Es wurden neue Features veröffentlicht, die die Statusüberprüfung beim Hochladen von Daten unterstützen.
-
Audioinhaltserstellung: Es wurde ein neues Feature zur Unterstützung eines benutzerdefinierten Lexikons veröffentlicht. Mit diesem Feature können Benutzer ganz einfach eigene Lexikondateien erstellen und die angepasste Aussprache für ihre Audioausgabe definieren.
Release von Mai 2021
Neue Sprachen und Stimmen zur neuronalen Sprachsynthese hinzugefügt
Zehn neue Sprachen wurden eingeführt: 20 neue Stimmen in 10 neuen Gebietsschemas werden der neuronalen TTS-Sprachliste hinzugefügt: Yan in en-HK Englisch (Hongkong), Sam in en-HK Englisch (Hongkong), Molly in en-NZ Englisch (Neuseeland), Mitchell in en-NZ Englisch (Neuseeland), Luna in en-SG Englisch (Singapur), Wayne in en-SG Englisch (Singapur), Leah in en-ZA Englisch (Südafrika), Luke in en-ZA Englisch (Südafrika), Dhwani in gu-IN Gujarati (Indien), Niranjan in gu-IN Gujarati (Indien), Aarohi in mr-IN Marathi (Indien), Manohar in mr-IN Marathi (Indien), Elena in es-AR Spanisch (Argentinien), Tomas in es-AR Spanisch (Argentinien), Salome in es-CO Spanisch (Kolumbien), Gonzalo in es-CO Spanisch (Kolumbien), Paloma in es-US Spanisch (USA), Alonso in es-US Spanisch (USA), Zuri in sw-KE Suaheli (Kenia), Rafiki in sw-KE Suaheli (Kenia).
Elf neue en-US-Stimmen in der Vorschauversion: 11 neue en-US-Stimmen in der Vorschauversion werden dem amerikanischen Englisch hinzugefügt: Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Fünf chinesische zh-CN-Stimmen (Mandarin, vereinfacht) sind allgemein verfügbar. 5 chinesische Stimmen (Mandarin, vereinfacht) werden von der Vorschauversion in die allgemein verfügbare Version geändert. Dabei handelt es sich um Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Jetzt sind diese Stimmen in allen Regionen verfügbar. Yunxi wird mit einem neuen „Assistenten“-Stil hinzugefügt, der für Chatbots und Sprach-Agents geeignet ist. Die Stimmstile von Xiaomo wurden so optimiert, dass sie natürlicher und charakteristischer sind.
Release von April 2021
Neuronale Sprachsynthese ist in 21 Regionen verfügbar.
-
Zwölf neue Regionen hinzugefügt: Neuronale Sprachsynthese ist jetzt in diesen 12 neuen Regionen verfügbar:
Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US und West US 2.
Hier finden Sie eine vollständige Liste der 21 unterstützten Regionen.
Release von März 2021
Neue Sprachen und Stimmen zur neuronalen Sprachsynthese hinzugefügt
Einführung von sechs neuen Sprachen: 12 neue Stimmen in 6 neuen Gebietsschemas wurden der Liste für neuronale Sprachsynthese hinzugefügt: Nia in cy-GB Walisisch (Vereinigtes Königreich), Aled in cy-GB Walisisch (Vereinigtes Königreich), Rosa in en-PH Englisch (Philippinen), James in en-PH Englisch (Philippinen), Charline in fr-BE Französisch (Belgien), Gerard in fr-BE Französisch (Belgien), Dena in nl-BE Niederländisch (Belgien), Arnaud in nl-BE Niederländisch (Belgien), Polina in uk-UA Ukrainisch (Ukraine), Ostap in uk-UA Ukrainisch (Ukraine), Uzma in ur-PK Urdu (Pakistan), Asad in ur-PK Urdu (Pakistan).
Fünf Sprachen sind aus der Vorschau in die allgemeine Verfügbarkeit übergegangen: 10 Stimmen, die im November in 5 Gebietsschemas eingeführt wurden, sind jetzt allgemein verfügbar: Kert in et-EE Estnisch (Estland), Colm in ga-IE Irisch (Irland), Nils in lv-LV Lettisch (Lettland), Leonas in lt-LT Litauisch (Litauen), Joseph in mt-MT Maltesisch (Malta).
Neue männliche Stimme für Französisch (Kanada): Die neue Stimme „Antoine“ ist für fr-CA Französisch (Kanada) verfügbar.
Qualitätsverbesserung: Reduzierung der Aussprachefehlerrate für hu-HU Ungarisch – 48,17 %, nb-NO Norwegisch – 52,76 %, nl-NL Niederländisch (Niederlande) –22,11 %.
Mit diesem Release werden nun insgesamt 142 neuronale Stimmen in 60 Sprachen/Gebietsschemas unterstützt. Darüber hinaus sind mehr als 70 Standardstimmen in 49 Sprachen/Gebietsschemas verfügbar. Eine vollständige Liste finden Sie unter Sprachunterstützung.
Abrufen von Gesichtsausdrucksereignissen zum Animieren von Figuren
Neuronale Sprachsynthese umfasst jetzt das Ereignis Viseme. Durch Ereignisse vom Typ „Mundbild“ können Benutzer eine Sequenz von Gesichtsausdrücken gemeinsam mit synthetisierter Sprache abrufen. Mundbilder können verwendet werden, um die Bewegung von 2D- und 3D-Avatarmodellen zu steuern, mit perfekter Anpassung der Mundbewegungen an die synthetisierte Sprache. Ereignisse vom Typ „Mundbild“ stehen derzeit nur für die Stimme en-US-AriaNeural zur Verfügung.
Hinzufügen des Lesezeichenelements in Speech Synthesis Markup Language (SSML)
Mit dem Lesezeichenelement können Sie benutzerdefinierte Marker in SSML einfügen, um den Offset der einzelnen Marker im Audiostream abzurufen. Es kann verwendet werden, um auf eine bestimmte Position in der Text- oder Tagsequenz zu verweisen.
Release von Februar 2021
Allgemeine Verfügbarkeit von benutzerdefinierte neuronale Stimme
Benutzerdefinierte neuronale Stimme ist im Februar in 13 Sprachen allgemein verfügbar: Chinesisch (Mandarin, vereinfacht), Englisch (Australien), Englisch (Indien), Englisch (Vereinigtes Königreich), Englisch (Nordamerika), Französisch (Kanada), Französisch (Frankreich), Deutsch (Deutschland), Italienisch (Italien), Japanisch (Japan), Koreanisch (Korea), Portugiesisch (Brasilien), Spanisch (Mexico) und Spanisch (Spanien). Erfahren Sie mehr darüber, was benutzerdefinierte neuronale Stimme ist und wie Sie sie verantwortungsbewusst verwenden.
Die Funktion „Benutzerdefinierte neuronale Stimme“ erfordert eine Registrierung, und Microsoft kann den Zugriff auf Grundlage der Microsoft-Berechtigungskriterien einschränken. Weitere Informationen zum eingeschränkten Zugriff.
Release von Dezember 2020
Neue neuronale Stimmen in der allgemeinen Verfügbarkeit und in der Vorschau
51 neue Stimmen wurden veröffentlicht, sodass nun insgesamt 129 neuronale Stimmen in 54 Sprachen/Gebietsschemas vorhanden sind:
46 neue Stimmen in GA-Gebietsschemas: Shakir in ar-EG Arabisch (Ägypten), Hamed in ar-SA Arabisch (Saudi Arabien), Borislav in bg-BG Bulgarisch (Bulgarien), Joana in ca-ES Katalanisch, Antonin in cs-CZ Tschechisch (Tschechische Republik), Jeppe in da-DK Dänisch (Dänemark), Jonas in de-AT Deutsch (Österreich), Jan in de-CH Deutsch (Schweiz), Nestoras in el-GR Griechisch (Griechenland), Liam in en-CA Englisch (Kanada), Connor in en-IE Englisch (Irland), Madhur in en-IN Hindi (Indien), Mohan in en-IN Telugu (Indien), Prabhat in en-IN Englisch (Indien), Valluvar in en-IN Tamil (Indien), Enric in es-ES Katalanisch, Kert in et-EE Estnisch (Estland), Harri in fi-FI Finnisch (Finnland), Selma in fi-FI Finnisch (Finnland), Fabrice in fr-CH Französisch (Schweiz), Colm in ga-IE Irisch (Irland), Avri in he-IL Hebräisch (Israel), Srecko in hr-HR Kroatisch (Kroatien), Tamas in hu-HU Ungarisch (Ungarn), Gadis in id-ID Indonesisch (Indonesien), Leonas in lt-LT Litauisch (Litauen), Nils in lv-LV Lettisch (Lettland), Osman in ms-MY Malaiisch (Malaysia), Joseph in mt-MT Maltesisch (Malta), Finn in nb-NO Norwegisch, Bokmål (Norwegen), Pernille in nb-NO Norwegisch, Bokmål (Norwegen), Fenna in nl-NL Niederländisch (Niederlande), Maarten in nl-NL Niederländisch (Niederlande), Agnieszka in pl-PL Polnisch (Polen), Marek in pl-PL Polnisch (Polen), Duarte in pt-BR Portugiesisch (Brasilien), Raquel in pt-PT Portugiesisch (Potugal), Emil in ro-RO Rumänisch (Rumänien), Dmitry in ru-RU Russisch (Russland), Svetlana in ru-RU Russisch (Russland), Lukas in sk-SK Slowakisch (Slowakei), Rok in sl-SI Slowenisch (Slowenien), Mattias in sv-SE Schwedisch (Schweden), Sofie in sv-SE Schwedisch (Schweden), Niwat in th-TH Thai (Thailand), Ahmet in tr-TR Türkisch (Türkei), NamMinh in vi-VN Vietnamesisch (Vietnam), HsiaoChen in zh-TW Taiwanesisch Mandarin (Taiwan), YunJhe in zh-TW Taiwanesisch Mandarin (Taiwan), HiuMaan in zh-HK Chinesisch Kantonesisch (Hongkong Sonderverwaltungsregion), WanLung in zh-HK Chinesisch Kantonesisch (Hongkong Sonderverwaltungsregion).
5 neue Stimmen in Gebietsschemas in der Vorschau: Kert für et-EE Estnisch (Estland), Colm für ga-IE Irisch (Irland), Nils für lv-LV Lettisch (Lettland), Leonas für lt-LT Litauisch (Litauen), Joseph für mt-MT Maltesisch (Malta).
Mit diesem Release werden nun insgesamt 129 neuronale Stimmen in 54 Sprachen/Gebietsschemas unterstützt. Darüber hinaus sind mehr als 70 Standardstimmen in 49 Sprachen/Gebietsschemas verfügbar. Eine vollständige Liste finden Sie unter Sprachunterstützung.
Updates für die Audioinhaltserstellung
- Die Benutzeroberfläche für die Stimmenauswahl mit Stimmenkategorien und ausführlichen Beschreibungen wurde verbessert.
- Die Intonation für alle neuronalen Stimmen wurde für verschiedene Sprachen optimiert.
- Die Benutzeroberflächenlokalisierung basierend auf der Sprache des Browsers wurde automatisiert.
-
StyleDegree-Steuerelemente für alle neuronalen Stimmen für zh-CN.
Sie können die neuen Features im Audioinhaltserstellungs-Tool testen.
Updates für zh-CN-Stimmen
- Alle neuronalen Stimmen für
zh-CN wurden mit Unterstützung von Englisch aktualisiert.
- Alle neuronalen Stimmen für
zh-CN unterstützen nun Anpassung der Intonation. SSML oder das Audioinhaltserstellungs-Tool können zum Anpassen der Intonation verwendet werden.
- Alle neuronalen Stimmen für
zh-CN mit mehreren Stilen wurden zur Unterstützung des StyleDegree-Steuerelements aktualisiert. Die Intensität der Emotionen (weich oder stark) ist anpassbar.
-
zh-CN-YunyeNeural wurde zur Unterstützung mehrerer Stile aktualisiert, die verschiedene Emotionen widerspiegeln können.
Release von November 2020
Neue Gebietsschemas und Stimmen in der Vorschau
-
Fünf neue Stimmen und Sprachen wurden zum Portfolio der neuronalen Sprachsynthese hinzugefügt. Sie lauten wie folgt: Grace in Maltesisch (Malta), Ona in Litauisch (Litauen), Anu in Estnisch (Estland), Orla in Irisch (Irland) und Everita in Lettisch (Lettland).
-
Fünf neue
zh-CN-Stimmen mit Unterstützung mehrerer Stile und Rollen: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan und Yunxi.
Diese Stimmen sind in der öffentlichen Vorschau in drei Azure Regionen verfügbar: EastUS, SouthEastAsia und WestEurope.
Allgemeine Verfügbarkeit des neuronalen Sprachsynthese-Containers
- Mit dem neuronalen Sprachsynthese-Container können Entwickler die Sprachsynthese mit den natürlichsten digitalen Stimmen für spezifische Sicherheits- und Datengovernanceanforderungen in ihren eigenen Umgebungen ausführen. Erfahren Sie, wie Sie Sprachsynthesecontainer installieren.
Neue Funktionen
-
Benutzerdefinierte Stimme: ermöglicht Benutzer*innen das Kopieren eines Stimmmodells aus einer Region in eine andere (das Anhalten und Fortsetzen des Endpunkts wird unterstützt). Wechseln Sie hier zum portal Azure.
-
Unterstützung des SSML-Tags „silence“
- Allgemeine Verbesserungen bei der Stimmenqualität der Sprachsynthese: Die Genauigkeit der Aussprache auf Wortebene in nb-NO wurde verbessert. Aussprachefehler wurden um 53 % verringert.
Weitere Informationen finden Sie in diesem Techblog.
Release von Oktober 2020
Neue Funktionen
- Jenny unterstützt einen neuen
newscast-Stil. Weitere Informationen finden Sie unter Verwenden der Sprachstile in SSML.
-
Für neuronale Stimmen wurde ein Upgrade auf einen HiFiNet-Vocoder durchgeführt, der eine höhere Klangtreue und eine höhere Synthesegeschwindigkeit aufweist. Dies kommt Kunden zugute, deren Szenario auf HiFi-Audio oder lange Interaktionen beruht, einschließlich Videoübersetzung, Hörbücher oder Onlinelernmaterialien.
Erfahren Sie mehr über die Story, und hören Sie sich die Sprachbeispiele in unserem Tech Community-Blogbeitrag an.
-
Custom Voice und Audioinhaltserstellungs-Studio wurden für 17 Gebietsschemas lokalisiert. Benutzer können die Benutzeroberfläche für eine benutzerfreundlichere Umgebung leicht in eine lokale Sprache wechseln.
-
Audioinhaltserstellung: Es wurde die Stilgradsteuerung für XiaoxiaoNeural hinzugefügt. Das Feature der angepassten Unterbrechung wurde optimiert, um inkrementelle Unterbrechungen von 50 ms einzuschließen.
Allgemeine Verbesserungen bei der Stimmenqualität der Sprachsynthese
- Die Genauigkeit der Aussprache auf Wortebene wurde in
pl-PL (Verringerung der Fehlerrate: 51 %) und fi-FI (Verringerung der Fehlerrate: 58 %) verbessert.
- Das Lesen einzelner Wörter für
ja-JP wurde für das Wörterbuchszenario verbessert. Aussprachefehler wurden um 80 % verringert.
-
zh-CN-XiaoxiaoNeural: Die Sprachqualität von „Sentiment/CustomerService/Newscast/Cheerful/Angry style“ wurde verbessert.
-
zh-CN: Die Erhua-Aussprache und der helle Ton wurden verbessert und der Raumsatzrhythmus optimiert, was die Verständlichkeit erheblich verbessert.
Release von September 2020
Neue Funktionen
Neuronale Text-zu-Sprache-Synthese
- Erweitert, um 18 neue Sprachen/Gebietsschemas zu unterstützen. Dazu gehören Bulgarisch, Tschechisch, Deutsch (Österreich), Deutsch (Schweiz), Griechisch, Englisch (Irland), Französisch (Schweiz), Hebräisch, Kroatisch, Ungarisch, Indonesisch, Malaiisch, Rumänisch, Slowakisch, Slowenisch, Tamil, Telugu und Vietnamesisch.
- Wir haben 14 neue Stimmen veröffentlicht, um die Vielfalt in den vorhandenen Sprachen zu erhöhen. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
- Neue Sprechweisen für
en-US- und zh-CN-Stimmen. Jenny, die neue Stimme auf Englisch (USA), unterstützt Chatbot-, Kundendienst- und Assistentenstile. 10 neue Sprechweisen sind mit unserer zh-CN-Stimme „XiaoXiao“ verfügbar. Darüber hinaus unterstützt die neuronale Stimme von XiaoXiao die StyleDegree-Optimierung. Weitere Informationen finden Sie unter Verwenden der Sprachstile in SSML.
Container: Es wurde ein neuronaler Sprachsynthese-Container in der öffentlichen Vorschau mit 16 Stimmen in 14 Sprachen veröffentlicht. Weitere Informationen finden Sie unter Bereitstellen von Speech-Containern für neuronale Sprachsynthese.
Lesen Sie die vollständige Ankündigung der TTS-Updates für Ignite 2020.
Release von August 2020
Neue Funktionen
Neuronale Sprachsynthese: Neuer Sprechstil für die en-US-Stimme „Aria“. AriaNeural kann wie ein Nachrichtensprecher beim Lesen der Nachrichten klingen. Der Stil „newscast-formal“ klingt seriöser, während der Stil „newscast-casual“ lockerer und informell klingt. Weitere Informationen finden Sie unter Verwenden der Sprachstile in SSML.
Benutzerdefinierte Stimme: Release einer neuen Funktion zur automatischen Überprüfung der Trainingsdatenqualität. Wenn Sie Ihre Daten hochladen, untersucht das System verschiedene Aspekte Ihrer Audio- und Transkriptdaten und behebt oder filtert automatisch Probleme, um die Qualität des Sprachmodells zu verbessern. Dies umfasst die Lautstärke Ihrer Audiodaten, den Rauschpegel, die Aussprachegenauigkeit, die Ausrichtung der Sprache mit dem normalisierten Text, die Stille in den Audiodaten sowie das Audio- und Skriptformat.
Audioinhaltserstellung: Neue Features für leistungsstärkere Sprachoptimierungs- und Audioverwaltungsfunktionen:
Aussprache: Das Feature zur Optimierung der Aussprache wurde mit dem aktuellen Phonemsatz aktualisiert. Sie können das richtige Phonemelement aus der Bibliothek auswählen und die Aussprache der ausgewählten Wörter verfeinern.
Herunterladen: Die Audiofeatures „Herunterladen“ und „Exportieren“ wurde verbessert, um das Generieren von Audiodaten nach Absatz zu unterstützen. Sie können den Inhalt in derselben Datei oder in SSML bearbeiten, während Sie mehrere Audioausgaben erzeugen. Die Dateistruktur von „Herunterladen“ wurde ebenfalls optimiert. Sie können jetzt problemlos alle Audiodateien in einem Ordner erhalten.
Taskstatus: Die Funktion zum Exportieren mehrerer Dateien wurde verbessert. Wenn beim Exportieren von mehreren Dateien in der Vergangenheit ein Fehler bei einer der Dateien aufgetreten ist, ist der gesamte Task fehlgeschlagen. Nun werden alle anderen Dateien erfolgreich exportiert. Der Taskbericht wurde um mehr Details und strukturierte Informationen erweitert. Sie können die Protokolle nun mithilfe des Berichts auf alle fehlerhaften Dateien und Sätze überprüfen.
SSML-Dokumentation: Ein Link zur SSML-Dokumentation wurde bereitgestellt, damit Sie die Regeln zur Verwendung der Optimierungsfeatures überprüfen können.
Die Voice List-API wurde aktualisiert, sodass nun ein benutzerfreundlicher Anzeigename und die unterstützten Sprachstile für neuronale Stimmen enthalten sind.
Allgemeine Verbesserungen bei der Stimmenqualität der Sprachsynthese
Der Prozentsatz an Aussprachefehlern für ru-RU (Fehlerrate wurde um 56 % reduziert) und sv-SE (Fehlerrate wurde um 49 % reduziert) wurde reduziert.
Das Lesen von Wörtern mit Polyphonie von neuronalen Stimmen in en-US wurde um 40 % verbessert. Beispiele für Wörter mit Polyphonie sind „read“, „live“, „content“, „record“ und „object“.
Die Natürlichkeit der Betonung von Fragen in fr-FR wurde verbessert. MOS-Erhöhung (Mean Opinion Score): +0,28
Die Vocoder für die folgenden Stimmen wurden mit Genauigkeitsverbesserungen und allgemeiner Leistungsverbesserung um 40 % aktualisiert.
| Gebietsschema |
Sprache |
en-GB |
Mia |
es-MX |
Dalia |
fr-CA |
Sylvie |
fr-FR |
Denise |
ja-JP |
Nanami |
ko-KR |
Sun-Hi |
Behebung von Programmfehlern
- Einige Fehler mit dem Audioinhaltserstellungs-Tool wurden behoben.
- Ein Problem mit der automatischen Aktualisierung wurde behoben.
- Probleme mit Sprachstilen in zh-CN in der Region „Asien, Südosten“ wurden behoben.
- Ein Stabilitätsproblem, einschließlich eines Exportfehlers mit dem Tag „break“, sowie Satzzeichenfehler wurden behoben.
Version vom April 2026
Verbessertes Bewertungsmodell zur Aussprache
Wir haben das Bewertungsmodell für die Aussprache von de-DE aktualisiert, was die Pearson-Korrelationskoeffizienten (PCC) verbessert und somit präzisere und zuverlässigere Bewertungen ermöglicht.
Das aktualisierte Modell kann über die API und den Microsoft Foundry-Playground verwendet werden.
Version vom März 2026
Release von Februar 2026
Der Sprach-zu-Text-Playground im neuen Portal Microsoft Foundry unterstützt jetzt die Sprach-zu-Text-API in Echtzeit. Sie können die Echtzeittranskription direkt im Browser testen, ohne Code zu schreiben. Erste Schritte mit der Schnellstartanleitung "Sprache in Text".
Release von Dezember 2025
Sprache in Text 5.1.0
- Allgemeine Verfügbarkeit der Echtzeit-Diarisierung mithilfe des Sprach-zu-Text-Containers.
- Behobene Sicherheitsrisiken
Version vom November 2025
Die Sprach-API von LLM ist als öffentliche Vorschau jetzt verfügbar. Es verwendet ein Spracherkennungsmodell, das durch ein umfangreiches Sprachmodell erweitert wurde und verbesserte Qualität, tiefgehendes Kontextverständnis, mehrsprachige Unterstützung sowie Funktionen zur Einstimmung von Eingabeaufforderungen bietet. Es unterstützt derzeit die folgenden Sprachaufgaben:
-
transcribe: Konvertieren von vorab aufgezeichneten Audiodaten in Text.
-
translate: Konvertieren von vorab aufgezeichneten Audiodaten in Text in einer angegebenen Zielsprache.
Weitere Informationen finden Sie unter LLM-Spracherkennung.
Schnelle Transkription ist allgemein verfügbar. Sie kann Audioinhalte deutlich schneller transkribieren als diese tatsächlich dauern. Weitere Informationen finden Sie im Leitfaden zur API für schnelle Transkription.
Um mehrsprachige Inhalte kontinuierlich und präzise in einer Audiodatei zu transkribieren, können Sie jetzt das neueste mehrsprachige Modell verwenden, ohne die Gebietsschemacodes über die schnelle Transkription-API anzugeben. Weitere Informationen finden Sie unter mehrsprachige Transkription in schneller Transkription.
Videoübersetzung ist jetzt im Azure Sprachdienst verfügbar. Weitere Informationen finden Sie unter Was ist die Videoübersetzung?
Version von Oktober 2025
Sprache-zu-Text REST-API Version 2025-10-15
Die Spracherkennung-REST-API Version 2025-10-15 ist jetzt allgemein verfügbar. Weitere Informationen finden Sie in der Referenzdokumentation zur Spracherkennungs-REST-API und im Leitfaden zur Spracherkennungs-REST-API.
Gewichtskontrolle für Phrasenlisten im Sprach-SDK
Sie können nun den Einfluss von Begriffslisten auf Spracherkennungsergebnisse steuern, wenn Sie das Speech SDK mit Echtzeittranskription verwenden. Mit der neuen Funktion "Gewichtungsfunktion für Phrase Lists" können Sie ein Bias-Level zwischen 0,0 (deaktiviert) und 2,0 (maximaler Einfluss) festlegen, um zu bestimmen, wie stark Begriffe der Phrase List gegenüber dem Standardwörterbuch bevorzugt werden. Weitere Informationen finden Sie unter Verbessern der Erkennungsgenauigkeit mit der Begriffsliste.
Release von September 2025
Sprache-zu-Text 5.0.3-Vorschau
- Behobene Sicherheitsrisiken
- Unterstützen Sie das Festlegen des Redis-Endpunkts für die Diarisierung durch den Benutzer.
- STT-Backend-Frontend-System-Update
- Es wurde eine Abdeckung von Gebietsschemas hinzugefügt, die zuvor in Version 4.12 unterstützt wurden.
Version vom August 2025
Unterstützung für neue Gebietsschemas bei der schnellen Transkription
Die schnelle Transkription unterstützt jetzt zusätzliche Gebietsschemas, einschließlich einiger en- Varianten (12 Gebietsschemas), es- Varianten (19 Gebietsschemas) und ar- Varianten (13 Gebietsschemas). Weitere Informationen finden Sie unter Unterstützte Sprachen bei der Spracherkennung.
Release von Juli 2025
Verbesserte Sprach-zu-Text-Modelle
Die englischen Modelle (alle en-* Modelle außer en-IN) wurden aktualisiert, um einen neuen VAD (Sprachaktivitätsdetektor) zu integrieren, der die Latenz um 100 ms oder mehr reduziert. Er kann die Genauigkeit und die Stillesegmentierung sowohl positiv als auch negativ beeinflussen, mit dem Ziel, die Latenz zu reduzieren. Weitere Spracherweiterungen kommen in den nächsten Monaten.
Version vom Juni 2025
Verbessertes Bewertungsmodell zur Aussprache
Wir haben erhebliche Upgrades auf die Aussprachebewertungsmodelle für ta-IN und ms-MY veröffentlicht. Sie sehen einen spürbaren Sprung in Pearson Correlation Coefficients (PCC), was genauere und zuverlässige Auswertungen bedeutet.
Diese aktualisierten Modelle sind bereit für die Verwendung über die API und den Microsoft Foundry Playground, genau wie zuvor.
Verbesserte Sprach-zu-Text-Modelle
Die Genauigkeit von Spracherkennungsmodellen in der schnellen Transkription für de-DE, en-US, en-GB, es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR und zh-CN Gebietsschemas werden um 10-25 Prozent verbessert, insbesondere durch eine verbesserte Lesbarkeit und Erkennung von Entitäten.
Version vom Mai 2025
Verbesserte Sprach-zu-Text-Modelle
Die Genauigkeit der Spracherkennung für Textmodelle für ta-IN, te-IN, en-IN und hu-HU Gebietsschemas verbessert sich jeweils um 5-10 Prozent. Wir schätzen auch eine 20-fache Verringerung von Phantomwörtern für die ta-IN und te-IN Modelle.
Schnelle Transkription-API – mehrsprachige Sprachtranskription
Um mehrsprachige Inhalte kontinuierlich und präzise in einer Audiodatei zu transkribieren, können Sie jetzt das neueste mehrsprachige Modell verwenden, ohne die Gebietsschemacodes über die schnelle Transkription-API anzugeben. Weitere Informationen finden Sie unter mehrsprachige Transkription in schneller Transkription.
Unterstützung für neue Gebietsschemas bei der schnellen Transkription
Schnelle Transkription unterstützt jetzt zusätzliche Gebietsschemas, unter anderem fi-FI, he-IL, id-ID, pl-PL, pt-PT, sv-SE usw. Weitere Informationen finden Sie unter Unterstützte Sprachen bei der Spracherkennung.
Release von April 2025
Aussprachebewertung
Wir freuen uns, erhebliche Verbesserungen unserer Aussprachebewertungsmodelle für diese Gebietsschemas ankündigen zu können: de-DE, es-MX, it-IT, ja-JP, ko-KR und pt-BR. Diese Verbesserungen bringen erhebliche Fortschritte in Pearson Correlation Coefficients (PCC), wodurch eine genauere und zuverlässigere Bewertung sichergestellt wird.
Wie zuvor sind die Modelle über die API und Microsoft Foundry Playground verfügbar.
Release von März 2025
Unterhaltungstranskription-Diarisierung für Mehrkanal (eingestellt)
Die Multikanal-Diarisierung der Gesprächstranskription wurde am 28. März 2025 abgeschafft.
Um die Funktion "Sprache-zu-Text mit Diarisierung" weiterhin zu nutzen, verwenden Sie stattdessen die folgenden Funktionen:
Diese Spracherkennungsfeatures unterstützen nur die Diarisierung für Audiodaten mit nur einem Kanal. Mehrkanalaudio, das bei der Unterhaltungstranskription-Diarisierung mit Mehrkanal verwendet wurde, wird nicht unterstützt.
Release von Januar 2025
Neues Feature: Semantische Segmentierung
Ankündigung der Freigabe eines neuen Features: semantische Segmentierung. Dieses Feature integriert ein Interpunktionsmodul im Decoder, das Audio basierend auf semantischen Informationen segmentiert und dadurch logischere und präzisere Segmentierungsgrenzen ermöglicht.
Hauptvorteile:
- Verbesserte Segmentierungsgenauigkeit: Durch die Nutzung semantischer Informationen reduziert dieses Feature Instanzen langer Segmente erheblich, die durch das Fehlen von Pausen in Eingabeaudioinhalten verursacht werden.
- Verringern Sie Wartezeit durch Untersegmentierung: Die Gesamtwartezeit für Spracherkennung wird mit einer Verkürzung der längsten 5 % der Segmente um 40 % bis 60 % reduziert.
- Ausgleich der Übersegmentierung: Dieses Feature trägt außerdem zur Verhinderung von Übersegmentierung bei, indem es die Segmentierung verzögert, wenn ein besserer Satz formuliert werden kann.
Unterstützte Gebietsschemas:
- Englisch (en-US, en-GB)
- Chinesisch (zh-CN, zh-HK)
- Japanisch (ja-JP)
- Koreanisch (ko-KR)
- Deutsch (de-DE)
- Französisch (fr-FR)
- Italienisch (it-IT)
- Spanisch (es-ES, es-MX)
- Hindi (hi-IN)
- Portugiesisch (pt-BR, pt-PT)
- Türkisch (tr-TR)
- Russisch (ru-RU)
- Thailändisch (th-TH)
- Indonesisch (id-ID)
Details zur Implementierung finden Sie in der Dokumentation Erkennen von Sprache im Abschnitt „Semantische Segmentierung“.
Echtzeit-Spracherkennung: Neues Modellrelease für Englisch
Ankündigung zum Release des aktuellen englischen Sprachmodells (en-US, en-CA), das erhebliche Verbesserungen für verschiedene Leistungsmetriken bringt. Im Folgenden sind die wichtigsten Highlights des Release aufgeführt:
- Verbesserungen bei der Barrierefreiheit: Eine Reduzierung der Wortfehlerrate (WER) um 36 % in Microsoft-internen Barrierefreiheitstestsätzen, wodurch die Spracherkennung von Personen mit Sprachbehinderungen präziser und zuverlässiger wird.
- Ghost Word Reduction: Eine bemerkenswerte Reduzierung von Geisterwörtern um 90% auf dem Ghost Word-Entwicklungsset und Reduktionen reichen von 63% bis 100% bei anderen Ghost Word-Datensätzen, wodurch die Klarheit und Genauigkeit von Transkriptionen erheblich verbessert wird.
Das neue Modell hat auch die Gesamtleistung, einschließlich der Entitätserkennung und einer besseren Erkennung geschriebener Buchstaben, verbessert.
Es wird erwartet, dass diese Fortschritte eine genauere, effizientere und zufriedenstellendere Erfahrung für alle Benutzenden ermöglichen. Das neue Modell ist über die API und Microsoft Foundry Playground verfügbar. Jegliches Feedback dient der weiteren Verbesserung von Features.
Release von November 2024
Spracherkennungs-REST-API Version 2024-11-15
Die Spracherkennung-REST-API Version 2024-11-15 ist jetzt allgemein verfügbar. Weitere Informationen finden Sie in der Referenzdokumentation zur Spracherkennungs-REST-API und im Leitfaden zur Spracherkennungs-REST-API.
Hinweis
Die Spracherkennungs-REST-API Version 2024-05-15-preview ist veraltet.
Schnelle Transkription (GA)
Die schnelle Transkription ist jetzt über die Spracherkennungs-REST-API Version 2024-11-15 allgemein verfügbar. Mit der schnellen Transkription können Sie Audiodateien präzise und synchron mit einem hohen Geschwindigkeitsfaktor in Text umwandeln. Sie kann Audioinhalte schneller transkribieren als diese tatsächlich dauern. Weitere Informationen finden Sie im Leitfaden zur API für schnelle Transkription.
Release von Oktober 2024
Echtzeit-Spracherkennung (zweisprachig)
Die Erkennungsqualität für spanische Kurzbegriffe wurde durch die zweisprachigen es-US-Modelle erheblich verbessert. Das Modell ist zweisprachig und unterstützt auch Englisch. Die Qualität der englischen Erkennung wurde ebenfalls verbessert.
Videoübersetzung (Vorschau)
Die Videoübersetzungs-API ist jetzt als Public Preview verfügbar. Weitere Informationen finden Sie unter Verwenden der Videoübersetzung.
Release vom September 2024
Spracherkennung in Echtzeit
Die Echtzeit-Spracherkennung hat neue Modelle mit besserer Qualität für die folgenden Sprachen veröffentlicht.
fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ
Schnelle Transkription (Vorschau)
Schnelle Transkription unterstützt jetzt die Diarisierung, um mehrere Sprecher in Monokanalaudiodateien zu erkennen und zu trennen. Weitere Informationen finden Sie im Leitfaden zur API für schnelle Transkription.
Release von August 2024
Spracherwerb (Vorschau)
Spracherwerb ist jetzt in der öffentlichen Vorschau verfügbar. Interaktives Sprachlernen kann Ihre Lernerfahrung ansprechender und effektiver gestalten. Weitere Informationen finden Sie unter Interaktives Sprachlernen mit Aussprachebewertung.
Aussprachebewertung
Die Speech-Aussprachebewertung unterstützt jetzt 33 Sprachen, die allgemein verfügbar sind. Alle Sprachen sind in allen Spracherkennungsregionen verfügbar. Weitere Informationen finden Sie in der vollständigen Sprachenliste für die Aussprachebewertung.
| Sprache |
Gebietsschema (BCP-47) |
| Arabisch (Ägypten) |
ar-EG |
| Arabisch (Saudi-Arabien) |
ar-SA |
| Katalanisch |
ca-ES |
| Chinesisch (Kantonesisch, traditionell) |
zh-HK |
| Chinesisch (Mandarin, vereinfacht) |
zh-CN |
| Chinesisch (Taiwanesisch, Mandarin; traditionell) |
zh-TW |
| Dänisch (Dänemark) |
da-DK |
| Niederländisch (Niederlande) |
nl-NL |
| Englisch (Australien) |
en-AU |
| Englisch (Kanada) |
en-CA |
| Englisch (Indien) |
en-IN |
| Walisisch (Großbritannien) |
en-GB |
| Englisch (USA) |
en-US |
| Finnisch (Finnland) |
fi-FI |
| Französisch (Kanada) |
fr-CA |
| Französisch (Frankreich) |
fr-FR |
| Deutsch (Deutschland) |
de-DE |
| Hindi (Indien) |
hi-IN |
| Italienisch (Italien) |
it-IT |
| Japanisch (Japan) |
ja-JP |
| Koreanisch (Korea) |
ko-KR |
| Malaiisch (Malaysia) |
ms-MY |
| Norwegisch, Bokmål (Norwegen) |
nb-NO |
| Polnisch (Polen) |
pl-PL |
| Portugiesisch (Brasilien) |
pt-BR |
| Portugiesisch (Portugal) |
pt-PT |
| Russisch (Russische Föderation) |
ru-RU |
| Spanisch (Mexiko) |
es-MX |
| Spanisch (Spanien) |
es-ES |
| Schwedisch (Schweden) |
sv-SE |
| Tamil (Indien) |
ta-IN |
| Thailändisch (Thailand) |
th-TH |
| Vietnamesisch (Vietnam) |
vi-VN |
Release von Juli 2024
API für schnelle Transkription (Vorschau)
Schnelle Transkription ist jetzt als Public Preview verfügbar. Mit der schnellen Transkription können Sie Audiodateien präzise und synchron mit einem hohen Geschwindigkeitsfaktor in Text umwandeln. Sie kann Audioinhalte schneller transkribieren als diese tatsächlich dauern. Weitere Informationen finden Sie im Leitfaden zur API für schnelle Transkription.
Release vom Juni 2024
Allgemeine Verfügbarkeit der Spracherkennung-REST-API v3.2
Die Spracherkennung-REST-API, Version 3.2, ist jetzt allgemein verfügbar. Weitere Informationen zur Spracherkennung-REST-API v3.2 finden Sie in der Referenzdokumentation zur Spracherkennung-REST-API v3.2 und in der Anleitung zur Spracherkennung-REST-API.
Hinweis
Die Vorschauversionen 3.2-preview.1 und 3.2-preview.2 wurden im September 2024 eingestellt.
Sprache-zu-Text REST-API v3.1 und v3.0 wurden am 31. März 2026 eingestellt. Weitere Informationen zum Upgraden finden Sie in den Migrationsleitfäden v3.0 zu v3.1 und v3.1 zu v3.2 der Spracherkennung-REST-API.
Release von Mai (2024)
Videoübersetzung (Vorschau)
Die Videoübersetzung ist jetzt als Public Preview verfügbar. Die Videoübersetzung ist ein Feature von Azure Speech in Foundry Tools, mit dem Sie Videos automatisch nahtlos in mehreren Sprachen übersetzen und generieren können. Diese Funktion soll Ihnen helfen, Ihre Videoinhalte zu lokalisieren, um ein breites Publikum auf der ganzen Welt anzusprechen. Sie können auf effiziente Weise beeindruckende, lokalisierte Videos für verschiedene Anwendungsbereiche wie Vlogs, Bildung, Nachrichten, Unternehmensschulungen, Werbung, Film, TV-Shows und mehr erstellen. Weitere Informationen finden Sie unter Übersicht über die Videoübersetzung.
Aussprachebewertung
Die Aussprachebewertung von Speech unterstützt jetzt 24 allgemein verfügbare Sprachen (7 neue Sprachen hinzugefügt), wobei 3 zusätzliche Sprachen in der Vorschau verfügbar sind. Weitere Informationen finden Sie in der vollständigen Sprachenliste für die Aussprachebewertung.
Release von April 2024
Automatische mehrsprachige Sprachübersetzung (Preview)
Automatische mehrsprachige Sprachübersetzung ist in der öffentlichen Vorschau verfügbar. Diese innovative Funktion revolutioniert die Art und Weise, wie Sprachbarrieren überwunden werden, und bietet unvergleichliche Möglichkeiten für eine nahtlose Kommunikation über verschiedene Sprachlandschaften hinweg.
Wichtigste Highlights
- Nicht spezifizierte Eingabesprache: Die mehrsprachige Sprachübersetzung kann Audiodaten in einer Vielzahl von Sprachen verarbeiten, und es ist nicht erforderlich, die erwartete Eingabesprache anzugeben. Das macht es zu einer unverzichtbaren Funktion, um einander in globalen Kontexten zu verstehen und miteinander zu arbeiten, ohne dass eine Voreinstellung erforderlich ist.
- Sprachwechsel: Die mehrsprachige Sprachübersetzung ermöglicht es, dass mehrere Sprachen während derselben Sitzung gesprochen werden können, die alle in dieselbe Zielsprache übersetzt werden. Es ist nicht nötig, eine Sitzung neu zu starten, wenn sich die Eingabesprache ändert oder Sie eine andere Aktion durchführen.
Funktionsweise
- Reisedolmetscher: Die mehrsprachige Sprachübersetzung kann die Erfahrung von Reisenden in fremden Ländern verbessern, indem sie ihnen Informationen und Hilfe in ihrer bevorzugten Sprache bietet. Hotel-Concierge-Services, Führungen und Besucherzentren können diese Technologie nutzen, um auf die unterschiedlichen sprachlichen Bedürfnisse einzugehen.
- Internationale Konferenzen: Mehrsprachige Sprachübersetzung kann die Kommunikation zwischen Teilnehmenden aus verschiedenen Regionen, die möglicherweise verschiedene Sprachen sprechen, durch live übersetzte Untertitel erleichtern. Die Teilnehmenden können in ihrer Muttersprache sprechen, ohne diese angeben zu müssen, was eine nahtlose Verständigung und Zusammenarbeit gewährleistet.
- Bildungsveranstaltungen: In multikulturellen Klassenzimmern oder Online-Lernumgebungen kann die mehrsprachige Sprachübersetzung die Sprachenvielfalt unter Lernenden und Lehrenden unterstützen. Es ermöglicht eine nahtlose Kommunikation und Teilnahme, ohne dass Sie die Sprache der einzelnen Lernenden oder Lehrenden angeben müssen.
So erfolgt der Zugriff
Eine ausführliche Einführung finden Sie in der Übersicht über die Sprachübersetzung. Außerdem können Sie sich die Codebeispiele unter Wie Sprache übersetzt wird ansehen. Diese neue Funktion wird von allen SDK-Versionen ab 1.37.0 vollständig unterstützt.
Spracherkennung in Echtzeit mit Diarisierung (GA)
Die Spracherkennung in Echtzeit mit Diarisierung ist jetzt allgemein verfügbar.
Sie können Spracherkennungsanwendungen erstellen, die die Spracherkennung nutzen, um zwischen verschiedenen Sprecherinnen und Sprechern zu unterscheiden, die an dem Gespräch teilnehmen. Weitere Informationen zur Echtzeit-Diarisierung finden Sie in der Schnellstartanleitung zur Echtzeit-Diarisierung.
Update des Spracherkennungsmodells
Für die Echtzeit-Spracherkennung wurden neue Modelle mit zweisprachigen Funktionen veröffentlicht. Das en-IN-Modell unterstützt jetzt zweisprachige Szenarien auf Englisch und Hindi und bietet eine verbesserte Genauigkeit. Arabische Gebietsschemas (ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, ar-OM, ar-PS, ar-QA, ar-SA, ar-SY, ar-TN, ar-YE) sind jetzt mit zweisprachiger Unterstützung für Englisch ausgestattet und weisen eine verbesserte Genauigkeit und Callcenterunterstützung auf.
Die Batchtranskription bietet Modelle mit neuer Architektur für diese Gebietsschemata: es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, und zh-CN. Diese Modelle verbessern die Lesbarkeit und die Entitätserkennung erheblich.
Release von März 2024
Allgemeine Verfügbarkeit (General Availability, GA) von Whisper
Das Whisper-Spracherkennungsmodell mit Azure Speech ist jetzt allgemein verfügbar.
Schauen Sie sich What is the Whisper model? an, um mehr darüber zu erfahren, wann Azure Speech vs. Azure OpenAI in Microsoft Foundry Models verwendet werden sollte.
Version vom Februar 2024
Aussprachebewertung
Ausdrucksliste
Ausdruckslisten für die folgenden Gebietsschemas werden jetzt unterstützt: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.
Release von November 2023
Einführung in das zweisprachige Sprachmodell!
Wir freuen uns, eine bahnbrechende Ergänzung zu unserem Echtzeit-Sprachmodell vorstellen zu können: das zweisprachige Sprachmodell. Diese erhebliche Verbesserung ermöglicht es unserem Sprachmodell, bilinguale Sprachpaare wie Englisch und Spanisch sowie Englisch und Französisch nahtlos zu unterstützen. Mit diesem Feature können Benutzer*innen während Echtzeitinteraktionen mühelos zwischen Sprachen wechseln. Dies ist ein entscheidender Moment in unserem Bestreben, das Kommunikationserlebnis zu verbessern.
Wichtigste Highlights:
- Bilinguale Unterstützung: Mit unserer neuesten Version können Benutzer*innen während Echtzeitsprachinteraktionen nahtlos zwischen Englisch und Spanisch oder zwischen Englisch und Französisch wechseln. Diese Funktionalität ist auf Personen zugeschnitten, die zwei Sprachen sprechen und häufig zwischen diesen beiden Sprachen wechseln.
- Erweiterte Benutzeroberfläche: Personen, die zwei Sprachen sprechen, werden diese Funktion als äußerst nützlich empfinden – sei es bei der Arbeit, zu Hause oder in anderen Umgebungen. Die Fähigkeit des Modells, Englisch und Spanisch zu verstehen und in Echtzeit darauf zu reagieren, eröffnet neue Möglichkeiten für effektive und flüssige Kommunikation.
Verwendung:
Wählen Sie es-US (Spanisch und Englisch) oder fr-CA (Französisch und Englisch) aus, wenn Sie die Spracherkennungsdienst-API aufrufen oder die Funktion in Speech Studio ausprobieren. Sie können entweder nur eine Sprache verwenden oder die Sprachen kombinieren – das Modell ist darauf ausgelegt, sich dynamisch anzupassen, sodass präzise und kontextbezogene Antworten in beiden Sprachen bereitgestellt werden.
Verbessern Sie Ihre Kommunikation mit unserem neuesten Featurerelease: direkt verfügbare, nahtlose Kommunikation in mehreren Sprachen!
Update von Sprache-in-Text-Modellen
Wir freuen uns, ein erhebliches Update für unsere Sprachmodelle, vielversprechende verbesserte Genauigkeit, verbesserte Lesbarkeit und optimierte Entitätserkennung einzuführen. Dieses Upgrade verfügt über eine robuste neue Struktur, die durch ein erweitertes Schulungsdataset gestärkt wird und eine deutliche Verbesserung der Gesamtleistung gewährleistet. Es enthält neu veröffentlichte Modelle für en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE und he-IL.
Höhepunkte:
- Bessere Genauigkeit mit neuer Modellstruktur: Die neu definierte Modellstruktur, gekoppelt mit einem umfangreicheren Schulungsdatensatz, erhöht Genauigkeitsstufen und sorgt für eine vielversprechendere Sprachausgabe.
- Verbesserung der Lesbarkeit: Unser neuestes Modell bringt eine erhebliche Steigerung der Lesbarkeit, verbesserung der Kohärenz und Klarheit gesprochener Inhalte.
- Erweiterte Entitätserkennung: Die Entitätserkennung erhält ein erhebliches Upgrade, was zu genaueren und differenzierten Ergebnissen führt.
Mögliche Auswirkungen: Trotz dieser Fortschritte ist es von entscheidender Bedeutung, potenzielle Auswirkungen zu berücksichtigen:
- Benutzerdefiniertes Stilletimeout: Benutzende, die das benutzerdefinierte Stilletimeout verwenden, können insbesondere bei niedrigen Einstellungen eine Übersegmentierung und das Auslassen von Ein-Wort-Sätzen feststellen.
- Das neue Modell kann Kompatibilitätsprobleme mit der Schlüsselwortpräfixfunktion aufweisen, und den Benutzern wird empfohlen, die Leistung in ihren spezifischen Anwendungen zu bewerten.
- Weniger überflüssige Wörter oder Ausdrücke: Benutzer bemerken möglicherweise eine Verringerung der Überflüssigkeit von Wörtern oder Ausdrücken wie „um“ oder „uh“ in der Sprachausgabe.
- Ungenauigkeiten in Wort-Zeitstempeldauer: Einige überflüssige Wörter zeigen möglicherweise Ungenauigkeiten in der Zeitstempeldauer an, was in Anwendungen, die von präzisem Timing abhängig sind, aufmerksamkeitsabhängig ist.
- Varianz der Konfidenzwertverteilung: Benutzer, die auf Konfidenzbewertungen und zugehörigen Schwellenwerten vertrauen, sollten sich potenzielle Abweichungen in der Verteilung bewusst sein und Anpassungen für eine optimale Leistung erfordern.
- Die Genauigkeitsverbesserung des Begriffslistenfeatures kann von der Fehlerkennung bestimmter Ausdrücke beeinflusst werden.
Wir empfehlen Ihnen, diese Verbesserungen zu untersuchen und potenzielle Probleme für einen nahtlosen Übergang zu berücksichtigen, und wie immer ist Ihr Feedback entscheidend für die Verfeinerung und Weiterentwicklung unserer Dienste.
Aussprachebewertung
Die Sprach-Aussprachebewertung unterstützt jetzt 18 Sprachen, die allgemein verfügbar sind, wobei 6 zusätzliche Sprachen in der Vorschau verfügbar sind. Weitere Informationen finden Sie in der vollständigen Sprachenliste für die Aussprachebewertung.
Wir freuen uns, Ihnen mitzuteilen, dass die Aussprachebewertung ab dem 1. November 2023 neue Features eingeführt: Prosodie, Grammatik, Vokabular und Thema. Diese Verbesserungen zielen darauf ab, eine noch umfassendere Sprachlernerfahrung für Lese- und Sprachbewertungen bereitzustellen. Aktualisieren Sie auf die SDK-Version 1.35.0 oder später, um weitere Details in Verwenden der Aussprachebewertung und Aussprachebewertung in Speech Studio zu erkunden.
Release vom September 2023
Whisper in der öffentlichen Vorschau
Azure Speech unterstützt jetzt das Flüstermodell von OpenAI über die Batchtranskriptions-API. Weitere Informationen finden Sie im Leitfaden Erstellen einer Batchtranskription.
Hinweis
Azure OpenAI unterstützt auch das Flüstermodell von OpenAI für Text mit einer synchronen REST-API. Weitere Informationen finden Sie unter Schnellstart.
Lesen Sie What is the Whisper model?, um mehr darüber zu erfahren, wann Sie Azure Speech anstelle von Azure OpenAI verwenden sollten.
Spracherkennungs-REST-API 3.2 Public Preview
Die Spracherkennungs-REST-API v3.2 ist in Preview verfügbar.
Die Spracherkennungs-REST-API v3.1 ist allgemein verfügbar. Die Sprach-zu-Text REST API v3.0 wurde am 31. März 2026 eingestellt. Weitere Informationen finden Sie in den Migrationsleitfäden der Spracherkennungs-REST-API v3.0 zu v3.1 und v3.1 zu v3.2.
Release von August 2023
Neue Gebietsschemata für die Spracherkennung:
Die Spracherkennung unterstützt zwei neue Gebietsschemas, wie in der folgenden Tabelle dargestellt. Eine vollständige Liste der Sprachen finden Sie hier.
| Gebietsschema |
Sprache |
pa-IN |
Punjabi (Indien) |
ur-IN |
Urdu (Indien) |
Aussprachebewertung
- Die Aussprachebewertung in Speech unterstützt jetzt drei zusätzliche Sprachen in der allgemeinen Verfügbarkeit: Englisch (Kanada), Japanisch (Japan) und Spanisch (Mexiko). Drei weitere Sprachen sind in der Vorschau verfügbar. Weitere Informationen finden Sie in der vollständigen Sprachenliste für die Aussprachebewertung.
Version vom Mai 2023
Aussprachebewertung
- Die Sprach-Aussprachebewertung unterstützt jetzt 3 zusätzliche Sprachen, die allgemein in Deutsch (Deutschland), Japanisch (Japan) und Spanisch (Mexiko) verfügbar sind, wobei 4 zusätzliche Sprachen in der Vorschau verfügbar sind. Weitere Informationen finden Sie in der vollständigen Sprachenliste für die Aussprachebewertung.
- Sie können jetzt die Standardverpflichtungsebene Speech to Text für die Aussprachebewertung für alle öffentlichen Regionen verwenden. Wenn Sie eine Mindestabnahme für die Standardspracherkennung erwerben, werden die Ausgaben für die Aussprachebewertung auf die Erfüllung der Mindestabnahme angerechnet. Weitere Informationen unter Preise für Mindestabnahme.
Release von Februar 2023
Aussprachebewertung
- Die Aussprachebewertung von Speech unterstützt jetzt fünf weitere Sprachen: Englisch (Vereinigtes Königreich), Englisch (Australien), Französisch (Frankreich), Spanisch (Spanien) und Chinesisch (Mandarin, vereinfacht) sind allgemein verfügbar, weitere Sprachen als Vorschau.
- Es wurde Beispielcode hinzugefügt, der die Verwendung der Aussprachebewertung im Streamingmodus in Ihrer eigenen Anwendung veranschaulicht.
Custom Speech
Unterstützung für Audio und von Menschen bezeichnete Transkripte wird für die Gebietsschemas de-AT hinzugefügt.
Release vom Januar 2023
Custom Speech
Unterstützung für Audio und von Menschen bezeichnete Transkripte wird für zusätzliche Gebietsschemas hinzugefügt: ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YE und ja-JP.
Unterstützung für die Anpassung von strukturiertem Text wird für das Gebietsschema de-AT hinzugefügt.
Release von Dezember 2022
Spracherkennung-REST-API
Die Spracherkennungs-REST-API, Version 3.1, ist allgemein verfügbar. Version 3.0 der Spracherkennungs-REST-API wird eingestellt. Weitere Informationen zur Migration finden Sie im Leitfaden.
Release von Oktober 2022
Neues Gebietsschema für die Spracherkennung
Unterstützung für Malayalam (Indien) mit Gebietsschema ml-IN hinzugefügt. Eine vollständige Liste der Sprachen finden Sie hier.
Release von Juli 2022
Neue Gebietsschemata für die Spracherkennung:
Es wurden 7 neue Gebietsschemas hinzugefügt, wie in der folgenden Tabelle dargestellt. Eine vollständige Liste der Sprachen finden Sie hier.
| Gebietsschema |
Sprache |
bs-BA |
Bosnien (Bosnien und Herzegowina) |
yue-CN |
Chinesisch (Kantonesisch, vereinfacht) |
zh-CN-sichuan |
Chinesisch (Mandarin, Südwesten; vereinfacht) |
wuu-CN |
Chinesisch (Wu, vereinfacht) |
ps-AF |
Paschtu (Afghanistan) |
so-SO |
Somalia (Somalia) |
cy-GB |
Walisisch (Großbritannien) |
Release von Juni 2022
Neue Gebietsschemata für die Spracherkennung:
Es wurden 10 neue Gebietsschemas hinzugefügt, wie in der folgenden Tabelle dargestellt. Eine vollständige Liste der Sprachen finden Sie hier.
| Gebietsschema |
Sprache |
sq-AL |
Albanisch (Albanien) |
hy-AM |
Armenisch (Armenien) |
az-AZ |
Aserbaidschanisch (Aserbaidschan) |
eu-ES |
Baskisch |
gl-ES |
Galizisch |
ka-GE |
Georgisch (Georgien) |
it-CH |
Italienisch (Schweiz) |
kk-KZ |
Kasachisch (Kasachstan) |
mn-MN |
Mongolisch (Mongolei) |
ne-NP |
Nepalesisch (Nepal) |
Release von April 2022
Neue Gebietsschemata für die Spracherkennung:
Im Folgenden finden Sie eine Liste der neuen Gebietsschemas. Eine vollständige Liste der Sprachen finden Sie hier.
| Gebietsschema |
Sprache |
bn-IN |
Bangla (Indien) |
Release von Januar 2022
Neue Gebietsschemata für die Spracherkennung:
Im Folgenden finden Sie eine Liste der neuen Gebietsschemas. Eine vollständige Liste der Sprachen finden Sie hier.
| Gebietsschema |
Sprache |
af-ZA |
Afrikaans (Südafrika) |
am-ET |
Amharisch (Äthiopien) |
de-CH |
Deutsch (Schweiz) |
fr-BE |
Französisch (Belgien) |
is-IS |
Isländisch (Island) |
jv-ID |
Javanesisch (Indonesien) |
km-KH |
Khmer (Kambodscha) |
kn-IN |
Kannada (Indien) |
lo-LA |
Laotisch (Laos) |
mk-MK |
Mazedonisch (Nordmazedonien) |
my-MM |
Birmanisch (Myanmar) |
nl-BE |
Niederländisch (Belgien) |
si-LK |
Sinhala (Sri Lanka) |
sr-RS |
Serbisch (Serbien) |
sw-TZ |
Suaheli (Tansania) |
uk-UA |
Ukrainisch (Ukraine) |
uz-UZ |
Usbekisch (Usbekistan) |
zu-ZA |
Zulu (Südafrika) |
Release von Juli 2021
Neue Gebietsschemata für die Spracherkennung:
Im Folgenden finden Sie eine Liste der neuen Gebietsschemas. Eine vollständige Liste der Sprachen finden Sie hier.
| Gebietsschema |
Sprache |
ar-DZ |
Arabisch (Algerien) |
ar-LY |
Arabisch (Libyen) |
ar-MA |
Arabisch (Marokko) |
ar-TN |
Arabisch (Tunesien) |
ar-YE |
Arabisch (Jemen) |
bg-BG |
Bulgarisch (Bulgarien) |
el-GR |
Griechisch (Griechenland) |
et-EE |
Estnisch (Estland) |
fa-IR |
Persisch (Iran) |
ga-IE |
Irisch (Irland) |
hr-HR |
Kroatisch (Kroatien) |
lt-LT |
Litauisch (Litauen) |
lv-LV |
Lettisch (Lettland) |
mt-MT |
Maltesisch (Malta) |
ro-RO |
Rumänisch (Rumänien) |
sk-SK |
Slowakisch (Slowakei) |
sl-SI |
Slowenisch (Slowenien) |
sw-KE |
Suaheli (Kenia) |
Release von Januar 2021
Neue Gebietsschemata für die Spracherkennung:
Im Folgenden finden Sie eine Liste der neuen Gebietsschemas. Eine vollständige Liste der Sprachen finden Sie hier.
| Gebietsschema |
Sprache |
ar-AE |
Arabisch (Vereinigte Arabische Emirate) |
ar-IL |
Arabisch (Israel) |
ar-IQ |
Arabisch (Irak) |
ar-OM |
Arabisch (Oman) |
ar-PS |
Arabisch (Palästinensische Autonomiebehörde) |
de-AT |
Deutsch (Österreich) |
en-GH |
Englisch (Ghana) |
en-KE |
Englisch (Kenia) |
en-NG |
Englisch (Nigeria) |
en-TZ |
Englisch (Tansania) |
es-GQ |
Spanisch (Äquatorialguinea) |
fil-PH |
Philippinisch (Philippinen) |
fr-CH |
Französisch (Schweiz) |
he-IL |
Hebräisch (Israel) |
id-ID |
Indonesisch (Indonesien) |
ms-MY |
Malaiisch (Malaysia) |
vi-VN |
Vietnamesisch (Vietnam) |
Release von August 2020
Neue Gebietsschemata für die Spracherkennung:
Im August wurden 26 neue Gebietsschemata für die Spracherkennung veröffentlicht: 2 europäische Sprachen (cs-CZ und hu-HU), 5 englische Gebietsschemata und 19 spanische Gebietsschemata, die die meisten Regionen/Länder in Südamerika abdecken. Im Folgenden finden Sie eine Liste der neuen Gebietsschemas. Eine vollständige Liste der Sprachen finden Sie hier.
| Gebietsschema |
Sprache |
cs-CZ |
Tschechisch (Tschechische Republik) |
en-HK |
Englisch (Hongkong Sonderverwaltungsregion) |
en-IE |
Englisch (Irland) |
en-PH |
Englisch (Philippinen) |
en-SG |
Englisch (Singapur) |
en-ZA |
Englisch (Südafrika) |
es-AR |
Spanisch (Argentinien) |
es-BO |
Spanisch (Bolivien) |
es-CL |
Spanisch (Chile) |
es-CO |
Spanisch (Kolumbien) |
es-CR |
Spanisch (Costa Rica) |
es-CU |
Spanisch (Kuba) |
es-DO |
Spanisch (Dominikanische Republik) |
es-EC |
Spanisch (Ecuador) |
es-GT |
Spanisch (Guatemala) |
es-HN |
Spanisch (Honduras) |
es-NI |
Spanisch (Nicaragua) |
es-PA |
Spanisch (Panama) |
es-PE |
Spanisch (Peru) |
es-PR |
Spanisch (Puerto Rico) |
es-PY |
Spanisch (Paraguay) |
es-SV |
Spanisch (El Salvador) |
es-US |
Spanisch (USA) |
es-UY |
Spanisch (Uruguay) |
es-VE |
Spanisch (Venezuela) |
hu-HU |
Ungarisch (Ungarn) |
Release von Februar 2026
Voice Agent-Integration mit Foundry Agent Service ist in der Vorschau mit SDK-Unterstützung für Python, Java, C# und JavaScript verfügbar. Erstellen Sie Echtzeit-Sprach-Agents mit der neuen Schnellstartanleitung und dem Leitfaden. Weitere Informationen finden Sie unter "Erste Schritte mit Voice Live" und "Foundry Agent Service " und "How to build a voice agent".
Es stehen neue Anleitungen zur Verfügung:
Version vom Januar 2026
Die Voice Live-API-Referenz 2026-01-01-preview ist in der Vorschauversion verfügbar, mit aktualisierter Ereignis- und Konfigurationsabdeckung für Voice Live-Sitzungen. Weitere Informationen finden Sie unter Voice Live API Reference 2026-01-01-01-preview.
November 2025
Die Voice Live-API ist allgemein verfügbar. Wandeln Sie Unterhaltungen in nahtlose Erfahrungen mit der Voice Live-API um – die All-in-One-Lösung, die Spracherkennung, generative KI und Text-zu-Sprache kombiniert, in eine einzige Schnittstelle mit geringer Latenz für die Erstellung intelligenter VoIP-Agents. Weitere Informationen finden Sie unter Voice Live.
Veröffentlichung im Juni 2025
Neuraler Text-zu-Sprache 3.11.0
Veröffentlicht neurale Text-zu-Sprache Version 3.11.0.
- Unterstützung für neue neurale Stimmen hinzugefügt:
de-DE-SeraphinaMultilingualNeural, es-ES-XimenaMultilingualNeural, fi-FI-SelmaNeural, nb-NO-FinnNeural.
- Unterstützung für mehrsprachige benutzerdefinierte Lexika hinzugefügt.
Veröffentlichung im Mai 2025
Hinzugefügte Unterstützung für die neuesten Modellversionen:
Für Text-to-Speech:
- Das Text-to-Speech-Back-End und die Front-End-Engine wurden auf die neuesten Versionen aktualisiert.
- Unterstützung für mehrsprachige benutzerdefinierte Lexika hinzugefügt.
- Verbesserte die Gesundheitsprüfungsfunktion. Der Gesundheitsprüfungsendpunkt ist jetzt
/synthesize/health. Wenn der Dienst fehlerfrei ist, gibt dieser Endpunkt DEN HTTP-Status 200 zurück. wenn der Dienst nicht korrekt ist, wird der HTTP-Status 503 zurückgegeben.
- Das Basisimage wurde auf AspNet 8.0.16 aktualisiert, um Sicherheitsrisiken vom März/April 2025 Microsoft ASP.NET Core Sicherheitsupdates zu beheben.
Veröffentlichung im März 2025
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Neuronale Sprachsynthese 3.9.0
- Sprache in Text 5.0.1 (Vorschau)
- Benutzerdefinierte Spracherkennung 5.0.1 (Vorschau)
Für Sprache zu Text und benutzerdefinierte Sprache in Text sind die folgenden Features enthalten:
- Unterstützung für neue Spracherkennungs- und Textmodelle
- Betriebssystemänderung in Azure Linux 3.0
- Unterstützung für neue Lokalisierungen: ar-dz, as-in, es-gq, or-in, pa-in und ur-in
- Decoderupdate
- Möglichkeit zur Verwendung neuerer benutzerdefinierter Modelle (2023+) im Container
Für Text-zu-Sprache wurde Unterstützung für neue neuronale Stimmen hinzugefügt: en-GB-OliviaNeural, en-US-ChristopherNeural und nl-NL-FennaNeural.
Veröffentlichung im Februar 2025
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Spracherkennung 1.18.0
- Neuronale Sprachsynthese 3.7.0
- Sprache in Text 4.12.0
- Benutzerdefinierte Spracherkennung 4.12.0
Hier sind die Highlights der Veröffentlichungen:
| Featureupdate |
Sprache-zu-Text |
Benutzerdefinierte Spracherkennung |
Neuronale Text-zu-Sprache-Synthese |
Speech-Sprachenerkennung |
| Korrekturen für Sicherheitslücken |
✅ |
✅ |
✅ |
✅ |
| Migriertes Betriebssystem von Ubuntu 20.04 zu Ubuntu 22.04 |
✅ |
✅ |
✅ |
✅ |
| Neue Gebietsschemas: ar-ly, fr-be, nl-be und uz-uz |
✅ |
✅ |
|
|
| Aktualisierte Nuget-Pakete, Go-Version |
✅ |
✅ |
|
|
| Parallelisierung des Modelldownloads hinzugefügt, um die Modelldownloadzeit zu verringern |
✅ |
✅ |
✅ |
|
Release vom Oktober 2024
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Speech-Sprachenerkennung 1.16.0
- Neuronale Sprachsynthese 3.5.0
-
en-us-ariacpuneural als Alias für en-us-jessacpuneural festgelegt
- Version der Back-End-Engine für die Sprachsynthese aktualisiert
- Spracherkennung 4.10.0
- Unterstützung für Gebietsschema
uk-UA wieder hinzugefügt
- Stilleeinstellungen für die Arbeit mit langen Pausen in Audiodaten korrigiert
- Veraltete Modelle ersetzt:
cs-CZ, da-DK, en-GB, fr-CA, hu-HU, it-CH, tr-TR, zh-CN-sichuan
- Benutzerdefinierte Spracherkennung 4.10.0
Release von September 2024
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Speech-Sprachenerkennung 1.15.0
- Entschärfen von Sicherheitsrisiken
- Neuronale Sprachsynthese 3.4.0
- Neue Stimmen:
en-us-andrewmultilingualneural, en-us-jessaneural, es-us-alonsoneural, es-us-palomaneural, it-it-isabellamultilingualneural
- Entschärfen von Sicherheitsrisiken
- Spracherkennung 4.9.0
- Neue Gebietsschemas:
ar-YE, af-ZA, am-ET, ar-MA, ar-TN, sw-KE, sw-TZ, zu-ZA
- Entschärfen von Sicherheitsrisiken
- Update für veraltete Modelle
- Benutzerdefinierte Spracherkennung 4.9.0
- Entschärfen von Sicherheitsrisiken
Release von August 2024
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Speech-Sprachenerkennung 1.14.0
- Aktualisierung .NET 8.0
- Entschärfen von Sicherheitsrisiken
- Neuronale Sprachsynthese 3.3.0
- Aktualisierung .NET 8.0
- Entschärfen von Sicherheitsrisiken
- Spracherkennung 4.8.0
- Aktualisierung .NET 8.0
- Entschärfen von Sicherheitsrisiken
- Upgrade für Erkennungs-Engine
- Behebung des Problems, dass
PropertyId.Speech_SegmentationSilenceTimeoutMs ignoriert wurde
- Update für veraltete Modelle
- Entfernung des Gebietsschemas
uk-UA
Release von Februar 2024
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Benutzerdefinierte Spracherkennung 4.6.0
- Spracherkennung 4.6.0
- Neuronale Sprachsynthese 3.1.0
Aktualisieren Sie die Spracherkennungskomponenten auf den neuesten Stand.
Aktualisieren Sie alle es-Gebietsschemamodelle auf den neuesten Stand.
Erhöhen Sie den Medientransformationspuffer für Anwendungsfälle der Spracherkennung.
Release November 2023
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Benutzerdefinierte Spracherkennung 4.5.0
- Spracherkennung 4.5.0
- Neuronale Sprachsynthese 2.19.0
Version vom Oktober 2023
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Benutzerdefinierte Spracherkennung 4.4.0
- Spracherkennung 4.4.0
- Neuronale Sprachsynthese 2.18.0
Eine Reihe von Sicherheitsrisiken mit hohem Risiko wurden behoben.
Redundante Protokolle wurden aus Containern entfernt.
De interne Medienkomponente wurde auf die neueste Version aktualisiert.
Fügen Sie Support für Spracheen-IN-NeerjaNeural hinzu.
Release von September 2023
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Speech-Sprachenerkennung 1.12.0
- Benutzerdefinierte Spracherkennung 4.3.0
- Spracherkennung 4.3.0
- Neuronale Sprachsynthese 2.17.0
Führen Sie ein Upgrade der benutzerdefinierten Spracherkennung und der Spracherkennung auf das neueste Framework durch.
Beheben von Sicherheitsrisikoproblemen.
Fügen Sie Support für Sprachear-AE-FatimaNeural hinzu.
Release von Juli 2023
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Benutzerdefinierte Spracherkennung 4.1.0
- Spracherkennung 4.1.0
- Neuronale Sprachsynthese 2.15.0
Das Problem der Ausführung des Spracherkennungscontainers über docker-Bereitstellungsoptionen mit lokalen benutzerdefinierten Modelldateien wurde behoben.
Das Problem, bei dem das RECOGNIZING-Ereignis in einigen Fällen nicht als Antwort über das Speech SDK angezeigt wird, wurde behoben.
Beheben von Sicherheitsrisikoproblemen.
Release von Juni 2023
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Benutzerdefinierte Spracherkennung 4.0.0
- Spracherkennung 4.0.0
- Neuronale Sprachsynthese 2.14.0
Lokale Spracherkennung für Textbilder wird auf .NET 6.0 aktualisiert.
Für Anzeigemodelle für Gebietsschemas wie en-us, ar-eg, ar-bh, ja-jp und ko-kr wurde ein Upgrade durchgeführt.
Aktualisieren Sie die Containerkomponente für die Spracherkennung, um Sicherheitslücken zu schließen.
Hinzufügen von Unterstützung für lokale Stimmen de-DE-AmalaNeural, de-AT-IngridNeural, de-AT-JonasNeural und en-US-JennyMultilingualNeural
Mai 2023 Release
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Benutzerdefinierte Spracherkennung 3.14.0
- Spracherkennung 3.14.0
- Neuronale Sprachsynthese 2.13.0
Beheben des Interpunktionsproblems he-IL
Beheben von Sicherheitsrisikoproblemen
Hinzufügen der neuen Gebietsschema-Stimmen en-US-MichelleNeural und es-MX-CandelaNeural
Release von April 2023
Sicherheitsupdates
Beheben von Sicherheitsrisikoproblemen
Release vom März 2023
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Benutzerdefinierte Spracherkennung 3.12.0
- Spracherkennung 3.12.0
- Speech-Sprachenerkennung 1.11.0
- Neuronale Sprachsynthese 2.11.0
Beheben von Sicherheitsrisikoproblemen
Beheben des Problems mit der tr-TR-Groß-/Kleinschreibung
Upgrade der Anzeigemodelle für die Spracherkennung (en-US)
Fügen Sie Unterstützung für die ar-AE-HamdanNeural Standardstimme hinzu.
Release von Februar 2023
Neue Containerversionen
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Benutzerdefinierte Spracherkennung 3.11.0
- Spracherkennung 3.11.0
- Neuronale Sprachsynthese 2.10.0
Beheben von Sicherheitsrisikoproblemen
Regelmäßiges Upgrade für Sprachmodelle
Fügen Sie neue arabische Gebietsschemas hinzu:
Aktualisieren von hebräischen und türkischen Anzeigemodellen
Release von Januar 2023
Neue Containerversionen
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Benutzerdefinierte Spracherkennung 3.10.0
- Spracherkennung 3.10.0
- Neuronale Sprachsynthese 2.9.0
Problem mit Hypothesenmodus behoben
Problem mit HTTP-Proxy behoben
Getrennter Modus für den benutzerdefinierten Spracherkennungs-Container
Unterstützung für nicht verbundene CNV-Container zu TTS-Front-End hinzugefügt
Unterstützung für folgende Gebietsschemastimmen hinzugefügt:
- da-DK-ChristelNeural
- da-DK-JeppeNeural
- en-IN-PrabhatNeural
Release von Dezember 2022
Neue Containerversionen
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Benutzerdefinierte Spracherkennung 3.9.0
- Spracherkennung 3.9.0
- Neuronale Sprachsynthese 2.8.0
Beheben eines ipv4/ipv6-Problems
Beheben eines Sicherheitsrisikoproblems
Release von November 2022
Neue Containerversionen
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Benutzerdefinierte Spracherkennung 3.8.0
- Spracherkennung 3.8.0
- Neuronale Sprachsynthese 2.7.0
Release vom Oktober 2022
Neue Containerversionen
Hinzugefügte Unterstützung für die neuesten Modellversionen:
- Benutzerdefinierte Spracherkennung 3.7.0
- Spracherkennung 3.7.0
- Neuronale Sprachsynthese 2.6.0
Release vom September 2022
Spracherkennung 3.6.0-amd64
Hinzugefügte Unterstützung für die neuesten Modellversionen.
Hinzugefügte Unterstützung für diese Gebietsschemas:
- az-AZ
- bn-IN
- bs-BA
- cy-GB
- eu-ES
- fa-IR
- gl-ES
- he-il
- hy-AM
- it-CH
- ka-GE
- kk-KZ
- mk-MK
- mn-MN
- ne-NP
- ps-AF
- so-SO
- sq-AL
- wuu-CN
- yue-CN
- zh-CN-Sichuan
Regelmäßige monatliche Updates, einschließlich Sicherheitsupgrades und Fehlerbehebungen für Sicherheitsrisiken.
Benutzerdefinierte Spracherkennung 3.6.0-amd64
Regelmäßige monatliche Updates, einschließlich Sicherheitsupgrades und Fehlerbehebungen für Sicherheitsrisiken.
Neuronale Sprachsynthese 2.5.0
Unterstützung für diese Standardstimmen hinzufügen:
az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural
Regelmäßige monatliche Updates, einschließlich Sicherheitsupgrades und Fehlerbehebungen für Sicherheitsrisiken.
Release von Mai 2022
Container für Speech-Spracherkennung v1.9.0-amd64-preview
Fehlerkorrekturen für die Speech-Spracherkennung.
Release von März 2022
Benutzerdefinierter Spracherkennungs-Container v3.1.0
Unterstützung für das Abrufen von Anzeigemodellen hinzugefügt.
Release von Januar 2022
Spracherkennungs-Container v3.0.0
Hinzugefügte Unterstützung für die Verwendung von Containern in nicht verbundenen Umgebungen.
Spracherkennungs-Container v2.18.0
Regelmäßige monatliche Updates, einschließlich Sicherheitsupgrades und Fehlerbehebungen für Sicherheitsrisiken.
Neuronal-neuronaler Sprachsynthese-Container v1.12.0
Fügen Sie Unterstützung für diese Standardstimmen hinzu: am-et-amehaneural, am-et-mekdesneural, so-so-muuseneural, und so-so-ubaxneural.
Regelmäßige monatliche Updates, einschließlich Sicherheitsupgrades und Fehlerbehebungen für Sicherheitsrisiken.