Was ist neu in Azure Sprachdiensten in den Foundry-Tools?

Azure Speech-Dienst wird fortlaufend aktualisiert. Damit Sie bezüglich der aktuellen Entwicklungen auf dem neuesten Stand bleiben, bietet dieser Artikel Informationen zu neuen Releases und Funktionen.

Versionshinweise

Auswählen eines Diensts oder einer Ressource

Wichtig

Speech SDK 1.48.2 und neuere Versionen enthalten einen wichtigen Fix für die CRL-Partitionierung (Certificate Revocation List) unter Linux und Android. Wenn Sie eine plattform mit aktivierter CRL-Überprüfung verwenden, führen Sie ein Upgrade auf 1.48.2 oder höher vor dem 1. Juli 2026 durch. Ausführliche Informationen finden Sie im CRL-Kompatibilitätsupdate.

Wichtig

Die Inhaltsbewertung (Vorschau) über das Speech SDK wurde im Juli 2025 eingestellt. Stattdessen können Sie Azure OpenAI-Modelle verwenden, um Inhaltsbewertungsergebnisse zu erhalten, wie in der Dokumentation zur Content Assessment beschrieben.

Speech SDK 1.49.1: Version vom 2026.April

Fehlerbehebungen:

  • Ein Absturz in der eingebetteten Sprachtelemetrie-Verarbeitung wurde behoben.

Speech SDK 1.49: Version vom 2026.April

Hinweise zur Zielplattformunterstützung:

  • Die Android x86-Unterstützung wird in dieser Version entfernt.

Neue Funktionen:

  • Android OpenSSL auf 3.0.19 aktualisiert.
  • Python: Optimierte die Größe des Linux-Wheel.

Fehlerbehebungen:

  • Behobene Speicherlecks in eingebetteter Spracheingabe.
  • Feste Symbole wurden in der eingebetteten Spracherkennung nicht richtig transkribiert.
  • Python: Behobene Sprachsyntheseereignisse behandeln Lecks.

Speech SDK für JavaScript

Neue Funktionen:

  • Verarbeitung von PropertyId.SpeechServiceResponse_PostProcessingOption hinzugefügt.
  • Sprachsyntheselatenzmessungen wurden hinzugefügt.
  • Unterstützung für das Textstreaming von Sprachsyntheseeingaben hinzugefügt.
  • Unterstützung für das Update der Übersetzungssynthese beim Ändern von Sprachen hinzugefügt.

Fehlerbehebungen:

  • Die nicht ordnungsgemäße Anforderung detaillierter Erkennungsergebnisse wurde behoben.
  • Es wurde eine unendliche Rekursion bei der Verwendung von DialogServiceConnector mit einem ungültigen Token behoben.
  • Die Fehlfunktion bei der Umleitung der Sprachsynthese-URL mit einem vom Benutzer angegebenen Pfad wurde korrigiert.

Speech SDK 1.48.2: Version vom 2026.Februar

Wichtig

Diese Version enthält einen wichtigen Fix für die CRL-Partitionierung (Certificate Revocation List) unter Linux und Android. Wenn Sie eine der Plattformen mit aktivierter CRL-Überprüfung verwenden, führen Sie ein Upgrade auf 1.48.2 vor dem 1. Juli 2026 durch. Ausführliche Informationen finden Sie im CRL-Kompatibilitätsupdate.

Fehlerbehebungen:

  • Die Logik des CRL-Caches unter Linux und Android wurde korrigiert, um partitionierte CRLs ordnungsgemäß zu verarbeiten. Das SDK verwendet nun sowohl den Ausstellernamen als auch den CRL-Verteilungspunkt als Cacheschlüssel und verhindert Fehler X509_V_ERR_DIFFERENT_CRL_SCOPE (Fehler 44) beim Herstellen von Verbindungen über Azure-Regionen oder nach einem Zertifikatwechsel.
  • Es wurden potenzielle Verbindungsfehler nach der Zertifikatsrotation unter Linux und Android behoben, wenn die CRL-Überprüfung aktiviert ist.

Speech SDK 1.48.1: Version vom 2026.Februar

Hinweise zur Zielplattformunterstützung:

  • Die Android x86-Unterstützung wird nach dieser Version gelöscht.

Neue Funktionen:

  • Deaktivierte CRL-Prüfungen standardmäßig unter Linux und Android.
  • Verbesserte Netzwerkfehlerbehandlung und -protokollierung.
  • Die Erstellungszeit großer Begriffslisten wurde optimiert.
  • Java: Unterstützung für das Streamen von Sprachsyntheseeingabetexten hinzugefügt.
  • Java: Verbesserte JNI-Speicherverwaltung.
  • Javascript: Metriken der Erkennungslatenz – Erkennungsergebnisse umfassen jetzt SpeechServiceResponse_RecognitionLatencyMs Eigenschaft, die end-to-End-Latenz von Audioeingabe zu Ergebnis misst.
  • JavaScript: Stopp-Timeout für Recognizer – Die neue Recognizer_StopTimeoutMs-Eigenschaft ermöglicht Timeout-Schutz für stopContinuousRecognitionAsync(). Bei Festlegung wird der Vorgang sofort beendet, wenn der Dienst nicht innerhalb des angegebenen Zeitraums abgeschlossen wird, statt auf unbestimmte Zeit zu warten.
  • Javascript: Avatar-Szenenkonfiguration – Neue AvatarSceneConfig-Klasse ermöglicht die Konfiguration des Avatarzooms, der Position (X/Y), der Drehung (X/Y/Z) und der Amplitude. Szene kann zur Laufzeit über AvatarSynthesizer.updateSceneAsync() aktualisiert werden.

Fehlerbehebungen:

  • Es wurde ein Absturz im Diktiermodus behoben, wenn die Protokollierung aktiviert ist.
  • CRL-bezogene Speicherlecks im Netzwerkstapel wurden behoben.
  • Behebung eines Problems, bei dem in eingebetteter Spracherkennung Leistungszähler manchmal fehlen.
  • Behebung eines Problems, bei dem der Interpunktion in eingebetteter Sprachsynthese feste Pausenlängen zugeordnet werden.
  • Behebung eines Problems, bei dem Wortgrenzen in hybrider Sprachsynthese zwischengespeichert werden.
  • JavaScript: Die automatische Erkennung der Quellsprache akzeptiert jetzt einen leeren Sprachparameter für "from".
  • JavaScript:@azure/core-auth als SDK-Abhängigkeit für eine verbesserte Azure Identitätsintegration hinzugefügt.

Beispiele:

Java, Python: Aktualisierte Versionen mehrerer Abhängigkeiten, um Sicherheitsrisiken zu beheben.

Speech SDK 1.47: Veröffentlichung im November 2025

Wichtig

Die Unterstützung für Windows 32-Bit wird eingestellt, da der Mainstream-Support für Windows 10 und damit auch für 32-Bit x86 und ARM endet (https://support.microsoft.com/windows/windows-10-support-has-ended-on-october-14-2025-2ca8b313-1946-43d3-b55c-2b95b107f281).

Neue Funktionen:

  • Die Standardrichtlinie wurde geändert, um Fehler aufgrund von Netzwerkbedingungen zu ignorieren, die den Zugriff auf Onlinezertifikatsperrinformationen auf Linux-Clients verhindern.
  • [JavaScript] Unterstützung für die Angabe des Basismodellnamens für Foto-Avatare hinzugefügt.

Fehlerbehebungen:

Beispielupdates:

  • Entfernte Absichtserkennungsbeispiele (mit Ausnahme der eigenständigen Implementierung der Absichtserkennung in C++) aufgrund der Einstellung des Dienstes.
  • Beispiele zur Sprechererkennung wegen der Einstellung des Diensts entfernt.
  • Unity-Beispiele wurden entfernt, da die letzten Speech SDK Unity-Pakete für die Version 1.44 veröffentlicht wurden und es keine direkte Unterstützung mehr gibt.

Umwälzende Änderungen:

Speech SDK 1.46: Veröffentlichung im September 2025

Neue Funktionen:

  • Unterstützung für die Empfindlichkeit von Startereignissen der Spracherkennung wurde mit der Eigenschaft Speech_StartEventSensitivity hinzugefügt.
  • Veraltete SpeechServiceConnection_EndSilenceTimeoutMs Eigenschaft.
  • Die Inhaltsbewertungsfunktionalität in der Aussprachebewertung wurde abgeschafft.
  • Android OpenSSL auf 3.0.17 aktualisiert.
  • Der Telemetriewarteschlange wurde eine Größenbeschränkung hinzugefügt, um das Wachstum der Speicherauslastung zu verhindern.
  • Es wurde ein Timeout-Schutz für das Lesen von Caches in TTS hinzugefügt, um potenzielle E/A-Blockierungen zu verhindern.
  • Konfigurierbare Eigenschaften zum Steuern des URL-Umleitungscacheverhaltens hinzugefügt.
  • [C#] Unterstützung für die eventSource-basierte Protokollierung hinzugefügt.
  • [Python] Unterstützung für AzureKeyCredentialauthentifizierung hinzugefügt.

Behebung von Programmfehlern

  • Ein ja-JP Ausspracheproblem in eingebettetem Text-zu-Sprache wurde behoben.
  • Ein bemerkenswerter Anstieg der Speicherauslastung über einen längeren Zeitraum in der eingebetteten Sprach-zu-Text-Technologie wurde behoben.
  • Ein Absturz wurde behoben, der durch eine Race-Condition während des Timeouts beim Beenden der Erkennung verursacht wurde.
  • [JavaScript] Es wurde ein Problem behoben, bei dem fromHost nicht mit dem Docker-Containerdienst funktionierte.

Beispiele

  • Aktualisierte Beispiele zur Veranschaulichen der Verwendung von AzureKeyCredential und Microsoft Entra ID token credential Authentifizierungen.
  • [JavaScript, Python] Aktualisierte Beispiele für die Verwendung von fromEndpoint.

Speech SDK 1.45: Release von Juli 2025

Neue Funktionen:

  • Unterstützung für das Festlegen der Grammatikgewichtung der Begriffsliste hinzugefügt.
  • Spezifischere Fehlercodes für das Öffnen von Dateien hinzugefügt.
  • Aktualisierte Unicode-Pfadunterstützung, sodass sich SDK-Windows DLLs unter Nicht-ASCII-Pfaden befinden können.
  • Aktualisierte Beschreibungen der Segmentierungsstrategieeigenschaften, die an die Dienstlogik angepasst werden sollen.
  • [C#, Java] Unterstützung für die Authentifizierung mit ApiKeyCredential hinzugefügt.

Behebung von Programmfehlern

  • Es wurde ein Initialisierungsfehler im Microsoft Audio Stack (MAS) in Bezug auf die Mikrofongeometrie in bestimmten Regionen behoben.
  • Feste Profanitätseinstellungen funktionieren nicht in der Sprachübersetzung (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2856).
  • Es wurde ein Absturz beim Abgleich des Absichtserkennungsmusters mit der japanischen Sprache behoben.
  • Benutzerdefinierte Domänenauflösung funktionierte nicht mit Node.js v22 oder höher.

Beispiele

  • [Java] Hinzufügung von Beispielcode, um die Microsoft Entra ID-Authentifizierung von Tokenanmeldeinformationen zu zeigen.

Speech SDK 1.44.1: Patch-Release

SDK Version 1.44.1 wird nur für JavaScript mit vier Fehlerbehebungen veröffentlicht:

Behebung von Programmfehlern

  • Es wurde eine Ausnahme außerhalb des Bereichs behoben, wenn nur ein Segmentierungssteuerelementparameter bereitgestellt wurde.
  • enableDictation wurde nicht ordnungsgemäß an den Spracherkennungsdienst übergeben.
  • ConversationTranscriber hat beim Erstellen mit der fromEndpoint-Methode nicht den richtigen URL-Pfad verwendet.
  • Es wurde ein Fehler behoben, der auftritt, wenn Daten nach dem Abtrennen in einen Eingabestrom eingespeist werden.

Speech SDK 1.44: Veröffentlichung Mai 2025

Wichtig

Die Unterstützung für Zielplattformen ändert sich:

  • Die mindestens unterstützte Android-Version ist jetzt Android 8.0 (API-Ebene 26).
  • Die Veröffentlichung von Speech SDK Unity-Paketen wird nach dieser Version angehalten.

Neue Funktionen:

  • Unterstützung für Android Arbeitsspeicherseitengrößen von 16 KB hinzugefügt.
  • Die Latenz der SpeechStartDetected-Ereignisse bei der eingebetteten Spracherkennung wurde reduziert.
  • [C++, Python] Es wurde eine Methode hinzugefügt, um die verfügbare Größe von AudioDataStream abzurufen.
  • [C++, Python] Unterstützung für benutzerdefinierte Lexikon-URLs und bevorzugte Gebietsschemas in Anfragen zur Sprachsynthese hinzugefügt.
  • [Java, Python] Unterstützung für Microsoft Entra tokenbasierte Authentifizierung mit automatischer Tokenaktualisierung hinzugefügt.
  • [Gehe zu] Unterstützung für die Transkription von Unterhaltungen hinzugefügt.

Behebung von Programmfehlern

  • Problem behoben, dass die Sprachsynthese für die Übersetzung nicht funktionierte, wenn die Quellsprachenerkennung verwendet wurde.
  • Beheben von Problemen mit Dateipfaden mit Nicht-ASCII-Zeichen, die für eingebettete Sprachmodelle, KWS-Modelle oder Protokolldateien (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288) nicht funktionierten.
  • Problem einer NoMatch-Schleife in eingebetteter Spracherkennung unter bestimmten Bedingungen behoben.
  • Problem mit dem Destruktor nativer Objekte behoben, der aufgrund der Erkennung nicht als gestoppt markiert wurde, wenn Ereignisse getrennt wurden.
  • Problem behoben, dass der Vergleich des IntentRecognizer-Musters unter bestimmten Bedingungen mit Multibytezeichen nicht ordnungsgemäß funktioniert.
  • Das Aufrufen Close() eines Connection-Objekts war nicht synchron.
  • Problem mit einer Racebedingung bei der Belegungsfreigabe der Verbindung behoben, das zu einem Absturz führen konnte.
  • [macOS] Behobene "Info:"-Nachrichten, die auf der Konsole angezeigt werden (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610).

Beispiele

  • [Python] Beispielcode für recognizer mit Microsoft Entra Tokenanmeldeinformationen hinzugefügt.

Speech SDK für JavaScript

Neue Funktionen:

  • Aktualisierte Entwicklungsabhängigkeit: TypeScript 3.5.3 → 4.5
  • TranslationRecognizer wurde aktualisiert, um V2-Endpunkte standardmäßig zu verwenden.
  • SpeechRecognizer wurde aktualisiert, um V2-Endpunkte zu verwenden.
    • Dies führt dazu, dass keine NoMatch-Ergebnisse mehr empfangen werden.
  • Unterstützung für die token-basierte Microsoft Entra-Authentifizierung zur Spracherkennung und -übersetzung wurde hinzugefügt.
  • Die FromEndpoint-API wurde aktualisiert, um die empfohlene Methode zum Erstellen einer SpeechConfig für die meisten Szenarien zu sein.
    • Gilt für die Verwendung von:
      • Spracherkenner
      • TranslationRecognizer (über SpeechTranslationConfig)
      • Konversations-Transkriptor
      • Sprachsynthesizer
    • Sie können nun den Endpunkt aus dem Azure-Portal für Speech- und Microsoft Foundry-Ressourcen verwenden, um ein SpeechConfig-Objekt zu erstellen.
    • Alle anderen Methoden zum Erstellen einer SpeechConfig funktionieren weiterhin und werden unterstützt.
Behebung von Programmfehlern

Speech SDK 1.43: Veröffentlichung im März 2025

Hinweis

Ubuntu 20.04 "Standardsicherheitswartung" läuft im April 2025 ab und ist nicht mehr als ADO Build-Agents verfügbar. Zukünftige Sprach-SDK-Versionen erfordern Ubuntu 22.04 LTS (anstelle von Ubuntu 20.04) als mindest unterstützte Version.

Neue Funktionen:

  • Die FromEndpoint-API wurde aktualisiert, um die empfohlene Methode zum Erstellen einer SpeechConfig für die meisten Szenarien zu sein.
    • Gilt für die Verwendung von:
      • Spracherkenner
      • TranslationRecognizer (über SpeechTranslationConfig)
      • Konversations-Transkriptor
      • SpeechSynthesizer In allen Programmiersprachen außer JavaScript.
    • Sie können nun den Endpunkt aus dem Azure-Portal für Speech and Cognitive Services-Ressourcen verwenden, um ein SpeechConfig-Objekt zu erstellen.
    • Alle anderen Methoden zum Erstellen einer SpeechConfig funktionieren weiterhin und werden unterstützt.
  • TranslationRecognizer wurde aktualisiert, um V2-Endpunkte standardmäßig zu verwenden.
    • Dadurch werden Steuerparameter von der URL zu Kanalnachrichten transferiert, wenn ein V2-Endpunkt verwendet wird.
    • Verhaltensänderung: Die für "zh" zurückgegebene Standardsprache ist jetzt "zh-CN" anstelle von "zh-hans"
  • Eigenschaften-IDs für SpeechSynthesis_FrameTimeoutInterval und SpeechSynthesis_RtfTimeoutThreshold hinzugefügt.
  • Die Anzahl der erneuten Verbindungen des SDK für zeitintensive Erkennungen wurde optimiert.
  • [C++, Python] Unterstützung für die Angabe des Stils und der Temperatur in Textstreaminganforderungen hinzugefügt.
  • [C#] Unterstützung für die automatische Microsoft Entra ID Tokenaktualisierung bei Verwendung von FromEndpoint zum Erstellen eines Konfigurationsobjekts hinzugefügt.
    • Dadurch wird eine Abhängigkeit vom Speech SDK zum Azure.Core NuGet-Paket hinzugefügt.
    • Das Speech SDK kann jetzt abgeleitete TokenCredential-Objekte für die Authentifizierung akzeptieren, wenn Folgendes verwendet wird:
      • Spracherkenner
      • Übersetzungs-Recognizer
      • Konversations-Transkriptor
  • [Objective-C] SpXTranslationRecognizer wurde aktualisiert, um die automatische Erkennung der Quellsprache aus dem geöffneten Bereich zu unterstützen.
  • [Objective-C , Python] Diagnose-APIs EventLogger, FileLogger und MemoryLogger hinzugefügt.
  • [Go]: TranslationRecognizer-Unterstützung hinzugefügt

Behebung von Programmfehlern

Beispiele

  • [C++] Ein Beispiel für die eigenständige Absichtserkennung mithilfe des Musterabgleichs wurde hinzugefügt.
    • Mit dem Auslaufen des LUIS-Dienstes im Oktober 2025 wird auch die IntentRecognizer-Objektgruppe des Speech SDK eingestellt.
    • Davor wollten wir die Implementierung für den Musterabgleich freigeben.
  • [C++, C#, Java, Python] Die meisten Beispiele wurden aktualisiert, um fromEndpoint-API anstelle von FromSubscription zu verwenden.
  • [C#] Ein Szenariobeispiel für eine Mehrstufige Spracherkennungsanwendung wurde hinzugefügt.
    • Veranschaulicht eine Methodik für die Audiowiedergabe und erneute Verbindung von einem Edgegerät an einen Dienst auf mittlerer Ebene, der dann Audio über das Speech SDK an den Sprachdienst weiterleitet.
  • [C#] Aktualisierte Beispiele zur Verwendung der automatischen Token-Aktualisierung für Microsoft Entra ID.
  • [Python] Es wurden Beispiele für neue Diagnose-APIs hinzugefügt.
  • [Unity] Anweisungen zum Installieren der neuen Azure.Core-Abhängigkeit hinzugefügt.

Speech SDK 1.42.0: Release von Dezember 2024

Neue Funktionen

  • Java: Diagnoseprotokollierungs-APIs mit Klassen von FileLogger, MemoryLogger, EventLogger und SpxTrace hinzugefügt.
  • Unterstützung beim Senden der JSON-Eigenschaft "Details" des Besprechungsteilnehmers an den Dienst
  • Go: Öffentliche Eigenschaft SpeechServiceConnection_ProxyHostBypass hinzugefügt, um Hosts anzugeben, für die kein Proxy verwendet wird.
  • JavaScript, Go: Hinzugefügte öffentliche Eigenschafts-ID Speech_SegmentationStrategy, um zu bestimmen, wann ein gesprochener Ausdruck beendet wurde und ein endgültiges erkanntes Ergebnis generiert werden sollte(einschließlich semantischer Segmentierung)
  • JavaScript, Go: Hinzugefügte öffentliche Eigenschafts-ID Speech_SegmentationMaximumTimeMs bestimmen das Ende eines gesprochenen Ausdrucks basierend auf der Zeit in Java, Python, C#, C++

Behebung von Programmfehlern

  • Es wurde eine eingebettete TTS-Stimme (neu) für jede Synthese geladen, wenn der Sprachname nicht festgelegt ist.
  • Bei Verwendung von MeetingTranscriber in einigen Szenarien wurden Offsetberechnungsprobleme behoben.
  • Es wurde ein potenzieller Deadlock behoben, wenn mehrere Diagnoseereignislistener parallel registriert wurden.
  • (JavaScript) Mögliche Verlorene NoMatch-Ergebnisse wurden behoben, wenn am Ende des Audiosignals. Dieser Fix richtet auch das Verhalten am Ende der Sprachausgabe an die anderen SDK-Sprachen aus und führt möglicherweise dazu, dass einige leere Ereignisse nicht mehr ausgelöst werden.
  • (JavaScript) Korrigiere Offsets im Ergebnis-JSON, um sie mit den Offsets der Ergebnisobjekte abzugleichen. Zuvor wurde nur die Offseteigenschaft des Ergebnisobjekts für die Dienstwiederholung festgelegt.
  • Go-Sprache: Ein Kompilierungsfehler wurde behoben https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639.
  • Feste Ergebnisversätze in der Besprechungstranskription, wenn eine erneute Verbindung mit dem Dienst auftritt.
  • Ein Deadlock in der Protokollierung wurde behoben.

Beispiele

  • Aktualisierte C#-Beispiele für die Verwendung von .NET 8.0.
  • Java-Beispiel verwendet die Diagnoseprotokollierungs-API, um die Nutzung der neuen Diagnoseprotokollierungsklassen zu zeigen.

Release November 2024

Azure Speech in Foundry Tools Toolkit-Erweiterung für Visual Studio Code

Azure Speech Toolkit-Erweiterung ist jetzt für Visual Studio Code Benutzer verfügbar. Sie enthält eine Liste der Schnellstarts und Szenariobeispiele für Speech, die einfach mit wenigen Klicks erstellt und ausgeführt werden können. Weitere Informationen finden Sie unter Azure Speech Toolkit in Visual Studio Code Marketplace.

Codebeispiele für Sprachsynthese-Avatare

Wir haben Text zu Sprach-Avatarcodebeispielen für Android und iOS hinzugefügt. Diese Beispiele veranschaulichen, wie Sie Echtzeit-Avatare für die Sprachsynthese in Ihren mobilen Anwendungen verwenden.

Speech SDK 1.41.1: Release vom Oktober 2024

Neue Funktionen

  • Unterstützung für Amazon Linux 2023 und Azure Linux 3.0 hinzugefügt.
  • Öffentliche Eigenschafts-ID „SpeechServiceConnection_ProxyHostBypass“ hinzugefügt, um Hosts anzugeben, für die kein Proxy verwendet wird
  • Eigenschaften zum Steuern neuer Begriffssegmentierungsstrategien hinzugefügt

Fehlerbehebungen

Aktuelle Änderungen

  • Die Unterstützung der Schlüsselworterkennung für Windows ARM 32-Bit wurde aufgrund der erforderlichen ONNX-Laufzeit entfernt, die für diese Plattform nicht verfügbar ist.

Speech-SDK 1.40: Release 2024-August

Hinweis

Die Speech SDK-Version 1.39.0 war ein internes Release und fehlt nicht.

Neue Funktionen

  • Unterstützung des Streamings G.722-komprimierter Audiodateien bei der Spracherkennung wurde hinzugefügt.
  • Unterstützung von Tonhöhe, Samplerate und Lautstärke im Eingabetextstreaming bei der Sprachsynthese wurde hinzugefügt.
  • Unterstützung des Eingabetextstreamings mit persönlicher Stimme durch die Einführung von PersonalVoiceSynthesisRequest bei der Sprachsynthese wurde hinzugefügt. Diese API befindet sich in der Vorschauphase und kann in zukünftigen Versionen noch geändert werden.
  • Unterstützung für die Diarisierung von Zwischenergebnissen bei Verwendung von ConversationTranscriber wurde hinzugefügt.
  • Entfernung der CentOS/RHEL 7-Unterstützung aufgrund des Endes des CentOS 7-Supports und des Endes von RHEL 7 Maintenance Support 2.
  • Die Verwendung eingebetteter Sprachmodelle erfordert jetzt eine Modelllizenz anstelle eines Modellschlüssels. Wenn Sie ein bestehender eingebetteter Sprachkunde sind und ein Upgrade durchführen möchten, wenden Sie sich an ihre Supportperson unter Microsoft, um Details zu Modellupdates zu erhalten.

Behebung von Programmfehlern

Beispiele

  • Eingebettete Sprachbeispiele wurden aktualisiert, um anstelle eines Schlüssels eine Modelllizenz zu verwenden.

Speech-SDK 1.38.0: Release von Juni 2024

Neue Funktionen

  • Linux-Plattformanforderungen für das Speech-SKD-Upgrade:
    • Die neue Mindestbaseline ist Ubuntu 20.04 LTS oder eine Version, die mit glibc 2.31 (oder höher) kompatibel ist.
    • Binärdateien für Linux x86 werden nach Ubuntu 20.04-Plattformsupport entfernt.
    • Beachten Sie, dass RHEL/CentOS 7 noch bis zum 30. Juni unterstützt wird (Ende von CentOS 7 und Ende von RHEL 7-Wartungssupport 2). Binärdateien für diese werden im Release Speech-SDK 1.39.0 entfernt.
  • Hinzufügen von Support für OpenSSL 3 unter Linux.
  • Hinzufügen von Support für das Audioausgabeformat g722-16khz-64kbps mit Sprachsynthesizer.
  • Hinzufügen von Support für das Senden von Nachrichten über ein Verbindungsobjekt mit Sprachsynthesizer.
  • Hinzufügen von Start/StopKeywordRecognition-APIs in Objective-C und Swift.
  • Hinzufügen einer API zum Auswählen einer benutzerdefinierten Übersetzungsmodellkategorie.
  • Aktualisieren der GStreamer-Nutzung mit Sprachsynthesizer.

Behebung von Programmfehlern

  • Der Fehler „Websocket-Nachrichtengröße darf 65.536 Bytes nicht überschreiten“ während „Start/StopKeywordRecognition“ wurde behoben.
  • Beheben eines Python Segmentierungsfehlers während der Sprachsynthese.

Beispiele

  • Aktualisieren Sie C#-Beispiele, um standardmäßig .NET 6.0 zu verwenden.

Speech SDK 1.37.0: Release von April 2024

Neue Funktionen

  • Unterstützung für das Streaming von Eingabetext in der Sprachsynthese wurde hinzugefügt.
  • Die Standardstimme für die Sprachsynthese wurde auf „en-US-AvaMultilingualNeural“ geändert.
  • Android-Builds wurden für die Verwendung von OpenSSL 3.x. aktualisiert.

Behebung von Programmfehlern

Beispiele

  • Updates für neue Features.

Speech SDK 1.36.0: Release von März 2024

Neue Funktionen

  • Support für die Sprachidentifikation bei mehrsprachiger Übersetzung auf v2-Endpunkten mithilfe von AutoDetectSourceLanguageConfig::FromOpenRange().

Behebung von Programmfehlern

  • Das Ereignis SynthesisCanceled wird nicht ausgelöst, wenn der Stopp während des Ereignisses SynthesisStarted aufgerufen wird.

  • Behebung eines Rauschproblems in der eingebetteten Sprachsynthese.

  • Behebung eines Absturzes bei der eingebetteten Spracherkennung, wenn mehrere Erkennungsmodule parallel ausgeführt werden.

  • Behebung der Einstellung für den Begriffserkennungsmodus in v1/v2-Endpunkten.

  • Korrekturen für verschiedene Probleme mit dem Microsoft Audio Stack.

Beispiele

  • Updates für neue Features.

Speech SDK 1.35.0: Version von Februar 2024

Neue Funktionen

  • Ändern Sie die Standardstimme der Sprachsynthese von „en-US-JenniferMultilingualNeural“ zu „en-US-AvaNeural“.
  • Unterstützen Sie Details auf Wortebene in eingebetteten Sprachübersetzungsergebnissen mithilfe des detaillierten Ausgabeformats.

Behebung von Programmfehlern

  • Korrigieren Sie die Position des AudioDataStream-Getter-API in Python.
  • Beheben Sie die Sprachübersetzung mithilfe von v2-Endpunkten ohne Spracherkennung.
  • Beheben Sie einen zufälligen Absturz und doppelte Wortgrenzenereignisse in eingebetteter Sprachsynthese.
  • Geben Sie einen korrekten Abbruchfehlercode für einen internen Serverfehler für WebSocket-Verbindungen zurück.
  • Beheben Sie den Fehler beim Laden der „FPIEProcessor.dll“-Bibliothek, wenn MAS mit C# verwendet wird.

Beispiele

  • Kleinere Formatierungsupdates für eingebettete Anerkennungsbeispiele.

Speech SDK 1.34.1: Release von Januar 2024

Aktuelle Änderungen

  • Nur Fehlerkorrekturen

Neue Funktionen

  • Nur Fehlerkorrekturen

Behebung von Programmfehlern

  • Behebung der in 1.34.0 eingeführten Regression, bei der die URL des Dienstendpunkts mit fehlerhaften Gebietsschemainformationen für Benutzer*innen in mehreren Regionen In China erstellt wurde.

Speech-SDK 1.34.0: Release von November 2023

Aktuelle Änderungen

  • SpeechRecognizer wurde aktualisiert, um standardmäßig (bei fehlender expliziter URL-Angabe) einen neuen Endpunkt zu verwenden, der für die meisten Eigenschaften keine Abfragezeichenfolgenparameter mehr unterstützt. Anstatt Abfragezeichenfolgenparameter direkt mit ServicePropertyChannel.UriQueryParameter festzulegen, verwenden Sie bitte die entsprechenden API-Funktionen.

Neue Funktionen

  • Kompatibilität mit .NET 8 (Fix für https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 mit Ausnahme der Warnung zu Centos7-x64)
  • Unterstützung für eingebettete Sprachleistungsmetriken, die verwendet werden können, um die Funktionalität eines Geräts zum Ausführen eingebetteter Sprache auszuwerten.
  • Unterstützung für die Quellsprachidentifikation in eingebetteter mehrsprachiger Übersetzung.
  • Unterstützung für eingebettete Spracherkennung, Sprachsynthese und Übersetzung für iOS und Swift/Objective-C, die in der Vorschau veröffentlicht wurden.
  • Eingebettete Unterstützung wird in MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod bereitgestellt.

Behebung von Programmfehlern

  • Fix für iOS-SDK x2 mal binäres Größenwachstum · Issue # 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Beheben des Fehlers „Fehler beim Abrufen von Zeitstempeln auf Wortebene von der Azure Speech-to-Text API“ · Fehler #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Fix für DialogServiceConnector-Zerstörungsphase, um Ereignisse ordnungsgemäß zu trennen. Dies verursachte gelegentlich Abstürze.
  • Fix für die Ausnahme beim Erstellen eines Erkennungsmoduls, wenn MAS verwendet wird.
  • FPIEProcessor.dll aus Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-Paket für Windows UWP x64 und Arm64 weisen eine Abhängigkeit von VC++-Laufzeitbibliotheken für natives C++ auf. Das Problem wurde behoben, indem die Abhängigkeit auf die richtigen VC-Runtimebibliotheken (für UWP) aktualisiert wurde.
  • Fix für [MAS] Wiederkehrende Aufrufe zur recognizeOnceAsync führen zu SPXERR_ALREADY_INITIALIZED bei Verwendung von MAS · Issue # 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Fix für Absturz der eingebetteten Spracherkennung beim Verwenden von Phrasenlisten.

Beispiele

  • Eingebettete iOS-Beispiele für Spracherkennung, Sprachsynthese und Übersetzung.

Speech-CLI 1.34.0: Release vom November 2023

Neue Funktionen

  • Support für die Ausgabe von Wörterbegrenzungsereignissen beim Synthetisieren von Sprache.

Behebung von Programmfehlern

  • Aktualisierte JMESPath-Abhängigkeit zum neuesten Release, verbessert Zeichenfolgeauswertungen

Speech SDK 1.33.0: Release vom Oktober 2023

Hinweis zu Breaking Change

  • Das neue NuGet-Paket, das für Microsoft Audio Stack (MAS) hinzugefügt wurde, muss jetzt von Anwendungen eingeschlossen werden, die MAS in ihren Paketkonfigurationsdateien verwenden.

Neue Funktionen

  • Das neue NuGet-Paket Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg wurde hinzugefügt, das eine verbesserte Echokompensationsleistung bei Verwendung des Microsoft Audio Stacks bietet.
  • Aussprachebewertung: Unterstützung für die Prosodie- und Inhaltsbewertung hinzugefügt, die die gesprochene Sprache in Bezug auf Prosodie, Vokabular, Grammatik und Thema bewerten kann.

Behebung von Programmfehlern

Beispiele

Speech CLI 1.33.0: Release vom Oktober 2023

Neue Funktionen

  • Support für die Ausgabe von Wörterbegrenzungsereignissen beim Synthetisieren von Sprache.

Behebung von Programmfehlern

  • nichts

Speech SDK 1.32.1: Release im September 2023

Behebung von Programmfehlern

  • Updates für Android-Pakete mit den neuesten Sicherheitskorrekturen von OpenSSL 1.1.1v
  • JS: WebWorkerLoadType-Eigenschaft hinzugefügt, um die Umgehung des Ladens der Daten-URL für Timeout-Worker zu ermöglichen
  • JS: Beheben der Verbindungstrennung der Konversationsübersetzung nach 10 Minuten
  • JS: Authentifizierungstoken für die Konversationsübersetzung wird jetzt an die Übersetzungsdienstverbindung weitergegeben

Beispiele

Speech SDK 1.31.0: Release von August 2023

Neue Funktionen

  • Unterstützung für Echtzeitdiarisierung ist mit dem Speech SDK 1.31.0 in der öffentlichen Vorschau verfügbar. Dieses Feature ist in den folgenden SDKs verfügbar: C#, C++, Java, JavaScript, Python und Objective-C/Swift.

  • Synchronisierte Wortgrenzen- und viseme-Ereignisse mit Audiowiedergabe für die Sprachsynthese

Aktuelle Änderungen

  • Das frühere Szenario „Unterhaltungstranskription“ wird in „Besprechungstranskription“ umbenannt. Verwenden Sie beispielsweise MeetingTranscriber anstelle von ConversationTranscriber und CreateMeetingAsync anstelle von CreateConversationAsync. Obwohl sich die Namen von SDK-Objekten und -Methoden geändert haben, wird das Feature selbst durch die Umbenennung nicht geändert. Verwenden Sie Besprechungstranskriptionsobjekte für die Transkription von Besprechungen mit Benutzerprofilen und Stimmsignaturen. Die Objekte und Methoden der „Konversationsübersetzung“ sind von diesen Änderungen nicht betroffen. Sie können das ConversationTranslator-Objekt und die zugehörigen Methoden weiterhin für Besprechungsübersetzungsszenarien verwenden.

  • Für die Echtzeitdiarisierung wird ein neues ConversationTranscriber-Objekt eingeführt. Das neue Objektmodell der Unterhaltungstranskription und die Aufrufmuster ähneln der kontinuierlichen Erkennung mit dem SpeechRecognizer-Objekt. Ein wichtiger Unterschied besteht darin, dass das ConversationTranscriber-Objekt für die Verwendung in einem Unterhaltungsszenario konzipiert ist, in dem Sie mehrere Sprecher unterscheiden möchten (Diarisierung). Benutzerprofile und Stimmsignaturen sind nicht anwendbar. Weitere Informationen finden Sie im Schnellstart zur Echtzeitdiarisierung.

In dieser Tabelle werden die vorherigen und neuen Objektnamen für die Echtzeitdiarisierung und Besprechungstranskription angezeigt. Der Name des Szenarios befindet sich in der ersten Spalte, die vorherigen Objektnamen in der zweiten Spalte und die neuen Objektnamen in der dritten Spalte.

Name des Szenarios Vorherige Objektnamen Neue Objektnamen
Echtzeit-Diarisierung ConversationTranscriber
Besprechungstranskription ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant 1
ParticipantChangedReason 1
User 1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting 2

1 Die Objekte Participant, ParticipantChangedReason und User gelten sowohl für Besprechungstranskriptions- als auch für Besprechungsübersetzungsszenarien.

2 Das Objekt Meeting ist neu und wird mit dem Objekt MeetingTranscriber verwendet.

Behebung von Programmfehlern

Beispiele

Speech SDK 1.30.0: Release von Juli 2023

Neue Funktionen

  • C++, C#, Java – Unterstützung für DisplayWords im detaillierten Ergebnis der eingebetteten Spracherkennung hinzugefügt.
  • Objective-C/Swift: Unterstützung für das ConnectionMessageReceived-Ereignis wurde in Objective-C/Swift hinzugefügt.
  • Objective-C/Swift: Verbesserte Schlüsselworterkennungs-Modelle für iOS. Diese Änderung hat die Größe bestimmter Pakete erhöht, die iOS-Binärdateien enthalten (z. B. NuGet, XCFramework). Wir arbeiten daran, die Größe für zukünftige Releases zu reduzieren.

Behebung von Programmfehlern

  • Ein Speicherverlust bei Verwendung der Spracherkennung mit PhraseListGrammar wurde behoben, wie von einem Kunden gemeldet (GitHub Problem).
  • Ein Deadlock in der offenen Verbindungs-API für Sprachsynthese wurde behoben.

Weitere Hinweise:

  • Java – Einige intern verwendete API-Methoden public Java API wurden in "package internal", "protected" oder "private" geändert. Diese Änderung sollte sich nicht auf Entwickler auswirken, da Anwendungen diese Pakete wahrscheinlich nicht verwenden werden. Wird hier der Transparenz wegen erwähnt.

Beispiele

Speech SDK 1.29.0: Release im Juni 2023

Neue Funktionen

  • C++, C#, Java – Vorschau auf eingebettete Sprachübersetzungs-APIs. Jetzt können Sie Sprachübersetzungen ohne Cloud-Verbindung durchführen!
  • JavaScript – Kontinuierliche Spracherkennung (Continuous Language Identification, LID) jetzt für die Sprachübersetzung aktiviert.
  • JavaScript – Communitybeitrag zum Hinzufügen einer Eigenschaft LocaleName zur Klasse VoiceInfo. Vielen Dank GitHub Benutzer shivsarthak für die Pullanforderung.
  • C++, C#, Java: Für das Resampling der eingebetteten Sprachsyntheseausgabe mit einer Abtastrate von 16 kHz bis 48 kHz wurde Unterstützung hinzugefügt.
  • Unterstützung für Gebietsschema hi-IN in der Absichtserkennung mit Simple Pattern Matcher hinzugefügt.

Behebung von Programmfehlern

  • Ein Absturz, der durch eine Racebedingung in der Spracherkennung während der Objektzerstörung verursacht wurde, der in einigen unserer Android-Tests auftrat, wurde behoben.
  • Mögliche Deadlocks in der Absichtserkennung mit Simple Pattern Matcher wurden behoben.

Beispiele

  • Neue Beispiele für die eingebettete Sprachübersetzung

Speech SDK 1.28.0: Release von Mai 2023

Breaking Change

  • JavaScript SDK: Online Certificate Status Protocol (OCSP) wurde entfernt. Dadurch können Clients Browser- und Knotenstandards für die Zertifikatverarbeitung besser erfüllen. Ab Version 1.28 ist unser benutzerdefiniertes OCSP-Modul nicht mehr enthalten.

Neue Funktionen

  • Die eingebettete Spracherkennung gibt nun NoMatchReason::EndSilenceTimeout zurück, wenn am Ende einer Äußerung ein Sprechpausen-Timeout auftritt. Dies entspricht dem Verhalten bei der Erkennung mithilfe des Echtzeit-Sprachdiensts.
  • JavaScript SDK: Legen Sie Eigenschaften unter SpeechTranslationConfig mithilfe von PropertyId-Enumerationswerten fest.

Behebung von Programmfehlern

  • C# unter Windows: Beheben Sie potenzielle Racebedingungen/Deadlocks in der Windows-Audioerweiterung. In Szenarios, in denen der Audiorenderer schnell entfernt und die Synthesizer-Methode zum Beenden des Sprechens verwendet wird, wurde das zugrunde liegende Ereignis nicht durch Beenden zurückgesetzt. Dies konnte dazu führen, dass das Rendererobjekt nie entfernt wurde, während gleichzeitig eine globale Entfernungssperre bestand, die den .NET-GC-Thread angehalten hat.

Beispiele

  • Ein eingebettetes Sprachbeispiel für MAUI wurde hinzugefügt.
  • Das eingebettete Sprachbeispiel für Android Java wurde um Sprachsynthese erweitert.

Speech SDK 1.27.0: Release im April 2023

Benachrichtigung zur bevorstehenden Änderungen

  • Wir planen, das Online Certificate Status Protocol (OCSP) im nächsten JavaScript SDK-Release zu entfernen. Dadurch können Clients Browser- und Knotenstandards für die Zertifikatverarbeitung besser erfüllen. Version 1.27 ist die letzte Version, die unser benutzerdefiniertes OCSP-Modul enthält.

Neue Funktionen

  • JavaScript: Unterstützung für Mikrofoneingaben aus dem Browser mit Sprecheridentifikation und -überprüfung hinzugefügt.
  • Eingebettete Spracherkennung: Supportupdate für die PropertyId::Speech_SegmentationSilenceTimeoutMs-Einstellung.

Behebung von Programmfehlern

  • Allgemein: Zuverlässigkeitsupdates in der Dienstwiederverbindungslogik (alle Programmiersprachen außer JavaScript).
  • General – Beheben Sie Zeichenfolgenkonvertierungen, die zu Speicherverlusten auf Windows führen (alle relevanten Programmiersprachen mit Ausnahme von JavaScript).
  • Eingebettete Spracherkennung: Absturz in der französischen Spracherkennung bei Verwendung bestimmter Grammatiklisteneinträge wurde behoben.
  • Quellcodedokumentation: Korrekturen von Kommentaren in der SDK-Referenzdokumentation im Zusammenhang mit der Audioprotokollierung für den Dienst.
  • Absichtserkennung: Korrektur von Musterabgleichsprioritäten im Zusammenhang mit Listenentitäten.

Beispiele

  • Behandeln Sie Authentifizierungsfehler im C#-Beispiel für die Unterhaltungstranskription (CTS).
  • Beispiel für die Streaming-Aussprachebewertung für Python, JavaScript, Objective-C und Swift hinzugefügt.

Speech SDK 1.26.0: Release von März 2023

Aktuelle Änderungen

  • Bitcode wurde in allen iOS-Zielen in den folgenden Paketen deaktiviert: Cocoapod mit xcframework, NuGet (für Xamarin und MAUI) und Unity. Die Änderung wurde vorgenommen, da Apple die Bitcodeunterstützung ab Xcode 14 einstellt. Diese Änderung bedeutet auch, dass Sie möglicherweise eine Fehlermeldung mit dem Hinweis erhalten, dass das Framework keinen Bitcode enthält und eine Neuerstellung erforderlich ist, wenn Sie Xcode 13 verwenden oder den Bitcode für Ihre Anwendung mithilfe des Speech SDK explizit aktiviert haben. Stellen Sie zur Behebung dieses Problems sicher, dass Bitcode für Ihre Ziele deaktiviert ist.
  • Das iOS-Mindestbereitstellungsziel wurde in diesem Release auf 11.0 aktualisiert, was bedeutet, dass armv7-Hardware nicht mehr unterstützt wird.

Neue Funktionen

  • Die eingebettete Spracherkennung (auf dem Gerät) unterstützt jetzt sowohl Audio mit einer Samplingrate von 8 kHz als auch Audio mit einer Samplingrate von 16 kHz (16 Bit pro Sample, Mono-PCM).
  • Die Sprachsynthese meldet jetzt Verbindungs-, Netzwerk- und Dienstwartezeiten im Ergebnis, um die End-to-End-Latenzoptimierung zu unterstützen.
  • Neue Entscheidungsregeln für die Absichtserkennung mit einfachem Musterabgleich. Musterabgleiche mit mehr übereinstimmenden Zeichenbytes haben Vorrang vor Musterabgleichen mit weniger übereinstimmenden Zeichenbytes. Beispiel: Das Muster „Wählen Sie rechts oben {etwas} aus“ hat Vorrang vor „Wählen Sie {etwas} aus“.

Behebung von Programmfehlern

  • Sprachsynthese: Es wurde ein Fehler behoben, bei dem das Emoji in Wortgrenzenereignissen nicht korrekt ist.
  • Absichtserkennung mit Conversational Language Understanding (CLU):
    • Absichten aus dem CLU-Orchestratorworkflow werden jetzt ordnungsgemäß angezeigt.
    • Das JSON-Ergebnis ist jetzt über die Eigenschafts-ID LanguageUnderstandingServiceResponse_JsonResultverfügbar.
  • Spracherkennung mit Schlüsselwortaktivierung: Korrektur für ca. 150 ms fehlende Audiodaten nach einer Schlüsselworterkennung.
  • Korrektur für NuGet-iOS-MAUI-Releasebuild des Speech SDK – vom Kunden gemeldet (GitHub-Problem)

Beispiele

  • Behebung des Swift iOS-Beispiels, das vom Kunden gemeldet wurde (GitHub Problem)

Speech SDK 1.25.0: Release von Januar 2023

Aktuelle Änderungen

  • Sprachenerkennungs-APIs (Vorschauversion) wurden vereinfacht. Wenn Sie ein Update auf Speech SDK 1.25 durchführen und eine Buildunterbrechung feststellen, besuchen Sie die Seite Sprachenerkennung, um mehr über die neue Eigenschaft SpeechServiceConnection_LanguageIdMode zu erfahren. Diese einzelne Eigenschaft ersetzt die beiden vorherigen SpeechServiceConnection_SingleLanguageIdPriority und SpeechServiceConnection_ContinuousLanguageIdPriority. Die Priorisierung zwischen geringer Latenz und hoher Genauigkeit ist nach den jüngsten Modellverbesserungen nicht mehr erforderlich. Jetzt müssen Sie nur auswählen, ob die anfängliche Sprachenerkennung oder die kontinuierliche Sprachenerkennung bei der kontinuierlichen Spracherkennung oder -übersetzung ausgeführt werden soll.

Neue Funktionen

  • C#/C++/Java: Embedded Speech SDK wird jetzt unter der öffentlichen Vorschau veröffentlicht. Weitere Informationen finden Sie in der Dokumentation zu Eingebettete Sprache (Vorschau). Sie können jetzt die Spracherkennung und Sprachsynthese auf einem Gerät ausführen, auch wenn die Cloudkonnektivität unterbrochen oder nicht verfügbar ist. Unterstützt auf Android-, Linux-, macOS- und Windows-Plattformen
  • C# MAUI: Unterstützung für iOS- und Mac Catalyst-Ziele in Speech SDK NuGet (Kundenanfrage)
  • Unity: Android x86_64-Architektur, die dem Unity-Paket hinzugefügt wurde (Problem Customer)
  • Weiter zu:
    • Die Unterstützung für direktes Streaming von ALAW/MULAW wurde für die Spracherkennung hinzugefügt (Kundenproblem)
    • Unterstützung wurde für PhraseListGrammar hinzugefügt. Vielen Dank GitHub Benutzer czkoko für den Beitrag der Community!
  • C#/C++: Die Absichtserkennung unterstützt jetzt Conversational Language Understanding-Modelle in C++ und C# mit Orchestrierung im Microsoft-Dienst.

Behebung von Programmfehlern

  • Korrektur eines gelegentlichen Hängens in KeywordRecognizer beim Versuch, die Ausführung zu beenden
  • Python:
    • Korrektur für das Abrufen von Ergebnissen der Aussprachebewertung, wenn PronunciationAssessmentGranularity.FullText festgelegt ist (Kundenproblem)
    • Korrektur für die das Geschlecht betreffende Eigenschaft für männliche Stimmen, die nicht abgerufen werden, wenn Stimmen für die Sprachsynthese abgerufen werden
  • JavaScript
    • Behebung des Problems bei der Analyse einiger WAV-Dateien, die auf iOS-Geräten aufgezeichnet wurden (Kundenproblem)
    • Das JS SDK führt die Erstellung jetzt ohne Verwendung von npm-force-resolution durch (Kundenproblem)
    • Conversation Translator legt jetzt den Dienstendpunkt richtig fest, wenn eine speechConfig-Instanz verwendet wird, die mit SpeechConfig.fromEndpoint() erstellt wurde.

Beispiele

  • Beispiele zur Verwendung von eingebetteter Sprache hinzugefügt

  • Beispiel für die Spracherkennung für MAUI hinzugefügt

    Siehe Speech SDK-Beispielrepository.

Speech SDK 1.24.2: Release von November 2022

Neue Funktionen

  • Keine neuen Features, nur eine Korrektur an der eingebetteten Engine zur Unterstützung neuer Modelldateien.

Behebung von Programmfehlern

  • Alle Programmiersprachen
    • Es wurde ein Problem mit der Verschlüsselung eingebetteter Spracherkennungsmodelle behoben.

Speech SDK 1.24.1: Release von November 2022

Neue Funktionen

Behebung von Programmfehlern

  • Alle Programmiersprachen
    • Beheben des Absturzes der TTS-Einbettung bei nicht unterstütztem Voicefont
    • Fix stopSpeaking() kann die Wiedergabe unter Linux nicht beenden (#1686)
  • JavaScript SDK
    • Regression bei der Abgrenzung von Audio durch die Unterhaltungstranskription korrigiert
  • Java
    • Aktualisierte POM- und Javadocs-Dateien wurden vorübergehend in Maven Central veröffentlicht, um der Dokumentationspipeline das Aktualisieren von Onlinereferenzdokumenten zu ermöglichen.
  • Python
    • Beheben Sie die Regression, bei der Python speak_text(ssml) "void" zurückgibt.

Speech SDK 1.24.0: Release vom Oktober 2022

Neue Funktionen

  • Alle Programmiersprachen: AMR-WB (16 kHz) zur Liste der unterstützten Sprachsynthese-Audioausgabeformate hinzugefügt
  • Python: Paket für Linux Arm64 für unterstützte Linux-Distributionen hinzugefügt.
  • C#/C++/Java/Python: Unterstützung für ALAW hinzugefügt & MULAW-Direktstreaming an den Sprachdienst (zusätzlich zum vorhandenen PCM-Stream) über AudioStreamWaveFormat.
  • C# MAUI: NuGet-Paket wurde aktualisiert, um Android-Ziele für .NET MAUIEntwickler (problem Customer) zu unterstützen.
  • Mac: separates XCframework für Mac hinzugefügt, das keine iOS-Binärdateien enthält. Dies bietet eine Option für Entwickler, die nur Mac-Binärdateien mit einem kleineren XCframework-Paket benötigen.
  • Microsoft Audio stack (MAS):
    • Wenn Beamforming-Winkel angegeben sind, wird Schall, der außerhalb des angegebenen Bereichs entsteht, besser unterdrückt.
    • Etwa 70 % Reduzierung der Größe von libMicrosoft.CognitiveServices.Speech.extension.mas.so für Linux ARM32 und Linux Arm64.
  • Musterabgleich der Absichtserkennung:
    • Rechtschreibunterstützung für die Sprachen fr, de, es, jp hinzugefügt
    • Vorgefertigte Integer-Unterstützung für Sprache es hinzugefügt.

Behebung von Programmfehlern

  • iOS: Beheben des Sprachsynthesefehlers in iOS 16, verursacht durch komprimierten Audiodecodierungsfehler (Customer Issue).
  • JavaScript:
    • Behebung eines nicht funktionierenden Authentifizierungstokens beim Abrufen einer Sprachsynthese-Sprachliste (Kundenproblem).
    • Verwenden von Daten-URLs zum Laden von Workern (Kundenproblem).
    • Erstellen eines Audioprozessor-Worklets nur, wenn AudioWorklet im Browser unterstützt wird (Kundenproblem). Dies war ein Communitybeitrag von William Wong. Vielen Dank, William!
    • Beheben Sie den erkannten Callback, wenn die LUIS-Antwort leer ist (Kundenproblem ).
    • Korrektes Einstellen des Timeouts für die Sprachsegmentierung.
  • Musterabgleich der Absichtserkennung:
    • Nicht-JSON-Zeichen in Modellen werden jetzt ordnungsgemäß geladen.
    • Beheben eines Fehlers, wenn recognizeOnceAsync(text) während der kontinuierlichen Erkennung aufgerufen wurde.

Speech SDK 1.23.0: Release von Juli 2022

Neue Funktionen

  • C#, C++, Java: Unterstützung für Sprachen zh-cn und zh-hk in Intent Recognition with Pattern Matching hinzugefügt.
  • C#: Unterstützung für AnyCPU .NET Framework-Builds hinzugefügt

Behebung von Programmfehlern

  • Android: Behobene OpenSSL-Sicherheitsrisiken CVE-2022-2068 durch Aktualisieren von OpenSSL auf 1.1.1q
  • Python: Fehler beim Verwenden von PushAudioInputStream beheben
  • iOS: Beheben Sie "EXC_BAD_ACCESS: Versuch, einen Nullzeiger zu dereferenzieren", wie auf GitHub (GitHub Issue) gemeldet.

Speech SDK 1.22.0: Release von Juni 2022

Neue Funktionen

  • Java: IntentRecognitionResult-API für getEntities(), applyLanguageModels() und recognizeOnceAsync(text) hinzugefügt, um die Engine für einfachen Musterabgleich zu unterstützen.
  • Unity: Unterstützung für Mac M1 (Apple Silicon) für Unity-Paket hinzugefügt (Problem GitHub)
  • C#: Unterstützung für x86_64 für Xamarin Android hinzugefügt (Problem GitHub)
  • C#: Mindestversion des .NET Frameworks für das SDK C#-Paket auf v4.6.2 aktualisiert, da v4.6.1 eingestellt wurde (siehe Microsoft .NET Framework Component Lifecycle Policy)
  • Linux: Unterstützung für Debian 11 und Ubuntu 22.04 LTS wurde hinzugefügt. Ubuntu 22.04 LTS erfordert die manuelle Installation von libssl1.1 entweder als Binärpaket von hier (z. B. libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb oder höher für x64), oder indem Sie aus Quellen kompilieren.

Behebung von Programmfehlern

  • UWP: OpenSSL-Abhängigkeit aus UWP-Bibliotheken entfernt und durch WinRT Websocket und HTTP-APIs ersetzt, um die Sicherheitskonformität und kleinere binäre Größe zu erfüllen.
  • Mac: Das Problem „MicrosoftCognitiveServicesSpeech-Module nicht gefunden“ wurde behoben, wenn Swift-Projekte für macOS-Plattform verwendet werden
  • Windows, Mac: Es wurde ein plattformspezifisches Problem behoben, bei dem Audioquellen, die über Eigenschaften konfiguriert wurden, um eine Echtzeitrate zu streamen, manchmal zurückfällt und schließlich die Kapazität überschritten hat

Beispiele (GitHub)

  • C#: .NET Frameworkbeispiele für die Verwendung von v4.6.2 aktualisiert
  • Unity: Beispiel für virtuelle Assistenten, das für Android und UWP behoben wurde
  • Unity: Unity-Beispiele, die für Unity 2020 LTS-Version aktualisiert wurden

Speech SDK 1.21.0: Release von April 2022

Neue Funktionen

  • Java & JavaScript: Unterstützung für die kontinuierliche Sprachidentifikation bei Verwendung des SpeechRecognizer-Objekts hinzugefügt
  • JavaScript: Diagnose-APIs hinzugefügt, um die Protokollierungsstufen der Konsole und (nur für Node) die Datei-Protokollierung zu aktivieren, um Microsoft bei der Behebung von von Kunden gemeldeten Problemen zu unterstützen.
  • Python: Unterstützung für die Transkription von Unterhaltungen hinzugefügt
  • Go: Hinzugefügt: Unterstützung für Sprechererkennung
  • C++ und C#: Unterstützung für eine erforderliche Gruppe von Wörtern in der Absichtserkennung (einfacher Musterabgleich) hinzugefügt. Beispiel: „Timer (festlegen|starten|beginnen)“, wo entweder „festlegen“, „starten“ oder „beginnen“ vorhanden sein muss, damit die Absicht erkannt wird.
  • Alle Programmiersprachen, Sprachsynthese: Hinzugefügt: Eigenschaft „Dauer“ in Word-Begrenzungsereignissen. Hinzugefügt: Unterstützung für Interpunktationsgrenze und Satzgrenze
  • Objective-C/Swift/Java: Wortebene Ergebnisse zum Aussprachebewertungsobjekt hinzugefügt (ähnlich wie bei C#). Die Anwendung muss keine JSON-Ergebniszeichenfolge mehr analysieren, um Informationen auf Wortebene abzurufen (GitHub Problem)
  • iOS-Plattform: Hinzugefügt: Experimentelle Unterstützung für ARMv7-Architektur

Behebung von Programmfehlern

  • iOS-Plattform: Fix zum Ermöglichen der Erstellung von Builds für das Ziel „Jedes iOS-Gerät“ bei Verwendung von Cocoapod (GitHub-Problem)
  • Android-Plattform: Aktualisiert: Die OpenSSL-Version wurde auf 1.1.1n aktualisiert, um Sicherheitsrisiken zu beheben CVE-2022-0778
  • JavaScript: Problem behoben, bei dem wav-Header nicht mit der Dateigröße aktualisiert wurde (Problem GitHub)
  • JavaScript: Behebung des Desynchronisierungsproblems der Anforderungs-ID, das Übersetzungsszenarien beeinträchtigt (GitHub-Problem)
  • JavaScript: Behoben: Problem beim Instanziieren von SpeakerAudioDestination ohne Stream (GitHub-Problem]
  • C++: Behoben: C+-Header zum Entfernen einer Warnung beim Kompilieren für C++17 oder höher

Beispiele GitHub

  • Neue Java-Beispiele für Spracherkennung mit Sprachidentifikation
  • Neue beispiele Python und Java für die Transkription von Unterhaltungen
  • Neues Go-Beispiel für die Sprechererkennung.
  • Neues Werkzeug in C++ und C# für Windows, das alle Audioaufnahme- und Wiedergabegeräte auflistet, um ihre Geräte-ID zu ermitteln. Diese ID wird vom Speech SDK benötigt, wenn Sie Audio von einem nicht standardmäßigen Gerät erfassen oder darauf rendern möchten.

Speech SDK 1.20.0: Release von Januar 2022

Neue Funktionen

  • Objective-C, Swift und Python: Unterstützung für DialogServiceConnector wurde für Sprachassistenten-Szenarien hinzugefügt.
  • Python: Unterstützung für Python 3.10 wurde hinzugefügt. Die Unterstützung für Python 3.6 wurde gemäß Pythons Ende des Lebenszyklus für 3.6 entfernt.
  • Unity: Das Speech SDK wird jetzt für Unity-Anwendungen unter Linux unterstützt.
  • C++, C#: IntentRecognizer mit Musterabgleich wird jetzt in C# unterstützt. Darüber hinaus werden jetzt Szenarien mit benutzerdefinierten Entitäten, optionalen Gruppen und Entitätsrollen in C++ und C# unterstützt.
  • C++, C#: Verbesserte Protokollierung der Diagnoseablaufverfolgung mithilfe der neuen Klassen FileLogger, MemoryLogger und EventLogger. SDK-Protokolle sind ein wichtiges Tool für Microsoft, um vom Kunden gemeldete Probleme zu diagnostizieren. Diese neuen Klassen erleichtern es Kunden, Speech SDK-Protokolle in ihr eigenes Protokollierungssystem zu integrieren.
  • Alle Programmiersprachen: PronunciationAssessmentConfig verfügt jetzt über Eigenschaften zum Festlegen des gewünschten Phoneme-Alphabets (IPA oder SAPI) und der N-Best Phoneme Count (vermeiden, dass eine JSON-Konfiguration gemäß GitHub Problem 1284 erstellt werden muss). Außerdem wird jetzt die Ausgabe auf Silbenebene unterstützt.
  • Android, iOS und macOS (alle Programmiersprachen): GStreamer wird nicht mehr benötigt, um Netzwerke mit begrenzter Bandbreite zu unterstützen. SpeechSynthesizer verwendet jetzt die Audiodecodierungsfunktionen des Betriebssystems, um komprimierte Audiodaten zu decodieren, die vom Sprachsynthese-Dienst gestreamt werden.
  • Alle Programmiersprachen: SpeechSynthesizer unterstützt jetzt drei neue Opus-Rohausgabeformate (ohne Container), die häufig in Livestreamingszenarien verwendet werden.
  • JavaScript: GetVoicesAsync() API zu SpeechSynthesizer hinzugefügt, um die Liste der unterstützten Synthesestimme abzurufen (GitHub Problem 1350)
  • JavaScript: GetWaveFormat()-API zu AudioStreamFormat hinzugefügt, um Nicht-PCM-Wellenformate zu unterstützen (GitHub Problem 452)
  • JavaScript: Volume-Getter/Setter und mute()/unmute() APIs wurden zu SpeakerAudioDestination hinzugefügt (GitHub Issue 463)

Behebung von Programmfehlern

  • C++, C#, Java, JavaScript, Objective-C und Swift: Fix zum Entfernen einer 10-Sekunden-Verzögerung beim Beenden einer Spracherkennung, die einen PushAudioInputStream verwendet. Dies gilt für den Fall, dass nach dem Aufruf von StopContinuousRecognition keine neuen Audiodaten übertragen werden (GitHub Probleme 1318, 331)
  • Unity unter Android und UWP: Unity-Metadateien wurden für UWP, Android Arm64 und Windows Subsystem für Android (WSA) Arm64 (GitHub Problem 1360) behoben.
  • iOS: Kompilieren Ihrer Speech SDK-Anwendung auf einem beliebigen iOS-Gerät bei Verwendung von CocoaPods ist jetzt behoben (GitHub Problem 1320)
  • iOS: Wenn SpeechSynthesizer so konfiguriert ist, dass Audiodaten direkt an einen Lautsprecher ausgegeben werden, wurde in seltenen Fällen die Wiedergabe am Anfang angehalten. Dies wurde behoben.
  • JavaScript: Verwenden des Skriptprozessor-Fallbacks für Mikrofoneingaben, wenn kein Audio-Worklet gefunden wird (GitHub Problem 455)
  • JavaScript: Hinzufügen eines Protokolls zum Agent, um Fehler zu beheben, die bei der Sentry-Integration gefunden wurden (GitHub Problem 465)

Beispiele GitHub

  • C++, C#, Python und Java-Beispiele, die zeigen, wie Sie detaillierte Erkennungsergebnisse erhalten. Die Details umfassen alternative Erkennungsergebnisse, Zuverlässigkeitsbewertung, lexikalische Form, normalisierte Form, maskierte normalisierte Form mit jeweiligem Timing auf Wortebene.
  • iOS-Beispiel mithilfe von AVFoundation als externe Audioquelle hinzugefügt.
  • Java Sample hinzugefügt, um zu zeigen, wie Sie das SRT-Format (SubRip-Text) mithilfe des WordBoundary-Ereignisses abrufen.
  • Android-Beispiele für die Aussprachebewertung.
  • C++-, C# zeigt die Verwendung der neuen Diagnoseprotokollierungsklassen an.

Speech SDK 1.19.0: Release von November 2021

Höhepunkte

  • Sprechererkennungsdienst ist jetzt allgemein verfügbar. Speech SDK-APIs sind in C++, C#, Java und JavaScript verfügbar. Mit der Sprechererkennung können Sie Sprecher anhand ihrer einzigartigen Stimmmerkmale genau überprüfen und identifizieren. Weitere Informationen zu diesem Thema finden in der Dokumentation.

  • Wir haben die Unterstützung für Ubuntu 16.04 in Verbindung mit Azure DevOps und GitHub eingestellt. Ubuntu 16.04 hat im April 2021 das Ende der Lebensdauer erreicht. Migrieren Sie Ubuntu 16.04-Workflows zu mindestens Ubuntu 18.04.

  • OpenSSL-Verknüpfung in Linux-Binärdateien wurde in den dynamischen Modus geändert. Die Binärgröße von Linux wurde um etwa 50 % reduziert.

  • Mac M1 ARM-basierte Chipunterstützung wurde hinzugefügt.

Neue Funktionen

  • C++/C#/Java: Neue APIs, die hinzugefügt wurden, um die Unterstützung der Audioverarbeitung für die Spracheingabe mit Microsoft Audiostapel zu ermöglichen. Die Dokumentation finden Sie hier.

  • C++: Neue APIs für die Absichtserkennung, um einen erweiterten Musterabgleich zu ermöglichen. Dies umfasst Listenentitäten und vordefinierte Ganzzahlentitäten sowie Unterstützung für die Gruppierung von Absichten und Entitäten als Modelle (Dokumentation, Updates und Beispiele befinden sich in der Entwicklung und werden in naher Zukunft veröffentlicht).

  • Mac: Unterstützung für Arm64 (M1)-basiertes Silizium für CocoaPod- Python-, Java- und NuGet-Pakete im Zusammenhang mit GitHub Problem 1244.

  • iOS/Mac: iOS- und macOS-Binärdateien werden jetzt in xcframework im Zusammenhang mit GitHub Problem 919 verpackt.

  • iOS/Mac: Unterstützung für Mac-Katalysator im Zusammenhang mit GitHub Problem 1171.

  • Linux:Neues tar-Paket für CentOS7 Informationen zum Speech SDKwurde hinzugefügt. Das TAR-Paket von Linux enthält nun spezifische Bibliotheken für RHEL/CentOS 7 in lib/centos7-x64. Speech SDK-Bibliotheken in lib/x64 gelten weiterhin für alle anderen unterstützten Linux x64-Distributionen (einschließlich RHEL/CentOS 8) und funktionieren nicht unter RHEL/CentOS 7.

  • JavaScript: VoiceProfile- und SpeakerRecognizer-APIs wurden in async/awaitable geändert.

  • JavaScript: Unterstützung für Azure Regionen der US-Regierung hinzugefügt.

  • Windows: Unterstützung für die Wiedergabe auf Universelle Windows-Plattform (UWP) hinzugefügt.

Behebung von Programmfehlern

  • Android: OpenSSL-Sicherheitsupdate (aktualisiert auf Version 1.1.1l) für Android-Pakete.

  • Python: Es wurde ein Fehler behoben, bei dem die Auswahl des Lautsprechergeräts auf Python fehlschlägt.

  • Core: Automatisches Wiederherstellen der Verbindung, wenn ein Verbindungsversuch fehlschlägt.

  • iOS: Audiokomprimierung wurde für iOS-Pakete aufgrund von Instabilität und Bitcode-Buildproblemen bei Verwendung von GStreamer deaktiviert. Details sind über GitHub Problem 1209 verfügbar.

Beispiele GitHub

  • Mac/iOS: Aktualisierte Beispiele und Schnellstarts zur Verwendung des xcframework-Pakets.

  • .NET: Beispiele, die aktualisiert wurden, um .NET Core 3.1-Version zu verwenden.

  • JavaScript: Beispiel für Sprach-Assistenten wurde hinzugefügt.

Speech SDK 1.18.0: Release von Juli 2021

Hinweis: Informationen zu den ersten Schritten mit dem Speech SDK finden Sie hier.

Zusammenfassung der Highlights

  • Ubuntu 16.04 hat im April 2021 das Ende der Lebensdauer erreicht. Mit Azure DevOps und GitHub werden wir die Unterstützung für 16.04 im September 2021 beenden. Migrieren Sie Ubuntu 16.04-Workflows vorher mindestens zu Ubuntu 18.04.

Neue Funktionen

  • C++: Der einfache Sprachmusterabgleich mit Absichtserkennung vereinfacht jetzt die Implementierung einfacher Absichtserkennungsszenarien.
  • C++/C#/Java: Wir haben eine neue API GetActivationPhrasesAsync() zur klasse VoiceProfileClient hinzugefügt, um eine Liste gültiger Aktivierungsausdrücke in der Registrierungsphase der Lautsprechererkennung für unabhängige Erkennungsszenarien zu erhalten.
    • Wichtig: Das Feature zur Sprechererkennung befindet sich in der Vorschauphase. 90 Tage nach der Freigabe für die allgemeine Verfügbarkeit werden alle in der Vorschauversion des Features erstellten Sprachprofile nicht mehr unterstützt. Die Sprachprofile aus der Vorschauversion funktionieren dann nicht mehr.
  • Python: Unterstützung für kontinuierliche Spracherkennung (LID) bei den vorhandenen - und -Objekten hinzugefügt.
  • Python: Es wurde ein neues Python-Objekt hinzugefügt mit dem Namen SourceLanguageRecognizer, um einmaliges oder fortlaufendes LID (ohne Erkennung oder Übersetzung) durchzuführen.
  • JavaScript: Der getActivationPhrasesAsync-Klasse wurde eine API VoiceProfileClient hinzugefügt, die den Empfang einer Liste gültiger Aktivierungsausdrücke in der Registrierungsphase der Sprechererkennung für unabhängige Erkennungsszenarien ermöglicht.
  • Die -API der VoiceProfileClient-Klasse von enrollProfileAsync ist jetzt asynchron „awaitable“. Siehe zum Beispiel diesen unabhängigen Identifikationscode zur Nutzung.

Verbesserungen

  • Java: AutoCloseable Unterstützung für viele Java Objekte hinzugefügt. Für die Freigabe von Ressourcen wird jetzt das try-with-resources-Modell unterstützt. Siehe dieses Beispiel, das try-with-resources verwendet. Sie können sich auch das Tutorial zur try-with-resources-Anweisung in der Oracle Java-Dokumentation ansehen, um mehr über dieses Muster zu erfahren.
  • Der Speicherbedarf des Datenträgers wurde für viele Plattformen und Architekturen erheblich reduziert. Beispiele für die Microsoft.CognitiveServices.Speech.core Binärdatei: x64 Linux ist 475 KB kleiner (8,0% Reduzierung); Arm64 Windows UWP ist 464 KB kleiner (11,5% Reduktion); x86 Windows ist 343 KB kleiner (17,5% Reduzierung); und x64 Windows ist 451 KB kleiner (19,4% Reduzierung).

Behebung von Programmfehlern

  • Java: Behobener Synthesefehler, wenn der Synthesetext Ersatzzeichen enthält. Details hier.
  • JavaScript: Für die Verarbeitung von Audioeingaben über das Browsermikrofon wird jetzt AudioWorkletNode anstelle der veralteten ScriptProcessorNode-Schnittstelle verwendet. Details hier.
  • JavaScript: Halten Sie Konversationen in Szenarien mit zeitintensiver Konversationsübersetzung korrekt aufrecht. Details hier.
  • JavaScript: Es wurde ein Problem behoben, aufgrund dessen das Erkennungsmodul bei der kontinuierlichen Erkennung erneut eine Verbindung mit einem Medienstream hergestellt hat. Details hier.
  • JavaScript: Es wurde ein Problem behoben, aufgrund dessen das Erkennungsmodul bei der kontinuierlichen Erkennung erneut eine Verbindung mit einem Pushstream hergestellt hat. Details hier.
  • JavaScript: Die Offsetberechnung auf Wortebene in detaillierten Erkennungsergebnissen wurde korrigiert. Details hier.

Beispiele

  • Java Schnellstartbeispiele wurden hier aktualisiert.
  • Die Beispiele zur JavaScript-Sprechererkennung wurden aktualisiert, um die neue Verwendung der enrollProfileAsync()-Methode zu veranschaulichen. Beispiele hier.

Speech SDK 1.17.0: Version aus Mai 2021

Hinweis

Erste Schritte mit dem Speech SDK finden Sie hier:

Zusammenfassung der Highlights

  • Geringerer Speicherbedarf: Wir verringern weiterhin den Speicher- und Datenträgerbedarf des Speech SDK und seiner Komponenten.
  • Mit einer neuen eigenständigen Sprachenerkennungs-API können Sie erkennen, welche Sprache gesprochen wird.
  • Entwickeln Sie sprachaktivierte Mixed Reality- und Gaminganwendungen mit Unity unter macOS.
  • Sie können jetzt in der Programmiersprache Go zusätzlich zur Spracherkennung auch die Sprachsynthese verwenden.
  • Mehrere Fehlerkorrekturen zur Behebung von Problemen, die SIE, unsere geschätzten Kunden, auf GitHub gekennzeichnet haben! VIELEN DANK! Es wäre schön, wenn Sie uns weiter Feedback senden würden.

Neue Funktionen

  • C++/C#: Neue eigenständige Start- und fortlaufende Sprachenerkennung über die SourceLanguageRecognizer-API. Wenn Sie nur die in Audioinhalten gesprochene(n) Sprache(n) erkennen möchten, ist dies die richtige API dafür. Mehr dazu finden Sie in den Details für C++ und C#.
  • C++/C#: Spracherkennung und Übersetzungserkennung unterstützen jetzt sowohl die Spracherkennung zu Beginn als auch die kontinuierliche Spracherkennung, sodass Sie programmgesteuert bestimmen können, welche Sprache(n) gesprochen werden, bevor sie transkribiert oder übersetzt werden. Weitere Informationen zur Spracherkennung finden Sie hier und weitere Informationen zur Sprachübersetzung finden Sie hier.
  • C#: Unterstützung für Unity wurde zu macOS (x64) hinzugefügt. Dadurch werden Anwendungsfälle für Spracherkennung und Sprachsynthese in Mixed Reality und Gaming ermöglicht.
  • Go: Wir haben die Unterstützung für Sprachsynthese/Text-zu-Sprache zur Programmiersprache Go hinzugefügt, um die Sprachsynthese in noch mehr Anwendungsfällen zur Verfügung zu stellen. Lesen Sie unsere Schnellstartanleitung oder unsere Referenzdokumentation.
  • C++/C#/Java/Python/Objective-C/Go: Der Sprachsynthesizer unterstützt jetzt das connection-Objekt. Dies hilft Ihnen bei der Verwaltung und Überwachung der Verbindung mit dem Spracherkennungsdienst und ist besonders hilfreich, um eine Vorabverbindung zur Verringerung der Wartezeit herzustellen. Die zugehörige Dokumentation finden Sie hier.
  • C++/C#/Java/Python/Objective-C/Go: Wir machen jetzt die Latenz und die Underrun-Zeit in SpeechSynthesisResult verfügbar, um Probleme mit der Sprachsyntheselatenz zu überwachen und zu diagnostizieren. Weitere Informationen finden Sie unter C++-, C#, Java, Python, Objective-C und Go.
  • C++/C#/Java/Python/Objective-C: Text zu Sprache now verwendet standardmäßig neurale Stimmen wenn Sie keine zu verwendende Stimme angeben. Dadurch erhalten Sie standardmäßig eine höhere Wiedergabetreue, dies erhöht aber auch den Standardpreis.
  • C++/C#/Java/Python/Objective-C/Go: Wir haben der Synthesestimme eine Eigenschaft "Gender" hinzugefügt, um die Auswahl von Stimmen auf der Grundlage des Geschlechts zu erleichtern. Dies behebt GitHub Problem #1055.
  • C++, C#, Java, JavaScript: Wir unterstützen jetzt retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync und getAllProfilesAsync() in der Lautsprechererkennung, um die Benutzerverwaltung aller Sprachprofile für ein bestimmtes Konto zu vereinfachen. Weitere Informationen finden Sie in der Dokumentation zu C++, C#, Java, JavaScript. Dies behebt GitHub Problem #338.
  • JavaScript: Wir haben Wiederholungsversuche bei Verbindungsfehlern hinzugefügt, die Ihre JavaScript-basierten Sprachanwendungen zuverlässiger gestalten.

Verbesserungen

  • Speech SDK-Binärdateien für Linux und Android wurden aktualisiert, um die neueste Version von OpenSSL (1.1.1k) zu verwenden.
  • Verbesserungen beim Codeumfang:
    • Language Understanding ist jetzt in eine separate Lu-Bibliothek unterteilt.
    • Windows x64-Kern-Binärgröße verringerte sich um 14,4%.
    • Die Größe der Binärdateien für den Android Arm64-Kern wurde um 13,7 % verringert.
    • Andere Komponenten wurden ebenfalls verkleinert.

Behebung von Programmfehlern

  • All: GitHub-Issue #842 für ServiceTimeout wurde behoben. Sie können jetzt lange Audiodateien mithilfe des Speech SDK transkribieren, ohne dass die Verbindung mit dem Dienst mit diesem Fehler beendet wird. Es wird jedoch weiterhin empfohlen, die Batchtranskription für lange Dateien zu verwenden.
  • C#: Behoben GitHub-Problem #947, bei dem fehlende Spracheingaben Ihre App in einen schlechten Zustand versetzen konnten.
  • Java: GitHub-Issue Nr. 997 behoben, bei dem das Speech-SDK Version 1.16 für Java abstürzt, wenn DialogServiceConnector ohne Netzwerkverbindung oder einen ungültigen Abonnementsschlüssel verwendet wird.
  • Ein Absturz beim abrupten Beenden der Spracherkennung (z. B. mithilfe von STRG+C in der Konsolen-App) wurde behoben.
  • Java: Es wurde ein Fix zum Löschen temporärer Dateien auf Windows hinzugefügt, wenn Sie das Speech SDK für Java verwenden.
  • Java: Behebung des GitHub-Issue #994, bei dem der Aufruf von DialogServiceConnector.stopListeningAsync zu einem Fehler führen konnte.
  • Java: Es wurde ein Kundenproblem im Virtual Assistant-Schnellstart behoben.
  • JavaScript: Fehler im GitHub-Issue #366 behoben, bei dem ConversationTranslator den Fehler 'this.cancelSpeech isn't a function' ausgelöst hat.
  • JavaScript: GitHub-Problem #298 behoben, bei dem das Beispiel "Ergebnis als Speicherdatenstrom abrufen" Geräusche laut wiedergab.
  • JavaScript: Behoben GitHub Issue #350, bei dem das Aufrufen von AudioConfig zu einem 'ReferenceError: MediaStream isn't defined' führen konnte.
  • JavaScript: Eine „UnhandledPromiseRejection“-Warnung in Node.js für zeitintensive Sitzungen wurde behoben.

Beispiele

  • Aktualisierte Unity-Beispieldokumentation für macOS here.
  • Ein React Native-Beispiel für den Azure Spracherkennungsdienst ist jetzt here verfügbar.

Speech SDK 1.16.0: Release von März 2021

Hinweis

Das Speech SDK für Windows hängt vom freigegebenen Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 ab.

Neue Funktionen

  • C++/C#/Java/Python: Wurde in die neueste Version von GStreamer (1.18.3) verschoben, um Unterstützung zum Transkribieren von Medienformaten auf Windows, Linux und Android hinzuzufügen. Die zugehörige Dokumentation finden Sie hier.
  • C++/C#/Java/Objective-C/Python: Unterstützung für die Decodierung komprimierter TTS/synthesizer-Audiodaten zum SDK hinzugefügt. Wenn Sie das Ausgabeaudioformat auf PCM festlegen und GStreamer auf Ihrem System verfügbar ist, fordert das SDK automatisch komprimierte Audiodaten vom Dienst an, um Bandbreite zu sparen und die Audiodaten auf dem Client zu decodieren. Sie können SpeechServiceConnection_SynthEnableCompressedAudioTransmission auf false festlegen, um dieses Feature zu deaktivieren. Details zu C++, C#, Java, Objective-C, Python.
  • JavaScript: Node.js-Benutzer können jetzt die -AudioConfig.fromWavFileInputAPIverwenden. Dies behebt GitHub Problem #252.
  • C++/C#/Java/Objective-C/Python: GetVoicesAsync()-Methode für TTS hinzugefügt, um alle verfügbaren Synthesestimmen zurückzugeben. Details zu C++, C#, Java, Objective-C und Python.
  • C++/C#/Java/JavaScript/Objective-C/Python: Das VisemeReceived-Ereignis für TTS/Sprachsynthese wurde hinzugefügt, um synchrone Viseme-Animation zurückzugeben. Die zugehörige Dokumentation finden Sie hier.
  • C++/C#/Java/JavaScript/Objective-C/Python: BookmarkReached-Ereignis für TTS hinzugefügt. Sie können im Eingabe-SSML Lesezeichen festlegen und den Audiooffset jedes Lesezeichen abrufen. Die zugehörige Dokumentation finden Sie hier.
  • Java: Unterstützung für Sprechererkennungs-APIs hinzugefügt. Details hier.
  • C++/C#/Java/JavaScript/Objective-C/Python: Es wurden zwei neue Ausgabeaudioformate mit WebM-Container für TTS (Webm16Khz16BitMonoOpus und Webm24Khz16BitMonoOpus) hinzugefügt. Diese Formate sind besser für das Streaming von Audiodaten mit dem Opus-Codec geeignet. Details zu C++-, C#, Java, JavaScript, Objective-C, Python.
  • C++/C#/Java: Unterstützung für das Abrufen des Sprachprofils für das Spracherkennungsszenario hinzugefügt. Details zu C++, C# und Java.
  • C++/C#/Java/Objective-C/Python: Unterstützung für separate freigegebene Bibliothek für Audiomikrofone und Lautsprechersteuerung hinzugefügt. Dies ermöglicht dem Entwickler die Verwendung des SDK in Umgebungen ohne Abhängigkeiten von erforderlichen Audiobibliotheken.
  • Objective-C/Swift: Es wurde Unterstützung für Modulframeworks mit Umbrella-Header hinzugefügt. Dies ermöglicht dem Entwickler den Import des Speech SDK als Modul in Apps mit Objective-C (iOS oder Mac)/Swift. Dies behebt GitHub Problem #452.
  • Python: Python 3.9 wird jetzt unterstützt, während Python 3.5 aufgrund der Einstellung des Supports für Python 3.5 nicht mehr unterstützt wird.

Bekannte Probleme

  • C++/C#/Java: DialogServiceConnector kann nicht mit CustomCommandsConfig auf eine Anwendung für benutzerdefinierte Befehle zugreifen. Stattdessen tritt ein Verbindungsfehler auf. Dies kann umgangen werden, indem Sie der Anforderung mit config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter) die Anwendungs-ID manuell hinzufügen. Das erwartete Verhalten von CustomCommandsConfig wird in der nächsten Version wiederhergestellt.

Verbesserungen

  • Wir möchten die Speicherauslastung und den Datenträger-Speicherbedarf des Speech SDK releaseunabhängig verringern, und Android-Binärdateien sind jetzt um 3 % bis 5 % kleiner.
  • Verbesserte Genauigkeit, Lesbarkeit und Abschnitte mit weiteren Informationen in unserer C#-Referenzdokumentation hier.

Behebung von Programmfehlern

  • JavaScript: Umfangreiche WAV-Dateiheader werden jetzt ordnungsgemäß analysiert (vergrößert das Headersegment auf 512 Bytes). Dies behebt GitHub Problem #962.
  • JavaScript: Ein Problem bei der Mikrofonzeitsteuerung wurde korrigiert, das auftritt, wenn der Mikrofonstream vor der Stopperkennung endet. Dies betrifft eine Funktionsstörung der Spracherkennung in Firefox.
  • JavaScript: Die Initialisierungszusage wird jetzt ordnungsgemäß behandelt, wenn der Browser das Ausschalten des Mikrofons erzwingt, bevor „turnon“ abgeschlossen wurde.
  • JavaScript: „url-dependency“ wurde durch „url-parse“ ersetzt. Dies behebt GitHub Problem #264.
  • Android: Das Problem wurde behoben, dass keine Rückrufe erfolgen, wenn minifyEnabled auf „true“ festgelegt ist.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY wird ordnungsgemäß auf die zugrunde liegende Socket-E/A für TTS festgelegt, um die Latenz zu verringern.
  • C++/C#/Java/Python/Objective-C/Go: Es wurde ein gelegentlicher Absturz behoben, wenn der Erkenner direkt nach dem Start einer Erkennung zerstört wurde.
  • C++/C#/Java: Das Problem wurde behoben, dass bei der Zerstörung der Sprechererkennung gelegentlich ein Absturz erfolgt.

Beispiele

  • JavaScript: Browser-Beispiele benötigen keinen separaten Download der JavaScript-Bibliotheksdatei mehr.

Speech-SDK 1.15.0: Release von Januar 2021

Hinweis

Das Speech SDK für Windows hängt vom freigegebenen Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 ab.

Zusammenfassung der Highlights

  • Der geringere Arbeitsspeicher und Speicherbedarf des Datenträgers machen das SDK effizienter.
  • Ausgabeformate mit höherer Genauigkeit für die benutzerdefinierte neurale Sprachvorschau verfügbar.
  • Die Absichtserkennung kann jetzt mehr als nur die höchste Absicht abrufen und zurückgeben, sodass Sie eine separate Bewertung der Absicht Ihres Kunden durchführen können.
  • Das Einrichten von Sprach-Assistenten oder Bots ist nun einfacher, Sie können das Zuhören sofort beenden und die Reaktionen auf Fehler besser steuern.
  • Die Geräteleistung wurde verbessert, da die Komprimierung optional ist.
  • Verwenden Sie das Speech SDK auf Windows ARM/Arm64.
  • Das Debuggen auf niedriger Ebene wurde verbessert.
  • Das Feature zur Bewertung der Aussprache ist jetzt in größerem Umfang verfügbar.
  • Mehrere Fehlerkorrekturen zur Behebung von Problemen, die SIE, unsere geschätzten Kunden, auf GitHub gekennzeichnet haben! VIELEN DANK! Es wäre schön, wenn Sie uns weiter Feedback senden würden.

Verbesserungen

  • Das Speech-SDK ist jetzt effizienter und einfacher zu verwenden. Es wurde ein Multirelease gestartet, um die Speicherauslastung und den Speicherbedarf des Speech-SDK zu reduzieren. Im ersten Schritt wurden erhebliche Änderungen an der Dateigröße in freigegebenen Bibliotheken vorgenommen. Im Vergleich zum Release 1.14:
    • 64-Bit-UWP-kompatible Windows Bibliotheken sind etwa 30% kleiner.
    • 32-Bit-Windows Bibliotheken sehen noch keine Größenverbesserung.
    • Linux-Bibliotheken sind 20 bis 25 Prozent kleiner.
    • Android-Bibliotheken sind 3 bis 5 Prozent kleiner.

Neue Funktionen

  • Alle: Für die Vorschau der benutzerdefinierten neuronalen Stimme über die TTS-Sprachsynthese-API sind neue 48-kHz-Ausgabeformate verfügbar: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • All: Custom Voice ist ebenfalls einfacher zu verwenden. Unterstützung für das Festlegen benutzerdefinierter VoIP über EndpointId (C++ hinzugefügt, C#, Java, JavaScript, Objective-C, Python). Vor dieser Änderung mussten Custom Voice-Benutzer die Endpunkt-URL über die FromEndpoint-Methode festlegen. Kunden können nun die FromSubscription-Methode wie bei Standardstimmen verwenden und dann die Bereitstellungs-ID angeben, indem sie EndpointId festlegen. Dadurch wird das Einrichten von benutzerdefinierten Stimmen vereinfacht.
  • C++/C#/Java/Objective-C/Python: Rufen Sie mehr als die oberste Absicht vonIntentRecognizer ab. Jetzt wird das Konfigurieren des JSON-Ergebnisses über die LanguageUnderstandingModel FromEndpoint-Methode mithilfe des verbose=true-URI-Parameters unterstützt, das alle Absichten und nicht nur die Absicht mit der höchsten Bewertung enthält. Dies behebt GitHub Problem #880. Die aktualisierte Dokumentation finden Sie hier.
  • C++/C#/Java: Lassen Sie Ihren Sprachassistenten oder Bot sofort aufhören zuzuhören. DialogServiceConnector (C++, C#, Java) verfügt nun über eine StopListeningAsync() Methode, die ListenOnceAsync() begleiten soll. Dadurch wird die Audioaufzeichnung sofort beendet und ordnungsgemäß auf das Ergebnis gewartet, sodass sich dies perfekt für Szenarios mit der Schaltfläche „Jetzt Beenden“ eignet.
  • C++/C#/Java/JavaScript: Lassen Sie Ihren Sprachassistenten oder Bot besser auf zugrunde liegende Systemfehler reagieren. DialogServiceConnector (C++, C#, Java, JavaScript) verfügt jetzt über einen neuen TurnStatusReceived-Ereignishandler. Diese optionalen Ereignisse entsprechen allen ITurnContext-Auflösungen im Zusammenhang mit dem Bot und melden ggf. Ausführungsfehler (z. B. als Ergebnis eines Ausnahmefehlers, Timeouts oder Netzwerkfehlers zwischen Direct Line Speech und dem Bot). TurnStatusReceived erleichtert das Reagieren auf Fehlerbedingungen. Wenn ein Bot beispielsweise zu viel Zeit für eine Back-End-Datenbankabfrage benötigt (z. B. bei der Suche nach einem Produkt), kann dem Client mit TurnStatusReceived und einer Nachricht wie „Entschuldigung, ich habe das nicht verstanden. Probieren Sie es später noch mal.“ mitgeteilt werden, dass er die Aufforderung später noch mal durchführen soll.
  • C++/C# : Verwenden Sie das Speech-SDK auf mehreren Plattformen. Das Speech SDK NuGet-Paket unterstützt jetzt Windows nativen ARM/Arm64-Desktop-Binärdateien (UWP wurde bereits unterstützt), um das Speech SDK für mehr Computertypen nützlicher zu machen.
  • Java: DialogServiceConnector verfügt jetzt über eine setSpeechActivityTemplate()-Methode, die zuvor unbeabsichtigt aus der Sprache ausgeschlossen wurde. Dies entspricht dem Festlegen der eigenschaft Conversation_Speech_Activity_Template und fordert an, dass alle zukünftigen Bot Framework-Aktivitäten, die vom Direct Line Sprachdienst stammen, den bereitgestellten Inhalt in ihre JSON-Nutzlasten zusammenführen.
  • Java: Verbessertes Debuggen auf niedriger Ebene. Die Connection-Klasse verfügt jetzt ähnlich wie andere Programmiersprachen (C++, C#) über ein MessageReceived-Ereignis. Dieses Ereignis ermöglicht den Zugriff auf vom Dienst eingehende Daten auf niedriger Ebene und kann bei der Diagnose und beim Debuggen hilfreich sein.
  • JavaScript: Das Einrichten von Sprach-Assistenten und Bots über die BotFrameworkConfig-Klasse wird einfacher, da diese nun über die Factorymethoden fromHost() und fromEndpoint() verfügt, die die Verwendung von benutzerdefinierten Dienstidentifizierungen im Vergleich zum manuellen Festlegen von Eigenschaften vereinfachen. Die optionale Angabe von botId wurde für die Verwendung eines nicht dem Standard entsprechenden Bots in den Konfigurationsfactorys ebenfalls standardisiert.
  • JavaScript: Die Geräteleistung wurde durch das Hinzufügen der Zeichenfolgensteuerungseigenschaft für die WebSocket-Komprimierung verbessert. Aus Leistungsgründen wurde die WebSocket-Komprimierung standardmäßig deaktiviert. Diese kann für Szenarios mit geringer Bandbreite erneut aktiviert werden. Ausführlichere Informationen finden Sie hier. Dies behebt GitHub Problem #242.
  • JavaScript: Die Unterstützung für die Bewertung der Aussprache wurde hinzugefügt, um die Auswertung der Aussprache zu ermöglichen. Den Schnellstart finden Sie hier.

Behebung von Programmfehlern

  • Alle (mit Ausnahme von JavaScript): Es wurde eine Regression in Version 1.14 korrigiert, bei der das Erkennungsmodul zu viel Speicher belegt hat.
  • C++-: Es wurde ein Problem mit der Garbage Collection mit DialogServiceConnector behoben, wobei GitHub Problem #794 behoben wurde.
  • C# : Es wurde ein Problem mit dem Herunterfahren des Threads behoben, das dazu geführt hat, dass Objekte beim Verwerfen ungefähr eine Sekunde blockiert wurden.
  • C++/C#/Java: Es wurde eine Ausnahme behoben, mit der verhindert wurde, dass eine Anwendung ein Sprachautorisierungstoken oder eine Aktivitätsvorlage mehrmals auf einem DialogServiceConnector festlegt.
  • C++/C#/Java: Es wurde ein Problem behoben, das dazu geführt hat, dass das Erkennungsmodul aufgrund einer Racebedingung beim Löschen abgestürzt ist.
  • JavaScript: DialogServiceConnector hat den optionalen botId-Parameter, der in den Factorys von BotFrameworkConfig angegebenen wurde, zuvor nicht berücksichtigt. Dadurch ist es notwendig, den Abfragezeichenfolgenparameter botId manuell festzulegen, um einen nicht dem Standard entsprechenden Bot zu verwenden. Der Fehler wurde korrigiert, und botId-Werte, die in den Factorys von BotFrameworkConfig bereitgestellt werden, werden einschließlich der neuen Ergänzungen fromHost() und fromEndpoint() berücksichtigt und verwendet. Dies gilt auch für den applicationId-Parameter für CustomCommandsConfig.
  • JavaScript: GitHub-Issue #881 wurde behoben, sodass das Erkennungsobjekt wiederverwendet werden kann.
  • JavaScript: Es wurde ein Problem behoben, bei dem das SKD mehrmals in einer TTS-Sitzung speech.config gesendet und somit Bandbreite verschwendet hat.
  • JavaScript: Die Fehlerbehandlung bei der Mikrofonautorisierung wurde vereinfacht, sodass mehr beschreibende Meldungen angezeigt werden können, wenn ein Benutzer die Mikrofoneingabe im Browser nicht zugelassen hat.
  • JavaScript: Problem "GitHub Problem #249 behoben, bei dem Typfehler in ConversationTranslator und ConversationTranscriber einen Kompilierungsfehler für TypeScript-Benutzer verursacht haben.
  • Objective-C: Es wurde ein Problem behoben, bei dem der GStreamer-Build für iOS unter Xcode 11.4 fehlgeschlagen ist und GitHub Problem #911 behoben wurde.
  • Python: Problem "GitHub Problem #870 wurde behoben, wobei "DeprecationWarning" entfernt wurde: Das Imp-Modul ist zugunsten von importlib veraltet".

Beispiele

Speech SDK 1.14.0: Release vom Oktober 2020

Hinweis

Das Speech SDK für Windows hängt vom freigegebenen Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 ab.

Neue Funktionen

  • Linux: Unterstützung für Debian 10 und Ubuntu 20.04 LTS wurde hinzugefügt.
  • Python/Objective-C: Unterstützung für die API KeywordRecognizer hinzugefügt. Die Dokumentation finden Sie hier.
  • C++/Java/C#: Unterstützung hinzugefügt, um alle HttpHeader Key/Value über ServicePropertyChannel::HttpHeader festzulegen.
  • JavaScript: Die Unterstützung für die ConversationTranscriber-API wurde hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
  • C++/C#: Die neue AudioDataStream FromWavFileInput-Methode (zum Lesen von WAV-Dateien) wurde hier (C++) und hier (C#) hinzugefügt.
  • C++/C#/Java/Python/Objective-C/Swift: Es wurde eine methode stopSpeakingAsync() hinzugefügt, um text to speech synthesis zu beenden. Lesen Sie die Referenzdokumentation here (C++), here (C#), here (Java), here (Python) und here (Objective-C/Swift).
  • C#, C++, Java: FromDialogServiceConnector()-Funktion zur klasse Connection hinzugefügt, die zum Überwachen von Verbindungs- und Trennungsereignissen für DialogServiceConnector verwendet werden kann. Lesen Sie die Referenzdokumentation here (C#), here (C++) und here (Java).
  • C++/C#/Java/Python/Objective-C/Swift: Unterstützung für die Aussprache hinzugefügt, die die Sprachausgabe auswertet, und gibt Sprechern Feedback zur Genauigkeit und Flunz gesprochener Audiodaten. Lesen Sie die Dokumentation.

Breaking Change

  • JavaScript: Der Rückgabetyp von PullAudioOutputStream.read() wurde von einer internen Zusage in eine native JavaScript-Zusage geändert.

Behebung von Programmfehlern

  • All: Die 1.13-Regression wurde in SetServiceProperty behoben, bei der Werte mit bestimmten Zeichen ignoriert wurden.
  • C#: Die Windows-Konsolenbeispiele in Visual Studio 2019 wurden behoben, die die systemeigenen DLLs nicht finden konnten.
  • C#: Der Absturz bei der Arbeitsspeicherverwaltung wurde behoben, wenn ein Datenstrom als KeywordRecognizer-Eingabe verwendet wurde.
  • ObjectiveC/Swift: Der Absturz bei der Arbeitsspeicherverwaltung wurde behoben, wenn ein Datenstrom als Eingabe des Erkennungsmoduls verwendet wurde.
  • Windows: Es wurde ein Koexistenzproblem mit BT HFP/A2DP auf UWP behoben.
  • JavaScript: Die Zuordnung von Sitzungs-IDs wurde behoben, um die Protokollierung zu verbessern und bei internen Debug-/Dienstkorrelationen zu helfen.
  • JavaScript: Es wurde eine Fehlerbehebung für DialogServiceConnector hinzugefügt, die ListenOnce-Aufrufe nach dem Ausführen des ersten Aufrufs deaktiviert.
  • JavaScript: Es wurde ein Problem behoben, bei dem die Ergebnisausgabe immer nur „simple“ (einfach) ergibt.
  • JavaScript: Ein Problem bei der fortlaufenden Erkennung wurde in Safari unter macOS behoben.
  • JavaScript: Es wurde eine Risikominderung für die CPU-Last für das Szenario mit hohem Anforderungsdurchsatz durchgeführt.
  • JavaScript: Der Zugriff auf Details des Ergebnisses der Sprachprofilregistrierung wurde zugelassen.
  • JavaScript: Ein Fehler bei der fortlaufenden Erkennung in IntentRecognizer wurde behoben.
  • C++/C#/Java/Python/Swift/ObjectiveC: Falsche URL für australieneast und brazilsouth in IntentRecognizer wurde behoben.
  • C++/C#: Es wurde VoiceProfileType als Argument beim Erstellen eines VoiceProfile-Objekts hinzugefügt.
  • C++/C#/Java/Python/Swift/ObjectiveC: Es wurde ein Problem für das potenzielle SPX_INVALID_ARG beim Versuch behoben, AudioDataStream von einer angegebenen Position zu lesen.
  • IOS: Es wurde der Absturz bei der Spracherkennung unter Unity behoben.

Beispiele

  • ObjectiveC: Beispiel für die Schlüsselworterkennung here hinzugefügt.
  • C#/JavaScript: Schnellstart für die Transkription von Unterhaltungen here (C#) und here (JavaScript) hinzugefügt.
  • C++/C#/Java/Python/Swift/ObjectiveC: Beispiel für die Aussprachebewertung hier hinzugefügt

Bekanntes Problem

  • DigiCert Global Root G2-Zertifikat wird in HoloLens 2 und Android 4.4 (KitKat) standardmäßig nicht unterstützt und muss dem System hinzugefügt werden, damit das Speech SDK funktionsfähig ist. Das Zertifikat wird in Naher Zukunft zu HoloLens 2 Betriebssystemimages hinzugefügt. Kunden von Android 4.4 müssen das aktualisierte Zertifikat dem System hinzufügen.

Abgekürzte Tests aufgrund von COVID-19

Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Im unwahrscheinlichen Fall, dass wir etwas übersehen haben, lassen Sie es uns bitte auf GitHub wissen.
Bleiben Sie gesund!

Speech SDK 1.13.0: Release 2020-July

Hinweis

Das Speech SDK für Windows hängt vom freigegebenen Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 ab.

Neue Funktionen

  • C# : Unterstützung für asynchrone Unterhaltungstranskription hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
  • JavaScript: Unterstützung der Lautsprechererkennung für browser und Node.js hinzugefügt.
  • JavaScript: Unterstützung für Sprachenerkennung/Sprach-ID hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
  • Objective-C: Unterstützung für die Unterhaltung auf mehreren Geräten und Unterhaltungstranskription hinzugefügt.
  • Python: Unterstützung für komprimierte Audiodaten für Python auf Windows und Linux hinzugefügt. Die zugehörige Dokumentation finden Sie hier.

Behebung von Programmfehlern

  • All: Es wurde ein Problem behoben, durch das der KeywordRecognizer die Streams nach einer Erkennung nicht weiterleitete.
  • All: Es wurde ein Problem behoben, durch das der aus einem KeywordRecognitionResult abgeleitete Stream nicht das Schlüsselwort enthielt.
  • All: Es wurde ein Problem behoben, durch das SendMessageAsync die Nachricht nicht wirklich über das Netzwerk gesendet hat, nachdem die Benutzer darauf warteten.
  • All: Es wurde ein Absturz in den Sprechererkennungs-APIs korrigiert, wenn Benutzer VoiceProfileClient::SpeakerRecEnrollProfileAsync mehrfach aufgerufen haben und nicht darauf warteten, dass die Aufrufe beendet wurden.
  • All: Die Aktivierung der Dateiprotokollierung in der VoiceProfileClient- und der SpeakerRecognizer-Klasse wurde korrigiert.
  • JavaScript: Es wurde ein Problem mit der Drosselung behoben, wenn der Browser minimiert wird.
  • JavaScript: Es wurde ein Problem mit einem Arbeitsspeicherverlust in Streams behoben.
  • JavaScript: Zwischenspeicherung für OCSP-Antworten von Node.js hinzugefügt.
  • Java: Es wurde ein Problem behoben, durch das BigInteger-Felder immer "0" zurückgegeben wurden.
  • iOS: Ein Problem beim Veröffentlichen von Speech SDK-basierten Apps im iOS App Store wurde behoben.

Beispiele

  • C++: Beispielcode für die Lautsprechererkennung here hinzugefügt.

Abgekürzte Tests aufgrund von COVID-19

Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Im unwahrscheinlichen Fall, dass wir etwas übersehen haben, lassen Sie es uns bitte auf GitHub wissen.
Bleiben Sie gesund!

Speech-SDK 1.12.1: Release von Juni 2020

Neue Funktionen

  • C#, C++: Sprechererkennung (Vorschauversion): Dieses Feature ermöglicht die Sprecheridentifikation („Wer spricht?“) und Sprecherüberprüfung („Ist der Sprecher die angegebene Person?“). Weitere Informationen finden Sie in der Übersichtsdokumentation.

Behebung von Programmfehlern

  • C#, C++: Die Mikrofonaufzeichnung funktionierte in 1.12 bei der Sprechererkennung nicht. Dies wurde behoben.
  • JavaScript: Fehler bei der Sprachsynthese in Firefox und Safari unter macOS und iOS wurden behoben.
  • Ein Fehler wurde behoben, bei dem es durch eine Zugriffsverletzung der Windows-Anwendungsüberprüfung bei der Unterhaltungstranskription von 8-Kanal-Datenströmen zu einem Absturz kam.
  • Es wurde ein Fehler behoben, bei dem es durch eine Zugriffsverletzung der Windows-Anwendungsüberprüfung bei der Konversationsübersetzung von mehreren Geräten zu einem Absturz kam.

Beispiele

Abgekürzte Tests aufgrund von COVID-19

Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Im unwahrscheinlichen Fall, dass wir etwas übersehen haben, lassen Sie es uns bitte auf GitHub wissen.
Bleiben Sie gesund!

Speech SDK 1.12.0: Release von Mai 2020

Neue Funktionen

  • Go: Neue Go-Sprachunterstützung für Die Spracherkennung und den benutzerdefinierten Sprachassistenten. Ihre Entwicklungsumgebung können Sie hier einrichten. Beispielcode finden Sie weiter unten im Abschnitt „Beispiele“.
  • JavaScript: Browserunterstützung für Sprachsynthese hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
  • C++, C#, Java: Neues KeywordRecognizer-Objekt und APIs, das auf Windows-, Android-, Linux- und iOS-Plattformen unterstützt wird. Lesen Sie die Dokumentation. Beispielcode finden Sie weiter unten im Abschnitt „Beispiele“.
  • Java: Unterstützung für mehrgerätefähige Gespräche mit Übersetzungsunterstützung hinzugefügt. Die zugehörige Referenzdokumentation finden Sie hier.

Verbesserungen und Optimierungen

  • JavaScript: Mikrofonimplementierung für Browser optimiert, um die Genauigkeit bei der Spracherkennung zu verbessern.
  • Java: Umgestaltete Bindungen mit direkter JNI-Implementierung ohne SWIG. Durch diese Änderung wird die Größe der Bindungen für alle Java-Pakete, die für Windows, Android, Linux und Mac verwendet werden, um das Zehnfache verkleinert und die Weiterentwicklung der Speech SDK-Java-Implementierung erleichtert.
  • Linux: Die unterstützende Dokumentation wurde mit den neuesten RHEL 7-spezifischen Anmerkungen aktualisiert.
  • Die Verbindungslogik wurde verbessert, um im Falle von Dienst- oder Netzwerkfehlern mehrere Verbindungsversuche zu unternehmen.
  • Die portal.azure.com Sprachschnellstartseite wurde aktualisiert, um Entwicklern den nächsten Schritt in ihrer Azure Speech-Reise zu erleichtern.

Behebung von Programmfehlern

  • C#, Java: Es wurde ein issue mit dem Laden von SDK-Bibliotheken auf Linux ARM (32 Bit und 64 Bit) behoben.
  • C#: Das explizite Löschen nativer Handles für die TranslationRecognizer-, IntentRecognizer- und Connection-Objekte wurde korrigiert.
  • C# : Für das ConversationTranscriber-Objekt wurde die Lebensdauerverwaltung für Audioeingaben korrigiert.
  • Es wurde ein Problem behoben, bei dem der Grund für das IntentRecognizer-Ergebnis nicht ordnungsgemäß festgelegt wurde, wenn Absichten aus einfachen Ausdrücken erkannt wurden.
  • Problem behoben, bei dem das SpeechRecognitionEventArgs-Ergebnisoffset nicht ordnungsgemäß festgelegt wurde.
  • Es wurde eine Racebedingung behoben, bei der vom SDK versucht wurde, eine Netzwerknachricht zu senden, bevor die WebSocket-Verbindung hergestellt wurde. Dies war für TranslationRecognizer beim Hinzufügen von Teilnehmern reproduzierbar.
  • Es wurden Arbeitsspeicherverluste in der Schlüsselworterkennungs-Engine korrigiert.

Beispiele

Abgekürzte Tests aufgrund von COVID-19

Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Sollten wir etwas übersehen haben, lassen Sie es uns bitte auf GitHub wissen.
Bleiben Sie gesund!

Speech SDK 1.11.0: Release von März 2020

Neue Funktionen

  • Linux: Unterstützung für Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 wurde hinzugefügt.
  • Linux: Unterstützung für .NET Core C# unter Linux ARM32 und Arm64 hinzugefügt. Weitere Informationen finden Sie hier.
  • C#, C++: UtteranceId in ConversationTranscriptionResult hinzugefügt. Dies ist eine konsistente ID für alle Spracherkennungs-Zwischenergebnisse und -Endergebnisse. Ausführlichere Informationen für C# und C++.
  • Python: Unterstützung für Language ID hinzugefügt. Siehe speech_sample.py in GitHub Repo.
  • Windows: Unterstützung für komprimierte Audioeingabeformate auf Windows Plattform für alle Win32-Konsolenanwendungen hinzugefügt. Details hier.
  • JavaScript: Unterstützung von Sprachsynthese (Text-zu-Sprache) in NodeJS. Weitere Informationen here.
  • JavaScript: Fügen Sie neue APIs hinzu, um die Überprüfung aller gesendeten und empfangenen Nachrichten zu ermöglichen. Weitere Informationen here.

Behebung von Programmfehlern

  • C#, C++: Es wurde ein Problem behoben, sodass SendMessageAsync jetzt binäre Nachrichten als binären Typ sendet. Ausführlichere Informationen für C# und C++.
  • C#, C++: Es wurde das Problem behoben, dass die Verwendung des Connection MessageReceived-Ereignisses einen Absturz verursachen kann, wenn Recognizer vor dem Connection-Objekt verworfen wird. Ausführlichere Informationen für C# und C++.
  • Android: Die Audiopuffergröße des Mikrofons wurde von 800 ms auf 100 ms verringert, um die Wartezeit zu reduzieren.
  • Android: Ein Problem mit dem x86 Android-Emulator in Android Studio wurde behoben.
  • JavaScript: Unterstützung für Regionen in China mit der fromSubscription-API hinzugefügt. Details hier.
  • JavaScript: Fügen Sie weitere Fehlerinformationen zu Verbindungsfehlern aus NodeJS hinzu.

Beispiele

  • Unity: Problem bei öffentlichem Absichtserkennungsbeispiel ist behoben, bei dem der LUIS-JSON-Import fehlgeschlagen ist. Details hier.
  • Python: Beispiel für Language ID hinzugefügt. Details hier.

Abgekürzte Tests aufgrund von COVID-19: Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Geräteüberprüfung nicht im gewohnten Umfang durchführen. Beispielsweise konnten die Mikrofoneingabe und Lautsprecherausgabe unter Linux, iOS und macOS nicht getestet werden. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Beschädigungen auf diesen Plattformen geführt haben, und alle unsere automatisierten Tests wurden bestanden. Lassen Sie uns im unwahrscheinlichen Fall, dass wir etwas verpasst haben, über GitHub informieren.
Vielen Dank für Ihre Unterstützung. Wie immer posten Sie Fragen oder Feedback zu GitHub oder Stack Overflow.
Bleiben Sie gesund!

Speech SDK 1.10.0: Release von Februar 2020

Neue Funktionen

  • Es wurden Python Pakete hinzugefügt, um die neue Version 3.8 von Python zu unterstützen.
  • Red Hat Enterprise Linux (RHEL)/CentOS 8 x64-Unterstützung (C++, C#, Java, Python).

    Hinweis

    Kunden müssen OpenSSL wie hier beschrieben konfigurieren.

  • Linux ARM32-Unterstützung für Debian und Ubuntu
  • Von „DialogServiceConnector“ wird jetzt der optionale Parameter „bot ID“ für „BotFrameworkConfig“ unterstützt. Dieser Parameter ermöglicht die Verwendung mehrerer Direct Line Sprach-Bots mit einer einzigen Sprachausgaberessource. Ohne den angegebenen Parameter wird der Standard-Bot (wie von der Konfigurationsseite des Direct Line Sprachkanals bestimmt) verwendet.
  • „DialogServiceConnector“ verfügt nun über die Eigenschaft „SpeechActivityTemplate“. Der Inhalt dieser JSON-Zeichenfolge wird von Direct Line Speech verwendet, um eine Vielzahl unterstützter Felder in allen Aktivitäten vorzufüllen, die einen Direct Line Sprach-Bot erreichen, einschließlich Aktivitäten, die automatisch als Reaktion auf Ereignisse wie die Spracherkennung generiert werden.
  • Von der Sprachsynthese wird nun der Abonnementschlüssel für die Authentifizierung verwendet. Dadurch verringert sich die Wartezeit für das erste Byte des ersten Syntheseergebnisses nach der Erstellung eines Synthesizers.
  • Verringerung der durchschnittlichen Wortfehlerrate um 18,6 Prozent dank aktualisierter Spracherkennungsmodelle für 19 Gebietsschemas (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Die neuen Modelle führen zu erheblichen Verbesserungen in verschiedenen Bereichen. Hierzu zählen unter anderem Diktat, Callcentertranskription und Videoindizierung.

Behebung von Programmfehlern

  • Es wurde ein Fehler behoben, bei dem der Conversation Transcriber in Java-APIs nicht ordnungsgemäß gewartet hat.
  • Fehlende (Get|Set)-Eigenschaftsmethoden zu AudioConfig hinzufügen.
  • Behebung eines TTS-Fehlers, bei dem der audioDataStream nicht beendet werden konnte, wenn die Verbindung fehlschlägt.
  • Die Verwendung eines Endpunkts ohne Region würde USP-Probleme für den Konversationsübersetzer verursachen.
  • Für die ID-Generierung in universellen Windows-Anwendungen wird nun ein Algorithmus für eine angemessen eindeutige GUID verwendet. Zuvor wurde ungewollt standardmäßig eine Stubimplementierung verwendet, die bei umfangreichen Interaktionen häufig zu Konflikten führte.

Beispiele

Weitere Änderungen

Speech SDK 1.9.0: Release 2020-January

Neue Funktionen

  • Mehrgerätekonversation: Verbinden Sie mehrere Geräte mit derselben sprach- oder textbasierten Konversation, und übersetzen Sie optional die zwischen ihnen gesendeten Nachrichten. Weitere Informationen finden Sie in diesem Artikel.
  • Unterstützung für die Schlüsselworterkennung wurde für das .aar-Paket für Android und für x86- und x64-Versionen hinzugefügt.
  • Objective-C: Methoden SendMessage und SetMessageProperty wurden dem Connection-Objekt hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
  • DIE TTS-C++-API unterstützt std::wstring jetzt als Synthesetexteingabe und entfernt die Notwendigkeit, eine Wstring-Zeichenfolge in eine Zeichenfolge zu konvertieren, bevor sie an das SDK übergeben wird. Ausführlichere Informationen finden Sie hier.
  • C#: Sprach-ID und Ausgangssprachenkonfiguration sind jetzt verfügbar.
  • JavaScript: Dem Connection-Objekt wurde eine Funktion für die Weiterleitung benutzerdefinierter Nachrichten vom Speech-Dienst als Rückruf von receivedServiceMessage zu hinzugefügt.
  • JavaScript: Unterstützung für FromHost API wurde hinzugefügt, um die Verwendung mit lokalen Containern und Sovereign Clouds zu vereinfachen. Die zugehörige Dokumentation finden Sie hier.
  • JavaScript: NODE_TLS_REJECT_UNAUTHORIZED wird nun dank eines Beitrags von orgads berücksichtigt. Ausführlichere Informationen finden Sie hier.

Disruptive Änderungen

  • OpenSSL wurde auf Version 1.1.1b aktualisiert und ist statisch mit der Kernbibliothek des Speech SDK für Linux verknüpft. Dies kann zu einer Unterbrechung führen, wenn OpenSSL für Ihren Posteingang nicht im Verzeichnis /usr/lib/ssl im System installiert wurde. In unserer Dokumentation zum Speech SDK finden Sie Möglichkeiten, wie Sie das Problem umgehen können.
  • Wir haben den in C# für WordLevelTimingResult.Offset zurückgegebenen Datentyp von int in long geändert, um den Zugriff auf WordLevelTimingResults zu ermöglichen, wenn Sprachdaten länger als 2 Minuten sind.
  • PushAudioInputStream und PullAudioInputStream senden nun WAV-Headerinformationen an den Speech-Dienst basierend auf dem AudioStreamFormat, das bei der Erstellung optional angegeben werden kann. Kunden müssen nun das unterstützte Audioeingabeformat verwenden. Alle anderen Formate führen zu weniger guten Erkennungsergebnissen oder anderen Problemen.

Behebung von Programmfehlern

  • Weitere Informationen finden Sie im obigen OpenSSL-Update unter „Wichtige Änderungen“. Wir haben sowohl einen zeitweiligen Absturz als auch ein Leistungsproblem (Sperrkonflikte bei hoher Auslastung) in Linux und Java korrigiert.
  • Java: Verbesserungen beim Schließen von Objekten in Szenarien mit hoher Parallelität.
  • Das NuGet-Paket wurde umstrukturiert. Wir haben die drei Kopien von Microsoft.CognitiveServices.Speech.core.dll und Microsoft.CognitiveServices.Speech.extension.kws.dll unter lib-Ordnern entfernt, wodurch das NuGet-Paket kleiner und schneller heruntergeladen werden kann, und wir haben Header hinzugefügt, die zum Kompilieren einiger nativer C++-Apps erforderlich sind.
  • Die korrigierten Schnellstartbeispiele finden Sie hier. Diese wurden beendet, ohne dass die Ausnahme "Mikrofon nicht gefunden" unter Linux, macOS, Windows angezeigt wurde.
  • Ein SDK-Absturz bei langen Spracherkennungsergebnissen für bestimmte Codepfade wie in diesem Beispiel wurde korrigiert.
  • Der SDK-Bereitstellungsfehler in Azure Web App-Umgebung wurde behoben, um dieses Kundenproblem zu beheben.
  • Ein TTS-Fehler bei der Verwendung mehrerer <voice>- oder <audio>-Tags wurde behoben, um dieses Kundenproblems zu beseitigen.
  • Ein TTS 401-Fehler beim Wiederherstellen des SDK nach dem Anhalten wurde behoben.
  • JavaScript: Ein zirkulärer Import von Audiodaten wurde dank eines Beitrags von euirim korrigiert.
  • JavaScript: Unterstützung für das Festlegen von Diensteigenschaften wurde wie in 1.7 hinzugefügt.
  • JavaScript: Ein Problem wurde behoben, bei dem ein Verbindungsfehler zu kontinuierlichen erfolglosen WebSocket-Verbindungsversuchen führen konnte.

Beispiele

Weitere Änderungen

  • Die Größe der SDK-Kernbibliothek unter Android wurde optimiert.
  • Das SDK ab Version 1.9.0 unterstützt sowohl int- als auch string-Typen im Feld für die Stimmensignaturversion für die Unterhaltungstranskription.

Speech SDK 1.8.0: Release von November 2019

Neue Funktionen

  • FromHost()-API hinzugefügt, um die Verwendung mit lokalen Containern und Sovereign Clouds zu vereinfachen.
  • Quellsprachenidentifikation für die Spracherkennung hinzugefügt (in Java und C++)
  • Objekt SourceLanguageConfig für die Spracherkennung hinzugefügt, das verwendet wird, um die erwarteten Quellsprachen anzugeben (in Java und C++)
  • KeywordRecognizer-Unterstützung unter Windows (UWP), Android und iOS über die NuGet- und Unity-Pakete hinzugefügt
  • Java-Remoteunterhaltungs-API für die Unterhaltungstranskription in asynchronen Batches hinzugefügt

Disruptive Änderungen

  • Konversations-Transcriber-Funktionen wurden unter dem Namespace Microsoft.CognitiveServices.Speech.Transcription verschoben.
  • Ein Teil der Unterhaltungstranskriptionsmethoden wurde in die neue Conversation-Klasse verschoben.
  • Die Unterstützung für 32-Bit-iOS (ARMv7 und x86) wurde eingestellt.

Behebung von Programmfehlern

  • Ein Absturz wurde behoben, der auftrat, wenn die lokale KeywordRecognizer-Instanz ohne gültigen Abonnementschlüssel für den Speech-Dienst verwendet wurde.

Beispiele

  • Xamarin Beispiel für KeywordRecognizer
  • Unity-Beispiel für KeywordRecognizer
  • C++ und Java Beispiele für die automatische Quellsprachenidentifikation.

Speech SDK 1.7.0: Release von September 2019

Neue Funktionen

  • Betaunterstützung für Xamarin auf Universelle Windows-Plattform (UWP), Android und iOS hinzugefügt
  • iOS-Unterstützung für Unity wurde hinzugefügt
  • Unterstützung von Compressed-Eingaben für ALaw, Mulaw, FLAC unter Android, iOS und Linux wurde hinzugefügt.
  • SendMessageAsync in der Klasse Connection zum Senden einer Nachricht an einen Dienst hinzugefügt
  • SetMessageProperty in der Klasse Connection zum Festlegen der Eigenschaft einer Nachricht hinzugefügt
  • TTS hat Bindungen für Java (JRE und Android), Python, Swift und Objective-C hinzugefügt.
  • TTS hat die Unterstützung der Wiedergabe für macOS, iOS und Android hinzugefügt
  • Es wurden Informationen zur „Wortgrenze“ für TTS hinzugefügt

Behebung von Programmfehlern

  • IL2CPP-Buildproblem in Unity 2019 für Android wurde behoben
  • Es wurde ein Problem behoben, bei dem falsch formatierte Header in der Eingabe von WAV-Dateien falsch verarbeitet wurden
  • Es wurde ein Problem behoben, bei dem UUIDs in einigen Verbindungseigenschaften nicht eindeutig waren
  • Es wurden einige Warnungen bezüglich Spezifizierer für die NULL-Zulässigkeit in den Swift-Bindungen behoben (möglicherweise sind kleine Codeänderungen erforderlich)
  • Es wurde ein Fehler behoben, der dazu führte, dass WebSocket-Verbindungen unter Netzwerklast nicht ordnungsgemäß geschlossen wurden
  • Problem unter Android behoben, das gelegentlich dazu führt, dass DialogServiceConnector doppelte Eindruck-IDs verwendet
  • Es wurden Verbesserungen an der Stabilität von Verbindungen über Interaktionen mit Mehrfachdurchläufen und an der Berichterstellung bei Fehlern vorgenommen (über Ereignisse vom Typ Canceled), wenn sie mit DialogServiceConnector auftreten.
  • DialogServiceConnector-Sitzungsstarts stellen jetzt ordnungsgemäß Ereignisse bereit, einschließlich des Aufrufs von ListenOnceAsync(), während StartKeywordRecognitionAsync() aktiv ist.
  • Es wurde ein Absturzproblem behoben, das mit dem Empfangen von DialogServiceConnector-Aktivitäten verbunden war.

Beispiele

  • Schnellstart für Xamarin
  • Aktualisierte CPP-Schnellstartanleitung mit Linux Arm64-Informationen
  • Aktualisierter Unity-Schnellstart mit iOS-Informationen

Speech-SDK 1.6.0: Release von Juni 2019

Beispiele

  • Schnellstartbeispiele für Sprachsynthese auf UWP und Unity
  • Schnellstartbeispiel für Swift unter iOS
  • Unity-Beispiele für Sprach- und Absichtserkennung sowie Übersetzung
  • Schnellstartbeispiele für DialogServiceConnector aktualisiert

Verbesserungen/Änderungen

  • Dialog „Namespace“:
    • SpeechBotConnector wurde in DialogServiceConnector umbenannt.
    • BotConfig wurde in DialogServiceConfig umbenannt.
    • BotConfig::FromChannelSecret() wurde DialogServiceConfig::FromBotSecret() neu zugeordnet.
    • Alle vorhandenen Direct Line Sprachclients werden nach der Umbenennung weiterhin unterstützt
  • Aktualisierung des TTS-REST-Adapter zur Unterstützung von Proxys, dauerhafte Verbindung
  • Verbesserung von Fehlermeldungen, wenn eine ungültige Region übergeben wird.
  • Swift/Objective-C:
    • Verbesserte Fehlerberichterstellung: Methoden, die zu einem Fehler führen können, sind jetzt in zwei Versionen vorhanden: Eine, die ein NSError-Objekt für die Fehlerbehandlung bereitstellt, und eine, das eine Ausnahme auslöst. Das erste wird für Swift verfügbar gemacht. Diese Änderung erfordert Anpassungen an vorhandenem Swift-Code.
    • Verbesserte Behandlung von Ereignissen

Behebung von Programmfehlern

  • Korrektur für TTS: Hierbei führte SpeakTextAsync die Rückgabe aus, ohne zu warten, bis das Audiorendering abgeschlossen war.
  • Korrektur für das Marshalling von Zeichenfolgen in C#, um vollständige Sprachunterstützung zu ermöglichen.
  • Korrektur für ein .NET Core-App-Problem beim Laden der Core-Bibliothek mit dem Zielframework net461 in Beispielen.
  • Korrektur für gelegentlich Probleme beim Bereitstellen nativer Bibliotheken im Ausgabeordner in Beispielen.
  • Korrektur für das zuverlässige Schließen von WebSockets.
  • Korrektur für mögliche Abstürze beim Öffnen einer Verbindung bei hoher Auslastung unter Linux
  • Korrektur für fehlende Metadaten im Frameworkbündel für macOS.
  • Behebung von Problemen mit pip install --user auf Windows

Speech SDK 1.5.1

Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.

Behebung von Programmfehlern

  • Fehlerbehebung bei FromSubscription bei Verwendung mit Unterhaltungstranskription.
  • Fehlerbehebung bei der Schlüsselworterkennung für Sprach-Assistenten.

Speech SDK 1.5.0: Version aus Mai 2019

Neue Funktionen

  • Keyword Spotting (KWS) ist jetzt für Windows und Linux verfügbar. KWS-Funktionen funktionieren möglicherweise mit jedem Mikrofontyp, offizielle KWS-Unterstützung, ist jedoch derzeit auf die Mikrofonarrays beschränkt, die in der Azure Kinect DK Hardware oder im Speech Devices SDK zu finden sind.
  • Begriffshinweisfunktionalität ist über das SDK verfügbar. Weitere Informationen finden Sie hier.
  • Unterhaltungstranskriptionsfunktionalität ist über das SDK verfügbar.
  • Fügen Sie Unterstützung für Sprachassistenten mithilfe des Direct Line Sprachkanals hinzu.

Beispiele

  • Beispiele für neue Funktionen oder neue Dienste, die vom SDK unterstützt werden, wurden hinzugefügt.

Verbesserungen/Änderungen

  • Verschiedene Erkennungseigenschaften wurden hinzugefügt, um das Dienstverhalten oder Dienstergebnisse anzupassen (z. B. Maskieren von Obszönitäten).
  • Sie können die Erkennung jetzt über die Standardkonfigurationseigenschaften konfigurieren, auch wenn Sie den Erkenner FromEndpoint erstellt haben.
  • Objective-C: Die Eigenschaft OutputFormat wurde zu SPXSpeechConfiguration hinzugefügt.
  • Das SDK unterstützt jetzt Debian 9 als Linux-Distribution.

Behebung von Programmfehlern

  • Ein Problem wurde behoben, bei dem die Sprecherressource in der Sprachsynthese zu früh zerstört wurde.

Speech SDK 1.4.2

Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.

Speech SDK 1.4.1

Dieses Release gilt nur für JavaScript. Es wurden keine Features hinzugefügt. Die folgenden Fehler wurden behoben:

  • Verhindern Sie das Laden von „https-proxy-agent“ durch Webpack.

Speech SDK 1.4.0: Release von April 2019

Neue Funktionen

  • Das SDK unterstützt jetzt den Sprachsynthese-Dienst als Betaversion. Es wird von C++ und C# auf Windows und Linux Desktop unterstützt. Weitere Informationen finden Sie in der Übersicht über die Sprachsynthese.
  • Das SDK unterstützt jetzt MP3- und Opus/OGG-Audiodateien als Streameingabedateien. Dieses Feature steht nur unter Linux mit C++ und C# zur Verfügung und befindet sich derzeit in der Betaversion (weitere Details finden Sie hier).
  • Das Speech SDK für Java, .NET Core, C++ und Objective-C haben macOS-Unterstützung erhalten. Die Objective-C-Unterstützung für macOS befindet sich derzeit in der Betaphase.
  • iOS: Das Speech SDK für iOS (Objective-C) wird jetzt auch als ein CocoaPod veröffentlicht.
  • JavaScript: Unterstützung von nicht standardisierten Mikrofonen als Eingabegeräte.
  • JavaScript: Proxyunterstützung für Node.js.

Beispiele

  • Beispiele für die Verwendung des Speech SDK mit C++ und Objective-C unter macOS wurden hinzugefügt.
  • Beispiele zur Veranschaulichung der Verwendung des Sprachsynthese-Diensts wurden hinzugefügt.

Verbesserungen/Änderungen

  • Python: Zusätzliche Eigenschaften von Erkennungsergebnissen werden jetzt über die eigenschaft properties verfügbar gemacht.
  • Zur weiteren Unterstützung beim Entwickeln und Debuggen können Sie die Informationen aus SDK-Protokollierung und Diagnose in eine Protokolldatei umleiten (weitere Details finden Sie hier).
  • JavaScript: Verbesserte Prozessleistung bei Audiodaten.

Behebung von Programmfehlern

  • Mac/iOS: Ein Fehler, der zu einer langen Wartezeit geführt hat, wenn keine Verbindung mit Speech Services hergestellt werden konnte, wurde behoben.
  • Python: Verbesserung der Fehlerbehandlung für Argumente in Python Callbacks.
  • JavaScript: Ein Fehler bei Statusmeldungen nach dem Ende der Spracheingabe mit RequestSession wurde behoben.

Sprach-SDK 1.3.1: Aktualisierung von Februar 2019

Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.

Fehlerbehebung

  • Korrigiert einen Speicherverlust bei der Verwendung von Mikrofoneingabe. Streambasierte oder Dateieingaben sind nicht betroffen.

Speech SDK 1.3.0: Version von Februar 2019

Neue Funktionen

  • Das Speech SDK unterstützt die Auswahl des Eingangsmikrofons über die AudioConfig-Klasse. Dadurch können Sie Audiodaten über ein anderes als das Standardmikrofon an den Spracherkennungsdienst streamen. Weitere Informationen finden Sie in der Dokumentation, in der die Auswahl eines Audioeingabegeräts beschrieben wird. Für JavaScript ist diese Funktion noch nicht verfügbar.
  • Das Speech SDK unterstützt jetzt Unity in einer Betaversion. Geben Sie Feedback über den Problemabschnitt im GitHub Beispiel-Repository. Diese Version unterstützt Unity auf Windows x86 und x64 (Desktop- oder Universelle Windows-Plattform-Anwendungen) und Android (ARM32/64, x86). Weitere Informationen finden Sie in unserem Unity-Schnellstart.
  • Die Datei Microsoft.CognitiveServices.Speech.csharp.bindings.dll (in früheren Versionen ausgeliefert) wird nicht mehr benötigt. Die Funktion ist jetzt in das Core-SDK integriert.

Beispiele

Die folgenden neuen Inhalte stehen in unserem Beispielrepository zur Verfügung:

  • Weitere Beispiele für AudioConfig.FromMicrophoneInput
  • Zusätzliche Python Beispiele für die Erkennung und Übersetzung von Absichten.
  • Weitere Beispiele für die Verwendung des Objekts Connection in iOS
  • Zusätzliche Java Beispiele für die Übersetzung mit Audioausgabe.
  • Neues Beispiel für die Verwendung der REST-API zur Batchtranskription.

Verbesserungen/Änderungen

  • Python
    • Verbesserte Parameterüberprüfung und Fehlermeldungen in SpeechConfig
    • Unterstützung für das Objekt Connection hinzugefügt
    • Unterstützung für 32-Bit-Python (x86) auf Windows.
    • Das Speech SDK für Python ist aus der Beta-Phase heraus.
  • Ios
    • Das SDK wird jetzt für das iOS SDK, Version 12.1, erstellt.
    • Das SDK unterstützt jetzt die iOS-Versionen 9.2 und höher.
    • Verbesserte Referenzdokumentation und Korrektur mehrerer Eigenschaftsnamen.
  • JavaScript
    • Unterstützung für das Objekt Connection hinzugefügt
    • Hinzugefügte Typdefinitionsdateien für JavaScript-Pakete
    • Anfangsunterstützung und Implementierung für Phrasenhinweise.
    • Rückgabe der Eigenschaftensammlung mit Dienst-JSON für die Erkennung.
  • Windows DLLs enthalten jetzt eine Versionsressource.
  • Wenn Sie eine FromEndpoint-Erkennung erstellen, können Sie der Endpunkt-URL direkt Parameter hinzufügen. Mithilfe von FromEndpoint können Sie die Erkennung nicht über die Standardkonfigurationseigenschaften konfigurieren.

Behebung von Programmfehlern

  • Leere Angaben für Proxybenutzername und Proxykennwort wurden nicht ordnungsgemäß behandelt. Wenn Sie in diesem Release den Proxybenutzernamen und das Proxykennwort auf eine leere Zeichenfolge festlegen, werden diese bei der Herstellung einer Verbindung mit dem Proxy nicht übermittelt.
  • Vom SDK erstellte SessionId-Angaben waren für einige Sprachen/Umgebungen nicht immer wirklich zufällig vergeben. Es wurde eine Initialisierung des Zufallsgenerators hinzugefügt, um dieses Problem zu beheben.
  • Verbesserte Verarbeitung des Autorisierungstokens. Wenn Sie ein Autorisierungstoken verwenden möchten, geben Sie es im SpeechConfig an und lassen Sie den API-Schlüssel leer. Erstellen Sie die Erkennung dann wie gewohnt.
  • In einigen Fällen wurde das Connection-Objekt nicht ordnungsgemäß freigegeben. Dieses Problem wurde behoben.
  • Das JavaScript-Beispiel wurde korrigiert, um die Audioausgabe für die Übersetzungssynthese auch in Safari zu unterstützen.

Speech SDK 1.2.1

Dieses Release gilt nur für JavaScript. Es wurden keine Features hinzugefügt. Die folgenden Fehler wurden behoben:

  • Ende des Datenstroms wird bei turn.end und nicht bei speech.end ausgelöst.
  • In Audiopump wurde der Fehler behoben, dass der nächste Sendevorgang nicht geplant wurde, wenn beim aktuellen Sendevorgang ein Fehler auftrat.
  • Die kontinuierliche Erkennung mit Authentifizierungstoken wurde korrigiert.
  • Programmfehlerbehebung für verschiedene Erkennungen/Endpunkte.
  • Verbesserungen bei der Dokumentation.

Speech SDK 1.2.0: Release von Dezember 2018

Neue Funktionen

  • Python
    • Die Betaversion der Python-Unterstützung (3.5 und höher) ist mit dieser Version verfügbar. Weitere Informationen finden Sie hier] (../../quickstart-python.md).
  • JavaScript
    • Das Speech SDK für JavaScript wird jetzt als Open-Source-Code bereitgestellt. Der Quellcode ist auf GitHub verfügbar.
    • Node.js wird jetzt unterstützt. Weitere Informationen finden Sie hier.
    • Die Längenbeschränkung für Audiositzungen wurde entfernt. Die Verbindungswiederherstellung erfolgt automatisch im Hintergrund.
  • Connection-Objekt
    • Über Recognizer kann auf ein Objekt vom Typ Connection zugegriffen werden. Mit diesem Objekt können Sie die Dienstverbindung explizit initiieren und Verbindungsherstellungs- und Verbindungstrennungsereignisse abonnieren. (Dieses Feature ist noch nicht in JavaScript und Python verfügbar.)
  • Unterstützung von Ubuntu 18.04
  • Android
    • ProGuard-Unterstützung während der APK-Generierung aktiviert

Verbesserungen

  • Verbesserungen bei der internen Threadverwendung (weniger Threads, Sperren, Mutexe)
  • Verbesserte Fehlerberichterstellung/-informationen. In einigen Fällen wurden Fehlermeldungen nicht ordnungsgemäß weitergegeben.
  • Entwicklungsabhängigkeiten in JavaScript wurden für die Verwendung aktueller Module aktualisiert.

Behebung von Programmfehlern

  • Arbeitsspeicherverluste aufgrund eines Typenkonflikts in RecognizeAsync behoben
  • In einigen Fällen sind Ausnahmen verloren gegangen.
  • Behebung des Arbeitsspeicherverlusts in Übersetzungsereignisargumenten
  • Sperrproblem bei der Verbindungswiederherstellung in langen Sitzungen behoben
  • Problem behoben, dass dazu führen konnte, dass das Endergebnis für fehlerhafte Übersetzungen verpasst wird.
  • C#: Wenn im Hauptthread nicht auf einen Vorgang vom Typ async gewartet wurde, konnte es vorkommen, dass die Erkennung vor Abschluss der asynchronen Aufgabe entfernt wurde.
  • Java: Ein Problem wurde behoben, das zu einem Absturz des Java virtuellen Computers führte.
  • Objective-C: Enumerationszuordnung korrigiert. Anstelle von RecognizingIntent wurde „RecognizedIntent“ zurückgegeben.
  • JavaScript: Standardausgabeformat in SpeechConfig auf „einfach“ festgelegt
  • JavaScript: Beseitigung der Inkonsistenz zwischen Eigenschaften des Konfigurationsobjekts in JavaScript und anderen Sprachen

Beispiele

  • Mehrere Beispiele aktualisiert und korrigiert (z.B. die Ausgabestimmen für die Übersetzung).
  • Node.js-Beispiele zum Beispielrepository hinzugefügt

Speech SDK 1.1.0

Neue Funktionen

  • Unterstützung für Android x86/x64.
  • Proxyunterstützung: Im SpeechConfig-Objekt können Sie jetzt eine Funktion aufrufen, um die Proxyinformationen (Hostname, Port, Benutzername und Kennwort) festzulegen. Dieses Feature ist in iOS noch nicht verfügbar.
  • Verbesserte Fehlercodes und Meldungen. Wenn eine Erkennung einen Fehler zurückgab, wurde dadurch bereits Reason (im abgebrochenen Ereignis) oder CancellationDetails (im Erkennungsergebnis) auf Error festgelegt. Das abgebrochene Ereignis enthält jetzt zwei zusätzliche Member: ErrorCode und ErrorDetails. Wenn der Server zusätzliche Fehlerinformationen mit dem Fehler zurückgibt, sind diese jetzt in den neuen Membern verfügbar.

Verbesserungen

  • In der Konfiguration der Erkennung wurde eine zusätzliche Überprüfung hinzugefügt, und es wurde eine zusätzliche Fehlermeldung hinzugefügt.
  • Die Verarbeitung von langen Pausen mitten in einer Audiodatei wurde verbessert.
  • NuGet-Paket: Für .NET Framework-Projekte verhindert es das Build mit der AnyCPU-Konfiguration.

Behebung von Programmfehlern

  • In Erkennungen wurden verschiedene Ausnahmen behoben. Darüber hinaus werden Ausnahmen abgefangen und in Ereignisse vom Typ Canceled konvertiert.
  • Ein Arbeitsspeicherverlust in der Eigenschaftenverwaltung wurde behoben.
  • Es wurde ein Fehler behoben, bei dem eine Audioeingabedatei zum Absturz der Erkennung führen konnte.
  • Es wurde ein Fehler behoben, bei dem nach dem Ereignis zum Beenden einer Sitzung weiter Ereignisse empfangen werden konnten.
  • Einige Racebedingungen im Threading wurden korrigiert.
  • Ein iOS-Kompatibilitätsproblem wurde behoben, das zu einem Absturz führen konnte.
  • Verbesserungen bei der Stabilität für die Android-Mikrofonunterstützung.
  • Es wurde ein Fehler behoben, bei dem eine Erkennung in JavaScript die Erkennungssprache ignorierte.
  • Es wurde ein Fehler behoben, der (in einigen Fällen) das Festlegen von EndpointId in JavaScript verhinderte.
  • Die Parameterreihenfolge in AddIntent in JavaScript wurde geändert, und es wurde eine fehlende JavaScript-Signatur für AddIntent hinzugefügt.

Beispiele

  • Dem Beispielrepository wurden C++- und C#-Beispiele für die Verwendung von Pull- und Pushstreams hinzugefügt.

Speech SDK 1.0.1

Verbesserte Zuverlässigkeit und Fehlerbehebungen:

  • Ein potenziell schwerwiegender Fehler aufgrund einer Racebedingung bei der Löscherkennung wurde behoben.
  • Ein potenziell schwerwiegender Fehler bei nicht festgelegten Eigenschaften wurde behoben.
  • Zusätzliche Fehler- und Parameterüberprüfungen wurden hinzugefügt.
  • Objective-C: Ein potenziell schwerwiegender Fehler durch Namensüberschreibungen in NSString wurde behoben.
  • Objective-C: Sichtbarkeit der API wurde angepasst.
  • JavaScript: Korrektur in Bezug auf Ereignisse und deren Nutzlasten.
  • Verbesserungen bei der Dokumentation.

Im Beispielrepository wurde ein neues Beispiel für JavaScript hinzugefügt.

Azure Speech SDK 1.0.0: Version September 2018

Neue Funktionen

Disruptive Änderungen

  • Mit diesem Release werden einige Breaking Changes eingeführt. Ausführliche Informationen finden Sie auf dieser Seite.

Azure Speech SDK 0.6.0: Version vom August 2018

Neue Funktionen

  • UWP-Apps, die mit dem Speech SDK erstellt wurden, können jetzt das Windows-App Zertifizierungskit (WACK) bestehen. Sehen Sie sich den UWP-Schnellstart an.
  • Unterstützung für .NET Standard 2.0 unter Linux (Ubuntu 16.04 x64).
  • Experimental: Unterstützung Java 8 auf Windows (64-Bit) und Linux (Ubuntu 16.04 x64). Schauen Sie sich die Schnellstartanleitung Java Runtime Environment an.

Funktionale Änderung

  • Es werden weitere Detailinformationen zu Verbindungsfehlern verfügbar gemacht.

Disruptive Änderungen

  • Auf Java (Android) erfordert die funktion SpeechFactory.configureNativePlatformBindingWithDefaultCertificate keinen Pfadparameter mehr. Der Pfad wird nun auf allen unterstützten Plattformen automatisch erkannt.
  • Der Get-Accessor der Eigenschaft EndpointUrl in Java und C# wurde entfernt.

Behebung von Programmfehlern

  • In Java wird das Ergebnis der Audiosynthese für die Übersetzungserkennung jetzt implementiert.
  • Ein Problem wurde behoben, das inaktive Threads und eine erhöhte Anzahl von offenen und nicht verwendeten Sockets verursachen konnte.
  • Ein Problem wurde behoben, das dazu führen konnte, dass lange ausgeführte Erkennungen während der Übertragung beendet wurden.
  • Eine Racebedingung beim Herunterfahren der Erkennung wurde behoben.

Azure Speech SDK 0.5.0: Version Juli 2018

Neue Funktionen

  • Unterstützung für die Android-Plattform (API 23: Android 6.0 Marshmallow oder höher). Sehen Sie sich den Android-Schnellstart an.
  • Unterstützung von .NET Standard 2.0 unter Windows. Schauen Sie sich die Schnellstartanleitung .NET Core an.
  • Experimental: Unterstützung von UWP auf Windows (Version 1709 oder höher).
    • Sehen Sie sich den UWP-Schnellstart an.
    • Beachten Sie, dass mit dem Speech SDK erstellte UWP-Apps die Anforderungen des Windows-App Certification Kit (WACK) noch nicht erfüllen.
  • Unterstützung einer lang andauernden Erkennung mit automatischer erneuter Verbindungsherstellung.

Funktionale Änderungen

  • StartContinuousRecognitionAsync() unterstützt eine lang andauernde Erkennung.
  • Das Erkennungsergebnis enthält mehr Felder. Versatz vom Audiobeginn und Dauer (beides in Takten) des erkannten Texts und weitere Werte, die den Erkennungsstatus darstellen, z.B. InitialSilenceTimeout und InitialBabbleTimeout.
  • Unterstützung für AuthorizationToken zum Erstellen von Factoryinstanzen.

Disruptive Änderungen

  • Erkennungsereignisse: Der NoMatch-Ereignistyp wurde mit dem Error-Ereignis zusammengeführt.
  • SpeechOutputFormat in C# wurde in OutputFormat umbenannt, um mit C++ konsistent zu bleiben.
  • Der Rückgabetyp einiger Methoden der AudioInputStream-Schnittstelle wurde geringfügig geändert:
    • In Java gibt die methode read jetzt long anstelle von int zurück.
    • In C# gibt die Read-Methode jetzt uint anstelle von int zurück.
    • In C++ geben die Read- und die GetFormat-Methoden jetzt size_t anstelle von int zurück.
  • C++: Instanzen von Audioeingabestreams können jetzt nur als shared_ptr übergeben werden.

Behebung von Programmfehlern

  • Korrektur falscher Rückgabewerte im Ergebnis, wenn bei RecognizeAsync() ein Timeout auftritt.
  • Die Abhängigkeit von Media Foundation-Bibliotheken für Windows wurde entfernt. Das SDK verwendet jetzt die Core Audio-APIs.
  • Korrektur der Dokumentation: Eine Seite Regionen wurde hinzugefügt, um die unterstützten Regionen zu beschreiben.

Bekanntes Problem

  • Das Speech SDK für Android meldet die Ergebnisse der Sprachsynthese für Übersetzungen nicht. Dieses Problem wird im nächsten Release behoben.

Azure Speech SDK 0.4.0: Juni 2018-Release

Funktionale Änderungen

  • AudioInputStream

    Eine Erkennung kann jetzt einen Stream als Audioquelle nutzen. Weitere Informationen finden Sie in der zugehörigen Schrittanleitung.

  • Detailliertes Ausgabeformat

    Beim Erstellen von SpeechRecognizer können Sie das Ausgabeformat Detailed oder Simple anfordern. DetailedSpeechRecognitionResult enthält eine Zuverlässigkeitsbewertung, erkannten Text, eine lexikalische Rohform, eine normalisierte Form und eine normalisierte Form mit maskierten anstößigen Ausdrücken.

Breaking Change

  • Änderung von SpeechRecognitionResult.Text in SpeechRecognitionResult.RecognizedText in C#.

Behebung von Programmfehlern

  • Ein mögliches Rückrufproblem auf USP-Ebene beim Herunterfahren wurde behoben.
  • Wenn eine Audioeingabedatei von einer Erkennung genutzt wurde, wurde das Dateihandle länger als erforderlich gespeichert.
  • Mehrere Deadlocks zwischen dem Nachrichtensystem und der Erkennung wurden entfernt.
  • Ein NoMatch-Ergebnis wird ausgelöst, wenn bei der Antwort vom Dienst ein Timeout auftritt.
  • Die Media Foundation-Bibliotheken für Windows werden verzögert geladen. Diese Bibliothek ist nur für die Mikrofoneingabe erforderlich.
  • Die Uploadgeschwindigkeit für Audiodaten ist auf das Doppelte der ursprünglichen Audiogeschwindigkeit beschränkt.
  • C# .NET-Assemblys haben unter Windows nun einen starken Namen.
  • Korrektur der Dokumentation: Region ist eine erforderliche Information zum Erstellen einer Erkennung.

Weitere Beispiele wurden hinzugefügt und werden regelmäßig aktualisiert. Die neuesten Beispiele finden Sie im Speech SDK-Beispiele GitHub Repository.

Azure Speech SDK 0.2.12733: Version vom 2018. Mai

Diese Version ist die erste öffentliche Vorschauversion des Azure Speech SDK.