Novità di Riconoscimento vocale di Intelligenza artificiale di Azure

Riconoscimento vocale di Intelligenza artificiale di Azure viene aggiornato regolarmente. Per rimanere aggiornati sugli sviluppi recenti, questo articolo fornisce informazioni sulle nuove versioni e funzionalità.

Evidenziazioni recenti

Note sulla versione

Scegliere un servizio o una risorsa

Piani futuri per gli utenti Linux e Android:

Attenzione

Questo articolo fa riferimento a CentOS, una distribuzione Linux vicina allo stato end of life (EOL). Prendere in considerazione l'uso e la pianificazione di conseguenza.

  • Con la fine della vita per OpenSSL 1.1.1 il 11 settembre stiamo lavorando alle modifiche per supportare OpenSSL 3.0 che verrà rilasciata a breve. Questo semplifica l'utilizzo nelle distribuzioni Linux che hanno solo OpenSSL 3.0 preinstallato (ad esempio Ubuntu 22.04).
  • Ubuntu 18.04 raggiunge anche la fine della vita nel mese di aprile 2023, quindi gli utenti devono prepararsi a spostare presto la versione minima fino a Ubuntu 20.04.

Speech SDK 1.35.0: versione di febbraio 2024

Nuove funzionalità

  • Modificare il testo predefinito in voce vocale da en-US-JennyMultilingualNeural a en-US-AvaNeural.
  • Supportare i dettagli a livello di parola nei risultati della traduzione vocale incorporata usando il formato di output dettagliato.

Correzioni di bug

  • Correggere l'API getter posizione AudioDataStream in Python.
  • Correggere la traduzione vocale usando endpoint v2 senza rilevamento della lingua.
  • Correzione di un arresto anomalo casuale e di eventi limite di parole duplicati in testo incorporato per la sintesi vocale.
  • Restituisce un codice di errore di annullamento corretto per un errore interno del server nelle connessioni WebSocket.
  • Correzione dell'errore durante il caricamento della libreria FPIEProcessor.dll quando si usa MAS con C#.

Esempi

  • Aggiornamenti di formattazione secondari per gli esempi di riconoscimento incorporato.

Speech SDK 1.34.1: versione di gennaio 2024

Modifiche di rilievo

  • Solo correzioni di bug

Nuove funzionalità

  • Solo correzioni di bug

Correzioni di bug

  • Correzione della regressione introdotta nella versione 1.34.0 in cui l'URL dell'endpoint di servizio è stato costruito con informazioni sulle impostazioni locali non corrette per gli utenti in diverse aree della Cina.

Speech SDK 1.34.0: versione di novembre 2023

Modifiche di rilievo

  • SpeechRecognizer è stato aggiornato per l'uso di un nuovo endpoint per impostazione predefinita (ad esempio, quando non si specifica in modo esplicito un URL) che non supporta più i parametri della stringa di query per la maggior parte delle proprietà. Anziché impostare i parametri della stringa di query direttamente con ServicePropertyChannel.UriQueryParameter, usare le funzioni API corrispondenti.

Nuove funzionalità

  • Compatibilità con .NET 8 (correzione ad https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 eccezione dell'avviso relativo a centos7-x64)
  • Supporto per le metriche delle prestazioni vocali incorporate che possono essere usate per valutare la funzionalità di un dispositivo per eseguire il riconoscimento vocale incorporato.
  • Supporto per l'identificazione della lingua di origine nella traduzione multilingue incorporata.
  • Supporto per riconoscimento vocale incorporato, sintesi vocale e traduzione vocale per iOS e Swift/Objective-C rilasciato in anteprima.
  • Il supporto incorporato è disponibile in MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Correzioni di bug

  • Correzione per l'aumento delle dimensioni binarie di iOS SDK x2 volte · Problema n. 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Correzione di Unable to get word level timestamps from azure speech to text api · Problema n. 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Correzione della fase di distruzione dialogService Connessione or per disconnettere correttamente gli eventi. Questo causava occasionalmente arresti anomali.
  • Correzione per l'eccezione durante la creazione di un sistema di riconoscimento quando viene usato MAS.
  • FPIEProcessor.dll dal pacchetto NuGet Microsoft.CognitiveServices.Speech.Extension.MAS per Windows UWP x64 e ARM64 dipende dalle librerie di runtime vc per C++nativo. Il problema è stato corretto aggiornando la dipendenza per correggere le librerie di runtime vc (per la piattaforma UWP).
  • Correzione per le chiamate ricorrenti a recognizeOnceAsync per SPXERR_ALREADY_INITIALIZED quando si usa MAS · Problema n. 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Correzione per l'arresto anomalo del riconoscimento vocale incorporato quando vengono usati elenchi di frasi.

Esempi

  • Esempi iOS incorporati per la sintesi vocale, la sintesi vocale e la traduzione vocale.

Interfaccia della riga di comando di Voce 1.34.0: versione di novembre 2023

Nuove funzionalità

  • Supportare l'output degli eventi limite delle parole durante la sintesi vocale.

Correzioni di bug

  • Aggiornamento della dipendenza JMESPath alla versione più recente, migliora le valutazioni delle stringhe

Speech SDK 1.33.0: versione di ottobre 2023

Avviso di modifica che causa un'interruzione

  • Il nuovo pacchetto NuGet aggiunto per Microsoft Audio Stack (MAS) è ora necessario essere incluso dalle applicazioni che usano MAS nei file di configurazione del pacchetto.

Nuove funzionalità

  • Aggiunta del nuovo pacchetto NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, che offre prestazioni di annullamento echo migliorate quando si usa Microsoft Audio Stack
  • Valutazione della pronuncia: è stato aggiunto il supporto per la valutazione prosodia e del contenuto, che può valutare il parlato in termini di prosodia, vocabolario, grammatica e argomento.

Correzioni di bug

Esempi

Interfaccia della riga di comando di Voce 1.33.0: versione di ottobre 2023

Nuove funzionalità

  • Supportare l'output degli eventi limite delle parole durante la sintesi vocale.

Correzioni di bug

  • Nessuno

Speech SDK 1.32.1: versione di settembre 2023

Correzioni di bug

  • Aggiornamenti dei pacchetti Android con correzioni di sicurezza più recenti da OpenSSL1.1.1v
  • JS : proprietà WebWorkerLoadType aggiunta per consentire il bypass del caricamento dell'URL dei dati per il ruolo di lavoro di timeout
  • JS: correzione della disconnessione di Conversation Translation dopo 10 minuti
  • JS: il token di autenticazione di Conversation Translation dalla conversazione ora si propaga alla connessione al servizio di traduzione

Esempi

Speech SDK 1.31.0: versione di agosto 2023

Nuove funzionalità

  • Il supporto per la diarizzazione in tempo reale è disponibile in anteprima pubblica con Speech SDK 1.31.0. Questa funzionalità è disponibile negli SDK seguenti: C#, C++, Java, JavaScript, Python e Objective-C/Swift.

  • Eventi viseme e limiti delle parole di sintesi vocale sincronizzati con la riproduzione audio

Modifiche di rilievo

  • Lo scenario precedente "trascrizione conversazione" viene rinominato in "trascrizione riunioni". Ad esempio, usare MeetingTranscriber anziché e usare CreateMeetingAsync invece ConversationTranscriberdi CreateConversationAsync. Anche se i nomi degli oggetti e dei metodi SDK sono stati modificati, la ridenominazione non modifica la funzionalità stessa. Usare gli oggetti di trascrizione delle riunioni per la trascrizione delle riunioni con profili utente e firme vocali. Per altre informazioni, vedere Trascrizione riunioni. Gli oggetti e i metodi di traduzione della conversazione non sono interessati da queste modifiche. È comunque possibile usare l'oggetto ConversationTranslator e i relativi metodi per gli scenari di traduzione delle riunioni.
  • Per la diarizzazione in tempo reale, viene introdotto un nuovo ConversationTranscriber oggetto . Il nuovo modello a oggetti "trascrizione conversazione" e i modelli di chiamata sono simili al riconoscimento continuo con l'oggetto SpeechRecognizer . Una differenza fondamentale è che l'oggetto ConversationTranscriber è progettato per essere usato in uno scenario di conversazione in cui si vogliono distinguere più altoparlanti (diarizzazione). I profili utente e le firme vocali non sono applicabili. Per altre informazioni, vedere la guida introduttiva alla diarizzazione in tempo reale.

Questa tabella mostra i nomi degli oggetti precedenti e nuovi per la diarizzazione in tempo reale e la trascrizione delle riunioni. Il nome dello scenario si trova nella prima colonna, i nomi degli oggetti precedenti si trovano nella seconda colonna e i nuovi nomi di oggetto si trovano nella terza colonna.
Nome scenario Nomi di oggetti precedenti Nuovi nomi di oggetti
Diarizzazione in tempo reale N/D ConversationTranscriber
Trascrizione riunione ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant1
ParticipantChangedReason1
User1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting2

1 Gli Participantoggetti , ParticipantChangedReasone User sono applicabili sia alla trascrizione delle riunioni che agli scenari di traduzione delle riunioni.

2 L'oggetto Meeting è nuovo e viene utilizzato con l'oggetto MeetingTranscriber .

Correzioni di bug

Esempi

Speech SDK 1.30.0: versione di luglio 2023

Nuove funzionalità

  • C++, C#, Java - Aggiunta del supporto per DisplayWords nel risultato dettagliato di Riconoscimento vocale incorporato.
  • Objective-C/Swift - Aggiunta del supporto per ConnectionMessageReceived l'evento in Objective-C/Swift.
  • Objective-C/Swift - Miglioramento dei modelli di individuazione delle parole chiave per iOS. Questa modifica ha aumentato le dimensioni di determinati pacchetti, che contengono file binari iOS (ad esempio NuGet, XCFramework). Stiamo lavorando per ridurre le dimensioni per le versioni future.

Correzioni di bug

  • Correzione di una perdita di memoria quando si usa lo strumento di riconoscimento vocale con PhraseListGrammar, come segnalato da un cliente (problema di GitHub).
  • Correzione di un deadlock nel testo per l'API di connessione aperta per la voce.

Note aggiuntive

  • Java: alcuni metodi dell'API Java usati internamente sono stati modificati nel pacchetto internalo privateprotected . public Questa modifica non dovrebbe avere alcun effetto sugli sviluppatori, perché non si prevede che le applicazioni usino tali applicazioni. Annotato qui per la trasparenza.

Esempi

Speech SDK 1.29.0: versione di giugno 2023

Nuove funzionalità

  • C++, C#, Java - Anteprima delle API di traduzione vocale incorporata. A questo punto è possibile eseguire la traduzione vocale senza connessione cloud.
  • JavaScript - L'identificazione continua del linguaggio (LID) è ora abilitata per la traduzione vocale.
  • JavaScript : contributo della community per l'aggiunta LocaleName di proprietà alla VoiceInfo classe. Grazie all'utente gitHub shivsarthak per la richiesta pull.
  • C++, C#, Java - Aggiunta del supporto per il ricampionamento del testo incorporato nell'output vocale da 16 kHz a 48 kHz.
  • Aggiunta del supporto per hi-IN le impostazioni locali in Riconoscimento finalità con criteri di ricerca semplici.

Correzioni di bug

  • Correzione di un arresto anomalo causato da una race condition in Riconoscimento vocale durante la distruzione degli oggetti, come illustrato in alcuni dei test Android
  • Correzione di possibili deadlock in Riconoscimento finalità con matcher modello semplice

Esempi

  • Nuovi esempi di traduzione vocale incorporata

Speech SDK 1.28.0: versione di maggio 2023

Modifica

  • JavaScript SDK: il protocollo OCSP (Online Certificate Status Protocol) è stato rimosso. Ciò consente ai client di conformarsi meglio agli standard del browser e del nodo per la gestione dei certificati. La versione 1.28 e successive non includerà più il modulo OCSP personalizzato.

Nuove funzionalità

  • Riconoscimento vocale incorporato ora restituisce NoMatchReason::EndSilenceTimeout quando si verifica un timeout di silenzio alla fine di un'espressione. Questo corrisponde al comportamento quando si esegue il riconoscimento usando il servizio di riconoscimento vocale in tempo reale.
  • JavaScript SDK: impostare le proprietà sull'uso SpeechTranslationConfig dei PropertyId valori di enumerazione.

Correzioni di bug

  • C# in Windows - Correzione di potenziali race condition/deadlock nell'estensione audio di Windows. Negli scenari che eliminano il renderer audio rapidamente e usano anche il metodo Sintetizzatore per interrompere la pronuncia, l'evento sottostante non è stato reimpostato per arresto e potrebbe causare l'eliminazione dell'oggetto renderer, tutto il tempo che potrebbe contenere un blocco globale per l'eliminazione, congelando il thread dotnet GC.

Esempi

  • Aggiunta di un esempio di riconoscimento vocale incorporato per MAUI.
  • Aggiornamento dell'esempio di riconoscimento vocale incorporato per Android Java per includere il testo per la sintesi vocale.

Speech SDK 1.27.0: versione di aprile 2023

Notifica delle modifiche imminenti

  • Si prevede di rimuovere Online Certificate Status Protocol (OCSP) nella prossima versione di JavaScript SDK. Ciò consente ai client di conformarsi meglio agli standard del browser e del nodo per la gestione dei certificati. La versione 1.27 è l'ultima versione che include il modulo OCSP personalizzato.

Nuove funzionalità

  • JavaScript : aggiunta del supporto per l'input del microfono dal browser con l'identificazione e la verifica dell'altoparlante.
  • Riconoscimento vocale incorporato: aggiornamento del supporto per PropertyId::Speech_SegmentationSilenceTimeoutMs l'impostazione.

Correzioni di bug

  • Generale : aggiornamenti dell'affidabilità nella logica di riconnessione del servizio (tutti i linguaggi di programmazione tranne JavaScript).
  • Generale : correzione delle conversioni di stringhe che causano perdite di memoria in Windows (tutti i linguaggi di programmazione pertinenti, ad eccezione di JavaScript).
  • Riconoscimento vocale incorporato: correzione dell'arresto anomalo del riconoscimento vocale francese quando si usano determinate voci dell'elenco grammaticale.
  • Documentazione del codice sorgente- Correzioni alla documentazione di riferimento dell'SDK commenti relativi alla registrazione audio nel servizio.
  • Riconoscimento delle finalità: consente di correggere le priorità del matcher dei criteri correlati alle entità elenco.

Esempi

  • Gestire correttamente l'errore di autenticazione nell'esempio C# Conversation Trascrizione (CTS).
  • Aggiunta di un esempio di valutazione della pronuncia di streaming per Python, JavaScript, Objective-C e Swift.

Speech SDK 1.26.0: versione di marzo 2023

Modifiche di rilievo

  • Bitcode è stato disabilitato in tutte le destinazioni iOS nei pacchetti seguenti: Cocoapod con xcframework, NuGet (per Xamarin e MAUI) e Unity. La modifica è dovuta alla deprecazione del supporto bitcode di Apple da Xcode 14 e versioni successive. Questa modifica significa anche se si usa la versione Xcode 13 o si è abilitato in modo esplicito il codice bit nell'applicazione usando Speech SDK, è possibile che venga visualizzato un errore che indica che "framework non contiene bitcode ed è necessario ricompilarlo". Per risolvere questo problema, assicurarsi che le destinazioni abbiano disabilitato bitcode.
  • La destinazione di distribuzione iOS minima è stata aggiornata alla versione 11.0 in questa versione, il che significa che armv7 HW non è più supportato.

Nuove funzionalità

  • Riconoscimento vocale incorporato (su dispositivo) supporta ora audio di input della frequenza di campionamento a 8 e 16 kHz (16 bit per campione, mono PCM).
  • La sintesi vocale ora segnala latenze di connessione, rete e servizio nel risultato per consentire l'ottimizzazione della latenza end-to-end.
  • Nuove regole di associazione per il riconoscimento delle finalità con criteri di ricerca semplici. Maggiore sarà il numero di byte di caratteri corrispondenti, vincerà le corrispondenze dei criteri con un numero di byte di caratteri inferiore. Esempio: il criterio "Select {something} in alto a destra" vincerà "Select {something}" (Seleziona {qualcosa})

Correzioni di bug

  • Sintesi vocale: correzione di un bug in cui l'emoji non è corretta negli eventi limite di parola.
  • Riconoscimento delle finalità con Conversational Language Understanding (CLU):
    • Le finalità del flusso di lavoro di CLU Orchestrator ora vengono visualizzate correttamente.
    • Il risultato JSON è ora disponibile tramite l'ID LanguageUnderstandingServiceResponse_JsonResultproprietà .
  • Riconoscimento vocale con attivazione delle parole chiave: correzione per l'audio mancante di circa 150 ms dopo il riconoscimento di parole chiave.
  • Correzione per la compilazione della versione MAUI di Speech SDK per iOS, segnalata dal cliente (problema di GitHub)

Esempi

  • Correzione per l'esempio Swift iOS, segnalato dal cliente (problema di GitHub)

Speech SDK 1.25.0: versione di gennaio 2023

Modifiche di rilievo

  • Le API di identificazione della lingua (anteprima) sono state semplificate. Se si esegue l'aggiornamento a Speech SDK 1.25 e viene visualizzata un'interruzione di compilazione, visitare la pagina Identificazione lingua per informazioni sulla nuova proprietà SpeechServiceConnection_LanguageIdMode. Questa singola proprietà sostituisce i due precedenti SpeechServiceConnection_SingleLanguageIdPriority e SpeechServiceConnection_ContinuousLanguageIdPriority. La priorità tra bassa latenza e accuratezza elevata non è più necessaria in seguito ai miglioramenti recenti del modello. A questo punto, è sufficiente selezionare se eseguire l'identificazione della lingua continua o all'avvio quando si esegue il riconoscimento vocale o la traduzione continua.

Nuove funzionalità

  • C#/C++/Java: Embedded Speech SDK è ora rilasciato in anteprima pubblica controllata. Vedere la documentazione di Riconoscimento vocale incorporato (anteprima). È ora possibile eseguire la sintesi vocale sul dispositivo per il riconoscimento vocale e il testo quando la connettività cloud è intermittente o non disponibile. Supportato nelle piattaforme Android, Linux, macOS e Windows
  • C# MAUI: supporto aggiunto per le destinazioni iOS e Mac Catalyst in Speech SDK NuGet (problema del cliente)
  • Unity: Architettura x86_64 Android aggiunta al pacchetto Unity (problema del cliente)
  • Vai:
    • Aggiunta del supporto per lo streaming diretto ALAW/MULAW per il riconoscimento vocale (problema del cliente)
    • Aggiunta del supporto per PhraseListGrammar. Grazie all'utente di GitHub koloko per il contributo della community.
  • C#/C++: Riconoscimento finalità supporta ora modelli di Language Understanding di conversazione in C++ e C# con orchestrazione nel servizio Microsoft

Correzioni di bug

  • Correzione di un blocco occasionale in KeywordRecognizer quando si tenta di arrestarlo
  • Python:
    • Correzione per ottenere i risultati della valutazione della pronuncia quando PronunciationAssessmentGranularity.FullText è impostato (problema del cliente)
    • Correzione per la proprietà gender per le voci maschili non recuperate, quando si ottengono voci di sintesi vocale
  • JavaScript
    • Correzione per l'analisi di alcuni file WAV registrati nei dispositivi iOS (problema del cliente)
    • JS SDK ora viene compilato senza usare npm-force-resolutions (problema del cliente)
    • Conversation Traduttore ora imposta correttamente l'endpoint di servizio quando si usa un'istanza speechConfig creata con SpeechConfig.fromEndpoint()

Esempi

  • Aggiunta di esempi che illustrano come usare Riconoscimento vocale incorporato

  • Aggiunta dell'esempio di riconoscimento vocale al testo per MAUI

    Vedere Il repository degli esempi di Speech SDK.

Speech SDK 1.24.2: versione di novembre 2022

Nuove funzionalità

  • Nessuna nuova funzionalità, ma solo una correzione del motore incorporata per supportare nuovi file di modello.

Correzioni di bug

  • Tutte le lingue di programmazione
    • Correzione di un problema relativo alla crittografia dei modelli di riconoscimento vocale incorporati.

Speech SDK 1.24.1: versione di novembre 2022

Nuove funzionalità

Correzioni di bug

  • Tutte le lingue di programmazione
    • Correzione dell'arresto anomalo del TTS incorporato quando il tipo di carattere vocale non è supportato
    • Correzione di stopSpeaking() non è in grado di interrompere la riproduzione in Linux (#1686)
  • JavaScript SDK
    • Correzione della regressione nel modo in cui la trascrizione della conversazione ha determinato l'audio.
  • Java
    • I file POM e Javadocs aggiornati temporaneamente in Maven Central consentono alla pipeline docs di aggiornare la documentazione di riferimento online.
  • Python
    • Correzione della regressione in cui Python speak_text/ssml restituisce void.

Speech SDK 1.24.0: versione di ottobre 2022

Nuove funzionalità

  • Tutte le lingue di programmazione: AMR-WB (16khz) aggiunto all'elenco supportato di formati di output audio di sintesi vocale
  • Python: pacchetto aggiunto per Linux ARM64 per le distribuzioni Linux supportate.
  • C#/C++/Java/Python: supporto aggiunto per lo streaming diretto ALAW & MULAW al servizio di riconoscimento vocale (oltre al flusso PCM esistente) usando AudioStreamWaveFormat.
  • C# MAUI: pacchetto NuGet aggiornato per supportare le destinazioni Android per sviluppatori MAUI .NET (problema del cliente)
  • Mac: aggiunta di XCframework separato per Mac, che non contiene file binari iOS. Questo offre un'opzione per gli sviluppatori che necessitano solo di file binari Mac usando un pacchetto XCframework più piccolo.
  • Microsoft Audio Stack (MAS):
    • Quando si specificano angoli di forma del fascio, il suono proveniente all'esterno dell'intervallo specificato verrà eliminato meglio.
    • Riduzione approssimativa del 70% delle dimensioni di libMicrosoft.CognitiveServices.Speech.extension.mas.so per Linux ARM32 e Linux ARM64.
  • Riconoscimento delle finalità tramite criteri di ricerca:
    • Aggiungere il supporto ortografico per le lingue fr, de, es, jp
    • Aggiunta del supporto di numeri interi predefiniti per il linguaggio es.

Correzioni di bug

  • iOS: correzione dell'errore di sintesi vocale in iOS 16 causato da un errore di decodifica audio compresso (problema del cliente).
  • JavaScript:
    • Correzione del token di autenticazione che non funziona durante il recupero dell'elenco vocale di sintesi vocale (problema del cliente).
    • Usare l'URL dei dati per il caricamento del ruolo di lavoro (problema del cliente).
    • Crea worklet del processore audio solo quando AudioWorklet è supportato nel browser (problema del cliente). Questo è stato un contributo della comunità di William Wong. Grazie William!
    • Correzione del callback riconosciuto quando la risposta connectionMessage LUIS è vuota (problema del cliente).
    • Impostare correttamente il timeout della segmentazione vocale.
  • Riconoscimento delle finalità tramite criteri di ricerca:
    • I caratteri non JSON all'interno dei modelli verranno ora caricati correttamente.
    • Consente di risolvere il problema sporde quando recognizeOnceAsync(text) è stato chiamato durante il riconoscimento continuo.

Speech SDK 1.23.0: versione di luglio 2022

Nuove funzionalità

  • C#, C++, Java: aggiunta del supporto per i linguaggi zh-cn e zh-hk in Riconoscimento finalità con criteri di ricerca.
  • C#: Aggiunta del supporto per AnyCPU le compilazioni di .NET Framework

Correzioni di bug

  • Android: correzione della vulnerabilità OpenSSL CVE-2022-2068 aggiornando OpenSSL alla versione 1.1.1q
  • Python: correzione dell'arresto anomalo quando si usa PushAudioInputStream
  • iOS: correzione di "EXC_BAD_ACCESS: tentativo di dereferenziazione del puntatore Null" come segnalato in iOS (problema di GitHub)

Speech SDK 1.22.0: versione di giugno 2022

Nuove funzionalità

  • Java: API IntentRecognitionResult per getEntities(), applyLanguageModels() e recognizeOnceAsync(text) aggiunto per supportare il motore "criteri di ricerca semplice".
  • Unity: aggiunta del supporto per Mac M1 (Apple Silicon) per il pacchetto Unity (problema di GitHub)
  • C#: Aggiunta del supporto per x86_64 per Xamarin Android (problema di GitHub)
  • C#: la versione minima di .NET Framework aggiornata alla versione 4.6.2 per il pacchetto C# sdk come v4.6.1 è stata ritirata (vedere Criteri relativi al ciclo di vita dei componenti di Microsoft .NET Framework)
  • Linux: aggiunta del supporto per Debian 11 e Ubuntu 22.04 LTS. Ubuntu 22.04 LTS richiede l'installazione manuale di libssl1.1 come pacchetto binario da qui (ad esempio, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb o versione successiva per x64) o tramite la compilazione da origini.

Correzioni di bug

  • UWP: dipendenza OpenSSL rimossa dalle librerie UWP e sostituita con websocket WinRT e API HTTP per soddisfare la conformità alla sicurezza e il footprint binario più piccolo.
  • Mac: Correzione del problema "MicrosoftCognitiveServicesSpeech Module Not Found" quando si usano progetti Swift destinati alla piattaforma macOS
  • Windows, Mac: è stato risolto un problema specifico della piattaforma per cui le origini audio configurate tramite proprietà per lo streaming a una velocità in tempo reale a volte sono diminuite e alla fine hanno superato la capacità

Esempi (GitHub)

  • C#: esempi di .NET Framework aggiornati per l'uso della versione 4.6.2
  • Unity: Esempio di assistente virtuale corretto per Android e UWP
  • Unity: esempi di Unity aggiornati per la versione LTS di Unity 2020

Speech SDK 1.21.0: versione di aprile 2022

Nuove funzionalità

  • Java & JavaScript: aggiunta del supporto per l'identificazione del linguaggio continuo quando si usa l'oggetto SpeechRecognizer
  • JavaScript: aggiunta di API di diagnostica per abilitare la registrazione dei file a livello di registrazione della console e (solo nodo) per consentire a Microsoft di risolvere i problemi segnalati dai clienti
  • Python: aggiunta del supporto per la trascrizione di conversazioni
  • Go: Aggiunta del supporto per il riconoscimento del parlante
  • C++ & C#: aggiunta del supporto per un gruppo obbligatorio di parole in Riconoscimento finalità (criteri di ricerca semplici). Ad esempio: "(set|start|begin) un timer" in cui "set", "start" o "begin" devono essere presenti per la finalità da riconoscere.
  • Tutti i linguaggi di programmazione, Sintesi vocale: aggiunta della proprietà duration negli eventi limite di parola. Aggiunta del supporto per il limite di punteggiatura e di frase
  • Objective-C/Swift/Java: aggiunta di risultati a livello di parola nell'oggetto risultato della valutazione della pronuncia (simile a C#). L'applicazione non deve più analizzare una stringa di risultati JSON per ottenere informazioni a livello di parola (problema di GitHub)
  • Piattaforma iOS: aggiunta del supporto sperimentale per l'architettura ARMv7

Correzioni di bug

  • Piattaforma iOS: correzione per consentire la compilazione per la destinazione "Qualsiasi dispositivo iOS", quando si usa CocoaPod (problema di GitHub)
  • Piattaforma Android: la versione di OpenSSL è stata aggiornata alla versione 1.1.1n per correggere la vulnerabilità di sicurezza CVE-2022-0778
  • JavaScript: correzione del problema a causa del quale l'intestazione wav non è stata aggiornata con le dimensioni del file (problema di GitHub)
  • JavaScript: correzione di scenari di conversione che causano l'interruzione del problema di conversione dell'ID richiesta (problema di GitHub)
  • JavaScript: correzione del problema durante la creazione di un'istanza di SpeakerAudioDestination senza flusso (problema di GitHub]
  • C++: Correggere le intestazioni C++ per rimuovere un avviso durante la compilazione per C++17 o versione successiva

Esempi di GitHub

  • Nuovi esempi Java per il riconoscimento vocale con identificazione del linguaggio
  • Nuovi esempi python e Java per la trascrizione della conversazione
  • Nuovo esempio Go per riconoscimento del parlante
  • Nuovo strumento C++ e C# per Windows che enumera tutti i dispositivi di acquisizione e rendering audio, per trovare l'ID dispositivo. Questo ID è necessario per Speech SDK se si prevede di acquisire audio da o di eseguire il rendering dell'audio in un dispositivo non predefinito.

Speech SDK 1.20.0: versione di gennaio 2022

Nuove funzionalità

  • Objective-C, Swift e Python: aggiunta del supporto per DialogService Connessione or, usato per gli scenari di Assistente vocale.
  • Python: è stato aggiunto il supporto per Python 3.10. Il supporto per Python 3.6 è stato rimosso, in base alla fine della vita di Python per la versione 3.6.
  • Unity: Speech SDK è ora supportato per le applicazioni Unity in Linux.
  • C++, C#: IntentRecognizer con criteri di ricerca è ora supportato in C#. Inoltre, gli scenari con entità personalizzate, gruppi facoltativi e ruoli di entità sono ora supportati in C++ e C#.
  • C++, C#: Miglioramento della registrazione delle tracce di diagnostica con nuove classi FileLogger, MemoryLogger e EventLogger. I log sdk sono uno strumento importante per Microsoft per diagnosticare i problemi segnalati dai clienti. Queste nuove classi semplificano l'integrazione dei log di Speech SDK nel proprio sistema di registrazione.
  • Tutti i linguaggi di programmazione: PronunciationAssessmentConfig dispone ora di proprietà per impostare l'alfabeto foneme desiderato (IPA o SAPI) e N-Best Telefono me Count (evitando la necessità di creare un codice JSON di configurazione in base al problema 1284 di GitHub). Inoltre, l'output a livello di sillabe è ora supportato.
  • Android, iOS e macOS (tutti i linguaggi di programmazione): GStreamer non è più necessario per supportare reti con larghezza di banda limitata. SpeechSynthesizer usa ora le funzionalità di decodifica audio del sistema operativo per decodificare l'audio compresso trasmesso dal testo al servizio di riconoscimento vocale.
  • Tutti i linguaggi di programmazione: SpeechSynthesizer supporta ora tre nuovi formati Opus di output non elaborato (senza contenitore), ampiamente usati in scenari di streaming live.
  • JavaScript: aggiunta dell'API getVoicesAsync() a SpeechSynthesizer per recuperare l'elenco delle voci di sintesi supportate (problema GitHub 1350)
  • JavaScript: aggiunta dell'API getWaveFormat() a AudioStreamFormat per supportare formati wave non PCM (problema GitHub 452)
  • JavaScript: aggiunta di api getter/setter e mute()/unmute() a SpeakerAudioDestination (problema GitHub 463)

Correzioni di bug

  • C++, C#, Java, JavaScript, Objective-C e Swift: correzione per rimuovere un ritardo di 10 secondi durante l'arresto di un riconoscimento vocale che usa pushAudioInputStream. Questo è il caso in cui non viene eseguito il push di nuovi audio dopo la chiamata a StopContinuousRecognition (GitHub issues 1318, 331)
  • Unity in Android e UWP: i meta file Unity sono stati corretti per UWP, Android ARM64 e Sottosistema Windows per Android (WSA) ARM64 (problema GitHub 1360)
  • iOS: la compilazione dell'applicazione Speech SDK in qualsiasi dispositivo iOS quando si usa CocoaPods è stata risolta (problema GitHub 1320)
  • iOS: quando SpeechSynthesizer è configurato per l'output dell'audio direttamente in un altoparlante, la riproduzione si arresta all'inizio in rare condizioni. Questo problema è stato risolto.
  • JavaScript: usare il fallback del processore di script per l'input del microfono se non viene trovato alcun worklet audio (problema 455 di GitHub)
  • JavaScript: aggiungere il protocollo all'agente per attenuare il bug trovato con l'integrazione di Sentry (problema 465 di GitHub)

Esempi di GitHub

  • Esempi di C++, C#, Python e Java che illustrano come ottenere risultati dettagliati del riconoscimento. I dettagli includono risultati di riconoscimento alternativo, punteggio di attendibilità, forma lessicale, modulo normalizzato, modulo normalizzato mascherato, con tempi a livello di parola per ognuno.
  • Esempio iOS aggiunto usando AVFoundation come origine audio esterna.
  • Esempio Java aggiunto per mostrare come ottenere il formato SRT (SubRip Text) usando l'evento WordBoundary.
  • Esempi android per la valutazione della pronuncia.
  • C++, C# che mostra l'utilizzo delle nuove classi di registrazione diagnostica.

Speech SDK 1.19.0: versione di novembre 2021

Caratteristiche principali

  • Il servizio Riconoscimento del parlante è ora disponibile a livello generale. Le API Speech SDK sono disponibili in C++, C#, Java e JavaScript. Grazie al riconoscimento del parlante, è possibile verificare e identificare accuratamente i parlanti in base alle loro caratteristiche vocali uniche. Per altre informazioni su questo argomento, vedere la documentazione.

  • È stato eliminato il supporto per Ubuntu 16.04 insieme ad Azure DevOps e GitHub. Ubuntu 16.04 ha raggiunto la fine della vita nel mese di aprile 2021. Eseguire la migrazione dei flussi di lavoro di Ubuntu 16.04 a Ubuntu 18.04 o versione successiva.

  • Il collegamento OpenSSL nei file binari Linux è cambiato in dinamico. Le dimensioni binarie di Linux sono state ridotte di circa il 50%.

  • È stato aggiunto il supporto del processore basato su ARM mac M1.

Nuove funzionalità

  • C++/C#/Java: nuove API aggiunte per abilitare il supporto dell'elaborazione audio per l'input vocale con Microsoft Audio Stack. Documentazione disponibile qui.

  • C++: nuove API per il riconoscimento delle finalità per facilitare criteri di ricerca più avanzati. Sono incluse le entità List e Prebuilt Integer, nonché il supporto per il raggruppamento di finalità ed entità come modelli (documentazione, aggiornamenti ed esempi sono in fase di sviluppo e verranno pubblicati nel prossimo futuro).

  • Mac: supporto per il processore basato su ARM64 (M1) per i pacchetti CocoaPod, Python, Java e NuGet correlati al problema 1244 di GitHub.

  • iOS/Mac: i file binari iOS e macOS sono ora inseriti in pacchetti in xcframework correlati al problema 919 di GitHub.

  • iOS/Mac: supporto per Mac catalyst correlato al problema 1171 di GitHub.

  • Linux: nuovo pacchetto tar aggiunto per CentOS7 Informazioni su Speech SDK. Il pacchetto .tar Linux ora contiene librerie specifiche per RHEL/CentOS 7 in lib/centos7-x64. Le librerie speech SDK in lib/x64 sono ancora applicabili a tutte le altre distribuzioni Linux x64 supportate (incluso RHEL/CentOS 8) e non funzioneranno in RHEL/CentOS 7.

  • JavaScript: le API VoiceProfile e SpeakerRecognizer hanno reso async/awaitable.

  • JavaScript: supporto aggiunto per le aree di Azure per enti pubblici degli Stati Uniti.

  • Windows: supporto aggiunto per la riproduzione in piattaforma UWP (Universal Windows Platform) (UWP).

Correzioni di bug

  • Android: aggiornamento della sicurezza OpenSSL (aggiornato alla versione 1.1.1l) per i pacchetti Android.

  • Python: bug risolto in cui la selezione del dispositivo voce in Python ha esito negativo.

  • Core: riconnettersi automaticamente quando un tentativo di connessione non riesce.

  • iOS: compressione audio disabilitata nei pacchetti iOS a causa di problemi di instabilità e compilazione bitcode quando si usa GStreamer. I dettagli sono disponibili tramite GitHub problema 1209.

Esempi di GitHub

  • Mac/iOS: esempi aggiornati e guide introduttive per l'uso del pacchetto xcframework.

  • .NET: esempi aggiornati per l'uso di .NET Core 3.1 versione.

  • JavaScript: aggiunta dell'esempio per Gli assistenti vocali.

Speech SDK 1.18.0: versione di luglio 2021

Nota: introduzione a Speech SDK qui.

Riepilogo delle evidenziazioni

  • Ubuntu 16.04 ha raggiunto la fine della vita nel mese di aprile 2021. Con Azure DevOps e GitHub, il supporto verrà interrotto per la versione 16.04 di settembre 2021. Eseguire la migrazione dei flussi di lavoro ubuntu-16.04 a ubuntu-18.04 o versioni successive prima di allora.

Nuove funzionalità

  • C++: i criteri di linguaggio semplici che corrispondono a Riconoscimento finalità ora semplificano l'implementazione di semplici scenari di riconoscimento delle finalità.
  • C++/C#/Java: è stata aggiunta una nuova API GetActivationPhrasesAsync() alla VoiceProfileClient classe per ricevere un elenco di frasi di attivazione valide nella fase di registrazione riconoscimento del parlante per scenari di riconoscimento indipendente.
    • Importante: la funzionalità Riconoscimento del parlante è disponibile in anteprima. Tutti i profili vocali creati in anteprima verranno sospesi 90 giorni dopo che la funzionalità Riconoscimento del parlante viene spostata all'esterno dell'anteprima in Disponibilità generale. A questo punto, i profili vocali di anteprima smetteranno di funzionare.
  • Python: aggiunta del supporto per l'identificazione continua del linguaggio (LID) negli oggetti e TranslationRecognizer esistentiSpeechRecognizer.
  • Python: è stato aggiunto un nuovo oggetto Python denominato SourceLanguageRecognizer per eseguire una sola volta o continuous LID (senza riconoscimento o traduzione).
  • JavaScript: getActivationPhrasesAsync API aggiunta alla VoiceProfileClient classe per la ricezione di un elenco di frasi di attivazione valide nella fase di registrazione riconoscimento del parlante per scenari di riconoscimento indipendente.
  • L'API javaScriptVoiceProfileClientenrollProfileAsync è ora async awaitable. Vedere questo codice di identificazione indipendente, ad esempio l'utilizzo.

Miglioramenti

  • Java: supporto autocloseable aggiunto a molti oggetti Java. Il modello try-with-resources è ora supportato per rilasciare le risorse. Vedere questo esempio che usa try-with-resources. Vedere anche l'esercitazione sulla documentazione di Oracle Java per l'istruzione try-with-resources per informazioni su questo modello.
  • Il footprint del disco è stato notevolmente ridotto per molte piattaforme e architetture. Esempi per il Microsoft.CognitiveServices.Speech.core file binario: x64 Linux è inferiore a 475 KB (riduzione dell'8,0%) ARM64 Windows UWP è inferiore di 464 KB (riduzione del 11,5%) Windows x86 è inferiore a 343 KB (riduzione del 17,5%) e x64 Windows è inferiore a 451 KB (riduzione del 19,4%).

Correzioni di bug

  • Java: correzione dell'errore di sintesi quando il testo di sintesi contiene caratteri surrogati. Dettagli qui.
  • JavaScript: l'elaborazione audio del microfono del browser usa AudioWorkletNode ora anziché deprecata ScriptProcessorNode. Dettagli qui.
  • JavaScript: mantenere correttamente attive le conversazioni durante scenari di traduzione di conversazioni a esecuzione prolungata. Dettagli qui.
  • JavaScript: correzione del problema relativo alla riconnessione dello strumento di riconoscimento a un flusso multimediale nel riconoscimento continuo. Dettagli qui.
  • JavaScript: correzione del problema relativo alla riconnessione dello strumento di riconoscimento a un pushStream nel riconoscimento continuo. Dettagli qui.
  • JavaScript: calcolo dell'offset a livello di parola corretto nei risultati dettagliati del riconoscimento. Dettagli qui.

Esempi

  • Esempi di avvio rapido Java aggiornati qui.
  • Esempi di riconoscimento del parlante JavaScript aggiornati per mostrare il nuovo utilizzo di enrollProfileAsync(). Vedere gli esempi qui.

Speech SDK 1.17.0: versione di maggio 2021

Nota

Introduzione a Speech SDK qui.

Riepilogo delle evidenziazioni

  • Footprint più piccolo: si continua a ridurre la memoria e il footprint del disco di Speech SDK e dei relativi componenti.
  • Una nuova API di identificazione della lingua autonoma consente di riconoscere la lingua parlata.
  • Sviluppare applicazioni di gioco e realtà mista abilitate per il riconoscimento vocale usando Unity in macOS.
  • È ora possibile usare Il testo per la sintesi vocale oltre al riconoscimento vocale dal linguaggio di programmazione Go.
  • Diverse correzioni di bug per risolvere i problemi relativi all'utente, i clienti con valore, hanno contrassegnato su GitHub. GRAZIE! Continuate a inviare commenti e suggerimenti!

Nuove funzionalità

  • C++/C#: nuovo rilevamento autonomo del linguaggio iniziale e continuo tramite l'API SourceLanguageRecognizer . Se vuoi solo rilevare le lingue pronunciate nel contenuto audio, questa è l'API per farlo. Vedere i dettagli per C++ e C#.
  • C++/C#: Il riconoscimento vocale e il riconoscimento della traduzione supportano ora sia l'identificazione del linguaggio iniziale che l'identificazione continua del linguaggio, in modo da poter determinare a livello di codice quali lingue vengono pronunciate prima che vengano trascritte o tradotte. Vedere la documentazione qui per Riconoscimento vocale e qui per La traduzione vocale.
  • C#: Aggiunta del supporto di Unity a macOS (x64). Questo sblocca i casi d'uso di riconoscimento vocale e sintesi vocale in realtà mista e giochi!
  • Go: è stato aggiunto il supporto per la sintesi vocale al linguaggio di programmazione Go per rendere la sintesi vocale disponibile in altri casi d'uso. Vedere la guida introduttiva o la documentazione di riferimento.
  • C++/C#/Java/Python/Objective-C/Go: il sintetizzatore vocale supporta ora l'oggetto connection . Ciò consente di gestire e monitorare la connessione al servizio Voce ed è particolarmente utile per la pre-connessione per ridurre la latenza. Vedere la documentazione qui.
  • C++/C#/Java/Python/Objective-C/Go: viene ora esposta la latenza e il tempo di inattività per SpeechSynthesisResult monitorare e diagnosticare i problemi di latenza di sintesi vocale. Vedere i dettagli per C++, C#, Java, Python, Objective-C e Go.
  • C++/C#/Java/Python/Objective-C: Il riconoscimento vocale usa ora le voci neurali per impostazione predefinita quando non si specifica una voce da usare. In questo modo si ottiene un output di fedeltà maggiore per impostazione predefinita, ma aumenta anche il prezzo predefinito. È possibile specificare una delle 70 voci standard o più di 130 voci neurali per modificare il valore predefinito.
  • C++/C#/Java/Python/Objective-C/Go: è stata aggiunta una proprietà Gender alle informazioni vocali di sintesi per semplificare la selezione delle voci in base al sesso. Questo risolve il problema GitHub n. 1055.
  • C++, C#, Java, JavaScript: è ora supportato retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsynce getAllProfilesAsync() in Riconoscimento del parlante per semplificare la gestione degli utenti di tutti i profili vocali per un determinato account. Vedere la documentazione per C++, C#, Java, JavaScript. Questo risolve il problema GitHub n. 338.
  • JavaScript: è stato aggiunto un nuovo tentativo per gli errori di connessione che renderanno più affidabili le applicazioni vocali basate su JavaScript.

Miglioramenti

  • I file binari di Linux e Android Speech SDK sono stati aggiornati per usare la versione più recente di OpenSSL (1.1.1k)
  • Miglioramenti delle dimensioni del codice:
    • Language Understanding è ora suddiviso in una libreria "lu" separata.
    • Le dimensioni binarie di Windows x64 core sono diminuite del 14,4%.
    • Le dimensioni binarie core di Android ARM64 sono diminuite del 13,7%.
    • anche altri componenti sono diminuiti di dimensioni.

Correzioni di bug

  • Tutti: Correzione del problema GitHub n. 842 per ServiceTimeout. È ora possibile trascrivere file audio lunghi usando Speech SDK senza la connessione al servizio che termina con questo errore. Tuttavia, è comunque consigliabile usare la trascrizione batch per i file lunghi.
  • C#: Correzione del problema GitHub #947 in cui nessun input vocale potrebbe lasciare l'app in uno stato non valido.
  • Java: correzione del problema GitHub #997 in cui Speech SDK per Java 1.16 si arresta in modo anomalo quando si usa DialogService Connessione or senza una connessione di rete o una chiave di sottoscrizione non valida.
  • Correzione di un arresto anomalo quando arresta bruscamente il riconoscimento vocale (ad esempio, usando CTRL+C nell'app console).
  • Java: è stata aggiunta una correzione per eliminare i file temporanei in Windows quando si usa Speech SDK per Java.
  • Java: correzione del problema GitHub n. 994 per cui la chiamata DialogServiceConnector.stopListeningAsync potrebbe causare un errore.
  • Java: è stato risolto un problema del cliente nella guida introduttiva dell'assistente virtuale.
  • JavaScript: correzione del problema 366 di GitHub in cui ConversationTranslator è stato generato un errore "this.cancelSpeech non è una funzione".
  • JavaScript: è stato risolto il problema 298 di GitHub in cui 'Get result as an in-memory stream' sample ha riprodotto ad alta voce.
  • JavaScript: è stato risolto il problema 350 di GitHub per cui la chiamata AudioConfig poteva generare un errore "ReferenceError: MediaStream non è definito".
  • JavaScript: correzione di un avviso UnhandledPromiseRejection in Node.js per sessioni con esecuzione prolungata.

Esempi

  • Documentazione degli esempi di Unity aggiornata per macOS qui.
  • Un esempio React Native per il servizio di riconoscimento vocale di Intelligenza artificiale di Azure è ora disponibile qui.

Speech SDK 1.16.0: versione di marzo 2021

Nota

Speech SDK in Windows dipende dal microsoft condiviso Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019. Scaricarla qui.

Nuove funzionalità

  • C++/C#/Java/Python: spostato nella versione più recente di GStreamer (1.18.3) per aggiungere il supporto per la trascrizione di qualsiasi formato multimediale in Windows, Linux e Android. Vedere la documentazione qui.
  • C++/C#/Java/Objective-C/Python: aggiunta del supporto per la decodifica dell'audio TTS/sintetizzato compresso nell'SDK. Se si imposta il formato audio di output su PCM e GStreamer è disponibile nel sistema, l'SDK richiederà automaticamente l'audio compresso dal servizio per risparmiare larghezza di banda e decodificare l'audio nel client. È possibile impostare SpeechServiceConnection_SynthEnableCompressedAudioTransmission su false per disabilitare questa funzionalità. Dettagli per C++, C#, Java, Objective-C, Python.
  • JavaScript: Node.js gli utenti possono ora usare l'APIAudioConfig.fromWavFileInput. Questo risolve il problema GitHub n. 252.
  • C++/C#/Java/Objective-C/Python: aggiunta GetVoicesAsync() del metodo per TTS per restituire tutte le voci di sintesi disponibili. Dettagli per C++, C#, Java, Objective-C e Python.
  • C++/C#/Java/JavaScript/Objective-C/Python: aggiunta VisemeReceived dell'evento per la sintesi vocale/TTS per restituire l'animazione viseme sincrona. Vedere la documentazione qui.
  • C++/C#/Java/JavaScript/Objective-C/Python: aggiunta BookmarkReached dell'evento per TTS. È possibile impostare i segnalibri nel file SSML di input e ottenere gli offset audio per ogni segnalibro. Vedere la documentazione qui.
  • Java: aggiunta del supporto per le API riconoscimento del parlante. Dettagli qui.
  • C++/C#/Java/JavaScript/Objective-C/Python: aggiunta di due nuovi formati audio di output con contenitore WebM per TTS (Webm16Khz16BitMonoOpus e Webm24Khz16BitMonoOpus). Questi sono formati migliori per lo streaming audio con il codec Opus. Dettagli per C++, C#, Java, JavaScript, Objective-C, Python.
  • C++/C#/Java: aggiunta del supporto per il recupero del profilo vocale per lo scenario di riconoscimento del parlante. Dettagli per C++, C# e Java.
  • C++/C#/Java/Objective-C/Python: aggiunta del supporto per una libreria condivisa separata per il microfono audio e il controllo voce. In questo modo lo sviluppatore può usare l'SDK in ambienti che non hanno dipendenze necessarie per la libreria audio.
  • Objective-C/Swift: aggiunta del supporto per il framework del modulo con l'intestazione umbrella. Ciò consente allo sviluppatore di importare Speech SDK come modulo nelle app Objective-C/Swift iOS/Mac. Questo risolve il problema GitHub n. 452.
  • Python: è stato aggiunto il supporto per Python 3.9 ed è stato eliminato il supporto per Python 3.5 per la fine della vita di Python per la versione 3.5.

Problemi noti

  • C++/C#/Java: DialogServiceConnector non può usare un CustomCommandsConfig per accedere a un'applicazione Comandi personalizzati e invece si verificherà un errore di connessione. Questa operazione può essere eseguita aggiungendo manualmente l'ID applicazione alla richiesta con config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Il comportamento previsto di CustomCommandsConfig verrà ripristinato nella versione successiva.

Miglioramenti

  • Nell'ambito del nostro impegno multi-rilascio per ridurre l'utilizzo della memoria e il footprint del disco di Speech SDK, i file binari Android sono ora del 3% al 5% più piccoli.
  • Miglioramento dell'accuratezza, della leggibilità e delle sezioni della documentazione di riferimento per C# qui.

Correzioni di bug

  • JavaScript: le intestazioni di file WAV di grandi dimensioni vengono ora analizzate correttamente (aumenta la sezione di intestazione a 512 byte). Questo risolve il problema GitHub n. 962.
  • JavaScript: correzione del problema di temporizzazione del microfono se il flusso del microfono termina prima di arrestare il riconoscimento, risolvendo un problema con il riconoscimento vocale che non funziona in Firefox.
  • JavaScript: ora si gestisce correttamente la promessa di inizializzazione quando il browser forza la disattivazione del microfono prima del completamento di turnOn.
  • JavaScript: è stata sostituita la dipendenza dell'URL con url-parse. Questo risolve il problema GitHub n. 264.
  • Android: correzione dei callback non funzionanti quando minifyEnabled è impostato su true.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY verrà impostato correttamente su I/O socket sottostante per TTS per ridurre la latenza.
  • C++/C#/Java/Python/Objective-C/Go: correzione di un arresto anomalo occasionale quando il riconoscitore è stato eliminato subito dopo l'avvio di un riconoscimento.
  • C++/C#/Java: correzione di un arresto anomalo occasionale nella distruzione del riconoscimento del parlante.

Esempi

  • JavaScript: gli esempi del browser non richiedono più il download di file di libreria JavaScript separati.

Speech SDK 1.15.0: versione di gennaio 2021

Nota

Speech SDK in Windows dipende dal microsoft condiviso Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019. Scaricarla qui.

Riepilogo delle evidenziazioni

  • Memoria e footprint del disco più piccoli rendono l'SDK più efficiente.
  • Formati di output con fedeltà superiore disponibili per l'anteprima privata della voce neurale personalizzata.
  • Riconoscimento finalità può ora ottenere un risultato maggiore rispetto alla finalità principale, offrendo la possibilità di eseguire una valutazione separata sulla finalità del cliente.
  • Gli assistenti vocali e i bot sono ora più facili da configurare ed è possibile impedirne immediatamente l'ascolto ed esercitare un maggiore controllo sulla modalità di risposta agli errori.
  • Miglioramento delle prestazioni dei dispositivi grazie alla compressione facoltativa.
  • Usare Speech SDK in Windows ARM/ARM64.
  • Miglioramento del debug di basso livello.
  • La funzionalità valutazione della pronuncia è ora più ampiamente disponibile.
  • Diverse correzioni di bug per risolvere i problemi relativi all'utente, i clienti con valore, hanno contrassegnato su GitHub. GRAZIE! Continuate a inviare commenti e suggerimenti!

Miglioramenti

  • Speech SDK è ora più efficiente e leggero. È stato avviato uno sforzo in più versioni per ridurre l'utilizzo della memoria e il footprint del disco di Speech SDK. Come primo passaggio sono state apportate riduzioni significative delle dimensioni dei file nelle librerie condivise nella maggior parte delle piattaforme. Rispetto alla versione 1.14:
    • Le librerie windows compatibili con UWP a 64 bit sono di circa il 30% più piccole.
    • Le librerie Windows a 32 bit non vedono ancora un miglioramento delle dimensioni.
    • Le librerie Linux sono inferiori al 20-25%.
    • Le librerie Android sono inferiori al 3-5%.

Nuove funzionalità

  • Tutti: Nuovi formati di output a 48 KHz disponibili per l'anteprima privata della voce neurale personalizzata tramite l'API di sintesi vocale TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • Tutto: la voce personalizzata è anche più facile da usare. Aggiunta del supporto per l'impostazione della voce personalizzata tramite EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Prima di questa modifica, gli utenti vocali personalizzati devono impostare l'URL dell'endpoint tramite il FromEndpoint metodo . Ora i clienti possono usare il FromSubscription metodo proprio come le voci predefinite e quindi specificare l'ID di distribuzione impostando EndpointId. Ciò semplifica la configurazione di voci personalizzate.
  • C++/C#/Java/Objective-C/Python: ottenere più delle finalità principali daIntentRecognizer. Supporta ora la configurazione del risultato JSON contenente tutte le finalità e non solo la finalità di punteggio principale tramite LanguageUnderstandingModel FromEndpoint il metodo usando verbose=true il parametro URI. Questo risolve il problema di GitHub n. 880. Vedere la documentazione aggiornata qui.
  • C++/C#/Java: rendere l'assistente vocale o il bot arrestare immediatamente l'ascolto. DialogServiceConnector (C++, C#, Java) ha ora un StopListeningAsync() metodo per accompagnare ListenOnceAsync(). Ciò arresterà immediatamente l'acquisizione audio e attenderà normalmente un risultato, rendendolo perfetto per l'uso con scenari di pressione del pulsante "stop now".
  • C++/C#/Java/JavaScript: rendere l'assistente vocale o il bot a reagire meglio agli errori di sistema sottostanti. DialogServiceConnector(C++, C#, Java, JavaScript) ha ora un nuovo TurnStatusReceived gestore eventi. Questi eventi facoltativi corrispondono a ogni ITurnContext risoluzione del bot e segnalano errori di esecuzione quando si verificano, ad esempio, a causa di un'eccezione, un timeout o un rilascio di rete non gestito tra Direct Line Speech e il bot. TurnStatusReceived semplifica la risposta alle condizioni di errore. Ad esempio, se un bot richiede troppo tempo su una query di database back-end (ad esempio, la ricerca di un prodotto), TurnStatusReceived consente al client di sapere di ripetere la richiesta con "spiacente, non ho abbastanza capito, potrebbe essere necessario riprovare" o qualcosa di simile.
  • C++/C#: usare Speech SDK in più piattaforme. Il pacchetto NuGet speech SDK supporta ora i file binari nativi di Windows ARM/ARM64 (UWP è già supportato) per rendere Speech SDK più utile in più tipi di computer.
  • Java: DialogServiceConnector ora ha un setSpeechActivityTemplate() metodo che è stato involontariamente escluso dal linguaggio in precedenza. Equivale a impostare la Conversation_Speech_Activity_Template proprietà e richiederà che tutte le attività future di Bot Framework originate dal servizio Direct Line Speech uniscino il contenuto fornito nei payload JSON.
  • Java: è stato migliorato il debug di basso livello. La Connection classe ha ora un MessageReceived evento, simile ad altri linguaggi di programmazione (C++, C#). Questo evento fornisce accesso di basso livello ai dati in ingresso dal servizio e può essere utile per la diagnostica e il debug.
  • JavaScript: configurazione più semplice per assistenti vocali e bot tramite BotFrameworkConfig, che ora include fromHost() metodi factory fromEndpoint() che semplificano l'uso di percorsi di servizio personalizzati rispetto all'impostazione manuale delle proprietà. È stata standardizzata anche la specifica facoltativa di botId per usare un bot non predefinito nelle factory di configurazione.
  • JavaScript: miglioramento delle prestazioni del dispositivo tramite la proprietà di controllo stringa aggiunta per la compressione websocket. Per motivi di prestazioni, la compressione websocket è stata disabilitata per impostazione predefinita. Può essere riabilitabile per scenari a larghezza di banda ridotta. Altri dettagli sono disponibili qui. Questo risolve il problema GitHub n. 242.
  • JavaScript: aggiunta del supporto per lPronunciation Assessment per abilitare la valutazione della pronuncia vocale. Vedere la guida introduttiva qui.

Correzioni di bug

  • Tutti (ad eccezione di JavaScript): correzione di una regressione nella versione 1.14, in cui memoria eccessiva è stata allocata dal riconoscitore.
  • C++: è stato risolto un problema di Garbage Collection con DialogServiceConnector, risolvendo il problema di GitHub #794.
  • C#: è stato risolto un problema relativo all'arresto del thread che causava il blocco degli oggetti per circa un secondo quando viene eliminato.
  • C++/C#/Java: correzione di un'eccezione che impedisce a un'applicazione di impostare il token di autorizzazione vocale o il modello di attività più volte in un oggetto DialogServiceConnector.
  • C++/C#/Java: correzione di un arresto anomalo del sistema di riconoscimento a causa di una race condition nell'disinstallazione.
  • JavaScript: DialogServiceConnector in precedenza non rispettava il parametro facoltativo botId specificato nelle BotFrameworkConfigfactory. Ciò ha reso necessario impostare manualmente il parametro della botId stringa di query per usare un bot non predefinito. Il bug è stato corretto e botId i valori forniti alle BotFrameworkConfigfactory verranno rispettati e usati, inclusi i nuovi fromHost() e fromEndpoint() aggiunte. Questo vale anche per il applicationId parametro per CustomCommandsConfig.
  • JavaScript: correzione del problema di GitHub #881, che consente il riutilizzo dell'oggetto di riconoscimento.
  • JavaScript: è stato risolto un problema per cui lo SKU inviava speech.config più volte in una sessione TTS, sprecare la larghezza di banda.
  • JavaScript: gestione semplificata degli errori sull'autorizzazione del microfono, consentendo un messaggio più descrittivo quando l'utente non ha consentito l'input del microfono nel browser.
  • JavaScript: correzione del problema GitHub n. 249 in cui gli errori di tipo in ConversationTranslator e ConversationTranscriber causavano un errore di compilazione per gli utenti typeScript.
  • Objective-C: è stato risolto un problema per cui la compilazione di GStreamer non è riuscita per iOS in Xcode 11.4, risolvendo il problema di GitHub #911.
  • Python: correzione del problema GitHub #870, rimozione di "DeprecationWarning: il modulo imp è deprecato a favore di importlib".

Esempi

Speech SDK 1.14.0: versione di ottobre 2020

Nota

Speech SDK in Windows dipende dal microsoft condiviso Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019. Scaricarla qui.

Nuove funzionalità

  • Linux: aggiunta del supporto per Debian 10 e Ubuntu 20.04 LTS.
  • Python/Objective-C: aggiunta del supporto per l'API KeywordRecognizer . La documentazione sarà disponibile qui.
  • C++/Java/C#: aggiunta del supporto per impostare qualsiasi HttpHeader chiave/valore tramite ServicePropertyChannel::HttpHeader.
  • JavaScript: aggiunta del supporto per l'API ConversationTranscriber . Leggere la documentazione qui.
  • C++/C#: Aggiunta di un nuovo AudioDataStream FromWavFileInput metodo (per leggere . File WAV qui (C++) e qui (C#).
  • C++/C#/Java/Python/Objective-C/Swift: aggiunta di un stopSpeakingAsync() metodo per arrestare la sintesi vocale. Leggere la documentazione di riferimento qui (C++), qui (C#), qui (Java), qui (Python)e qui (Objective-C/Swift).
  • C#, C++, Java: aggiunta di una FromDialogServiceConnector() funzione alla Connection classe che può essere usata per monitorare gli eventi di connessione e disconnessione per DialogServiceConnector. Leggere la documentazione di riferimento qui (C#), qui (C++) e qui (Java).
  • C++/C#/Java/Python/Objective-C/Swift: aggiunta del supporto per la valutazione della pronuncia della pronuncia, che valuta la pronuncia vocale e fornisce commenti e suggerimenti per l'accuratezza e la fluenza dell'audio parlato. Leggi la documentazione, disponibile qui.

Modifica

  • JavaScript: PullAudioOutputStream.read() ha una modifica del tipo restituito da una promessa interna a una promessa JavaScript nativa.

Correzioni di bug

  • All: correzione della regressione 1.13 in SetServiceProperty cui i valori con determinati caratteri speciali sono stati ignorati.
  • C#: Correzione degli esempi di console di Windows in Visual Studio 2019 che non riesce a trovare DLL native.
  • C#: correzione dell'arresto anomalo con la gestione della memoria se il flusso viene usato come KeywordRecognizer input.
  • ObjectiveC/Swift: correzione dell'arresto anomalo con la gestione della memoria se il flusso viene usato come input del sistema di riconoscimento.
  • Windows: è stato risolto un problema di coesistenza con BT HFP/A2DP nella piattaforma UWP.
  • JavaScript: correzione del mapping degli ID sessione per migliorare la registrazione e facilitare le correlazioni interne di debug/servizio.
  • JavaScript: aggiunta della correzione per DialogServiceConnector la disabilitazione delle ListenOnce chiamate dopo la prima chiamata.
  • JavaScript: è stato risolto un problema per cui l'output dei risultati sarebbe sempre "semplice".
  • JavaScript: è stato risolto un problema di riconoscimento continuo in Safari in macOS.
  • JavaScript: mitigazione del carico della CPU per uno scenario di velocità effettiva elevata delle richieste.
  • JavaScript: consente l'accesso ai dettagli del risultato della registrazione del profilo vocale.
  • JavaScript: aggiunta della correzione per il riconoscimento continuo in IntentRecognizer.
  • C++/C#/Java/Python/Swift/ObjectiveC: corretto URL per australiaeast e brazilsouth in IntentRecognizer.
  • C++/C#: aggiunta VoiceProfileType come argomento durante la creazione di un VoiceProfile oggetto.
  • C++/C#/Java/Python/Swift/ObjectiveC: è stato risolto un potenziale SPX_INVALID_ARG durante il tentativo di leggere AudioDataStream da una determinata posizione.
  • IOS: Correzione dell'arresto anomalo del sistema di riconoscimento vocale in Unity

Esempi

Problema noto

  • Il certificato DigiCert Global Root G2 non è supportato per impostazione predefinita in HoloLens 2 e Android 4.4 (KitKat) e deve essere aggiunto al sistema per rendere funzionale Speech SDK. Il certificato verrà aggiunto alle immagini del sistema operativo HoloLens 2 nel prossimo futuro. I clienti Android 4.4 devono aggiungere il certificato aggiornato al sistema.

Test di COVID-19 risolti

A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come normalmente. Non sono state apportate modifiche che potrebbero aver interrotto nulla e tutti i test automatizzati sono stati superati. Nel caso improbabile che si sia perso qualcosa, segnalarlo su GitHub.
Resta in salute!

Speech SDK 1.13.0: versione di luglio 2020

Nota

Speech SDK in Windows dipende dal microsoft condiviso Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019. Scaricare e installare l'app da qui.

Nuove funzionalità

  • C#: aggiunta del supporto per la trascrizione asincrona della conversazione. Vedere la documentazione qui.
  • JavaScript: aggiunta del supporto per il riconoscimento del parlante sia per il browserche per Node.js.
  • JavaScript: aggiunta del supporto per l'identificazione del linguaggio o l'ID del linguaggio. Vedere la documentazione qui.
  • Objective-C: aggiunta del supporto per la conversazione multi-dispositivo e la trascrizione della conversazione.
  • Python: aggiunta del supporto audio compresso per Python in Windows e Linux. Vedere la documentazione qui.

Correzioni di bug

  • All: è stato risolto un problema che causava la mancata avanzamento dei flussi da parte di KeywordRecognizer dopo un riconoscimento.
  • Tutto: è stato risolto un problema che causava la mancata contenere la parola chiave del flusso ottenuto da keywordRecognitionResult.
  • Tutto: è stato risolto un problema per cui SendMessageAsync non invia effettivamente il messaggio in transito dopo il completamento dell'attesa da parte degli utenti.
  • Tutto: è stato risolto un arresto anomalo nelle API Riconoscimento del parlante quando gli utenti chiamano il metodo VoiceProfileClient::SpeakerRecEnrollProfileAsync più volte e non attendeva il completamento delle chiamate.
  • Tutto: correzione dell'abilitazione della registrazione dei file nelle classi VoiceProfileClient e SpeakerRecognizer.
  • JavaScript: è stato risolto un problema relativo alla limitazione quando il browser è ridotto a icona.
  • JavaScript: è stato risolto un problema relativo a una perdita di memoria nei flussi.
  • JavaScript: aggiunta della memorizzazione nella cache per le risposte OCSP da NodeJS.
  • Java: è stato risolto un problema che causava la restituzione sempre di 0 dei campi BigInteger.
  • iOS: è stato risolto un problema relativo alla pubblicazione di app basate su Speech SDK nell'App Store per iOS.

Esempi

  • C++: è stato aggiunto il codice di esempio per il riconoscimento del parlante qui.

Test di COVID-19 risolti

A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come normalmente. Non sono state apportate modifiche che potrebbero aver interrotto nulla e tutti i test automatizzati sono stati superati. Nel caso improbabile che si sia perso qualcosa, segnalarlo su GitHub.
Resta in salute!

Speech SDK 1.12.1: versione di giugno 2020

Nuove funzionalità

  • C#, C++: Anteprima del riconoscimento del parlante: questa funzionalità abilita l'identificazione del parlante (chi parla?) e la verifica del parlante (è il parlante che dichiara di essere?). Iniziare con una panoramica, leggere l'articolo Nozioni di base sul riconoscimento del parlante o la documentazione di riferimento sulle API.

Correzioni di bug

  • C#, C++: la registrazione del microfono fissa non funzionava nella versione 1.12 nel riconoscimento del parlante.
  • JavaScript: correzioni per la sintesi vocale in Firefox e Safari in macOS e iOS.
  • Correzione per l'arresto anomalo della violazione di accesso dell'applicazione Windows nella trascrizione della conversazione quando si usa il flusso a otto canali.
  • Correzione per l'arresto anomalo della violazione di accesso dell'applicazione Windows nella traduzione di conversazioni multi-dispositivo.

Esempi

  • C#: esempio di codice per il riconoscimento del parlante.
  • C++: esempio di codice per il riconoscimento del parlante.
  • Java: esempio di codice per il riconoscimento delle finalità in Android.

Test di COVID-19 risolti

A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come normalmente. Non sono state apportate modifiche che potrebbero aver interrotto nulla e tutti i test automatizzati sono stati superati. Nel caso improbabile che si sia perso qualcosa, segnalarlo su GitHub.
Resta in salute!

Speech SDK 1.12.0: versione di maggio 2020

Nuove funzionalità

  • Go: Nuovo supporto per la lingua Go per il riconoscimento vocale e l'assistente vocale personalizzato. Configurare l'ambiente di sviluppo qui. Per il codice di esempio, vedere la sezione Esempi di seguito.
  • JavaScript: aggiunta del supporto browser per la sintesi vocale. Vedere la documentazione qui.
  • C++, C#, Java: nuovi KeywordRecognizer oggetti e API supportati nelle piattaforme Windows, Android, Linux e iOS. Leggi la documentazione, disponibile qui. Per il codice di esempio, vedere la sezione Esempi di seguito.
  • Java: aggiunta di una conversazione multi-dispositivo con supporto per la traduzione. Vedere il documento di riferimento qui.

Miglioramenti e ottimizzazioni

  • JavaScript: implementazione ottimizzata del microfono del browser che migliora l'accuratezza del riconoscimento vocale.
  • Java: binding refactoring che usano l'implementazione JNI diretta senza SWIG. Questa modifica riduce di 10 volte le dimensioni delle associazioni per tutti i pacchetti Java usati per Windows, Android, Linux e Mac e semplifica ulteriormente lo sviluppo dell'implementazione java di Speech SDK.
  • Linux: aggiornata la documentazione del supporto con le note specifiche più recenti di RHEL 7.
  • Miglioramento della logica di connessione per tentare di connettersi più volte quando si verificano errori di servizio e di rete.
  • Aggiornamento della pagina di avvio rapido di portal.azure.com voce per aiutare gli sviluppatori a eseguire il passaggio successivo del percorso voce di Intelligenza artificiale di Azure.

Correzioni di bug

  • C#, Java: è stato risolto un problema relativo al caricamento delle librerie SDK in Linux ARM (sia a 32 bit che a 64 bit).
  • C#: correzione dell'eliminazione esplicita degli handle nativi per gli oggetti TranslationRecognizer, IntentRecognizer e Connessione ion.
  • C#: Correzione della gestione della durata dell'input audio per l'oggetto ConversationTranscriber.
  • È stato risolto un problema per cui IntentRecognizer il motivo del risultato non veniva impostato correttamente durante il riconoscimento delle finalità da frasi semplici.
  • È stato risolto un problema per cui SpeechRecognitionEventArgs l'offset dei risultati non era impostato correttamente.
  • Correzione di una race condition in cui SDK stava tentando di inviare un messaggio di rete prima di aprire la connessione Websocket. Era riproducibile per TranslationRecognizer durante l'aggiunta di partecipanti.
  • Correzione delle perdite di memoria nel motore di riconoscimento delle parole chiave.

Esempi

Test di COVID-19 risolti

A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come normalmente. Non sono state apportate modifiche che potrebbero aver interrotto nulla e tutti i test automatizzati sono stati superati. Se si è perso qualcosa, segnalarlo su GitHub.
Resta in salute!

Speech SDK 1.11.0: versione di marzo 2020

Nuove funzionalità

  • Linux: aggiunta del supporto per Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 con istruzioni su come configurare il sistema per Speech SDK.
  • Linux: aggiunta del supporto per .NET Core C# in Linux ARM32 e ARM64. Altre informazioni sono disponibili qui.
  • C#, C++: aggiunto UtteranceId in ConversationTranscriptionResult, un ID coerente in tutti i risultati intermedi e del riconoscimento vocale finale. Dettagli per C#, C++.
  • Python: aggiunta del supporto per Language ID. Vedere speech_sample.py nel repository GitHub.
  • Windows: aggiunta del supporto del formato di input audio compresso nella piattaforma Windows per tutte le applicazioni console win32. Dettagli qui.
  • JavaScript: supporta la sintesi vocale (sintesi vocale) in NodeJS. Altre informazioni [qui](https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/quickstart/javascript/node/text per la voce).
  • JavaScript: aggiungere nuove API per abilitare l'ispezione di tutti i messaggi di invio e ricezione. Altre informazioni qui.

Correzioni di bug

  • C#, C++: correzione di un problema per cui SendMessageAsync ora invia un messaggio binario come tipo binario. Dettagli per C#, C++.
  • C#, C++: è stato risolto un problema per cui l'uso Connection MessageReceived dell'evento potrebbe causare un arresto anomalo se Recognizer viene eliminato prima Connection dell'oggetto. Dettagli per C#, C++.
  • Android: le dimensioni del buffer audio dal microfono sono diminuite da 800 ms a 100 ms per migliorare la latenza.
  • Android: è stato risolto un problema con l'emulatore Android x86 in Android Studio.
  • JavaScript: aggiunta del supporto per le aree in Cina con l'API fromSubscription . Dettagli qui.
  • JavaScript: aggiungere altre informazioni sugli errori di connessione da NodeJS.

Esempi

  • Unity: l'esempio pubblico di riconoscimento delle finalità è corretto, in cui l'importazione JSON luis ha esito negativo. Dettagli qui.
  • Python: esempio aggiunto per Language ID. Dettagli qui.

Test di Covid19 risolti: a causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale dei dispositivi come normalmente. Ad esempio, non è stato possibile testare l'output dell'input e dell'altoparlante del microfono in Linux, iOS e macOS. Non sono state apportate modifiche che potrebbero aver interrotto nulla su queste piattaforme e tutti i test automatizzati sono stati superati. Nel caso improbabile che si sia perso qualcosa, segnalarlo su GitHub.
Grazie per il supporto continuo. Come sempre, inviare domande o commenti su GitHub o Stack Overflow.
Resta in salute!

Speech SDK 1.10.0: versione di febbraio 2020

Nuove funzionalità

  • Aggiunta di pacchetti Python per supportare la nuova versione 3.8 di Python.
  • Supporto di Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

    Nota

    I clienti devono configurare OpenSSL in base a queste istruzioni.

  • Supporto arm32 di Linux per Debian e Ubuntu.
  • DialogService Connessione or supporta ora un parametro facoltativo "ID bot" in BotFrameworkConfig. Questo parametro consente l'uso di più bot Direct Line Speech con una singola risorsa Voce. Senza il parametro specificato, verrà usato il bot predefinito (come determinato dalla pagina di configurazione del canale Direct Line Speech).
  • DialogService Connessione or dispone ora di una proprietà SpeechActivityTemplate. Il contenuto di questa stringa JSON verrà usato da Direct Line Speech per precompilare un'ampia gamma di campi supportati in tutte le attività che raggiungono un bot Direct Line Speech, incluse le attività generate automaticamente in risposta a eventi come il riconoscimento vocale.
  • TTS ora usa la chiave di sottoscrizione per l'autenticazione, riducendo la latenza di primo byte del primo risultato di sintesi dopo la creazione di un sintetizzatore.
  • Modelli di riconoscimento vocale aggiornati per 19 impostazioni locali per una riduzione media della percentuale di errori di parola pari al 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). I nuovi modelli apportano miglioramenti significativi in più domini, tra cui dettatura, trascrizione call center e scenari di indicizzazione video.

Correzioni di bug

  • Correzione del bug per cui La trascrizione della conversazione non era in attesa correttamente nelle API JAVA
  • Correzione dell'emulatore x86 android per il problema di Xamarin GitHub
  • Aggiungi mancante (Get|Set)Metodi di proprietà su AudioConfig
  • Correzione di un bug TTS in cui non è stato possibile arrestare audioDataStream quando la connessione non riesce
  • L'uso di un endpoint senza un'area causerebbe errori USP per Conversation Translator
  • La generazione di ID nelle applicazioni di Windows universali ora usa un algoritmo GUID univoco appropriato; in precedenza e involontariamente è stata impostata su un'implementazione stub che spesso ha prodotto collisioni su grandi set di interazioni.

Esempi

Altre modifiche

Speech SDK 1.9.0: versione di gennaio 2020

Nuove funzionalità

  • Conversazione multi-dispositivo: connettere più dispositivi alla stessa conversazione vocale o basata su testo e, facoltativamente, tradurre i messaggi inviati tra di essi. Altre informazioni sono disponibili in questo articolo.
  • È stato aggiunto il supporto per il riconoscimento delle parole chiave per il pacchetto Android .aar e aggiunto il supporto per le versioni x86 e x64.
  • Objective-C: SendMessage e SetMessageProperty metodi aggiunti all'oggetto Connection . Vedere la documentazione qui.
  • L'API C++ TTS supporta std::wstring ora come input di testo di sintesi, rimuovendo la necessità di convertire una wstring in stringa prima di passarla all'SDK. Vedere i dettagli qui.
  • C#: l'ID lingua e la configurazione del linguaggio di origine sono ora disponibili.
  • JavaScript: aggiunta di una funzionalità all'oggetto Connection per passare messaggi personalizzati dal servizio Voce come callback receivedServiceMessage.
  • JavaScript: aggiunta del supporto per FromHost API semplificare l'uso con contenitori locali e cloud sovrani. Vedere la documentazione qui.
  • JavaScript: è stato ora rispettato NODE_TLS_REJECT_UNAUTHORIZED grazie a un contributo di orgads. Vedere i dettagli qui.

Modifiche di rilievo

  • OpenSSL è stato aggiornato alla versione 1.1.1b ed è collegato staticamente alla libreria principale di Speech SDK per Linux. Questo può causare un'interruzione se la posta in arrivo OpenSSL non è stata installata nella /usr/lib/ssl directory nel sistema. Consultare la documentazione in Documentazione di Speech SDK per risolvere il problema.
  • Il tipo di dati restituito per C# WordLevelTimingResult.Offset da int a long è stato modificato per consentire l'accesso quando WordLevelTimingResults i dati vocali sono più lunghi di 2 minuti.
  • PushAudioInputStream e PullAudioInputStream ora inviano informazioni sull'intestazione wav al servizio Voce in AudioStreamFormatbase a , facoltativamente specificato al momento della creazione. I clienti devono ora usare il formato di input audio supportato. Qualsiasi altro formato otterrà risultati di riconoscimento non ottimali o potrebbe causare altri problemi.

Correzioni di bug

  • Vedere l'aggiornamento OpenSSL in Modifiche di rilievo sopra. È stato risolto un arresto anomalo intermittente e un problema di prestazioni (contesa di blocco con carico elevato) in Linux e Java.
  • Java: sono stati apportati miglioramenti alla chiusura degli oggetti in scenari di concorrenza elevata.
  • Ristrutturato il pacchetto NuGet. Sono state rimosse le tre copie di Microsoft.CognitiveServices.Speech.core.dll e Microsoft.CognitiveServices.Speech.extension.kws.dll nelle cartelle lib, rendendo il pacchetto NuGet più piccolo e veloce da scaricare e sono state aggiunte intestazioni necessarie per compilare alcune app native C++.
  • Correzione degli esempi di avvio rapido qui. Sono stati chiusi senza visualizzare l'eccezione "microfono non trovato" in Linux, macOS, Windows.
  • Correzione dell'arresto anomalo dell'SDK con risultati di riconoscimento vocale lunghi in determinati percorsi di codice come questo esempio.
  • Correzione dell'errore di distribuzione dell'SDK nell'ambiente app Web di Azure per risolvere il problema del cliente.
  • Correzione di un errore TTS durante l'uso di più <voice> tag o <audio> tag per risolvere il problema del cliente.
  • Correzione di un errore TTS 401 quando l'SDK viene ripristinato dalla sospensione.
  • JavaScript: correzione di un'importazione circolare dei dati audio grazie a un contributo di euirim.
  • JavaScript: aggiunta del supporto per l'impostazione delle proprietà del servizio, come aggiunto nella versione 1.7.
  • JavaScript: è stato risolto un problema per cui un errore di connessione poteva causare tentativi di riconnessione websocket continui e non riusciti.

Esempi

  • Aggiunta dell'esempio di riconoscimento delle parole chiave per Android qui.
  • Aggiunta dell'esempio TTS per lo scenario del server qui.
  • Sono state aggiunte guide introduttive per la conversazione multi-dispositivo per C# e C++ qui.

Altre modifiche

  • Dimensioni ottimizzate della libreria principale dell'SDK in Android.
  • L'SDK nella versione 1.9.0 e successive supporta entrambi int i tipi e string nel campo della versione della firma vocale per Conversation Transcriber.

Speech SDK 1.8.0: versione di novembre 2019

Nuove funzionalità

  • Aggiunta di un'API FromHost() per semplificare l'uso con contenitori locali e cloud sovrani.
  • Aggiunta dell'identificazione del linguaggio di origine per il riconoscimento vocale (in Java e C++)
  • Aggiunta SourceLanguageConfig dell'oggetto per il riconoscimento vocale, usato per specificare i linguaggi di origine previsti (in Java e C++)
  • Aggiunta del KeywordRecognizer supporto in Windows (UWP), Android e iOS tramite i pacchetti NuGet e Unity
  • Aggiunta dell'API Java di conversazione remota per eseguire la trascrizione della conversazione in batch asincroni.

Modifiche di rilievo

  • Funzionalità di trascrizione conversazione spostate nello spazio dei nomi Microsoft.CognitiveServices.Speech.Transcription.
  • Le parti dei metodi di trascrizione conversazione vengono spostate in una nuova Conversation classe.
  • Supporto eliminato per iOS a 32 bit (ARMv7 e x86)

Correzioni di bug

  • Correzione dell'arresto anomalo se si usa localmente KeywordRecognizer senza una chiave di sottoscrizione valida del servizio Voce

Esempi

  • Esempio di Xamarin per KeywordRecognizer
  • Esempio di Unity per KeywordRecognizer
  • Esempi di C++ e Java per l'identificazione automatica del linguaggio di origine.

Speech SDK 1.7.0: versione di settembre 2019

Nuove funzionalità

  • Aggiunta del supporto beta per Xamarin in piattaforma UWP (Universal Windows Platform) (UWP), Android e iOS
  • Aggiunta del supporto per iOS per Unity
  • Aggiunta del Compressed supporto di input per ALaw, Mulaw, FLAC, in Android, iOS e Linux
  • Aggiunta SendMessageAsync nella Connection classe per l'invio di un messaggio al servizio
  • Aggiunta SetMessageProperty nella Connection classe per l'impostazione della proprietà di un messaggio
  • TTS ha aggiunto associazioni per Java (JRE e Android), Python, Swift e Objective-C
  • TTS ha aggiunto il supporto per la riproduzione per macOS, iOS e Android.
  • Aggiunta di informazioni "limite di parola" per TTS.

Correzioni di bug

  • Correzione del problema di compilazione IL2CPP in Unity 2019 per Android
  • Correzione del problema relativo alle intestazioni in formato non valido nell'input del file wav elaborato in modo non corretto
  • È stato risolto un problema per cui gli UUID non sono univoci in alcune proprietà di connessione
  • Correzione di alcuni avvisi relativi agli identificatori di nullbility nelle associazioni Swift (potrebbero richiedere piccole modifiche al codice)
  • Correzione di un bug che causava la chiusura di connessioni Websocket in modo anomalo nel carico di rete
  • È stato risolto un problema in Android che a volte causava ID impression duplicati usati da DialogServiceConnector
  • Miglioramenti alla stabilità delle connessioni tra interazioni a più turni e la segnalazione di errori (tramite Canceled eventi) quando si verificano con DialogServiceConnector
  • DialogServiceConnector L'avvio della sessione ora fornirà correttamente gli eventi, tra cui quando si chiama ListenOnceAsync() durante una sessione attiva StartKeywordRecognitionAsync()
  • È stato risolto un arresto anomalo associato alle DialogServiceConnector attività ricevute

Esempi

  • Guida introduttiva per Xamarin
  • Guida introduttiva aggiornata per CPP con informazioni su Linux ARM64
  • Guida introduttiva di Unity aggiornata con informazioni su iOS

Speech SDK 1.6.0: versione di giugno 2019

Esempi

  • Esempi di avvio rapido per sintesi vocale in UWP e Unity
  • Esempio di avvio rapido per Swift in iOS
  • Esempi di Unity per riconoscimento vocale e traduzione delle finalità
  • Esempi di avvio rapido aggiornati per DialogServiceConnector

Miglioramenti/modifiche

  • Spazio dei nomi della finestra di dialogo:
    • SpeechBotConnector è stata rinominata DialogServiceConnector
    • BotConfig è stata rinominata DialogServiceConfig
    • BotConfig::FromChannelSecret() è stato eseguito il mapping a DialogServiceConfig::FromBotSecret()
    • Tutti i client Direct Line Speech esistenti continuano a essere supportati dopo la ridenominazione
  • Aggiornare l'adattatore REST TTS per supportare la connessione proxy, persistente
  • Migliorare il messaggio di errore quando viene passata un'area non valida
  • Swift/Objective-C:
    • Miglioramento della segnalazione degli errori: i metodi che possono generare un errore sono ora presenti in due versioni: uno che espone un NSError oggetto per la gestione degli errori e uno che genera un'eccezione. Il primo viene esposto a Swift. Questa modifica richiede adattamenti al codice Swift esistente.
    • Gestione degli eventi migliorata

Correzioni di bug

  • Correzione per TTS: dove SpeakTextAsync futuro restituito senza attendere fino al completamento del rendering dell'audio
  • Correzione per il marshalling delle stringhe in C# per abilitare il supporto completo del linguaggio
  • Correzione del problema dell'app .NET Core per caricare la libreria core con il framework di destinazione net461 negli esempi
  • Correzione di problemi occasionali per distribuire librerie native nella cartella di output negli esempi
  • Correzione per la chiusura affidabile del web socket
  • Correzione di un possibile arresto anomalo durante l'apertura di una connessione con carico elevato in Linux
  • Correzione per i metadati mancanti nel bundle del framework per macOS
  • Correzione dei problemi relativi a pip install --user in Windows

Speech SDK 1.5.1

Si tratta di una versione di correzione di bug e che influisce solo sull'SDK nativo/gestito. Non influisce sulla versione JavaScript dell'SDK.

Correzioni di bug

  • Correzione di FromSubscription quando viene usata con la trascrizione della conversazione.
  • Correzione del bug nella ricerca di parole chiave per gli assistenti vocali.

Speech SDK 1.5.0: versione di maggio 2019

Nuove funzionalità

  • L'individuazione delle parole chiave (KWS) è ora disponibile per Windows e Linux. La funzionalità KWS potrebbe funzionare con qualsiasi tipo di microfono, il supporto ufficiale di KWS, tuttavia, è attualmente limitato alle matrici di microfoni disponibili nell'hardware azure Kinect DK o Speech Devices SDK.
  • La funzionalità hint per frasi è disponibile tramite l'SDK. Per ulteriori informazioni, vedi qui.
  • La funzionalità di trascrizione delle conversazioni è disponibile tramite l'SDK.
  • Aggiungere il supporto per gli assistenti vocali usando il canale Direct Line Speech.

Esempi

  • Aggiunta di esempi per le nuove funzionalità o i nuovi servizi supportati dall'SDK.

Miglioramenti/modifiche

  • Sono state aggiunte varie proprietà di riconoscimento per regolare il comportamento del servizio o i risultati del servizio ( ad esempio mascherando il contenuto volgare e altri).
  • È ora possibile configurare il riconoscitore tramite le proprietà di configurazione standard, anche se è stato creato il sistema di riconoscimento FromEndpoint.
  • Objective-C: OutputFormat la proprietà è stata aggiunta a SPXSpeechConfiguration.
  • L'SDK supporta ora Debian 9 come distribuzione Linux.

Correzioni di bug

  • È stato risolto un problema per cui la risorsa voce veniva destruita troppo presto nella sintesi vocale.

Speech SDK 1.4.2

Si tratta di una versione di correzione di bug e che influisce solo sull'SDK nativo/gestito. Non influisce sulla versione JavaScript dell'SDK.

Speech SDK 1.4.1

Questa è una versione solo per JavaScript. Non sono state aggiunte funzionalità. Sono state apportate le correzioni seguenti:

  • Impedire al Web pack di caricare https-proxy-agent.

Speech SDK 1.4.0: versione di aprile 2019

Nuove funzionalità

  • L'SDK supporta ora il servizio Sintesi vocale come versione beta. È supportato in Windows e Linux Desktop da C++ e C#. Per altre informazioni, vedere la panoramica di Sintesi vocale.
  • L'SDK supporta ora file audio MP3 e Opus/OGG come file di input del flusso. Questa funzionalità è disponibile solo in Linux da C++ e C# ed è attualmente in versione beta (altri dettagli qui).
  • Speech SDK per Java, .NET Core, C++ e Objective-C hanno ottenuto il supporto macOS. Il supporto Objective-C per macOS è attualmente in versione beta.
  • iOS: Speech SDK per iOS (Objective-C) è ora pubblicato anche come CocoaPod.
  • JavaScript: supporto per il microfono non predefinito come dispositivo di input.
  • JavaScript: supporto proxy per Node.js.

Esempi

  • Sono stati aggiunti esempi per l'uso di Speech SDK con C++ e con Objective-C in macOS.
  • Sono stati aggiunti esempi che illustrano l'utilizzo del servizio Sintesi vocale.

Miglioramenti/modifiche

  • Python: le proprietà aggiuntive dei risultati del riconoscimento vengono ora esposte tramite la properties proprietà .
  • Per ulteriore supporto per lo sviluppo e il debug, è possibile reindirizzare le informazioni di registrazione e diagnostica dell'SDK in un file di log (altri dettagli qui).
  • JavaScript: migliorare le prestazioni di elaborazione audio.

Correzioni di bug

  • Mac/iOS: è stato corretto un bug che ha causato un'attesa prolungata quando non è stata stabilita una connessione al servizio Voce.
  • Python: migliorare la gestione degli errori per gli argomenti nei callback Python.
  • JavaScript: correzione della segnalazione dello stato non corretta per il riconoscimento vocale terminato in RequestSession.

Speech SDK 1.3.1: aggiornamento di febbraio 2019

Si tratta di una versione di correzione di bug e che influisce solo sull'SDK nativo/gestito. Non influisce sulla versione JavaScript dell'SDK.

Correzione di bug

  • Correzione di una perdita di memoria quando si usa l'input del microfono. L'input basato su flusso o file non è interessato.

Speech SDK 1.3.0: versione di febbraio 2019

Nuove funzionalità

  • Speech SDK supporta la selezione del microfono di input tramite la AudioConfig classe . In questo modo è possibile trasmettere dati audio al servizio Voce da un microfono non predefinito. Per altre informazioni, vedere la documentazione che descrive la selezione del dispositivo di input audio. Questa funzionalità non è ancora disponibile in JavaScript.
  • Speech SDK supporta ora Unity in versione beta. Fornire commenti e suggerimenti tramite la sezione relativa al problema nel repository di esempio GitHub. Questa versione supporta Unity in Windows x86 e x64 (applicazioni desktop o per la piattaforma UWP) e Android (ARM32/64, x86). Altre informazioni sono disponibili nell'Avvio rapido di Unity.
  • Il file Microsoft.CognitiveServices.Speech.csharp.bindings.dll (fornito nelle versioni precedenti) non è più necessario. La funzionalità è ora integrata nell'SDK principale.

Esempi

I nuovi contenuti seguenti sono disponibili nel repository di esempio:

  • Esempi aggiuntivi per AudioConfig.FromMicrophoneInput.
  • Altri esempi di Python per il riconoscimento finalità e la traduzione.
  • Esempi aggiuntivi per l'uso dell'oggetto Connection in iOS.
  • Esempi aggiuntivi per Java per la traduzione con output audio.
  • Nuovo esempio per l'uso dell'API REST di trascrizione batch.

Miglioramenti/modifiche

  • Python
    • Miglioramento della verifica dei parametri e dei messaggi di errore in SpeechConfig.
    • Aggiungere il supporto per l'oggetto Connection .
    • Supporto per Python a 32 bit (x86) in Windows.
    • Speech SDK per Python non è incluso nella beta.
  • iOS
    • L'SDK è ora basato sull'SDK per iOS versione 12.1.
    • L'SDK supporta ora iOS 9.2 e versioni successive.
    • Miglioramento della documentazione di riferimento e correzione di diversi nomi di proprietà.
  • JavaScript
    • Aggiungere il supporto per l'oggetto Connection .
    • Aggiunta di file di definizione del tipo per JavaScript in bundle.
    • Supporto iniziale e implementazione per gli hint della frase.
    • Restituzione della raccolta di proprietà con il file JSON del servizio per il riconoscimento.
  • Le DLL di Windows contengono ora una risorsa di versione.
  • Se si crea un riconoscitore FromEndpoint, è possibile aggiungere parametri direttamente all'URL dell'endpoint. L'uso FromEndpoint di non è possibile configurare il sistema di riconoscimento tramite le proprietà di configurazione standard.

Correzioni di bug

  • Il nome utente e la password proxy vuoti non sono stati gestiti correttamente. Con questa versione, se si imposta il nome utente proxy e la password proxy su una stringa vuota, non verranno inviati durante la connessione al proxy.
  • SessionId creato dall'SDK non è sempre stato veramente casuale per alcuni linguaggi/ambienti. Aggiunta dell'inizializzazione casuale del generatore per risolvere il problema.
  • Gestione migliorata del token di autorizzazione. Se si vuole usare un token di autorizzazione, specificare in SpeechConfig e lasciare vuota la chiave di sottoscrizione. Creare quindi il sistema di riconoscimento come di consueto.
  • In alcuni casi, l'oggetto Connection non è stato rilasciato correttamente. Il problema è stato risolto.
  • L'esempio di JavaScript è stato corretto per supportare l'output audio per la sintesi della traduzione anche in Safari.

Speech SDK 1.2.1

Questa è una versione solo per JavaScript. Non sono state aggiunte funzionalità. Sono state apportate le correzioni seguenti:

  • Attivazione della fine del flusso in corrispondenza di turn.end e non di speech.end.
  • Correzione del bug nella pompa audio che non ha pianificato l'invio successivo se l'invio corrente non è riuscito.
  • Correzione del riconoscimento continuo con il token di autenticazione.
  • Correzione di bug per sistemi di riconoscimento/endpoint diversi.
  • Miglioramenti alla documentazione.

Speech SDK 1.2.0: versione di dicembre 2018

Nuove funzionalità

  • Python
    • La versione beta del supporto di Python (versione 3.5 e successive) è disponibile con questa versione. Per altre informazioni, vedere qui](.. /.. /quickstart-python.md).
  • JavaScript
    • Speech SDK per JavaScript è ora open source. Il codice sorgente è disponibile in GitHub.
    • È ora supportato Node.js. Altre informazioni sono reperibili qui.
    • È stata rimossa la restrizione di lunghezza per le sessioni audio. La riconnessione avverrà automaticamente.
  • Connection Oggetto
    • RecognizerDa è possibile accedere a un Connection oggetto . Questo oggetto consente di avviare in modo esplicito la connessione al servizio e di aggiungere una sottoscrizione per connettere e disconnettere gli eventi. Questa funzionalità non è ancora disponibile in JavaScript e Python.
  • Supporto per Ubuntu 18.04.
  • Android
    • Supporto di ProGuard abilitato durante la generazione di APK.

Miglioramenti

  • Miglioramenti nell'uso dei thread interni, con riduzione del numero di thread, blocchi e mutex.
  • Miglioramento della segnalazione errori e delle informazioni sugli errori. In diversi casi, i messaggi di errore non sono stati propagati all'esterno.
  • Aggiornamento delle dipendenze di sviluppo in JavaScript per usare i moduli aggiornati.

Correzioni di bug

  • Correzione delle perdite di memoria a causa di una mancata corrispondenza del tipo in RecognizeAsync.
  • In alcuni casi perdita delle eccezioni.
  • Correzione della perdita di memoria negli argomenti degli eventi di conversione.
  • Correzione di un problema di blocco per la riconnessione in sessioni a esecuzione prolungata.
  • È stato risolto un problema che poteva causare la mancanza di risultati finali per le traduzioni non riuscite.
  • C#: se un'operazione async non è stata attesa nel thread principale, è possibile che il riconoscitore possa essere eliminato prima del completamento dell'attività asincrona.
  • Java: è stato risolto un problema che causava un arresto anomalo della macchina virtuale Java.
  • Objective-C: mapping delle enumerazioni fisse; RecognizedIntent è stato restituito anziché RecognizingIntent.
  • JavaScript: impostare il formato di output predefinito su "simple" in SpeechConfig.
  • JavaScript: rimozione dell'incoerenza tra le proprietà nell'oggetto config in JavaScript e in altri linguaggi.

Esempi

  • Aggiornamento e correzione di diversi esempi (ad esempio voci di output per la traduzione e così via).
  • Aggiunta di esempi di Node.js nel repository degli esempi.

Speech SDK 1.1.0

Nuove funzionalità

  • Supporto per Android x86/x64.
  • Supporto proxy: nell'oggetto SpeechConfig è ora possibile chiamare una funzione per impostare le informazioni sul proxy (nome host, porta, nome utente e password). Questa funzionalità non è ancora disponibile in iOS.
  • Messaggi e codice di errore migliorati. Se un riconoscimento ha restituito un errore, l'elemento Reason (nell'evento annullato) o CancellationDetails (nel risultato del riconoscimento) è già stato impostato su Error. L'evento annullato contiene ora due membri aggiuntivi: ErrorCode e ErrorDetails. Se il server ha restituito l'errore corredato da informazioni aggiuntive, le informazioni saranno ora disponibili nei nuovi membri.

Miglioramenti

  • È stata aggiunta una verifica supplementare nella configurazione del sistema di riconoscimento ed è stato aggiunto un nuovo messaggio di errore.
  • È stata migliorata la gestione di un silenzio prolungato nel mezzo di un file audio.
  • Pacchetto NuGet: per i progetti .NET Framework, impedisce la compilazione con una configurazione AnyCPU.

Correzioni di bug

  • Sono state corrette varie eccezioni rilevate nei sistemi di riconoscimento. Inoltre, le eccezioni vengono rilevate e convertite in Canceled eventi.
  • È stata corretta una perdita di memoria nella gestione delle proprietà.
  • È stato corretto un bug per il quale un file di input audio può determinare l'arresto anomalo del sistema di riconoscimento.
  • È stato risolto un bug per il quale si continuano a ricevere eventi anche dopo un evento di arresto della sessione.
  • Sono state corrette alcune race condition nel threading.
  • È stato corretto un problema di compatibilità iOS che può determinare un arresto anomalo.
  • Sono stati apportati miglioramenti di stabilità per il supporto di microfoni Android.
  • È stato risolto un bug per il quale un sistema di riconoscimento in JavaScript ignorava la lingua di riconoscimento.
  • Correzione di un bug che impedisce l'impostazione EndpointId di (in alcuni casi) in JavaScript.
  • Modifica dell'ordine dei parametri in AddIntent in JavaScript e aggiunta della firma JavaScript mancante AddIntent .

Esempi

  • Sono stati aggiunti esempi C++ e C# per l'utilizzo del flusso pull e push nel repository di esempio.

Speech SDK 1.0.1

Miglioramenti apportati alla stabilità e correzioni di bug:

  • Risoluzione di un potenziale errore irreversibile dovuto a una race condition nell'eliminazione dello strumento di riconoscimento.
  • Correzione di un potenziale errore irreversibile quando si verificano proprietà nonset.
  • Aggiunta di un ulteriore controllo di errori e parametri.
  • Objective-C: risoluzione di un potenziale errore irreversibile causato dall'override del nome in NSString.
  • Objective-C: modifica della visibilità dell'API
  • JavaScript: correzioni relative a eventi e payload correlati.
  • Miglioramenti alla documentazione.

Al repository di esempi è stato aggiunto un nuovo esempio per JavaScript.

Azure AI Speech SDK 1.0.0: versione di settembre 2018

Nuove funzionalità

Modifiche di rilievo

  • Con questa versione vengono introdotte alcune modifiche che causano un'interruzione. Per informazioni dettagliate, vedere questa pagina .

Azure AI Speech SDK 0.6.0: versione di agosto 2018

Nuove funzionalità

Modifica funzionale

  • Informazioni aggiuntive dettagliate sull'errore in caso di errori di connessione.

Modifiche di rilievo

  • In Java (Android), la funzione SpeechFactory.configureNativePlatformBindingWithDefaultCertificate non richiede più un parametro di percorso. Il percorso viene ora rilevato automaticamente in tutte le piattaforme supportate.
  • La funzione di accesso get della proprietà EndpointUrl in Java e C# è stata rimossa.

Correzioni di bug

  • In Java, il risultato di sintesi audio sul sistema di riconoscimento di traduzione è ora implementato.
  • È stato risolto un bug che potrebbe causare un maggior numero di socket aperti e inutilizzati e thread inattivi.
  • È stato risolto un problema in cui un riconoscimento con esecuzione prolungata terminava la trasmissione a metà.
  • Correzione di una race condition nel sistema di riconoscimento di arresto.

Azure AI Speech SDK 0.5.0: versione di luglio 2018

Nuove funzionalità

  • Supporto della piattaforma Android (API 23: Android Marshmallow 6.0 o versione successiva). Consultare la Guida introduttiva di Android.
  • Supporto di .NET Standard 2.0 in Windows. Consultare la Guida introduttiva di .NET Core.
  • Sperimentale: supporto di UWP in Windows (versione 1709 o successiva).
  • Supporto del riconoscimento a esecuzione prolungata con riconnessione automatica.

Modifiche funzionali

  • StartContinuousRecognitionAsync() supporta il riconoscimento a esecuzione prolungata.
  • Il risultato del riconoscimento contiene più campi. Scostamento da inizio audio e durata (entrambi in tick) del testo riconosciuto, valori aggiuntivi che rappresentano lo stato di riconoscimento, ad esempio InitialSilenceTimeout e InitialBabbleTimeout.
  • Supporto del token di autorizzazione per la creazione di istanze di factory.

Modifiche di rilievo

  • Eventi di riconoscimento: NoMatch il tipo di evento è stato unito all'evento Error .
  • SpeechOutputFormat in C# è stato rinominato per OutputFormat rimanere allineato a C++.
  • Il tipo restituito di alcuni metodi dell'interfaccia AudioInputStream è leggermente cambiato:
    • In Java, il metodo read restituisce ora long invece di int.
    • In C#, il metodo Read restituisce ora uint invece di int.
    • In C++, i metodi Read e GetFormat restituiscono ora size_t invece di int.
  • C++: le istanze di flussi di input audio possono ora essere passate solo come shared_ptr.

Correzioni di bug

  • Sono stati corretti i valori restituiti errati nel risultato alla scadenza di RecognizeAsync().
  • È stata rimossa la dipendenza dalle librerie di Media Foundation in Windows. L'SDK usa ora le API Audio Core.
  • Correzione della documentazione: è stata aggiunta una pagina relativa alle aree per descrivere le aree supportate.

Problema noto

  • Speech SDK per Android non segnala i risultati della sintesi vocale per la traduzione. Questo problema verrà risolto nella prossima versione.

Azure AI Speech SDK 0.4.0: versione di giugno 2018

Modifiche funzionali

  • AudioInputStream

    Uno strumento di riconoscimento può ora usare un flusso come origine audio. Per informazioni dettagliate, vedere la guida pratica.

  • Formato dettagliato dell'output

    Durante la creazione di uno SpeechRecognizer, è possibile richiedere un formato di output Detailed o Simple. Il DetailedSpeechRecognitionResult contiene punteggio di attendibilità, testo riconosciuto, forma lessicale non elaborata, forma normalizzata e forma normalizzata con messaggi dal contenuto volgare mascherati.

Modifica

  • Modifica da SpeechRecognitionResult.RecognizedText a SpeechRecognitionResult.Text in linguaggio C#.

Correzioni di bug

  • È stato corretto un possibile problema di callback nel livello USP durante l'arresto.
  • Se un riconoscimento usa un file di input audio, significa che esso contiene l'handle del file più a lungo rispetto al necessario.
  • Sono stati rimossi diversi deadlock tra message pump e strumento di riconoscimento.
  • Attiva un risultato NoMatch quando la risposta dal servizio è scaduta.
  • Le librerie di Media Foundation in Windows sono a caricamento ritardato. Questa libreria è richiesta solo per l'input del microfono.
  • La velocità di caricamento dei dati audio è limitata a circa due volte la velocità dell'audio originale.
  • In Windows, gli assembly C# .NET hanno ora un nome sicuro.
  • Correzione della documentazione: Region è un'informazione obbligatoria per la creazione di un riconoscimento.

Sono stati aggiunti altri esempi che sono costantemente in corso l'aggiornamento. Per il set di esempi più recente, vedere il repository GitHub degli esempi di Speech SDK.

Azure AI Speech SDK 0.2.12733: versione di maggio 2018

Questa versione è la prima versione di anteprima pubblica di Azure AI Speech SDK.