Novità di Voce di Azure AI

Articolo
04/22/2024

Voce di Azure AI viene aggiornato regolarmente. Per stare al passo con gli sviluppi più recenti, questo articolo fornisce informazioni sulle nuove versioni e funzionalità.

Evidenziazioni recenti

Il servizio Voce di Azure AI supporta le voci di sintesi vocale di OpenAI. Per altre informazioni, vedere Che cos’è la sintesi vocale di OpenAI?.
L'API vocale personalizzata è disponibile per la creazione e la gestione di modelli di voce neurale professionale e personale.
Voce di Azure AI supporta ora il modello Whisper di OpenAI tramite l'API di trascrizione batch. Per altre informazioni, vedere la guida Creare una trascrizione batch.

Note sulla versione

Scegliere un servizio o una risorsa

Piani futuri per gli utenti Linux e Android:

Attenzione

Questo articolo fa riferimento a CentOS, una distribuzione Linux prossima allo stato EOL (End of Life, fine del ciclo di vita). Valutare le proprie esigenze e pianificare di conseguenza. Per ulteriori informazioni, consultare la Guida alla fine del ciclo di vita di CentOS.

Ubuntu 18.04 raggiunge anche la fine della vita nel mese di aprile 2023, quindi gli utenti devono prepararsi a spostare la versione minima fino a Ubuntu 20.04.

Speech SDK 1.37.0: versione di aprile 2024

Nuove funzionalità

Aggiungere il supporto per lo streaming di testo di input nella sintesi vocale.
Modificare la voce di sintesi vocale predefinita in en-US-AvaMultilingualNeural.
Aggiornare le build android per usare OpenSSL 3.x.

Correzioni di bug

Correzione di arresti anomali occasionali di JVM durante l'eliminazione di SpeechRecognizer quando si usa MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Migliorare il rilevamento dei dispositivi audio predefiniti in Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Esempi

Aggiornato per le nuove funzionalità.

Speech SDK 1.36.0: versione di marzo 2024

Nuove funzionalità

Aggiungere il supporto per l'identificazione della lingua nella traduzione multilingue negli endpoint v2 usando AutoDetectSourceLanguageConfig::FromOpenRange().

Correzioni di bug

Correzione dell'evento SynthesisCanceled non generato se l'arresto viene chiamato durante l'evento SynthesisStarted.
Consente di risolvere un problema di rumore nella sintesi vocale incorporata.
Correzione di un arresto anomalo del riconoscimento vocale incorporato durante l'esecuzione di più riconoscitori in parallelo.
Correggere l'impostazione della modalità di rilevamento frasi negli endpoint v1/v2.
Correzione di vari problemi relativi a Microsoft Audio Stack.

Esempi

Aggiornamenti per le nuove funzionalità.

Speech SDK 1.35.0: versione di febbraio 2024

Nuove funzionalità

Modificare la voce sintesi vocale da en-US-JennyMultilingualNeural a en-US-AvaNeural.
Supportare i dettagli a livello di parola nei risultati della traduzione vocale incorporata usando il formato di output dettagliato.

Correzioni di bug

Correggere l'API getter posizione AudioDataStream in Python.
Correggere la traduzione vocale usando gli endpoint v2 senza rilevamento della lingua.
Correggere un arresto anomalo del sistema casuale e eventi confine di parola duplicati in testo sintesi vocale incorporata.
Restituire un codice di errore di annullamento corretto per un errore interno del server nelle connessioni WebSocket.
Correggere l'errore durante il caricamento della libreria FPIEProcessor.dll quando si usa MAS con C#.

Esempi

Aggiornamenti di formattazione secondari per gli esempi di riconoscimento incorporato.

Speech SDK 1.34.1: versione di gennaio 2024

Modifiche di rilievo

Solo correzioni di bug

Nuove funzionalità

Solo correzioni di bug

Correzioni di bug

Correggere la regressione introdotta nella versione 1.34.0 in cui l'URL dell'endpoint di servizio è stato costruito con informazioni sulle impostazioni locali non corrette per gli utenti in diverse aree della Cina.

Speech SDK 1.34.0: versione di novembre 2023

Modifiche di rilievo

SpeechRecognizer è stato aggiornato per l'uso di un nuovo endpoint per impostazione predefinita (ad esempio, quando non si specifica in modo esplicito un URL) che non supporta più i parametri della stringa di query per la maggior parte delle proprietà. Anziché impostare i parametri della stringa di query direttamente con ServicePropertyChannel.UriQueryParameter, usare le funzioni API corrispondenti.

Nuove funzionalità

Compatibilità con .NET 8 (correzione per https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 ad eccezione dell'avviso relativo a centos7-x64)
Supporto per le metriche delle prestazioni voce incorporate che possono essere usate per valutare la capacità di un dispositivo per eseguire il parlato incorporato.
Supporto per l'identificazione della lingua di origine nella traduzione multilingue incorporata.
Supporto per riconoscimento vocale, sintesi vocale e traduzione incorporati per iOS e Swift/Objective-C rilasciato in anteprima.
Il supporto incorporato è disponibile in MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Correzioni di bug

Correzione per l'aumento delle dimensioni binarie di iOS SDK x2 volte · Problema n. 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correzione di Impossibile ottenere timestamp da API riconoscimento vocale da Azure · Problema n. 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correzione per la fase di distruzione di DialogServiceConnector per disconnettere correttamente gli eventi. Questo causava occasionalmente arresti anomali del sistema.
Correzione per l'eccezione durante la creazione di un sistema di riconoscimento quando è usato MAS.
FPIEProcessor.dll dal pacchetto NuGet Microsoft.CognitiveServices.Speech.Extension.MAS per la piattaforma UWP di Windows x64 e ARM64 dipende dalle librerie di runtime VC per C++nativo. Il problema è stato corretto aggiornando la dipendenza per correggere le librerie di runtime VC (per la piattaforma UWP).
Correzione per le chiamate ricorrenti [MAS] a recognizeOnceAsync per SPXERR_ALREADY_INITIALIZED quando si usa MAS · Problema n. 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correzione per l'arresto anomalo del riconoscimento vocale incorporato quando vengono usati elenchi di frasi.

Esempi

Esempi iOS incorporati per riconoscimento vocale, sintesi vocale e traduzione.

Interfaccia della riga di comando di Voce 1.34.0: versione di novembre 2023

Nuove funzionalità

Supportare l'output degli eventi confine di parola parole durante la sintetizzazione del parlato.

Correzioni di bug

Aggiornamento della dipendenza JMESPath alla versione più recente, migliora le valutazioni delle stringhe

Speech SDK 1.33.0: versione di ottobre 2023

Avviso di modifica che causa un'interruzione

Il nuovo pacchetto NuGet aggiunto per Microsoft Audio Stack (MAS) è ora necessario essere incluso dalle applicazioni che usano MAS nei file di configurazione del pacchetto.

Nuove funzionalità

Aggiunta del nuovo pacchetto NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, che offre prestazioni di annullamento echo (eco) migliorate quando si usa Microsoft Audio Stack
Valutazione della pronuncia: è stato aggiunto il supporto per la valutazione di prosodia e contenuto, che può valutare il parlato in termini di prosodia, vocabolario, grammatica e argomento.

Correzioni di bug

Correzione degli scostamenti dei risultati del riconoscimento delle parole chiave in modo che corrispondano correttamente al flusso audio di input dall'inizio. La correzione si applica sia al riconoscimento autonomo delle parole chiave che al riconoscimento vocale attivato da parole chiave.
Risolto stopSpeaking del sintetizzatore che non restituisce immediatamente il metodo SPXSpeechSynthesizer stopSpeaking() non può restituire immediatamente in iOS 17 - Problema #2081
Correzione del problema di importazione di Mac Catalyst nel supporto del modulo Swift per Mac catalyst con il processore apple. Problema n.1948
JS: il modulo AudioWorkletNode carica ora usa un URL attendibile, con fallback per il browser della rete CDN include.
JS: il pacchetto di file lib compressi ora destinazioni ES6 JS, con il supporto per ES5 JS rimosso.
JS: gli eventi intermedi per lo scenario di traduzione destinati all'endpoint v2 vengono gestiti correttamente
JS: la proprietà della lingua per TranslationRecognitionEventArgs è ora impostata per gli eventi translation.hypothesis.
Sintesi vocale: l'evento SynthesisCompleted è garantito che venga generato dopo tutti gli eventi di metadati, quindi può essere usato per indicare la fine degli eventi. Come rilevare quando i visemi sono ricevuti completamente? Problema n. 2093 Azure-Samples/cognitive-services-speech-sdk

Esempi

Aggiunto esempio per illustrare lo streaming MULAW con Python)
Correzione dell'esempio NAudio di riconoscimento vocale

Interfaccia della riga di comando di Voce 1.33.0: versione di ottobre 2023

Nuove funzionalità

Supportare l'output degli eventi confine di parola parole durante la sintetizzazione del parlato.

Correzioni di bug

Nessuno

Speech SDK 1.32.1: versione di settembre 2023

Correzioni di bug

Aggiornamenti dei pacchetti Android con le correzioni di sicurezza più recenti da OpenSSL1.1.1v
JS: proprietà WebWorkerLoadType aggiunta per consentire il bypass del caricamento dell'URL dei dati per il ruolo di lavoro di timeout
JS: correzione della disconnessione di Conversation Translation dopo 10 minuti
JS: il token di autenticazione di Conversation Translation dalla conversazione ora si propaga alla connessione al servizio di traduzione

Esempi

Trascrizione della conversazione con API Swift

Speech SDK 1.31.0: versione di agosto 2023

Nuove funzionalità

Il supporto per la diarizzazione in tempo reale è disponibile in anteprima pubblica con Servizio cognitivo di Azure per la voce SDK 1.31.0. Questa funzionalità è disponibile negli SDK seguenti: C#, C++, Java, JavaScript, Python e Objective-C/Swift.
Confine di parola di parlato sincronizzato ed eventi visema con riproduzione audio

Modifiche di rilievo

Lo scenario "trascrizione conversazione" precedente è stato rinominato in "trascrizione riunioni". Ad esempio, usare MeetingTranscriber anziché ConversationTranscriber e usare invece CreateMeetingAsync di CreateConversationAsync. Anche se i nomi degli oggetti e dei metodi SDK sono stati modificati, la ridenominazione non modifica la funzionalità stessa. Usare gli oggetti di trascrizione delle riunioni per la trascrizione delle riunioni con profili utente e firme vocali. Per altre informazioni, vedere Trascrizione riunioni. Gli oggetti e i metodi di “traduzione conversazione” non sono interessati da queste modifiche. È comunque possibile usare l'oggetto ConversationTranslator e i relativi metodi per gli scenari di traduzione delle riunioni.

Per la diarizzazione in tempo reale, viene introdotto un nuovo oggetto ConversationTranscriber. Il nuovo modello a oggetti "trascrizione conversazione" e i criteri di chiamata sono simili al riconoscimento continuo con l'oggetto SpeechRecognizer. Una differenza fondamentale è che l'oggetto ConversationTranscriber è progettato per essere usato in uno scenario di conversazione in cui si vogliono distinguere più parlanti (diarizzazione). I profili utente e le firme vocali non sono applicabili. Per altre informazioni, vedere avvio rapido alla diarizzazione in tempo reale.

Questa tabella mostra i nomi degli oggetti precedenti e nuovi per la diarizzazione in tempo reale e la trascrizione delle riunioni. Il nome dello scenario si trova nella prima colonna, i nomi degli oggetti precedenti si trovano nella seconda colonna e i nomi dei nuovi oggetti si trovano nella terza colonna.

Nome dello scenario	Nomi di oggetti precedenti	Nuovi nomi di oggetti
Diarizzazione in tempo reale	N/D	`ConversationTranscriber`
Trascrizione riunione	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ Gli oggetti Participant, ParticipantChangedReason e User sono applicabili sia alla trascrizione delle riunioni che agli scenari di traduzione delle riunioni.

² L'oggetto Meeting è nuovo e viene utilizzato con l'oggetto MeetingTranscriber.

Correzioni di bug

Corretta la versione minima supportata di macOS https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Correzione del bug di Valutazione della pronuncia:
- È stato risolto il problema relativo ai punteggi di accuratezza dei fonemi, assicurandosi che ora riflettano in modo accurato solo il fonema pronunciato in modo errato. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- È stato risolto un problema per cui la funzionalità valutazione della pronuncia identificava erroneamente le pronunce corrette, in particolare nelle situazioni in cui le parole potevano avere più pronunce valide. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Esempi

Speech SDK 1.30.0: versione di luglio 2023

Nuove funzionalità

C++, C#, Java - Aggiunto supporto per DisplayWords nel risultato dettagliato di Riconoscimento vocale incorporato.
Objective-C/Swift - Aggiunto supporto per l'evento ConnectionMessageReceived in Objective-C/Swift.
Objective-C/Swift - Miglioramento dei modelli di individuazione delle parole chiave per iOS. Questa modifica ha aumentato le dimensioni di determinati pacchetti che contengono file binari iOS (ad esempio NuGet, XCFramework). Stiamo lavorando per ridurre le dimensioni delle versioni future.

Correzioni di bug

Corretta la perdita di memoria quando si usa lo strumento di riconoscimento vocale con PhraseListGrammar, come segnalato da un cliente (problema di GitHub).
Correzione di un deadlock nell’API di connessione aperta sintesi vocale.

Note aggiuntive

Java: alcuni metodi dell'API Java public usati internamente sono stati modificati nel pacchetto internal,protected o private. Questa modifica non dovrebbe influire sugli sviluppatori, perché non si prevede che le applicazioni usino tali applicazioni. Annotato qui per trasparenza.

Esempi

Nuovi esempi di valutazione della pronuncia per specificare una lingua di apprendimento nella propria applicazione
- C#: vedere il codice di esempio.
- C++: vedere il codice di esempio.
- JavaScript: vedere il codice di esempio.
- Objective-C: vedere il codice di esempio.
- Python: vedere il codice di esempio.
- Swift: vedere il codice di esempio.

Speech SDK 1.29.0: versione di giugno 2023

Nuove funzionalità

C++, C#, Java - Anteprima delle API di traduzione vocale incorporata. Ora è possibile eseguire la traduzione vocale senza connessione cloud!
JavaScript - L'identificazione continua della lingua (LID) è ora abilitata per la traduzione vocale.
JavaScript: contributo della community per l'aggiunta della proprietà LocaleName alla classe VoiceInfo. Grazie all'utente GitHub shivsarthak per la richiesta pull.
C++, C#, Java - Aggiunta del supporto per il ricampionamento dell’output di sintesi vocale incorporato con frequenza di campionamento da 16 kHz a 48 kHz.
Aggiunto il supporto per le impostazioni locali hi-IN in Riconoscimento finalità con criteri di ricerca semplici.

Correzioni di bug

Correzione di un arresto anomalo del sistema causato da una race condition in Riconoscimento voce durante la distruzione degli oggetti, come illustrato in alcuni dei test Android
Correzione di possibili deadlock in Riconoscimento finalità con matcher criterio semplice

Esempi

Nuovi esempi di traduzione vocale incorporata

Speech SDK 1.28.0: versione di maggio 2023

Modifica

JavaScript SDK: il protocollo OCSP (Online Certificate Status Protocol) è stato rimosso. Questo consente ai client di conformarsi meglio agli standard del browser e del nodo per la gestione dei certificati. La versione 1.28 e successive non includerà più il modulo OCSP personalizzato.

Nuove funzionalità

Riconoscimento vocale incorporato ora restituisce NoMatchReason::EndSilenceTimeout quando si verifica un timeout di silenzio alla fine di un'espressione. Questo corrisponde al comportamento quando si esegue il riconoscimento usando il servizio parlato in tempo reale.
JavaScript SDK: impostare le proprietà su SpeechTranslationConfig mediante i valori di enumerazione PropertyId.

Correzioni di bug

C# in Windows - Correzione di potenziali race condition/deadlock nell'estensione audio di Windows. Negli scenari che eliminano il renderer audio rapidamente e usano anche il metodo Sintetizzatore per interrompere il parlato, l'evento sottostante non è stato reimpostato per arresto e potrebbe non determinare mai l'eliminazione dell'oggetto renderer, e nel frattempo potrebbe contenere un blocco globale per l'eliminazione, congelando il thread dotnet GC.

Esempi

Aggiunta di un esempio di parlato incorporato per MAUI.
Aggiornamento dell'esempio di parlato incorporato per Android Java per includere il testo per la sintesi vocale.

Speech SDK 1.27.0: versione di aprile 2023

Notifica relativa alle modifiche imminenti

Si prevede di rimuovere Online Certificate Status Protocol (OCSP) nella prossima versione di JavaScript SDK. Questo consente ai client di conformarsi meglio agli standard del browser e del nodo per la gestione dei certificati. La versione 1.27 è l'ultima che include il modulo OCSP personalizzato.

Nuove funzionalità

JavaScript – Supporto aggiunto per l'input del microfono dal browser con Identificazione voce e verifica.
Riconoscimento vocale incorporato - Aggiornamento del supporto per l'impostazione di PropertyId::Speech_SegmentationSilenceTimeoutMs.

Correzioni di bug

Generale - Aggiornamenti dell'affidabilità nella logica di riconnessione del servizio (tutti i linguaggi di programmazione ad eccezione di JavaScript).
Generale - Correzione delle conversioni di stringhe che causano perdite di memoria in Windows (tutti i linguaggi di programmazione pertinenti ad eccezione di JavaScript).
Riconoscimento vocale incorporato - Correzione dell'arresto anomalo del riconoscimento vocale in francese quando si usano determinate voci dell'elenco grammaticale.
Documentazione del codice sorgente - Correzioni ai commenti della documentazione di riferimento dell'SDK correlati alla registrazione audio nel servizio.
Riconoscimento delle finalità - Correzione delle priorità del matcher dei criteri correlati alle entità elenco.

Esempi

Gestire correttamente l'errore di autenticazione nell'esempio C# Trascrizione conversazione (CTS).
Aggiunta di un esempio di valutazione della pronuncia di streaming per Python, JavaScript, Objective-C e Swift.

Speech SDK 1.26.0: versione di marzo 2023

Modifiche di rilievo

Bitcode è stato disabilitato in tutte le destinazioni iOS nei pacchetti seguenti: Cocoapod con xcframework, NuGet (per Xamarin e MAUI) e Unity. La modifica è dovuta alla deprecazione del supporto bitcode di Apple da Xcode 14 e versioni successive. Questa modifica implica anche se si usa la versione Xcode 13 o se è stato abilitato in modo esplicito il codice bit nell'applicazione usando Speech SDK, è possibile che venga visualizzato un errore indicante "il framework non contiene bitcode ed è necessario ricompilarlo". Per risolvere questo problema, assicurarsi che le destinazioni abbiano disabilitato bitcode.
In questa versione, la destinazione di distribuzione iOS minima è stata aggiornata alla versione 11.0. Questo significa che armv7 HW non è più supportato.

Nuove funzionalità

Riconoscimento vocale incorporato (su dispositivo) supporta ora audio di input della frequenza di campionamento a 8 e 16 kHz (16 bit per campione, mono PCM).
La sintesi vocale ora segnala latenze di connessione, rete e servizio nel risultato per consentire l'ottimizzazione della latenza end-to-end.
Nuove regole di associazione per Riconoscimento finalità con criteri di ricerca semplici. Un numero più ampio di byte di caratteri corrispondenti sarà migliore rispetto alle corrispondenze dei criteri con un numero di byte di caratteri inferiore. Esempio: il criterio "Select {something} in alto a destra" prevale su "Select {something}"

Correzioni di bug

Sintesi vocale: correzione di un bug in cui l'emoji non è corretta negli eventi confine di parola.
Riconoscimento finalità con CLU (Conversational Language Understanding):
- Le finalità del flusso di lavoro dell’agente di orchestrazione CLU ora vengono visualizzate correttamente.
- Il risultato JSON è ora disponibile tramite l'ID proprietà LanguageUnderstandingServiceResponse_JsonResult.
Riconoscimento vocale con attivazione delle parole chiave: correzione per l'audio mancante di circa 150 ms dopo il riconoscimento di parole chiave.
Correzione per la build della versione MAUI di iOS NuGet Speech SDK, segnalata dal cliente (problema di GitHub)

Esempi

Correzione per l'esempio Swift iOS, segnalato dal cliente (problema di GitHub)

Speech SDK 1.25.0: versione di gennaio 2023

Modifiche di rilievo

Le API di identificazione della lingua (anteprima) sono state semplificate. Se si esegue l'aggiornamento a Speech SDK 1.25 e viene visualizzata un'interruzione di build, visitare la pagina Identificazione lingua per informazioni sulla nuova proprietà SpeechServiceConnection_LanguageIdMode. Questa singola proprietà sostituisce i due precedenti SpeechServiceConnection_SingleLanguageIdPriority e SpeechServiceConnection_ContinuousLanguageIdPriority. La priorità tra bassa latenza e accuratezza elevata non è più necessaria in seguito ai miglioramenti recenti del modello. Ora è sufficiente selezionare se eseguire l'identificazione della lingua continua o all'avvio quando si esegue il riconoscimento vocale o la traduzione continua.

Nuove funzionalità

C#/C++/Java: Servizio cognitivo di Azure per la voce SDK incorporato è ora rilasciato in anteprima pubblica controllata. Vedere documentazione di Servizio cognitivo di Azure per la voce incorporato (anteprima). È ora possibile eseguire il riconoscimento vocale e la sintesi vocale su dispositivo quando la connettività cloud è intermittente o non disponibile. Supporto nelle piattaforme Android, Linux, macOS e Windows
MAUI C#: supporto aggiunto per le destinazioni iOS e Mac Catalyst in Servizio cognitivo di Azure per la voce SDK NuGet (problema del cliente)
Unità: architettura x86_64 Android aggiunta al pacchetto Unity (problema del cliente)
Go:
- Aggiunto il supporto per lo streaming diretto ALAW/MULAW per il riconoscimento vocale (problema del cliente)
- Aggiunta del supporto per PhraseListGrammar. Grazie all'utente di GitHub czkoko per il contributo della community!
C#/C++: riconoscimento finalità supporta ora modelli di Language Understanding di conversazione in C++ e C# con orchestrazione nel servizio Microsoft

Correzioni di bug

Correzione di un blocco occasionale in KeywordRecognizer quando si tenta di arrestarlo
Python:
- Correzione per ottenere i risultati della valutazione della pronuncia quando è impostato PronunciationAssessmentGranularity.FullText (problema del cliente)
- Correzione per la proprietà gender per le voci maschili non recuperate, quando si ottengono le voci di sintesi vocale
JavaScript
- Correzione per l'analisi di alcuni file WAV registrati nei dispositivi iOS (problema del cliente)
- JS SDK ora viene compilato senza usare npm-force-resolutions (problema del cliente)
- Traduttore conversazione ora imposta correttamente l'endpoint di servizio quando si usa un'istanza speechConfig creata con SpeechConfig.fromEndpoint()

Esempi

Aggiunta di esempi che illustrano come usare Voce incorporato
Aggiunta dell'esempio di riconoscimento vocale per MAUI

Vedere repository di esempi di Speech SDK.

Speech SDK 1.24.2: versione di novembre 2022

Nuove funzionalità

Nessuna nuova funzionalità, solo una correzione del motore incorporata per supportare nuovi file di modello.

Correzioni di bug

Tutte i linguaggi di programmazione
- Correzione di un problema relativo alla crittografia dei modelli di riconoscimento vocale incorporati.

Speech SDK 1.24.1: versione di novembre 2022

Nuove funzionalità

Pacchetti pubblicati per l'anteprima di Riconoscimento vocale incorporato. Per altre informazioni, vedere https://aka.ms/embedded-speech.

Correzioni di bug

Tutte i linguaggi di programmazione
- Correzione dell'arresto anomalo del sistema TTS incorporato quando il carattere voce non è supportato
- Correzione di stopSpeaking() non può interrompere la riproduzione in Linux (#1686)
JavaScript SDK
- Correzione della regressione nel modo in cui la trascrizione conversazione ha determinato l'audio.
Java
- I file POM e Javadocs aggiornati pubblicati temporaneamente in Maven Central consentono alla pipeline docs di aggiornare la documentazione di riferimento online.
Python
- Correzione della regressione in cui Python speak_text/ssml restituisce void.

Speech SDK 1.24.0: versione di ottobre 2022

Nuove funzionalità

Tutti i linguaggi di programmazione: AMR-WB (16khz) aggiunto all'elenco supportato di formati di output audio di sintesi vocale
Python: pacchetto aggiunto per Linux ARM64 per le distribuzioni Linux supportate.
C#/C++/Java/Python: supporto aggiunto per lo streaming diretto ALAW & MULAW al servizio voce (oltre al flusso PCM esistente) usando AudioStreamWaveFormat.
MAUI C#: pacchetto NuGet aggiornato per supportare le destinazioni Android per sviluppatori di MAUI .NET (problema del cliente)
Mac: aggiunta di XCframework separati per Mac, che non contiene file binari iOS. Questo offre un'opzione agli sviluppatori che necessitano solo di file binari Mac usando un pacchetto XCframework più piccolo.
Microsoft Audio Stack (MAS):
- Se si specificano angoli di forma del fascio, il suono proveniente all'esterno dell'intervallo specificato verrà eliminato meglio.
- Riduzione approssimativa del 70% delle dimensioni di libMicrosoft.CognitiveServices.Speech.extension.mas.so per Linux ARM32 e Linux ARM64.
Riconoscimento finalità usando criteri di ricerca:
- Aggiungere il supporto ortografico per le lingue fr, de, es, jp
- Aggiunta del supporto integer predefinito per la lingua es.

Correzioni di bug

iOS: correzione dell'errore di sintesi vocale in iOS 16 causato da un errore di decodifica audio compressa (problema del cliente).
JavaScript:
- Correzione del token di autenticazione che non funziona durante il recupero dell'elenco voce di sintesi vocale (problema del cliente).
- Usare l'URL dei dati per il caricamento del ruolo di lavoro (problema del cliente).
- Creare il worklet del processore audio solo quando AudioWorklet è supportato nel browser (problema del cliente). Questo è stato un contributo della comunità di William Wong. Grazie William!
- Correzione del callback riconosciuto quando connectionMessage di risposta LUIS è vuoto (problema del cliente).
- Impostare correttamente il timeout di segmentazione del parlato.
Riconoscimento finalità usando criteri di ricerca:
- I caratteri non JSON all'interno dei modelli verranno ora caricati correttamente.
- Correzione del problema blocco quando recognizeOnceAsync(text) è stato chiamato durante il riconoscimento continuo.

Speech SDK 1.23.0: versione di luglio 2022

Nuove funzionalità

C#, C++, Java: aggiunta del supporto per le lingue zh-cn e zh-hk nel riconoscimento finalità con criteri di ricerca.
C#: aggiunta del supporto per le build di .NET Framework AnyCPU

Correzioni di bug

Android: correzione della vulnerabilità OpenSSL CVE-2022-2068 aggiornando OpenSSL alla versione 1.1.1q
Python: correzione dell'arresto anomalo quando si usa PushAudioInputStream
iOS: correzione di "EXC_BAD_ACCESS: tentativo di dereferenziare il puntatore Null" come segnalato in iOS (problema di GitHub)

Speech SDK 1.22.0: versione di giugno 2022

Nuove funzionalità

Java: API IntentRecognitionResult per getEntities(), applyLanguageModels() e recognizeOnceAsync(text) aggiunto per supportare il motore "criteri di ricerca semplice".
Unity: aggiunta del supporto per Mac M1 (Apple Silicon) per il pacchetto Unity (problema di GitHub)
C#: aggiunta del supporto per x86_64 per Xamarin Android (problema di GitHub)
C#: versione minima di .NET Framework aggiornata al pacchetto V4.6.2 per SDK C# in quanto v4.6.1 è stata ritirata (vedere Criteri relativi al ciclo di vita dei componenti di Microsoft .NET Framework)
Linux: aggiunta del supporto per Debian 11 e Ubuntu 22.04 LTS. Ubuntu 22.04 LTS richiede l'installazione manuale di libssl1.1 sia come pacchetto binario da qui (ad esempio, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb o versione successiva per x64) o tramite la compilazione da origini.

Correzioni di bug

Piattaforma UWP: dipendenza OpenSSL rimossa dalle librerie UWP e sostituita con websocket WinRT e API HTTP per soddisfare la conformità della sicurezza e il footprint binario più piccolo.
Mac: correzione del problema "MicrosoftCognitiveServicesSpeech Module Not Found" quando si usano progetti Swift destinati alla piattaforma macOS
Windows, Mac: è stato risolto un problema specifico della piattaforma per cui le origini audio configurate tramite proprietà per lo streaming a una velocità in tempo reale a volte diminuivano e alla fine oltrepassavano la capacità

Esempi (GitHub)

C#: esempi di .NET Framework aggiornati per l'uso della versione 4.6.2
Unity: esempio di assistente virtuale risolto per Android e UWP
Unity: esempi di Unity aggiornati per Unity versione LTS 2020

Speech SDK 1.21.0: versione di aprile 2022

Nuove funzionalità

Java & JavaScript: aggiunta del supporto per l'identificazione continua della lingua quando si usa l'oggetto SpeechRecognizer
JavaScript: aggiunta di API di diagnostica per abilitare la registrazione dei file a livello di registrazione della console e (solo nodo) per risolvere i problemi segnalati dai clienti da Microsoft
Python: aggiunta del supporto per la trascrizione conversazione
Go: aggiunta del supporto per il riconoscimento del parlante
C++ & C#: aggiunta del supporto per un gruppo obbligatorio di parole in Riconoscimento finalità (criteri di ricerca semplici). Ad esempio: "(set|start|begin) un timer" in cui "set", "start" o "begin" devono essere presenti per la finalità da riconoscere.
Tutti i linguaggi di programmazione, Sintesi vocale: aggiunta della proprietà duration negli eventi confine di parola. Aggiunta del supporto per il limite di punteggiatura e di frase
Objective-C/Swift/Java: aggiunta di risultati a livello di parola nell'oggetto risultato della valutazione della pronuncia (simile a C#). L'applicazione non deve più analizzare una stringa di risultati JSON per ottenere informazioni a livello di parola (problema di GitHub)
Piattaforma iOS: aggiunta del supporto sperimentale per l'architettura ARMv7

Correzioni di bug

Piattaforma iOS: correzione per consentire la compilazione per la destinazione "Qualsiasi dispositivo iOS", quando si usa CocoaPod (problema di GitHub)
Piattaforma Android: la versione di OpenSSL è stata aggiornata alla versione 1.1.1n per correggere la vulnerabilità di sicurezza CVE-2022-0778
JavaScript: correzione del problema a causa del quale l'intestazione wav non è stata aggiornata con le dimensioni del file (problema di GitHub)
JavaScript: correzione di scenari di conversione che causano l'interruzione dell'ID richiesta (problema di GitHub)
JavaScript: correzione del problema durante la creazione di istanze di SpeakerAudioDestination senza flusso (problema di GitHub]
C++: correggere le intestazioni C++ per rimuovere un avviso durante la compilazione per C++17 o versione successiva

Esempi GitHub

Nuovi esempi di Java per il riconoscimento vocale con identificazione della lingua
Nuovi esempi di Python e Java per la trascrizione conversazione
Nuovo esempio di Go per il riconoscimento del parlante
Nuovo strumento C++ e C# per Windows che enumera tutti i dispositivi di acquisizione e rendering audio, per trovare l'ID dispositivo. Questo ID è necessario per Speech SDK se si prevede di acquisire audio da o eseguire il rendering dell'audio in un dispositivo non predefinito.

Speech SDK 1.20.0: versione di gennaio 2022

Nuove funzionalità

Objective-C, Swift e Python: aggiunta del supporto per DialogServiceConnector, usato per gli scenari di Assistente vocale.
Python: è stato aggiunto il supporto per Python 3.10. Il supporto per Python 3.6 è stato rimosso, per il fine vita della versione 3.6 di Python.
Unity: Speech SDK è ora supportato per le applicazioni Unity in Linux.
C++, C#: IntentRecognizer con criteri di ricerca è ora supportato in C#. Inoltre, gli scenari con entità personalizzate, gruppi facoltativi e ruoli di entità sono ora supportati in C++ e C#.
C++, C#: miglioramento della registrazione delle tracce di diagnostica con nuove classi FileLogger, MemoryLogger e EventLogger. I log SDK sono uno strumento importante per Microsoft per diagnosticare i problemi segnalati dai clienti. Queste nuove classi semplificano l'integrazione dei log di Speech SDK nel proprio sistema di registrazione.
Tutti i linguaggi di programmazione: PronunciationAssessmentConfig ora dispone di proprietà per impostare l'alfabeto fonema desiderato (IPA o SAPI) e il numero N-Best Phoneme (evitando la necessità di creare un codice JSON di configurazione in base al problema di GitHub 1284). Inoltre, ora è supportato l'output a livello di sillabe.
Android, iOS e macOS (tutti i linguaggi di programmazione): non è più necessario GStreamer per supportare reti con larghezza di banda limitata. SpeechSynthesizer usa ora le funzionalità di decodifica audio del sistema operativo per decodificare l'audio compresso trasmesso dal servizio di sintesi vocale.
Tutti i linguaggi di programmazione: SpeechSynthesizer supporta ora tre nuovi formati Opus di output non elaborati (senza contenitore), ampiamente usati negli scenari di streaming live.
JavaScript: aggiunta dell'API getVoicesAsync() a SpeechSynthesizer per recuperare l'elenco delle voci di sintesi supportate (problema di GitHub 1350)
JavaScript: aggiunta dell'API getWaveFormat() a AudioStreamFormat per supportare formati d'onda non PCM (problema GitHub 452)
JavaScript: aggiunta di api volume getter/setter e mute()/unmute() a SpeakerAudioDestination (problema di GitHub 463)

Correzioni di bug

C++, C#, Java, JavaScript, Objective-C e Swift: correzione per rimuovere un ritardo di 10 secondi durante l'arresto di un riconoscimento vocale che usa PushAudioInputStream. Questo è per il caso in cui non viene eseguito il push di nuovi audio dopo la chiamata a StopContinuousRecognition (problemi di GitHub 1318, 331)
Unity in Android e piattaforma UWP: i meta file Unity sono stati corretti per UWP, Android ARM64 e sottosistema Windows per Android (WSA) ARM64 (problema di GitHub 1360)
iOS: la compilazione dell'applicazione Speech SDK in qualsiasi dispositivo iOS quando si usa CocoaPods è stata risolta (problema di GitHub 1320)
iOS: quando SpeechSynthesizer è configurato per l'output audio direttamente in un altoparlante, la riproduzione si arresta all'inizio in rare condizioni. Il problema è stato risolto.
JavaScript: usare il fallback del processore di script per l'input del microfono se non viene trovato alcun worklet audio (problema di GitHub 455)
JavaScript: aggiungere protocollo all'agente per mitigare i bug rilevati con l'integrazione di Sentry (problema di GitHub 465)

Esempi GitHub

C++, C#, Python ed esempi Java che illustrano come ottenere risultati di riconoscimento dettagliati. I dettagli includono risultati di riconoscimento alternativo, punteggio di attendibilità, forma lessicale, modulo normalizzato, modulo normalizzato mascherato, con tempi a livello di parola per ciascuno.
Esempio iOS aggiunto usando AVFoundation come origine audio esterna.
Esempio Java aggiunto per mostrare come ottenere il formato SRT (SubRip Text) usando l'evento WordBoundary.
Esempi Android per la valutazione della pronuncia.
C++, C# che mostra l'utilizzo delle nuove classi di registrazione diagnostica.

Speech SDK 1.19.0: versione di novembre 2021

Caratteristiche principali

Il servizio Riconoscimento del parlante è ora in disponibilità generale. Le API Speech SDK sono disponibili in C++, C#, Java e JavaScript. Grazie al riconoscimento del parlante, è possibile verificare e identificare accuratamente i parlanti in base alle loro caratteristiche vocali uniche. Per altre informazioni su questo argomento, vedere la documentazione.
È stato eliminato il supporto per Ubuntu 16.04 insieme ad Azure DevOps e GitHub. Ubuntu 16.04 ha raggiunto il fine vita ad aprile 2021. Eseguire la migrazione dei flussi di lavoro di Ubuntu 16.04 a Ubuntu 18.04 o versioni successive.
Il collegamento OpenSSL nei file binari Linux è cambiato in dinamico. Le dimensioni binarie di Linux sono state ridotte di circa il 50%.
È stato aggiunto il supporto del processore basato su ARM Mac M1.

Nuove funzionalità

C++/C#/Java: nuove API aggiunte per abilitare il supporto dell'elaborazione audio per l'input vocale con Microsoft Audio Stack. Documentazione disponibile qui.
C++: nuove API per il riconoscimento finalità per facilitare criteri di ricerca più avanzati. Sono incluse le entità List e Prebuilt Integer, nonché il supporto per il raggruppamento di finalità ed entità come modelli (documentazione, aggiornamenti ed esempi sono in fase di sviluppo e verranno pubblicati prossimamente).
Mac: supporto per il processore basato su ARM64 (M1) per i pacchetti CocoaPod, Python, Java e NuGet correlati al problema di GitHub 1244.
iOS/Mac: i file binari iOS e macOS sono ora inseriti in pacchetti xcframework correlati al problema di GitHub 919.
iOS/Mac: supporto per Mac Catalyst al problema di GitHub 1171.
Linux: nuovo pacchetto tar aggiunto per CentOS7 Informazioni su Speech SDK. Il pacchetto .tar Linux ora contiene librerie specifiche per RHEL/CentOS 7 in lib/centos7-x64. Le librerie speech SDK in lib/x64 sono ancora applicabili a tutte le altre distribuzioni Linux x64 supportate (anche RHEL/CentOS 8) e non funzioneranno in RHEL/CentOS 7.
JavaScript: API VoiceProfile & SpeakerRecognizer rese asincrone/awaitable.
JavaScript: aggiunta del supporto per le aree di Azure per enti pubblici degli Stati Uniti.
Windows: aggiunta del supporto per la riproduzione nella piattaforma UWP (Universal Windows Platform).

Correzioni di bug

Android: aggiornamento della sicurezza OpenSSL (aggiornato alla versione 1.1.1l) per pacchetti Android.
Python: bug risolto in cui la selezione del dispositivo altoparlante in Python ha esito negativo.
Core: riconnessione automatica quando un tentativo di connessione non riesce.
iOS: compressione audio disabilitata nei pacchetti iOS a causa di problemi di instabilità e compilazione bitcode quando si usa GStreamer. I dettagli sono disponibili tramite il problema di GitHub 1209.

Esempi GitHub

Mac/iOS: esempi aggiornati e guide introduttive per l'uso del pacchetto xcframework.
.NET: esempi aggiornati per l'uso della versione .NET Core 3.1.
JavaScript: aggiunta dell'esempio per gli assistenti vocali.

Speech SDK 1.18.0: versione di luglio 2021

Nota: per iniziare a usare Speech SDK qui.

Riepilogo delle evidenziazioni

Ubuntu 16.04 ha raggiunto il fine vita nel mese di aprile 2021. Con Azure DevOps e GitHub, il supporto verrà interrotto per la versione 16.04 di settembre 2021. Prima di allora, eseguire la migrazione dei flussi di lavoro ubuntu-16.04 a ubuntu-18.04 o versioni successive.

Nuove funzionalità

C++: i criteri di linguaggio semplici corrispondenti allo strumento di riconoscimento finalità ora semplificano l'implementazione di scenari di riconoscimento finalità semplici.
C++/C#/Java: è stata aggiunta una nuova API, GetActivationPhrasesAsync() alla classe VoiceProfileClient per ricevere un elenco di frasi di attivazione valide nella fase di Registrazione riconoscimento del parlante per scenari di riconoscimento indipendenti.
- Importante: la funzionalità Riconoscimento del parlante è disponibile in anteprima. Tutti i profili vocali creati in anteprima verranno sospesi 90 giorni dopo che la funzionalità Riconoscimento del parlante viene spostata dall'anteprima in Disponibilità generale. A questo punto, i profili voce di anteprima smetteranno di funzionare.
Python: aggiunta del supporto per Identificazione della lingua continua (LID) negli oggetti SpeechRecognizer e TranslationRecognizer esistenti.
Python: aggiunta di un nuovo oggetto Python denominato SourceLanguageRecognizer per eseguire un'unica LID (senza riconoscimento o traduzione).
JavaScript: API getActivationPhrasesAsync aggiunta alla classe VoiceProfileClient per ricevere un elenco di frasi di attivazione valide nella fase di registrazione Riconoscimento del parlante per scenari di riconoscimento indipendenti.
APIenrollProfileAsyncdi JavaScriptVoiceProfileClient è ora async awaitable. Vedere questo codice di identificazione indipendente, ad esempio utilizzo.

Miglioramenti

Java: supporto AutoCloseable aggiunto a molti oggetti Java. Il modello try-with-resources è ora supportato per le risorse. Vedere questo esempio che usa try-with-resources. Per informazioni su questo criterio, vedere anche l'esercitazione sulla documentazione di Oracle Java per Istruzione try-with-resources.
Il footprint del disk è stato notevolmente ridotto per molte piattaforme e architetture. Esempi per il file binario Microsoft.CognitiveServices.Speech.core: x64 Linux è minore di 475 kB (riduzione dell'8,0%) piattaforma UWP di Windows ARM64 è minore di 464 kB (riduzione del 11,5%) Windows x86 è minore di 343 kB (riduzione del 17,5%) e x64 Windows è minore di 451 kB (riduzione del 19,4%).

Correzioni di bug

Java: correzione dell'errore di sintesi quando il testo di sintesi contiene caratteri surrogati. Per i dettagli, vedere qui.
JavaScript: l'elaborazione audio del microfono del browser ora usa AudioWorkletNode anziché ScriptProcessorNode, deprecato. Per i dettagli, vedere qui.
JavaScript: mantenere correttamente attive le conversazioni durante gli scenari di traduzione delle conversazioni a esecuzione prolungata. Per i dettagli, vedere qui.
JavaScript: è stato risolto un problema relativo alla riconnessione dello strumento di riconoscimento a un flusso multimediale nel riconoscimento continuo. Per i dettagli, vedere qui.
JavaScript: è stato risolto un problema relativo alla riconnessione del riconoscimento a un pushStream nel riconoscimento continuo. Per i dettagli, vedere qui.
JavaScript: correzione del calcolo dell'offset a livello di parola nei risultati dettagliati del riconoscimento. Per i dettagli, vedere qui.

Esempi

Esempi di avvio rapido Java aggiornati qui.
Esempi di riconoscimento del parlante JavaScript aggiornati per mostrare un nuovo utilizzo di enrollProfileAsync(). Vedere gli esempi qui.

Speech SDK 1.17.0: versione di maggio 2021

Nota

Attività iniziali per l’uso di Speech SDK qui.

Riepilogo delle evidenziazioni

Footprint più piccolo: si continua a ridurre la memoria e il footprint del disco di Speech SDK e dei relativi componenti.
Una nuova API di identificazione della lingua autonoma consente di riconoscere la lingua che viene parlata.
Sviluppare applicazioni di gioco e di realtà mista abilitate per il riconoscimento vocale usando Unity in macOS.
È ora possibile usare la sintesi vocale oltre al riconoscimento vocale dal linguaggio di programmazione Go.
Diverse correzioni di bug per risolvere i problemi che gli UTENTI, nostri stimati clienti, hanno contrassegnato su GitHub! GRAZIE! Continua a inviare commenti e suggerimenti!

Nuove funzionalità

C++/C#: nuovo in Rilevamento lingua autonomo all’avvio e continuo tramite l'API SourceLanguageRecognizer. Se si desidera solo rilevare le lingue pronunciate nel contenuto audio, questa è l'API da usare. Vedere i dettagli per C++ e C#.
C++/C#: riconoscimento vocale e riconoscimento della traduzione ora supportano identificazione della lingua sia all’avvio che continuativo, in modo da poter determinare a livello di programmazione quali lingue vengono parlate prima che siano trascritte o tradotte. Vedere la documentazione qui per riconoscimento vocale e qui per la traduzione vocale.
C#: aggiunta del supporto per Unity a macOS (x64). Questo sblocca i casi d'uso di riconoscimento vocale e sintesi vocale nella realtà mista e nei giochi!
Go: è stato aggiunto il supporto per la sintesi vocale al linguaggio di programmazione Go per renderla disponibile in altri casi d'uso. Vedere avvio rapido documentazione di riferimento.
C++/C#/Java/Python/Objective-C/Go: il sintetizzatore vocale ora supporta l'oggetto connection. Questo consente di gestire e monitorare la connessione al servizio Voce ed è particolarmente utile per la pre-connessione per ridurre la latenza. Vedere la documentazione qui.
C++/C#/Java/Python/Objective-C/Go: viene ora esposta la latenza e il tempo di sottocarico in SpeechSynthesisResult per monitorare e diagnosticare i problemi di latenza di sintesi vocale. Vedere i dettagli per C++, C#, Java, Python, Objective-C e Go.
C++/C#/Java/Python/Objective-C: la sintesi vocale ora usa le voci neurali per impostazione predefinita quando non si specifica una voce da usare. In questo modo si ottiene, per impostazione predefinita, un output di fedeltà maggiore; tuttavia aumenta anche il prezzo predefinito. È possibile specificare una tra oltre 70 voci standard o oltre 130 voci neurali per modificare il valore predefinito.
C++/C#/Java/Python/Objective-C/Go: è stata aggiunta una proprietà Gender alle informazioni vocali di sintesi per semplificare la selezione delle voci in base al genere. Questo risolve il problema di GitHub #1055.
C++, C#, Java, JavaScript: ora è supportato retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync e getAllProfilesAsync() in Riconoscimento del parlante per semplificare la gestione degli utenti di tutti i profili vocali per un determinato account. Vedere la documentazione per C++, C#, Java, JavaScript. Questo risolve il problema di GitHub #338.
JavaScript: è stato aggiunto un nuovo tentativo per gli errori di connessione che renderanno più solide le applicazioni vocali basate su JavaScript.

Miglioramenti

I file binari di Linux e Android Speech SDK sono stati aggiornati per usare la versione più recente di OpenSSL (1.1.1k)
Miglioramenti delle dimensioni del codice:
- Language Understanding è ora suddiviso in una libreria "lu" separata.
- Le dimensioni binarie di Windows x64 core sono diminuite del 14,4%.
- Le dimensioni binarie core di Android ARM64 sono diminuite del 13,7%.
- sono diminuite le dimensioni anche di altri componenti.

Correzioni di bug

Tutti: è stato risolto il problema di GitHub #842 per ServiceTimeout. È ora possibile trascrivere file audio lunghi usando Speech SDK senza la connessione al servizio che termina con questo errore. Tuttavia, è comunque consigliabile usare la trascrizione batch per i file lunghi.
C#: è stato risolto il problema di GitHub #947 in cui nessun input vocale poteva lasciare l'app in uno stato non valido.
Java: correzione del problema di GitHub #997 in cui Speech SDK per Java 1.16 si arresta in modo anomalo quando si usa DialogServiceConnector senza una connessione di rete o una chiave di sottoscrizione non valida.
Correzione di un arresto anomalo del sistema quando arresta bruscamente il riconoscimento vocale (ad esempio, usando CTRL+C nell'app console).
Java: è stata aggiunta una correzione per eliminare i file temporanei in Windows quando si usa Speech SDK per Java.
Java: è stato risolto il problema di GitHub #994 in cui la chiamata DialogServiceConnector.stopListeningAsync potrebbe generare un errore.
Java: è stato risolto un problema del cliente nell'avvio rapido dell'assistente virtuale.
JavaScript: è stato risolto il problema di GitHub #366 in cui ConversationTranslator generava errore 'this.cancelSpeech isn't a function'.
JavaScript: è stato risolto il problema di GitHub #298 in cui l'esempio di 'Get result as an in-memory stream' riproduceva il suono ad alta voce.
JavaScript: è stato risolto il problema di GitHub #350 in cui la chiamata a AudioConfig potrebbe causare un errore 'ReferenceError: MediaStream isn't defined'.
JavaScript: correzione di un avviso UnhandledPromiseRejection in Node.js per sessioni con esecuzione prolungata.

Esempi

La documentazione degli esempi di Unity aggiornata per macOS qui.
È ora disponibile un esempio React Native per il servizio riconoscimento vocale di Voce di Azure AI qui.

Speech SDK 1.16.0: versione di marzo 2021

Nota

Speech SDK in Windows dipende dalla condivisione di Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019. Scaricarla qui.

Nuove funzionalità

C++/C#/Java/Python: spostato nella versione più recente di GStreamer (1.18.3) per aggiungere il supporto per la trascrizione di qualsiasi formato multimediale in Windows, Linux e Android. Vedere la documentazione qui.
C++/C#/Java/Objective-C/Python: aggiunta del supporto per la decodifica dell'audio TTS/sintetizzato compresso nell'SDK. Se si imposta il formato audio di output su PCM e GStreamer è disponibile nel sistema, l'SDK richiederà automaticamente l'audio compresso dal servizio per risparmiare larghezza di banda e decodificare l'audio nel client. Per disabilitare questa funzionalità, è possibile impostare SpeechServiceConnection_SynthEnableCompressedAudioTransmission su false. Dettagli per C++, C#, Java, Objective-C, Python.
JavaScript: Node.js gli utenti possono ora usare l’AudioConfig.fromWavFileInputAPI. Questo risolve il problema di GitHub #252.
C++/C#/Java/Objective-C/Python: aggiunta del metodo GetVoicesAsync() per TTS per restituire tutte le voci di sintesi disponibili. Dettagli per C++, C#, Java, Objective-C e Python.
C++/C#/Java/JavaScript/Objective-C/Python: aggiunta dell'evento VisemeReceived per la sintesi vocale/TTS per restituire l'animazione visema sincrona. Vedere la documentazione qui.
C++/C#/Java/JavaScript/Objective-C/Python: aggiunta dell'evento BookmarkReached per TTS. È possibile impostare i segnalibri nel file SSML di input e ottenere gli scostamenti audio per ogni segnalibro. Vedere la documentazione qui.
Java: aggiunta del supporto per le API di riconoscimento del parlante. Per i dettagli, vedere qui.
C++/C#/Java/JavaScript/Objective-C/Python: aggiunta di due nuovi formati audio di output con contenitore WebM per TTS (Webm16Khz16BitMonoOpus e Webm24Khz16BitMonoOpus). Questi sono formati migliori per lo streaming audio con codec Opus. Dettagli per C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: aggiunta del supporto per il recupero del profilo vocale per lo scenario di Riconoscimento del parlante. Dettagli per C++, C#e Java.
C++/C#/Java/Objective-C/Python: aggiunta del supporto per una libreria condivisa separata per il microfono audio e il controllo altoparlante. In questo modo lo sviluppatore può usare l'SDK in ambienti che non hanno dipendenze necessarie per la libreria audio.
Objective-C/Swift: aggiunta del supporto per il framework del modulo con l'intestazione Umbrella. Questo consente allo sviluppatore di importare Speech SDK come modulo nelle app Objective-C/Swift iOS/Mac. Questo risolve il problema di GitHub #452.
Python: aggiunta del supporto per Python 3.9 ed è stato eliminato il supporto per Python 3.5 per il fine vita di Python per 3.5.

Problemi noti

C++/C#/Java: DialogServiceConnector non può usare un CustomCommandsConfig per accedere a un'applicazione comandi personalizzati e verrà invece visualizzato un errore di connessione. Questa operazione può essere eseguita aggiungendo manualmente l'ID applicazione alla richiesta con config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Il comportamento previsto di CustomCommandsConfig verrà ripristinato nella versione successiva.

Miglioramenti

Nell'ambito del nostro impegno multi-rilascio per ridurre l'utilizzo della memoria e il footprint del disco di Speech SDK, i file binari Android sono ora più piccoli dal 3% al 5%.
Miglioramento di accuratezza, leggibilità e sezioni della documentazione di riferimento per C# qui.

Correzioni di bug

JavaScript: le intestazioni di file WAV di grandi dimensioni vengono ora analizzate correttamente (aumenta la sezione dell'intestazione a 512 byte). Questo risolve il problema di GitHub #962.
JavaScript: correzione del problema di temporizzazione del microfono se il flusso del microfono termina prima di arrestare il riconoscimento, risolvendo un problema con il riconoscimento vocale che non funziona in Firefox.
JavaScript: ora viene gestita correttamente la promessa di inizializzazione dell’handle quando il browser forza la disattivazione del microfono prima del completamento di turnOn.
JavaScript: è stata sostituita la dipendenza dell'URL con url-parse. Questo risolve il problema di GitHub #264.
Android: i callback fissi non funzionano quando minifyEnabled è impostato su true.
C++/C#/Java/Objective-C/Python: TCP_NODELAY verrà impostato correttamente sul socket I/O sottostante per TTS per ridurre la latenza.
C++/C#/Java/Python/Objective-C/Go: correzione di un arresto anomalo del sistema occasionale quando il riconoscimento è stato eliminato subito dopo l'avvio di un riconoscimento.
C++/C#/Java: correzione di un arresto anomalo del sistema occasionale nella distruzione del riconoscimento del parlante.

Esempi

JavaScript: esempi del browser non richiedono più il download del file di libreria JavaScript separato.

Speech SDK 1.15.0: versione di gennaio 2021

Nota

Speech SDK in Windows dipende dalla condivisione di Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019. Scaricarla qui.

Riepilogo delle evidenziazioni

Memoria e footprint del disco più ridotti rendono l'SDK più efficiente.
Formati di output con fedeltà superiore disponibili per l'anteprima privata della voce neurale personalizzata.
Riconoscimento finalità può ora ottenere un risultato maggiore rispetto alla finalità principale, offrendo la possibilità di eseguire una valutazione separata sulla finalità del cliente.
Gli assistenti vocali e i bot sono ora più facili da configurare ed è possibile impedirne immediatamente l'ascolto ed esercitare un maggiore controllo sulla modalità di risposta agli errori.
Miglioramento delle prestazioni dei dispositivi grazie alla compressione facoltativa.
Usare Speech SDK in Windows ARM/ARM64.
Miglioramento del debug di basso livello.
La funzionalità di valutazione della pronuncia è ora più ampiamente disponibile.
Diverse correzioni di bug per risolvere i problemi che gli UTENTI, nostri stimati clienti, hanno contrassegnato su GitHub! GRAZIE! Continua a inviare commenti e suggerimenti!

Miglioramenti

Speech SDK è ora più efficiente e leggero. È stato avviato uno lavoro richiesto multi-rilascio per ridurre l'utilizzo della memoria e il footprint del disco di Speech SDK. Come primo passo sono state apportate riduzioni significative delle dimensioni dei file nelle librerie condivise nella maggior parte delle piattaforme. Rispetto alla versione 1.14:
- Le librerie Windows compatibili con la piattaforma UWP a 64 bit sono circa il 30% più piccole.
- Per le librerie Windows a 32 bit non si vede ancora un miglioramento delle dimensioni.
- Le librerie Linux sono ridotte del 20-25%.
- Le librerie Android sono ridotte del 3-5%.

Nuove funzionalità

Tutto: nuovi formati di output a 48 KHz disponibili per l'anteprima privata della voce neurale personalizzata tramite l'API di sintesi vocale TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Tutto: la voce personalizzata è anche più semplice da usare. Aggiunta del supporto per l'impostazione della voce personalizzata tramite EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Prima di questa modifica, gli utenti voce personalizzati devono impostare l'URL dell'endpoint tramite il metodoFromEndpoint. Ora i clienti possono usare il metodo FromSubscription proprio come le voci predefinite e quindi specificare l'ID di distribuzione impostando EndpointId. Questo semplifica la configurazione di voci personalizzate.
C++/C#/Java/Objective-C/Python: ottenere più della finalità principale daIntentRecognizer. Supporta ora la configurazione del risultato JSON contenente tutte le finalità e non solo la finalità di punteggio principale tramite il metodo LanguageUnderstandingModel FromEndpoint usando il parametro URIverbose=true. Questo risolve il problema di GitHub #880. Vedere la documentazione aggiornata qui.
C++/C#/Java: far sì che l'assistente vocale o il bot arrestino immediatamente l'ascolto. DialogServiceConnector (C++, C#, Java) ha ora un metodo StopListeningAsync() per accompagnare ListenOnceAsync(). Questo arresterà immediatamente l'acquisizione audio e attenderà normalmente un risultato, rendendolo perfetto per l'uso con scenari di pressione del pulsante "stop now".
C++/C#/Java/JavaScript: far sì che l'assistente vocale o il bot reagiscano meglio agli errori di sistema sottostanti. DialogServiceConnector (C++, C#, Java, JavaScript) include ora un nuovo gestore eventi TurnStatusReceived. Questi eventi facoltativi corrispondono a ogni risoluzione ITurnContext nel bot e segnalano errori di esecuzione quando si verificano, ad esempio, a causa di un'eccezione, un timeout o un rilascio di rete non gestiti tra Direct Line Speech e il bot. TurnStatusReceived semplifica la risposta alle condizioni di errore. Ad esempio, se un bot richiede troppo tempo su una query di database back-end (ad esempio, la ricerca di un prodotto), TurnStatusReceived fa sì che il client lo sappia per ripetere la richiesta con "spiacente, non ho capito bene, potrebbe essere necessario riprovare" o qualcosa di simile.
C++/C#: usare Speech SDK in più piattaforme. Il pacchetto NuGet di Speech SDK ora supporta file binari nativi di Windows ARM/ARM64 (la piattaforma UWP è già supportata) per rendere Speech SDK più utile su più tipi di computer.
Java: DialogServiceConnector ora include un metodo setSpeechActivityTemplate() che in precedenza era involontariamente escluso dal linguaggio. Equivale a impostare la proprietà Conversation_Speech_Activity_Template e richiederà che tutte le future attività di Bot Framework originate dal servizio Direct Line Speech uniscano il contenuto fornito nei payload JSON.
Java: è stato migliorato il debug di basso livello. La classe Connection include ora un evento MessageReceived, simile ad altri linguaggi di programmazione (C++, C#). Questo evento offre accesso di basso livello ai dati in ingresso dal servizio e può essere utile per la diagnostica e il debug.
JavaScript: configurazione semplificata per assistenti vocali e bot tramite BotFrameworkConfig, che ora include i metodi factory fromHost() e fromEndpoint(), i quali semplificano l'uso di posizioni del servizio personalizzate rispetto all'impostazione manuale delle proprietà. È stata standardizzata anche la specifica facoltativa di botId per usare un bot non predefinito nelle factory di configurazione.
JavaScript: miglioramento delle prestazioni del dispositivo tramite la proprietà di controllo stringa aggiunta per la compressione WebSocket. Per motivi di prestazioni, la compressione websocket è stata disabilitata per impostazione predefinita. Può essere riabilitato per scenari a larghezza di banda ridotta. Altri dettagli sono disponibili qui. Questo risolve il problema di GitHub #242.
JavaScript: aggiunta del supporto per la valutazione lPronunciation per abilitare la valutazione della pronuncia vocale. Vedere la guida introduttiva qui.

Correzioni di bug

Tutto (ad eccezione di JavaScript): correzione di una regressione nella versione 1.14, in cui la memoria era allocata dal riconoscitore.
C++: è stato risolto un problema di Garbage Collection con DialogServiceConnector, risolvendo il problema di GitHub #794.
C#: è stato risolto un problema relativo all'arresto del thread che causava il blocco degli oggetti per circa un secondo, quando viene eliminato.
C++/C#/Java: correzione di un'eccezione che impedisce a un'applicazione di impostare il token di autorizzazione vocale o il modello di attività più volte in un DialogServiceConnector.
C++/C#/Java: correzione di un arresto anomalo del sistema di riconoscimento a causa di una race condition in fase di disinstallazione.
JavaScript: DialogServiceConnector non rispettava in precedenza il parametro facoltativo botId specificato nelle factory di BotFrameworkConfig. Questo ha reso necessario impostare manualmente il parametro della stringa di query botId per usare un bot non predefinito. Il bug è stato corretto e i valori botId forniti alle factory di BotFrameworkConfig verranno rispettati e usati, inclusi i nuovi aggiunti fromHost() e fromEndpoint(). Questo vale anche per il parametro applicationId per CustomCommandsConfig.
JavaScript: è stato risolto il problema di GitHub #881, consentendo il riutilizzo dell’oggetto di riconoscimento.
JavaScript: è stato risolto un problema per cui SKD inviava speech.config più volte in una sessione TTS, sprecando la larghezza di banda.
JavaScript: gestione semplificata degli errori sull'autorizzazione del microfono, consentendo un messaggio più descrittivo quando l'utente non ha consentito l'input del microfono nel proprio browser.
JavaScript: è stato risolto il problema di GitHub #249 in cui gli errori di tipo in ConversationTranslator e ConversationTranscriber causavano un errore di compilazione per gli utenti TypeScript.
Objective-C: è stato risolto un problema per cui la build GStreamer non è riuscita per iOS in Xcode 11.4, risolvendo il problema di GitHub #911.
Python: è stato risolto il problema di GitHub #870, rimuovendo "DeprecationWarning: the imp module is deprecated in favor of importlib".

Esempi

Esempio da file per il browser JavaScript ora usa i file per il riconoscimento vocale. Questo risolve il problema di GitHub #884.

Speech SDK 1.14.0: versione di ottobre 2020

Nota

Speech SDK in Windows dipende dalla condivisione di Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019. Scaricarla qui.

Nuove funzionalità

Linux: aggiunta del supporto per Debian 10 e Ubuntu 20.04 LTS.
Python/Objective-C: aggiunta del supporto per l'API KeywordRecognizer. La documentazione sarà disponibile qui.
C++/Java/C#: aggiunta del supporto per impostare qualsiasi chiave/valore HttpHeader tramite ServicePropertyChannel::HttpHeader.
JavaScript: aggiunta del supporto per l'API ConversationTranscriber. La documentazione è disponibile qui.
C++/C#: aggiunta di un nuovo metodo AudioDataStream FromWavFileInput (per leggere i file .WAV) qui (C++) e qui (C#).
C++/C#/Java/Python/Objective-C/Swift: aggiunta di un metodo stopSpeakingAsync() per arrestare la sintesi vocale. Leggere la documentazione di riferimento qui (C++), qui (C#), qui (Java), qui (Python) e qui (Objective-C/Swift).
C#, C++, Java: aggiunta di una funzione FromDialogServiceConnector() alla classe Connection che può essere usata per monitorare gli eventi di connessione e disconnessione per DialogServiceConnector. Leggere la documentazione di riferimento qui (C#), qui (C++) e qui (Java).
C++/C#/Java/Python/Objective-C/Swift: aggiunta del supporto per la valutazione della pronuncia, che valuta la pronuncia del parlato e fornisce commenti e suggerimenti per l'accuratezza e la fluidità dell'audio parlato. Leggi la documentazione, disponibile qui.

Modifica

JavaScript: PullAudioOutputStream.read() ha una modifica del tipo restituito da una promessa interna a una promessa JavaScript nativa.

Correzioni di bug

Tutto: correzione della regressione 1.13 in SetServiceProperty dove i valori con determinati caratteri speciali sono stati ignorati.
C#: correzione degli esempi di console di Windows in Visual Studio 2019 che non riescono a trovare DLL native.
C#: correzione dell'arresto anomalo del sistema con gestione della memoria se il flusso viene usato come input KeywordRecognizer.
ObjectiveC/Swift: correzione dell'arresto anomalo del sistema con gestione della memoria se il flusso viene usato come input del riconoscimento.
Windows: correzione del problema di coesistenza con BT HFP/A2DP nella piattaforma UWP.
JavaScript: correzione del mapping degli ID sessione per migliorare la registrazione e facilitare le correlazioni di debug/servizio interne.
JavaScript: aggiunta della correzione per DialogServiceConnector che disabilita le chiamate ListenOnce dopo la prima chiamata.
JavaScript: è stato risolto un problema per cui l'output dei risultati sarebbe sempre "semplice".
JavaScript: è stato risolto un problema di riconoscimento continuo in Safari in macOS.
JavaScript: mitigazione del carico della CPU per uno scenario di velocità effettiva elevata delle richieste.
JavaScript: consente l'accesso ai dettagli del risultato della registrazione del profilo Voce.
JavaScript: aggiunta della correzione per il riconoscimento continuo in IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: risolto l'URL non corretto per australiaeast e brazilsouth in IntentRecognizer.
C++/C#: aggiunta di VoiceProfileType come argomento durante la creazione di un oggetto VoiceProfile.
C++/C#/Java/Python/Swift/ObjectiveC: correzione di potenziali SPX_INVALID_ARG durante il tentativo di leggere AudioDataStream da una determinata posizione.
IOS: correzione dell'arresto anomalo del sistema con il riconoscimento vocale in Unity

Esempi

ObjectiveC: aggiunta di esempio per il riconoscimento delle parole chiave qui.
C#/JavaScript: aggiunta della guida introduttiva per la trascrizione della conversazione qui (C#) e qui (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: aggiunta di un esempio per la valutazione della pronuncia qui
Xamarin: guida introduttiva aggiornata alla versione più recente del modello di Visual Studio qui.

Problema noto

Per impostazione predefinita, il certificato DigiCert Global Root G2 non è supportato in HoloLens 2 e Android 4.4 (KitKat) e deve essere aggiunto al sistema per rendere funzionale Speech SDK. Il certificato verrà aggiunto alle immagini del sistema operativo HoloLens 2 prossimamente. I clienti Android 4.4 devono aggiungere il certificato aggiornato al sistema.

Test di COVID-19 risolti

A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come di consueto. Non sono state apportate modifiche che riteniamo potrebbero aver danneggiato qualcosa e tutti i test automatizzati sono stati superati. Nell’evento improbabile che si sia perso qualcosa, ti preghiamo di segnalarlo su GitHub.
Riguardati, andrà tutto bene!

Speech SDK 1.13.0: versione di luglio 2020

Nota

Speech SDK in Windows dipende dalla condivisione di Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019. Scaricare e installare l'app da qui.

Nuove funzionalità

C#: aggiunta del supporto per la trascrizione conversazione asincrona. La documentazione è disponibile qui.
JavaScript: è stato aggiunto il supporto riconoscimento del parlante sia per browser che per Node.js.
JavaScript: aggiunta del supporto per l'identificazione del linguaggio/ID lingua. Vedere la documentazione qui.
Objective-C: aggiunta del supporto per conversazione multi-dispositivo e trascrizione conversazione.
Python: aggiunta del supporto audio compresso per Python in Windows e Linux. Vedere la documentazione qui.

Correzioni di bug

Tutto: è stato risolto un problema che causava il mancato avanzamento dei flussi da parte di KeywordRecognizer dopo un riconoscimento.
Tutto: è stato risolto un problema che causava il mancato contenimento della parola chiave del flusso ottenuto da KeywordRecognitionResult.
Tutto: è stato risolto un problema per cui SendMessageAsync non invia effettivamente il messaggio in transito dopo che gli utenti terminano l'attesa.
Tutto: è stato risolto un arresto anomalo nelle API di Riconoscimento del parlante quando gli utenti chiamano il metodo VoiceProfileClient::SpeakerRecEnrollProfileAsync più volte senza attendere il completamento delle chiamate.
Tutto: correzione dell'abilitazione della registrazione dei file nelle classi VoiceProfileClient e SpeakerRecognizer.
JavaScript: è stato risolto un problema relativo alla limitazione quando il browser è ridotto a icona.
JavaScript: è stato risolto un problema con una perdita di memoria nei flussi.
JavaScript: aggiunta della memorizzazione nella cache per le risposte OCSP da NodeJS.
Java: è stato risolto un problema che causava sempre la restituzione di 0 dei campi BigInteger.
iOS: è stato risolto un problema con la pubblicazione di app basate su Speech SDK nell'App Store iOS.

Esempi

C++: è stato aggiunto il codice di esempio per il riconoscimento del parlante qui.

Test di COVID-19 risolti

Speech SDK 1.12.1: versione di giugno 2020

Nuove funzionalità

C#, C++: anteprima riconoscimento del parlante: questa funzionalità abilita l'identificazione voce (chi sta parlando?) e la verifica voce (è il parlante che sostiene di essere?). Iniziare con una panoramica, leggere l'articolo nozioni di base sul riconoscimento del parlante o la documentazione di riferimento dell'API.

Correzioni di bug

C#, C++: risolta la registrazione del microfono che non funzionava nella versione 1.12 in Riconoscimento del parlante.
JavaScript: correzioni per la sintesi vocale in Firefox e Safari in macOS e iOS.
Correzione dell'arresto anomalo di violazione di accesso del verificatore dell'applicazione Windows per la trascrizione di una conversazione usando un flusso a otto canali.
Correzione dell'arresto anomalo di violazione di accesso del verificatore dell'applicazione Windows sulla traduzione di conversazioni multi-dispositivo.

Esempi

C#: esempio di codice per il riconoscimento del parlante.
C++: esempio di codice per il riconoscimento del parlante.
Java: esempio di codice per il riconoscimento finalità in Android.

Test di COVID-19 risolti

Speech SDK 1.12.0: versione di maggio 2020

Nuove funzionalità

Go: nuovo supporto per il linguaggio di programmazione Go per riconoscimento vocale e assistente vocale personalizzato. Configurare l'ambiente di sviluppo qui. Per il codice di esempio, vedere la sezione Esempi di seguito.
JavaScript: aggiunta del supporto browser per la sintesi vocale. La documentazione è disponibile qui.
C++, C#, Java: nuove API e oggetti KeywordRecognizer supportati nelle piattaforme Windows, Android, Linux e iOS. Leggi la documentazione, disponibile qui. Per il codice di esempio, vedere la sezione Esempi di seguito.
Java: aggiunta di una conversazione multi-dispositivo con supporto per la traduzione. Vedere la documentazione di riferimento qui.

Miglioramenti e ottimizzazioni

JavaScript: implementazione del microfono del browser ottimizzato che migliora l'accuratezza del riconoscimento vocale.
Java: binding di refactoring che usano l'implementazione JNI diretta senza SWIG. Questa modifica riduce di 10 volte le dimensioni delle associazioni per tutti i pacchetti Java usati per Windows, Android, Linux e Mac e semplifica ulteriormente lo sviluppo dell'implementazione java di Speech SDK.
Linux: aggiornamento documentazione del supporto con le note specifiche di RHEL 7 più recenti.
Miglioramento della logica di connessione per tentare di connettersi più volte quando si verificano errori del servizio e di rete.
Aggiornamento della pagina di Avvio rapido di voce in portal.azure.com per aiutare gli sviluppatori a proseguire nel percorso Voce di Azure AI.

Correzioni di bug

C#, Java: è stato risolto un problema con il caricamento delle librerie SDK in Linux ARM (sia a 32 bit che a 64 bit).
C#: correzione dell'eliminazione esplicita degli handle nativi per gli oggetti TranslationRecognizer, IntentRecognizer e Connection.
C#: correzione della gestione della durata dell'input audio per l'oggetto ConversationTranscriber.
È stato risolto un problema per cui il motivo del risultato IntentRecognizer non veniva impostato correttamente durante il riconoscimento finalità da frasi semplici.
È stato risolto un problema per cui l'offset dei risultati SpeechRecognitionEventArgs non era impostato correttamente.
Correzione di una race condition in cui SDK tentava di inviare un messaggio di rete prima di aprire la connessione Websocket. Was riproducibile per TranslationRecognizer durante l'aggiunta di partecipanti.
Correzione delle perdite di memoria nel motore di riconoscimento delle parole chiave.

Esempi

Go: sono stati aggiunti avvii rapidi per il riconoscimento vocale e assistente vocale personalizzato. Trovare codice di esempio qui.
JavaScript: sono state aggiunti avvi rapidi per Sintesi vocale, Traduzione e Riconoscimento finalità.
Esempi di riconoscimento delle parole chiave per C# e Java (Android).

Test di COVID-19 risolti

A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come di consueto. Non sono state apportate modifiche che riteniamo potrebbero aver danneggiato qualcosa e tutti i test automatizzati sono stati superati. Se si è perso qualcosa, segnalarlo su GitHub.
Riguardati, andrà tutto bene!

Speech SDK 1.11.0: versione di marzo 2020

Nuove funzionalità

Linux: aggiunta del supporto per Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 con istruzioni su come configurare il sistema per Speech SDK.
Linux: aggiunta del supporto per .NET Core C# in Linux ARM32 e ARM64. Altre informazioni sono disponibili qui.
C#, C++: aggiunto UtteranceId in ConversationTranscriptionResult, un ID coerente in tutti i risultati intermedi e nel riconoscimento vocale finale. Dettagli per C#, C++.
Python: aggiunto supporto per Language ID. Vedere speech_sample.py nel repository GitHub.
Windows: aggiunta del supporto del formato di input audio compresso nella piattaforma Windows per tutte le applicazioni console win32. Per i dettagli, vedere qui.
JavaScript: supporto per la sintesi vocale (sintesi vocale) in NodeJS. Altre informazioni qui.
JavaScript: aggiungere nuove API per abilitare l'ispezione di tutti i messaggi di invio e ricezione. Altre informazioni qui.

Correzioni di bug

C#, C++: correzione di un problema per cui SendMessageAsync ora invia un messaggio binario come tipo binario. Dettagli per C#, C++.
C#, C++: è stato risolto un problema per cui l'uso dell'evento Connection MessageReceived potrebbe causare un arresto anomalo del sistema se Recognizer viene eliminato prima dell'oggetto Connection. Dettagli per C#, C++.
Android: le dimensioni del buffer audio dal microfono sono diminuite da 800 ms a 100 ms per migliorare la latenza.
Android: è stato risolto un problema con l'emulatore Android x86 in Android Studio.
JavaScript: aggiunta del supporto per le aree in Cina con l'API fromSubscription. Per i dettagli, vedere qui.
JavaScript: aggiungere altre informazioni sugli errori di connessione da NodeJS.

Esempi

Unity: è stato corretto l'esempio pubblico di riconoscimento finalità, in cui l'importazione JSON LUIS ha esito negativo. Per i dettagli, vedere qui.
Python: esempio aggiunto per Language ID. Per i dettagli, vedere qui.

Test di Covid19 ridotti: a causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale dei dispositivi come normalmente. Ad esempio, non è stato possibile testare l’input del microfono e l’output dell’altoparlante in Linux, iOS e macOS. Non sono state apportate modifiche che, riteniamo, abbiano interrotto qualcosa su queste piattaforme. Tutti i test automatizzati sono stati superati. Nel caso improbabile che si sia perso qualcosa, segnalarlo su GitHub.
Grazie per il costante supporto. Come sempre, inviare domande o commenti su GitHub o Stack Overflow.
Riguardati, andrà tutto bene!

Speech SDK 1.10.0: versione di febbraio 2020

Nuove funzionalità

Aggiunta di pacchetti Python per supportare la nuova versione 3.8 di Python.
Supporto di Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

Nota

I clienti devono configurare OpenSSL in base a queste istruzioni.
Supporto ARM32 di Linux per Debian e Ubuntu.
DialogServiceConnector supporta ora un parametro facoltativo "bot ID" in BotFrameworkConfig. Questo parametro consente l'uso di più bot Direct Line Speech con una singola risorsa Voce. Senza il parametro specificato, verrà usato il bot predefinito (come determinato dalla pagina di configurazione del canale Direct Line Speech).
DialogServiceConnector ha ora una proprietà SpeechActivityTemplate. Il contenuto di questa stringa JSON verrà usato da Direct Line Speech per precompilare un'ampia gamma di campi supportati in tutte le attività che raggiungono un bot Direct Line Speech, incluse le attività generate automaticamente in risposta a eventi quali il riconoscimento vocale.
TTS ora usa la chiave di sottoscrizione per l'autenticazione, riducendo la latenza primo byte del primo risultato di sintesi dopo la creazione di un sintetizzatore.
Modelli di riconoscimento vocale aggiornati per 19 impostazioni locali per una riduzione media della percentuale di errori di parola pari al 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). I nuovi modelli apportano miglioramenti significativi in più domini, tra cui dettatura, trascrizione call center e scenari di indicizzazione video.

Correzioni di bug

Correzione del bug per cui la trascrizione della conversazione non risultava correttamente in attesa nelle API JAVA
Correzione dell'emulatore x86 Android per Xamarin problema di GitHub
Aggiungere mancante (Get|Set)Metodi di proprietà su AudioConfig
Correzione di un bug TTS in cui non era possibile arrestare audioDataStream quando la connessione ha esito negativo
L'uso di un endpoint senza area causerebbe errori USP per Conversation Translator
La generazione di ID nelle applicazioni Windows universali ora usa un algoritmo GUID univoco appropriato; in precedenza e involontariamente era stata impostata su un'implementazione stub che spesso ha prodotto collisioni su grandi set di interazioni.

Esempi

Esempio di Unity per l'uso di Speech SDK con microfono Unity e streaming in modalità push

Altre modifiche

Documentazione di configurazione OpenSSL aggiornata per Linux

Speech SDK 1.9.0: versione di gennaio 2020

Nuove funzionalità

Conversazione multi-dispositivo: connettere più dispositivi alla stessa conversazione vocale o basata su testo e, facoltativamente, tradurre i messaggi inviati tra di essi. Altre informazioni sono disponibili in questo articolo.
È stato aggiunto il supporto per il riconoscimento delle parole chiave per il pacchetto Android .aar e aggiunto il supporto per le versioni x86 e x64.
Objective-C: metodi SendMessage e SetMessageProperty aggiunti all'oggetto Connection. La documentazione dell'API è disponibile qui.
L'API C++ TTS supporta ora std::wstring come input di testo di sintesi, rimuovendo la necessità di convertire una wstring in stringa prima di passarla all'SDK. Vedere i dettagli qui.
C#: ID lingua e configurazione della lingua di origine sono ora disponibili.
JavaScript: aggiunta di una funzionalità all'oggetto Connection per passare messaggi personalizzati dal servizio Voce come callback receivedServiceMessage.
JavaScript: aggiunta del supporto per FromHost API al fine di semplificare l'uso con contenitori locali e cloud sovrani. La documentazione dell'API è disponibile qui.
JavaScript: è stato ora rispettato NODE_TLS_REJECT_UNAUTHORIZED grazie a un contributo di orgads. Vedere i dettagli qui.

Modifiche di rilievo

OpenSSL è stato aggiornato alla versione 1.1.1b ed è collegato staticamente alla libreria principale di Speech SDK per Linux. Questo può causare un'interruzione se la posta in arrivo OpenSSL non è stata installata nella directory /usr/lib/ssl nel sistema. Per risolvere il problema consultare la nostra documentazione in Speech SDK.
Il tipo di dati restituito per C# WordLevelTimingResult.Offset da int a long è stato modificato per consentire l'accesso a WordLevelTimingResults quando i dati vocali sono più lunghi di 2 minuti.
PushAudioInputStream e PullAudioInputStream ora inviano informazioni sull'intestazione wav al servizio Voce in base a AudioStreamFormat, facoltativamente specificato al momento della loro creazione. I clienti devono ora usare il formato di input audio supportato. Qualsiasi altro formato otterrà risultati di riconoscimento non ottimali o potrebbe generare altri problemi.

Correzioni di bug

Vedere l'aggiornamento OpenSSL in Modifiche che causano un’interruzione sopra. È stato risolto un arresto anomalo intermittente e un problema di prestazioni (contesa di blocco con carico elevato) in Linux e Java.
Java: sono stati apportati miglioramenti alla chiusura degli oggetti in scenari di concorrenza elevata.
Ristrutturato il nostro pacchetto NuGet. Sono state rimosse le tre copie di Microsoft.CognitiveServices.Speech.core.dll e Microsoft.CognitiveServices.Speech.extension.kws.dll nelle cartelle della libreria, rendendo il pacchetto NuGet più piccolo e veloce da scaricare; inoltre sono state aggiunte le intestazioni necessarie per compilare alcune app native di C++.
Correzione degli esempi della guida introduttiva qui. Questi uscivano senza visualizzare l'eccezione "microfono non trovato" in Linux, macOS, Windows.
Correzione dell'arresto anomalo del sistema di SDK con risultati di riconoscimento vocale lunghi in determinati percorsi di codice come questo esempio.
Correzione dell'errore di distribuzione dell'SDK nell'ambiente app Web di Azure per risolvere questo problema del cliente.
Correzione di un errore TTS durante l'uso di più tag <voice> o tag <audio> per risolvere questo problema del cliente.
Correzione di un errore TTS 401 quando l'SDK viene ripristinato dalla sospensione.
JavaScript: correzione di un'importazione circolare dei dati audio grazie a un contributo di euirim.
JavaScript: aggiunta del supporto per l'impostazione delle proprietà del servizio, anche aggiunto nella versione 1.7.
JavaScript: è stato risolto un problema per cui un errore di connessione poteva causare tentativi di riconnessione websocket continui e non riusciti.

Esempi

Aggiunta dell'esempio di riconoscimento delle parole chiave per Android qui.
Aggiunta dell'esempio TTS per lo scenario del server qui.
Sono state aggiunte guide introduttive per la conversazione su più dispositivi per C# e C++ qui.

Altre modifiche

Dimensioni ottimizzate della libreria principale dell'SDK in Android.
L'SDK nella versione 1.9.0 e successive supporta sia i tipi int che string nel campo della versione della firma vocale per la trascrizione conversazione.

Speech SDK 1.8.0: versione di novembre 2019

Nuove funzionalità

Aggiunta di un'API FromHost() per semplificare l'uso con contenitori locali e cloud sovrani.
Aggiunta dell'identificazione della lingua di origine per il riconoscimento vocale (in Java e C++)
Aggiunta dell'oggetto SourceLanguageConfig per il riconoscimento vocale, usato per specificare i linguaggi di origine previsti (in Java e C++)
Aggiunta del supporto KeywordRecognizer in Windows (piattaforma UWP), Android e iOS tramite i pacchetti NuGet e Unity
Aggiunta dell'API Java di conversazione remota per eseguire la trascrizione della conversazione in batch asincroni.

Modifiche di rilievo

Funzionalità di trascrizione conversazione spostate nello spazio dei nomi Microsoft.CognitiveServices.Speech.Transcription.
Le parti dei metodi di trascrizione conversazione vengono spostate in una nuova classe Conversation.
Supporto eliminato per iOS a 32 bit (ARMv7 e x86)

Correzioni di bug

Correzione dell'arresto anomalo del sistema se viene usato KeywordRecognizer in locale senza una chiave di sottoscrizione valida del servizio Voce

Esempi

Esempio di Xamarin per KeywordRecognizer
Esempio di Unity per KeywordRecognizer
Esempi di C++ e Java per l'identificazione automatica della lingua di origine.

Speech SDK 1.7.0: versione di settembre 2019

Nuove funzionalità

Aggiunta del supporto beta per Xamarin nella piattaforma UWP (Universal Windows Platform), Android e iOS
Aggiunta del supporto iOS per Unity
Aggiunta del supporto di input Compressed per ALaw, Mulaw, FLAC, in Android, iOS e Linux
Aggiunta di SendMessageAsync nella classe Connection per l'invio di un messaggio al servizio
Aggiunta di SetMessageProperty nella classe Connection per impostare la proprietà di un messaggio
TTS ha aggiunto associazioni per Java (JRE e Android), Python, Swift e Objective-C
TTS ha aggiunto il supporto per la riproduzione per macOS, iOS e Android.
Aggiunta di informazioni "confine di parola" per TTS.

Correzioni di bug

Correzione del problema di compilazione IL2CPP in Unity 2019 per Android
Correzione del problema relativo alle intestazioni in formato non valido nell'input del file wav elaborato in modo non corretto
È stato risolto un problema con UUID non univoci in alcune proprietà di connessione
Correzione di alcuni avvisi relativi agli identificatori di supporto dei valori Null nelle associazioni Swift (potrebbero richiedere piccole modifiche al codice)
Correzione di un bug che causava la chiusura di connessioni websocket in modo anomalo nel carico di rete
È stato risolto un problema in Android che a volte causava ID impression duplicati usati da DialogServiceConnector
Miglioramenti alla stabilità delle connessioni tra interazioni a più turni e segnalazione di errori (tramite eventi Canceled) quando si verificano con DialogServiceConnector
L’avvio della sessione DialogServiceConnector ora fornirà correttamente gli eventi, tra cui nella chiamata di ListenOnceAsync(), durante una sessione attiva StartKeywordRecognitionAsync()
È stato risolto un arresto anomalo del sistema associato alle attività DialogServiceConnector in ricezione

Esempi

Avvio rapido per Xamarin
Avvio rapido aggiornato per CPP con informazioni su Linux ARM64
Avvio rapido di Unity aggiornata con informazioni su iOS

Speech SDK 1.6.0: versione di giugno 2019

Esempi

Esempi di avvio rapido per sintesi vocale in piattaforma UWP e Unity
Esempio di Avvio rapido per Swift in iOS
Esempi di Unity per riconoscimento finalità e vocale, e traduzione
Esempi di avvio rapido aggiornati per DialogServiceConnector

Miglioramenti/modifiche

Spazio dei nomi della finestra di dialogo:
- SpeechBotConnector è stata rinominata DialogServiceConnector
- BotConfig è stata rinominata DialogServiceConfig
- È stato eseguito un nuovo mapping di BotConfig::FromChannelSecret() per DialogServiceConfig::FromBotSecret()
- Tutti i client Direct Line Speech esistenti continuano a essere supportati dopo la ridenominazione
Aggiornare l'adattatore REST TTS per supportare la connessione proxy, persistente
Migliorare il messaggio di errore quando viene passata un'area non valida
Swift/Objective-C:
- Miglioramento della segnalazione degli errori: i metodi che possono generare un errore sono ora presenti in due versioni: uno che espone un oggetto NSError per la gestione degli errori e uno che genera un'eccezione. I precedenti sono esposti a Swift. Questa modifica richiede adattamenti del codice Swift esistente.
- Gestione degli eventi migliorata

Correzioni di bug

Correzione per TTS: dove il futuro SpeakTextAsync è stato restituito senza attendere il completamento del rendering dell'audio
Correzione per eseguire il marshalling delle stringhe in C# per abilitare il supporto completo della lingua
Correzione del problema dell'app .NET Core per caricare la libreria core con framework di destinazione net461 negli esempi
Correzione di problemi occasionali per distribuire librerie native nella cartella di output negli esempi
Correzione per la chiusura affidabile del websocket
Correzione di un possibile arresto anomalo durante l'apertura di una connessione con carico elevato in Linux
Correzione per i metadati mancanti nel pacchetto del framework per macOS
Correzione dei problemi relativi a pip install --user in Windows

Speech SDK 1.5.1

Si tratta di una versione di correzione di bug che influisce solo su SDK nativo/gestito. Non influisce sulla versione JavaScript dell'SDK.

Correzioni di bug

Correzione di FromSubscription quando usata con trascrizione conversazione.
Correzione del bug nella ricerca di parole chiave per gli assistenti vocali.

Speech SDK 1.5.0: versione di maggio 2019

Nuove funzionalità

L'individuazione delle parole chiave (KWS) è ora disponibile per Windows e Linux. La funzionalità KWS potrebbe funzionare con qualsiasi tipo di microfono. Il supporto ufficiale di KWS, tuttavia, è attualmente limitato alle matrici di microfoni disponibili nell'hardware di Azure Kinect DK o nei dispositivi Speech SDK.
La funzionalità hint per frasi è disponibile tramite l'SDK. Per ulteriori informazioni, vedi qui.
La funzionalità di trascrizione conversazione è disponibile tramite SDK.
Aggiungere il supporto per gli assistenti vocali usando il canale Direct Line Speech.

Esempi

Aggiunta di esempi per le nuove funzionalità o i nuovi servizi supportati dall'SDK.

Miglioramenti/modifiche

Sono state aggiunte varie proprietà di riconoscimento per regolare il comportamento del servizio o i risultati del servizio (ad esempio mascherando contenuto volgare e altro).
È ora possibile configurare il riconoscimento tramite le proprietà di configurazione standard, anche se è stato creato il sistema di riconoscimento FromEndpoint.
Objective-C: la proprietà OutputFormat è stata aggiunta a SPXSpeechConfiguration.
SDK supporta ora Debian 9 come distribuzione Linux.

Correzioni di bug

È stato risolto un problema per cui la risorsa dell’altoparlante veniva eliminata troppo presto in sintesi vocale.

Speech SDK 1.4.2

Si tratta di una versione di correzione di bug che influisce solo su SDK nativo/gestito. Non influisce sulla versione JavaScript dell'SDK.

Speech SDK 1.4.1

Questa è una versione solo per JavaScript. Non sono state aggiunte funzionalità. Sono state apportate le correzioni seguenti:

Impedire al pacchetto Web di caricare https-proxy-agent.

Speech SDK 1.4.0: versione di aprile 2019

Nuove funzionalità

L'SDK supporta ora il servizio Sintesi vocale in versione beta. È supportato in Windows e Linux Desktop da C++ e C#. Per altre informazioni, vedere panoramica di Sintesi vocale.
SDK supporta ora file audio MP3 e Opus/OGG come file di input streaming. Questa funzionalità è disponibile solo in Linux da C++ e C# ed è attualmente in versione beta (altri dettagli qui).
Speech SDK per Java, .NET Core, C++ e Objective-C hanno ottenuto il supporto macOS. Il supporto Objective-C per macOS è attualmente in versione beta.
iOS: Speech SDK per iOS (Objective-C) è ora pubblicato anche come CocoaPod.
JavaScript: supporto per il microfono non predefinito come dispositivo di input.
JavaScript: supporto proxy per Node.js.

Esempi

Sono stati aggiunti esempi per l'uso di Speech SDK con C++ e con Objective-C in macOS.
Sono stati aggiunti esempi che illustrano l'utilizzo del servizio Sintesi vocale.

Miglioramenti/modifiche

Python: le proprietà aggiuntive dei risultati del riconoscimento vengono ora esposte tramite la proprietà properties.
Per un supporto aggiuntivo per lo sviluppo e il debug, è possibile reindirizzare le informazioni di registrazione e diagnostica dell'SDK in un file di log (altri dettagli qui).
JavaScript: migliorare le prestazioni di elaborazione audio.

Correzioni di bug

Mac/iOS: è stato corretto un bug che causava un'attesa prolungata quando non si riusciva a stabilire una connessione al servizio Voce.
Python: migliorare la gestione degli errori per gli argomenti nei callback di Python.
JavaScript: correzione della segnalazione dello stato non corretta perché il riconoscimento vocale terminava a RequestSession.

Speech SDK 1.3.1: aggiornamento di febbraio 2019

Si tratta di una versione di correzione di bug che influisce solo su SDK nativo/gestito. Non influisce sulla versione JavaScript dell'SDK.

Correzione di bug

Correzione di una perdita di memoria quando si usa l'input del microfono. L'input basato su streaming o file non è interessato.

Speech SDK 1.3.0: versione di febbraio 2019

Nuove funzionalità

Speech SDK supporta la selezione del microfono per l'input attraverso la classe AudioConfig. In questo modo è possibile trasmettere dati audio al servizio Voce da un microfono non predefinito. Per altre informazioni, vedere la documentazione relativa alla selezione del dispositivo di input audio. Questa funzionalità non è ancora disponibile in JavaScript.
Speech SDK supporta ora Unity in versione beta. Inviare commenti e suggerimenti tramite la sezione relativa ai problemi nel repository GitHub di esempio. Questa versione supporta Unity in Windows x86 e x64 (applicazioni desktop o per la piattaforma UWP) e Android (ARM32/64, x86). Altre informazioni sono disponibili nell'Avvio rapido di Unity.
Il file Microsoft.CognitiveServices.Speech.csharp.bindings.dll (fornito nelle versioni precedenti) non è più necessario. La funzionalità è ora integrata nell'SDK core.

Esempi

I nuovi contenuti seguenti sono disponibili nel repository di esempio:

Altri esempi per AudioConfig.FromMicrophoneInput.
Altri esempi di Python per il riconoscimento finalità e la traduzione.
Esempi aggiuntivi per l'uso dell'oggetto Connection in iOS.
Esempi aggiuntivi per Java per la traduzione con output audio.
Nuovo esempio per l'uso dell'API REST di trascrizione batch.

Miglioramenti/modifiche

Python
- Messaggi di errore e verifica dei parametri migliorati in SpeechConfig.
- Aggiungere il supporto per l'oggetto Connection.
- Supporto per Python a 32 bit (x86) in Windows.
- Speech SDK per Python non è incluso nella beta.
iOS
- L'SDK è ora basato sull'SDK per iOS versione 12.1.
- L'SDK supporta ora iOS 9.2 e versioni successive.
- Miglioramento della documentazione di riferimento e correzione di diversi nomi di proprietà.
JavaScript
- Aggiungere il supporto per l'oggetto Connection.
- Aggiunta di file di definizione del tipo per JavaScript in bundle.
- Supporto iniziale e implementazione per gli hint della frase.
- Restituzione della raccolta di proprietà con il file JSON del servizio per il riconoscimento.
Le DLL di Windows contengono ora una risorsa di versione.
Se si crea un sistema di riconoscimento FromEndpoint, è possibile aggiungere parametri direttamente all'URL dell'endpoint. L'uso di FromEndpoint non consente di configurare il sistema di riconoscimento tramite le proprietà di configurazione standard.

Correzioni di bug

Il nome utente proxy e la password proxy vuoti non sono stati gestiti correttamente. Con questa versione, se si imposta il nome utente proxy e la password proxy su una stringa vuota, non verranno inviati quando ci si connette al proxy.
Gli ID sessione creati dall'SDK non erano sempre realmente casuali per alcune lingue/ambienti. È stata aggiunta l'inizializzazione del generatore casuale per risolvere questo problema.
Gestione migliorata del token di autorizzazione. Se si vuole usare un token di autorizzazione, specificarlo in SpeechConfig e lasciare vuota la chiave di sottoscrizione. Creare quindi il sistema di riconoscimento come di consueto.
In alcuni casi l'oggetto Connection non veniva rilasciato correttamente. Il problema è stato risolto.
L'esempio di JavaScript è stato corretto per supportare l'output audio per la sintesi della traduzione anche in Safari.

Speech SDK 1.2.1

Questa è una versione solo per JavaScript. Non sono state aggiunte funzionalità. Sono state apportate le correzioni seguenti:

Attivazione della fine del flusso in corrispondenza di turn.end e non di speech.end.
Correzione di un bug nel data pump audio che non pianificava l'invio successivo in caso di errore dell'invio corrente.
Correzione del riconoscimento continuo con il token di autenticazione.
Correzione di bug per sistemi di riconoscimento/endpoint diversi.
Miglioramenti alla documentazione.

Speech SDK 1.2.0: versione di dicembre 2018

Nuove funzionalità

Python
- La versione beta del supporto di Python (versione 3.5 e successive) è disponibile con questa versione. Per altre informazioni, vedere qui](.. /.. /quickstart-python.md).
JavaScript
- Speech SDK per JavaScript è ora open source. Il codice sorgente è disponibile in GitHub.
- È ora supportato Node.js. Altre informazioni sono reperibili qui.
- È stata rimossa la restrizione di lunghezza per le sessioni audio. La riconnessione avverrà automaticamente.
Oggetto Connection
- Da Recognizerè possibile accedere a un oggetto Connection. Questo oggetto consente di avviare in modo esplicito la connessione al servizio e di aggiungere una sottoscrizione per connettere e disconnettere gli eventi. (Questa funzionalità non è ancora disponibile in JavaScript e Python).
Supporto per Ubuntu 18.04.
Android
- Supporto di ProGuard abilitato durante la generazione di APK.

Miglioramenti

Miglioramenti nell'uso dei thread interni, con riduzione del numero di thread, blocchi e mutex.
Miglioramento della segnalazione errori e delle informazioni sugli errori. In molti casi i messaggi di errore non sono stati propagati completamente.
Aggiornamento delle dipendenze di sviluppo in JavaScript per usare i moduli aggiornati.

Correzioni di bug

Correzione delle perdite di memoria a causa di una mancata corrispondenza del tipo in RecognizeAsync.
In alcuni casi perdita delle eccezioni.
Correzione della perdita di memoria negli argomenti degli eventi di conversione.
Correzione di un problema di blocco per la riconnessione in sessioni a esecuzione prolungata.
Risoluzione di un problema che può causare la mancanza di risultati finali per le traduzioni non riuscite.
C#: se un'operazione di async non è stata attesa nel thread principale, è possibile che lo strumento di riconoscimento possa essere eliminato prima del completamento dell'attività asincrona.
Java: è stato risolto un problema che causava un arresto anomalo della macchina virtuale Java.
Objective-C: correzione del mapping delle enumerazioni; è stato restituito RecognizedIntent anziché RecognizingIntent.
JavaScript: impostazione del formato di output predefinito su 'simple' in SpeechConfig.
JavaScript: rimozione dell'incoerenza tra le proprietà nell'oggetto config in JavaScript e in altri linguaggi.

Esempi

Aggiornamento e correzione di vari esempi (ad esempio voci di output per la traduzione e così via).
Aggiunta di esempi di Node.js nel repository degli esempi.

Speech SDK 1.1.0

Nuove funzionalità

Supporto per Android x86/x64.
Supporto del proxy: nell'oggetto SpeechConfig, è ora possibile chiamare una funzione che consente di impostare le informazioni sul proxy (nome host, porta, nome utente e password). Questa funzionalità non è ancora disponibile in iOS.
Messaggi e codice di errore migliorati. Se un riconoscimento ha restituito un errore, l'elemento Reason (nell'evento annullato) o CancellationDetails (nel risultato del riconoscimento) è già stato impostato su Error. L'evento annullato contiene ora due membri aggiuntivi: ErrorCode e ErrorDetails. Se il server ha restituito l'errore corredato da informazioni aggiuntive, le informazioni saranno ora disponibili nei nuovi membri.

Miglioramenti

È stata aggiunta una verifica supplementare nella configurazione del sistema di riconoscimento ed è stato aggiunto un nuovo messaggio di errore.
È stata migliorata la gestione di un silenzio prolungato nel mezzo di un file audio.
Pacchetto NuGet: per i progetti .NET Framework, impedisce la compilazione con una configurazione AnyCPU.

Correzioni di bug

Sono state corrette varie eccezioni rilevate nei sistemi di riconoscimento. Inoltre, le eccezioni vengono rilevate e convertite nell’evento Canceled.
È stata corretta una perdita di memoria nella gestione delle proprietà.
È stato corretto un bug per il quale un file di input audio può determinare l'arresto anomalo del sistema di riconoscimento.
È stato risolto un bug per il quale si continuano a ricevere eventi anche dopo un evento di arresto della sessione.
Sono state corrette alcune race condition nel threading.
È stato corretto un problema di compatibilità iOS che può determinare un arresto anomalo.
Sono stati apportati miglioramenti di stabilità per il supporto di microfoni Android.
È stato risolto un bug per il quale un sistema di riconoscimento in JavaScript ignorava la lingua di riconoscimento.
Correzione di un bug che impedisce l'impostazione di EndpointId (in alcuni casi) in JavaScript.
Modificato l'ordine dei parametri in AddIntent in JavaScript e aggiunta firma AddIntent JavaScript mancante.

Esempi

Sono stati aggiunti esempi C++ e C# per l'utilizzo del flusso pull e push nel repository degli esempi.

Speech SDK 1.0.1

Miglioramenti apportati alla stabilità e correzioni di bug:

Risoluzione di un potenziale errore irreversibile dovuto a una race condition nell'eliminazione dello strumento di riconoscimento.
Correzione di un potenziale errore irreversibile al verificarsi di proprietà nonset.
Aggiunta di un ulteriore controllo di errori e parametri.
Objective-C: risoluzione di un potenziale errore irreversibile causato dall'override del nome in NSString.
Objective-C: modifica della visibilità dell'API
JavaScript: correzioni relative a eventi e payload correlati.
Miglioramenti alla documentazione.

Al repository di esempi è stato aggiunto un nuovo esempio per JavaScript.

Voce di Azure AI SDK 1.0.0: versione di settembre 2018

Nuove funzionalità

Supporto per Objective-C in iOS. Vedere la Guida introduttiva su Objective-C per iOS.
Supporto per JavaScript nel browser. Vedere la Guida introduttiva su JavaScript.

Modifiche di rilievo

Questa versione introduce numerose modifiche di rilievo. Per informazioni dettagliate, vedere questa pagina.

Voce di Azure AI SDK 0.6.0: versione di agosto 2018

Nuove funzionalità

Le app UWP compilate con Speech SDK ora possono superare il Kit di certificazione app Windows (WACK). Consultare la Guida introduttiva della piattaforma UWP.
Supporto per .NET Standard 2.0 in Linux (Ubuntu 16.04 x64).
Sperimentale: supporto di Java 8 in Windows (64 bit) e Linux (Ubuntu 16.04 x64). Consultare la Guida introduttiva di Java Runtime Environment.

Modifica funzionale

Informazioni aggiuntive dettagliate sull'errore in caso di errori di connessione.

Modifiche di rilievo

In Java (Android), la funzione SpeechFactory.configureNativePlatformBindingWithDefaultCertificate non richiede più un parametro di percorso. Il percorso viene ora rilevato automaticamente in tutte le piattaforme supportate.
La funzione di accesso get della proprietà EndpointUrl in Java e C# è stata rimossa.

Correzioni di bug

In Java, il risultato di sintesi audio sul sistema di riconoscimento di traduzione è ora implementato.
È stato risolto un bug che potrebbe causare un maggior numero di socket aperti e inutilizzati e thread inattivi.
È stato risolto un problema in cui un riconoscimento con esecuzione prolungata terminava la trasmissione a metà.
Correzione di una race condition nel sistema di riconoscimento di arresto.

Voce di Azure AI SDK 0.5.0: versione di luglio 2018

Nuove funzionalità

Supporto della piattaforma Android (API 23: Android Marshmallow 6.0 o versione successiva). Consultare la Guida introduttiva di Android.
Supporto di .NET Standard 2.0 in Windows. Consultare la Guida introduttiva di .NET Core.
Sperimentale: supporto di UWP in Windows (versione 1709 o successiva).
- Consultare la Guida introduttiva della piattaforma UWP.
- Notare che le app della piattaforma UWP compilate con Speech SDK non superano ancora il Kit di certificazione app Windows (WACK).
Supporto del riconoscimento a esecuzione prolungata con riconnessione automatica.

Modifiche funzionali

StartContinuousRecognitionAsync() supporta il riconoscimento a esecuzione prolungata.
Il risultato del riconoscimento contiene più campi. Scostamento da inizio audio e durata (entrambi in tick) del testo riconosciuto, valori aggiuntivi che rappresentano lo stato di riconoscimento, ad esempio InitialSilenceTimeout e InitialBabbleTimeout.
Supporto del token di autorizzazione per la creazione di istanze di factory.

Modifiche di rilievo

Eventi di riconoscimento: il tipo di evento NoMatch è stato unito all'evento Error.
SpeechOutputFormat in C# è stato rinominato in OutputFormat per coerenza con C++.
Il tipo restituito di alcuni metodi dell'interfaccia AudioInputStream è stato leggermente modificato:
- In Java, il metodo read restituisce ora long invece di int.
- In C#, il metodo Read restituisce ora uint invece di int.
- In C++, i metodi Read e GetFormat restituiscono ora size_t invece di int.
C++: le istanze di flussi di input audio possono ora essere passate solo come shared_ptr.

Correzioni di bug

Sono stati corretti i valori restituiti errati nel risultato alla scadenza di RecognizeAsync().
È stata rimossa la dipendenza dalle librerie di Media Foundation in Windows. L'SDK usa ora le API Audio Core.
Correzione della documentazione: è stata aggiunta una pagina relativa alle aree per descrivere le aree supportate.

Problema noto

Speech SDK per Android non segnala i risultati della sintesi vocale per la traduzione. Questo problema verrà risolto nella prossima versione.

Voce di Azure AI SDK 0.4.0: versione di giugno 2018

Modifiche funzionali

AudioInputStream

Uno strumento di riconoscimento può ora usare un flusso come origine audio. Per informazioni dettagliate, vedere la guida pratica.
Formato dettagliato dell'output

Durante la creazione di uno SpeechRecognizer, è possibile richiedere un formato di output Detailed o Simple. Il DetailedSpeechRecognitionResult contiene punteggio di attendibilità, testo riconosciuto, forma lessicale non elaborata, forma normalizzata e forma normalizzata con messaggi dal contenuto volgare mascherati.

Modifica

Modifica da SpeechRecognitionResult.RecognizedText a SpeechRecognitionResult.Text in linguaggio C#.

Correzioni di bug

È stato corretto un possibile problema di callback nel livello USP durante l'arresto.
Se un riconoscimento usa un file di input audio, significa che esso contiene l'handle del file più a lungo rispetto al necessario.
Sono stati rimossi diversi deadlock tra message pump e strumento di riconoscimento.
Attiva un risultato NoMatch quando la risposta dal servizio è scaduta.
Le librerie di Media Foundation in Windows sono a caricamento ritardato. Questa libreria è richiesta solo per l'input del microfono.
La velocità di caricamento dei dati audio è limitata a circa due volte la velocità dell'audio originale.
In Windows, gli assembly C# .NET hanno ora un nome sicuro.
Correzione della documentazione: Region è un'informazione obbligatoria per la creazione di un riconoscimento.

Sono stati aggiunti altri esempi che sono costantemente in corso l'aggiornamento. Per il set di esempi più recente, vedere il repository GitHub degli esempi di Speech SDK.

Voce di Azure AI SDK 0.2.12733: versione di maggio 2018

Questa versione è la prima versione di anteprima pubblica di Voce di Azure AI SDK.

Interfaccia della riga di comando di Voce 1.37.0: versione di aprile 2024

Aggiornamento per l'uso di Speech SDK 1.37.0

Nuove funzionalità

Nessuno

Correzioni di bug

Nessuno

Interfaccia della riga di comando di Voce 1.36.0: versione di marzo 2024

Aggiornamento per l'uso di Speech SDK 1.36.0

Nuove funzionalità

Nessuno

Correzioni di bug

Nessuno

Interfaccia della riga di comando di Voce 1.35.0: versione di febbraio 2024

Aggiornamento per l'uso di Speech SDK 1.35.0

Nuove funzionalità

Nessuno

Correzioni di bug

Aggiornare la dipendenza JMESPath alla versione più recente

Interfaccia della riga di comando di Voce 1.34.0: versione di novembre 2023

Aggiornamento per l'uso di Speech SDK 1.34.0

Interfaccia della riga di comando di Voce 1.33.0: versione di ottobre 2023

Aggiornamento per l'uso di Speech SDK 1.34.0

Interfaccia della riga di comando di Voce 1.31.0: versione di agosto 2023

Aggiornamento per l'uso di Speech SDK 1.31.0

Interfaccia della riga di comando di Voce 1.30.0: versione di luglio 2023

Aggiornamento per l'uso di Speech SDK 1.30.0

Interfaccia della riga di comando di Voce 1.29.0: versione di giugno 2023

Aggiornamento per l'uso di Speech SDK 1.29.0

Interfaccia della riga di comando di Voce 1.28.0: versione di maggio 2023

Aggiornamento per l'uso di Speech SDK 1.28.0

Interfaccia della riga di comando di Voce 1.27.0: versione di aprile 2023

Aggiornamenti

Aggiornamento per l'uso di Speech SDK 1.27.0
Aggiornare l'endpoint predefinito per usare le API REST v3.1 per il riconoscimento vocale personalizzato e il riconoscimento vocale batch.

Correzioni di bug

Correzioni relative alla modalità di analisi/configurazione dei parametri di query.

Interfaccia della riga di comando di Voce 1.26.0: versione di marzo 2023

Aggiornamento per usare Speech SDK 1.26.0.

Interfaccia della riga di comando di Voce 1.25.0: versione di gennaio 2023

Aggiornamento per usare Speech SDK 1.25.0.

Interfaccia della riga di comando di Voce 1.24.0: versione di ottobre 2022

Usa Speech SDK 1.24.0.

Nuove funzionalità

Espansione di "spx check" per supportare query JMESPath su tutti gli eventi spx

Correzioni di bug

Vari miglioramenti della stabilità rispetto alle valutazioni delle query JMESPath
Correzione dei troncamenti di scrittura file che possono verificarsi nei computer con vincoli di risorse

Interfaccia della riga di comando di Voce 1.23.0: versione di luglio 2022

Usa Speech SDK 1.23.0.

Nuove funzionalità

Sottotitolo migliore (--output vtt e --output srt) divisione dei risultati di grandi dimensioni (37 caratteri max, 3 righe)
Opzioni spx synthesize--format documentate (vedere spx help synthesize format)
Documentazione della maggior parte dei comandi/opzioni spx csr (vedere spx help csr)
Aggiunta del comando spx csr model copy (vedere spx help csr model copy)
Aggiunta dell'opzione--check result tramite query JMES (vedere spx help check result)
Messaggi di errore migliorati quando si specificano opzioni di comando non valide
Spostato da .NET Core 3.1 a .NET 6.0. Per eseguire l'interfaccia della riga di comando di Voce, è necessario installare .NET 6.0 Runtime (o versione successiva).

Correzioni di bug

Aggiornamento di tutti gli URL per rimuovere la lingua (ad esempio, "en-US")
Correzione delle informazioni sulla versione per segnalare correttamente in tutti i casi (in precedenza talvolta mostrava uno spazio vuoto)

Interfaccia della riga di comando di Voce 1.22.0: versione di giugno 2022

Usa Speech SDK 1.22.0.

Nuove funzionalità

Aggiunta del comando spx init per guidare gli utenti attraverso la creazione della chiave della risorsa Voce senza passare al portale Web di Azure.
I contenitori Docker voce ora includono l'interfaccia della riga di comando di Azure, quindi il comando spx init funziona correttamente.
Aggiunta del timestamp come opzione di output dell'evento per rendere SPX più utile durante il calcolo delle latenze.

Interfaccia della riga di comando di Voce 1.21.0: versione di aprile 2022

Usa Speech SDK 1.21.0.

Nuove funzionalità

Generazione della didascalia WEBVTT
- Aggiunta del supporto di --output vtt a spx translate
- Supporta --output vtt file FILENAME per l'override di VTT FILENAME predefinito
- Supporta --output vtt file - per la scrittura nell'output standard
- Vengono creati singoli file VTT per ogni lingua di destinazione ( ad esempio --target en;de;fr)
Generazione della didascalia SRT
- Aggiunta del supporto --output srt per spx recognize, spx intent e spx translate
- Supporta --output srt file FILENAME per l'override di SRT FILENAME predefinito
- Supporta --output srt file - per la scrittura nell'output standard
- Per spx translate, vengono creati singoli file SRT per ogni lingua di destinazione (ad esempio --target en;de;fr)

Correzioni di bug

Correzione dell'output timespan WEBVTT per l'uso corretto del formato hh:mm:ss.fff

Interfaccia della riga di comando di Voce 1.20.0: versione di gennaio 2022

Nuove funzionalità

Riconoscimento del parlante
- spx profile enroll e spx speaker [identify/verify] ora supportano l'input del microfono
Riconoscimento dell’intento (spx intent)
- --keyword FILE.table
- --pattern e --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once,--once+, --continuous (impostazione predefinita continua)
- --output all/each connection EVENT
- --output all/each connection message (ad esempio, text, path)
Controllo/creazione di attesa output console dell'interfaccia della riga di comando:
- Supporto di --expect PATTERN e --not expect PATTERN in tutti i comandi
- --auto expect per facilitare la creazione di criteri previsti
Controllo/creazione dell'output della registrazione SDK
- Supporto di --log expect PATTERN e --not log expect PATTERN in tutti i comandi
- Supporto di --log auto expect [FILTER] per tutti i comandi
- supporto di --log FILE su spx profile e spx speaker
Input del file audio
- Supporto di --format ANY per tutti i comandi
- Supporto di --file - (lettura dall'input standard, abilitazione di scenari di pipe)
Output del file audio
- Scrittura --audio output - nell'output standard, abilitazione di scenari di pipe
File di output
- --output all/each file - Scrivere nell'output standard
- --output batch file - Scrivere nell'output standard
- --output vtt file - Scrivere nell'output standard
- --output json file - Scrivere nell'output standard, per i comandi spx csr e spx batch
Proprietà degli output
- --output […] result XXX property (PropertyId o stringa)
- --output […] connection message received XXX property (PropertyId o stringa)
- --output […] recognizer XXX property (PropertyId o stringa)
Integrazione di WebJob di Azure
- spx webjob ora segue ora il criterio di comando secondario
- Guida aggiornata di WebJob per riflettere il criterio di comando secondario (vederespx help webjob)

Correzioni di bug

Correzione del bug quando sia --output vtt FILE che --output batch FILE vengono usati contemporaneamente
spx [...] --zip ZIPFILENAME include ora tutti i file binari necessari per tutti gli scenari (se presenti)
I comandi spx profile e spx speaker ora restituiscono informazioni dettagliate sull'errore relativo all'annullamento

Versione maggio 2021

Nuove funzionalità

Aggiunta del supporto per profilo, ID voce e verifica voce: provare spx profile e spx speaker dalla riga di comando.
È stato aggiunto anche il supporto del dialogo: provare spx dialog dalla riga di comando.
Miglioramento della Guida di spx. Inviare commenti e suggerimenti su come funziona aprendo un problema di GitHub.
Abbiamo ridotto le dimensioni dell'installazione dello strumento .NET.

Test di COVID-19 risolti

Mentre la pandemia continua a richiedere ai nostri ingegneri di lavorare da casa, gli script di verifica manuale pre-pandemia sono stati notevolmente ridotti. I test sono eseguiti su una ridotta quantità di dispositivi e per un minor numero di configurazioni e vi è una maggiore probabilità di bug specifici di ambiente. Viene comunque eseguita una convalida rigorosa con un ampio set di automazione. Nell’evento improbabile che si sia perso qualcosa, ti preghiamo di segnalarlo su GitHub.
Riguardati, andrà tutto bene!

Versione di marzo 2021

Nuove funzionalità

Aggiunta del comando spx intent per il riconoscimento finalità, sostituendo spx recognize intent.
Riconoscimento e finalità possono ora usare funzioni di Azure per calcolare la frequenza degli errori di word usando spx recognize --wer url <URL>.
Riconoscimento può ora restituire i risultati come file VTT usando spx recognize --output vtt file <FILENAME>.
Informazioni sensibili sulla chiave ora oscurate nell'output di debug/verbose.
Aggiunta del controllo URL e del messaggio di errore per il campo di contenuto nella creazione della trascrizione batch.

Test di COVID-19 risolti

Versione di gennaio 2021

Nuove funzionalità

L'interfaccia della riga di comando di Voce è ora disponibile come pacchetto NuGet e può essere installata tramite l'interfaccia della riga di comando di .NET come strumento globale .NET che è possibile chiamare dalla shell/riga di comando.
Il repository del modello DevOps personalizzato è stato aggiornato per usare l'interfaccia della riga di comando di Voce per i flussi di lavoro vocali personalizzati.

Test di COVID-19 risolti

Versione di ottobre 2020

SPX è l'interfaccia della riga di comando per usare il servizio Voce senza scrivere codice. Scaricare la versione più recente qui.

Nuove funzionalità

spx csr dataset upload --kind audio|language|acoustic – creare set di dati dai dati locali, non solo dagli URL.
spx csr evaluation create|status|list|update|delete – confrontare i nuovi modelli con la verità di baseline o altri modelli.
spx * list – supportare l'esperienza non paging (non richiede --top X --skip X).
spx * --http header A=B – supportare intestazioni personalizzate (aggiunte per Office per l'autenticazione personalizzata).
spx help – testo migliorato e testo con colore testo back-tick codificato (blu).

Versione di giugno 2020

Aggiunta delle funzionalità di ricerca della Guida interfaccia della riga di comando:
- spx help find --text TEXT
- spx help find --topic NAME
Aggiornamento per il lavoro con le API Batch v3.0 e voce personalizzate appena distribuite:
- spx help batch examples
- spx help csr examples

Test di COVID-19 risolti

Interfaccia della riga di comando di Voce (nota anche come SPX): versione di maggio 2020

SPX è un nuovo strumento da riga di comando che consente di eseguire il riconoscimento, la sintesi, la traduzione, la trascrizione batch e la gestione vocale personalizzata dalla riga di comando. Usarlo per testare il servizio Voce o per creare script per le attività del servizio Voce che occorre eseguire. Scaricare lo strumento e leggere la documentazione qui.

Versione di aprile 2024

Avatar di sintesi vocale

È ora possibile impostare un'immagine di sfondo statica per gli avatar. Per utilizzare questa funzionalità, è sufficiente usare la avatarConfig.backgroundImage proprietà e specificare un URL che punta all'immagine desiderata. Per i detial, vedere Come modificare lo sfondo.

Versione di marzo 2024

Voce neurale predefinita

9 voci multilingue sono disponibili a livello generale in tutte le aree: en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeuralde-DE-FlorianMultilingualNeural, fr-FR-RemyMultilingualNeuralde-DE-SeraphinaMultilingualNeural, , , fr-FR-VivienneMultilingualNeurale zh-CN-XiaoxiaoMultilingualNeural. Per altre informazioni, vedere l'elenco completo di lingue e voci.
Introduzione a una nuova voce multilingue per l'anteprima pubblica: ja-JP-MasaruMultilingualNeural. Per altre informazioni, vedere l'elenco completo di lingue e voci.
Aggiornamenti aggiuntivi:
- en-US-RyanMultilingualNeural è disponibile a livello generale in tutte le aree.
- en-US-JennyMultilingualV2Neural è disponibile a livello generale in tutte le aree, unito a en-US-JennyMultilingualNeural.
- Anteprima disponibile per l'aggiornamento en-IN-NeerjaNeural e hi-IN-SwaraNeural con 3 nuovi stili in Stati Uniti orientali, Europa occidentale e Asia sud-orientale.
- Anteprima disponibile per le nuove voci femminili in India centrale: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeuralhi-IN-KavyaNeural, e hi-IN-AnanyaNeural.

Avatar di sintesi vocale

Rimozione della dipendenza da turni di Servizi di comunicazione di Azure (ACS) per avatar in tempo reale. Il codice di esempio è stato aggiornato di conseguenza per riflettere questa modifica.
Prezzi dell'avatar per il testo pubblicato. Per altri dettagli, vedere la pagina dei prezzi. Si noti che i prezzi avatar saranno visibili solo per le aree del servizio in cui la funzionalità è disponibile, tra cui Stati Uniti occidentali 2, Europa occidentale e Asia sud-orientale.

Versione di febbraio 2024

Voci OpenAI

Il servizio Voce di Azure AI supporta la sintesi vocale OpenAI nelle aree seguenti: Stati Uniti centro-settentrionali e Svezia centrale. Analogamente alle voci di Voce di Azure AI, le voci di sintesi vocale di OpenAI offrono alta qualità per convertire testo scritto in audio vocale naturale. Questo consente di sfruttare un'ampia gamma di possibilità per esperienze utente immersive e interattive. Per altre informazioni, vedere Che cos’è la sintesi vocale di OpenAI?.

Nota

Anche le voci di sintesi vocale di OpenAI sono disponibili in Servizio OpenAI di Azure.
Con questo aggiornamento sono stati modificati i prezzi delle voci neurali predefinite con Riconoscimento vocale di Intelligenza artificiale di Azure. Controllare i prezzi aggiornati qui.

Voce neurale personalizzata

La funzionalità di voce neurale personalizzata supporta ora i modelli DragonLatestNeural e PhoenixLatestNeural. Questi nuovi modelli migliorano la naturalezza delle voci sintetizzate, rendendole più simili alle caratteristiche vocali della voce nella richiesta. Per altre informazioni, vedere Integrare la voce neurale personalizzata nell'applicazione.

Versione di dicembre 2023

API voce personalizzata

L'API vocale personalizzata è disponibile per la creazione e la gestione di modelli di voce neurale professionale e personale.

Voce neurale personalizzata

I modelli vocali che hanno appena eseguito il training supportano ora la frequenza di campionamento a 48 kHz, indipendentemente dalla versione del modello. Per i modelli vocali per è stato precedentemente eseguito il training, è necessario aggiornare la versione del motore almeno alla 2023.11.13.0 per migliorare la frequenza di campionamento a 48 kHz.

Voce neurale predefinita

Introduzione alle nuove voci multilingua per l'anteprima pubblica:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`de-DE`	Tedesco (Germania)	`de-DE-FlorianMultilingualNeural` (Maschile)
`de-DE`	Tedesco (Germania)	`de-DE-SeraphinaMultilingualNeural` (Femminile)
`en-US`	Inglese (Stati Uniti)	`en-US-AvaMultilingualNeural` (Femminile)
`en-US`	Inglese (Stati Uniti)	`en-US-EmmaMultilingualNeural` (Femminile)
`fr-FR`	Francese (Francia)	`fr-FR-RemyMultilingualNeural` (Maschile)
`en-US`	Inglese (Stati Uniti)	`en-US-BrianMultilingualNeural` (Maschile)
`en-US`	Inglese (Stati Uniti)	`en-US-AndrewMultilingualNeural` (Maschile)
`fr-FR`	Francese (Francia)	`fr-FR-VivienneMultilingualNeural` (Femminile)
`zh-CN`	Cinese (mandarino, semplificato)	`zh-CN-XiaoxiaoMultilingualNeural` (Femminile)
`zh-CN`	Cinese (mandarino, semplificato)	`zh-CN-XiaochenMultilingualNeural` (Femminile)
`zh-CN`	Cinese (mandarino, semplificato)	`zh-CN-YunyiMultilingualNeural` (Maschile)

Introduzione di nuove voci zh-CN-XiaoxiaoDialectsNeural per l'anteprima pubblica. Supportano diversi dialetti e accenti cinesi:

Nome voce	Lingua secondaria	Dialetto/accento
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Cinese (Mandarino Zhongyuan dello Shaanxi, semplificato)
	`zh-CN-sichuan`	Cinese (mandarino sud-occidentale, semplificato)
	`zh-CN-shanxi`	Cinese (mandarino con accento di Shanxi, semplificato)
	`nan-CN`	Cinese (min meridionale, semplificato)
	`zh-CN-anhui`	Cinese (mandarino jiang-huai di Anhui, semplificato)
	`zh-CN-hunan`	Cinese (mandarino con accento di Hunan, semplificato)
	`zh-CN-gansu`	Cinese (mandarino lanyin di Gansu, semplificato)
	`zh-CN-shandong`	Cinese (Jilu Mandarino, semplificato)
	`zh-CN-henan`	Cinese (Mandarino Zhongyuan di Henan, semplificato)
	`zh-CN-liaoning`	Cinese (Mandarino nord-orientale, semplificato)
	`zh-TW`	Cinese (Mandarino taiwanese, tradizionale)

Versione di novembre 2023

Voce neurale personalizzata

La voce personale è disponibile in anteprima nelle aree seguenti: Europa occidentale, Stati Uniti orientali e Asia sud-orientale. Con voce neurale personalizzata (anteprima) è possibile ottenere la replica generata da AI della propria voce (o dagli utenti dell'applicazione) in pochi secondi. Si fornisce un esempio di parlato di un minuto come richiesta audio e quindi lo si usa per generare il parlato in una delle più di 90 lingue supportate, in oltre 100 impostazioni locali.

Per altre informazioni, vedere voce neurale personalizzata.

Avatar di sintesi vocale

L'avatar di sintesi vocale è disponibile in anteprima nelle aree seguenti: Stati Uniti occidentali 2, Europa occidentale e Asia sud-orientale.

L'avatar di sintesi vocale converte il testo in un video digitale di un umano fotorealistico (un avatar predefinito o un avatar di sintesi vocale personalizzato) che parla con una voce audio naturale. Il video dell'avatar di sintesi vocale può essere sintetizzato in modo asincrono o in tempo reale. Gli sviluppatori possono creare applicazioni integrate con avatar di sintesi vocale tramite un'API, oppure usare uno strumento di creazione di contenuto in Speech Studio per creare contenuto video senza scrivere codice.

Per altre informazioni, vedere testo per l'avatar di sintesi vocale, note sulla trasparenzae divulgazione per i talenti vocali e avatar.

Voce neurale personalizzata

Aggiunta del supporto per le 24 nuove impostazioni locali per la voce trans-linguistica. Per altre informazioni, vedere l'elenco completo delle lingue.

Voce neurale predefinita

Introduzione alle nuove voci per l'anteprima pubblica:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`de-DE`	Tedesco (Germania)	`SeraphinaNeural` (Femminile)
`es-ES`	Spagnolo (Spagna)	`XimenaNeural` (Femminile)
`fr-CA`	Francese (Canada)	`ThierryNeural` (Maschile)
`fr-FR`	Francese (Francia)	`VivienneNeural` (Femminile)
`it-IT`	Italiano (Italia)	`GiuseppeNeural` (Maschile)
`ko-KR`	Coreano (Corea)	`HyunsuNeural` (Maschile)
`pt-BR`	Portoghese (Brasile)	`ThalitaNeural` (Femminile)

Modelli aggiornati con bug risolti e miglioramenti qualitativi:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`es-ES`	Spagnolo (Spagna)	`AlvaroNeural` (Maschile)
`en-GB`	Inglese (Regno Unito)	`RyanNeural` (Maschile)
`ko-KR`	Coreano (Corea)	`InjoonNeural` (Maschile)

Per altre informazioni, vedere l'elenco completo di lingue e voci.

Versione di ottobre 2023

Voce neurale personalizzata

Aggiunta del supporto per le 12 nuove impostazioni locali con voce neurale personalizzata Pro. Per altre informazioni, vedere l'elenco completo delle lingue.

Versione di settembre 2023

Voce neurale predefinita

Introduzione alle nuove voci per l'anteprima pubblica:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`en-US`	Inglese (Stati Uniti)	`en-US-EmmaNeural` (Femminile)
`en-US`	Inglese (Stati Uniti)	`en-US-AndrewNeural` (Maschile)
`en-US`	Inglese (Stati Uniti)	`en-US-BrianNeural` (Maschile)

Per altre informazioni, vedere l'elenco completo di lingue e voci.

Voce neurale incorporata

Tutte le 147 impostazioni locali qui (tranne fa-IR, Persiano (Iran)) sono disponibili con 1 voce femminile selezionata e/o 1 voce maschile selezionata.

Versione di agosto 2023

Voce neurale personalizzata

La versione più recente della ricetta di training CNV Lite è stata rilasciata ora. Questa versione offre diversi miglioramenti sulla qualità dei modelli linguistici. Provare Speech Studio.

Versione di luglio 2023

Voce neurale personalizzata

La voce in più stili è disponibile a livello generale.
Sono state aggiunte due nuove impostazioni locali nell'anteprima pubblica per la voce in più stili: ja-JP e zh-CN. Per altre informazioni, vedere l'elenco completo di lingue e voci. Fare riferimento a elenco stile set di impostazioni per lingue diverse.
La voce trans-linguistica è disponibile a livello generale.
Sono state aggiunte due nuove impostazioni locali per la voce trans-linguistica: id-ID e nl-NL. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Voci TTS neurali predefinite

Introduzione alla nuova voce neutra di genere en-US per l'anteprima pubblica:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`en-US`	Inglese (Stati Uniti)	`en-US-BlueNeural` (neutrale)

Introduzione alle nuove voci multilingua per l'anteprima pubblica:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`en-US`	Inglese (Stati Uniti)	`en-US-JennyMultilingualV2Neural` (Femminile)
`en-US`	Inglese (Stati Uniti)	`en-US-RyanMultilingualNeural` (Maschile)

Le voci multilingue en-US-JennyMultilingualV2Neural e en-US-RyanMultilingualNeural rilevano automaticamente la lingua del testo di input. Tuttavia, è comunque possibile usare l'elemento <lang> per regolare la lingua parlante per queste voci.

Queste nuove voci multilingue possono parlare in 41 lingue e accenti: Arabic (Egypt), Arabic (Saudi Arabia), Catalan, Czech (Czechia), Danish (Denmark), German (Austria), German (Switzerland), German (Germany), English (Australia), English (Canada), English (United Kingdom), English (Hong Kong SAR), English (Ireland), English (India), English (United States), Spanish (Spain), Spanish (Mexico), Finnish (Finland), French (Belgium), French (Canada), French (Switzerland), French (France), Hindi (India), Hungarian (Hungary), Indonesian (Indonesia), Italian (Italy), Japanese (Japan), Korean (Korea), Norwegian Bokmål (Norway), Dutch (Belgium), Dutch (Netherlands), Polish (Poland), Portuguese (Brazil), Portuguese (Portugal), Russian (Russia), Swedish (Sweden), Thai (Thailand), Turkish (Türkiye), Chinese (Mandarin, Simplified), Chinese (Cantonese, Traditional), Chinese (Taiwanese Mandarin, Traditional).

Queste voci multi-lingua non supportano completamente determinati elementi SSML, ad esempio interruzione, enfasi, silenzio e sub.

Importante

La voce en-US-JennyMultilingualV2Neural viene fornita temporaneamente in anteprima pubblica esclusivamente a scopo di valutazione. In futuro vi sarà la rimozione.

Per parlare in una lingua diversa dall'inglese, l'implementazione corrente della voce en-US-JennyMultilingualNeural richiede di impostare l'elemento <lang xml:lang>. Prevediamo che nel corso del 4° trimestre dell’anno solare 2023, la voce en-US-JennyMultilingualNeural verrà aggiornata per parlare nella lingua del testo di input senza l'elemento <lang xml:lang>. Questo sarà in parità con la voce en-US-JennyMultilingualV2Neural.

Introduzione alle nuove funzionalità in anteprima pubblica per le voci seguenti:

Aggiunta dell'input latino per le voci serbe (Serbia)sr-RS: sr-latn-RS-SophieNeural e sr-latn-RS-NicholasNeural.
Aggiunta del supporto della pronuncia inglese per le voci albanese (Albania) sq-AL: sq-AL-AnilaNeural e sq-AL-IlirNeural.

Versione di maggio 2023

Creazione di contenuti audio

Tutte le voci predefinite con stili di parlato e voci personalizzate multi-stile supportano la regolazione del grado di stile.
Ora è possibile correggere la pronuncia di una parola pronunciandola e registrandola. I fonemi possono essere riconosciuti automaticamente dalla registrazione. La funzionalità Riconoscimento mediante parlato è ora disponibile in anteprima pubblica.

Versione di aprile 2023

Voci TTS neurali predefinite

Le funzionalità seguenti di queste voci sono state spostate dall'anteprima pubblica alla disponibilità generale:

Style	Voci per la sintesi vocale
style="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural` e `it-IT-IsabellaNeural`
style="cheerful"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural` e `it-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural` e `fr-FR-HenriNeural`

Migliorare la pronuncia in inglese per le voci hi-IN, ta-IN e te-IN, ora è in distribuzione in anteprima nelle aree di anteprima pubblica

Per altre informazioni, vedere elenco di lingue e voci.

Versione di marzo 2023

Nuove funzionalità

Speech Synthesis Markup Language (SSML) viene aggiornato per supportare gli elementi del processore degli effetti audio che ottimizzano la qualità dell'output vocale sintetizzato per scenari specifici nei dispositivi. Per altre informazioni, vedere markup di sintesi vocale.

Voce neurale personalizzata

Aggiunta del supporto per le impostazioni locali di nl-BE con Voce neurale personalizzata Pro. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Voci TTS neurali predefinite

Le voci seguenti sono ora disponibili a livello generale. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`en-AU`	Inglese (Australia)	`en-AU-AnnetteNeural` (Femminile) `en-AU-CarlyNeural` (Femminile) `en-AU-DarrenNeural` (Maschile) `en-AU-DuncanNeural` (Maschile) `en-AU-ElsieNeural` (Femminile) `en-AU-FreyaNeural` (Femminile) `en-AU-JoanneNeural` (Femminile) `en-AU-KenNeural` (Maschile) `en-AU-KimNeural` (Femminile) `en-AU-NeilNeural` (Maschile) `en-AU-TimNeural` (Maschile) `en-AU-TinaNeural` (Femminile) `en-AU-WilliamNeural` (Maschile)
`en-GB`	Inglese (Regno Unito)	`en-GB-RyanNeural` (Maschile) `en-GB-SoniaNeural` (Femminile)
`es-ES`	Spagnolo (Spagna)	`es-ES-AbrilNeural` (Femminile) `es-ES-ArnauNeural` (Maschile) `es-ES-DarioNeural` (Maschile) `es-ES-EliasNeural` (Maschile) `es-ES-EstrellaNeural` (Femminile) `es-ES-IreneNeural` (Femminile) `es-ES-LaiaNeural` (Femminile) `es-ES-LiaNeural` (Femminile) `es-ES-NilNeural` (Maschile) `es-ES-SaulNeural` (Maschile) `es-ES-TeoNeural` (Maschile) `es-ES-TrianaNeural` (Femminile) `es-ES-VeraNeural` (Femminile)
`es-MX`	Spagnolo (Messico)	`es-MX-JorgeNeural` (Maschile)
`fr-FR`	Francese (Francia)	`fr-FR-HenriNeural` (Maschile)
`it-IT`	Italiano (Italia)	`it-IT-IsabellaNeural` (Femminile)
`ja-JP`	Giapponese (Giappone)	`ja-JP-AoiNeural` (Femminile) `ja-JP-DaichiNeural` (Maschile) `ja-JP-MayuNeural` (Femminile) `ja-JP-NaokiNeural` (Maschile) `ja-JP-ShioriNeural` (Femminile)

Aggiunta del supporto per lo stile cheerful con la voce de-DE-ConradNeural.

Versione di febbraio 2023

Voci TTS neurali predefinite

Le voci seguenti sono ora disponibili a livello generale. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`zh-CN`	Cinese (mandarino, semplificato)	`zh-CN-XiaomengNeural` (Femminile) `zh-CN-XiaoyiNeural` (Femminile) `zh-CN-XiaozhenNeural` (Femminile) `zh-CN-YunfengNeural` (Maschile) `zh-CN-YunhaoNeural` (Maschile) `zh-CN-YunjianNeural` (Maschile) `zh-CN-YunxiaNeural` (Maschile) `zh-CN-YunzeNeural` (Maschile)
`zh-CN-henan`	Cinese (Mandarino Zhongyuan di Henan, semplificato)	`zh-CN-henan-YundengNeural` (Maschile)

Versione di dicembre 2022

API REST di sintesi batch (anteprima)

L'API di sintesi batch è attualmente disponibile in anteprima pubblica. Una volta disponibile a livello generale, l'API di audio lungo sarà deprecata. Per altre informazioni, vedere Eseguire la migrazione all'API di sintesi batch.

Versione di novembre 2022

Voci TTS neurali predefinite (disponibilità generale)

Le voci seguenti sono ora disponibili a livello generale. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`es-MX`	Spagnolo (Messico)	`es-MX-BeatrizNeural` (Femminile) `es-MX-CandelaNeural` (Femminile) `es-MX-CarlotaNeural` (Femminile) `es-MX-CecilioNeural` (Maschile) `es-MX-GerardoNeural` (Maschile) `es-MX-LarissaNeural` (Femminile) `es-MX-LibertoNeural` (Maschile) `es-MX-LucianoNeural` (Maschile) `es-MX-MarinaNeural` (Femminile) `es-MX-NuriaNeural` (Femminile) `es-MX-PelayoNeural` (Maschile) `es-MX-RenataNeural` (Femminile) `es-MX-YagoNeural` (Maschile)
`it-IT`	Italiano (Italia)	`it-IT-BenignoNeural` (Maschile) `it-IT-CalimeroNeural` (Maschile) `it-IT-CataldoNeural` (Maschile) `it-IT-FabiolaNeural` (Femminile) `it-IT-FiammaNeural` (Femminile) `it-IT-GianniNeural` (Maschile) `it-IT-ImeldaNeural` (Femminile) `it-IT-IrmaNeural` (Femminile) `it-IT-LisandroNeural` (Maschile) `it-IT-PalmiraNeural` (Femminile) `it-IT-PierinaNeural` (Femminile) `it-IT-RinaldoNeural` (Maschile)
`pt-BR`	Portoghese (Brasile)	`pt-BR-BrendaNeural` (Femminile) `pt-BR-DonatoNeural` (Maschile) `pt-BR-ElzaNeural` (Femminile) `pt-BR-FabioNeural` (Maschile) `pt-BR-GiovannaNeural` (Femminile) `pt-BR-HumbertoNeural` (Maschile) `pt-BR-JulioNeural` (Maschile) `pt-BR-LeilaNeural` (Femminile) `pt-BR-LeticiaNeural` (Femminile) `pt-BR-ManuelaNeural` (Femminile) `pt-BR-NicolauNeural` (Maschile) `pt-BR-ValerioNeural` (Maschile) `pt-BR-YaraNeural` (Femminile)

Voce neurale personalizzata

Viene aggiunto il supporto delle impostazioni locali seguente per voce neurale personalizzata. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Aggiunta del supporto per le impostazioni locali fr-BE con voce neurale personalizzata Pro.
Aggiunta del supporto per le impostazioni locali es-ES con CNV Lite.

Versione di ottobre 2022

Voci TTS neurali predefinite (disponibilità generale)

Le voci seguenti sono ora disponibili a livello generale. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`eu-ES`	Basco	`eu-ES-AinhoaNeural` (Femminile) `eu-ES-AnderNeural` (Maschile)
`hy-AM`	Armeno (Armenia)	`hy-AM-AnahitNeural` (Femminile) `hy-AM-HaykNeural` (Maschile)

Voci TTS neurali predefinite (anteprima)

Le voci seguenti sono ora disponibili in anteprima pubblica. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`en-AU`	Inglese (Australia)	`en-AU-AnnetteNeural`(Femminile) `en-AU-CarlyNeural`(Femminile) `en-AU-DarrenNeural`(Maschile) `en-AU-DuncanNeural`(Maschile) `en-AU-ElsieNeural`(Femminile) `en-AU-FreyaNeural`(Femminile) `en-AU-JoanneNeural`(Femminile) `en-AU-KenNeural`(Maschile) `en-AU-KimNeural`(Femminile) `en-AU-NeilNeural`(Maschile) `en-AU-TimNeural`(Maschile) `en-AU-TinaNeural`(Femminile)
`es-ES`	Spagnolo (Spagna)	`es-ES-AbrilNeural`(Femminile) `es-ES-AlvaroNeural`(Maschile) `es-ES-ArnauNeural`(Maschile) `es-ES-DarioNeural`(Maschile) `es-ES-EliasNeural`(Maschile) `es-ES-EstrellaNeural`(Femminile) `es-ES-IreneNeural`(Femminile) `es-ES-LaiaNeural`(Femminile) `es-ES-LiaNeural`(Femminile) `es-ES-NilNeural`(Maschile) `es-ES-SaulNeural`(Maschile) `es-ES-TeoNeural`(Maschile) `es-ES-TrianaNeural`(Femminile) `es-ES-VeraNeural`(Femminile)
`ja-JP`	Giapponese (Giappone)	`ja-JP-AoiNeural`(Femminile) `ja-JP-DaichiNeural`(Maschile) `ja-JP-MayuNeural`(Femminile) `ja-JP-NaokiNeural`(Maschile) `ja-JP-ShioriNeural`(Femminile)
`ko-KR`	Coreano (Corea)	`ko-KR-BongJinNeural`(Maschile) `ko-KR-GookMinNeural`(Maschile) `ko-KR-JiMinNeural`(Femminile) `ko-KR-SeoHyeonNeural`(Femminile) `ko-KR-SoonBokNeural`(Femminile) `ko-KR-YuJinNeural`(Femminile)
`wuu-CN`	Cinese (Wu, semplificato)	`wuu-CN-XiaotongNeural` (Femminile) `wuu-CN-YunzheNeural` (Maschile)
`yue-CN`	Cinese (Cantonese, semplificato)	`yue-CN-XiaoMinNeural` (Femminile) `yue-CN-YunSongNeural` (Maschile)

Aggiornamenti vocali TTS generali

Migliore qualità per le voci fil-PH-AngeloNeural e fil-PH-BlessicaNeural.
Le regole di normalizzazione del testo vengono aggiornate per le voci con le impostazioni locali di es-CL spagnolo (Cile) e uz-UZ Uzbeko (Uzbekistan).
Aggiunta dell'ortografia delle lettere inglesi per le voci con le impostazioni locali sq-AL albanese (Albania) e az-AZ azerbaigiano (Azerbaigian).
Miglioramento della pronuncia inglese per la voce zh-HK-WanLungNeural.
Miglioramento del tono interrogativo per le voci nl-NL-MaartenNeural e pt-BR-AntonioNeural.
Aggiunta del supporto per il tag di <lang ="en-US"> per una migliore pronuncia in inglese con le voci seguenti: de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeurale it-IT-IsabellaNeural.
Aggiunta del supporto per il tag di style="chat" con le voci seguenti: en-GB-RyanNeural, es-MX-JorgeNeurale it-IT-IsabellaNeural.
Aggiunta del supporto per il tag di style="cheerful" con le voci seguenti: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeurale it-IT-IsabellaNeural.
Aggiunta del supporto per il tag di style="sad" con le voci seguenti: en-GB-SoniaNeural, fr-FR-DeniseNeural e fr-FR-HenriNeural.

Versione di settembre 2022

Voce TTS neurale predefinita

Tutte le voci neurali predefinite sono state aggiornate a voci ad alta fedeltà con frequenza di campionamento di 48kHz.

Versione di agosto 2022

Voce TTS neurale predefinita

Nuove voci rilasciate in anteprima pubblica:

Voci per inglese (Stati Uniti): en-US-AIGenerate1Neural e en-US-AIGenerate2Neural.
Voci per le lingue internazionali cinesi: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeurale zh-CN-shandong-YunxiangNeural.

Per altre informazioni, vedere elenco di lingue e voci.

Versione di luglio 2022

Voce TTS neurale predefinita

Sono state aggiunte 5 nuove voci di zh-CN cinese (mandarino, semplificato) e 1 nuova voce di en-US inglese (Stati Uniti) in anteprima pubblica. Vedi l'elenco completo di lingue e voci.

Lingua	Impostazioni locali	Genere	Nome della voce	Supporto dello stile
Cinese (mandarino, semplificato)	`zh-CN`	Femmina	`zh-CN-XiaomengNeural`^New	Generale, più stili disponibili con SSML
Cinese (mandarino, semplificato)	`zh-CN`	Femmina	`zh-CN-XiaoyiNeural`^New	Generale, più stili disponibili con SSML
Cinese (mandarino, semplificato)	`zh-CN`	Femmina	`zh-CN-XiaozhenNeural`^New	Generale, più stili disponibili con SSML
Cinese (mandarino, semplificato)	`zh-CN`	Maschio	`zh-CN-YunxiaNeural`^New	Generale, più stili disponibili con SSML
Cinese (mandarino, semplificato)	`zh-CN`	Maschio	`zh-CN-YunzeNeural`^New	Generale, più stili disponibili con SSML
Inglese (Stati Uniti)	`en-US`	Maschio	`en-US-RogerNeural`^New	Generali

Stili e ruoli supportati per le voci neurali aggiunte.

Voce	Stili	Grado di stile	ruoli
^{Anteprima pubblica} di zh-CN-XiaomengNeural	`chat`	Supportata
^{Anteprima pubblica} di zh-CN-XiaoyiNeural	`affectionate`, `angry`, `cheerful`, `disgruntled`, `embarrassedfearful`, `gentle`, , `sadserious`	Supportata
^{Anteprima pubblica} di zh-CN-XiaozhenNeural	`angry`, `cheerful`, `disgruntled`, `fearful`, `sadserious`	Supportata
^{Anteprima pubblica} di zh-CN-YunxiaNeural	`angry`, `calm`, `cheerful`, `fearfulsad`	Supportata
^{Anteprima pubblica} di zh-CN-YunzeNeural	`angry`, `calm`, `cheerful`, `depressed`, `disgruntleddocumentary-narration`, `fearful`, , `sadserious`	Supportata	Supportata

Ottenere la posizione del viso con visema

Aggiunta del supporto per la fusione delle forme per guidare i movimenti facciali di un carattere 3D che è stato progettato. Per altre informazioni, vedere come ottenere la posizione del viso con visema.
SSML aggiornato per supportare l'elemento visema. Vedere Markup di sintesi vocale.

Versione di giugno 2022

Voce TTS neurale predefinita

Sono state aggiunte 9 nuove lingue e varianti per la sintesi vocale neurale:

Lingua	Impostazioni locali	Genere	Nome della voce	Supporto dello stile
Arabo (Libano)	`ar-LB`	Femmina	`ar-LB-LaylaNeural`^New	Generali
Arabo (Libano)	`ar-LB`	Maschio	`ar-LB-RamiNeural`^New	Generali
Arabo (Oman)	`ar-OM`	Femmina	`ar-OM-AyshaNeural`^New	Generali
Arabo (Oman)	`ar-OM`	Maschio	`ar-OM-AbdullahNeural`^New	Generali
Azerbaigiano (Azerbaigian)	`az-AZ`	Femmina	`az-AZ-BabekNeural`^New	Generali
Azerbaigiano (Azerbaigian)	`az-AZ`	Maschio	`az-AZ-BanuNeural`^New	Generali
Bosniaco (Bosnia ed Erzegovina)	`bs-BA`	Femmina	`bs-BA-VesnaNeural`^New	Generali
Bosniaco (Bosnia ed Erzegovina)	`bs-BA`	Maschio	`bs-BA-GoranNeural`^New	Generali
Georgiano (Georgia)	`ka-GE`	Femmina	`ka-GE-EkaNeural`^New	Generali
Georgiano (Georgia)	`ka-GE`	Maschio	`ka-GE-GiorgiNeural`^New	Generali
Mongolo (Mongolia)	`mn-MN`	Femmina	`mn-MN-YesuiNeural`^New	Generali
Mongolo (Mongolia)	`mn-MN`	Maschio	`mn-MN-BataaNeural`^New	Generali
Nepalese (Nepal)	`ne-NP`	Femmina	`ne-NP-HemkalaNeural`^New	Generali
Nepalese (Nepal)	`ne-NP`	Maschio	`ne-NP-SagarNeural`^New	Generali
Albanese (Albania)	`sq-AL`	Femmina	`sq-AL-AnilaNeural`^New	Generali
Albanese (Albania)	`sq-AL`	Maschio	`sq-AL-IlirNeural`^New	Generali
Tamil (Malaysia)	`ta-MY`	Femmina	`ta-MY-KaniNeural`^New	Generali
Tamil (Malaysia)	`ta-MY`	Maschio	`ta-MY-SuryaNeural`^New	Generali

Disponibilità generale di 36 voci dall'anteprima pubblica per en-GB inglese (Regno Unito), fr-FR francese (Francia) e de-DE tedesco (Germania):

Lingua	Impostazioni locali	Genere	Nome della voce	Supporto dello stile
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-AbbiNeural`	Generali
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-BellaNeural`	Generali
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-HollieNeural`	Generali
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-MaisieNeural`	Generale, voce figlio
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-OliviaNeural`	Generali
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-SoniaNeural`	Generali
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-AlfieNeural`	Generali
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-ElliotNeural`	Generali
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-EthanNeural`	Generali
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-NoahNeural`	Generali
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-OliverNeural`	Generali
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-ThomasNeural`	Generali
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-BrigitteNeural`	Generali
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-CelesteNeural`	Generali
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-CoralieNeural`	Generali
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-EloiseNeural`	Generale, voce figlio
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-JacquelineNeural`	Generali
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-JosephineNeural`	Generali
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-YvetteNeural`	Generali
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-AlainNeural`	Generali
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-ClaudeNeural`	Generali
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-JeromeNeural`	Generali
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-MauriceNeural`	Generali
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-YvesNeural`	Generali
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-AmalaNeural`	Generali
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-ElkeNeural`	Generali
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-GiselaNeural`	Generale, voce figlio
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-KlarissaNeural`	Generali
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-LouisaNeural`	Generali
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-MajaNeural`	Generali
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-TanjaNeural`	Generali
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-BerndNeural`	Generali
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-ChristophNeural`	Generali
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-KasperNeural`	Generali
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-KillianNeural`	Generali
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-KlausNeural`	Generali
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-RalfNeural`	Generali

Sono state aggiunte 40 nuove voci di es-MX spagnolo (Messico), it-IT italiano (Italia), pt-BR portoghese (Brasile) e 2 accenti per zh-CN cinese (mandarino, semplificato) in anteprima pubblica:

Lingua	Impostazioni locali	Genere	Nome della voce	Supporto dello stile
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-BeatrizNeural`^New	Generali
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-CarlotaNeural`^New	Generali
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-NuriaNeural`^New	Generali
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-RenataNeural`^New	Generali
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-LarissaNeural`^New	Generali
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-CandelaNeural`^New	Generali
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-MarinaNeural`^New	Generali
Italiano (Italia)	`it-IT`	Femmina	`it-IT-FiammaNeural`^New	Generali
Italiano (Italia)	`it-IT`	Femmina	`it-IT-IrmaNeural`^New	Generali
Italiano (Italia)	`it-IT`	Femmina	`it-IT-FabiolaNeural`^New	Generali
Italiano (Italia)	`it-IT`	Femmina	`it-IT-PalmiraNeural`^New	Generali
Italiano (Italia)	`it-IT`	Femmina	`it-IT-ImeldaNeural`^New	Generali
Italiano (Italia)	`it-IT`	Femmina	`it-IT-PierinaNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-ElzaNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-ManuelaNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-BrendaNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-LeilaNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-YaraNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-GiovannaNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-LeticiaNeural`^New	Generali
Spagnolo (Messico)	`es-MX`	Maschio	`es-MX-CecilioNeural`^New	Generali
Spagnolo (Messico)	`es-MX`	Maschio	`es-MX-LibertoNeural`^New	Generali
Spagnolo (Messico)	`es-MX`	Maschio	`es-MX-LucianoNeural`^New	Generali
Spagnolo (Messico)	`es-MX`	Maschio	`es-MX-PelayoNeural`^New	Generali
Spagnolo (Messico)	`es-MX`	Maschio	`es-MX-YagoNeural`^New	Generali
Spagnolo (Messico)	`es-MX`	Maschio	`es-MX-GerardoNeural`^New	Generali
Italiano (Italia)	`it-IT`	Maschio	`it-IT-BenignoNeural`^New	Generali
Italiano (Italia)	`it-IT`	Maschio	`it-IT-CataldoNeural`^New	Generali
Italiano (Italia)	`it-IT`	Maschio	`it-IT-LisandroNeural`^New	Generali
Italiano (Italia)	`it-IT`	Maschio	`it-IT-CalimeroNeural`^New	Generali
Italiano (Italia)	`it-IT`	Maschio	`it-IT-RinaldoNeural`^New	Generali
Italiano (Italia)	`it-IT`	Maschio	`it-IT-GianniNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Maschio	`pt-BR-DonatoNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Maschio	`pt-BR-HumbertoNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Maschio	`pt-BR-FabioNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Maschio	`pt-BR-JulioNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Maschio	`pt-BR-ValerioNeural`^New	Generali
Portoghese (Brasile)	`pt-BR`	Maschio	`pt-BR-NicolauNeural`^New	Generali
Cinese (mandarino, semplificato)	`zh-CN-sichuan`	Maschio	`zh-CN-sichuan-YunxiSichuanNeural`^New	Generale, accento di Sichuan
Cinese (mandarino, semplificato)	`zh-CN-liaoning`	Femmina	`zh-CN-liaoning-XiaobeiNeural`^New	Generale, accento di Liaoning

Migliore qualità per en-SG-LunaNeural e en-SG-WayneNeural
Supporto dell'output a 48 kHz per l'anteprima pubblica con en-US-JennyNeural, en-US-AriaNeural e zh-CN-XiaoxiaoNeural

Voce neurale personalizzata

Abilitazione per risolvere i problemi di dati online. Altre informazioni su come risolvere i problemi di dati in Speech Studio.
Aggiunta della versione della ricetta di training. Per altre informazioni, vedere selezionare la versione della ricetta di training per il modello vocale.

Strumento Creazione di contenuto audio

Paginazione supportata.
Abilitata per l'ordinamento globale in base a nome, tipo file e ora di aggiornamento nella pagina del file di lavoro.

Versione di maggio 2022

Voce TTS neurale predefinita

Rilasciate 5 nuove voci in anteprima pubblica con più stili per arricchire la varietà in inglese americano. Vedi l'elenco completo di lingue e voci.
Supportare questi nuovi stili Angry, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified e Whispering in anteprima pubblica per en-US-AriaNeural.
Supportare questi nuovi stili Angry, Cheerful, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified e Whispering in anteprima pubblica per en-US-GuyNeural, en-US-JennyNeural.
Supportare questi nuovi stili Excited, Friendly, Hopeful, Shouting, Unfriendly, Terrified e Whispering in anteprima pubblica per en-US-SaraNeural. Vedere stili vocali e ruoli.
Rilasciate nuove voci zh-CN-YunjianNeural, zh-CN-YunhaoNeural e zh-CN-YunfengNeural in anteprima pubblica. Vedi l'elenco completo di lingue e voci.
Supporto per 2 nuovi stili sports-commentary, sports-commentary-excited in anteprima pubblica per zh-CN-YunjianNeural. Vedere stili vocali e ruoli.
Supporto per 1 nuovo stile advertisement-upbeat in anteprima pubblica per zh-CN-YunhaoNeural. Vedere stili vocali e ruoli.
Gli stili cheerful e sad per fr-FR-DeniseNeural sono disponibili a livello generale in tutte le aree.
SSML aggiornato per supportare gli elementi MathML per le voci en-US e en-AU. Per altre informazioni, vedere markup di sintesi vocale.

Voce neurale personalizzata

Abilitazione per annullare il training durante il modello vocale di training. Altre informazioni su come annullare il training.
Abilitazione per clonare il modello (rinominare il modello vocale). Altre informazioni su come rinominare il modello vocale.
Abilitazione per testare il modello vocale aggiungendo uno script di test personalizzato. Altre informazioni su come caricare lo script di test.
Abilitazione per aggiornare la versione del motore per il modello vocale. Altre informazioni su come aggiornare la versione del motore di modelli.
Supporto per più aree di training. Vedere Supporto di area.
Supporto per 10 impostazioni locali supportate per CNV Lite (anteprima). Vedere Supporto per la lingua.

Strumento Creazione di contenuto audio

Abilitato per provare lo strumento Creazione di contenuto audio senza eseguire l'accesso.
Layout migliorato per regolare i fonemi.
Prestazioni migliorate: è stato specificato il numero massimo (200) di file caricabili contemporaneamente.
Prestazioni migliorate: è stato specificato il livello massimo di profondità della directory (5 livelli).

Versione di marzo 2022

Voce TTS neurale predefinita

Aggiunta del supporto nell'anteprima pubblica per gli stili di Cheerful e Sad con fr-FR-DeniseNeural. Vedere stili vocali e ruoli.
Contenitori disconnessi rilasciati per voci TTS neurali predefinite in anteprima pubblica. Vedere usare contenitori Docker in ambienti disconnessi.

Voce neurale personalizzata

Controllo supportato degli accessi in base al ruolo. Altre informazioni sul controllo degli accessi in base al ruolo di Azure in Speech Studio
Supporto per endpoint privati e endpoint servizio di rete virtuale. Altre informazioni su come usare endpoint privati con il servizio voce.

Strumento Creazione di contenuto audio

Aggiornamento delle dimensioni del file e del limite di concorrenza per le risorse di livello gratuito (F0) per rendere l'esperienza coerente con Speech SDK e le API. Vedere quote e limiti del servizio Voce.

Versione di febbraio 2022

Voce neurale personalizzata

Sintesi vocale neurale è stata rilasciata in anteprima pubblica. Altre informazioni su Sintesi vocale neurale.
Supporto della lingua esteso a 49 impostazioni locali. Vedere Supporto per la lingua.
Supporto per più aree/data center. Vedere Supporto di area.

Strumento Creazione di contenuto audio

Rimosso il limite di lunghezza dell'output per il download di audio.

Versione di gennaio 2022

Nuove lingue e voci

Aggiunta di 10 nuove lingue e varianti per la sintesi vocale neurale:

Lingua	Impostazioni locali	Genere	Nome della voce	Supporto dello stile
Bengalese (India)	`bn-IN`	Femmina	`bn-IN-TanishaaNeural`^New	Generali
Bengalese (India)	`bn-IN`	Maschio	`bn-IN-BashkarNeural`^New	Generali
Islandese (Islanda)	`is-IS`	Femmina	`is-IS-GudrunNeural`^New	Generali
Islandese (Islanda)	`is-IS`	Maschio	`is-IS-GunnarNeural`^New	Generali
Kannada (India)	`kn-IN`	Femmina	`kn-IN-SapnaNeural`^New	Generali
Kannada (India)	`kn-IN`	Maschio	`kn-IN-GaganNeural`^New	Generali
Kazaco (Kazakstan)	`kk-KZ`	Femmina	`kk-KZ-AigulNeural`^New	Generali
Kazaco (Kazakstan)	`kk-KZ`	Maschio	`kk-KZ-DauletNeural`^New	Generali
Lao (Laos)	`lo-LA`	Femmina	`lo-LA-KeomanyNeural`^New	Generali
Lao (Laos)	`lo-LA`	Maschio	`lo-LA-ChanthavongNeural`^New	Generali
Macedone (Repubblica della Macedonia del Nord)	`mk-MK`	Femmina	`mk-MK-MarijaNeural`^New	Generali
Macedone (Repubblica della Macedonia del Nord)	`mk-MK`	Maschio	`mk-MK-AleksandarNeural`^New	Generali
Malayalam (India)	`ml-IN`	Femmina	`ml-IN-SobhanaNeural`^New	Generali
Malayalam (India)	`ml-IN`	Maschio	`ml-IN-MidhunNeural`^New	Generali
Pashto (Afghanistan)	`ps-AF`	Femmina	`ps-AF-LatifaNeural`^New	Generali
Pashto (Afghanistan)	`ps-AF`	Maschio	`ps-AF-GulNawazNeural`^New	Generali
Serbo (Serbia, alfabeto cirillico)	`sr-RS`	Femmina	`sr-RS-SophieNeural`^New	Generali
Serbo (Serbia, alfabeto cirillico)	`sr-RS`	Maschio	`sr-RS-NicholasNeural`^New	Generali
Singalese (Sri Lanka)	`si-LK`	Femmina	`si-LK-ThiliniNeural`^New	Generali
Singalese (Sri Lanka)	`si-LK`	Maschio	`si-LK-SameeraNeural`^New	Generali

Per un elenco completo delle voci disponibili, vedere Supporto delle lingue.

Nuove voci in anteprima

Aggiunta di nuove voci per en-GB, fr-FR e de-DE in anteprima:

Lingua	Impostazioni locali	Genere	Nome della voce	Supporto dello stile
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-AbbiNeural`^New	Generali
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-BellaNeural`^New	Generali
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-HollieNeural`^New	Generali
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-OliviaNeural`^New	Generali
Inglese (Regno Unito)	`en-GB`	Ragazza	`en-GB-MaisieNeural`^New	Generali
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-AlfieNeural`^New	Generali
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-ElliotNeural`^New	Generali
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-EthanNeural`^New	Generali
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-NoahNeural`^New	Generali
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-OliverNeural`^New	Generali
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-ThomasNeural`^New	Generali
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-BrigitteNeural`^New	Generali
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-CelesteNeural`^New	Generali
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-CoralieNeural`^New	Generali
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-JacquelineNeural`^New	Generali
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-JosephineNeural`^New	Generali
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-YvetteNeural`^New	Generali
Francese (Francia)	`fr-FR`	Ragazza	`fr-FR-EloiseNeural`^New	Generali
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-AlainNeural`^New	Generali
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-ClaudeNeural`^New	Generali
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-JeromeNeural`^New	Generali
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-MauriceNeural`^New	Generali
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-YvesNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-AmalaNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-ElkeNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-KlarissaNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-LouisaNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-MajaNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-TanjaNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Ragazza	`de-DE-GiselaNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-BerndNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-ChristophNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-KasperNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-KillianNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-KlausNeural`^New	Generali
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-RalfNeural`^New	Generali

Per un elenco completo delle voci disponibili, vedere Supporto delle lingue.

Accuratezza della pronuncia

Miglioramento della pronuncia delle parole in inglese per tutte le voci he-IL.
Miglioramento dell'accuratezza della pronuncia a livello di parola per cs-CZ e da-DK.
Miglioramento della gestione dei segni diacritici per l’arabo e gestione del niqqud per l’ebraico.
Miglioramento della lettura delle entità per ja-JP

Speech Studio

Voce neurale personalizzata: abilitazione di test del modello aggiuntivi tramite l'API batch (API audio lunga)
Creazione di contenuto audio: abilitazione di altri formati di output

Versione di ottobre 2021

Nuove lingue e voci

Aggiunta di 49 nuove lingue e 98 voci per la sintesi vocale neurale:

Adri in af-ZA afrikaans (Sudafrica), Willem in af-ZA afrikaans (Sudafrica), Mekdes in am-ET amarico (Etiopia), Ameha in am-ET amarico (Etiopia), Fatima in ar-AE arabo (Emirati Arabi Uniti), Hamdan in ar-AE arabo (Emirati Arabi Uniti), Laila in ar-BH arabo (Bahrein), Ali in ar-BH arabo (Bahrein), Amina in ar-DZ arabo (Algeria), Ismael in ar-DZ arabo (Algeria), Rana in ar-IQ arabo (Iraq), Bassel in ar-IQ arabo (Iraq), Sana in ar-JO arabo (Giordania), Taim in ar-JO arabo (Giordania), Noura in ar-KW arabo (Kuwait), Fahed in ar-KW arabo (Kuwait), Iman in ar-LY arabo (Libia), Omar in ar-LY arabo (Libia), Mouna in ar-MA arabo (Marocco), Jamal in ar-MA arabo (Marocco), Amal in ar-QA arabo (Qatar), Moaz in ar-QA arabo (Qatar), Amany in ar-SY arabo (Siria), Laith in ar-SY arabo (Siria), Reem in ar-TN arabo (Tunisia), Hedi in ar-TN arabo (Tunisia), Maryam in ar-YE arabo (Yemen), Saleh in ar-YE arabo (Yemen), Nabanita in bn-BD bengalese (Bangladesh), Pradeep in bn-BD bengalese (Bangladesh), Asilia in en-KE inglese (Kenya), Chilemba in en-KE inglese (Kenya), Ezinne in en-NG inglese (Nigeria), Abeo in en-NG inglese (Nigeria), Imani in en-TZ inglese (Tanzania), Elimu in en-TZ inglese (Tanzania), Sofia in es-BO spagnolo (Bolivia), Marcelo in es-BO spagnolo (Bolivia), Catalina in es-CL spagnolo (Cile), Lorenzo in es-CL spagnolo (Cile), Maria in es-CR spagnolo (Costa Rica), Juan in es-CR spagnolo (Costa Rica), Belkys in es-CU spagnolo (Cuba), Manuel in es-CU spagnolo (Cuba), Ramona in es-DO spagnolo (Repubblica Dominicana), Emilio in es-DO spagnolo (Repubblica Dominicana), Andrea in es-EC spagnolo (Ecuador), Luis in es-EC spagnolo (Ecuador), Teresa in es-GQ spagnolo (Guinea Equatoriale), Javier in es-GQ spagnolo (Guinea Equatoriale), Marta in es-GT spagnolo (Guatemala), Andres in es-GT spagnolo (Guatemala), Karla in es-HN spagnolo (Honduras), Carlos in es-HN spagnolo (Honduras), Yolanda in es-NI spagnolo (Nicaragua), Federico in es-NI spagnolo (Nicaragua), Margarita in es-PA spagnolo (Panama), Roberto in es-PA spagnolo (Panama), Camila in es-PE spagnolo (Perù), Alex in es-PE spagnolo (Perù), Karina in es-PR spagnolo (Porto Rico), Victor in es-PR spagnolo (Porto Rico), Tania in es-PY spagnolo (Paraguay), Mario in es-PY spagnolo (Paraguay), Lorena in es-SV spagnolo (El Salvador), Rodrigo in es-SV spagnolo (El Salvador), Valentina in es-UY spagnolo (Uruguay), Mateo in es-UY spagnolo (Uruguay), Paola in es-VE spagnolo (Venezuela), Sebastian in es-VE spagnolo (Venezuela), Dilara in fa-IR persiano (Iran), Farid in fa-IR persiano (Iran), Blessica in fil-PH filippino (Filippine), Angelo in fil-PH filippino (Filippine), Sabela in gl-ES gallego, Roi in gl-ES gallego, Siti in jv-ID giavanese (Indonesia), Dimas in jv-ID giavanese (Indonesia), Sreymom in km-KH khmer (Cambogia), Piseth in km-KH khmer (Cambogia), Nilar in my-MM birmano (Myanmar), Thiha in my-MM birmano (Myanmar), Ubax in so-SO somalo (Somalia), Muuse in so-SO somalo (Somalia), Tuti in su-ID sundanese (Indonesia), Jajang in su-ID sundanese (Indonesia), Rehema in sw-TZ swahili (Tanzania), Daudi in sw-TZ swahili (Tanzania), Saranya in ta-LK tamil (Sri Lanka), Kumar in ta-LK tamil (Sri Lanka), Venba in ta-SG tamil (Singapore), Anbu in ta-SG tamil (Singapore), Gul in ur-IN urdu (India), Salman in ur-IN urdu (India), Madina in uz-UZ usbeco (Uzbekistan), Sardor in uz-UZ usbeco (Uzbekistan), Thando in zu-ZA zulù (Sudafrica), Themba in zu-ZA zulu (Sudafrica).

Versione di settembre 2021

Nuova voce chatbot in en-US inglese (Stati Uniti): Sara, rappresenta un giovane adulto femminile che parla più casualmente e si adatta meglio agli scenari di chatbot.
Nuovi stili aggiunti per ja-JP voce giapponese Nanami: tre nuovi stili sono ora disponibili per Nanami: chat, servizio clienti e allegro.
Miglioramento generale della pronuncia: Ardi in id-ID, Premwadee in th-TH, Christel in da-DK, HoaiMy e NamMinh in vi-VN.
Due nuove voci in zh-CN cinese (mandarino, Cina) in anteprima: Xiaochen & Xiaoyan, ottimizzate per scenari di riconoscimento vocale spontaneo e servizio clienti.

Versione di luglio 2021

Aggiornamenti di sintesi vocale neurale

Riduzione degli errori di pronuncia in ebraico del 20%.

Aggiornamenti di Speech Studio

Voce neurale personalizzata: aggiornata la pipeline di training a UniTTSv3 con cui la qualità del modello è migliorata mentre il tempo di training è ridotto del 50% per i modelli acustici.
Creazione di contenuto audio: è stato risolto il problema di prestazioni "Esporta" e il bug relativo alla selezione vocale neurale personalizzata.

Versione di giugno 2021

Aggiornamenti di Speech Studio

Voce neurale personalizzata: il training vocale neurale personalizzato è stato esteso per supportare l'Asia sud-orientale. Nuove funzionalità rilasciate per supportare il controllo dello stato del caricamento dei dati.
Creazione di contenuto audio: è stata rilasciata una nuova funzionalità per supportare il lessico personalizzato. Con questa funzionalità, gli utenti possono creare facilmente i propri file lessico e definire la pronuncia personalizzata per l'output audio.

Versione di maggio 2021

Nuove lingue e voci aggiunte per TTS neurale

Dieci nuove lingue introdotte - 20 nuove voci in 10 nuove impostazioni locali sono state aggiunte all'elenco delle lingue TTS neurali: Yan in en-HK inglese (Hong Kong), Sam in en-HK inglese (Hong Kong), Molly in en-NZ inglese (Nuova Zelanda), Mitchell in en-NZ inglese (Nuova Zelanda), Luna in en-SG inglese (Singapore), Wayne in inglese en-SG (Singapore), Leah in en-ZA inglese (Sudafrica), Luke in en-ZA inglese (Sudafrica), Dhwani in gu-IN gujarati (India), Niranjan in gu-IN gujarati (India), Aarohi in mr-IN marathi (India), Manohar in mr-IN marathi (India), Elena in es-AR spagnolo (Argentina), Tomas in es-AR spagnolo (Argentina), Salome in es-CO spagnolo (Colombia), Gonzalo in es-CO spagnolo (Colombia), Paloma in es-US spagnolo (USA), Alonso in es-US spagnolo (USA), Zuri in sw-KE swahili (Kenya), Rafiki in sw-KE swahili (Kenya).
Undici nuove voci en-US in anteprima - 11 nuove voci en-US in anteprima vengono aggiunte all'inglese americano. Sono Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica e Jacob.
Cinquezh-CN voci cinese (mandarino, semplificato) sono disponibili a livello generale - 5 voci cinesi (mandarino, semplificato) vengono modificate da anteprima a disponibile a livello generale. sono yunxi, xiaomo, xiaoman, xiaoxuan, xiaorui. Queste voci sono ora disponibili in tutte le aree. Aggiunta di Yunxi con un nuovo stile di "assistente", adatto per chat bot e agente vocale. Gli stili voce di Xiaomo sono stati raffinati per essere più naturali e in primo piano.

Versione di aprile 2021

Sintesi vocale neurale è disponibile in 21 aree

Dodici nuove aree aggiunte - La sintesi vocale neurale è ora disponibile nelle seguenti nuove 12 aree: Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US, West US 2. Controllare qui per un elenco completo delle 21 aree supportate.

Versione di marzo 2021

Nuove lingue e voci aggiunte per TTS neurale

Sei nuove lingue introdotte - 12 nuove voci in 6 nuove impostazioni locali vengono aggiunte nell'elenco delle lingue neurali TTS: Nia in cy-GB gallese (Regno Unito), Aled in cy-GB gallese (Regno Unito), Rosa in en-PH inglese (Filippine), James in en-PH inglese (Filippine), Charline in fr-BE francese (Belgio), Gerard in fr-BE francese (Belgio), Dena in nl-BE olandese (Belgio), Arnaud in nl-BE olandese (Belgio), Polina in uk-UA ucraino (Ucraina), Ostap in uk-UA ucraino (Ucraina), Uzma in ur-PK urdu (Pakistan), Asad in ur-PK urdu (Pakistan).
Cinque nuove voci dall’anteprima in disponibilità generale: 10 voci in 5 impostazioni locali introdotte a novembre ora sono in disponibilità generale: Kert in et-EE estone (Estonia), Colm in ga-IE irlandese (Irlanda), Nils in lv-LV lettone (Lettonia), Leonas in lt-LT lituano (Lituania), Joseph in mt-MT maltese (Malta).
Nuova voce maschile aggiunta per francese (Canada) - Una nuova voce Antoine è disponibile per fr-CA francese (Canada).
Miglioramento qualitativo - Riduzione del tasso di errore della pronuncia hu-HU ungherese - 48,17%, nb-NO norvegese - 52,76%, nl-NL olandese (Paesi Bassi) - 22,11%.

Con questa versione è ora supportato un totale di 142 voci neurali in 60 lingue/impostazioni locali. Inoltre, oltre 70 voci standard sono disponibili in 49 lingue/impostazioni locali. Per l'elenco completo, visitare supporto per la lingua.

Ottenere eventi di posa facciale per animare i personaggi

Sintesi vocale neurale include ora l'evento visema. Gli eventi Visema consentono agli utenti di ottenere una sequenza di pose facciali insieme al parlato sintetizzato. I visema possono essere usati per controllare il movimento dei modelli avatar 2D e 3D, abbinando i movimenti della bocca alla sintesi vocale. In questo momento gli eventi visema sono disponibili solo per la voce en-US-AriaNeural.

Aggiungere l'elemento segnalibro in Speech Synthesis Markup Language (SSML)

L'elemento segnalibro consente di inserire marcatori personalizzati in SSML per ottenere lo scostamento di ogni marcatore nel flusso audio. Possono essere usati per fare riferimento a una posizione specifica nella sequenza di testo o tag.

Versione di febbraio 2021

Disponibilità generale di sintesi vocale neurale

La voce neurale personalizzata avrà disponibilità generale a febbraio in 13 lingue: cinese (mandarino, semplificato), inglese (Australia), inglese (India), inglese (Regno Unito), inglese (Stati Uniti), francese (Canada), francese (Francia), tedesco (Germania), italiano (Italia), giapponese (Giappone), coreano (Corea), portoghese (Brasile), spagnolo (Messico) e spagnolo (Spagna). Altre informazioni su che cos'è la voce neurale personalizzata e come usarla in modo responsabile. La funzionalità sintesi vocale neurale richiede la registrazione e Microsoft potrebbe limitare l'accesso in base ai criteri di idoneità di Microsoft. Altre informazioni sull’accesso limitato.

Versione di dicembre 2020

Nuove voci neurali in disponibilità generale e anteprima

Sono state rilasciate 51 nuove voci per un totale di 129 voci neurali in 54 lingue/impostazioni locali:

46 nuove voci nelle impostazioni locali di disponibilità generale: Shakir in ar-EG arabo (Egitto), Hamed in ar-SA arabo (Arabia Saudita), Borislav in bg-BG bulgaro (Bulgaria), Joana in ca-ES catalano, Antonin in cs-CZ ceco (Repubblica Ceca), Jeppe in da-DK danese (Danimarca), Jonas in de-AT tedesco (Austria), Jan in de-CH tedesco (Svizzero), Nestoras in el-GR greco (Grecia), Liam in en-CA inglese (Canada), Connor in en-IE inglese (Irlanda), Madhur in en-IN Hindi (India), Mohan in en-IN telugu (India), Prabhat in en-IN inglese (India), Valluvar in en-IN tamil (India), Enric in es-ES catalano, Kert in et-EE estone (Estonia), Harri in fi-FI finlandese (Finlandia), Selma in fi-FI finlandese (Finlandia), Fabrice in fr-CH francese (Svizzera), Colm in ga-IE Irlandese (Irlanda), Avri in he-IL ebraico (Israele), Srecko in hr-HR croato (Croazia), Tamas in hu-HU ungherese (Ungheria), Gadis in id-ID indonesiano (Indonesia), Leonas in lt-LT lituano (Lituania), Nils in lv-LV lettone (Lettonia), Osman in ms-MY malese (Malaysia), Joseph in mt-MT maltese (Malta), Finn in nb-NO norvegese, Bokmål (Norvegia), Pernille in nb-NO norvegese, Bokmål (Norvegia), Fenna in nl-NL nederlandese (Paesi Bassi), Maarten in nl-NL olandese (Paesi Bassi), Agnieszka in pl-PL polacco (Polonia), Marek in pl-PL polacco (Polonia), Duarte in pt-BR portoghese (Brasile), Raquel in pt-PT portoghese (Portogallo), Emil in ro-RO rumeno (Romania), Dmitry in ru-RU russo (Russia), Svetlana in ru-RU russo (Russia), Lukas in sk-SK slovacco (Slovacchia), Rok in sl-SI sloveno (Slovenia), Mattias in sv-SE svedese (Svezia), Sofie in sv-SE svedese (Svezia), Niwat in th-TH tailandese (Tailandia), Ahmet in tr-TR turco (Turchia), NamMinh in vi-VN vietnamita (Vietnam), HsiaoChen in zh-TW mandarino taiwanese (Taiwan), YunJhe in zh-TW mandarino taiwanese (Taiwan), HiuMaan in zh-HK cantonese cinese (Regione amministrativa speciale di Hong Kong), WanLung in zh-HK cantonese cinese (Hong Kong SAR).
5 nuove voci nelle impostazioni locali di anteprima: Kert in et-EE estone (Estonia), Colm in ga-IE irlandese (Irlanda), Nils in lv-LV lettone (Lettonia), Leonas in lt-LT lituano (Lituania), Joseph in mt-MT maltese (Malta).

Con questa versione è ora supportato un totale di 129 voci neurali in 54 lingue/impostazioni locali. Inoltre, oltre 70 voci standard sono disponibili in 49 lingue/impostazioni locali. Per l'elenco completo, visitare supporto per la lingua.

Aggiornamenti per Creazione di contenuto audio

Interfaccia utente migliorata per la selezione della voce con categorie vocali e descrizioni dettagliate delle voci.
Abilitazione dell'ottimizzazione di intonazione per tutte le voci neurali nelle diverse lingue.
Automazione della localizzazione interfaccia utente in base alla lingua del browser.
Controlli StyleDegree abilitati per tutte le voci neurali zh-CN. Visita lo strumento Creazione di contenuto audio per scoprire le nuove funzionalità.

Aggiornamenti per le voci zh-CN

Aggiornate tutte le voci neurali zh-CN per supportare la lingua inglese.
Abilitate tutte le voci neurali zh-CN per supportare la regolazione dell'intonazione. Lo strumento SSML o Creazione di contenuto audio può essere usato per adattarsi alla migliore intonazione.
Aggiornate tutte le voci neurali a più stili zh-CN per supportare il controllo StyleDegree. L'intensità delle emozioni (lieve o intensa) è regolabile.
Aggiornamento di zh-CN-YunyeNeural per supportare più stili che possono eseguire emozioni diverse.

Versione di novembre 2020

Nuove impostazioni locali e voci in anteprima

Cinque nuove voci e lingue sono state introdotte nel portfolio di sintesi vocale neurale. Sono: Grazia in maltese (Malta), Ona in lituano (Lituania), Anu in estone (Estonia), Orla in irlandese (Irlanda) e Everita in lettone (Lettonia).
Cinque nuove voci zh-CN con più stili e ruoli supportano: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan e Yunxi.

Queste voci sono disponibili in anteprima pubblica in tre aree di Azure: EastUS, SouthEastAsia e WestEurope.

Disponibilità generale del contenitore di sintesi vocale neurale

Con il contenitore di sintesi vocale neurale, gli sviluppatori possono eseguire la sintesi vocale con le voci digitali più naturali nel proprio ambiente per requisiti specifici di sicurezza e governance dei dati. Verificare come installare i contenitori Voce.

Nuove funzionalità

Voce personalizzata: gli utenti sono abilitati a copiare un modello vocale da un'area a un'altra; è supportata la sospensione e la ripresa dell'endpoint. Passare al portale qui.
Supporto tag di silenzio SSML.
Miglioramenti generali della qualità della voce TTS: ottimizzata l'accuratezza della pronuncia a livello di parola in nb-NO. Riduzione dell'errore di pronuncia del 53%.

Per altre informazioni, vedere questo blog tecnico.

Versione di ottobre 2020

Nuove funzionalità

Jenny supporta un nuovo stile di newscast. Vedere come usare gli stili di pronuncia in SSML.
Voci neurali aggiornate al vocoder HiFiNet, con maggiore fedeltà audio e velocità di sintesi più rapida. Questo consente ai clienti il cui scenario si basa su audio hi-fi o interazioni lunghe, compresi doppiaggio video, audiolibri o materiali didattici online. Altre informazioni sulla storia e ascolto degli esempi vocali nel blog della community tecnica
Voce personalizzata e Creazione di contenuto audio localizzate in 17 impostazioni locali. Gli utenti possono passare facilmente tra l'interfaccia utente e una lingua locale, per un'esperienza più semplice.
Creazione di contenuto audio: aggiunta del controllo del grado di stile per XiaoxiaoNeural; perfezionata la funzionalità di interruzione personalizzata per includere interruzioni incrementali di 50 ms.

Miglioramenti generali della qualità vocale TTS

Miglioramento dell'accuratezza della pronuncia a livello di parola in pl-PL (riduzione della frequenza di errore: 51%) e in fi-FI (riduzione della frequenza di errore: 58%)
Miglioramento di lettura di singole parole ja-JP per lo scenario del dizionario. Riduzione dell'errore di pronuncia dell'80%.
zh-CN-XiaoxiaoNeural: miglioramento della qualità vocale dello stile sentiment/CustomerService/Newscast/Cheerful/Angry.
zh-CN: migliore pronuncia di erizzazione, tono chiaro e prosodia spaziale raffinata, che migliora notevolmente l'intelligibilità.

Versione di settembre 2020

Nuove funzionalità

Sintesi vocale neurale
- Esteso per supportare 18 nuove lingue/impostazioni locali. Si tratta di bulgaro, ceco, tedesco (Austria), tedesco (Svizzera), greco, inglese (Irlanda), francese (Svizzera), ebraico, croato, ungherese, indonesiano, malese, rumeno, slovacco, sloveno, tamil, telugu e vietnamita.
- Rilasciate 14 nuove voci per arricchire la varietà nelle lingue esistenti. Vedi l'elenco completo di lingue e voci.
- Nuovi stili di pronuncia per le voci en-US e zh-CN. Jenny, la nuova voce in inglese (Stati Uniti), supporta gli stili chatbot, servizio clienti e assistente. 10 nuovi stili di pronuncia sono disponibili con la nostra voce zh-CN, XiaoXiao. Inoltre, la voce neurale XiaoXiao supporta l'ottimizzazione StyleDegree. Vedere come usare gli stili di pronuncia in SSML.
Contenitori: il contenitore di sintesi vocale neurale è stato rilasciato in anteprima pubblica con 16 voci disponibili in 14 lingue. Altre informazioni su come distribuire i contenitori voce per la sintesi vocale neurale

Leggi l'annuncio completo degli aggiornamenti TTS per Ignite 2020

Versione di agosto 2020

Nuove funzionalità

Sintesi vocale neurale: nuovo stile di pronuncia per la voce Ariaen-US. AriaNeural può avere uno stile speaker durante la lettura delle notizie. Lo stile "notiziario-formale" risulta più serio, mentre lo stile "notiziario-informale" è più rilassato. Vedere come usare gli stili di pronuncia in SSML.
Voce personalizzata: viene rilasciata una nuova funzionalità per controllare automaticamente la qualità dei dati di training. Quando si caricano i dati, il sistema esaminerà vari aspetti dei dati audio e trascriverà i dati; inoltre correggerà o filtrerà automaticamente i problemi per migliorare la qualità del modello vocale. Questo interessa il volume dell'audio, il livello di rumore, l'accuratezza della pronuncia del parlato, l'allineamento del parlato con il testo normalizzato, il silenzio nell'audio, ma anche il formato audio e script.
Creazione di contenuto audio: un set di nuove funzionalità per abilitare funzionalità di ottimizzazione vocale e gestione audio più potenti.
- Pronuncia: la funzionalità di ottimizzazione della pronuncia viene aggiornata al set fonema più recente. È possibile selezionare dalla libreria l'elemento fonema corretto e perfezionare la pronuncia delle parole selezionate.
- Download: la funzionalità audio "Download"/"Export" è stata migliorata per supportare la generazione di audio in base al paragrafo. È possibile modificare il contenuto nello stesso file/SSML, generando più output audio. Anche la struttura di file di "Download" è perfezionata. Ora, è possibile ottenere facilmente tutti i file audio in una cartella.
- Stato attività: l'esperienza di esportazione di più file è migliorata. In passato, quando si esportavano più file, se uno dei file dava errore, l'intera attività aveva esito negativo. Ma ora tutti gli altri file verranno esportati correttamente. Il report delle attività è arricchito con informazioni più dettagliate e strutturate. Ora con il report è possibile controllare i log per tutti i file e frasi non riusciti.
- Documentazione di SSML: collegata al documento SSML per controllare le regole per informazioni su come usare tutte le funzionalità di ottimizzazione.
L'API Elenco voci viene aggiornata per includere un nome visualizzato descrittivo e gli stili di pronuncia supportati per le voci neurali.

Miglioramenti generali della qualità vocale TTS

Riduzione della percentuale di errore di pronuncia a livello di parola per ru-RU (errori ridotti del 56%) e sv-SE (errori ridotti del 49%)
Miglioramento della lettura della parola in polifonia del 40% sulle voci neurali en-US. Esempi di parole inglesi in polifonia includono "read", "live", "content", "record", "object" e così via.
Miglioramento della naturalezza del tono della domanda in fr-FR. Punteggio MOS (Media Opinion Score): +0,28
Aggiornati i vocoder per le voci seguenti, con miglioramenti della fedeltà e velocità complessiva delle prestazioni del 40%.

Impostazioni locali Voce

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Impostazioni locali	Voce
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Correzioni di bug

Correzione di diversi bug con lo strumento Creazione di contenuto audio
- Correzione del problema relativo all'aggiornamento automatico.
- Correzione dei problemi relativi agli stili di voce in zh-CN nell'area dell’Asia sud-orientale.
- È stato risolto un problema di stabilità, incluso un errore di esportazione con il tag 'break' ed errori nella punteggiatura.

Versione di aprile 2024

Traduzione vocale multilingue automatica (anteprima)

La traduzione vocale multilingue automatica è disponibile in anteprima pubblica. Questa caratteristica innovativa rivoluziona il modo in cui le barriere linguistiche vengono superate, offrendo funzionalità ineguagliabili per una comunicazione senza interruzioni in diversi paesaggi linguistici.

Evidenziazioni chiave

Lingua di input non specificata: la traduzione vocale multilingue può ricevere audio in un'ampia gamma di lingue e non è necessario specificare la lingua di input prevista. Lo rende una funzionalità preziosa per comprendere e collaborare tra contesti globali senza la necessità di preimpostazioni.
Cambio di lingua: la traduzione vocale multilingue consente di pronunciare più lingue durante la stessa sessione e di convertirle tutte nella stessa lingua di destinazione. Non è necessario riavviare una sessione quando la lingua di input cambia o qualsiasi altra azione da parte dell'utente.

Funzionamento

Interprete di viaggio: la traduzione vocale multilingue può migliorare l'esperienza dei turisti che visitano destinazioni straniere fornendo loro informazioni e assistenza nella lingua preferita. Servizi concierge dell'hotel, visite guidate e centri visitatori possono utilizzare questa tecnologia per soddisfare esigenze linguistiche diverse.
Conferenze internazionali: la traduzione vocale multilingue può facilitare la comunicazione tra partecipanti provenienti da diverse aree geografiche che potrebbero parlare diverse lingue usando didascalia tradotte dal vivo. I partecipanti possono parlare nelle lingue native senza doverli specificare, garantendo una comprensione e una collaborazione senza problemi.
Riunioni didattiche: in classi multi-culturali o ambienti di apprendimento online, la traduzione vocale multilingue può supportare la diversità linguistica tra studenti e insegnanti. Consente una comunicazione e una partecipazione senza la necessità di specificare la lingua di ogni studente o insegnante.

Modalità di accesso

Per un'introduzione dettagliata, vedere Panoramica della traduzione vocale. È anche possibile fare riferimento agli esempi di codice in come tradurre la voce. Questa nuova funzionalità è completamente supportata da tutte le versioni dell'SDK dalla versione 1.37.0 in poi.

Riconoscimento vocale in tempo reale con diariazation (GA)

Il riconoscimento vocale in tempo reale con diariazation è ora disponibile a livello generale.

È possibile creare la voce in applicazioni di testo che usano la diarizzazione per distinguere tra i diversi relatori che partecipano alla conversazione. Per altre informazioni sulla diarizzazione in tempo reale, vedere la guida introduttiva alla diarizzazione in tempo reale.

Aggiornamento del modello di riconoscimento vocale

Il riconoscimento vocale in tempo reale ha rilasciato nuovi modelli con funzionalità bilingue. Il en-IN modello ora supporta scenari bilingue sia inglese che hindi e offre una maggiore accuratezza. Le impostazioni locali arabe (ar-AE, ar-BH, ar-ILar-DZ, ar-IQ, ar-KW, ar-LB, ar-MAar-PSar-SAar-SYar-OMar-QAar-LY, ar-TNar-YE) sono ora dotate di supporto bilingue per l'inglese, l'accuratezza avanzata e il supporto del call center.

La trascrizione batch fornisce modelli con una nuova architettura per queste impostazioni locali: es-ES, es-MX, fr-FRit-IT, ja-JPko-KR, , pt-BR, e zh-CN. Questi modelli migliorano significativamente la leggibilità e il riconoscimento delle entità.

Versione di marzo 2024

Sussurrare la disponibilità generale (GA)

Il modello di riconoscimento vocale Sussurra con Riconoscimento vocale di Intelligenza artificiale di Azure è ora disponibile a livello generale.

Per altre informazioni sull'uso di Riconoscimento vocale per Voce di Azure AI, vedere Che cos'è il modello Whisper? Servizio OpenAI di Azure.

Versione di febbraio 2024

Valutazione della pronuncia

La valutazione della pronuncia vocale supporta ora 23 lingue disponibili a livello generale (con 5 nuove lingue aggiunte), con altre 3 lingue disponibili in anteprima pubblica. Per altre informazioni, vedere elenco completo della lingua per la valutazione della pronuncia.

Lingua	Impostazioni locali (BCP-47)
Arabo (Egitto)	`ar-EG`¹
Arabo (Arabia Saudita)	`ar-SA`
Cinese (cantonese, tradizionale)	`zh-HK`¹
Cinese (mandarino, semplificato)	`zh-CN`
Olandese (Paesi Bassi)	`nl-NL`¹
Inglese (Australia)	`en-AU`
Inglese (Canada)	`en-CA`
Inglese (India)	`en-IN`
Inglese (Regno Unito)	`en-GB`
Inglese (Stati Uniti)	`en-US`
Francese (Canada)	`fr-CA`
Francese (Francia)	`fr-FR`
Tedesco (Germania)	`de-DE`
Hindi (India)	`hi-IN`
Italiano (Italia)	`it-IT`
Giapponese (Giappone)	`ja-JP`
Coreano (Corea)	`ko-KR`
Malese (Malaysia)	`ms-MY`
Norvegese (Bokmål) Norvegia	`nb-NO`
Portoghese (Brasile)	`pt-BR`
Russo (Russia)	`ru-RU`
Spagnolo (Messico)	`es-MX`
Spagnolo (Spagna)	`es-ES`
Svedese (Svezia)	`sv-SE`
Tamil (India)	`ta-IN`
Vietnamita (Vietnam)	`vi-VN`

¹ La lingua è disponibile in anteprima pubblica per la valutazione della pronuncia.

Elenco di frasi

Aggiunta del supporto dell'elenco di frasi per le impostazioni locali seguenti: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Versione di novembre 2023

Introduzione alla modellazione conversione voce/testo bilingue!

Siamo entusiasti di presentare un'aggiunta rivoluzionaria alla nostra modellazione del parlato in tempo reale: la modellazione voce bilingue. Questo miglioramento significativo consente al modello di conversione voce/testo di supportare senza problemi coppie bilingue, ad esempio inglese e spagnolo, nonché inglese e francese. Questa funzionalità consente agli utenti di passare facilmente tra le lingue durante le interazioni in tempo reale, segnando un momento fondamentale nel nostro impegno a migliorare le esperienze di comunicazione.

Elementi chiave:

Supporto bilingue: con la versione più recente, gli utenti possono passare facilmente dall'inglese allo spagnolo o dall'inglese al francese, in tempo reale, durante le interazioni vocali. Questa funzionalità è personalizzata per ospitare i parlanti bilingue che spesso passano tra queste due lingue.
Esperienza utente migliorata: i relatori bilingue, sia al lavoro, a casa o in diversi scenari della community, troveranno questa funzionalità immensamente vantaggiosa. La capacità del modello di comprendere e rispondere sia all'inglese sia allo spagnolo in tempo reale apre nuove possibilità di comunicazione efficace e fluida.

Uso:

Scegliere es-US (spagnolo e inglese) o fr-CA (francese e inglese) quando si chiama l'API del Servizio cognitivo di Azure o provarla in Speech Studio. È possibile parlare liberamente una lingua o combinarle: il modello è progettato per adattarsi in modo dinamico, fornendo risposte accurate e con riconoscimento del contesto in entrambe le lingue.

È il momento di elevare il tuo gioco di comunicazione con la nostra versione più recente della funzionalità, senza problemi di comunicazione multilingue a portata di mano!

Aggiornamento dei modelli di riconoscimento vocale

Siamo lieti di introdurre un aggiornamento significativo dei modelli conversione voce/testo, in grado di restituire accuratezza avanzata, migliore leggibilità e raffinato riconoscimento delle entità. Questo aggiornamento include una nuova struttura solida, sostenuta da un set di dati di training esteso che garantisce un marcato miglioramento delle prestazioni complessive. Include nuovi modelli rilasciati per en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE e he-IL.

Elementi in evidenza:

Maggiore accuratezza con la nuova struttura del modello: è ridefinita e abbinata a un set di dati di training più completo, con elevati i livelli di accuratezza e un output parlato più preciso.
Miglioramento della leggibilità: il nostro modello più recente offre un notevole impulso alla leggibilità, migliorando la coerenza e la chiarezza del contenuto parlato.
Riconoscimento avanzato delle entità: il riconoscimento entità riceve un aggiornamento sostanziale, ottenendo risultati più accurati e sfumati.

Potenziali impatti: nonostante questi progressi, è fondamentale tenere conto dei potenziali impatti:

Funzionalità di timeout del silenzio personalizzato: gli utenti che usano un timeout di silenzio personalizzato, in particolare con impostazioni basse, potrebbero riscontrare una segmentazione eccessiva e potenziali omissioni di frasi a parola singola.
Il nuovo modello potrebbe presentare problemi di compatibilità con la funzionalità Prefisso parola chiave e gli utenti sono invitati a valutare le prestazioni nelle applicazioni specifiche.
Riduzione delle parole o frasi di disfluenza: gli utenti potrebbero notare una riduzione delle parole o delle frasi di disfluenza come "um" o "uh" nell'output vocale.
Imprecisioni nella durata del timestamp delle parole: alcune parole di disfluenza potrebbero mostrare imprecisioni nella durata del timestamp, e richiedono attenzione nelle applicazioni dipendenti da tempi precisi.
Varianza della distribuzione del punteggio di attendibilità: gli utenti che si basano sui punteggi di attendibilità e sulle soglie associate devono essere consapevoli delle potenziali variazioni nella distribuzione, richiedendo regolazioni per prestazioni ottimali.
Il miglioramento dell'accuratezza della funzionalità dell'elenco di frasi potrebbe subire impatti dalla mancata conoscenza di determinate frasi.

Ti invitiamo a esplorare questi miglioramenti e a considerare i potenziali problemi per una transizione senza problemi e, come sempre, il tuo feedback è fondamentale per perfezionare e promuovere i nostri servizi.

Valutazione della pronuncia

Valutazione della pronuncia del parlato supporta ora 18 lingue disponibili a livello generale, con sei lingue disponibili in anteprima pubblica. Per altre informazioni, vedere elenco completo della lingua per la valutazione della pronuncia.
Siamo lieti di annunciare che in Valutazione della pronuncia saranno introdotte nuove funzionalità a partire dal 1° novembre 2023: Prosodia, Grammatica, Vocabolario e Argomento. Questi miglioramenti puntano a offrire un'esperienza di apprendimento linguistico ancora più completa per le valutazioni sia di lettura che di parlato. Eseguire l'aggiornamento all'SDK versione 1.35.0 o successiva per esplorare altri dettagli nella valutazione della pronuncia e della pronuncia in Speech Studio.

Versione di settembre 2023

Anteprima pubblica di Whisper

Voce di Azure AI supporta ora il modello Whisper di OpenAI tramite l'API di trascrizione batch. Per altre informazioni, vedere la guida Creare una trascrizione batch.

Nota

Servizio OpenAI di Azure supporta anche il modello Whisper di OpenAI per il riconoscimento vocale con API REST sincrona. Per altre informazioni, vedere guida introduttiva.

Per altre informazioni sull'uso di Riconoscimento vocale per Voce di Azure AI, vedere Che cos'è il modello Whisper? Servizio OpenAI di Azure.

Anteprima pubblica di API REST Riconoscimento vocale v3.2

API REST Riconoscimento vocale v3.2 è disponibile in anteprima. API REST Riconoscimento vocale v3.1 è disponibile a livello generale. API REST Riconoscimento vocale v3.0 verrà ritirata il 1° aprile 2026. Per altre informazioni, vedere le guide alla migrazione dell'API REST Riconoscimento vocale v3.0 a v3.1 e v3.1 alla v3.2.

Versione di agosto 2023

Nuove impostazioni locali di riconoscimento vocale:

Riconoscimento vocale supporta due nuove impostazioni locali, come illustrato nella tabella seguente. Fare riferimento all'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`pa-IN`	Punjabi (India)
`ur-IN`	Urdu (India)

Valutazione della pronuncia

Valutazione della pronuncia di Voce ora supporta 3 lingue aggiuntive disponibili a livello generale in inglese (Canada), inglese (India) e francese (Canada), con 3 lingue aggiuntive disponibili in anteprima. Per altre informazioni, vedere elenco completo della lingua per la valutazione della pronuncia.

Versione di maggio 2023

Valutazione della pronuncia

Valutazione della pronuncia di Voce ora supporta 3 lingue aggiuntive disponibili a livello generale in tedesco (Germania), giapponese (Giappone) e spagnolo (Messico), con 4 lingue aggiuntive disponibili in anteprima. Per altre informazioni, vedere elenco completo della lingua per la valutazione della pronuncia.
È ora possibile usare il livello di impegno standard di impegno riconoscimento vocale per la valutazione della pronuncia in tutte le aree pubbliche. Se si acquista un livello di impegno per il riconoscimento vocale standard, la spesa per la valutazione della pronuncia va verso il raggiungimento dell'impegno. Vedere prezzi del livello di impegno.

Versione di febbraio 2023

Valutazione della pronuncia

Valutazione della pronuncia di Voce ora supporta 5 lingue aggiuntive disponibili a livello generale in inglese (Regno Unito), inglese (Australia), francese (Francia), spagnolo (Spagna) e cinese (mandarino, semplificato), con altre lingue disponibili in anteprima.
Sono stati aggiunti codici di esempio che illustrano come usare la valutazione della pronuncia in modalità di streaming nella propria applicazione.
- Visualizzacodice di esempio.
- Visualizzacodice di esempio.
- Java: vedere il codice di esempio.
- JavaScript: vedere il codice di esempio.
- Objective-C: vedere il codice di esempio.
- Python: vedere il codice di esempio.
- Swift: vedere il codice di esempio.

Riconoscimento vocale personalizzato

Per le impostazioni locali de-AT viene aggiunto il supporto per la trascrizione con etichetta audio e umana.

Versione di gennaio 2023

Riconoscimento vocale personalizzato

Il supporto per la trascrizione con etichetta audio e umana viene aggiunto per impostazioni locali aggiuntive: ar-BH, ar-DZar-MAar-SAar-EG, ar-TN, ar-YE, e ja-JP.

Il supporto per l'adattamento di testo strutturato viene aggiunto per le impostazioni locali de-AT.

Versione di dicembre 2022

API REST di riconoscimento vocale

API REST Riconoscimento vocale versione 3.1 è in disponibilità generale. La versione 3.0 dell'API REST Riconoscimento vocale verrà ritirata. Per altre informazioni su come eseguire la migrazione, vedere la guida.

Versione di ottobre 2022

Nuove impostazioni locali per il riconoscimento vocale

Aggiunta del supporto per Malayalam (India) con le impostazioni locali ml-IN. Vedere l'elenco completo delle lingue qui.

Versione di luglio 2022

Nuove impostazioni locali di riconoscimento vocale:

Sono state aggiunte 7 nuove impostazioni locali, come illustrato nella tabella seguente. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`bs-BA`	Bosniaco (Bosnia ed Erzegovina)
`yue-CN`	Cinese (Cantonese, semplificato)
`zh-CN-sichuan`	Cinese (mandarino sud-occidentale, semplificato)
`wuu-CN`	Cinese (Wu, semplificato)
`ps-AF`	Pashto (Afghanistan)
`so-SO`	Somalo (Somalia)
`cy-GB`	Gallese (Regno Unito)

Versione di giugno 2022

Nuove impostazioni locali di riconoscimento vocale:

Aggiunta di 10 nuove impostazioni locali, come illustrato nella tabella seguente. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`sq-AL`	Albanese (Albania)
`hy-AM`	Armeno (Armenia)
`az-AZ`	Azerbaigiano (Azerbaigian)
`eu-ES`	Basco
`gl-ES`	Galiziano
`ka-GE`	Georgiano (Georgia)
`it-CH`	Italiano (Svizzera)
`kk-KZ`	Kazaco (Kazakstan)
`mn-MN`	Mongolo (Mongolia)
`ne-NP`	Nepalese (Nepal)

Versione di aprile 2022

Nuove impostazioni locali di riconoscimento vocale:

Di seguito è riportato un elenco delle nuove impostazioni locali. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`bn-IN`	Bengalese (India)

Versione di gennaio 2022

Nuove impostazioni locali di riconoscimento vocale:

Di seguito è riportato un elenco delle nuove impostazioni locali. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`af-ZA`	Afrikaans (Sud Africa)
`am-ET`	Amarico (Etiopia)
`de-CH`	Tedesco (Svizzera)
`fr-BE`	Francese (Belgio)
`is-IS`	Islandese (Islanda)
`jv-ID`	Giavanese (Indonesia)
`km-KH`	Khmer (Cambogia)
`kn-IN`	Kannada (India)
`lo-LA`	Lao (Laos)
`mk-MK`	Macedone (Macedonia del Nord)
`my-MM`	Birmano (Myanmar)
`nl-BE`	Olandese (Belgio)
`si-LK`	Singalese (Sri Lanka)
`sr-RS`	Serbo (Serbia)
`sw-TZ`	Swahili (Tanzania)
`uk-UA`	Ucraino (Ucraina)
`uz-UZ`	Uzbeco (Uzbekistan)
`zu-ZA`	Zulu (Sudafrica)

Versione di luglio 2021

Nuove impostazioni locali di riconoscimento vocale:

Di seguito è riportato un elenco delle nuove impostazioni locali. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`ar-DZ`	Arabo (Algeria)
`ar-LY`	Arabo (Libia)
`ar-MA`	Arabo (Marocco)
`ar-TN`	Arabo (Tunisia)
`ar-YE`	Arabo (Yemen)
`bg-BG`	Bulgaro (Bulgaria)
`el-GR`	Greco (Grecia)
`et-EE`	Estone (Estonia)
`fa-IR`	Persiano (Iran)
`ga-IE`	Irlandese (Irlanda)
`hr-HR`	Croato (Croazia)
`lt-LT`	Lituano (Lituania)
`lv-LV`	Lettone (Lettonia)
`mt-MT`	Maltese (Malta)
`ro-RO`	Romeno (Romania)
`sk-SK`	Slovacco (Slovacchia)
`sl-SI`	Sloveno (Slovenia)
`sw-KE`	Swahili (Kenya)

Versione di gennaio 2021

Nuove impostazioni locali di riconoscimento vocale:

Di seguito è riportato un elenco delle nuove impostazioni locali. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`ar-AE`	Arabo (Emirati Arabi Uniti)
`ar-IL`	Arabo (Israele)
`ar-IQ`	Arabo (Iraq)
`ar-OM`	Arabo (Oman)
`ar-PS`	Arabo (Autorità Nazionale Palestinese)
`de-AT`	Tedesco (Austria)
`en-GH`	Inglese (Ghana)
`en-KE`	Inglese (Kenya)
`en-NG`	Inglese (Nigeria)
`en-TZ`	Inglese (Tanzania)
`es-GQ`	Spagnolo (Guinea Equatoriale)
`fil-PH`	Filippino (Filippine)
`fr-CH`	Francese (Svizzera)
`he-IL`	Ebraico (Israele)
`id-ID`	Indonesiano (Indonesia)
`ms-MY`	Malese (Malaysia)
`vi-VN`	Vietnamita (Vietnam)

Versione di agosto 2020

Nuove impostazioni locali per il riconoscimento vocale:

Il riconoscimento vocale ha rilasciato 26 nuove impostazioni locali in agosto: 2 lingue europee cs-CZ e hu-HU, 5 impostazioni locali inglesi e 19 impostazioni locali spagnole che coprono la maggior parte dei paesi/aree del Sudamerica. Di seguito è riportato un elenco delle nuove impostazioni locali. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`cs-CZ`	Ceco (Repubblica Ceca)
`en-HK`	Inglese (Regione amministrativa speciale di Hong Kong)
`en-IE`	Inglese (Irlanda)
`en-PH`	Inglese (Filippine)
`en-SG`	Inglese (Singapore)
`en-ZA`	Inglese (Sudafrica)
`es-AR`	Spagnolo (Argentina)
`es-BO`	Spagnolo (Bolivia)
`es-CL`	Spagnolo (Cile)
`es-CO`	Spagnolo (Colombia)
`es-CR`	Spagnolo (Costa Rica)
`es-CU`	Spagnolo (Cuba)
`es-DO`	Spagnolo (Repubblica Dominicana)
`es-EC`	Spagnolo (Ecuador)
`es-GT`	Spagnolo (Guatemala)
`es-HN`	Spagnolo (Honduras)
`es-NI`	Spagnolo (Nicaragua)
`es-PA`	Spagnolo (Panama)
`es-PE`	Spagnolo (Perù)
`es-PR`	Spagnolo (Porto Rico)
`es-PY`	Spagnolo (Paraguay)
`es-SV`	Spagnolo (El Salvador)
`es-US`	Spagnolo (USA)
`es-UY`	Spagnolo (Uruguay)
`es-VE`	Spagnolo (Venezuela)
`hu-HU`	Ungherese (Ungheria)

Versione di febbraio 2024

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 4.6.0
Riconoscimento vocale 4.6.0
Sintesi vocale neurale 3.1.0

Aggiornare i componenti di riconoscimento vocale alla versione più recente. Aggiornare tutti i modelli di impostazioni locali es alla versione più recente. Aumentare il buffer di trasformazione di file multimediali per i casi d'uso del riconoscimento vocale.

Versione di novembre 2023

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 4.5.0
Riconoscimento vocale 4.5.0
Sintesi vocale neurale 2.19.0

Versione di ottobre 2023

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 4.4.0
Riconoscimento vocale 4.4.0
Sintesi vocale neurale 2.18.0

Risolvere alcuni problemi di vulnerabilità per evento rischioso.

Rimuovere i log ridondanti nei contenitori.

Aggiornare il componente di file multimediali interno alla versione più recente.

Aggiungere il supporto per la voce en-IN-NeerjaNeural.

Versione di settembre 2023

Aggiungere il supporto per le versioni più recenti del modello:

Identificazione della lingua per la voce 1.12.0
Riconoscimento vocale personalizzato 4.3.0
Riconoscimento vocale 4.3.0
Sintesi vocale neurale 2.17.0

Aggiornare il riconoscimento vocale personalizzato al testo e il riconoscimento vocale al framework più recente.

Risolvere i problemi di vulnerabilità.

Aggiungere il supporto per la voce ar-AE-FatimaNeural.

Versione di luglio 2023

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 4.1.0
Riconoscimento vocale 4.1.0
Sintesi vocale neurale 2.15.0

Consente di risolvere il problema dell'esecuzione di un contenitore di riconoscimento vocale in esecuzione tramite le opzioni di montaggio docker con file di modelli personalizzati locali.

Consente di risolvere il problema per cui talvolta l'evento RECOGNIZING non viene visualizzato in risposta tramite Speech SDK.

Risolvere i problemi di vulnerabilità.

Versione di giugno 2023

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 4.0.0
Riconoscimento vocale 4.0.0
Sintesi vocale neurale 2.14.0

Le immagini per riconoscimento vocale locale sono aggiornate a .NET 6.0

Aggiornare i modelli di visualizzazione per le impostazioni locali, compresi en-us, ar-bhar-eg, ja-jp, ko-kr e altri.

Aggiornare il componente contenitore di riconoscimento vocale per risolvere i problemi di vulnerabilità.

Aggiungere il supporto per le voci delle impostazioni locali de-DE-AmalaNeural,de-AT-IngridNeuralde-AT-JonasNeural e en-US-JennyMultilingualNeural

Versione di maggio 2023

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.14.0
Riconoscimento vocale 3.14.0
Sintesi vocale neurale 2.13.0

Risolvere il problema di punteggiatura he-IL

Risolvere i problemi di vulnerabilità

Aggiungere una nuova voce delle impostazioni locali en-US-MichelleNeural e es-MX-CandelaNeural

Versione di aprile 2023

Aggiornamenti per la sicurezza

Risolvere i problemi di vulnerabilità

Versione di marzo 2023

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.12.0
Riconoscimento vocale 3.12.0
Identificazione della lingua per voce 1.11.0
Sintesi vocale neurale 2.11.0

Risolvere i problemi di vulnerabilità

Risolvere il problema di maiuscole e minuscole tr-TR

Aggiornare il riconoscimento vocale ai modelli di visualizzazione del testo en-US

Aggiungere il supporto neurale predefinito per la voce delle impostazioni locali per la sintesi vocale neurale ar-AE-HamdanNeural

Versione di febbraio 2023

Versioni del nuovo contenitore

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.11.0
Riconoscimento vocale 3.11.0
Sintesi vocale neurale 2.10.0

Risolvere i problemi di vulnerabilità

Aggiornamento regolare per i modelli conversione voce/testo

Aggiungere nuove impostazioni locali per arabo:

ar-IL
ar-PS

Aggiornare i modelli di visualizzazione per ebraico e turco

Versione di gennaio 2023

Versioni del nuovo contenitore

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.10.0
Riconoscimento vocale 3.10.0
Sintesi vocale neurale 2.9.0

Correzione del problema relativo alla modalità ipotesi

Correzione del problema del proxy HTTP

Modalità disconnessa contenitore riconoscimento vocale personalizzato

Aggiungere il supporto contenitore disconnesso CNV al front-end TTS

Aggiungere il supporto per queste voci di impostazioni locali:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Versione di dicembre 2022

Versioni del nuovo contenitore

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.9.0
Riconoscimento vocale 3.9.0
Sintesi vocale neurale 2.8.0

Correzione del problema ipv4/ipv6

Risolvere il problema di vulnerabilità

Versione di novembre 2022

Versioni del nuovo contenitore

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.8.0
Riconoscimento vocale 3.8.0
Sintesi vocale neurale 2.7.0

Versione di ottobre 2022

Versioni del nuovo contenitore

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.7.0
Riconoscimento vocale 3.7.0
Sintesi vocale neurale 2.6.0

Versione di settembre 2022

Riconoscimento vocale 3.6.0-amd64

Aggiungere il supporto per le versioni più recenti del modello.

Aggiungere il supporto per queste impostazioni locali:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

Aggiornamenti mensili regolari, inclusi gli aggiornamenti della sicurezza e le correzioni delle vulnerabilità.

Riconoscimento vocale personalizzato 3.6.0-amd64

Aggiornamenti mensili regolari, inclusi gli aggiornamenti della sicurezza e le correzioni delle vulnerabilità.

Sintesi vocale neurale 2.5.0

Aggiungere il supporto per queste voci neurali predefinite:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Aggiornamenti mensili regolari, inclusi gli aggiornamenti della sicurezza e le correzioni delle vulnerabilità.

Versione di maggio 2022

Contenitore di rilevamento lingua voce v1.9.0-amd64-preview

Correzioni di bug per il rilevamento della lingua parlata.

Versione di marzo 2022

Contenitore riconoscimento vocale personalizzato v3.1.0

Aggiungere il supporto per ottenere modelli di visualizzazione.

Versione di gennaio 2022

Contenitore riconoscimento vocale v3.0.0

Aggiungere il supporto per l'uso di contenitori in ambienti disconnessi.

Contenitore riconoscimento vocale v2.18.0

Aggiornamenti mensili regolari, inclusi gli aggiornamenti della sicurezza e le correzioni delle vulnerabilità.

Contenitore neurale-sintesi vocale neurale v1.12.0

Aggiungere il supporto per queste voci neurali predefinite: am-et-amehaneural, am-et-mekdesneural, so-so-muuseneural e so-so-ubaxneural.

Aggiornamenti mensili regolari, inclusi gli aggiornamenti della sicurezza e le correzioni delle vulnerabilità.