Cosa c'è di nuovo in Azure AI per i servizi vocali?

2025-06-21

Il servizio vocale di Azure AI viene aggiornato regolarmente. Per stare al passo con gli sviluppi più recenti, questo articolo fornisce informazioni sulle nuove versioni e funzionalità.

Evidenziazioni recenti

Per trascrivere contenuti multilingue in modo continuo e accurato in un file audio, è ora possibile usare il modello multilingue più recente senza specificare i codici delle impostazioni locali tramite l'API di trascrizione rapida. Per altre informazioni, vedere la trascrizione multilingue nella trascrizione rapida.
La trascrizione rapida è ora disponibile a livello generale. Può trascrivere l'audio molto più velocemente della durata effettiva dell'audio. Per altre informazioni, vedere la guida all'API di Trascrizione rapida.
L'estensione Azure AI Speech Toolkit è ora disponibile per gli utenti di Visual Studio Code. Contiene un elenco di guide introduttive di discorsi ed esempi di scenari che possono essere facilmente costruiti ed eseguiti con semplici clic. Per altre informazioni, vedere Azure AI Speech Toolkit in Visual Studio Code Marketplace.
Le voci HD (Speech High Definition) di Azure per intelligenza artificiale sono disponibili in anteprima pubblica. Le voci HD possono comprendere il contenuto, rilevare automaticamente le emozioni nel testo di input e regolare il tono di pronuncia in tempo reale in modo che corrisponda al sentiment. Per altre informazioni, vedere Che cosa sono le voci HD (Speech High Definition) di Azure per intelligenza artificiale?.
Traduzione video è ora disponibile nel servizio Voce di Azure AI. Per altre informazioni, vedere Che cos'è Traduzione video?.

Note sulla versione

Scegliere un servizio o una risorsa

Importante

La valutazione del contenuto (anteprima) tramite Speech SDK viene ritirata a luglio 2025. È invece possibile usare i modelli OpenAI di Azure per ottenere i risultati della valutazione del contenuto, come descritto nella documentazione relativa alla valutazione del contenuto.

Speech SDK 1.44: versione di maggio 2025

Importante

Il supporto per le piattaforme di destinazione sta cambiando:

La versione minima supportata di Android è ora Android 8.0 (livello API 26).
La pubblicazione dei pacchetti Unity di Speech SDK viene sospesa dopo questa versione.

Nuove funzionalità:

Aggiunta del supporto per le pagine di memoria da 16 KB di Android.
Riduzione della latenza degli eventi SpeechStartDetected nel riconoscimento vocale incorporato.
[C++, Python] Aggiunta di un metodo per ottenere le dimensioni disponibili di AudioDataStream.
[C++, Python] Aggiunta del supporto per URL lessico personalizzati e impostazioni locali preferite nelle richieste di sintesi vocale.
[Java, Python] Aggiunta del supporto per l'autenticazione basata su token di Microsoft Entra con l'aggiornamento automatico dei token.
[Vai] Supporto aggiunto per la trascrizione delle conversazioni.

Correzioni di bug

Correzione della sintesi vocale di traduzione non funzionante quando è stato usato il rilevamento della lingua di origine.
Correzione dei percorsi di file con caratteri non ASCII non funzionanti per modelli di riconoscimento vocale incorporati, modelli KWS o file di log (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288).
Correzione di un ciclo NoMatch nel riconoscimento vocale incorporato in determinate condizioni.
Correzione del problema del distruttore di oggetti nativi bloccati a causa del riconoscimento non contrassegnato come arrestato quando gli eventi vengono disconnessi.
Correzione del criterio di ricerca IntentRecognizer che non funziona correttamente con caratteri a più byte in determinate condizioni.
La chiamata Close() a un oggetto Connection non era sincrona.
Correzione di una race condition nella deallocazione della connessione che potrebbe causare un arresto anomalo.
[macOS] Correzione dei messaggi "Info:" visualizzati nella console (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610).

Esempi

[Python] Aggiunto codice di esempio per l'uso di recognizer con le credenziali del token Microsoft Entra.

SDK del riconoscimento vocale per JavaScript

Nuove funzionalità:

Dipendenza di sviluppo aggiornata: TypeScript 3.5.3 → 4.5
Aggiornamento di TranslationRecognizer per l'uso degli endpoint V2 per impostazione predefinita.
Aggiornamento di SpeechRecongizer per l'uso degli endpoint V2.
- Ciò comporta la mancata ricezione dei risultati NoMatch.
Aggiunta del supporto per l'autenticazione basata su token di Microsoft Entra per il riconoscimento vocale e la traduzione.
Aggiornamento dell'API FromEndpoint come metodo consigliato per la creazione di un SpeechConfig per la maggior parte degli scenari.
- Si applica all'uso di:
  - Riconoscitore vocale
  - TranslationRecognizer (tramite SpeechTranslationConfig)
  - Trascrittore di Conversazioni
  - Sintetizzatore vocale
- È ora possibile usare l'endpoint dal portale di Azure per le risorse Voce e Azure AI Foundry per costruire un oggetto SpeechConfig.
- Tutti gli altri metodi per costruire un speechConfig continuano a funzionare e sono supportati.

Correzioni di bug

Correzione di un ciclo di ripetizione dei tentativi di connessione infinito su codici di chiusura della connessione non supportati (https://github.com/microsoft/cognitive-services-speech-sdk-js/issues/896).

Interfaccia della riga di comando del riconoscimento vocale (SPX)

Nuove funzionalità

Aggiunta del supporto per l'autenticazione con le credenziali del token Microsoft Entra.
Aggiunta del supporto per l'API di trascrizione rapida.

Correzioni di bug

Correzione degli URL di input e degli elenchi di file/URL di input non funzionanti separati da punti e virgola, provenienti da un file.

Speech SDK 1.43: versione di marzo 2025

Nota

Ubuntu 20.04 "manutenzione della sicurezza standard" scadrà ad aprile 2025 e non sarà più disponibile come agenti di build ADO. Le versioni future di Speech SDK richiederanno Ubuntu 22.04 LTS (anziché Ubuntu 20.04) come versione minima supportata.

Nuove funzionalità:

Aggiornamento dell'API FromEndpoint come metodo consigliato per la creazione di un SpeechConfig per la maggior parte degli scenari.
- Si applica all'uso di:
  - Riconoscitore vocale
  - TranslationRecognizer (tramite SpeechTranslationConfig)
  - Trascrittore di Conversazioni
  - SpeechSynthesizer In tutti i linguaggi di programmazione ad eccezione di JavaScript.
- È ora possibile usare l'endpoint dal portale di Azure per le risorse Voce e Servizi cognitivi per costruire un oggetto SpeechConfig.
- Tutti gli altri metodi per costruire un speechConfig continuano a funzionare e sono supportati.
Aggiornamento di TranslationRecognizer per l'uso degli endpoint V2 per impostazione predefinita.
- In questo modo i parametri di controllo vengono spostati dall'URL ai messaggi nel canale quando si usa un endpoint V2.
- Modifica del comportamento: la lingua predefinita restituita per "zh" è ora "zh-CN" invece di "zh-hans"
Aggiunta di ID proprietà per SpeechSynthesis_FrameTimeoutInterval e SpeechSynthesis_RtfTimeoutThreshold.
Ottimizzato il numero di volte in cui l'SDK di riconnette per i riconoscimenti a esecuzione prolungata.
[C++, Python] Aggiunta del supporto per specificare lo stile e la temperatura nelle richieste di streaming di testo.
[C#] Aggiunta del supporto per l'aggiornamento automatico del token AAD quando si usa FromEndpoint per costruire un oggetto config.
- In questo modo viene aggiunta una dipendenza da Speech SDK al pacchetto nuget Azure.Core.
- Speech SDK può ora accettare oggetti derivati da TokenCredential per l'autenticazione quando si usa il SDK:
  - Riconoscitore vocale
  - Riconoscitore di Traduzione
  - Trascrittore di Conversazioni
[Objective-C] Aggiornamento di SPXTranslationRecognizer per supportare il rilevamento automatico della lingua di origine dall'intervallo aperto.
[Objective-C , Python] Sono state aggiunte le API di diagnostica EventLogger, FileLogger e MemoryLogger.
[Go]: Aggiunta del supporto TranslationRecognizer

Correzioni di bug

Corretto il supporto OpenSSL 3 su Linux arm32 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2736).
Correzione del campo di stato mancante nell'elenco voci di sintesi vocale (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2771).
Correzione del parser IntentRecognizer per i criteri di ricerca in lingua giapponese che non identificava correttamente i caratteri interi.
È stato risolto un potenziale problema relativo ai risultati duplicati del riconoscimento vocale incorporato.
[Java] Corretto il problema dei partecipanti vuoti in ConversationParticipantsChangedEventArgs su Android 12 e versioni successive (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2687).

Esempi

[C++] Aggiunta di un esempio per il riconoscimento finalità autonome usando criteri di ricerca.
- Con il ritiro del servizio LUIS nell'ottobre 2025 Speech SDK ritirerà anche la famiglia di oggetti IntentRecognizer.
- Prima di questo, volevamo condividere l'implementazione per il pattern matching.
[C++, C#, Java, Python] Aggiornamento della maggior parte degli esempi per l'uso dell'API FromEndpoint invece di FromSubscription.
[C#] È stato aggiunto un esempio di scenario per un'applicazione di riconoscimento vocale multilivello.
- Illustra una metodologia per la riproduzione audio e la riconnessione da un dispositivo perimetrale a un servizio di livello intermedio che inoltra quindi l'audio al servizio Voce tramite Speech SDK
[C#] Aggiornamenti degli esempi per l'uso dell'aggiornamento automatico del token AAD.
[Python] Sono stati aggiunti esempi per le nuove API di diagnostica.
[Unity] Aggiunta di istruzioni per l'installazione della nuova dipendenza di Azure.Core.

Speech SDK 1.42.0: versione di dicembre 2024

Nuove funzionalità

Java: aggiunta di API di registrazione diagnostica usando classi di FileLogger, MemoryLogger, EventLogger e SpxTrace.
Supporto dell'invio della proprietà JSON "details" del partecipante alla riunione al servizio
Go: aggiunta dell'ID proprietà pubblica SpeechServiceConnection_ProxyHostBypass per specificare gli host per cui non viene usato il proxy.
JavaScript, Go: Aggiunta della proprietà pubblica id Speech_SegmentationStrategy per determinare quando una frase pronunciata è terminata e deve essere generato un risultato finale riconosciuto (inclusa la segmentazione semantica)
JavaScript, Go: Aggiunta dell'ID proprietà pubblica Speech_SegmentationMaximumTimeMs per determinare la fine di una frase pronunciata in base al tempo in Java, Python, C#, C++

Correzioni di bug

Correzione del caricamento della voce per la sintesi vocale incorporata per ogni sintesi se il nome della voce non è impostato.
Correzione dei problemi di calcolo dell'offset quando si usa MeetingTranscriber in alcuni scenari.
Correzione del potenziale deadlock durante la registrazione di più listener di eventi di diagnostica in parallelo.
(JavaScript) Correzione di possibili risultati NoMatch alla fine dell'audio. Questa correzione allinea anche il comportamento alla fine del parlato con gli altri linguaggi SDK e può comportare la mancata generazione di alcuni eventi vuoti.
(JavaScript) Correzione degli offset nel risultato JSON per l'allineamento con l'offset sugli oggetti risultato. In precedenza solo la proprietà offset dell'oggetto risultato veniva corretta per tenere conto delle riconnessioni del servizio.
Lingua Go: correzione di un errore di compilazione https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
Correzione degli offset dei risultati nella trascrizione delle riunioni quando si verifica una riconnessione al servizio.
Correzione di un deadlock nella registrazione.

Esempi

Esempi C# aggiornati per l'uso di .NET 8.0.
L'esempio Java usa l'API di registrazione diagnostica che mostra l'utilizzo delle nuove classi di registrazione diagnostica.

Versione di novembre 2024

Estensione di Azure AI Speech Toolkit per Visual Studio Code

L'estensione Azure AI Speech Toolkit è ora disponibile per gli utenti di Visual Studio Code. Contiene un elenco di guide introduttive di discorsi ed esempi di scenari che possono essere facilmente costruiti ed eseguiti con semplici clic. Per altre informazioni, vedere Azure AI Speech Toolkit in Visual Studio Code Marketplace.

Esempi di codice avatar per il testo vocale

Sono stati aggiunti esempi di codice per avatar da testo a voce per Android e iOS. Questi esempi illustrano come usare testo in tempo reale per gli avatar vocali nelle applicazioni per dispositivi mobili.

Speech SDK 1.41.1: versione di ottobre 2024

Nuove funzionalità

Aggiunta del supporto per Amazon Linux 2023 e Azure Linux 3.0.
Aggiunta della proprietà pubblica ID SpeechServiceConnection_ProxyHostBypass per specificare gli host per cui il proxy non viene utilizzato.
Aggiunta di proprietà per controllare le nuove strategie di segmentazione delle frasi.

Correzioni di bug

Correzione del supporto incompleto per il riconoscimento delle parole chiave Modelli avanzati prodotti dopo agosto 2024.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Si noti che con Swift in iOS il progetto deve usare MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (da https://aka.ms/csspeech/iosbinaryembedded) o il pod MicrosoftCognitiveServicesSpeechEmbedded-iOS che includono il supporto del modello avanzato.
Correzione di una perdita di memoria in C# correlata all'utilizzo delle stringhe.
Correzione del mancato recupero di SPXAutoDetectSourceLanguageResult da SPXConversationTranscriptionResult in Objective-C e Swift.
Correzione di un arresto anomalo occasionale quando si usa Microsoft Audio Stack nel riconoscimento.
Correzione degli hint di tipo in Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
Correzione del mancato recupero dell'elenco di voci TTS quando si usa un endpoint personalizzato.
Correzione della reinizializzazione della sintesi vocale incorporata per ogni richiesta di pronuncia quando la voce viene specificata da un nome breve.
Corretto la documentazione di riferimento dell'API riguardo alla durata massima di RecognizeOnce audio.
Correzione della gestione degli errori di frequenza di campionamento arbitraria in JavaScript
- Grazie a rseanhall per questo contributo.
Correzione dell'errore durante il calcolo dell'offset audio in JavaScript
- Grazie a motamed per questo contributo.

Modifiche di rilievo

Il supporto del riconoscimento delle parole chiave in Windows ARM a 32 bit è stato rimosso a causa del runtime ONNX richiesto non disponibile per questa piattaforma.

Speech SDK 1.40: versione di agosto 2024

Nota

Speech SDK versione 1.39.0 era una versione interna e non è una versione mancante.

Nuove funzionalità

Aggiunta del supporto per lo streaming dell'audio compresso G.722 nel riconoscimento vocale.
Aggiunta del supporto per l'impostazione di tonalità, frequenza e volume nel flusso di testo di input nella sintesi vocale.
Aggiunta del supporto per lo streaming di testo di input vocale personale tramite introduzione di PersonalVoiceSynthesisRequest nella sintesi vocale. Questa API è in anteprima ed è soggetta a modifiche nelle versioni future.
Aggiunto supporto per la diarizzazione dei risultati intermedi quando viene utilizzato ConversationTranscriber.
Abbiamo rimosso il supporto per CentOS/RHEL 7 a seguito di EOL di CentOS 7 e della fine del Supporto di Manutenzione 2 per RHEL 7.
L'uso di modelli di riconoscimento vocale incorporati richiede ora una licenza del modello anziché una chiave del modello. Se si è un cliente del riconoscimento vocale incorporato esistente e si vuole eseguire l'aggiornamento, contattare il supporto tecnico Microsoft per informazioni dettagliate sugli aggiornamenti del modello.

Correzioni di bug

I file binari di Speech SDK compilati per Windows con il flag _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR come mitigazione per il problema di runtime di Visual C++ Violazione di accesso con std::mutex::lock dopo l'aggiornamento a VISUAL 2022 versione 17.10.0 - Developer Community (visualstudio.com). Le applicazioni Windows C++ che usano Speech SDK potrebbero dover applicare lo stesso flag di configurazione di compilazione se il codice usa std::mutex (vedere i dettagli nel problema collegato).
Risolto il problema di rilevamento di OpenSSL 3.x non funzionante su Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
È stato risolto il problema per cui, quando si distribuisce un'app UWP, le librerie e il modelli dal pacchetto NuGet MAS non vengono copiati nel percorso di distribuzione.
Risoluzione di un conflitto tra provider di contenuti nei pacchetti Android (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
Correzione delle opzioni di post-elaborazione che non si applicano ai risultati intermedi del riconoscimento vocale.
Correzione dell'avviso .NET 8 sugli identificatori di runtime specifici della distribuzione (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).

Esempi

Esempi di riconoscimento vocale incorporati aggiornati per usare una licenza del modello anziché una chiave.

SDK di Voce 1.38.0: versione di giugno 2024

Nuove funzionalità

Requisiti per l'aggiornamento dell'SDK di Voce per la piattaforma Linux:
- La nuova baseline minima è Ubuntu 20.04 LTS o compatibile con glibc 2.31 o versione successiva.
- I binari per Linux x86 sono stati rimossi in conformità con il supporto della piattaforma Ubuntu 20.04.
- Tenere presente che RHEL/CentOS 7 sarà supportato fino al 30 giugno (fine di CentOS 7 EOL e fine del supporto per la manutenzione di RHEL 7 2). I binari per loro verranno rimossi nella versione dell'SDK di Voce 1.39.0.
Aggiungere il supporto per OpenSSL 3 on Linux.
Aggiungere il supporto per il formato di output audio g722-16khz-64kbps con il sintetizzatore vocale.
Aggiungere il supporto per l'invio di messaggi tramite un oggetto di connessione con il sintetizzatore vocale.
Aggiungere le API Start/StopKeywordRecognition API in Objective-C e Swift.
Aggiungere l'API per selezionare una categoria di modello di traduzione personalizzata.
Aggiornare l'utilizzo di GStreamer con il sintetizzatore vocale.

Correzioni di bug

Correzione dell'errore "Le dimensioni del messaggio WebSocket non possono superare 65.536 byte" durante Start/StopKeywordRecognition.
Correggere un errore di segmentazione Python durante la sintesi vocale.

Esempi

Aggiornare gli esempi di C# per l'utilizzo di .NET 6.0 per impostazione predefinita.

Speech SDK 1.37.0: versione di aprile 2024

Nuove funzionalità

Aggiungere il supporto per lo streaming di testo di input nella sintesi vocale.
Modificare la voce di sintesi vocale predefinita in en-US-AvaMultilingualNeural.
Aggiornare le build Android per l’uso di OpenSSL 3.x.

Correzioni di bug

Correggere gli arresti anomali occasionali di JVM durante l'eliminazione di SpeechRecognizer quando si usa MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Migliorare il rilevamento dei dispositivi audio predefiniti in Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Esempi

Aggiornato per le nuove funzionalità.

Speech SDK 1.36.0: versione di marzo 2024

Nuove funzionalità

Aggiungere il supporto per l'identificazione della lingua nella traduzione multilingue negli endpoint v2 tramite AutoDetectSourceLanguageConfig::FromOpenRange().

Correzioni di bug

Correggere la mancata generazione dell’evento SynthesisCanceled in caso di chiamata dell'arresto durante l'evento SynthesisStarted.
Correggere il problema del rumore nella sintesi vocale incorporata.
Correggere il problema dell’arresto anomalo del riconoscimento vocale incorporato durante l'esecuzione di più riconoscimenti in parallelo.
Correggere l'impostazione della modalità di rilevamento frasi negli endpoint v1/v2.
Correggere i vari problemi relativi a Microsoft Audio Stack.

Esempi

Aggiornamenti per le nuove funzionalità.

Speech SDK 1.35.0: versione di febbraio 2024

Nuove funzionalità

Modificare la voce sintesi vocale da en-US-JennyMultilingualNeural a en-US-AvaNeural.
Supportare i dettagli a livello di parola nei risultati della traduzione vocale incorporata usando il formato di output dettagliato.

Correzioni di bug

Correggere l'API di acquisizione della posizione di AudioDataStream in Python.
Correggere la traduzione vocale usando gli endpoint v2 senza rilevamento della lingua.
Correggere un arresto anomalo del sistema casuale e eventi confine di parola duplicati in testo sintesi vocale incorporata.
Restituire un codice di errore di annullamento corretto per un errore interno del server nelle connessioni WebSocket.
Correggere l'errore durante il caricamento della libreria FPIEProcessor.dll quando si usa MAS con C#.

Esempi

Aggiornamenti di formattazione secondari per gli esempi di riconoscimento incorporato.

Speech SDK 1.34.1: versione di gennaio 2024

Modifiche di rilievo

Solo correzioni di bug

Nuove funzionalità

Solo correzioni di bug

Correzioni di bug

Correggere la regressione introdotta nella versione 1.34.0 in cui l'URL dell'endpoint di servizio è stato costruito con informazioni sulle impostazioni locali non corrette per gli utenti in diverse aree della Cina.

Speech SDK 1.34.0: versione di novembre 2023

Modifiche di rilievo

SpeechRecognizer è stato aggiornato per l'uso di un nuovo endpoint per impostazione predefinita (ad esempio, quando non si specifica in modo esplicito un URL) che non supporta più i parametri della stringa di query per la maggior parte delle proprietà. Anziché impostare i parametri della stringa di query direttamente con ServicePropertyChannel.UriQueryParameter, usare le funzioni API corrispondenti.

Nuove funzionalità

Compatibilità con .NET 8 (correzione per https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 ad eccezione dell'avviso relativo a centos7-x64)
Supporto per le metriche delle prestazioni del riconoscimento vocale incorporato che possono essere usate per valutare la capacità di un dispositivo di gestire il riconoscimento vocale incorporato.
Supporto per l'identificazione della lingua di origine nella traduzione multilingue incorporata.
Supporto per riconoscimento vocale, sintesi vocale e traduzione incorporati per iOS e Swift/Objective-C rilasciato in anteprima.
Il supporto incorporato è disponibile in MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Correzioni di bug

Correzione per l'aumento delle dimensioni binarie di iOS SDK x2 volte · Problema n. 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correzione per l'impossibilità di ottenere timestamp a livello di parola dall'API Riconoscimento vocale in testo di Azure · Problema n. 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correzione per la fase di distruzione di DialogServiceConnector per disconnettere correttamente gli eventi. Questo causava occasionalmente crash.
Correzione per l'eccezione durante la creazione di un sistema di riconoscimento quando è usato MAS.
FPIEProcessor.dll dal pacchetto NuGet Microsoft.CognitiveServices.Speech.Extension.MAS per la piattaforma UWP di Windows x64 e Arm64 dipende dalle librerie di runtime VC per C++nativo. Il problema è stato corretto aggiornando la dipendenza per correggere le librerie di runtime VC (per la piattaforma UWP).
Correzione per le chiamate ricorrenti [MAS] a recognizeOnceAsync per SPXERR_ALREADY_INITIALIZED quando si usa MAS · Problema n. 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correzione per l'arresto anomalo del riconoscimento vocale incorporato quando vengono usati elenchi di frasi.

Esempi

Esempi iOS incorporati per riconoscimento vocale, sintesi vocale e traduzione.

CLI di Voce 1.34.0: rilascio di novembre 2023

Nuove funzionalità

Supportare l'output degli eventi confine di parola parole durante la sintetizzazione del parlato.

Correzioni di bug

Aggiornamento della dipendenza JMESPath alla versione più recente, migliora le valutazioni delle stringhe

Speech SDK 1.33.0: versione di ottobre 2023

Avviso di modifica che causa un'interruzione

Il nuovo pacchetto NuGet aggiunto per Microsoft Audio Stack (MAS) deve ora essere incluso nei file di configurazione delle applicazioni che usano MAS.

Nuove funzionalità

Aggiunta del nuovo pacchetto NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, che offre prestazioni di annullamento echo (eco) migliorate quando si usa Microsoft Audio Stack
Valutazione della pronuncia: è stato aggiunto il supporto per la valutazione di prosodia e contenuto, che può valutare il parlato in termini di prosodia, vocabolario, grammatica e argomento.

Correzioni di bug

Correzione degli scostamenti dei risultati del riconoscimento delle parole chiave in modo che corrispondano correttamente al flusso audio di input dall'inizio. La correzione si applica sia al riconoscimento autonomo delle parole chiave che al riconoscimento vocale attivato da parole chiave.
È stato risolto il problema stopSpeaking del sintetizzatore che non restituisce immediatamente Il metodo SPXSpeechSynthesizer stopSpeaking() non può restituire immediatamente in iOS 17 - Problema #2081
Correzione del problema di importazione di Mac Catalyst nel supporto del modulo Swift per Mac catalyst con il processore apple. Problema n.1948
JS: il modulo AudioWorkletNode carica ora usa un URL attendibile, con fallback per il browser della rete CDN include.
JS: i file lib nel pacchetto fanno ora riferimento a ES6 JS, con supporto per ES5 JS rimosso.
JS: gli eventi intermedi per lo scenario di traduzione destinati all'endpoint v2 vengono gestiti correttamente
JS: la proprietà della lingua per TranslationRecognitionEventArgs è ora impostata per gli eventi translation.hypothesis.
Sintesi vocale: è garantita la generazione dell'evento SynthesisCompleted dopo tutti gli eventi di metadati, quindi può essere usato per indicare la fine degli eventi. Come rilevare quando i visemi sono ricevuti completamente? Problema n. 2093 Azure-Samples/cognitive-services-speech-sdk

Esempi

Aggiunto esempio per illustrare lo streaming MULAW con Python)
Correzione dell'esempio NAudio di riconoscimento vocale

Interfaccia della riga di comando di Voce 1.33.0: versione di ottobre 2023

Nuove funzionalità

Supportare l'output degli eventi confine di parola parole durante la sintetizzazione del parlato.

Correzioni di bug

Nessuno

Speech SDK 1.32.1: versione di settembre 2023

Correzioni di bug

Aggiornamenti dei pacchetti Android con le correzioni di sicurezza più recenti da OpenSSL1.1.1v
JS: proprietà WebWorkerLoadType aggiunta per consentire il bypass del caricamento dell'URL dei dati per il ruolo di lavoro di timeout
JS: correzione della disconnessione di Conversation Translation dopo 10 minuti
JS: il token di autenticazione di Conversation Translation dalla conversazione ora si propaga alla connessione al servizio di traduzione

Esempi

Trascrizione della conversazione con API Swift

Speech SDK 1.31.0: versione di agosto 2023

Nuove funzionalità

Il supporto per la diarizzazione in tempo reale è disponibile in anteprima pubblica con il Speech SDK 1.31.0. Questa funzionalità è disponibile negli SDK seguenti: C#, C++, Java, JavaScript, Python e Objective-C/Swift.
Confine di parola di parlato sincronizzato ed eventi visema con riproduzione audio

Modifiche di rilievo

Lo scenario "trascrizione conversazione" precedente è stato rinominato in "trascrizione riunioni". Ad esempio, usare MeetingTranscriber anziché ConversationTranscriber e usare invece CreateMeetingAsync di CreateConversationAsync. Anche se i nomi degli oggetti e dei metodi SDK sono stati modificati, la ridenominazione non modifica la funzionalità stessa. Usare gli oggetti di trascrizione delle riunioni per la trascrizione delle riunioni con profili utente e firme vocali. Gli oggetti e i metodi di “traduzione conversazione” non sono interessati da queste modifiche. È comunque possibile usare l'oggetto ConversationTranslator e i relativi metodi per gli scenari di traduzione delle riunioni.
Per la diarizzazione in tempo reale, viene introdotto un nuovo oggetto ConversationTranscriber. Il nuovo modello a oggetti "trascrizione conversazione" e i criteri di chiamata sono simili al riconoscimento continuo con l'oggetto SpeechRecognizer. Una differenza fondamentale è che l'oggetto ConversationTranscriber è progettato per essere usato in uno scenario di conversazione in cui si vogliono distinguere più parlanti (diarizzazione). I profili utente e le firme vocali non sono applicabili. Per altre informazioni, vedere avvio rapido alla diarizzazione in tempo reale.

Questa tabella mostra i nomi degli oggetti precedenti e nuovi per la diarizzazione in tempo reale e la trascrizione delle riunioni. Il nome dello scenario si trova nella prima colonna, i nomi degli oggetti precedenti si trovano nella seconda colonna e i nomi dei nuovi oggetti si trovano nella terza colonna.

Nome dello scenario	Nomi di oggetti precedenti	Nuovi nomi di oggetti
Diarizzazione in tempo reale	N/D	`ConversationTranscriber`
Trascrizione riunione	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ Gli oggetti Participant, ParticipantChangedReason e User sono applicabili sia alla trascrizione delle riunioni che agli scenari di traduzione delle riunioni.

² L'oggetto Meeting è nuovo e viene utilizzato con l'oggetto MeetingTranscriber.

Correzioni di bug

Corretta la versione minima supportata di macOS https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Correzione del bug di Valutazione della pronuncia:
- È stato risolto il problema relativo ai punteggi di accuratezza dei fonemi, assicurandosi che ora riflettano in modo accurato solo il fonema pronunciato in modo errato. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- È stato risolto un problema per cui la funzionalità valutazione della pronuncia identificava erroneamente le pronunce corrette, in particolare nelle situazioni in cui le parole potevano avere più pronunce valide. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Esempi

Speech SDK 1.30.0: versione di luglio 2023

Nuove funzionalità

C++, C#, Java - Aggiunto supporto per DisplayWords nel risultato dettagliato di Riconoscimento vocale incorporato.
Objective-C/Swift - Aggiunto supporto per l'evento ConnectionMessageReceived in Objective-C/Swift.
Objective-C/Swift - Miglioramento dei modelli di individuazione delle parole chiave per iOS. Questa modifica ha aumentato le dimensioni di determinati pacchetti che contengono file binari iOS (ad esempio NuGet, XCFramework). Stiamo lavorando per ridurre le dimensioni delle versioni future.

Correzioni di bug

Corretta la perdita di memoria quando si usa lo strumento di riconoscimento vocale con PhraseListGrammar, come segnalato da un cliente (problema di GitHub).
Corretto un deadlock nell'API di connessione aperta per la sintesi testo-a-voce.

Altre note

Java: alcuni metodi dell'API Java public usati internamente sono stati modificati nel pacchetto internal,protected o private. Questa modifica non dovrebbe influire sugli sviluppatori, perché non si prevede che le applicazioni usino tali applicazioni. Annotato qui per trasparenza.

Esempi

Nuovi esempi di valutazione della pronuncia per specificare una lingua di apprendimento nella propria applicazione
- C#: vedere il codice di esempio.
- C++: vedere il codice di esempio.
- JavaScript: vedere il codice di esempio.
- Objective-C: vedere il codice di esempio.
- Python: vedere il codice di esempio.
- Swift: vedere il codice di esempio.

Speech SDK 1.29.0: versione di giugno 2023

Nuove funzionalità

C++, C#, Java - Anteprima delle API di traduzione vocale incorporata. Ora è possibile eseguire la traduzione vocale senza connessione cloud!
JavaScript - L'identificazione continua della lingua (LID) è ora abilitata per la traduzione vocale.
JavaScript: contributo della community per l'aggiunta della proprietà LocaleName alla classe VoiceInfo. Grazie all'utente GitHub shivsarthak per la richiesta pull.
C++, C#, Java - Aggiunta del supporto per il ricampionamento dell’output di sintesi vocale incorporato con frequenza di campionamento da 16 kHz a 48 kHz.
Aggiunto il supporto per le impostazioni locali hi-IN in Riconoscimento finalità con criteri di ricerca semplici.

Correzioni di bug

Correzione di un arresto anomalo del sistema causato da una race condition in Riconoscimento voce durante la distruzione degli oggetti, come illustrato in alcuni dei test Android
Correzione di possibili deadlock in Riconoscimento finalità con matcher criterio semplice

Esempi

Nuovi esempi di traduzione vocale incorporata

Speech SDK 1.28.0: versione di maggio 2023

Cambiamento radicale

JavaScript SDK: il protocollo OCSP (Online Certificate Status Protocol) è stato rimosso. Questo consente ai client di conformarsi meglio agli standard del browser e del nodo per la gestione dei certificati. La versione 1.28 e successive non includerà più il modulo OCSP personalizzato.

Nuove funzionalità

Riconoscimento vocale incorporato ora restituisce NoMatchReason::EndSilenceTimeout quando si verifica un timeout di silenzio alla fine di un'espressione. Questo corrisponde al comportamento quando si esegue il riconoscimento usando il servizio parlato in tempo reale.
JavaScript SDK: impostare le proprietà su SpeechTranslationConfig mediante i valori di enumerazione PropertyId.

Correzioni di bug

C# in Windows - Correzione di potenziali race condition/deadlock nell'estensione audio di Windows. Negli scenari che eliminano il renderer audio rapidamente e usano anche il metodo Sintetizzatore per interrompere il parlato, l'evento sottostante non è stato reimpostato per arresto e potrebbe non determinare mai l'eliminazione dell'oggetto renderer, e nel frattempo potrebbe contenere un blocco globale per l'eliminazione, congelando il thread dotnet GC.

Esempi

Aggiunta di un esempio di parlato incorporato per MAUI.
Aggiornamento dell'esempio di parlato incorporato per Android Java per includere il testo per la sintesi vocale.

Speech SDK 1.27.0: versione di aprile 2023

Notifica relativa alle modifiche imminenti

Si prevede di rimuovere Online Certificate Status Protocol (OCSP) nella prossima versione di JavaScript SDK. Questo consente ai client di conformarsi meglio agli standard del browser e del nodo per la gestione dei certificati. La versione 1.27 è l'ultima che include il modulo OCSP personalizzato.

Nuove funzionalità

JavaScript – Supporto aggiunto per l'input del microfono dal browser con Identificazione e verifica dell'oratore.
Riconoscimento vocale incorporato - Aggiornamento del supporto per l'impostazione di PropertyId::Speech_SegmentationSilenceTimeoutMs.

Correzioni di bug

Generale - Aggiornamenti dell'affidabilità nella logica di riconnessione del servizio (tutti i linguaggi di programmazione ad eccezione di JavaScript).
Generale - Correzione delle conversioni di stringhe che causano perdite di memoria in Windows (tutti i linguaggi di programmazione pertinenti ad eccezione di JavaScript).
Riconoscimento vocale incorporato - Correzione dell'arresto anomalo del riconoscimento vocale in francese quando si usano determinate voci dell'elenco grammaticale.
Documentazione del codice sorgente - Correzioni ai commenti della documentazione di riferimento dell'SDK correlati alla registrazione audio nel servizio.
Riconoscimento delle finalità - Correzione delle priorità del matcher dei criteri correlati alle entità elenco.

Esempi

Gestire correttamente l'errore di autenticazione nell'esempio C# Trascrizione conversazione (CTS).
Aggiunta di un esempio di valutazione della pronuncia di streaming per Python, JavaScript, Objective-C e Swift.

Speech SDK 1.26.0: versione di marzo 2023

Modifiche di rilievo

Bitcode è stato disabilitato in tutte le destinazioni iOS nei pacchetti seguenti: Cocoapod con xcframework, NuGet (per Xamarin e MAUI) e Unity. La modifica è dovuta alla deprecazione del supporto bitcode di Apple da Xcode 14 e versioni successive. Questa modifica implica anche se si usa la versione Xcode 13 o se è stato abilitato in modo esplicito il codice bit nell'applicazione usando Speech SDK, è possibile che venga visualizzato un errore indicante che "Il framework non contiene bitcode ed è necessario ricompilarlo". Per risolvere questo problema, assicuratevi che i vostri obiettivi abbiano bitcode disabilitato.
In questa versione la destinazione di distribuzione iOS minima è stata aggiornata alla versione 11.0. Questo significa che armv7 HW non è più supportato.

Nuove funzionalità

Il riconoscimento vocale incorporato (su dispositivo) ora supporta audio di input con frequenze di campionamento a 8 e 16 kHz (16 bit per campione, mono PCM).
La sintesi vocale ora segnala latenze di connessione, rete e servizio nel risultato per consentire l'ottimizzazione della latenza end-to-end.
Nuove regole di associazione per Riconoscimento finalità con criteri di ricerca semplici. Un numero più ampio di byte di caratteri corrispondenti sarà migliore rispetto alle corrispondenze dei criteri con un numero di byte di caratteri inferiore. Esempio: il criterio "Select {something} in alto a destra" prevale su "Select {something}"

Correzioni di bug

Sintesi vocale: correzione di un bug in cui l'emoji non è quella giusta negli eventi di confine delle parole.
Riconoscimento finalità con CLU (Conversational Language Understanding):
- Le finalità del flusso di lavoro dell’agente di orchestrazione CLU ora vengono visualizzate correttamente.
- Il risultato JSON è ora disponibile tramite l'ID proprietà LanguageUnderstandingServiceResponse_JsonResult.
Riconoscimento vocale con attivazione delle parole chiave: correzione per l'audio mancante di circa 150 ms dopo il riconoscimento di parole chiave.
Correzione per la build della versione MAUI di iOS NuGet Speech SDK, segnalata dal cliente (problema di GitHub)

Esempi

Correzione per l'esempio Swift iOS, segnalato dal cliente (problema di GitHub)

Speech SDK 1.25.0: versione di gennaio 2023

Modifiche di rilievo

Le API di identificazione della lingua (anteprima) sono state semplificate. Se si esegue l'aggiornamento a Speech SDK 1.25 e viene visualizzata un'interruzione di build, visitare la pagina Identificazione lingua per informazioni sulla nuova proprietà SpeechServiceConnection_LanguageIdMode. Questa singola proprietà sostituisce i due precedenti SpeechServiceConnection_SingleLanguageIdPriority e SpeechServiceConnection_ContinuousLanguageIdPriority. La priorità tra bassa latenza e accuratezza elevata non è più necessaria in seguito ai miglioramenti recenti del modello. Ora è sufficiente selezionare se eseguire l'identificazione della lingua all'inizio o continua quando si esegue il riconoscimento vocale continuo o la traduzione.

Nuove funzionalità

C#/C++/Java: SDK incorporato per il riconoscimento vocale è ora rilasciato in anteprima pubblica limitata. Vedi la documentazione di Embedded Speech (anteprima). È ora possibile eseguire il riconoscimento vocale e la sintesi vocale su dispositivo quando la connettività cloud è intermittente o non disponibile. Supporto nelle piattaforme Android, Linux, macOS e Windows
MAUI C#: supporto aggiunto per le destinazioni iOS e Mac Catalyst in Servizio cognitivo di Azure per la voce SDK NuGet (problema del cliente)
Unità: architettura x86_64 Android aggiunta al pacchetto Unity (problema del cliente)
Go:
- Aggiunto il supporto per lo streaming diretto ALAW/MULAW per il riconoscimento vocale (problema del cliente)
- Aggiunta del supporto per PhraseListGrammar. Grazie all'utente di GitHub czkoko per il contributo della community!
C#/C++: Il riconoscitore di intenti ora supporta i modelli di comprensione del linguaggio conversazionale in C++ e C# con orchestrazione sul servizio Microsoft.

Correzioni di bug

Correzione di un blocco occasionale in KeywordRecognizer quando si tenta di arrestarlo
Python:
- Correzione per ottenere i risultati della valutazione della pronuncia quando è impostato PronunciationAssessmentGranularity.FullText (problema del cliente)
- Correzione per la proprietà gender per le voci maschili non recuperate, quando si ottengono le voci di sintesi vocale
JavaScript
- Correzione per l'analisi di alcuni file WAV registrati nei dispositivi iOS (problema del cliente)
- JS SDK ora viene compilato senza usare npm-force-resolutions (problema del cliente)
- Traduttore conversazione ora imposta correttamente l'endpoint di servizio quando si usa un'istanza speechConfig creata con SpeechConfig.fromEndpoint()

Esempi

Aggiunta di esempi che illustrano come usare Voce incorporato
Aggiunta dell'esempio di riconoscimento vocale per MAUI

Consulta il repository di esempi di Speech SDK.

Speech SDK 1.24.2: versione di novembre 2022

Nuove funzionalità

Nessuna nuova funzionalità, solo una correzione del motore incorporata per supportare nuovi file di modello.

Correzioni di bug

Tutte i linguaggi di programmazione
- Correzione di un problema relativo alla crittografia dei modelli di riconoscimento vocale incorporati.

Speech SDK 1.24.1: versione di novembre 2022

Nuove funzionalità

Pacchetti pubblicati per l'anteprima di Riconoscimento vocale incorporato. Per altre informazioni, vedere https://aka.ms/embedded-speech.

Correzioni di bug

Tutte i linguaggi di programmazione
- Correzione dell'arresto anomalo del sistema TTS incorporato quando il carattere voce non è supportato
- Correggere stopSpeaking() che non riesce a fermare la riproduzione su Linux (#1686)
JavaScript SDK
- Correzione della regressione nel modo in cui la trascrizione conversazione ha determinato l'audio.
Giava
- I file POM e Javadocs aggiornati pubblicati temporaneamente in Maven Central consentono alla pipeline docs di aggiornare la documentazione di riferimento online.
Pitone
- Correzione della regressione in cui Python speak_text/ssml restituisce void.

Speech SDK 1.24.0: versione di ottobre 2022

Nuove funzionalità

Tutti i linguaggi di programmazione: AMR-WB (16khz) aggiunto all'elenco supportato di formati di output audio di sintesi vocale
Python: pacchetto aggiunto per Linux Arm64 per le distribuzioni Linux supportate.
C#/C++/Java/Python: supporto aggiunto per lo streaming diretto ALAW & MULAW al servizio voce (oltre al flusso PCM esistente) usando AudioStreamWaveFormat.
MAUI C#: pacchetto NuGet aggiornato per supportare le destinazioni Android per sviluppatori di MAUI .NET (problema del cliente)
Mac: Aggiunta una XCframework separata per Mac, che non contiene alcun file binario iOS. Questo offre un'opzione agli sviluppatori che necessitano solo di file binari Mac usando un pacchetto XCframework più piccolo.
Microsoft Audio Stack (MAS):
- Se si specificano angoli di forma del fascio, il suono proveniente all'esterno dell'intervallo specificato verrà eliminato meglio.
- Riduzione approssimativa del 70% delle dimensioni di libMicrosoft.CognitiveServices.Speech.extension.mas.so per Linux ARM32 e Linux Arm64.
Riconoscimento delle intenzioni usando la corrispondenza di modelli:
- Aggiungere il supporto ortografico per le lingue fr, de, es, jp
- Aggiunto supporto per interi predefiniti per la lingua es.

Correzioni di bug

iOS: correzione dell'errore di sintesi vocale in iOS 16 causato da un errore di decodifica audio compressa (problema del cliente).
JavaScript:
- Corretto il token di autenticazione che non funziona durante l'ottenimento dell'elenco delle voci di sintesi vocale (problema del cliente).
- Usare l'URL dei dati per il caricamento del ruolo di lavoro (problema del cliente).
- Creare il worklet del processore audio solo quando AudioWorklet è supportato nel browser (problema del cliente). Questo è stato un contributo della comunità di William Wong. Grazie William!
- Correzione del callback riconosciuto quando connectionMessage di risposta LUIS è vuoto (problema del cliente).
- Impostare correttamente il timeout di segmentazione del parlato.
Riconoscimento delle intenzioni usando la corrispondenza di modelli:
- I caratteri non JSON all'interno dei modelli ora vengono caricati correttamente.
- Correzione del problema blocco quando recognizeOnceAsync(text) è stato chiamato durante il riconoscimento continuo.

Speech SDK 1.23.0: versione di luglio 2022

Nuove funzionalità

C#, C++, Java: aggiunto supporto per le lingue zh-cn e zh-hk nel riconoscimento di intenti con corrispondenza dei modelli.
C#: aggiunta del supporto per le build di .NET Framework AnyCPU

Correzioni di bug

Android: correzione della vulnerabilità OpenSSL CVE-2022-2068 aggiornando OpenSSL alla versione 1.1.1q
Python: correzione dell'arresto anomalo quando si usa PushAudioInputStream
iOS: correzione di "EXC_BAD_ACCESS: tentativo di dereferenziare il puntatore Null" come segnalato in iOS (problema di GitHub)

Speech SDK 1.22.0: versione di giugno 2022

Nuove funzionalità

Java: API IntentRecognitionResult per getEntities(), applyLanguageModels() e recognizeOnceAsync(text) aggiunto per supportare il motore "criteri di ricerca semplice".
Unity: aggiunta del supporto per Mac M1 (Apple Silicon) per il pacchetto Unity (problema di GitHub)
C#: aggiunta del supporto per x86_64 per Xamarin Android (problema di GitHub)
C#: versione minima di .NET Framework aggiornata al pacchetto V4.6.2 per SDK C# in quanto v4.6.1 è stata ritirata (vedere Criteri relativi al ciclo di vita dei componenti di Microsoft .NET Framework)
Linux: aggiunta del supporto per Debian 11 e Ubuntu 22.04 LTS. Ubuntu 22.04 LTS richiede l'installazione manuale di libssl1.1 sia come pacchetto binario da qui (ad esempio, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb o versione successiva per x64) o tramite la compilazione da origini.

Correzioni di bug

Piattaforma UWP: dipendenza OpenSSL rimossa dalle librerie UWP e sostituita con websocket WinRT e API HTTP per soddisfare la conformità della sicurezza e il footprint binario più piccolo.
Mac: correzione del problema "MicrosoftCognitiveServicesSpeech Module Not Found" quando si usano progetti Swift destinati alla piattaforma macOS
Windows, Mac: è stato risolto un problema specifico della piattaforma per cui le origini audio configurate tramite proprietà per trasmettere a una velocità in tempo reale a volte rimanevano indietro e alla fine superavano la capacità

Esempi (GitHub)

C#: esempi di .NET Framework aggiornati per l'uso della versione 4.6.2
Unity: esempio di assistente virtuale risolto per Android e UWP
Unity: esempi di Unity aggiornati per Unity versione LTS 2020

Speech SDK 1.21.0: versione di aprile 2022

Nuove funzionalità

Java & JavaScript: aggiunta del supporto per l'identificazione continua della lingua quando si usa l'oggetto SpeechRecognizer
JavaScript: Aggiunte API di diagnostica per abilitare il livello di registrazione sulla console e (solo Node) la registrazione su file, per aiutare Microsoft a risolvere i problemi segnalati dai clienti.
Python: aggiunta del supporto per la trascrizione conversazione
Go: aggiunta del supporto per il riconoscimento del parlante
C++ & C#: aggiunto il supporto per un gruppo obbligatorio di parole nel Riconoscitore di Intenti (semplice corrispondenza di schemi). Ad esempio: "(set|start|begin) un timer" in cui "set", "start" o "begin" devono essere presenti per la finalità da riconoscere.
Tutti i linguaggi di programmazione, sintesi vocale: aggiunta della proprietà durata negli eventi di delimitazione delle parole. Aggiunta del supporto per il limite di punteggiatura e di frase
Objective-C/Swift/Java: aggiunta di risultati a livello di parola nell'oggetto risultato della valutazione della pronuncia (simile a C#). L'applicazione non deve più analizzare una stringa di risultati JSON per ottenere informazioni a livello di parola (problema di GitHub)
Piattaforma iOS: aggiunta del supporto sperimentale per l'architettura ARMv7

Correzioni di bug

Piattaforma iOS: correzione per consentire la compilazione per la destinazione "Qualsiasi dispositivo iOS", quando si usa CocoaPod (problema di GitHub)
Piattaforma Android: la versione di OpenSSL è stata aggiornata alla versione 1.1.1n per correggere la vulnerabilità di sicurezza CVE-2022-0778
JavaScript: correzione del problema a causa del quale l'intestazione wav non è stata aggiornata con le dimensioni del file (problema di GitHub)
JavaScript: Risoluzione del problema di desincronizzazione dell'ID della richiesta che causa interruzioni negli scenari di traduzione (problema su GitHub)
JavaScript: correzione del problema durante la creazione di istanze di SpeakerAudioDestination senza flusso (problema di GitHub]
C++: correggere le intestazioni C++ per rimuovere un avviso durante la compilazione per C++17 o versione successiva

Esempi GitHub

Nuovi esempi di Java per il riconoscimento vocale con identificazione della lingua
Nuovi esempi di Python e Java per la trascrizione di conversazioni
Nuovo esempio di Go per il riconoscimento del parlante
Nuovo strumento C++ e C# per Windows che enumera tutti i dispositivi di acquisizione e rendering audio, per trovare l'ID dispositivo. Questo ID è necessario per Speech SDK se si prevede di acquisire audio da o eseguire il rendering dell'audio in un dispositivo non predefinito.

Speech SDK 1.20.0: versione di gennaio 2022

Nuove funzionalità

Objective-C, Swift e Python: aggiunta del supporto per DialogServiceConnector, usato per gli scenari di Assistente vocale.
Python: è stato aggiunto il supporto per Python 3.10. Il supporto per Python 3.6 è stato rimosso, per il fine vita della versione 3.6 di Python.
Unity: Speech SDK è ora supportato per le applicazioni Unity in Linux.
C++, C#: IntentRecognizer con corrispondenza di modelli è ora supportato in C#. Inoltre, gli scenari con entità personalizzate, gruppi facoltativi e ruoli di entità sono ora supportati in C++ e C#.
C++, C#: miglioramento della registrazione delle tracce di diagnostica con nuove classi FileLogger, MemoryLogger e EventLogger. I log SDK sono uno strumento importante per Microsoft per diagnosticare i problemi segnalati dai clienti. Queste nuove classi semplificano l'integrazione dei log di Speech SDK nel proprio sistema di registrazione.
Tutti i linguaggi di programmazione: PronunciationAssessmentConfig ora dispone di proprietà per impostare l'alfabeto fonema desiderato (IPA o SAPI) e il numero N-Best Phoneme (evitando la necessità di creare un codice JSON di configurazione in base al problema di GitHub 1284). Inoltre, ora è supportato l'output a livello di sillabe.
Android, iOS e macOS (tutti i linguaggi di programmazione): non è più necessario GStreamer per supportare reti con larghezza di banda limitata. SpeechSynthesizer usa ora le funzionalità di decodifica audio del sistema operativo per decodificare l'audio compresso trasmesso dal servizio di sintesi vocale.
Tutti i linguaggi di programmazione: SpeechSynthesizer supporta ora tre nuovi formati Opus di output non elaborati (senza contenitore), ampiamente usati negli scenari di streaming live.
JavaScript: aggiunta dell'API getVoicesAsync() a SpeechSynthesizer per recuperare l'elenco delle voci di sintesi supportate (problema di GitHub 1350)
JavaScript: aggiunta dell'API getWaveFormat() a AudioStreamFormat per supportare formati d'onda non PCM (problema GitHub 452)
JavaScript: aggiunta di api volume getter/setter e mute()/unmute() a SpeakerAudioDestination (problema di GitHub 463)

Correzioni di bug

C++, C#, Java, JavaScript, Objective-C e Swift: correzione per rimuovere un ritardo di 10 secondi durante l'arresto di un riconoscimento vocale che usa PushAudioInputStream. Questo è per il caso in cui non viene eseguito il push di nuovi audio dopo la chiamata a StopContinuousRecognition (problemi di GitHub 1318, 331)
Unity in Android e piattaforma UWP: i meta file Unity sono stati corretti per UWP, Android Arm64 e sottosistema Windows per Android (WSA) Arm64 (problema di GitHub 1360)
iOS: la compilazione dell'applicazione Speech SDK in qualsiasi dispositivo iOS quando si usa CocoaPods è stata risolta (problema di GitHub 1320)
iOS: quando SpeechSynthesizer è configurato per l'output audio direttamente in un altoparlante, la riproduzione si arresta all'inizio in rare condizioni. Il problema è stato risolto.
JavaScript: usare il fallback del processore di script per l'input del microfono se non viene trovato alcun worklet audio (problema di GitHub 455)
JavaScript: aggiungere protocollo all'agente per mitigare i bug rilevati con l'integrazione di Sentry (problema di GitHub 465)

Esempi GitHub

C++, C#, Python ed esempi Java che illustrano come ottenere risultati di riconoscimento dettagliati. I dettagli includono risultati di riconoscimento alternativo, punteggio di attendibilità, forma lessicale, modulo normalizzato, modulo normalizzato mascherato, con tempi a livello di parola per ciascuno.
Esempio iOS aggiunto usando AVFoundation come origine audio esterna.
Esempio Java aggiunto per mostrare come ottenere il formato SRT (SubRip Text) usando l'evento WordBoundary.
Esempi Android per la valutazione della pronuncia.
C++, C# che mostra l'utilizzo delle nuove classi di registrazione diagnostica.

Speech SDK 1.19.0: versione di novembre 2021

Caratteristiche principali

Il servizio Riconoscimento del parlante è ora in disponibilità generale. Le API Speech SDK sono disponibili in C++, C#, Java e JavaScript. Grazie al riconoscimento del parlante, è possibile verificare e identificare accuratamente i parlanti in base alle loro caratteristiche vocali uniche. Per altre informazioni su questo argomento, vedere la documentazione.
È stato eliminato il supporto per Ubuntu 16.04 insieme ad Azure DevOps e GitHub. Ubuntu 16.04 ha raggiunto il fine vita ad aprile 2021. Eseguire la migrazione dei flussi di lavoro di Ubuntu 16.04 a Ubuntu 18.04 o versioni successive.
Il collegamento OpenSSL nei file binari Linux è cambiato in dinamico. Le dimensioni binarie di Linux sono state ridotte di circa il 50%.
È stato aggiunto il supporto per i processori Mac M1 basati su ARM.

Nuove funzionalità

C++/C#/Java: nuove API aggiunte per abilitare il supporto dell'elaborazione audio per l'input vocale con Microsoft Audio Stack. Documentazione disponibile qui.
C++: nuove API per il riconoscimento dell'intento per facilitare una corrispondenza di schemi più avanzata. Sono incluse le entità List e Prebuilt Integer, nonché il supporto per il raggruppamento di finalità ed entità come modelli (documentazione, aggiornamenti ed esempi sono in fase di sviluppo e verranno pubblicati prossimamente).
Mac: supporto per il processore basato su Arm64 (M1) per i pacchetti CocoaPod, Python, Java e NuGet correlati al problema di GitHub 1244.
iOS/Mac: i file binari iOS e macOS sono ora inseriti in pacchetti xcframework correlati al problema di GitHub 919.
iOS/Mac: supporto per il problema di GitHub 1171 relativo a Mac Catalyst.
Linux: nuovo pacchetto tar aggiunto per CentOS7 Informazioni su Speech SDK. Il pacchetto .tar Linux ora contiene librerie specifiche per RHEL/CentOS 7 in lib/centos7-x64. Le librerie speech SDK in lib/x64 sono ancora applicabili a tutte le altre distribuzioni Linux x64 supportate (anche RHEL/CentOS 8) e non funzioneranno in RHEL/CentOS 7.
JavaScript: Le API VoiceProfile e SpeakerRecognizer sono state rese compatibili con async/await.
JavaScript: aggiunta del supporto per le aree di Azure per enti pubblici degli Stati Uniti.
Windows: aggiunta del supporto per la riproduzione nella piattaforma UWP (Universal Windows Platform).

Correzioni di bug

Android: aggiornamento della sicurezza OpenSSL (aggiornato alla versione 1.1.1l) per pacchetti Android.
Python: bug risolto in cui la selezione del dispositivo altoparlante in Python ha esito negativo.
Core: riconnessione automatica quando un tentativo di connessione non riesce.
iOS: compressione audio disabilitata nei pacchetti iOS a causa di problemi di instabilità e compilazione bitcode quando si usa GStreamer. I dettagli sono disponibili tramite la segnalazione GitHub 1209.

Esempi GitHub

Mac/iOS: esempi aggiornati e guide introduttive per l'uso del pacchetto xcframework.
.NET: esempi aggiornati per l'uso della versione .NET Core 3.1.
JavaScript: aggiunta dell'esempio per gli assistenti vocali.

Speech SDK 1.18.0: versione di luglio 2021

Nota: per iniziare a usare Speech SDK qui.

Riepilogo delle evidenziazioni

Ubuntu 16.04 ha raggiunto il fine vita nel mese di aprile 2021. Con Azure DevOps e GitHub, il supporto verrà interrotto per la versione 16.04 di settembre 2021. Prima di allora, eseguire la migrazione dei flussi di lavoro ubuntu-16.04 a ubuntu-18.04 o versioni successive.

Nuove funzionalità

C++: i criteri di linguaggio semplici corrispondenti allo strumento di riconoscimento finalità ora semplificano l'implementazione di scenari di riconoscimento finalità semplici.
C++/C#/Java: è stata aggiunta una nuova API, GetActivationPhrasesAsync() alla classe VoiceProfileClient per ricevere un elenco di frasi di attivazione valide nella fase di Registrazione riconoscimento del parlante per scenari di riconoscimento indipendenti.
- Importante: la funzionalità Riconoscimento del parlante è disponibile in anteprima. Tutti i profili vocali creati in anteprima verranno sospesi 90 giorni dopo che la funzionalità Riconoscimento del parlante viene spostata dall'anteprima in Disponibilità generale. A questo punto, i profili voce di anteprima smetteranno di funzionare.
Python: aggiunta del supporto per Identificazione della lingua continua (LID) negli oggetti SpeechRecognizer e TranslationRecognizer esistenti.
Python: aggiunto un nuovo oggetto Python denominato SourceLanguageRecognizer per eseguire LID una tantum o continuo (senza riconoscimento o traduzione).
JavaScript: API getActivationPhrasesAsync aggiunta alla classe VoiceProfileClient per ricevere un elenco di frasi di attivazione valide nella fase di iscrizione al Riconoscimento del Parlante per scenari di riconoscimento indipendenti.
VoiceProfileClient è ora async awaitable. Vedere questo codice di identificazione indipendente, ad esempio utilizzo.

Miglioramenti

Java: Supporto di AutoCloseable aggiunto a molti oggetti Java. Il modello try-with-resources è ora supportato per le risorse. Vedere questo esempio che usa try-with-resources. Per informazioni su questo criterio, vedere anche l'esercitazione sulla documentazione di Oracle Java per Istruzione try-with-resources.
L'impronta su disco è stata notevolmente ridotta per molte piattaforme e architetture. Esempi per il file binario Microsoft.CognitiveServices.Speech.core: x64 Linux è minore di 475 KB (riduzione dell'8,0%) piattaforma UWP di Windows Arm64 è minore di 464 KB (riduzione del 11,5%) Windows x86 è minore di 343 KB (riduzione del 17,5%) e x64 Windows è minore di 451 KB (riduzione del 19,4%).

Correzioni di bug

Java: correzione dell'errore di sintesi quando il testo di sintesi contiene caratteri surrogati. Per i dettagli, vedere qui.
JavaScript: l'elaborazione audio del microfono del browser ora usa AudioWorkletNode anziché ScriptProcessorNode, deprecato. Per i dettagli, vedere qui.
JavaScript: mantenere correttamente attive le conversazioni durante gli scenari di traduzione delle conversazioni a esecuzione prolungata. Per i dettagli, vedere qui.
JavaScript: è stato risolto un problema relativo alla riconnessione dello strumento di riconoscimento a un flusso multimediale nel riconoscimento continuo. Per i dettagli, vedere qui.
JavaScript: è stato risolto un problema relativo alla riconnessione del riconoscimento a un pushStream nel riconoscimento continuo. Per i dettagli, vedere qui.
JavaScript: correzione del calcolo dell'offset a livello di parola nei risultati dettagliati del riconoscimento. Per i dettagli, vedere qui.

Esempi

Esempi di avvio rapido Java aggiornati qui.
Esempi di riconoscimento del parlante JavaScript aggiornati per mostrare un nuovo utilizzo di enrollProfileAsync(). Vedere gli esempi qui.

Speech SDK 1.17.0: versione di maggio 2021

Nota

Inizia con il Speech SDK qui.

Riepilogo delle evidenziazioni

Ingombro ridotto: continuiamo a ridurre la memoria e l'ingombro su disco di Speech SDK e dei suoi componenti.
Una nuova API di identificazione della lingua autonoma consente di riconoscere la lingua che viene parlata.
Sviluppare applicazioni di gioco e di realtà mista abilitate per il riconoscimento vocale usando Unity in macOS.
È ora possibile usare la sintesi vocale oltre al riconoscimento vocale dal linguaggio di programmazione Go.
Diverse correzioni di bug per risolvere i problemi che gli UTENTI, nostri stimati clienti, hanno contrassegnato su GitHub! GRAZIE! Continua a inviare commenti e suggerimenti!

Nuove funzionalità

C++/C#: nuovo rilevamento autonomo della lingua all'avvio e continuo tramite l'API SourceLanguageRecognizer. Se si desidera solo rilevare le lingue pronunciate nel contenuto audio, questa è l'API da usare. Vedere i dettagli per C++ e C#.
C++/C#: riconoscimento vocale e riconoscimento della traduzione ora supportano identificazione della lingua sia all’avvio che continuativo, in modo da poter determinare a livello di programmazione quali lingue vengono parlate prima che siano trascritte o tradotte. Vedere la documentazione qui per riconoscimento vocale e qui per la traduzione vocale.
C#: aggiunta del supporto per Unity a macOS (x64). Questo sblocca i casi d'uso di riconoscimento vocale e sintesi vocale nella realtà mista e nei giochi!
Go: è stato aggiunto il supporto per la sintesi vocale al linguaggio di programmazione Go per renderla disponibile in altri casi d'uso. Consulta la guida di avvio rapido o la documentazione di riferimento.
C++/C#/Java/Python/Objective-C/Go: il sintetizzatore vocale ora supporta l'oggetto connection. Questo consente di gestire e monitorare la connessione al servizio Voce ed è particolarmente utile per la pre-connessione per ridurre la latenza. Vedere la documentazione qui.
C++/C#/Java/Python/Objective-C/Go: viene ora esposta la latenza e il tempo di sottocarico in SpeechSynthesisResult per monitorare e diagnosticare i problemi di latenza di sintesi vocale. Vedere i dettagli per C++, C#, Java, Python, Objective-C e Go.
C++/C#/Java/Python/Objective-C: la sintesi vocale ora usa le voci neurali per impostazione predefinita quando non si specifica una voce da usare. In questo modo si ottiene, per impostazione predefinita, un output di fedeltà maggiore; tuttavia aumenta anche il prezzo predefinito.
C++/C#/Java/Python/Objective-C/Go: è stata aggiunta una proprietà Gender alle informazioni vocali di sintesi per semplificare la selezione delle voci in base al genere. Questo risolve il problema di GitHub #1055.
C++, C#, Java, JavaScript: ora è supportato retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync e getAllProfilesAsync() in Riconoscimento del parlante per semplificare la gestione degli utenti di tutti i profili vocali per un determinato account. Vedere la documentazione per C++, C#, Java, JavaScript. Questo risolve il problema di GitHub #338.
JavaScript: è stato aggiunto un nuovo tentativo per gli errori di connessione che renderanno più solide le applicazioni vocali basate su JavaScript.

Miglioramenti

I file binari di Linux e Android Speech SDK sono stati aggiornati per usare la versione più recente di OpenSSL (1.1.1k)
Miglioramenti delle dimensioni del codice:
- Language Understanding è ora suddiviso in una libreria separata chiamata "lu".
- Le dimensioni binarie di Windows x64 core sono diminuite del 14,4%.
- Le dimensioni binarie core di Android Arm64 sono diminuite del 13,7%.
- sono diminuite le dimensioni anche di altri componenti.

Correzioni di bug

Tutti: è stato risolto il problema di GitHub #842 per ServiceTimeout. È ora possibile trascrivere file audio lunghi usando Speech SDK senza la connessione al servizio che termina con questo errore. Tuttavia, è comunque consigliabile usare la trascrizione batch per i file lunghi.
C#: è stato risolto il problema di GitHub #947 in cui nessun input vocale poteva lasciare l'app in uno stato non valido.
Java: correzione del problema di GitHub #997 in cui Speech SDK per Java 1.16 si arresta in modo anomalo quando si usa DialogServiceConnector senza una connessione di rete o una chiave di sottoscrizione non valida.
Correzione di un arresto anomalo del sistema quando arresta bruscamente il riconoscimento vocale (ad esempio, usando CTRL+C nell'app console).
Java: è stata aggiunta una correzione per eliminare i file temporanei in Windows quando si usa Speech SDK per Java.
Java: è stato risolto il problema di GitHub #994 in cui la chiamata DialogServiceConnector.stopListeningAsync potrebbe generare un errore.
Java: è stato risolto un problema del cliente nell'avvio rapido dell'assistente virtuale.
JavaScript: è stato risolto il problema di GitHub #366 in cui ConversationTranslator generava errore 'this.cancelSpeech isn't a function'.
JavaScript: è stato risolto il problema di GitHub #298 in cui l'esempio di 'Get result as an in-memory stream' riproduceva il suono ad alta voce.
JavaScript: è stato risolto il problema di GitHub #350 in cui la chiamata a AudioConfig potrebbe causare un errore 'ReferenceError: MediaStream isn't defined'.
JavaScript: correzione di un avviso UnhandledPromiseRejection in Node.js per sessioni con esecuzione prolungata.

Esempi

La documentazione degli esempi di Unity aggiornata per macOS qui.
È ora disponibile un esempio React Native per il servizio riconoscimento vocale di Voce di Azure AI qui.

Speech SDK 1.16.0: versione di marzo 2021

Nota

Speech SDK in Windows dipende dalla condivisione di Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019.

Nuove funzionalità

C++/C#/Java/Python: spostato nella versione più recente di GStreamer (1.18.3) per aggiungere il supporto per la trascrizione di qualsiasi formato multimediale in Windows, Linux e Android. Vedere la documentazione qui.
C++/C#/Java/Objective-C/Python: aggiunta del supporto per la decodifica dell'audio TTS/sintetizzato compresso nell'SDK. Se si imposta il formato audio di output su PCM e GStreamer è disponibile nel sistema, l'SDK richiederà automaticamente l'audio compresso dal servizio per risparmiare larghezza di banda e decodificare l'audio nel client. Per disabilitare questa funzionalità, è possibile impostare SpeechServiceConnection_SynthEnableCompressedAudioTransmission su false. Dettagli per C++, C#, Java, Objective-C, Python.
JavaScript: Node.js gli utenti possono ora usare l’AudioConfig.fromWavFileInputAPI. Questo risolve il problema di GitHub #252.
C++/C#/Java/Objective-C/Python: aggiunta del metodo GetVoicesAsync() per TTS per restituire tutte le voci di sintesi disponibili. Dettagli per C++, C#, Java, Objective-C e Python.
C++/C#/Java/JavaScript/Objective-C/Python: aggiunta dell'evento VisemeReceived per la sintesi vocale/TTS per restituire l'animazione visema sincrona. Vedere la documentazione qui.
C++/C#/Java/JavaScript/Objective-C/Python: aggiunta dell'evento BookmarkReached per TTS. È possibile impostare i segnalibri nel file SSML di input e ottenere gli scostamenti audio per ogni segnalibro. Vedere la documentazione qui.
Java: aggiunta del supporto per le API di riconoscimento del parlante. Per i dettagli, vedere qui.
C++/C#/Java/JavaScript/Objective-C/Python: aggiunta di due nuovi formati audio di output con contenitore WebM per TTS (Webm16Khz16BitMonoOpus e Webm24Khz16BitMonoOpus). Questi sono formati migliori per lo streaming audio con codec Opus. Dettagli per C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: aggiunta del supporto per il recupero del profilo vocale per lo scenario di Riconoscimento del parlante. Dettagli per C++, C#e Java.
C++/C#/Java/Objective-C/Python: aggiunta del supporto per una libreria condivisa separata per il microfono audio e il controllo altoparlante. In questo modo lo sviluppatore può usare l'SDK in ambienti che non hanno dipendenze necessarie per la libreria audio.
Objective-C/Swift: È stato aggiunto il supporto per il framework modulare con l'intestazione umbrella. Questo consente allo sviluppatore di importare Speech SDK come modulo nelle app Objective-C/Swift iOS/Mac. Questo risolve il problema di GitHub #452.
Python: aggiunta del supporto per Python 3.9 ed è stato eliminato il supporto per Python 3.5 per il fine vita di Python per 3.5.

Problemi noti

C++/C#/Java: DialogServiceConnector non può usare un CustomCommandsConfig per accedere a un'applicazione comandi personalizzati e verrà invece visualizzato un errore di connessione. Questa operazione può essere eseguita aggiungendo manualmente l'ID applicazione alla richiesta con config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Il comportamento previsto di CustomCommandsConfig verrà ripristinato nella versione successiva.

Miglioramenti

Nell'ambito del nostro impegno in più rilasci per ridurre l'utilizzo della memoria e lo spazio su disco di Speech SDK, i file binari Android sono ora più piccoli tra il 3% e il 5%.
Migliorata l'accuratezza, leggibilità e le sezioni 'vedi anche' della nostra documentazione di riferimento per C# qui.

Correzioni di bug

JavaScript: le intestazioni di file WAV di grandi dimensioni vengono ora analizzate correttamente (aumenta la sezione dell'intestazione a 512 byte). Questo risolve il problema di GitHub #962.
JavaScript: correzione del problema di temporizzazione del microfono se il flusso del microfono termina prima di arrestare il riconoscimento, risolvendo un problema con il riconoscimento vocale che non funziona in Firefox.
JavaScript: ora viene gestita correttamente la promessa di inizializzazione dell’handle quando il browser forza la disattivazione del microfono prima del completamento di turnOn.
JavaScript: è stata sostituita la dipendenza dell'URL con url-parse. Questo risolve il problema di GitHub #264.
Android: i callback fissi non funzionano quando minifyEnabled è impostato su true.
C++/C#/Java/Objective-C/Python: TCP_NODELAY verrà impostato correttamente sul socket I/O sottostante per TTS per ridurre la latenza.
C++/C#/Java/Python/Objective-C/Go: correzione di un arresto anomalo del sistema occasionale quando il riconoscimento è stato eliminato subito dopo l'avvio di un riconoscimento.
C++/C#/Java: correzione di un arresto anomalo del sistema occasionale nella distruzione del riconoscimento del parlante.

Esempi

JavaScript: esempi del browser non richiedono più il download del file di libreria JavaScript separato.

Speech SDK 1.15.0: versione di gennaio 2021

Nota

Speech SDK in Windows dipende dalla condivisione di Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019.

Riepilogo delle evidenziazioni

Memoria e footprint del disco più ridotti rendono l'SDK più efficiente.
Formati di output con fedeltà superiore disponibili per l'anteprima privata della voce neurale personalizzata.
Il Riconoscitore di Intenti ora può restituire più che solo l'intento principale, offrendoti la possibilità di fare una valutazione separata sull'intento del cliente.
Gli assistenti vocali e i bot sono ora più facili da configurare ed è possibile impedirne immediatamente l'ascolto ed esercitare un maggiore controllo sulla modalità di risposta agli errori.
Miglioramento delle prestazioni dei dispositivi grazie alla compressione facoltativa.
Utilizzare il Speech SDK su Windows ARM/Arm64.
Miglioramento del debug di basso livello.
La funzionalità di valutazione della pronuncia è ora più ampiamente disponibile.
Diverse correzioni di bug per risolvere i problemi che gli UTENTI, nostri stimati clienti, hanno contrassegnato su GitHub! GRAZIE! Continua a inviare commenti e suggerimenti!

Miglioramenti

Speech SDK è ora più efficiente e leggero. Abbiamo avviato uno sforzo su più versioni per ridurre l'utilizzo della memoria e l'occupazione su disco del Speech SDK. Come primo passo sono state apportate riduzioni significative delle dimensioni dei file nelle librerie condivise nella maggior parte delle piattaforme. Rispetto alla versione 1.14:
- Le librerie Windows compatibili con la piattaforma UWP a 64 bit sono circa il 30% più piccole.
- Per le librerie Windows a 32 bit non si vede ancora un miglioramento delle dimensioni.
- Le librerie Linux sono ridotte del 20-25%.
- Le librerie Android sono ridotte del 3-5%.

Nuove funzionalità

Tutto: nuovi formati di output a 48 KHz disponibili per l'anteprima privata della voce neurale personalizzata tramite l'API di sintesi vocale TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Tutto: la voce personalizzata è anche più semplice da usare. Aggiunta del supporto per l'impostazione della voce personalizzata tramite EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Prima di questa modifica, gli utenti voce personalizzati devono impostare l'URL dell'endpoint tramite il metodoFromEndpoint. Ora i clienti possono usare il FromSubscription metodo proprio come le voci standard e quindi specificare l'ID di distribuzione impostando EndpointId. Questo semplifica la configurazione di voci personalizzate.
C++/C#/Java/Objective-C/Python: ottenere più della finalità principale daIntentRecognizer. Supporta ora la configurazione del risultato JSON contenente tutte le finalità e non solo la finalità di punteggio principale tramite il metodo LanguageUnderstandingModel FromEndpoint usando il parametro URIverbose=true. Questo risolve il problema di GitHub #880. Vedere la documentazione aggiornata qui.
C++/C#/Java: far sì che l'assistente vocale o il bot arrestino immediatamente l'ascolto. DialogServiceConnector (C++, C#, Java) ha ora un metodo StopListeningAsync() per accompagnare ListenOnceAsync(). Questo arresterà immediatamente l'acquisizione audio e attenderà normalmente un risultato, rendendolo perfetto per l'uso con scenari di pressione del pulsante "stop now".
C++/C#/Java/JavaScript: far sì che l'assistente vocale o il bot reagiscano meglio agli errori di sistema sottostanti. DialogServiceConnector (C++, C#, Java, JavaScript) include ora un nuovo gestore eventi TurnStatusReceived. Questi eventi facoltativi corrispondono a ogni risoluzione ITurnContext sul Bot e segnalano errori di esecuzione quando si verificano problemi, ad esempio, a causa di un'eccezione non gestita, un timeout o un'interruzione della rete tra Direct Line Speech e il Bot. TurnStatusReceived semplifica la risposta alle condizioni di errore. Ad esempio, se un bot richiede troppo tempo su una query di database back-end (ad esempio, la ricerca di un prodotto), TurnStatusReceived fa sì che il client lo sappia per ripetere la richiesta con "spiacente, non ho capito bene, potrebbe essere necessario riprovare" o qualcosa di simile.
C++/C#: usare Speech SDK in più piattaforme. Il pacchetto NuGet di Speech SDK ora supporta file binari nativi di Windows ARM/Arm64 (la piattaforma UWP è già supportata) per rendere Speech SDK più utile su più tipi di computer.
Java: DialogServiceConnector ora include un metodo setSpeechActivityTemplate() che in precedenza era involontariamente escluso dal linguaggio. Equivale a impostare la proprietà Conversation_Speech_Activity_Template e richiederà che tutte le future attività di Bot Framework originate dal servizio Direct Line Speech uniscano il contenuto fornito nei payload JSON.
Java: è stato migliorato il debug di basso livello. La classe Connection include ora un evento MessageReceived, simile ad altri linguaggi di programmazione (C++, C#). Questo evento offre accesso di basso livello ai dati in ingresso dal servizio e può essere utile per la diagnostica e il debug.
JavaScript: configurazione semplificata per assistenti vocali e bot tramite BotFrameworkConfig, che ora include i metodi factory fromHost() e fromEndpoint(), i quali semplificano l'uso di posizioni del servizio personalizzate rispetto all'impostazione manuale delle proprietà. Abbiamo anche standardizzato la specifica facoltativa di botId per usare un bot non predefinito nelle fabbriche di configurazione.
JavaScript: miglioramento delle prestazioni del dispositivo tramite la proprietà di controllo stringa aggiunta per la compressione WebSocket. Per motivi di prestazioni, la compressione websocket è stata disabilitata per impostazione predefinita. Può essere riabilitato per scenari a larghezza di banda ridotta. Altri dettagli sono disponibili qui. Questo risolve il problema di GitHub #242.
JavaScript: aggiunta del supporto per la valutazione lPronunciation per abilitare la valutazione della pronuncia vocale. Vedere la guida introduttiva qui.

Correzioni di bug

Tutto (ad eccezione di JavaScript): Corretta una regressione nella versione 1.14, in cui veniva allocata troppa memoria dal motore di riconoscimento.
C++: è stato risolto un problema di Garbage Collection con DialogServiceConnector, risolvendo il problema di GitHub #794.
C#: Risolto un problema relativo all'arresto del thread che causava il blocco degli oggetti per circa un secondo al momento della loro eliminazione.
C++/C#/Java: correzione di un'eccezione che impedisce a un'applicazione di impostare il token di autorizzazione vocale o il modello di attività più volte in un DialogServiceConnector.
C++/C#/Java: correzione di un arresto anomalo del sistema di riconoscimento a causa di una race condition in fase di disinstallazione.
JavaScript: DialogServiceConnector non rispettava in precedenza il parametro facoltativo botId specificato nelle factory di BotFrameworkConfig. Questo ha reso necessario impostare manualmente il parametro della stringa di query botId per usare un bot non predefinito. Il bug è stato corretto e i valori botId forniti alle fabbriche di BotFrameworkConfig verranno rispettati e usati, incluse le nuove aggiunte fromHost() e fromEndpoint(). Questo vale anche per il parametro applicationId per CustomCommandsConfig.
JavaScript: è stato risolto il problema di GitHub #881, consentendo il riutilizzo dell’oggetto di riconoscimento.
JavaScript: è stato risolto un problema per cui SKD inviava speech.config più volte in una sessione TTS, sprecando la larghezza di banda.
JavaScript: semplificazione della gestione degli errori per l'autorizzazione del microfono, permettendo che un messaggio più descrittivo emerga quando l'utente non ha autorizzato l'uso del microfono nel proprio browser.
JavaScript: è stato risolto il problema di GitHub #249 in cui gli errori di tipo in ConversationTranslator e ConversationTranscriber causavano un errore di compilazione per gli utenti TypeScript.
Objective-C: è stato risolto un problema per cui la build GStreamer non è riuscita per iOS in Xcode 11.4, risolvendo il problema di GitHub #911.
Python: è stato risolto il problema di GitHub #870, rimuovendo "DeprecationWarning: the imp module is deprecated in favor of importlib".

Esempi

Esempio da file per il browser JavaScript ora usa i file per il riconoscimento vocale. Questo risolve il problema di GitHub #884.

Speech SDK 1.14.0: versione di ottobre 2020

Nota

Speech SDK in Windows dipende dalla condivisione di Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019.

Nuove funzionalità

Linux: aggiunta del supporto per Debian 10 e Ubuntu 20.04 LTS.
Python/Objective-C: aggiunta del supporto per l'API KeywordRecognizer. La documentazione sarà disponibile qui.
C++/Java/C#: aggiunta del supporto per impostare qualsiasi chiave/valore HttpHeader tramite ServicePropertyChannel::HttpHeader.
JavaScript: aggiunta del supporto per l'API ConversationTranscriber. La documentazione è disponibile qui.
C++/C#: aggiunta di un nuovo metodo AudioDataStream FromWavFileInput (per leggere i file .WAV) qui (C++) e qui (C#).
C++/C#/Java/Python/Objective-C/Swift: aggiunta di un metodo stopSpeakingAsync() per arrestare la sintesi vocale. Leggere la documentazione di riferimento qui (C++), qui (C#), qui (Java), qui (Python) e qui (Objective-C/Swift).
C#, C++, Java: aggiunta di una funzione FromDialogServiceConnector() alla classe Connection che può essere usata per monitorare gli eventi di connessione e disconnessione per DialogServiceConnector. Leggere la documentazione di riferimento qui (C#), qui (C++) e qui (Java).
C++/C#/Java/Python/Objective-C/Swift: aggiunta del supporto per la valutazione della pronuncia, che valuta la pronuncia del parlato e fornisce commenti e suggerimenti per l'accuratezza e la fluidità dell'audio parlato. Leggi la documentazione, disponibile qui.

Cambiamento radicale

JavaScript: PullAudioOutputStream.read() ha una modifica del tipo restituito da una promessa interna a una promessa JavaScript nativa.

Correzioni di bug

Tutto: correzione della regressione 1.13 in SetServiceProperty dove i valori con determinati caratteri speciali sono stati ignorati.
C#: correzione degli esempi di console di Windows in Visual Studio 2019 che non riescono a trovare DLL native.
C#: correzione dell'arresto anomalo del sistema con gestione della memoria se il flusso viene usato come input KeywordRecognizer.
ObjectiveC/Swift: Risolto il crash con la gestione della memoria se il flusso viene utilizzato come input per il riconoscimento.
Windows: correzione del problema di coesistenza con BT HFP/A2DP nella piattaforma UWP.
JavaScript: corretto il mapping degli ID sessione per migliorare la registrazione dei log e facilitare le correlazioni interne di debugging e servizi.
JavaScript: aggiunta della correzione per DialogServiceConnector che disabilita le chiamate ListenOnce dopo la prima chiamata.
JavaScript: è stato risolto un problema per cui l'output dei risultati sarebbe sempre "semplice".
JavaScript: è stato risolto un problema di riconoscimento continuo in Safari in macOS.
JavaScript: mitigazione del carico della CPU per uno scenario di velocità effettiva elevata delle richieste.
JavaScript: consente l'accesso ai dettagli del risultato della registrazione del profilo Voce.
JavaScript: aggiunta della correzione per il riconoscimento continuo in IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: risolto l'URL non corretto per australiaeast e brazilsouth in IntentRecognizer.
C++/C#: aggiunta di VoiceProfileType come argomento durante la creazione di un oggetto VoiceProfile.
C++/C#/Java/Python/Swift/ObjectiveC: correzione di potenziali SPX_INVALID_ARG durante il tentativo di leggere AudioDataStream da una determinata posizione.
IOS: correzione dell'arresto anomalo del sistema con il riconoscimento vocale in Unity

Esempi

ObjectiveC: aggiunta di esempio per il riconoscimento delle parole chiave qui.
C#/JavaScript: aggiunta della guida introduttiva per la trascrizione della conversazione qui (C#) e qui (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: aggiunta di un esempio per la valutazione della pronuncia qui

Problema noto

Per impostazione predefinita, il certificato DigiCert Global Root G2 non è supportato in HoloLens 2 e Android 4.4 (KitKat) e deve essere aggiunto al sistema per rendere funzionale Speech SDK. Il certificato verrà aggiunto alle immagini del sistema operativo HoloLens 2 prossimamente. I clienti Android 4.4 devono aggiungere il certificato aggiornato al sistema.

Test di COVID-19 risolti

A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come di consueto. Non sono state apportate modifiche che riteniamo potrebbero aver danneggiato qualcosa e tutti i test automatizzati sono stati superati. Nell'improbabile eventualità che abbiamo perso qualcosa, ti invitiamo a comunicarcelo su GitHub.
Rimani in salute!

Speech SDK 1.13.0: versione di luglio 2020

Nota

Speech SDK in Windows dipende dalla condivisione di Microsoft Visual C++ Redistributable per Visual Studio 2015, 2017 e 2019.

Nuove funzionalità

C#: Aggiunta del supporto per la trascrizione asincrona delle conversazioni. Vedere la documentazione qui.
JavaScript: è stato aggiunto il supporto riconoscimento del parlante sia per browser che per Node.js.
JavaScript: aggiunta del supporto per l'identificazione del linguaggio/ID lingua. Vedere la documentazione qui.
Objective-C: aggiunta del supporto per conversazioni multi-dispositivo e trascrizione della conversazione.
Python: aggiunta del supporto audio compresso per Python in Windows e Linux. Vedere la documentazione qui.

Correzioni di bug

Tutto: è stato risolto un problema che causava il mancato avanzamento dei flussi da parte di KeywordRecognizer dopo un riconoscimento.
Tutto: è stato risolto un problema che causava il mancato contenimento della parola chiave del flusso ottenuto da KeywordRecognitionResult.
Tutto: Risolto un problema per cui SendMessageAsync non invia realmente il messaggio attraverso la rete dopo che gli utenti hanno terminato l'attesa.
Tutto: è stato risolto un arresto anomalo nelle API di Riconoscimento del parlante quando gli utenti chiamano il metodo VoiceProfileClient::SpeakerRecEnrollProfileAsync più volte senza attendere il completamento delle chiamate.
Tutto: correzione dell'abilitazione della registrazione dei file nelle classi VoiceProfileClient e SpeakerRecognizer.
JavaScript: è stato risolto un problema relativo alla limitazione quando il browser è ridotto a icona.
JavaScript: Risolto un problema di perdita di memoria nei flussi.
JavaScript: aggiunta della memorizzazione nella cache per le risposte OCSP da NodeJS.
Java: è stato risolto un problema che causava sempre la restituzione di 0 dei campi BigInteger.
iOS: è stato risolto un problema con la pubblicazione di app basate su Speech SDK nell'App Store iOS.

Esempi

C++: è stato aggiunto il codice di esempio per il riconoscimento del parlante qui.

Test di COVID-19 risolti

Speech SDK 1.12.1: versione di giugno 2020

Nuove funzionalità

C#, C++: anteprima riconoscimento del parlante: questa funzionalità abilita l'identificazione voce (chi sta parlando?) e la verifica voce (è il parlante che sostiene di essere?). Vedere la documentazione di panoramica.

Correzioni di bug

C#, C++: Corretto il problema della registrazione del microfono che non funzionava nella versione 1.12 in Riconoscimento vocale.
JavaScript: correzioni per la sintesi vocale in Firefox e Safari in macOS e iOS.
Correzione dell'arresto anomalo di violazione di accesso del verificatore dell'applicazione Windows per la trascrizione di una conversazione usando un flusso a otto canali.
Correzione dell'arresto anomalo di violazione di accesso del verificatore dell'applicazione Windows sulla traduzione di conversazioni multi-dispositivo.

Esempi

C#: esempio di codice per il riconoscimento del parlante.
C++: esempio di codice per il riconoscimento del parlante.
Java: esempio di codice per il riconoscimento finalità in Android.

Test di COVID-19 risolti

Speech SDK 1.12.0: versione di maggio 2020

Nuove funzionalità

Go: nuovo supporto per il linguaggio di programmazione Go per riconoscimento vocale e assistente vocale personalizzato. Configurare l'ambiente di sviluppo qui. Per il codice di esempio, vedere la sezione Esempi di seguito.
JavaScript: Aggiunto supporto browser per la sintesi vocale. Vedere la documentazione qui.
C++, C#, Java: nuove API e oggetti KeywordRecognizer supportati nelle piattaforme Windows, Android, Linux e iOS. Leggi la documentazione, disponibile qui. Per il codice di esempio, vedere la sezione Esempi di seguito.
Java: aggiunta di una conversazione multi-dispositivo con supporto per la traduzione. Vedere la documentazione di riferimento qui.

Miglioramenti e ottimizzazioni

JavaScript: implementazione del microfono del browser ottimizzato che migliora l'accuratezza del riconoscimento vocale.
Java: binding di refactoring che usano l'implementazione JNI diretta senza SWIG. Questa modifica riduce di 10 volte le dimensioni delle associazioni per tutti i pacchetti Java usati per Windows, Android, Linux e Mac e semplifica ulteriormente lo sviluppo dell'implementazione java di Speech SDK.
Linux: aggiornamento documentazione del supporto con le note specifiche di RHEL 7 più recenti.
Miglioramento della logica di connessione per tentare di connettersi più volte quando si verificano errori del servizio e di rete.
Aggiornata la pagina di Avvio rapido di Sintesi vocale su portal.azure.com per aiutare gli sviluppatori a fare il passo successivo nel percorso di Azure AI Sintesi vocale.

Correzioni di bug

C#, Java: è stato risolto un problema con il caricamento delle librerie SDK in Linux ARM (sia a 32 bit che a 64 bit).
C#: correzione dell'eliminazione esplicita degli handle nativi per gli oggetti TranslationRecognizer, IntentRecognizer e Connection.
C#: correzione della gestione della durata dell'input audio per l'oggetto ConversationTranscriber.
È stato risolto un problema per cui il motivo del risultato IntentRecognizer non veniva impostato correttamente durante il riconoscimento finalità da frasi semplici.
È stato risolto un problema per cui l'offset dei risultati SpeechRecognitionEventArgs non era impostato correttamente.
Correzione di una race condition in cui SDK tentava di inviare un messaggio di rete prima di aprire la connessione Websocket. Was riproducibile per TranslationRecognizer durante l'aggiunta di partecipanti.
Correzione delle perdite di memoria nel motore di riconoscimento delle parole chiave.

Esempi

Go: sono stati aggiunti avvii rapidi per il riconoscimento vocale e assistente vocale personalizzato. Trovare codice di esempio qui.
JavaScript: sono state aggiunti avvi rapidi per Sintesi vocale, Traduzione e Riconoscimento finalità.
Esempi di riconoscimento delle parole chiave per C# e Java (Android).

Test di COVID-19 risolti

A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come di consueto. Non sono state apportate modifiche che riteniamo potrebbero aver danneggiato qualcosa e tutti i test automatizzati sono stati superati. Se si è perso qualcosa, segnalarlo su GitHub.
Rimani in salute!

Speech SDK 1.11.0: versione di marzo 2020

Nuove funzionalità

Linux: aggiunta del supporto per Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
Linux: aggiunta del supporto per .NET Core C# in Linux ARM32 e Arm64. Altre informazioni sono disponibili qui.
C#, C++: aggiunto UtteranceId in ConversationTranscriptionResult, un ID coerente in tutti i risultati intermedi e nel riconoscimento vocale finale. Dettagli per C#, C++.
Python: aggiunto supporto per Language ID. Vedere speech_sample.py nel repository GitHub.
Windows: aggiunta del supporto del formato di input audio compresso nella piattaforma Windows per tutte le applicazioni console win32. Per i dettagli, vedere qui.
JavaScript: supporto per la sintesi vocale in NodeJS. Altre informazioni qui.
JavaScript: aggiungere nuove API per abilitare l'ispezione di tutti i messaggi di invio e ricezione. Altre informazioni qui.

Correzioni di bug

C#, C++: correzione di un problema per cui SendMessageAsync ora invia un messaggio binario come tipo binario. Dettagli per C#, C++.
C#, C++: è stato risolto un problema per cui l'uso dell'evento Connection MessageReceived potrebbe causare un arresto anomalo del sistema se Recognizer viene eliminato prima dell'oggetto Connection. Dettagli per C#, C++.
Android: le dimensioni del buffer audio dal microfono sono diminuite da 800 ms a 100 ms per migliorare la latenza.
Android: è stato risolto un problema con l'emulatore Android x86 in Android Studio.
JavaScript: Aggiunto supporto per le Regioni in Cina con l'API fromSubscription. Per i dettagli, vedere qui.
JavaScript: aggiungere altre informazioni sugli errori di connessione da NodeJS.

Esempi

Unity: è stato corretto l'esempio pubblico di riconoscimento finalità, in cui l'importazione JSON LUIS ha esito negativo. Per i dettagli, vedere qui.
Python: esempio aggiunto per Language ID. Per i dettagli, vedere qui.

Test di Covid19 ridotti: a causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale dei dispositivi come normalmente. Ad esempio, non è stato possibile testare l’input del microfono e l’output dell’altoparlante in Linux, iOS e macOS. Non abbiamo apportato modifiche che pensiamo possano aver causato problemi su queste piattaforme, e tutti i nostri test automatizzati sono risultati positivi. Nel caso improbabile che si sia perso qualcosa, segnalarlo su GitHub.
Grazie per il costante supporto. Come sempre, inviare domande o commenti su GitHub o Stack Overflow.
Rimani in salute!

Speech SDK 1.10.0: versione di febbraio 2020

Nuove funzionalità

Sono stati aggiunti pacchetti Python per supportare la nuova versione 3.8 di Python.
Supporto di Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

Nota

I clienti devono configurare OpenSSL in base a queste istruzioni.
Supporto ARM32 di Linux per Debian e Ubuntu.
DialogServiceConnector ora supporta un parametro 'bot ID' facoltativo in BotFrameworkConfig. Questo parametro consente l'uso di più bot Direct Line Speech con una singola risorsa Voce. Senza il parametro specificato, verrà usato il bot predefinito (come determinato dalla pagina di configurazione del canale Direct Line Speech).
DialogServiceConnector ha ora una proprietà SpeechActivityTemplate. Il contenuto di questa stringa JSON verrà usato da Direct Line Speech per precompilare un'ampia gamma di campi supportati in tutte le attività che raggiungono un bot Direct Line Speech, incluse le attività generate automaticamente in risposta a eventi quali il riconoscimento vocale.
TTS ora usa la chiave di sottoscrizione per l'autenticazione, riducendo la latenza del primo byte del primo risultato di sintesi dopo la creazione di un sintetizzatore.
Modelli di riconoscimento vocale aggiornati per 19 impostazioni locali per una riduzione media della percentuale di errori di parola pari al 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). I nuovi modelli apportano miglioramenti significativi in più domini, tra cui dettatura, trascrizione call center e scenari di indicizzazione video.

Correzioni di bug

Corretto un bug in cui il Trascrittore di Conversazione non si attendeva correttamente nelle API Java.
Aggiungere mancante (Get|Set)Metodi di proprietà su AudioConfig.
Correzione di un bug TTS in cui non è stato possibile arrestare audioDataStream quando la connessione non riesce.
L'uso di un endpoint senza un'area causerebbe errori USP per Conversation Translator.
La generazione di ID nelle applicazioni Windows universali ora usa un algoritmo GUID univoco appropriato; in precedenza e involontariamente era stata impostata su un'implementazione stub che spesso ha prodotto collisioni su grandi set di interazioni.

Esempi

Esempio di Unity per l'uso di Speech SDK con microfono Unity e streaming in modalità push

Altre modifiche

Documentazione di configurazione OpenSSL aggiornata per Linux

Speech SDK 1.9.0: versione di gennaio 2020

Nuove funzionalità

Conversazione multi-dispositivo: connettere più dispositivi alla stessa conversazione vocale o basata su testo e, facoltativamente, tradurre i messaggi inviati tra di essi. Altre informazioni sono disponibili in questo articolo.
È stato aggiunto il supporto per il riconoscimento delle parole chiave per il pacchetto Android .aar e aggiunto il supporto per le versioni x86 e x64.
Objective-C: metodi SendMessage e SetMessageProperty aggiunti all'oggetto Connection. Vedere la documentazione qui.
L'API C++ TTS supporta ora std::wstring come input di testo di sintesi, rimuovendo la necessità di convertire una wstring in stringa prima di passarla all'SDK. Vedere i dettagli qui.
C#: ID lingua e configurazione della lingua di origine sono ora disponibili.
JavaScript: aggiunta di una funzionalità all'oggetto Connection per passare messaggi personalizzati dal servizio Voce come callback receivedServiceMessage.
JavaScript: aggiunta del supporto per FromHost API al fine di semplificare l'uso con contenitori locali e cloud sovrani. Vedere la documentazione qui.
JavaScript: Onoriamo ora NODE_TLS_REJECT_UNAUTHORIZED grazie a un contributo di orgads. Vedere i dettagli qui.

Modifiche di rilievo

OpenSSL è stato aggiornato alla versione 1.1.1b ed è collegato staticamente alla libreria principale di Speech SDK per Linux. Questo può causare un'interruzione del funzionamento se la casella di posta OpenSSL non è stata installata nella directory /usr/lib/ssl all'interno del sistema. Per risolvere il problema consultare la nostra documentazione in Speech SDK.
Il tipo di dati restituito per C# WordLevelTimingResult.Offset da int a long è stato modificato per consentire l'accesso a WordLevelTimingResults quando i dati vocali sono più lunghi di 2 minuti.
PushAudioInputStream e PullAudioInputStream ora inviano informazioni sull'intestazione wav al servizio Voce in base a AudioStreamFormat, facoltativamente specificato al momento della loro creazione. I clienti devono ora usare il formato di input audio supportato. Qualsiasi altro formato otterrà risultati di riconoscimento non ottimali o potrebbe generare altri problemi.

Correzioni di bug

Vedere l'aggiornamento OpenSSL in Modifiche che causano un’interruzione sopra. È stato risolto un arresto anomalo intermittente e un problema di prestazioni (contesa di blocco con carico elevato) in Linux e Java.
Java: sono stati apportati miglioramenti alla chiusura degli oggetti in scenari di concorrenza elevata.
Ristrutturato il nostro pacchetto NuGet. Sono state rimosse le tre copie di Microsoft.CognitiveServices.Speech.core.dll e Microsoft.CognitiveServices.Speech.extension.kws.dll nelle cartelle della libreria, rendendo il pacchetto NuGet più piccolo e veloce da scaricare; inoltre sono state aggiunte le intestazioni necessarie per compilare alcune app native di C++.
Correzione degli esempi della guida introduttiva qui. Questi uscivano senza visualizzare l'eccezione "microfono non trovato" in Linux, macOS, Windows.
Correzione dell'arresto anomalo del sistema di SDK con risultati di riconoscimento vocale lunghi in determinati percorsi di codice come questo esempio.
Correzione dell'errore di distribuzione dell'SDK nell'ambiente app Web di Azure per risolvere questo problema del cliente.
Correzione di un errore TTS durante l'uso di più tag <voice> o tag <audio> per risolvere questo problema del cliente.
Correzione di un errore TTS 401 quando l'SDK viene ripristinato dalla sospensione.
JavaScript: correzione di un'importazione circolare dei dati audio grazie a un contributo di euirim.
JavaScript: aggiunta del supporto per l'impostazione delle proprietà del servizio, anche aggiunto nella versione 1.7.
JavaScript: è stato risolto un problema per cui un errore di connessione poteva causare tentativi di riconnessione websocket continui e non riusciti.

Esempi

Aggiunto esempio di riconoscimento delle parole chiave per Android qui.
Esempio TTS aggiunto per lo scenario del server qui.
Sono state aggiunte guide introduttive per la conversazione su più dispositivi per C# e C++ qui.

Altre modifiche

Dimensioni ottimizzate della libreria principale dell'SDK in Android.
L'SDK dalla versione 1.9.0 in poi supporta sia i tipi int che string nel campo della versione della firma vocale per la trascrizione della conversazione.

Speech SDK 1.8.0: versione di novembre 2019

Nuove funzionalità

Aggiunta di un'API FromHost() per semplificare l'uso con contenitori locali e cloud sovrani.
Aggiunta dell'identificazione della lingua di origine per il riconoscimento vocale (in Java e C++)
Aggiunta dell'oggetto SourceLanguageConfig per il riconoscimento vocale, usato per specificare i linguaggi di origine previsti (in Java e C++)
Supporto aggiunto KeywordRecognizer su Windows (piattaforma UWP), Android e iOS attraverso i pacchetti NuGet e Unity
Aggiunta dell'API Java di conversazione remota per eseguire la trascrizione della conversazione in batch asincroni.

Modifiche di rilievo

Funzionalità di trascrizione conversazione spostate nello spazio dei nomi Microsoft.CognitiveServices.Speech.Transcription.
Le parti dei metodi di trascrizione conversazione vengono spostate in una nuova classe Conversation.
Interrotto il supporto per iOS a 32 bit (ARMv7 e x86)

Correzioni di bug

Correzione dell'arresto anomalo del sistema se viene usato KeywordRecognizer in locale senza una chiave di sottoscrizione valida del servizio Voce

Esempi

Esempio di Xamarin per KeywordRecognizer
Esempio di Unity per KeywordRecognizer
Esempi di C++ e Java per l'identificazione automatica della lingua di origine.

Speech SDK 1.7.0: versione di settembre 2019

Nuove funzionalità

Aggiunta del supporto beta per Xamarin nella piattaforma UWP (Universal Windows Platform), Android e iOS
Aggiunta del supporto iOS per Unity
Aggiunto supporto di input Compressed per ALaw, Mulaw, FLAC, su Android, iOS e Linux
Aggiunta di SendMessageAsync nella classe Connection per l'invio di un messaggio al servizio
Aggiunta di SetMessageProperty nella classe Connection per impostare la proprietà di un messaggio
TTS ha aggiunto associazioni per Java (JRE e Android), Python, Swift e Objective-C
TTS ha aggiunto il supporto per la riproduzione per macOS, iOS e Android.
Aggiunta di informazioni "confine di parola" per TTS.

Correzioni di bug

Correzione del problema di compilazione IL2CPP in Unity 2019 per Android
Correzione del problema relativo alle intestazioni in formato non valido nell'input del file wav elaborato in modo non corretto
È stato risolto un problema con UUID non univoci in alcune proprietà di connessione
Correzione di alcuni avvisi relativi ai specificatori di nullabilità nelle associazioni Swift (potrebbero richiedere piccole modifiche al codice)
Abbiamo corretto un bug che causava la chiusura delle connessioni WebSocket in maniera non corretta sotto carico di rete.
È stato risolto un problema in Android che a volte causava ID impression duplicati usati da DialogServiceConnector
Miglioramenti alla stabilità delle connessioni tra interazioni a più turni e segnalazione di errori (tramite eventi Canceled) quando si verificano con DialogServiceConnector
L’avvio della sessione DialogServiceConnector ora fornirà correttamente gli eventi, compreso quando si chiama ListenOnceAsync() durante la sessione attiva StartKeywordRecognitionAsync().
È stato risolto un arresto anomalo del sistema associato alle attività DialogServiceConnector in ricezione

Esempi

Avvio rapido per Xamarin
Avvio rapido aggiornato per CPP con informazioni su Linux Arm64
Avvio rapido di Unity aggiornata con informazioni su iOS

Speech SDK 1.6.0: versione di giugno 2019

Esempi

Esempi di avvio rapido per sintesi vocale in piattaforma UWP e Unity
Esempio di Avvio rapido per Swift in iOS
Esempi di Unity per riconoscimento finalità e vocale, e traduzione
Esempi di avvio rapido aggiornati per DialogServiceConnector

Miglioramenti/modifiche

Spazio dei nomi della finestra di dialogo:
- SpeechBotConnector è stata rinominata DialogServiceConnector
- BotConfig è stata rinominata DialogServiceConfig
- È stato eseguito un nuovo mapping di BotConfig::FromChannelSecret() per DialogServiceConfig::FromBotSecret()
- Tutti i client Direct Line Speech esistenti continuano a essere supportati dopo la ridenominazione
Aggiornare l'adattatore REST TTS per supportare la connessione proxy, persistente
Migliorare il messaggio di errore quando viene passata un'area non valida
Swift/Objective-C:
- Miglioramento della segnalazione degli errori: i metodi che possono generare un errore sono ora presenti in due versioni: uno che espone un oggetto NSError per la gestione degli errori e uno che genera un'eccezione. I precedenti sono esposti a Swift. Questa modifica richiede adattamenti del codice Swift esistente.
- Gestione degli eventi migliorata

Correzioni di bug

Correzione per TTS: dove il futuro SpeakTextAsync è stato restituito senza attendere il completamento del rendering dell'audio
Correzione per eseguire il marshalling delle stringhe in C# per abilitare il supporto completo della lingua
Correzione del problema dell'app .NET Core per caricare la libreria core con framework di destinazione net461 negli esempi
Correzione di problemi occasionali per distribuire librerie native nella cartella di output negli esempi
Correzione per la chiusura affidabile del websocket
Correzione di un possibile arresto anomalo durante l'apertura di una connessione con carico elevato in Linux
Correzione per i metadati mancanti nel pacchetto del framework per macOS
Correzione dei problemi relativi a pip install --user in Windows

Speech SDK 1.5.1

Si tratta di una versione di correzione di bug che influisce solo su SDK nativo/gestito. Non influisce sulla versione JavaScript dell'SDK.

Correzioni di bug

Correzione di FromSubscription quando usata con trascrizione conversazione.
Correzione del bug nella ricerca di parole chiave per gli assistenti vocali.

Speech SDK 1.5.0: versione di maggio 2019

Nuove funzionalità

L'individuazione delle parole chiave (KWS) è ora disponibile per Windows e Linux. La funzionalità KWS potrebbe funzionare con qualsiasi tipo di microfono. Il supporto ufficiale di KWS, tuttavia, è attualmente limitato alle matrici di microfoni disponibili nell'hardware di Azure Kinect DK o nei dispositivi Speech SDK.
La funzionalità hint per frasi è disponibile tramite l'SDK. Per ulteriori informazioni, vedi qui.
La funzionalità di trascrizione conversazione è disponibile tramite SDK.
Aggiungere il supporto per gli assistenti vocali usando il canale Direct Line Speech.

Esempi

Aggiunti esempi per le nuove funzionalità o i nuovi servizi supportati dall'SDK.

Miglioramenti/modifiche

Sono state aggiunte varie proprietà di riconoscimento per regolare il comportamento del servizio o i risultati del servizio (ad esempio mascherando contenuto volgare e altro).
È ora possibile configurare il riconoscimento tramite le proprietà di configurazione standard, anche se è stato creato il sistema di riconoscimento FromEndpoint.
Objective-C: la proprietà OutputFormat è stata aggiunta a SPXSpeechConfiguration.
SDK supporta ora Debian 9 come distribuzione Linux.

Correzioni di bug

È stato risolto un problema per cui la risorsa vocale veniva eliminata troppo presto nel processo di sintesi vocale.

Speech SDK 1.4.2

Si tratta di una versione di correzione di bug che influisce solo su SDK nativo/gestito. Non influisce sulla versione JavaScript dell'SDK.

Speech SDK 1.4.1

Questa è una versione solo per JavaScript. Non sono state aggiunte funzionalità. Sono state apportate le correzioni seguenti:

Impedire al pacchetto Web di caricare https-proxy-agent.

Speech SDK 1.4.0: versione di aprile 2019

Nuove funzionalità

L'SDK supporta ora il servizio Sintesi vocale in versione beta. È supportato su Windows Desktop e Linux da C++ e C#. Per altre informazioni, vedere panoramica di Sintesi vocale.
SDK supporta ora file audio MP3 e Opus/OGG come file di input streaming. Questa funzionalità è disponibile solo in Linux da C++ e C# ed è attualmente in versione beta (altri dettagli qui).
Speech SDK per Java, .NET Core, C++ e Objective-C hanno ottenuto il supporto macOS. Il supporto Objective-C per macOS è attualmente in versione beta.
iOS: Speech SDK per iOS (Objective-C) è ora pubblicato anche come CocoaPod.
JavaScript: supporto per il microfono non predefinito come dispositivo di input.
JavaScript: supporto proxy per Node.js.

Esempi

Sono stati aggiunti esempi per l'uso di Speech SDK con C++ e con Objective-C in macOS.
Sono stati aggiunti esempi che illustrano l'utilizzo del servizio Sintesi vocale.

Miglioramenti/modifiche

Python: le proprietà aggiuntive dei risultati del riconoscimento vengono ora esposte tramite la proprietà properties.
Per un supporto aggiuntivo per lo sviluppo e il debug, è possibile reindirizzare le informazioni di registrazione e diagnostica dell'SDK in un file di log (altri dettagli qui).
JavaScript: migliorare le prestazioni di elaborazione audio.

Correzioni di bug

Mac/iOS: è stato corretto un bug che causava un'attesa prolungata quando non si riusciva a stabilire una connessione al servizio Voce.
Python: migliorare la gestione degli errori per gli argomenti nei callback di Python.
JavaScript: correzione della segnalazione dello stato non corretta perché il riconoscimento vocale terminava a RequestSession.

Speech SDK 1.3.1: aggiornamento di febbraio 2019

Si tratta di una versione di correzione di bug che influisce solo su SDK nativo/gestito. Non influisce sulla versione JavaScript dell'SDK.

Correzione di bug

Correzione di una perdita di memoria quando si usa l'input del microfono. L'input basato su streaming o file non è interessato.

Speech SDK 1.3.0: versione di febbraio 2019

Nuove funzionalità

Speech SDK supporta la selezione del microfono per l'input attraverso la classe AudioConfig. In questo modo è possibile trasmettere dati audio al servizio Voce da un microfono non predefinito. Per altre informazioni, vedere la documentazione relativa alla selezione del dispositivo di input audio. Questa funzionalità non è ancora disponibile in JavaScript.
Speech SDK supporta ora Unity in versione beta. Inviare commenti e suggerimenti tramite la sezione relativa ai problemi nel repository GitHub di esempio. Questa versione supporta Unity in Windows x86 e x64 (applicazioni desktop o per la piattaforma UWP) e Android (ARM32/64, x86). Altre informazioni sono disponibili nell'Avvio rapido di Unity.
Il file Microsoft.CognitiveServices.Speech.csharp.bindings.dll (fornito nelle versioni precedenti) non è più necessario. La funzionalità è ora integrata nell'SDK core.

Esempi

I nuovi contenuti seguenti sono disponibili nel repository di esempio:

Altri esempi per AudioConfig.FromMicrophoneInput.
Altri esempi di Python per il riconoscimento finalità e la traduzione.
Esempi aggiuntivi per l'uso dell'oggetto Connection in iOS.
Esempi aggiuntivi per Java per la traduzione con output audio.
Nuovo esempio per l'uso dell'API REST di trascrizione batch.

Miglioramenti/modifiche

Pitone
- Messaggi di errore e verifica dei parametri migliorati in SpeechConfig.
- Aggiungere il supporto per l'oggetto Connection.
- Supporto per Python a 32 bit (x86) in Windows.
- Speech SDK per Python non è incluso nella beta.
Ios
- L'SDK è ora basato sull'SDK per iOS versione 12.1.
- L'SDK supporta ora iOS 9.2 e versioni successive.
- Miglioramento della documentazione di riferimento e correzione di diversi nomi di proprietà.
JavaScript
- Aggiungere il supporto per l'oggetto Connection.
- Aggiungere file di definizione del tipo per JavaScript fornito in bundle.
- Supporto iniziale e implementazione per gli hint della frase.
- Restituzione della raccolta di proprietà con il file JSON del servizio per il riconoscimento.
Le DLL di Windows contengono ora una risorsa di versione.
Se si crea un sistema di riconoscimento FromEndpoint, è possibile aggiungere parametri direttamente all'URL dell'endpoint. L'uso di FromEndpoint non consente di configurare il sistema di riconoscimento tramite le proprietà di configurazione standard.

Correzioni di bug

Il nome utente proxy e la password proxy vuoti non sono stati gestiti correttamente. Con questa versione, se si imposta il nome utente proxy e la password proxy su una stringa vuota, non verranno inviati quando ci si connette al proxy.
Gli ID sessione creati dall'SDK non erano sempre realmente casuali per alcune lingue/ambienti. È stata aggiunta l'inizializzazione del generatore casuale per risolvere questo problema.
Gestione migliorata del token di autorizzazione. Se si vuole usare un token di autorizzazione, specificare in SpeechConfig e lasciare vuota la chiave API. Creare quindi il sistema di riconoscimento come di consueto.
In alcuni casi l'oggetto Connection non veniva rilasciato correttamente. Il problema è stato risolto.
L'esempio di JavaScript è stato corretto per supportare l'output audio per la sintesi della traduzione anche in Safari.

Speech SDK 1.2.1

Questa è una versione solo per JavaScript. Non sono state aggiunte funzionalità. Sono state apportate le correzioni seguenti:

Attivazione della fine del flusso in corrispondenza di turn.end e non di speech.end.
Correzione di un bug nel data pump audio che non pianificava l'invio successivo in caso di errore dell'invio corrente.
Correzione del riconoscimento continuo con il token di autenticazione.
Correzione di bug per sistemi di riconoscimento/endpoint diversi.
Miglioramenti alla documentazione.

Speech SDK 1.2.0: versione di dicembre 2018

Nuove funzionalità

Pitone
- La versione beta del supporto di Python (versione 3.5 e successive) è disponibile con questa versione. Per altre informazioni, vedere qui](.. /.. /quickstart-python.md).
JavaScript
- Speech SDK per JavaScript è ora open source. Il codice sorgente è disponibile in GitHub.
- È ora supportato Node.js. Altre informazioni sono reperibili qui.
- È stata rimossa la restrizione di lunghezza per le sessioni audio. La riconnessione avverrà automaticamente.
Oggetto Connection
- Da Recognizerè possibile accedere a un oggetto Connection. Questo oggetto consente di avviare in modo esplicito la connessione al servizio e di aggiungere una sottoscrizione per connettere e disconnettere gli eventi. (Questa funzionalità non è ancora disponibile in JavaScript e Python).
Supporto per Ubuntu 18.04.
Android
- Supporto di ProGuard abilitato durante la generazione di APK.

Miglioramenti

Miglioramenti nell'uso dei thread interni, con riduzione del numero di thread, blocchi e mutex.
Miglioramento della segnalazione errori e delle informazioni sugli errori. In molti casi i messaggi di errore non sono stati propagati completamente.
Aggiornamento delle dipendenze di sviluppo in JavaScript per usare i moduli aggiornati.

Correzioni di bug

Correzione delle perdite di memoria a causa di una mancata corrispondenza del tipo in RecognizeAsync.
In alcuni casi le eccezioni venivano trapelate.
Correzione della perdita di memoria negli argomenti degli eventi di conversione.
Risolto un problema di blocco durante la riconnessione nelle sessioni di lunga durata.
Risoluzione di un problema che può causare la mancanza di risultati finali per le traduzioni non riuscite.
C#: se un'operazione di async non è stata attesa nel thread principale, è possibile che lo strumento di riconoscimento possa essere eliminato prima del completamento dell'attività asincrona.
Java: è stato risolto un problema che causava un arresto anomalo della macchina virtuale Java.
Objective-C: correzione del mapping delle enumerazioni; è stato restituito RecognizedIntent anziché RecognizingIntent.
JavaScript: impostazione del formato di output predefinito su 'simple' in SpeechConfig.
JavaScript: rimozione dell'incoerenza tra le proprietà nell'oggetto config in JavaScript e in altri linguaggi.

Esempi

Abbiamo aggiornato e corretto diversi esempi (come ad esempio le voci di output per la traduzione e così via).
Sono stati aggiunti esempi di Node.js nel repository degli esempi.

Speech SDK 1.1.0

Nuove funzionalità

Supporto per Android x86/x64.
Supporto del proxy: nell'oggetto SpeechConfig, è ora possibile chiamare una funzione che consente di impostare le informazioni sul proxy (nome host, porta, nome utente e password). Questa funzionalità non è ancora disponibile in iOS.
Messaggi e codice di errore migliorati. Se un riconoscimento ha restituito un errore, questo ha già impostato Reason (nell'evento annullato) o CancellationDetails (nel risultato del riconoscimento) su Error. L'evento annullato contiene ora due membri aggiuntivi: ErrorCode e ErrorDetails. Se il server ha restituito l'errore corredato da informazioni aggiuntive, le informazioni saranno ora disponibili nei nuovi membri.

Miglioramenti

È stata aggiunta una verifica supplementare nella configurazione del sistema di riconoscimento ed è stato aggiunto un nuovo messaggio di errore.
È stata migliorata la gestione di un silenzio prolungato nel mezzo di un file audio.
Pacchetto NuGet: per i progetti .NET Framework, impedisce la compilazione con una configurazione AnyCPU.

Correzioni di bug

Sono state corrette varie eccezioni rilevate nei sistemi di riconoscimento. Inoltre, le eccezioni vengono rilevate e convertite nell’evento Canceled.
È stata corretta una perdita di memoria nella gestione delle proprietà.
È stato corretto un bug per il quale un file di input audio può determinare l'arresto anomalo del sistema di riconoscimento.
È stato risolto un bug per il quale si continuano a ricevere eventi anche dopo un evento di arresto della sessione.
Sono state corrette alcune race condition nel threading.
È stato corretto un problema di compatibilità iOS che può determinare un arresto anomalo.
Sono stati apportati miglioramenti di stabilità per il supporto di microfoni Android.
È stato risolto un bug per il quale un sistema di riconoscimento in JavaScript ignorava la lingua di riconoscimento.
Correzione di un bug che impedisce l'impostazione di EndpointId (in alcuni casi) in JavaScript.
Modificato l'ordine dei parametri in AddIntent in JavaScript e aggiunta la firma JavaScript mancante AddIntent.

Esempi

Sono stati aggiunti esempi C++ e C# per l'utilizzo del flusso pull e push nel repository degli esempi.

Speech SDK 1.0.1

Miglioramenti apportati alla stabilità e correzioni di bug:

Risoluzione di un potenziale errore irreversibile dovuto a una race condition nell'eliminazione dello strumento di riconoscimento.
Correzione di un potenziale errore irreversibile al verificarsi di proprietà nonset.
Aggiunta di un ulteriore controllo di errori e parametri.
Objective-C: risoluzione di un potenziale errore irreversibile causato dall'override del nome in NSString.
Objective-C: modifica della visibilità dell'API
JavaScript: correzioni relative a eventi e payload correlati.
Miglioramenti alla documentazione.

Al repository di esempi è stato aggiunto un nuovo esempio per JavaScript.

Voce di Azure AI SDK 1.0.0: versione di settembre 2018

Nuove funzionalità

Supporto per Objective-C su iOS. Dai un'occhiata alla Guida introduttiva su Objective-C per iOS.
Supporto per JavaScript nel browser. Vedere la Guida introduttiva su JavaScript.

Modifiche di rilievo

Questa versione introduce numerose modifiche di rilievo. Per informazioni dettagliate, vedere questa pagina.

Azure AI Speech SDK 0.6.0: rilascio di agosto 2018

Nuove funzionalità

Le app UWP compilate con Speech SDK ora possono superare il Kit di certificazione app Windows (WACK). Consultare la Guida introduttiva della piattaforma UWP.
Supporto per .NET Standard 2.0 in Linux (Ubuntu 16.04 x64).
Sperimentale: supporto di Java 8 in Windows (64 bit) e Linux (Ubuntu 16.04 x64). Consultare la Guida introduttiva di Java Runtime Environment.

Modifica funzionale

Esporre informazioni dettagliate aggiuntive sugli errori di connessione.

Modifiche di rilievo

In Java (Android), la funzione SpeechFactory.configureNativePlatformBindingWithDefaultCertificate non richiede più un parametro di percorso. Il percorso viene ora rilevato automaticamente in tutte le piattaforme supportate.
La funzione di accesso get della proprietà EndpointUrl in Java e C# è stata rimossa.

Correzioni di bug

In Java, il risultato di sintesi audio sul sistema di riconoscimento di traduzione è ora implementato.
È stato risolto un bug che potrebbe causare un maggior numero di socket aperti e inutilizzati e thread inattivi.
È stato risolto un problema in cui un riconoscimento con esecuzione prolungata terminava la trasmissione a metà.
Correzione di una race condition nel sistema di riconoscimento di arresto.

Azure AI Speech SDK 0.5.0: rilascio di luglio 2018

Nuove funzionalità

Supporto della piattaforma Android (API 23: Android Marshmallow 6.0 o versione successiva). Consultare la Guida introduttiva di Android.
Supporto di .NET Standard 2.0 in Windows. Consultare la Guida introduttiva di .NET Core.
Sperimentale: supporto di UWP in Windows (versione 1709 o successiva).
- Consultare la Guida introduttiva della piattaforma UWP.
- Notare che le app della piattaforma UWP compilate con Speech SDK non superano ancora il Kit di certificazione app Windows (WACK).
Supporta il riconoscimento a lunga durata con riconnessione automatica.

Modifiche funzionali

StartContinuousRecognitionAsync() supporta il riconoscimento a lungo termine.
Il risultato del riconoscimento contiene più campi. Scostamento da inizio audio e durata (entrambi in tick) del testo riconosciuto, valori aggiuntivi che rappresentano lo stato di riconoscimento, ad esempio InitialSilenceTimeout e InitialBabbleTimeout.
Supporto del token di autorizzazione per la creazione di istanze di factory.

Modifiche di rilievo

Eventi di riconoscimento: il tipo di evento NoMatch è stato unito all'evento Error.
SpeechOutputFormat in C# è stato rinominato in OutputFormat per coerenza con C++.
Il tipo restituito di alcuni metodi dell'interfaccia AudioInputStream è stato leggermente modificato:
- In Java, il metodo read restituisce ora long invece di int.
- In C#, il metodo Read restituisce ora uint invece di int.
- In C++, i metodi Read e GetFormat restituiscono ora size_t invece di int.
C++: le istanze di flussi di input audio possono ora essere passate solo come shared_ptr.

Correzioni di bug

Sono stati corretti i valori restituiti errati nel risultato alla scadenza di RecognizeAsync().
È stata rimossa la dipendenza dalle librerie di Media Foundation in Windows. L'SDK usa ora le API Audio Core.
Correzione della documentazione: è stata aggiunta una pagina relativa alle aree per descrivere le aree supportate.

Problema noto

Speech SDK per Android non segnala i risultati della sintesi vocale per la traduzione. Questo problema verrà risolto nella prossima versione.

Azure AI Speech SDK 0.4.0: versione di giugno 2018

Modifiche funzionali

AudioInputStream

Uno strumento di riconoscimento può ora usare un flusso come origine audio. Per informazioni dettagliate, vedere la guida pratica.
Formato dettagliato dell'output

Durante la creazione di uno SpeechRecognizer, è possibile richiedere un formato di output Detailed o Simple. Il DetailedSpeechRecognitionResult contiene un punteggio di affidabilità, testo riconosciuto, forma lessicale grezza, forma normalizzata e forma normalizzata con profanità mascherata.

Cambiamento radicale

Modifica da SpeechRecognitionResult.Text a SpeechRecognitionResult.RecognizedText in linguaggio C#.

Correzioni di bug

È stato corretto un possibile problema di callback nel livello USP durante l'arresto.
Se un riconoscimento usa un file di input audio, significa che esso contiene l'handle del file più a lungo rispetto al necessario.
Sono stati rimossi diversi deadlock tra message pump e strumento di riconoscimento.
Attiva un risultato NoMatch quando la risposta dal servizio è scaduta.
Le librerie di Media Foundation in Windows sono a caricamento ritardato. Questa libreria è richiesta solo per l'input del microfono.
La velocità di caricamento dei dati audio è limitata a circa due volte la velocità dell'audio originale.
In Windows, gli assembly C# .NET hanno ora un nome sicuro.
Correzione della documentazione: Region è un'informazione obbligatoria per la creazione di un riconoscitore.

Sono stati aggiunti altri esempi e vengono costantemente aggiornati. Per il set di esempi più recente, vedere il repository GitHub degli esempi di Speech SDK.

Azure AI Speech SDK 0.2.12733: rilascio di maggio 2018

Questa versione è la prima versione di anteprima pubblica di Voce di Azure AI SDK.

Interfaccia della riga di comando del Servizio cognitivo di Azure per la voce 1.43: 2025: versione di marzo 2024

Nuove funzionalità

Aggiornamento di SPX per l'uso di .NET 8.

Correzioni di bug

Correzione del mancato funzionamento del contenitore Docker SPX negli scenari batch locali.

Interfaccia della riga di comando di Voce 1.40.0: versione di agosto 2024

Aggiornamento per l'uso di Speech SDK 1.40.0

Nuove funzionalità

Nessuno

Correzioni di bug

Nessuno

Interfaccia della riga di comando di Voce 1.38.0: versione di giugno 2024

Aggiornamento per l'uso dell'SDK di Voce 1.38.0

Nuove funzionalità

Nessuno

Correzioni di bug

Nessuno

Interfaccia della riga di comando di Voce 1.37.0: versione di aprile 2024

Aggiornamento per l'uso di Speech SDK 1.37.0

Nuove funzionalità

Nessuno

Correzioni di bug

Nessuno

Interfaccia della riga di comando di Voce 1.36.0: versione di marzo 2024

Aggiornamento per l'uso di Speech SDK 1.36.0

Nuove funzionalità

Nessuno

Correzioni di bug

Nessuno

Interfaccia della riga di comando di Voce 1.35.0: versione di febbraio 2024

Aggiornamento per l'uso di Speech SDK 1.35.0

Nuove funzionalità

Nessuno

Correzioni di bug

Aggiornare la dipendenza JMESPath alla versione più recente

CLI di Voce 1.34.0: rilascio di novembre 2023

Aggiornamento per l'uso di Speech SDK 1.34.0

Interfaccia della riga di comando di Voce 1.33.0: versione di ottobre 2023

Aggiornamento per l'uso di Speech SDK 1.33.0

Speech CLI 1.31.0: rilascio di agosto 2023

Aggiornamento per l'uso di Speech SDK 1.31.0

Speech CLI 1.30.0: rilascio di luglio 2023

Aggiornamento per l'uso di Speech SDK 1.30.0

Interfaccia della riga di comando di Voce 1.29.0: versione di giugno 2023

Aggiornamento per l'uso di Speech SDK 1.29.0

Speech CLI 1.28.0: rilascio di maggio 2023

Aggiornamento per l'uso di Speech SDK 1.28.0

CLI di Voce 1.27.0: versione di aprile 2023

Aggiornamenti

Aggiornamento per l'uso di Speech SDK 1.27.0
Aggiornare l'endpoint predefinito per usare le API REST v3.1 per il riconoscimento vocale personalizzato e il riconoscimento vocale batch.

Correzioni di bug

Correzioni relative alla modalità di analisi/configurazione dei parametri di query.

Interfaccia della riga di comando di Voce 1.26.0: versione di marzo 2023

Aggiornamento per usare Speech SDK 1.26.0.

Speech CLI 1.25.0: rilascio di gennaio 2023

Aggiornamento per usare Speech SDK 1.25.0.

Interfaccia della riga di comando di Voce 1.24.0: versione di ottobre 2022

Usa Speech SDK 1.24.0.

Nuove funzionalità

Espansione di "spx check" per supportare query JMESPath su tutti gli eventi spx

Correzioni di bug

Vari miglioramenti della stabilità rispetto alle valutazioni delle query JMESPath
Correzione dei troncamenti di scrittura file che possono verificarsi nei computer con vincoli di risorse

Speech CLI 1.23.0: rilascio di luglio 2022

Usa Speech SDK 1.23.0.

Nuove funzionalità

Sottotitolo migliore (--output vtt e --output srt) divisione dei risultati di grandi dimensioni (37 caratteri max, 3 righe)
Opzioni spx synthesize--format documentate (vedere spx help synthesize format)
Documentazione della maggior parte dei comandi/opzioni spx csr (vedere spx help csr)
Aggiunta del comando spx csr model copy (vedere spx help csr model copy)
Aggiunta opzione --check result utilizzando query JMES (vedere spx help check result)
Messaggi di errore migliorati quando si specificano opzioni di comando non valide
Spostato da .NET Core 3.1 a .NET 6.0. Per eseguire l'interfaccia della riga di comando di Voce, è necessario installare .NET 6.0 Runtime (o versione successiva).

Correzioni di bug

Aggiornamento di tutti gli URL per rimuovere la lingua (ad esempio, "en-US")
Correzione delle informazioni sulla versione per segnalare correttamente in tutti i casi (in precedenza talvolta mostrava uno spazio vuoto)

CLI di Sintesi Vocale 1.22.0: rilascio di giugno 2022

Usa il Speech SDK 1.22.0.

Nuove funzionalità

Aggiunta del comando spx init per guidare gli utenti attraverso la creazione della chiave della risorsa Voce senza passare al portale Web di Azure.
I contenitori Docker per la sintesi vocale ora includono l'interfaccia della riga di comando di Azure, quindi il comando spx init funziona immediatamente.
Aggiunta del timestamp come opzione di output dell'evento per rendere SPX più utile nel calcolo delle latenze.

Interfaccia della riga di comando di Voce 1.21.0: versione di aprile 2022

Usa Speech SDK 1.21.0.

Nuove funzionalità

Generazione della didascalia WEBVTT
- Aggiunta del supporto di --output vtt a spx translate
- Supporta --output vtt file FILENAME per l'override di VTT FILENAME predefinito
- Supporta la scrittura su output standard con --output vtt file -
- Vengono creati singoli file VTT per ogni lingua di destinazione ( ad esempio --target en;de;fr)
Generazione della didascalia SRT
- Aggiunto supporto --output srt per spx recognize, spx intent e spx translate
- Supporta --output srt file FILENAME per sovrascrivere il nome file SRT predefinito
- Supporta la scrittura su output standard con --output srt file -
- Per spx translate, vengono creati singoli file SRT per ogni lingua di destinazione (ad esempio --target en;de;fr)

Correzioni di bug

Correzione dell'output timespan WEBVTT per l'uso corretto del formato hh:mm:ss.fff

Interfaccia della riga di comando di Voce 1.20.0: versione di gennaio 2022

Nuove funzionalità

Riconoscimento del parlante
- spx profile enroll e spx speaker [identify/verify] ora supportano l'input del microfono
Riconoscimento dell’intento (spx intent)
- --keyword FILE.table
- --pattern e --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once,--once+, --continuous (impostazione predefinita continua)
- --output all/each connection EVENT
- --output all/each connection message (ad esempio, text, path)
Controllo/creazione di attesa output console dell'interfaccia della riga di comando:
- Supporto di --expect PATTERN e --not expect PATTERN in tutti i comandi
- --auto expect per facilitare la creazione di modelli attesi
Controllo/creazione dell'output della registrazione SDK
- Supporto di --log expect PATTERN e --not log expect PATTERN in tutti i comandi
- Supporto di --log auto expect [FILTER] per tutti i comandi
- supporto di --log FILE su spx profile e spx speaker
Input del file audio
- Supporto di --format ANY per tutti i comandi
- Supporto di --file - (lettura dall'input standard, abilitazione di scenari di pipe)
Output del file audio
- Scrittura --audio output - nell'output standard, abilitazione di scenari di pipe
File di output
- --output all/each file - Scrivere nell'output standard
- --output batch file - Scrivere nell'output standard
- --output vtt file - Scrivere nell'output standard
- --output json file - Scrivere nell'output standard, per i comandi spx csr e spx batch
Proprietà degli output
- --output […] result XXX property (PropertyId o stringa)
- --output […] connection message received XXX property (PropertyId o stringa)
- --output […] recognizer XXX property (PropertyId o stringa)
Integrazione di WebJob di Azure
- spx webjob ora segue ora il criterio di comando secondario
- Guida aggiornata di WebJob per riflettere il criterio di comando secondario (vederespx help webjob)

Correzioni di bug

Correzione del bug quando sia --output vtt FILE che --output batch FILE vengono usati contemporaneamente
spx [...] --zip ZIPFILENAME include ora tutti i file binari necessari per tutti gli scenari (se presenti)
I comandi spx profile e spx speaker ora restituiscono informazioni dettagliate sull'errore relativo all'annullamento

Versione maggio 2021

Nuove funzionalità

Aggiunto il supporto per Profilo, ID speaker e verifica vocale: provare spx profile e spx speaker dalla riga di comando.
È stato aggiunto anche il supporto del dialogo: provare spx dialog dalla riga di comando.
Miglioramento della Guida di spx. Inviare commenti e suggerimenti su come funziona aprendo un problema di GitHub.
Sono diminuite le dimensioni dell'installazione dello strumento .NET.

Test di COVID-19 risolti

Man mano che la pandemia continua a richiedere ai nostri ingegneri di lavorare da casa, gli script di verifica manuale pre-pandemia vengono ridotti per testare su meno dispositivi con meno configurazioni, e potrebbe aumentare la probabilità che sfuggano bug specifici dell'ambiente. Viene comunque eseguita una convalida rigorosa con un ampio set di automazione. Nel caso improbabile che si sia perso qualcosa, segnalarlo su GitHub.
Rimani in salute!

Versione di marzo 2021

Nuove funzionalità

Aggiunto il comando spx intent per il riconoscimento delle intenzioni, sostituendo spx recognize intent.
Riconoscimento e finalità possono ora usare funzioni di Azure per calcolare la frequenza degli errori di word usando spx recognize --wer url <URL>.
Riconoscimento può ora restituire i risultati come file VTT usando spx recognize --output vtt file <FILENAME>.
Informazioni chiave sensibili ora sono oscurate nell'output di debug/verbose.
Aggiunta del controllo URL e del messaggio di errore per il campo di contenuto nella creazione della trascrizione batch.

Test di COVID-19 risolti

Versione di gennaio 2021

Nuove funzionalità

Speech CLI è ora disponibile come pacchetto NuGet e può essere installato tramite CLI .NET come strumento globale .NET che è possibile eseguire dalla shell o riga di comando.
Il repository del modello DevOps personalizzato è stato aggiornato per usare l'interfaccia della riga di comando di Voce per i flussi di lavoro vocali personalizzati.

Test di COVID-19 risolti

Versione di ottobre 2020

SPX è l'interfaccia della riga di comando per usare il servizio Voce senza scrivere codice. Scaricare la versione più recente qui.

Nuove funzionalità

spx csr dataset upload --kind audio|language|acoustic – creare set di dati dai dati locali, non solo dagli URL.
spx csr evaluation create|status|list|update|delete – confrontare i nuovi modelli con la verità di baseline o altri modelli.
spx * list – supporta l'esperienza senza paginazione (non richiede --top X --skip X).
spx * --http header A=B – supportare intestazioni personalizzate (aggiunte per Office per l'autenticazione personalizzata).
spx help – testo migliorato e testo con colore testo back-tick codificato (blu).

Versione di giugno 2020

Aggiunta delle funzionalità di ricerca della Guida interfaccia della riga di comando:
- spx help find --text TEXT
- spx help find --topic NAME
Aggiornamento per il lavoro con le API Batch v3.0 e voce personalizzate appena distribuite:
- spx help batch examples
- spx help csr examples

Test di COVID-19 risolti

A causa del lavoro in remoto nelle ultime settimane, non è stato possibile eseguire il test di verifica manuale come di consueto. Non sono state apportate modifiche che riteniamo potrebbero aver danneggiato qualcosa e tutti i test automatizzati sono stati superati. Nel caso improbabile che si sia perso qualcosa, segnalarlo su GitHub.
Rimani in salute!

Interfaccia a riga di comando vocale (nota anche come SPX): rilascio di maggio 2020

SPX è un nuovo strumento da riga di comando che consente di eseguire il riconoscimento, la sintesi, la traduzione, la trascrizione batch e la gestione vocale personalizzata dalla riga di comando. Usarlo per testare il servizio Voce o per creare script per le attività del servizio Voce che occorre eseguire. Scaricare lo strumento e leggere la documentazione qui.

Versione di aprile 2025

Anteprima pubblica delle nuove voci HD

Per l'anteprima sono ora disponibili le voci HD seguenti:

Impostazioni locali (BCP-47)	Nome voce
`en-US`	`en-US-MultiTalker-Ava-Steffan:DragonHDLatestNeural` (neutrale)
`en-US`	`en-US-Bree:DragonHDLatestNeural` (Femminile)
`en-US`	`en-US-AshTurboMultilingualNeural` (Maschile)

Versione di marzo 2025

Disponibilità generale di alcune voci HD

Le voci HD seguenti sono ora disponibili a livello generale:

Impostazioni locali (BCP-47)	Nome voce
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (Maschile)
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (Femminile)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (Femminile)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Emma:DragonHDLatestNeural` (Femminile)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (Femminile)
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (Maschile)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (Maschile)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (Femminile)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (Maschile)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (Femminile)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (Maschile)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (Femminile)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (Femminile)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (Maschile)

Voci multi-parlanti per contesti di podcast (anteprima)

Impostazioni locali (BCP-47)	Nome voce
`en-US`	`en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural` (neutrale)

Nuove voci HD (anteprima)

Impostazioni locali (BCP-47)	Nome voce
`en-US`	`en-US-Ava3:DragonHDLatestNeural` (Voce femminile) - Ottimizzato per Podcast
`en-US`	`en-US-Andrew3:DragonHDLatestNeural` (Maschio) - ottimizzato per podcast

Modelli Dragon HD Flash (anteprima)

Impostazioni locali (BCP-47)	Nome voce
`zh-CN`	`zh-CN-Xiaochen:DragonHDFlashLatestNeural` (Femminile)
`zh-CN`	`zh-CN-Xiaoxiao:DragonHDFlashLatestNeural` (Femminile)
`zh-CN`	`zh-CN-Xiaoxiao2:DragonHDFlashLatestNeural` (Femmina, ottimizzata per la libera conversazione)
`zh-CN`	`zh-CN-Yunxiao:DragonHDFlashLatestNeural` (Maschile)
`zh-CN`	`zh-CN-Yunyi:DragonHDFlashLatestNeural` (Maschile)

Rilascio di febbraio 2025

Voci HD aggiornate (anteprima)

Sono state aggiornate 13 voci HD attuali per supportare le voci multilingue.

Impostazioni locali (BCP-47)	Nome voce
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (Femminile)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (Femminile)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (Maschio) - ottimizzato per conversazioni libere
`en-US`	`en-US-Emma:DragonHDLatestNeural` (Femminile)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (Femmina) - ottimizzato per parlare senza parole
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Aria:DragonHDLatestNeural` (Femminile)
`en-US`	`en-US-Jenny:DragonHDLatestNeural` (Femminile)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (Maschile)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (Femminile)

Nuove voci HD (anteprima)

Aggiunte 14 ulteriori voci HD

Impostazioni locali (BCP-47)	Nome voce
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Phoebe:DragonHDLatestNeural` (Femminile)
`en-US`	`en-US-Serena:DragonHDLatestNeural` (Femminile)
`en-US`	`en-US-Alloy:DragonHDLatestNeural` (Maschile)
`en-US`	`en-US-Nova:DragonHDLatestNeural` (Femminile)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (Femminile)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (Maschile)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (Femminile)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (Maschile)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (Femminile)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (Maschile)

Introduzione alle nuove voci multilingue (anteprima)

Sono state aggiunte altre 4 voci multilingue in en-US con il supporto delle emozioni.

Impostazioni locali (BCP-47)	Nome voce	Stili
`en-US`	`DerekMultilingualNeural` (Maschile)	`empathetic`, `excited`, `relievedshy`
`en-US`	`PhoebeMultilingualNeural` (Femminile)	`empathetic`, `sad`, `serious`
`en-US`	`DavisMultilingualNeural` (Maschile)	`empathetic`, `funny`, `relieved`
`en-US`	`NancyMultilingualNeural` (Femminile)	`excited`, `friendly`, `funny`, `relievedshy`

Azure OpenAI nelle voci turbo dei modelli di Fonderia Azure AI (disponibile a livello generale)

Queste 6 voci turbo sono ora disponibili a livello generale:

Impostazioni locali (BCP-47)	Nome voce
`en-US`	`en-US-AlloyTurboMultilingualNeural` (Maschile)
`en-US`	`en-US-EchoTurboMultilingualNeural` (Maschile)
`en-US`	`en-US-FableTurboMultilingualNeural` (neutrale)
`en-US`	`en-US-NovaTurboMultilingualNeural` (Femminile)
`en-US`	`en-US-OnyxTurboMultilingualNeural` (Maschile)
`en-US`	`en-US-ShimmerTurboMultilingualNeural` (Femminile)

Miglioramenti della qualità vocale (disponibile a livello generale)

Miglioramento della qualità di 16 voci.

Impostazioni locali (BCP-47)	Nome voce
`ar-EG`	`ar-EG-ShakirNeural` (Maschile)
`ca-ES`	`ca-ES-EnricNeural` (Maschile)
`en-IE`	`en-IE-EmilyNeural` (Femminile)
`fi-FI`	`fi-FI-HarriNeural` (Maschile)
`fi-FI`	`fi-FI-SelmaNeural` (Femminile)
`fr-CH`	`fr-CH-FabriceNeural` (Femminile)
`hr-HR`	`hr-HR-GabrijelaNeural` (Femminile)
`nl-NL`	`nl-NL-MaartenNeural` (Maschile)
`pt-PT`	`pt-PT-RaquelNeural` (Femminile)
`ro-RO`	`ro-RO-AlinaNeural` (Femminile)
`sv-SE`	`sv-SE-MattiasNeural` (Maschile)
`sv-SE`	`sv-SE-SofieNeural` (Femminile)
`vi-VN`	`vi-VN-HoaiMyNeural` (Femminile)
`vi-VN`	`vi-VN-NamMinhNeural` (Maschile)
`zh-HK`	`zh-HK-HiuMaanNeural` (Femminile)
`zh-HK`	`zh-HK-WanLungNeural` (Maschile)

Jenny incorporato in più stili (disponibile a livello generale)

Aggiunto il supporto allo stile per en-US-JennyNeural il riconoscimento vocale incorporato. Sono supportati gli stessi stili del cloud. Sono supportati gli stili seguenti: angry, assistantchat, cheerful, , customerservice, excitedfriendly, hopefulnewscastsadshoutingterrified, unfriendlye .whispering

Versione di gennaio 2025

Training avatar personalizzato

È ora possibile eseguire il training di avatar personalizzati in Speech Studio. In precedenza, dovevi aspettare che Microsoft eseguisse il training dell'avatar personalizzato.

Per altre informazioni su come creare un avatar personalizzato, vedere Creare un avatar personalizzato per il riconoscimento vocale.

Versione di ottobre 2024

Voce standard

Sono state introdotte 4 versioni turbo delle voci OpenAI di Azure in anteprima pubblica: en-US-EchoTurboMultilingualNeural, en-US-FableTurboMultilingualNeural, en-US-OnyxTurboMultilingualNeurale en-US-ShimmerTurboMultilingualNeural. La versione turbo delle voci di Azure OpenAI ha una persona vocale simile a quella delle voci di Azure OpenAI, ma supporta funzionalità aggiuntive. Le voci turbo supportano il set completo di elementi SSML e altre funzionalità come il limite delle parole, proprio come altre voci di Voce di Azure AI. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Queste voci sono ora disponibili a livello generale:

Impostazioni locali (BCP-47)	Nome voce
`de-DE`	`SeraphinaMultilingualNeural`
`de-DE`	`FlorianMultilingualNeural`
`en-GB`	`AdaMultilingualNeural`
`en-GB`	`OllieMultilingualNeural`
`en-US`	`LunaNeural`
`en-US`	`KaiNeural`
`en-US`	`CoraMultilingualNeural`
`en-US`	`ChristopherMultilingualNeural`
`en-US`	`BrandonMultilingualNeural`
`es-ES`	`IsidoraMultilingualNeural`
`es-ES`	`ArabellaMultilingualNeural`
`es-ES`	`TristanMultilingualNeural`
`es-ES`	`XimenaMultilingualNeural`
`fr-FR`	`LucienMultilingualNeural`
`fr-FR`	`VivienneMultilingualNeural`
`fr-FR`	`RemyMultilingualNeural`
`it-IT`	`IsabellaMultilingualNeural`
`it-IT`	`MarcelloMultilingualNeural`
`it-IT`	`AlessioMultilingualNeural`
`it-IT`	`GiuseppeMultilingualNeural`
`ko-KR`	`HyunsuMultilingualNeural`
`pt-BR`	`ThalitaMultilingualNeural`
`pt-BR`	`MacerioMultilingualNeural`

Voce HD (Standard High Definition)

Le voci HD (Speech High Definition) di Azure per intelligenza artificiale sono disponibili in anteprima pubblica. Le voci HD possono comprendere il contenuto, rilevare automaticamente le emozioni nel testo di input e regolare il tono di pronuncia in tempo reale in modo che corrisponda al sentiment. Le voci HD mantengono una personalità vocale coerente rispetto alle controparti neurali (e non HD) e offrono un valore ancora maggiore attraverso funzionalità potenziate. Per altre informazioni, vedere Che cosa sono le voci HD (Speech High Definition) di Azure per intelligenza artificiale?.

Voce neurale personalizzata

In precedenza, alcune impostazioni locali erano supportate solo con V3 per procedura di training. Questi locali supportano ora anche V9, consentendo una migliore qualità della formazione e funzionalità ampliate. Per queste località, consultare la tabella seguente.

Impostazioni locali (BCP-47)	Lingua
`ar-EG`	Arabo (Egitto)
`ar-SA`	Arabo (Arabia Saudita)
`ca-ES`	Catalano
`cs-CZ`	Ceco (Repubblica Ceca)
`da-DK`	Danese (Danimarca)
`de-AT`	Tedesco (Austria)
`de-CH`	Tedesco (Svizzera)
`el-GR`	Greco (Grecia)
`en-IN`	Inglese (India)
`fi-FI`	Finlandese (Finlandia)
`fr-CH`	Francese (Svizzera)
`he-IL`	Ebraico (Israele)
`hi-IN`	Hindi (India)
`hu-HU`	Ungherese (Ungheria)
`ms-MY`	Malese (Malaysia)
`nb-NO`	Norvegese Bokmål (Norvegia)
`nl-NL`	Olandese (Paesi Bassi)
`pl-PL`	Polacco (Polonia)
`pt-PT`	Portoghese (Portogallo)
`ro-RO`	Romeno (Romania)
`ru-RU`	Russo (Russia)
`sk-SK`	Slovacco (Slovacchia)
`sv-SE`	Svedese (Svezia)
`th-TH`	Thai (Tailandia)
`r-TR`	Lingua turca (Turchia)
`vi-VN`	Vietnamita (Vietnam)
`zh-HK`	Cinese (cantonese, tradizionale)
`zh-TW`	Cinese (Mandarino taiwanese, tradizionale)

La voce neurale personalizzata Pro supporta ora le nuove impostazioni locali seguenti:
- en-NZ: inglese (Nuova Zelanda)
- es-CL: spagnolo (Cile)
- es-US: spagnolo (Stati Uniti)
- ta-MY: Tamil (Malesia)
Per l'elenco completo delle impostazioni locali supportate, vedere l'elenco delle lingue per la voce neurale personalizzata.

La funzionalità multilingue supporta ora le nuove impostazioni locali seguenti come impostazioni locali di origine:

Impostazioni locali (BCP-47)	Lingua
`da-DK`	Danese (Danimarca)
`de-AT`	Tedesco (Austria)
`de-CH`	Tedesco (Svizzera)
`de-DE`	Tedesco (Germania)
`en-CA`	Inglese (Canada)
`fi-FI`	Finlandese (Finlandia)
`fr-CH`	Francese (Svizzera)
`hu-HU`	Ungherese (Ungheria)
`ms-MY`	Malese (Malaysia)
`nb-NO`	Norvegese Bokmål (Norvegia)
`pt-PT`	Portoghese (Portogallo)
`sv-SE`	Svedese (Svezia)
`tr-TR`	Lingua turca (Turchia)
`ta-IN`	Tamil (India)
`zh-HK`	Cinese (cantonese, tradizionale)

Per l'elenco completo delle impostazioni locali supportate, vedere l'elenco delle lingue per la voce neurale personalizzata.

La funzionalità voce multi-stile supporta ora le nuove impostazioni locali seguenti:

Impostazioni locali (BCP-47)	Lingua
`ar-EG`	Arabo (Egitto)
`ar-SA`	Arabo (Arabia Saudita)
`ca-ES`	Catalano
`cs-CZ`	Ceco (Repubblica Ceca)
`da-DK`	Danese (Danimarca)
`de-AT`	Tedesco (Austria)
`de-CH`	Tedesco (Svizzera)
`de-DE`	Tedesco (Germania)
`el-GR`	Greco (Grecia)
`en-AU`	Inglese (Australia)
`en-CA`	Inglese (Canada)
`en-GB`	Inglese (Regno Unito)
`en-IN`	Inglese (India)
`es-ES`	Spagnolo (Spagna)
`es-MX`	Spagnolo (Messico)
`fi-FI`	Finlandese (Finlandia)
`fr-CA`	Francese (Canada)
`fr-CH`	Francese (Svizzera)
`fr-FR`	Francese (Francia)
`he-IL`	Ebraico (Israele)
`hi-IN`	Hindi (India)
`hu-HU`	Ungherese (Ungheria)
`it-IT`	Italiano (Italia)
`ko-KR`	Coreano (Corea)
`ms-MY`	Malese (Malaysia)
`nb-NO`	Norvegese Bokmål (Norvegia)
`nl-BE`	Olandese (Belgio)
`nl-NL`	Olandese (Paesi Bassi)
`pl-PL`	Polacco (Polonia)
`pt-BR`	Portoghese (Brasile)
`pt-PT`	Portoghese (Portogallo)
`ro-RO`	Romeno (Romania)
`ru-RU`	Russo (Russia)
`sk-SK`	Slovacco (Slovacchia)
`sv-SE`	Svedese (Svezia)
`th-TH`	Thai (Tailandia)
`tr-TR`	Lingua turca (Turchia)
`vi-VN`	Vietnamita (Vietnam)
`zh-HK`	Cinese (cantonese, tradizionale)
`zh-TW`	Cinese (Mandarino taiwanese, tradizionale)

Per l'elenco completo delle impostazioni locali supportate, vedere l'elenco delle lingue per la voce neurale personalizzata.

Versione di settembre 2024

Voce standard

Aggiunta del supporto e della disponibilità generale per le nuove voci nelle impostazioni locali seguenti:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`as-IN`	Assamese (India)	`as-IN-YashicaNeural` (Femminile) `as-IN-PriyomNeural` (Maschile)
`or-IN`	Odia (India)	`or-IN-SubhasiniNeural` (Femminile) `or-IN-SukantNeural` (Maschile)
`pa-IN`	Punjabi (India)	`pa-IN-OjasNeural` (Maschile) `pa-IN-VaaniNeural` (Femminile)

La voce in questa tabella è disponibile a livello generale e supporta solo le impostazioni locali "en-IN".

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`en-IN`	Inglese (India)	`en-IN-AashiNeural` (Femminile)

Le cinque voci in questa tabella sono disponibili a livello generale e supportano le impostazioni locali "en-IN" e "hi-IN".

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`en-IN`	Inglese (India)	`en-IN-AaravNeural` (Maschile) `en-IN-AnanyaNeural` (Femminile) `en-IN-KavyaNeural` (Femminile) `en-IN-KunalNeural` (Maschile) `en-IN-RehaanNeural` (Maschile)
`hi-IN`	Hindi (India)	`hi-IN-AaravNeural` (Maschile) `hi-IN-AnanyaNeural` (Femminile) `hi-IN-KavyaNeural` (Femminile) `hi-IN-KunalNeural` (Maschile) `hi-IN-RehaanNeural` (Maschile)

Stili e ruoli vocali

Aggiunto il supporto degli stili newscast, cheerful, empathetic per le voci en-IN-NeerjaNeural e hi-IN-SwaraNeural.

Aggiunta di nuovi stili per le voci seguenti:

es-MX-DaliaNeural: whispering, sad, cheerful
fr-FR-DeniseNeural: whispering, sad, excited
it-IT-IsabellaNeural: whispering, sad, excitedcheerful
pt-PT-RaquelNeural: whispering, sad
de-DE-ConradNeural: sad, cheerful
en-GB-RyanNeural: whispering, sad
es-MX-JorgeNeural: whispering, sad, excitedcheerful
fr-FR-HenriNeural: whispering, sad, excited
it-IT-DiegoNeural: sad, excited, cheerful
es-ES-AlvaroNeural: cheerful, sad
ko-KR-InjoonNeural: sad

Per altre informazioni, vedere gli stili e i ruoli di Voce.

Versione di agosto 2024

Voce standard

Introduzione di nuove voci multilingua in l'anteprima pubblica. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Nuove voci multilingue

Impostazioni locali	Lingua	Sesso	Nome della voce
it-IT	Inglese (Stati Uniti)	Maschio	en-US-AdamMultilingualNeural
it-IT	Inglese (Stati Uniti)	Femmina	en-US-AmandaMultilingualNeural
it-IT	Inglese (Stati Uniti)	Maschio	en-US-DerekMultilingualNeural
it-IT	Inglese (Stati Uniti)	Maschio	en-US-LewisMultilingualNeural
it-IT	Inglese (Stati Uniti)	Femmina	en-US-LolaMultilingualNeural
it-IT	Inglese (Stati Uniti)	Femmina	en-US-PhoebeMultilingualNeural
it-IT	Inglese (Stati Uniti)	Maschio	en-US-SamuelMultilingualNeural
it-IT	Inglese (Stati Uniti)	Femmina	en-US-SerenaMultilingualNeural
it-IT	Inglese (Stati Uniti)	Maschio	en-US-DustinMultilingualNeural
it-IT	Inglese (Stati Uniti)	Femmina	en-US-EvelynMultilingualNeural
es-ES	Spagnolo (Spagna)	Maschio	es-ES-TristanMultilingualNeural
fr-FR	Francese (Francia)	Maschio	fr-FR-LucienMultilingualNeural
pt-BR	Portoghese (Brasile)	Maschio	pt-BR-MacerioMultilingualNeural
zh-CN	Cinese (mandarino, semplificato)	Maschio	zh-CN-YunfanMultilingualNeural
zh-CN	Cinese (mandarino, semplificato)	Maschio	zh-CN-YunxiaoMultilingualNeural
zh-CN	Cinese (mandarino, semplificato)	Maschio	zh-CN-YunyiMultilingualNeural

Modelli monolingui aggiornati a voci multilingue con miglioramenti della naturalezza

Impostazioni locali	Lingua	Sesso	Nome della voce
it-IT	Inglese (Stati Uniti)	Femmina	en-US-NancyMultilingualNeural
it-IT	Inglese (Stati Uniti)	Maschio	en-US-BrandonMultilingualNeural
it-IT	Inglese (Stati Uniti)	Maschio	en-US-ChristopherMultilingualNeural
it-IT	Inglese (Stati Uniti)	Femmina	en-US-CoraMultilingualNeural
it-IT	Inglese (Stati Uniti)	Maschio	en-US-DavisMultilingualNeural
it-IT	Inglese (Stati Uniti)	Maschio	en-US-SteffanMultilingualNeural
es-ES	Spagnolo (Spagna)	Femmina	es-ES-XimenaMultilingualNeural
it-IT	Italiano (Italia)	Maschio	it-IT-GiuseppeMultilingualNeural
ko-KR	Coreano (Corea)	Maschio	ko-KR-HyunsuMultilingualNeural

Migliorare le seguenti voci multilingue attuali con una qualità migliore.

Impostazioni locali Lingua Sesso Nome della voce

it-IT Inglese (Stati Uniti) Maschio en-US-AndrewMultilingualNeural

it-IT Inglese (Stati Uniti) Femmina en-US-AvaMultilingualNeural
Tre voci multilingue supportano ora gli stili. Per altre informazioni, vedere gli stili e i ruoli di Voce.
- en-US-SerenaMultilingualNeural: empathetic, excited, friendly, shy, serious, relieved e sad.
- en-US-AndrewMultilingualNeural: empathetic e relieved.
- zh-CN-XiaoxiaoMultilingualNeural: affectionate, cheerful, empathetic, excited, poetry-reading, sorry e story.

Impostazioni locali	Lingua	Sesso	Nome della voce
it-IT	Inglese (Stati Uniti)	Maschio	en-US-AndrewMultilingualNeural
it-IT	Inglese (Stati Uniti)	Femmina	en-US-AvaMultilingualNeural

Versione di luglio 2024

Avatar per la sintesi vocale (GA)

L'avatar di sintesi vocale è ora disponibile a livello generale. Per altre informazioni, vedere Avatar di sintesi vocale.

Voce standard

Introduciamo due versioni Turbo delle voci Azure OpenAI in anteprima pubblica: en-US-AlloyTurboMultilingualNeural e en-US-NovaTurboMultilingualNeural. La versione turbo delle voci di Azure OpenAI ha una persona vocale simile a quella delle voci di Azure OpenAI, ma supporta funzionalità aggiuntive. Le voci turbo supportano il set completo di elementi SSML e altre funzionalità come il limite delle parole, proprio come altre voci di Voce di Azure AI. Per altre informazioni, vedere l'elenco completo di lingue e voci.
Introduzione di 2 nuove voci multilingua in l'anteprima pubblica: zh-CN-YunfanMultilingualNeural e zh-CN-YunxiaoMultilingualNeural. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Voce neurale incorporata

La voce en-US-JennyMultilingual viene rilasciata nell'ambiente di produzione, supportando fino a 24 impostazioni locali per l'esperienza sul dispositivo. Per le impostazioni locali supportate, vedere la tabella seguente.

Impostazioni locali	Lingua
`da-DK`	Danese (Danimarca)
`de-DE`	Tedesco (Germania)
`en-AU`	Inglese (Australia)
`en-GB`	Inglese (Regno Unito)
`en-IN`	Inglese (India)
`en-US`	Inglese (Stati Uniti)
`es-ES`	Spagnolo (Spagna)
`es-MX`	Spagnolo (Messico)
`fr-CA`	Francese (Canada)
`fr-FR`	Francese (Francia)
`he-IL`	Ebraico (Israele)
`it-IT`	Italiano (Italia)
`ja-JP`	Giapponese (Giappone)
`ko-KR`	Coreano (Corea)
`nb-NO`	Norvegese Bokmål (Norvegia)
`nl-NL`	Olandese (Paesi Bassi)
`pl-PL`	Polacco (Polonia)
`pt-PT`	Portoghese (Portogallo)
`sv-SE`	Svedese (Svezia)
`th-TH`	Thai (Tailandia)
`tr-TR`	Lingua turca (Turchia)
`zh-CN`	Cinese (mandarino, semplificato)
`zh-HK`	Cinese (cantonese, tradizionale)
`zh-TW`	Cinese (Mandarino taiwanese, tradizionale)

Versione di giugno 2024

Voce standard

Presentazione di 6 nuove voci disponibili in anteprima pubblica in aree geografiche specifiche: Asia orientale, Asia sud-orientale, Stati Uniti orientali, Stati Uniti occidentali e India centrale.

Impostazioni locali	Lingua	Voci per la sintesi vocale
`or-IN`	Odia (India)	`or-IN-SubhasiniNeural` (Femminile)
`or-IN`	Odia (India)	`or-IN-SukantNeural` (Maschile)
`pa-IN`	Punjabi (India)	`pa-IN-VaaniNeural` (Femminile)
`pa-IN`	Punjabi (India)	`pa-IN-OjasNeural` (Maschile)
`as-IN`	Assamese (India)	`as-IN-YashicaNeural` (Femminile)
`as-IN`	Assamese (India)	`as-IN-PriyomNeural` (Maschile)

Per altre informazioni, vedere l'elenco completo di lingue e voci.

Avatar di Sintesi vocale

L'avatar di sintesi vocale è disponibile solo nelle seguenti aree geografiche: Asia sud-orientale, Europa settentrionale, Europa occidentale, Svezia centrale, Stati Uniti centro-meridionali e Stati Uniti occidentali 2. Per altre informazioni, vedere Aree del servizio Voce.

Versione di maggio 2024

Voce neurale personalizzata (Disponibilità generale)

Voce personale è ora disponibile per tutti. Grazie la voce personale, è possibile ottenere la replica generata da intelligenza artificiale della propria voce (o di quella degli utenti dell'applicazione) in pochi secondi. Si fornisce un campione di parlato della durata di un minuto come richiesta audio e quindi lo si usa per generare il parlato in una delle più di 90 lingue supportate, in oltre 100 impostazioni locali. Per altre informazioni, vedere la panoramica su voce neurale personalizzata.

Voce standard

Introduzione di 8 nuove voci multilingua in l'anteprima pubblica: en-GB-AdaMultilingualNeural, en-GB-OllieMultilingualNeural, es-ES-ArabellaMultilingualNeural, es-ES-IsidoraMultilingualNeural, it-IT-AlessioMultilingualNeural, it-IT-IsabellaMultilingualNeural, it-IT-MarcelloMultilingualNeural e pt-BR-ThalitaMultilingualNeural. Per altre informazioni, vedere l'elenco completo di lingue e voci.
Introduzione di 2 nuove en-US voci ottimizzate per uno scenario di Call Center in anteprima pubblica: en-US-LunaNeural e en-US-KaiNeural. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Versione di aprile 2024

Avatar di Sintesi vocale

È ora possibile impostare un'immagine di sfondo statica per gli avatar. Per utilizzare questa funzionalità, è sufficiente usare la proprietà avatarConfig.backgroundImage e specificare un URL che punta all'immagine desiderata. Per informazioni dettagliate, vedere Come modificare lo sfondo.

Versione di marzo 2024

Voce standard

9 voci multilingue sono disponibili a livello generale in tutte le aree: en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeuralde-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeural e zh-CN-XiaoxiaoMultilingualNeural. Per altre informazioni, vedere l'elenco completo di lingue e voci.
Presentazione della nuova voce multilingue per l'anteprima pubblica. ja-JP-MasaruMultilingualNeural Per altre informazioni, vedere l'elenco completo di lingue e voci.
Aggiornamenti aggiuntivi:
- en-US-RyanMultilingualNeural è disponibile a livello generale in tutte le aree.
- en-US-JennyMultilingualV2Neural è disponibile a livello generale in tutte le aree, insieme a en-US-JennyMultilingualNeural.
- Anteprima disponibile per le versioni en-IN-NeerjaNeural e hi-IN-SwaraNeural aggiornate con 3 nuovi stili negli Stati Uniti orientali, in Europa occidentale e in Asia sud-orientale.
- Anteprima disponibile per le nuove voci femminili in India centrale: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeuralhi-IN-KavyaNeural e hi-IN-AnanyaNeural.

Avatar di Sintesi vocale

Rimozione della dipendenza da TURN dei Servizi di comunicazione di Azure per gli avatar in tempo reale. Il codice di esempio è stato aggiornato di conseguenza per riflettere questa modifica.
Prezzi dell'avatar per la sintesi vocale pubblicati. Per altri dettagli, vedere la pagina dei prezzi. Si noti che i prezzi degli avatar saranno visibili solo per le aree del servizio in cui è disponibile la funzionalità.

Versione di febbraio 2024

Voci OpenAI

Il servizio Voce di Azure AI supporta la sintesi vocale OpenAI nelle aree seguenti: Stati Uniti centro-settentrionali e Svezia centrale. Analogamente alle voci di Azure AI, le voci di OpenAI per la sintesi vocale offrono una sintesi vocale di alta qualità per convertire il testo scritto in audio naturale. Questo consente di sfruttare un'ampia gamma di possibilità per esperienze utente immersive e interattive. Per altre informazioni, vedere Che cos’è la sintesi vocale di OpenAI?.

Nota

OpenAI text to speech voices (Testo openAI per le voci vocali) è disponibile anche in Azure OpenAI.
Con questo aggiornamento, abbiamo modificato i prezzi delle voci standard di Azure AI Speech. Controllare i prezzi aggiornati qui.

Voce personale

La funzionalità di voce neurale personalizzata supporta ora i modelli DragonLatestNeural e PhoenixLatestNeural. Questi nuovi modelli migliorano la naturalezza delle voci sintetizzate, rendendole più simili alle caratteristiche vocali della voce nella richiesta. Per ulteriori dettagli, vedere Integrare la voce personale nell'applicazione.

Versione di dicembre 2023

API voce personalizzata

L'API vocale personalizzata è disponibile per la creazione e la gestione di modelli di voce neurale professionale e personale.

Voce neurale personalizzata

I modelli vocali che hanno appena eseguito il training supportano ora la frequenza di campionamento a 48 kHz, indipendentemente dalla versione del modello. Per i modelli vocali su cui è stato precedentemente eseguito il training, è necessario aggiornare la versione del motore almeno alla 2023.11.13.0 per migliorare la frequenza di campionamento a 48 kHz.

Voce standard

Introduzione alle nuove voci multilingua per l'anteprima pubblica:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`de-DE`	Tedesco (Germania)	`de-DE-FlorianMultilingualNeural` (Maschile)
`de-DE`	Tedesco (Germania)	`de-DE-SeraphinaMultilingualNeural` (Femminile)
`en-US`	Inglese (Stati Uniti)	`en-US-AvaMultilingualNeural` (Femminile)
`en-US`	Inglese (Stati Uniti)	`en-US-EmmaMultilingualNeural` (Femminile)
`fr-FR`	Francese (Francia)	`fr-FR-RemyMultilingualNeural` (Maschile)
`en-US`	Inglese (Stati Uniti)	`en-US-BrianMultilingualNeural` (Maschile)
`en-US`	Inglese (Stati Uniti)	`en-US-AndrewMultilingualNeural` (Maschile)
`fr-FR`	Francese (Francia)	`fr-FR-VivienneMultilingualNeural` (Femminile)
`zh-CN`	Cinese (mandarino, semplificato)	`zh-CN-XiaoxiaoMultilingualNeural` (Femminile)
`zh-CN`	Cinese (mandarino, semplificato)	`zh-CN-XiaochenMultilingualNeural` (Femminile)
`zh-CN`	Cinese (mandarino, semplificato)	`zh-CN-YunyiMultilingualNeural` (Maschile)

Introduzione di nuove voci zh-CN-XiaoxiaoDialectsNeural per l'anteprima pubblica. Supportano diversi dialetti e accenti cinesi:

Nome voce	Lingua secondaria	Dialetto/accento
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Cinese (Mandarino Zhongyuan dello Shaanxi, semplificato)
	`zh-CN-sichuan`	Cinese (mandarino sud-occidentale, semplificato)
	`zh-CN-shanxi`	Cinese (mandarino con accento di Shanxi, semplificato)
	`nan-CN`	Cinese (min meridionale, semplificato)
	`zh-CN-anhui`	Cinese (mandarino jiang-huai di Anhui, semplificato)
	`zh-CN-hunan`	Cinese (mandarino con accento di Hunan, semplificato)
	`zh-CN-gansu`	Cinese (mandarino lanyin di Gansu, semplificato)
	`zh-CN-shandong`	Cinese (Jilu Mandarino, semplificato)
	`zh-CN-henan`	Cinese (Mandarino Zhongyuan di Henan, semplificato)
	`zh-CN-liaoning`	Cinese (Mandarino nord-orientale, semplificato)
	`zh-TW`	Cinese (Mandarino taiwanese, tradizionale)

Versione di novembre 2023

Voce personale

La voce personale è disponibile in anteprima nelle aree seguenti: Europa occidentale, Stati Uniti orientali e Asia sud-orientale. Con voce personale (anteprima), è possibile ottenere la replica generata dall'AI della propria voce (o della voce degli utenti della tua applicazione) in pochi secondi. Si fornisce un campione di parlato della durata di un minuto come richiesta audio e quindi lo si usa per generare il parlato in una delle più di 90 lingue supportate, in oltre 100 impostazioni locali.

Per altre informazioni, vedere voce neurale personalizzata.

Avatar di Sintesi vocale

L'avatar di sintesi vocale è disponibile in anteprima nelle aree seguenti: Stati Uniti occidentali 2, Europa occidentale e Asia sud-orientale.

L'avatar di sintesi vocale converte il testo in un video digitale di un umano fotorealistico (un avatar standard o un avatar personalizzato per la sintesi vocale) che parla con una voce naturale. Il video dell'avatar di sintesi vocale può essere sintetizzato in modo asincrono o in tempo reale. Gli sviluppatori possono creare applicazioni integrate con avatar di sintesi vocale tramite un'API, oppure usare uno strumento di creazione di contenuto in Speech Studio per creare contenuto video senza scrivere codice.

Per altre informazioni, vedere testo per l'avatar di sintesi vocale, note sulla trasparenzae divulgazione per i talenti vocali e avatar.

Voce neurale personalizzata

Aggiunta del supporto per le 24 nuove impostazioni locali per la voce trans-linguistica. Per altre informazioni, vedere l'elenco completo delle lingue.

Voce standard

Introduzione alle nuove voci per l'anteprima pubblica:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`de-DE`	Tedesco (Germania)	`SeraphinaNeural` (Femminile)
`es-ES`	Spagnolo (Spagna)	`XimenaNeural` (Femminile)
`fr-CA`	Francese (Canada)	`ThierryNeural` (Maschile)
`fr-FR`	Francese (Francia)	`VivienneNeural` (Femminile)
`it-IT`	Italiano (Italia)	`GiuseppeNeural` (Maschile)
`ko-KR`	Coreano (Corea)	`HyunsuNeural` (Maschile)
`pt-BR`	Portoghese (Brasile)	`ThalitaNeural` (Femminile)

Modelli aggiornati con bug risolti e miglioramenti qualitativi:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`es-ES`	Spagnolo (Spagna)	`AlvaroNeural` (Maschile)
`en-GB`	Inglese (Regno Unito)	`RyanNeural` (Maschile)
`ko-KR`	Coreano (Corea)	`InjoonNeural` (Maschile)

Per altre informazioni, vedere l'elenco completo di lingue e voci.

Versione di ottobre 2023

Voce neurale personalizzata

Aggiunta del supporto per le 12 nuove impostazioni locali con Sintesi vocale neurale Pro. Per altre informazioni, vedere l'elenco completo delle lingue.

Versione di settembre 2023

Voce standard

Introduzione alle nuove voci per l'anteprima pubblica:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`en-US`	Inglese (Stati Uniti)	`en-US-EmmaNeural` (Femminile)
`en-US`	Inglese (Stati Uniti)	`en-US-AndrewNeural` (Maschile)
`en-US`	Inglese (Stati Uniti)	`en-US-BrianNeural` (Maschile)

Per altre informazioni, vedere l'elenco completo di lingue e voci.

Voce neurale incorporata

Tutte le 147 impostazioni locali qui (tranne fa-IR, Persiano (Iran)) sono disponibili con 1 voce femminile selezionata e/o 1 voce maschile selezionata.

Versione di agosto 2023

Voce neurale personalizzata

La versione più recente della ricetta di training CNV Lite è stata rilasciata ora. Questa versione offre diversi miglioramenti sulla qualità dei modelli linguistici. Provare Speech Studio.

Versione di luglio 2023

Voce neurale personalizzata

La voce in più stili è disponibile a livello generale.
Sono state aggiunte due nuove impostazioni locali nell'anteprima pubblica per la voce in più stili: ja-JP e zh-CN. Per altre informazioni, vedere l'elenco completo di lingue e voci. Fare riferimento a elenco stile set di impostazioni per lingue diverse.
La voce interlinguistica è generalmente disponibile.
Sono state aggiunte due nuove impostazioni locali per la voce trans-linguistica: id-ID e nl-NL. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Voci standard

Introduzione alla nuova voce neutra di genere en-US per l'anteprima pubblica:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`en-US`	Inglese (Stati Uniti)	`en-US-BlueNeural` (neutrale)

Introduzione alle nuove voci multilingua per l'anteprima pubblica:

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`en-US`	Inglese (Stati Uniti)	`en-US-JennyMultilingualV2Neural` (Femminile)
`en-US`	Inglese (Stati Uniti)	`en-US-RyanMultilingualNeural` (Maschile)

Le voci multilingue en-US-JennyMultilingualV2Neural e en-US-RyanMultilingualNeural rilevano automaticamente la lingua del testo di input. Tuttavia, è comunque possibile usare l'elemento <lang> per regolare la lingua parlante per queste voci.

Queste nuove voci multilingue possono parlare in 41 lingue e accenti: Arabic (Egypt), Arabic (Saudi Arabia), Catalan, Czech (Czechia), Danish (Denmark), German (Austria), German (Switzerland), German (Germany), English (Australia), English (Canada), English (United Kingdom), English (Hong Kong SAR), English (Ireland), English (India), English (United States), Spanish (Spain), Spanish (Mexico), Finnish (Finland), French (Belgium), French (Canada), French (Switzerland), French (France), Hindi (India), Hungarian (Hungary), Indonesian (Indonesia), Italian (Italy), Japanese (Japan), Korean (Korea), Norwegian Bokmål (Norway), Dutch (Belgium), Dutch (Netherlands), Polish (Poland), Portuguese (Brazil), Portuguese (Portugal), Russian (Russia), Swedish (Sweden), Thai (Thailand), Turkish (Türkiye), Chinese (Mandarin, Simplified), Chinese (Cantonese, Traditional), Chinese (Taiwanese Mandarin, Traditional).

Queste voci multilingue non supportano completamente determinati elementi SSML, come interruzione, enfasi, silenzio e *sub*.

Importante

La en-US-JennyMultilingualV2Neural voce viene fornita temporaneamente in anteprima pubblica esclusivamente a scopo di valutazione. Sarà rimosso in futuro.

Per parlare in una lingua diversa dall'inglese, l'implementazione corrente della voce en-US-JennyMultilingualNeural richiede di impostare l'elemento <lang xml:lang>. Prevediamo che nel corso del 4° trimestre dell’anno solare 2023, la voce en-US-JennyMultilingualNeural verrà aggiornata per parlare nella lingua del testo di input senza l'elemento <lang xml:lang>. Questo sarà in parità con la voce en-US-JennyMultilingualV2Neural.

Introduzione alle nuove funzionalità in anteprima pubblica per le voci seguenti:

Aggiunta dell'input latino per le voci serbe (Serbia)sr-RS: sr-latn-RS-SophieNeural e sr-latn-RS-NicholasNeural.
Aggiunto il supporto per la pronuncia inglese delle voci albanesi (Albania) sq-AL: sq-AL-AnilaNeural e sq-AL-IlirNeural.

Versione di maggio 2023

Creazione di contenuti audio

Tutte le voci standard con stili di pronuncia e voci personalizzate in più stili supportano la regolazione del grado di stile.
Ora è possibile correggere la pronuncia di una parola pronunciandola e registrandola. I fonemi possono essere riconosciuti automaticamente dalla registrazione. La funzionalità Riconoscimento mediante parlato è ora disponibile in anteprima pubblica.

Versione di aprile 2023

Voci standard

Le funzionalità seguenti di queste voci sono state spostate dall'anteprima pubblica alla disponibilità generale:

Stile	Voci per la sintesi vocale
stile="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural` e `it-IT-IsabellaNeural`
style="allegro"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural` e `it-IT-IsabellaNeural`
stile="triste"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural` e `fr-FR-HenriNeural`

Migliorare la pronuncia in inglese per le voci hi-IN, ta-IN e te-IN, ora è in distribuzione in anteprima nelle aree di anteprima pubblica

Per altre informazioni, vedere elenco di lingue e voci.

Versione di marzo 2023

Nuove funzionalità

Speech Synthesis Markup Language (SSML) viene aggiornato per supportare gli elementi del processore degli effetti audio che ottimizzano la qualità dell'output vocale sintetizzato per scenari specifici nei dispositivi. Per altre informazioni, vedere markup di sintesi vocale.

Voce neurale personalizzata

Aggiunta del supporto per le impostazioni locali di nl-BE con Voce neurale personalizzata Pro. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Voci standard

Le voci seguenti sono ora disponibili a livello generale. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`en-AU`	Inglese (Australia)	`en-AU-AnnetteNeural` (Femminile) `en-AU-CarlyNeural` (Femminile) `en-AU-DarrenNeural` (Maschile) `en-AU-DuncanNeural` (Maschile) `en-AU-ElsieNeural` (Femminile) `en-AU-FreyaNeural` (Femminile) `en-AU-JoanneNeural` (Femminile) `en-AU-KenNeural` (Maschile) `en-AU-KimNeural` (Femminile) `en-AU-NeilNeural` (Maschile) `en-AU-TimNeural` (Maschile) `en-AU-TinaNeural` (Femminile) `en-AU-WilliamNeural` (Maschile)
`en-GB`	Inglese (Regno Unito)	`en-GB-RyanNeural` (Maschile) `en-GB-SoniaNeural` (Femminile)
`es-ES`	Spagnolo (Spagna)	`es-ES-AbrilNeural` (Femminile) `es-ES-ArnauNeural` (Maschile) `es-ES-DarioNeural` (Maschile) `es-ES-EliasNeural` (Maschile) `es-ES-EstrellaNeural` (Femminile) `es-ES-IreneNeural` (Femminile) `es-ES-LaiaNeural` (Femminile) `es-ES-LiaNeural` (Femminile) `es-ES-NilNeural` (Maschile) `es-ES-SaulNeural` (Maschile) `es-ES-TeoNeural` (Maschile) `es-ES-TrianaNeural` (Femminile) `es-ES-VeraNeural` (Femminile)
`es-MX`	Spagnolo (Messico)	`es-MX-JorgeNeural` (Maschile)
`fr-FR`	Francese (Francia)	`fr-FR-HenriNeural` (Maschile)
`it-IT`	Italiano (Italia)	`it-IT-IsabellaNeural` (Femminile)
`ja-JP`	Giapponese (Giappone)	`ja-JP-AoiNeural` (Femminile) `ja-JP-DaichiNeural` (Maschile) `ja-JP-MayuNeural` (Femminile) `ja-JP-NaokiNeural` (Maschile) `ja-JP-ShioriNeural` (Femminile)

Aggiunta del supporto per lo stile cheerful con la voce de-DE-ConradNeural.

Versione di febbraio 2023

Voci standard

Le voci seguenti sono ora disponibili a livello generale. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`zh-CN`	Cinese (mandarino, semplificato)	`zh-CN-XiaomengNeural` (Femminile) `zh-CN-XiaoyiNeural` (Femminile) `zh-CN-XiaozhenNeural` (Femminile) `zh-CN-YunfengNeural` (Maschile) `zh-CN-YunhaoNeural` (Maschile) `zh-CN-YunjianNeural` (Maschile) `zh-CN-YunxiaNeural` (Maschile) `zh-CN-YunzeNeural` (Maschile)
`zh-CN-henan`	Cinese (Mandarino Zhongyuan di Henan, semplificato)	`zh-CN-henan-YundengNeural` (Maschile)

Versione di dicembre 2022

API REST di sintesi batch (anteprima)

L'API di sintesi batch è attualmente disponibile in anteprima pubblica. Una volta disponibile a livello generale, l'API di audio lungo sarà deprecata. Per altre informazioni, vedere Eseguire la migrazione all'API di sintesi batch.

Versione di novembre 2022

Voci standard (disponibilità generale)

Le voci seguenti sono ora disponibili a livello generale. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`es-MX`	Spagnolo (Messico)	`es-MX-BeatrizNeural` (Femminile) `es-MX-CandelaNeural` (Femminile) `es-MX-CarlotaNeural` (Femminile) `es-MX-CecilioNeural` (Maschile) `es-MX-GerardoNeural` (Maschile) `es-MX-LarissaNeural` (Femminile) `es-MX-LibertoNeural` (Maschile) `es-MX-LucianoNeural` (Maschile) `es-MX-MarinaNeural` (Femminile) `es-MX-NuriaNeural` (Femminile) `es-MX-PelayoNeural` (Maschile) `es-MX-RenataNeural` (Femminile) `es-MX-YagoNeural` (Maschile)
`it-IT`	Italiano (Italia)	`it-IT-BenignoNeural` (Maschile) `it-IT-CalimeroNeural` (Maschile) `it-IT-CataldoNeural` (Maschile) `it-IT-FabiolaNeural` (Femminile) `it-IT-FiammaNeural` (Femminile) `it-IT-GianniNeural` (Maschile) `it-IT-ImeldaNeural` (Femminile) `it-IT-IrmaNeural` (Femminile) `it-IT-LisandroNeural` (Maschile) `it-IT-PalmiraNeural` (Femminile) `it-IT-PierinaNeural` (Femminile) `it-IT-RinaldoNeural` (Maschile)
`pt-BR`	Portoghese (Brasile)	`pt-BR-BrendaNeural` (Femminile) `pt-BR-DonatoNeural` (Maschile) `pt-BR-ElzaNeural` (Femminile) `pt-BR-FabioNeural` (Maschile) `pt-BR-GiovannaNeural` (Femminile) `pt-BR-HumbertoNeural` (Maschile) `pt-BR-JulioNeural` (Maschile) `pt-BR-LeilaNeural` (Femminile) `pt-BR-LeticiaNeural` (Femminile) `pt-BR-ManuelaNeural` (Femminile) `pt-BR-NicolauNeural` (Maschile) `pt-BR-ValerioNeural` (Maschile) `pt-BR-YaraNeural` (Femminile)

Voce neurale personalizzata

Viene aggiunto il supporto delle impostazioni locali seguente per voce neurale personalizzata. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Aggiunta del supporto per il locale fr-BE con voce neurale personalizzata Pro.
Aggiunta del supporto per le impostazioni locali es-ES con Sintesi vocale neurale Lite.

Versione di ottobre 2022

Voci standard (disponibilità generale)

Le voci seguenti sono ora disponibili a livello generale. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`eu-ES`	Basco	`eu-ES-AinhoaNeural` (Femminile) `eu-ES-AnderNeural` (Maschile)
`hy-AM`	Armeno (Armenia)	`hy-AM-AnahitNeural` (Femminile) `hy-AM-HaykNeural` (Maschile)

Voci standard (anteprima)

Le voci seguenti sono ora disponibili in anteprima pubblica. Per altre informazioni, vedere l'elenco completo di lingue e voci.

Impostazioni locali (BCP-47)	Lingua	Voci per la sintesi vocale
`en-AU`	Inglese (Australia)	`en-AU-AnnetteNeural`(Femminile) `en-AU-CarlyNeural`(Femminile) `en-AU-DarrenNeural`(Maschile) `en-AU-DuncanNeural`(Maschile) `en-AU-ElsieNeural`(Femminile) `en-AU-FreyaNeural`(Femminile) `en-AU-JoanneNeural`(Femminile) `en-AU-KenNeural`(Maschile) `en-AU-KimNeural`(Femminile) `en-AU-NeilNeural`(Maschile) `en-AU-TimNeural`(Maschile) `en-AU-TinaNeural`(Femminile)
`es-ES`	Spagnolo (Spagna)	`es-ES-AbrilNeural`(Femminile) `es-ES-AlvaroNeural`(Maschile) `es-ES-ArnauNeural`(Maschile) `es-ES-DarioNeural`(Maschile) `es-ES-EliasNeural`(Maschile) `es-ES-EstrellaNeural`(Femminile) `es-ES-IreneNeural`(Femminile) `es-ES-LaiaNeural`(Femminile) `es-ES-LiaNeural`(Femminile) `es-ES-NilNeural`(Maschile) `es-ES-SaulNeural`(Maschile) `es-ES-TeoNeural`(Maschile) `es-ES-TrianaNeural`(Femminile) `es-ES-VeraNeural`(Femminile)
`ja-JP`	Giapponese (Giappone)	`ja-JP-AoiNeural`(Femminile) `ja-JP-DaichiNeural`(Maschile) `ja-JP-MayuNeural`(Femminile) `ja-JP-NaokiNeural`(Maschile) `ja-JP-ShioriNeural`(Femminile)
`ko-KR`	Coreano (Corea)	`ko-KR-BongJinNeural`(Maschile) `ko-KR-GookMinNeural`(Maschile) `ko-KR-JiMinNeural`(Femminile) `ko-KR-SeoHyeonNeural`(Femminile) `ko-KR-SoonBokNeural`(Femminile) `ko-KR-YuJinNeural`(Femminile)
`wuu-CN`	Cinese (Wu, semplificato)	`wuu-CN-XiaotongNeural` (Femminile) `wuu-CN-YunzheNeural` (Maschile)
`yue-CN`	Cinese (Cantonese, semplificato)	`yue-CN-XiaoMinNeural` (Femminile) `yue-CN-YunSongNeural` (Maschile)

Aggiornamenti vocali TTS generali

Migliore qualità per le voci fil-PH-AngeloNeural e fil-PH-BlessicaNeural.
Le regole di normalizzazione del testo vengono aggiornate per le voci con le impostazioni locali di es-CL spagnolo (Cile) e uz-UZ Uzbeko (Uzbekistan).
Aggiunta dell'ortografia delle lettere inglesi per le voci con le impostazioni locali sq-AL albanese (Albania) e az-AZ azerbaigiano (Azerbaigian).
Miglioramento della pronuncia inglese per la voce zh-HK-WanLungNeural.
Miglioramento del tono interrogativo per le voci nl-NL-MaartenNeural e pt-BR-AntonioNeural.
Aggiunta del supporto per il tag di <lang ="en-US"> per una migliore pronuncia in inglese con le voci seguenti: de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeurale it-IT-IsabellaNeural.
Aggiunta del supporto per il tag di style="chat" con le voci seguenti: en-GB-RyanNeural, es-MX-JorgeNeurale it-IT-IsabellaNeural.
Aggiunta del supporto per il tag di style="cheerful" con le voci seguenti: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeurale it-IT-IsabellaNeural.
Aggiunta del supporto per il tag di style="sad" con le voci seguenti: en-GB-SoniaNeural, fr-FR-DeniseNeural e fr-FR-HenriNeural.

Versione di settembre 2022

Voce standard

Tutte le voci standard sono state aggiornate alle voci ad alta fedeltà con frequenza di campionamento a 48 kHz.

Versione di agosto 2022

Voce standard

Nuove voci rilasciate in anteprima pubblica:

Voci per inglese (Stati Uniti): en-US-AIGenerate1Neural e en-US-AIGenerate2Neural.
Voci per le lingue regionali cinesi: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeural, e zh-CN-shandong-YunxiangNeural.

Per altre informazioni, vedere elenco di lingue e voci.

Versione di luglio 2022

Voce standard

Sono state aggiunte 5 nuove voci di zh-CN cinese (mandarino, semplificato) e 1 nuova voce di en-US inglese (Stati Uniti) in anteprima pubblica. Vedi l'elenco completo di lingue e voci.

Lingua	Impostazioni locali	Sesso	Nome della voce	Supporto stilistico
Cinese (mandarino, semplificato)	`zh-CN`	Femmina	`zh-CN-XiaomengNeural`^Nuova	In generale, più stili disponibili utilizzando SSML
Cinese (mandarino, semplificato)	`zh-CN`	Femmina	`zh-CN-XiaoyiNeural`^Nuova	In generale, più stili disponibili utilizzando SSML
Cinese (mandarino, semplificato)	`zh-CN`	Femmina	`zh-CN-XiaozhenNeural`^Nuova	In generale, più stili disponibili utilizzando SSML
Cinese (mandarino, semplificato)	`zh-CN`	Maschio	`zh-CN-YunxiaNeural`^Nuova	In generale, più stili disponibili utilizzando SSML
Cinese (mandarino, semplificato)	`zh-CN`	Maschio	`zh-CN-YunzeNeural`^Nuova	In generale, più stili disponibili utilizzando SSML
Inglese (Stati Uniti)	`en-US`	Maschio	`en-US-RogerNeural`^Nuova	Generale

Stili e ruoli supportati per le voci neurali aggiunte.

Voce	Stili	Grado di stile	Ruoli
^{Anteprima pubblica} di zh-CN-XiaomengNeural	`chat`	Supportato/a
^{Anteprima pubblica} di zh-CN-XiaoyiNeural	`affectionate`, `angry`, `cheerful`, `disgruntled`, `embarrassedfearful`, `gentle`, , `sadserious`	Supportato/a
^{Anteprima pubblica} di zh-CN-XiaozhenNeural	`angry`, `cheerful`, `disgruntled`, `fearful`, `sadserious`	Supportato/a
^{Anteprima pubblica} di zh-CN-YunxiaNeural	`angry`, `calm`, `cheerful`, `fearfulsad`	Supportato/a
^{Anteprima pubblica} di zh-CN-YunzeNeural	`angry`, `calm`, `cheerful`, `depressed`, `disgruntleddocumentary-narration`, `fearful`, , `sadserious`	Supportato/a	Supportato/a

Ottenere la posizione del viso con il visema

Aggiunta del supporto per la fusione delle forme per guidare i movimenti facciali di un carattere 3D che è stato progettato. Per altre informazioni, vedere come ottenere la posizione del viso con visema.
SSML aggiornato per supportare l'elemento visema. Vedere Markup di sintesi vocale.

Versione di giugno 2022

Voce standard

Sono state aggiunte 9 nuove lingue e varianti per la sintesi vocale neurale:

Lingua	Impostazioni locali	Sesso	Nome della voce	Supporto stilistico
Arabo (Libano)	`ar-LB`	Femmina	`ar-LB-LaylaNeural`^Nuova	Generale
Arabo (Libano)	`ar-LB`	Maschio	`ar-LB-RamiNeural`^Nuova	Generale
Arabo (Oman)	`ar-OM`	Femmina	`ar-OM-AyshaNeural`^Nuova	Generale
Arabo (Oman)	`ar-OM`	Maschio	`ar-OM-AbdullahNeural`^Nuova	Generale
Azerbaigiano (Azerbaigian)	`az-AZ`	Femmina	`az-AZ-BabekNeural`^Nuova	Generale
Azerbaigiano (Azerbaigian)	`az-AZ`	Maschio	`az-AZ-BanuNeural`^Nuova	Generale
Bosniaco (Bosnia ed Erzegovina)	`bs-BA`	Femmina	`bs-BA-VesnaNeural`^Nuova	Generale
Bosniaco (Bosnia ed Erzegovina)	`bs-BA`	Maschio	`bs-BA-GoranNeural`^Nuova	Generale
Lingua georgiana (Georgia)	`ka-GE`	Femmina	`ka-GE-EkaNeural`^Nuova	Generale
Lingua georgiana (Georgia)	`ka-GE`	Maschio	`ka-GE-GiorgiNeural`^Nuova	Generale
Mongolo (Mongolia)	`mn-MN`	Femmina	`mn-MN-YesuiNeural`^Nuova	Generale
Mongolo (Mongolia)	`mn-MN`	Maschio	`mn-MN-BataaNeural`^Nuova	Generale
Nepalese (Nepal)	`ne-NP`	Femmina	`ne-NP-HemkalaNeural`^Nuova	Generale
Nepalese (Nepal)	`ne-NP`	Maschio	`ne-NP-SagarNeural`^Nuova	Generale
Albanese (Albania)	`sq-AL`	Femmina	`sq-AL-AnilaNeural`^Nuova	Generale
Albanese (Albania)	`sq-AL`	Maschio	`sq-AL-IlirNeural`^Nuova	Generale
Tamil (Malesia)	`ta-MY`	Femmina	`ta-MY-KaniNeural`^Nuova	Generale
Tamil (Malesia)	`ta-MY`	Maschio	`ta-MY-SuryaNeural`^Nuova	Generale

Disponibilità generale di 36 voci dall'anteprima pubblica per en-GB inglese (Regno Unito), fr-FR francese (Francia) e de-DE tedesco (Germania):

Lingua	Impostazioni locali	Sesso	Nome della voce	Supporto stilistico
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-AbbiNeural`	Generale
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-BellaNeural`	Generale
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-HollieNeural`	Generale
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-MaisieNeural`	Generale, voce figlio
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-OliviaNeural`	Generale
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-SoniaNeural`	Generale
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-AlfieNeural`	Generale
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-ElliotNeural`	Generale
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-EthanNeural`	Generale
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-NoahNeural`	Generale
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-OliverNeural`	Generale
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-ThomasNeural`	Generale
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-BrigitteNeural`	Generale
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-CelesteNeural`	Generale
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-CoralieNeural`	Generale
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-EloiseNeural`	Generale, voce figlio
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-JacquelineNeural`	Generale
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-JosephineNeural`	Generale
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-YvetteNeural`	Generale
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-AlainNeural`	Generale
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-ClaudeNeural`	Generale
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-JeromeNeural`	Generale
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-MauriceNeural`	Generale
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-YvesNeural`	Generale
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-AmalaNeural`	Generale
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-ElkeNeural`	Generale
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-GiselaNeural`	Generale, voce figlio
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-KlarissaNeural`	Generale
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-LouisaNeural`	Generale
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-MajaNeural`	Generale
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-TanjaNeural`	Generale
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-BerndNeural`	Generale
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-ChristophNeural`	Generale
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-KasperNeural`	Generale
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-KillianNeural`	Generale
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-KlausNeural`	Generale
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-RalfNeural`	Generale

Sono state aggiunte 40 nuove voci di es-MX spagnolo (Messico), it-IT italiano (Italia), pt-BR portoghese (Brasile) e 2 accenti per zh-CN cinese (mandarino, semplificato) in anteprima pubblica:

Lingua	Impostazioni locali	Sesso	Nome della voce	Supporto stilistico
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-BeatrizNeural`^Nuova	Generale
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-CarlotaNeural`^Nuova	Generale
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-NuriaNeural`^Nuova	Generale
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-RenataNeural`^Nuova	Generale
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-LarissaNeural`^Nuova	Generale
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-CandelaNeural`^Nuova	Generale
Spagnolo (Messico)	`es-MX`	Femmina	`es-MX-MarinaNeural`^Nuova	Generale
Italiano (Italia)	`it-IT`	Femmina	`it-IT-FiammaNeural`^Nuova	Generale
Italiano (Italia)	`it-IT`	Femmina	`it-IT-IrmaNeural`^Nuova	Generale
Italiano (Italia)	`it-IT`	Femmina	`it-IT-FabiolaNeural`^Nuova	Generale
Italiano (Italia)	`it-IT`	Femmina	`it-IT-PalmiraNeural`^Nuova	Generale
Italiano (Italia)	`it-IT`	Femmina	`it-IT-ImeldaNeural`^Nuova	Generale
Italiano (Italia)	`it-IT`	Femmina	`it-IT-PierinaNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-ElzaNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-ManuelaNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-BrendaNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-LeilaNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-YaraNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-GiovannaNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Femmina	`pt-BR-LeticiaNeural`^Nuova	Generale
Spagnolo (Messico)	`es-MX`	Maschio	`es-MX-CecilioNeural`^Nuova	Generale
Spagnolo (Messico)	`es-MX`	Maschio	`es-MX-LibertoNeural`^Nuova	Generale
Spagnolo (Messico)	`es-MX`	Maschio	`es-MX-LucianoNeural`^Nuova	Generale
Spagnolo (Messico)	`es-MX`	Maschio	`es-MX-PelayoNeural`^Nuova	Generale
Spagnolo (Messico)	`es-MX`	Maschio	`es-MX-YagoNeural`^Nuova	Generale
Spagnolo (Messico)	`es-MX`	Maschio	`es-MX-GerardoNeural`^Nuova	Generale
Italiano (Italia)	`it-IT`	Maschio	`it-IT-BenignoNeural`^Nuova	Generale
Italiano (Italia)	`it-IT`	Maschio	`it-IT-CataldoNeural`^Nuova	Generale
Italiano (Italia)	`it-IT`	Maschio	`it-IT-LisandroNeural`^Nuova	Generale
Italiano (Italia)	`it-IT`	Maschio	`it-IT-CalimeroNeural`^Nuova	Generale
Italiano (Italia)	`it-IT`	Maschio	`it-IT-RinaldoNeural`^Nuova	Generale
Italiano (Italia)	`it-IT`	Maschio	`it-IT-GianniNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Maschio	`pt-BR-DonatoNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Maschio	`pt-BR-HumbertoNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Maschio	`pt-BR-FabioNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Maschio	`pt-BR-JulioNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Maschio	`pt-BR-ValerioNeural`^Nuova	Generale
Portoghese (Brasile)	`pt-BR`	Maschio	`pt-BR-NicolauNeural`^Nuova	Generale
Cinese (mandarino, semplificato)	`zh-CN-sichuan`	Maschio	`zh-CN-sichuan-YunxiSichuanNeural`^Nuova	Generale, accento di Sichuan
Cinese (mandarino, semplificato)	`zh-CN-liaoning`	Femmina	`zh-CN-liaoning-XiaobeiNeural`^Nuova	Generale, accento di Liaoning

Migliore qualità per en-SG-LunaNeural e en-SG-WayneNeural
Supporto dell'output a 48 kHz per l'anteprima pubblica con en-US-JennyNeural, en-US-AriaNeural e zh-CN-XiaoxiaoNeural

Voce neurale personalizzata

Abilitazione per la risoluzione dei problemi di dati online. Altre informazioni su come risolvere i problemi di dati in Speech Studio.
Aggiunta della versione della procedura di training. Per altre informazioni, vedere selezionare la versione della procedura di training per il modello vocale.

Strumento Creazione di contenuto audio

Paginazione supportata.
Abilitata per l'ordinamento globale in base a nome, tipo file e ora di aggiornamento nella pagina del file di lavoro.

Versione di maggio 2022

Voce standard

Rilasciate 5 nuove voci in anteprima pubblica con più stili per arricchire la varietà in inglese americano. Vedi l'elenco completo di lingue e voci.
Supportare questi nuovi stili Angry, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified e Whispering in anteprima pubblica per en-US-AriaNeural.
Supportare questi nuovi stili Angry, Cheerful, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified e Whispering in anteprima pubblica per en-US-GuyNeural, en-US-JennyNeural.
Supportare questi nuovi stili Excited, Friendly, Hopeful, Shouting, Unfriendly, Terrified e Whispering in anteprima pubblica per en-US-SaraNeural. Vedere stili vocali e ruoli.
Pubblicate nuove voci zh-CN-YunjianNeural, zh-CN-YunhaoNeural e zh-CN-YunfengNeural in anteprima pubblica. Vedi l'elenco completo di lingue e voci.
Supporto per 2 nuovi stili sports-commentary, sports-commentary-excited in anteprima pubblica per zh-CN-YunjianNeural. Vedere stili vocali e ruoli.
Supporto di 1 nuovo stile advertisement-upbeat in anteprima pubblica per zh-CN-YunhaoNeural. Vedere stili vocali e ruoli.
Gli stili cheerful e sad per fr-FR-DeniseNeural sono disponibili a livello generale in tutte le aree.
SSML aggiornato per supportare gli elementi MathML per le voci en-US e en-AU. Per altre informazioni, vedere markup di sintesi vocale.

Voce neurale personalizzata

Abilitazione per annullare il training durante il modello vocale di training. Altre informazioni su come annullare il training.
Abilitazione per clonare il modello (rinominare il modello vocale). Altre informazioni su come rinominare il modello vocale.
Abilitazione per testare il modello vocale aggiungendo uno script di test personalizzato. Altre informazioni su come caricare lo script di test.
Abilitazione per l'aggiornamento della versione del motore per il modello vocale. Ulteriori informazioni su come aggiornare la versione del modello di motore.
Supporto per più aree di training. Vedere supporto per la regione.
Supporto per 10 impostazioni locali per Custom Neural Voice Lite (anteprima). Vedere Supporto per la lingua.

Strumento Creazione di contenuto audio

È possibile provare lo strumento per la creazione di contenuti audio senza eseguire l'accesso.
Layout migliorato per regolare i fonemi.
Prestazioni migliorate: è stato specificato il numero massimo (200) di file caricabili contemporaneamente.
Prestazioni migliorate: è stato specificato il livello massimo di profondità della directory (5 livelli).

Versione di marzo 2022

Voce standard

Aggiunta del supporto nell'anteprima pubblica per gli stili di Cheerful e Sad con fr-FR-DeniseNeural. Vedere stili vocali e ruoli.
Sono state rilasciate in anteprima pubblica le voci standard per i contenitori disconnessi. Vedere usare contenitori Docker in ambienti disconnessi.

Voce neurale personalizzata

Controllo supportato degli accessi in base al ruolo. Altre informazioni sul controllo degli accessi in base al ruolo di Azure in Speech Studio
Supporto per endpoint privati e endpoint di servizio di rete virtuale. Scopri di più su come utilizzare gli endpoint privati con il servizio di sintesi vocale.

Strumento Creazione di contenuto audio

Aggiornamento delle dimensioni del file e del limite di concorrenza per le risorse di livello gratuito (F0) per rendere l'esperienza coerente con Speech SDK e le API. Consultare quote e limiti del servizio di riconoscimento vocale.

Versione di febbraio 2022

Voce neurale personalizzata

Sintesi vocale neurale è stata rilasciata in anteprima pubblica. Altre informazioni su Sintesi vocale neurale.
Supporto della lingua esteso a 49 impostazioni locali. Vedere Supporto per la lingua.
Supporto per più aree/data center. Vedere supporto per la regione.

Strumento Creazione di contenuto audio

Rimosso il limite di lunghezza dell'output per il download di audio.

Versione di gennaio 2022

Nuove lingue e voci

Sono state aggiunte 10 nuove lingue e varianti per la sintesi vocale neurale.

Lingua	Impostazioni locali	Sesso	Nome della voce	Supporto stilistico
Bengalese (India)	`bn-IN`	Femmina	`bn-IN-TanishaaNeural`^Nuova	Generale
Bengalese (India)	`bn-IN`	Maschio	`bn-IN-BashkarNeural`^Nuova	Generale
Islandese (Islanda)	`is-IS`	Femmina	`is-IS-GudrunNeural`^Nuova	Generale
Islandese (Islanda)	`is-IS`	Maschio	`is-IS-GunnarNeural`^Nuova	Generale
Kannada (India)	`kn-IN`	Femmina	`kn-IN-SapnaNeural`^Nuova	Generale
Kannada (India)	`kn-IN`	Maschio	`kn-IN-GaganNeural`^Nuova	Generale
Kazako (Kazakhstan)	`kk-KZ`	Femmina	`kk-KZ-AigulNeural`^Nuova	Generale
Kazako (Kazakhstan)	`kk-KZ`	Maschio	`kk-KZ-DauletNeural`^Nuova	Generale
Lao (Laos)	`lo-LA`	Femmina	`lo-LA-KeomanyNeural`^Nuova	Generale
Lao (Laos)	`lo-LA`	Maschio	`lo-LA-ChanthavongNeural`^Nuova	Generale
Macedone (Repubblica della Macedonia del Nord)	`mk-MK`	Femmina	`mk-MK-MarijaNeural`^Nuova	Generale
Macedone (Repubblica della Macedonia del Nord)	`mk-MK`	Maschio	`mk-MK-AleksandarNeural`^Nuova	Generale
Malayalam (India)	`ml-IN`	Femmina	`ml-IN-SobhanaNeural`^Nuova	Generale
Malayalam (India)	`ml-IN`	Maschio	`ml-IN-MidhunNeural`^Nuova	Generale
Pashto (Afghanistan)	`ps-AF`	Femmina	`ps-AF-LatifaNeural`^Nuova	Generale
Pashto (Afghanistan)	`ps-AF`	Maschio	`ps-AF-GulNawazNeural`^Nuova	Generale
Serbo (Serbia, alfabeto cirillico)	`sr-RS`	Femmina	`sr-RS-SophieNeural`^Nuova	Generale
Serbo (Serbia, alfabeto cirillico)	`sr-RS`	Maschio	`sr-RS-NicholasNeural`^Nuova	Generale
Singalese (Sri Lanka)	`si-LK`	Femmina	`si-LK-ThiliniNeural`^Nuova	Generale
Singalese (Sri Lanka)	`si-LK`	Maschio	`si-LK-SameeraNeural`^Nuova	Generale

Per un elenco completo delle voci disponibili, vedere Supporto delle lingue.

Nuove voci in anteprima

Sono state aggiunte nuove voci per inglese britannico, francese e tedesco in anteprima:

Lingua	Impostazioni locali	Sesso	Nome della voce	Supporto stilistico
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-AbbiNeural`^Nuova	Generale
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-BellaNeural`^Nuova	Generale
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-HollieNeural`^Nuova	Generale
Inglese (Regno Unito)	`en-GB`	Femmina	`en-GB-OliviaNeural`^Nuova	Generale
Inglese (Regno Unito)	`en-GB`	Ragazza	`en-GB-MaisieNeural`^Nuova	Generale
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-AlfieNeural`^Nuova	Generale
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-ElliotNeural`^Nuova	Generale
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-EthanNeural`^Nuova	Generale
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-NoahNeural`^Nuova	Generale
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-OliverNeural`^Nuova	Generale
Inglese (Regno Unito)	`en-GB`	Maschio	`en-GB-ThomasNeural`^Nuova	Generale
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-BrigitteNeural`^Nuova	Generale
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-CelesteNeural`^Nuova	Generale
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-CoralieNeural`^Nuova	Generale
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-JacquelineNeural`^Nuova	Generale
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-JosephineNeural`^Nuova	Generale
Francese (Francia)	`fr-FR`	Femmina	`fr-FR-YvetteNeural`^Nuova	Generale
Francese (Francia)	`fr-FR`	Ragazza	`fr-FR-EloiseNeural`^Nuova	Generale
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-AlainNeural`^Nuova	Generale
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-ClaudeNeural`^Nuova	Generale
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-JeromeNeural`^Nuova	Generale
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-MauriceNeural`^Nuova	Generale
Francese (Francia)	`fr-FR`	Maschio	`fr-FR-YvesNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-AmalaNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-ElkeNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-KlarissaNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-LouisaNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-MajaNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Femmina	`de-DE-TanjaNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Ragazza	`de-DE-GiselaNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-BerndNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-ChristophNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-KasperNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-KillianNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-KlausNeural`^Nuova	Generale
Tedesco (Germania)	`de-DE`	Maschio	`de-DE-RalfNeural`^Nuova	Generale

Per un elenco completo delle voci disponibili, vedere Supporto delle lingue.

Accuratezza della pronuncia

Miglioramento della pronuncia delle parole in inglese per tutte le voci he-IL.
Miglioramento dell'accuratezza della pronuncia a livello di parola per cs-CZ e da-DK.
Migliorata la gestione dei segni diacritici per l'arabo e del niqqud per l'ebraico.
Miglioramento della lettura delle entità per ja-JP

Studio del Discorso

Voce neurale personalizzata: test aggiuntivi del modello abilitati utilizzando l'API batch (API per audio lungo)
Creazione di contenuto audio: abilitazione di altri formati di output

Versione di ottobre 2021

Nuove lingue e voci

Sono state aggiunte 49 nuove lingue e 98 nuove voci per la sintesi vocale neurale.

Adri in af-ZA afrikaans (Sudafrica), Willem in af-ZA afrikaans (Sudafrica), Mekdes in am-ET amarico (Etiopia), Ameha in am-ET amarico (Etiopia), Fatima in ar-AE arabo (Emirati Arabi Uniti), Hamdan in ar-AE arabo (Emirati Arabi Uniti), Laila in ar-BH arabo (Bahrein), Ali in ar-BH arabo (Bahrein), Amina in ar-DZ arabo (Algeria), Ismael in ar-DZ arabo (Algeria), Rana in ar-IQ arabo (Iraq), Bassel in ar-IQ arabo (Iraq), Sana in ar-JO arabo (Giordania), Taim in ar-JO arabo (Giordania), Noura in ar-KW arabo (Kuwait), Fahed in ar-KW arabo (Kuwait), Iman in ar-LY arabo (Libia), Omar in ar-LY arabo (Libia), Mouna in ar-MA arabo (Marocco), Jamal in ar-MA arabo (Marocco), Amal in ar-QA arabo (Qatar), Moaz in ar-QA arabo (Qatar), Amany in ar-SY arabo (Siria), Laith in ar-SY arabo (Siria), Reem in ar-TN arabo (Tunisia), Hedi in ar-TN arabo (Tunisia), Maryam in ar-YE arabo (Yemen), Saleh in ar-YE arabo (Yemen), Nabanita in bn-BD bengalese (Bangladesh), Pradeep in bn-BD bengalese (Bangladesh), Asilia in en-KE inglese (Kenya), Chilemba in en-KE inglese (Kenya), Ezinne in en-NG inglese (Nigeria), Abeo in en-NG inglese (Nigeria), Imani in en-TZ inglese (Tanzania), Elimu in en-TZ inglese (Tanzania), Sofia in es-BO spagnolo (Bolivia), Marcelo in es-BO spagnolo (Bolivia), Catalina in es-CL spagnolo (Cile), Lorenzo in es-CL spagnolo (Cile), Maria in es-CR spagnolo (Costa Rica), Juan in es-CR spagnolo (Costa Rica), Belkys in es-CU spagnolo (Cuba), Manuel in es-CU spagnolo (Cuba), Ramona in es-DO spagnolo (Repubblica Dominicana), Emilio in es-DO spagnolo (Repubblica Dominicana), Andrea in es-EC spagnolo (Ecuador), Luis in es-EC spagnolo (Ecuador), Teresa in es-GQ spagnolo (Guinea Equatoriale), Javier in es-GQ spagnolo (Guinea Equatoriale), Marta in es-GT spagnolo (Guatemala), Andres in es-GT spagnolo (Guatemala), Karla in es-HN spagnolo (Honduras), Carlos in es-HN spagnolo (Honduras), Yolanda in es-NI spagnolo (Nicaragua), Federico in es-NI spagnolo (Nicaragua), Margarita in es-PA spagnolo (Panama), Roberto in es-PA spagnolo (Panama), Camila in es-PE spagnolo (Perù), Alex in es-PE spagnolo (Perù), Karina in es-PR spagnolo (Porto Rico), Victor in es-PR spagnolo (Porto Rico), Tania in es-PY spagnolo (Paraguay), Mario in es-PY spagnolo (Paraguay), Lorena in es-SV spagnolo (El Salvador), Rodrigo in es-SV spagnolo (El Salvador), Valentina in es-UY spagnolo (Uruguay), Mateo in es-UY spagnolo (Uruguay), Paola in es-VE spagnolo (Venezuela), Sebastian in es-VE spagnolo (Venezuela), Dilara in fa-IR persiano (Iran), Farid in fa-IR persiano (Iran), Blessica in fil-PH filippino (Filippine), Angelo in fil-PH filippino (Filippine), Sabela in gl-ES gallego, Roi in gl-ES gallego, Siti in jv-ID giavanese (Indonesia), Dimas in jv-ID giavanese (Indonesia), Sreymom in km-KH khmer (Cambogia), Piseth in km-KH khmer (Cambogia), Nilar in my-MM birmano (Myanmar), Thiha in my-MM birmano (Myanmar), Ubax in so-SO somalo (Somalia), Muuse in so-SO somalo (Somalia), Tuti in su-ID sundanese (Indonesia), Jajang in su-ID sundanese (Indonesia), Rehema in sw-TZ swahili (Tanzania), Daudi in sw-TZ swahili (Tanzania), Saranya in ta-LK tamil (Sri Lanka), Kumar in ta-LK tamil (Sri Lanka), Venba in ta-SG tamil (Singapore), Anbu in ta-SG tamil (Singapore), Gul in ur-IN urdu (India), Salman in ur-IN urdu (India), Madina in uz-UZ usbeco (Uzbekistan), Sardor in uz-UZ usbeco (Uzbekistan), Thando in zu-ZA zulù (Sudafrica), Themba in zu-ZA zulu (Sudafrica).

Versione di settembre 2021

Nuova voce chatbot in en-US inglese (STATI UNITI): Sara rappresenta un giovane adulto femminile che parla più casualmente e si adatta meglio per gli scenari di chatbot.
Nuovi stili aggiunti per ja-JP voce giapponese Nanami: tre nuovi stili sono ora disponibili per Nanami: chat, servizio clienti e allegro.
Miglioramento generale della pronuncia: Ardi in id-ID, Premwadee in th-TH, Christel in da-DK, HoaiMy e NamMinh in vi-VN.
Due nuove voci in zh-CN cinese (mandarino, Cina) in anteprima: Xiaochen & Xiaoyan, ottimizzate per scenari di riconoscimento vocale spontaneo e servizio clienti.

Versione di luglio 2021

Aggiornamenti di sintesi vocale neurale

Riduzione degli errori di pronuncia in ebraico del 20%.

Aggiornamenti di Speech Studio

Voce neurale personalizzata: aggiornata la pipeline di training a UniTTSv3 con cui la qualità del modello è migliorata mentre il tempo di training è ridotto del 50% per i modelli acustici.
Creazione di contenuto audio: è stato risolto il problema di prestazioni "Esporta" e il bug relativo alla selezione vocale neurale personalizzata.

Versione di giugno 2021

Aggiornamenti di Speech Studio

Voce neurale personalizzata: il training vocale neurale personalizzato è stato esteso per supportare l'Asia sud-orientale. Nuove funzionalità rilasciate per supportare il controllo dello stato del caricamento dei dati.
Creazione di contenuto audio: è stata rilasciata una nuova funzionalità per supportare il lessico personalizzato. Con questa funzionalità, gli utenti possono creare facilmente i propri file lessico e definire la pronuncia personalizzata per l'output audio.

Versione di maggio 2021

Nuove lingue e voci aggiunte per TTS neurale

Dieci nuove lingue introdotte - 20 nuove voci in 10 nuove impostazioni locali sono state aggiunte all'elenco delle lingue TTS neurali: Yan in en-HK inglese (Hong Kong), Sam in en-HK inglese (Hong Kong), Molly in en-NZ inglese (Nuova Zelanda), Mitchell in en-NZ inglese (Nuova Zelanda), Luna in en-SG inglese (Singapore), Wayne in inglese en-SG (Singapore), Leah in en-ZA inglese (Sudafrica), Luke in en-ZA inglese (Sudafrica), Dhwani in gu-IN gujarati (India), Niranjan in gu-IN gujarati (India), Aarohi in mr-IN marathi (India), Manohar in mr-IN marathi (India), Elena in es-AR spagnolo (Argentina), Tomas in es-AR spagnolo (Argentina), Salome in es-CO spagnolo (Colombia), Gonzalo in es-CO spagnolo (Colombia), Paloma in es-US spagnolo (USA), Alonso in es-US spagnolo (USA), Zuri in sw-KE swahili (Kenya), Rafiki in sw-KE swahili (Kenya).
Undici nuove voci en-US in anteprima - 11 nuove voci en-US in anteprima vengono aggiunte all'inglese americano. Sono Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica e Jacob.
Cinquezh-CN voci cinesi (mandarino, semplificato) sono disponibili in generale - 5 voci cinesi (mandarino, semplificato) passano da anteprima a disponibili in generale. sono yunxi, xiaomo, xiaoman, xiaoxuan, xiaorui. Queste voci sono ora disponibili in tutte le aree. Viene aggiunto a Yunxi un nuovo stile di 'assistente', adatto a chatbot e agenti vocali. Gli stili voce di Xiaomo sono stati raffinati per essere più naturali e in primo piano.

Versione di aprile 2021

Sintesi vocale neurale è disponibile in 21 aree

Dodici nuove aree aggiunte - La sintesi vocale neurale è ora disponibile nelle seguenti nuove 12 aree: Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US, West US 2. Controllare qui per un elenco completo delle 21 aree supportate.

Versione di marzo 2021

Nuove lingue e voci aggiunte per TTS neurale

Sei nuove lingue introdotte - 12 nuove voci in 6 nuove impostazioni locali vengono aggiunte nell'elenco delle lingue neurali TTS: Nia in cy-GB gallese (Regno Unito), Aled in cy-GB gallese (Regno Unito), Rosa in en-PH inglese (Filippine), James in en-PH inglese (Filippine), Charline in fr-BE francese (Belgio), Gerard in fr-BE francese (Belgio), Dena in nl-BE olandese (Belgio), Arnaud in nl-BE olandese (Belgio), Polina in uk-UA ucraino (Ucraina), Ostap in uk-UA ucraino (Ucraina), Uzma in ur-PK urdu (Pakistan), Asad in ur-PK urdu (Pakistan).
Cinque nuove voci dall’anteprima in disponibilità generale: 10 voci in 5 impostazioni locali introdotte a novembre ora sono in disponibilità generale: Kert in et-EE estone (Estonia), Colm in ga-IE irlandese (Irlanda), Nils in lv-LV lettone (Lettonia), Leonas in lt-LT lituano (Lituania), Joseph in mt-MT maltese (Malta).
Nuova voce maschile aggiunta per francese (Canada) - Una nuova voce Antoine è disponibile per fr-CA francese (Canada).
Miglioramento qualitativo - Riduzione del tasso di errore della pronuncia hu-HU ungherese - 48,17%, nb-NO norvegese - 52,76%, nl-NL olandese (Paesi Bassi) - 22,11%.

Con questa versione è ora supportato un totale di 142 voci neurali in 60 lingue/impostazioni locali. Inoltre, oltre 70 voci standard sono disponibili in 49 lingue/impostazioni locali. Per l'elenco completo, visitare supporto per la lingua.

Ottenere eventi di posa facciale per animare i personaggi

Sintesi vocale neurale include ora l'evento visema. Gli eventi Visema consentono agli utenti di ottenere una sequenza di pose facciali insieme al parlato sintetizzato. I visema possono essere usati per controllare il movimento dei modelli avatar 2D e 3D, abbinando i movimenti della bocca alla sintesi vocale. In questo momento gli eventi visema sono disponibili solo per la voce en-US-AriaNeural.

Aggiungere l'elemento segnalibro in Speech Synthesis Markup Language (SSML)

L'elemento segnalibro consente di inserire marcatori personalizzati in SSML per ottenere lo scostamento di ogni marcatore nel flusso audio. Possono essere usati per fare riferimento a una posizione specifica nella sequenza di testo o tag.

Versione di febbraio 2021

Disponibilità generale di Sintesi vocale neurale

La voce neurale personalizzata avrà disponibilità generale a febbraio in 13 lingue: cinese (mandarino, semplificato), inglese (Australia), inglese (India), inglese (Regno Unito), inglese (Stati Uniti), francese (Canada), francese (Francia), tedesco (Germania), italiano (Italia), giapponese (Giappone), coreano (Corea), portoghese (Brasile), spagnolo (Messico) e spagnolo (Spagna). Altre informazioni su che cos'è la voce neurale personalizzata e come usarla in modo responsabile. La funzionalità sintesi vocale neurale richiede la registrazione e Microsoft potrebbe limitare l'accesso in base ai criteri di idoneità di Microsoft. Altre informazioni sull’accesso limitato.

Versione di dicembre 2020

Nuove voci neurali in disponibilità generale e anteprima

Sono state rilasciate 51 nuove voci per un totale di 129 voci neurali in 54 lingue/impostazioni locali:

46 nuove voci nelle impostazioni locali di disponibilità generale: Shakir in ar-EG arabo (Egitto), Hamed in ar-SA arabo (Arabia Saudita), Borislav in bg-BG bulgaro (Bulgaria), Joana in ca-ES catalano, Antonin in cs-CZ ceco (Repubblica Ceca), Jeppe in da-DK danese (Danimarca), Jonas in de-AT tedesco (Austria), Jan in de-CH tedesco (Svizzero), Nestoras in el-GR greco (Grecia), Liam in en-CA inglese (Canada), Connor in en-IE inglese (Irlanda), Madhur in en-IN Hindi (India), Mohan in en-IN telugu (India), Prabhat in en-IN inglese (India), Valluvar in en-IN tamil (India), Enric in es-ES catalano, Kert in et-EE estone (Estonia), Harri in fi-FI finlandese (Finlandia), Selma in fi-FI finlandese (Finlandia), Fabrice in fr-CH francese (Svizzera), Colm in ga-IE Irlandese (Irlanda), Avri in he-IL ebraico (Israele), Srecko in hr-HR croato (Croazia), Tamas in hu-HU ungherese (Ungheria), Gadis in id-ID indonesiano (Indonesia), Leonas in lt-LT lituano (Lituania), Nils in lv-LV lettone (Lettonia), Osman in ms-MY malese (Malaysia), Joseph in mt-MT maltese (Malta), Finn in nb-NO norvegese, Bokmål (Norvegia), Pernille in nb-NO norvegese, Bokmål (Norvegia), Fenna in nl-NL nederlandese (Paesi Bassi), Maarten in nl-NL olandese (Paesi Bassi), Agnieszka in pl-PL polacco (Polonia), Marek in pl-PL polacco (Polonia), Duarte in pt-BR portoghese (Brasile), Raquel in pt-PT portoghese (Portogallo), Emil in ro-RO rumeno (Romania), Dmitry in ru-RU russo (Russia), Svetlana in ru-RU russo (Russia), Lukas in sk-SK slovacco (Slovacchia), Rok in sl-SI sloveno (Slovenia), Mattias in sv-SE svedese (Svezia), Sofie in sv-SE svedese (Svezia), Niwat in th-TH tailandese (Tailandia), Ahmet in tr-TR turco (Turchia), NamMinh in vi-VN vietnamita (Vietnam), HsiaoChen in zh-TW mandarino taiwanese (Taiwan), YunJhe in zh-TW mandarino taiwanese (Taiwan), HiuMaan in zh-HK cantonese cinese (Regione amministrativa speciale di Hong Kong), WanLung in zh-HK cantonese cinese (Hong Kong SAR).
5 nuove voci nelle impostazioni locali di anteprima: Kert in et-EE estone (Estonia), Colm in ga-IE irlandese (Irlanda), Nils in lv-LV lettone (Lettonia), Leonas in lt-LT lituano (Lituania), Joseph in mt-MT maltese (Malta).

Con questa versione è ora supportato un totale di 129 voci neurali in 54 lingue/impostazioni locali. Inoltre, oltre 70 voci standard sono disponibili in 49 lingue/impostazioni locali. Per l'elenco completo, visitare supporto per la lingua.

Aggiornamenti per Creazione di contenuto audio

Interfaccia utente migliorata per la selezione della voce con categorie vocali e descrizioni dettagliate delle voci.
Abilitazione dell'ottimizzazione di intonazione per tutte le voci neurali nelle diverse lingue.
Automazione della localizzazione interfaccia utente in base alla lingua del browser.
Controlli StyleDegree abilitati per tutte le voci neurali zh-CN. Visita lo strumento Creazione di contenuto audio per scoprire le nuove funzionalità.

Aggiornamenti per le voci zh-CN

Aggiornate tutte le voci neurali zh-CN per supportare la lingua inglese.
Abilitate tutte le voci neurali zh-CN per supportare la regolazione dell'intonazione. Lo strumento SSML o Creazione di contenuto audio può essere usato per adattarsi alla migliore intonazione.
Aggiornate tutte le voci neurali a più stili zh-CN per supportare il controllo StyleDegree. L'intensità delle emozioni (lieve o intensa) è regolabile.
Aggiornato zh-CN-YunyeNeural per supportare più stili che possono esprimere emozioni diverse.

Versione di novembre 2020

Nuove impostazioni locali e voci in anteprima

Cinque nuove voci e lingue sono state introdotte nel portfolio di sintesi vocale neurale. Sono: Grazia in maltese (Malta), Ona in lituano (Lituania), Anu in estone (Estonia), Orla in irlandese (Irlanda) e Everita in lettone (Lettonia).
Cinque nuove voci zh-CN con supporto a più stili e ruoli: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan e Yunxi.

Queste voci sono disponibili in anteprima pubblica in tre aree di Azure: EastUS, SouthEastAsia e WestEurope.

Disponibilità generale del contenitore di sintesi vocale neurale

Con il contenitore di sintesi vocale neurale, gli sviluppatori possono eseguire la sintesi vocale con le voci digitali più naturali nel proprio ambiente per requisiti specifici di sicurezza e governance dei dati. Verificare come installare i Contenitori voce.

Nuove funzionalità

Voce personalizzata: gli utenti sono abilitati a copiare un modello vocale da un'area a un'altra; è supportata la sospensione e la ripresa dell'endpoint. Andare al portale di Azure qui.
Supporto per il tag di silenzio SSML.
Miglioramenti generali della qualità della voce TTS: ottimizzata l'accuratezza della pronuncia a livello di parola in nb-NO. Riduzione dell'errore di pronuncia del 53%.

Per altre informazioni, vedere questo blog tecnico.

Versione di ottobre 2020

Nuove funzionalità

Jenny supporta un nuovo newscast stile. Vedere come usare gli stili di pronuncia in SSML.
Voci neurali aggiornate al vocoder HiFiNet, con maggiore fedeltà audio e velocità di sintesi più rapida. Questo avvantaggia i clienti il cui caso d'uso si basa su audio hi-fi o lunghe interazioni, incluse traduzioni video, audiolibri o materiali didattici online. Leggi di più sulla storia e ascolta i campioni vocali sul nostro blog della community tecnica
Voce personalizzata e Studio di creazione di contenuti audio localizzato in 17 località. Gli utenti possono passare facilmente tra l'interfaccia utente e una lingua locale, per un'esperienza più semplice.
Creazione di contenuto audio: aggiunta del controllo del grado di stile per XiaoxiaoNeural; perfezionata la funzionalità di interruzione personalizzata per includere interruzioni incrementali di 50 ms.

Miglioramenti generali della qualità vocale TTS

Miglioramento dell'accuratezza della pronuncia a livello di parola in pl-PL (riduzione della frequenza di errore: 51%) e in fi-FI (riduzione della frequenza di errore: 58%)
Miglioramento di lettura di singole parole ja-JP per lo scenario del dizionario. Riduzione dell'errore di pronuncia dell'80%.
zh-CN-XiaoxiaoNeural: miglioramento della qualità vocale dello stile sentiment/CustomerService/Newscast/Cheerful/Angry.
zh-CN: pronuncia dell'erhua migliorata, tonalità leggera e prosodia spaziale raffinata, che migliora notevolmente l'intelligibilità.

Versione di settembre 2020

Nuove funzionalità

Tecnologia di sintesi vocale neurale
- Esteso per supportare 18 nuove lingue/impostazioni locali. Si tratta di bulgaro, ceco, tedesco (Austria), tedesco (Svizzera), greco, inglese (Irlanda), francese (Svizzera), ebraico, croato, ungherese, indonesiano, malese, rumeno, slovacco, sloveno, tamil, telugu e vietnamita.
- Rilasciate 14 nuove voci per arricchire la varietà nelle lingue esistenti. Vedi l'elenco completo di lingue e voci.
- Nuovi stili di pronuncia per le voci en-US e zh-CN. Jenny, la nuova voce in inglese (Stati Uniti), supporta gli stili chatbot, servizio clienti e assistente. 10 nuovi stili di pronuncia sono disponibili con la nostra voce zh-CN, XiaoXiao. Inoltre, la voce neurale XiaoXiao supporta l'ottimizzazione StyleDegree. Vedere come usare gli stili di pronuncia in SSML.
Contenitori: il contenitore di sintesi vocale neurale è stato rilasciato in anteprima pubblica con 16 voci disponibili in 14 lingue. Altre informazioni su come distribuire i contenitori voce per la sintesi vocale neurale

Leggi l'annuncio completo degli aggiornamenti TTS per Ignite 2020

Versione di agosto 2020

Nuove funzionalità

Sintesi vocale neurale: nuovo stile di pronuncia per la voce Ariaen-US. AriaNeural può suonare come un presentatore di notizie durante la lettura delle notizie. Lo stile "notiziario-formale" risulta più serio, mentre lo stile "notiziario-informale" è più rilassato. Vedere come usare gli stili di pronuncia in SSML.
Voce personalizzata: viene rilasciata una nuova funzionalità per controllare automaticamente la qualità dei dati di training. Quando carichi i tuoi dati, il sistema esaminerà vari aspetti dei dati audio e del testo trascritto, e correggerà o filtrerà automaticamente i problemi per migliorare la qualità del modello vocale. Questo copre il volume del tuo audio, il livello di rumore dell'audio, l'accuratezza della pronuncia del parlato, l'allineamento del parlato con il testo normalizzato, il silenzio nell'audio, oltre al formato audio e dello script.
Creazione di contenuto audio: un set di nuove funzionalità per abilitare funzionalità di ottimizzazione vocale e gestione audio più potenti.
- Pronuncia: la funzionalità di ottimizzazione della pronuncia viene aggiornata al set fonema più recente. È possibile selezionare dalla libreria l'elemento fonema corretto e perfezionare la pronuncia delle parole selezionate.
- Download: la funzionalità audio "Download"/"Export" è stata migliorata per supportare la generazione di audio in base al paragrafo. È possibile modificare il contenuto nello stesso file/SSML, generando più output audio. Anche la struttura di file di "Download" è perfezionata. Ora, è possibile ottenere facilmente tutti i file audio in una cartella.
- Stato attività: l'esperienza di esportazione di più file è migliorata. In passato, quando si esportavano più file, se uno dei file dava errore, l'intera attività aveva esito negativo. Ma ora tutti gli altri file verranno esportati correttamente. Il report delle attività è arricchito con informazioni più dettagliate e strutturate. Ora con il report è possibile controllare i log per tutti i file e frasi non riusciti.
- Documentazione di SSML: collegato al documento SSML per aiutarti a verificare le regole su come utilizzare tutte le funzionalità di ottimizzazione.
L'API Elenco voci viene aggiornata per includere un nome visualizzato descrittivo e gli stili di pronuncia supportati per le voci neurali.

Miglioramenti generali della qualità vocale TTS

Riduzione della percentuale di errore di pronuncia a livello di parola per ru-RU (errori ridotti del 56%) e sv-SE (errori ridotti del 49%)
Miglioramento della lettura della parola in polifonia del 40% sulle voci neurali en-US. Esempi di parole inglesi in polifonia includono "read", "live", "content", "record", "object" e così via.
Migliorata la naturalezza del tono della domanda in fr-FR. Guadagno del punteggio MOS (Punteggio medio d'opinione): +0,28
Aggiornati i vocoder per le voci seguenti, con miglioramenti della fedeltà e velocità complessiva delle prestazioni del 40%.

Impostazioni locali Voce

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Impostazioni locali	Voce
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Correzioni di bug

Correzione di diversi bug con lo strumento Creazione di contenuto audio
- Correzione del problema relativo all'aggiornamento automatico.
- Correzione dei problemi relativi agli stili di voce in zh-CN nell'area dell’Asia sud-orientale.
- È stato risolto un problema di stabilità, incluso un errore di esportazione con il tag 'break' ed errori nella punteggiatura.

Rilascio di giugno 2025

Modello di valutazione della pronuncia migliorato

Sono stati implementati aggiornamenti significativi ai modelli di valutazione della pronuncia per ta-IN e ms-MY. Vedrai un salto evidente in Coefficienti di correlazione di Pearson (PCC), il che significa valutazioni più precise e affidabili.

Questi modelli aggiornati sono pronti per l'uso tramite l'API e il playground di Azure AI Foundry, proprio come in precedenza.

Miglioramento dei modelli di conversione da voce a testo

L'accuratezza dei modelli di riconoscimento vocale nella trascrizione rapida per le impostazioni locali de-DE, en-US, en-GB, es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR e zh-CN è migliorata rispettivamente del 10%-25% percento, in particolare con maggiore leggibilità e riconoscimento delle entità.

Rilascio di maggio 2025

Miglioramento dei modelli di conversione da voce a testo

L'accuratezza dei modelli di riconoscimento vocale per le impostazioni locali ta-IN, te-IN, en-IN e hu-HU è migliorata del 5-10%. Stimiamo anche una riduzione di 20 volte delle parole fantasma per i modelli ta-IN e te-IN.

API di trascrizione rapida - Trascrizione vocale multilingue

Per trascrivere contenuti multilingue in modo continuo e accurato in un file audio, è ora possibile usare il modello multilingue più recente senza specificare i codici delle impostazioni locali tramite l'API di trascrizione rapida. Per altre informazioni, vedere la trascrizione multilingue nella trascrizione rapida.

Nuove localizzazioni supportate nella trascrizione rapida

La trascrizione rapida supporta ora locali aggiuntive, tra cui fi-FI, he-IL, id-ID, pl-PL, pt-PT, sv-SEe così via. Per altre informazioni, vedere lingue supportate dal riconoscimento vocale.

Versione di aprile 2025

Valutazione della pronuncia

Siamo lieti di annunciare miglioramenti sostanziali ai modelli di valutazione della pronuncia per questi locali: de-DE, es-MX, it-IT, ja-JP, ko-KR, e pt-BR. Questi miglioramenti apportano miglioramenti significativi nei coefficienti di correlazione di Pearson (PCC), garantendo valutazioni più accurate e affidabili.

Come in precedenza, i modelli sono disponibili tramite l'API e il playground di Azure AI Foundry.

Versione di marzo 2025

Diarizzazione multicanale della trascrizione della conversazione (ritirata)

La diarizzazione multicanale della trascrizione della conversazione viene ritirata il 28 marzo 2025.

Per continuare a usare il riconoscimento vocale con la diarizzazione, usare invece le funzionalità seguenti:

Queste funzionalità di riconoscimento vocale supportano solo la diarizzazione per l'audio a canale singolo. L'audio multicanale usato con la diarizzazione multicanale della trascrizione della conversazione non è supportato.

Versione di gennaio 2025

Nuova funzionalità - Segmentazione semantica

Annuncio del rilascio di una nuova funzionalità: Segmentazione semantica. Questa funzionalità integra un modulo di punteggiatura all'interno del decodificatore che segmenta l'audio in base alle informazioni semantiche, ottenendo limiti di segmentazione più logici e precisi. Vantaggi principali:

Miglioramento dell'accuratezza della segmentazione: usando le informazioni semantiche, questa funzionalità riduce significativamente le istanze di segmenti lunghi causati dall'assenza di pause nell'audio di input.
Ridurre la latenza causata dalla sotto segmentazione: la latenza complessiva per il riconoscimento vocale è ridotta, con una riduzione del 40%-60% nella lunghezza del 5% più lungo dei segmenti.
Mitigazione dell'over-segmentation: questa funzionalità consente anche di evitare l'over-segmentazione ritardando la segmentazione quando è possibile creare una frase migliore.

Impostazioni locali supportate:

Inglese (en-US, en-GB)
Cinese (zh-CN, zh-HK)
Giapponese (ja-JP)
Coreano (ko-KR)
Tedesco (de-DE)
Francese (fr-FR)
Italiano (it-IT)
Spagnolo (es-ES, es-MX)
Hindi (hi-in)
Portoghese (pt-BR, pt-PT)
Turco (tr-TR)
Russo (ru-RU)
Thai (th-th)
Indonesiano (id-ID)

Per informazioni dettagliate sull'implementazione, vedere la documentazione: Come riconoscere il riconoscimento vocale nella sezione "Segmentazione semantica".

Trascrizione vocale in tempo reale - Nuova versione del modello inglese

Annuncio del rilascio del modello di riconoscimento vocale inglese più recente (en-US, en-CA), che offre miglioramenti sostanziali in varie metriche delle prestazioni. Di seguito sono riportate le principali evidenziazioni di questa versione:

Miglioramenti dell'accessibilità: è stata ottenuta una riduzione del 36% nella percentuale di errori di Word (WER) nei set di test di accessibilità interni di Microsoft, rendendo il riconoscimento vocale più accurato e affidabile per il riconoscimento vocale da parte di utenti con disabilità vocali.
Riduzione delle parole fantasma: una notevole riduzione del 90% delle parole fantasma nel set di sviluppo delle parole fantasma e riduzioni che vanno dal 63% al 100% in altri set di dati di parole fantasma, migliorando significativamente la chiarezza e l'accuratezza delle trascrizioni.

Il nuovo modello ha anche migliorato le prestazioni complessive, tra cui il riconoscimento delle entità e un migliore riconoscimento delle lettere con ortografia.

Questi progressi sono previsti per offrire un'esperienza più accurata, efficiente e soddisfacente per tutti gli utenti. Il nuovo modello è disponibile tramite l'API e il playground di Azure AI Foundry. Si incoraggia il feedback per migliorare ulteriormente le sue capacità.

Versione di novembre 2024

API REST riconoscimento vocale da testo versione 2024-11-15

L'API REST riconoscimento vocale versione 2024-11-15 viene rilasciata per la disponibilità generale. Per ulteriori informazioni, vedere la documentazione di riferimento REST API di riconoscimento vocale e la guida alla REST API di riconoscimento vocale.

Nota

L'API REST riconoscimento vocale versione 2024-05-15-preview è obsoleta.

Trascrizione rapida (GA)

La trascrizione rapida è ora generalmente disponibile tramite l'API REST speech to text versione 2024-11-15. La trascrizione rapida consente di trascrivere il file audio in testo in modo preciso e sincrono, con un'elevata velocità. Può trascrivere l'audio più velocemente della durata effettiva dell'audio. Per altre informazioni, vedere la guida all'API di Trascrizione rapida.

Versione di ottobre 2024

Riconoscimento vocale in tempo reale (bilingue)

Sono stati apportati miglioramenti significativi alla qualità del riconoscimento dei termini spagnoli brevi tramite i es-US modelli bilingue. Il modello è bilingue e supporta anche l'inglese. Anche la qualità del riconoscimento inglese è migliorata.

Traduzione video (anteprima)

L'API di traduzione video è ora disponibile in anteprima pubblica. Per ulteriori informazioni, vedere Come utilizzare la traduzione video.

Versione di settembre 2024

Riconoscimento vocale in tempo reale

Il riconoscimento vocale in tempo reale ha rilasciato nuovi modelli, con una migliore qualità, per le lingue seguenti.

fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ

Trascrizione rapida (anteprima)

La trascrizione rapida ora supporta la diarizzazione per riconoscere e separare più parlanti in un file audio a canale mono. Per altre informazioni, vedere la guida all'API Trascrizione rapida.

Versione di agosto 2024

Language Learning (anteprima)

L'apprendimento linguistico è ora disponibile in anteprima pubblica. L'apprendimento interattivo del linguaggio può rendere l'esperienza di apprendimento più coinvolgente ed efficace. Per altre informazioni, vedere Apprendimento linguistico interattivo con la valutazione della pronuncia.

Valutazione della pronuncia

La valutazione della pronuncia ora supporta 33 lingue disponibili genericamente, e ogni lingua è disponibile in tutte le regioni di trascrizione del parlato. Per altre informazioni, vedere elenco completo della lingua per la valutazione della pronuncia.

Lingua	Impostazioni locali (BCP-47)
Arabo (Egitto)	`ar-EG`
Arabo (Arabia Saudita)	`ar-SA`
Catalano	`ca-ES`
Cinese (cantonese, tradizionale)	`zh-HK`
Cinese (mandarino, semplificato)	`zh-CN`
Cinese (Mandarino taiwanese, tradizionale)	`zh-TW`
Danese (Danimarca)	`da-DK`
Olandese (Paesi Bassi)	`nl-NL`
Inglese (Australia)	`en-AU`
Inglese (Canada)	`en-CA`
Inglese (India)	`en-IN`
Inglese (Regno Unito)	`en-GB`
Inglese (Stati Uniti)	`en-US`
Finlandese (Finlandia)	`fi-FI`
Francese (Canada)	`fr-CA`
Francese (Francia)	`fr-FR`
Tedesco (Germania)	`de-DE`
Hindi (India)	`hi-IN`
Italiano (Italia)	`it-IT`
Giapponese (Giappone)	`ja-JP`
Coreano (Corea)	`ko-KR`
Malese (Malaysia)	`ms-MY`
Norvegese Bokmål (Norvegia)	`nb-NO`
Polacco (Polonia)	`pl-PL`
Portoghese (Brasile)	`pt-BR`
Portoghese (Portogallo)	`pt-PT`
Russo (Russia)	`ru-RU`
Spagnolo (Messico)	`es-MX`
Spagnolo (Spagna)	`es-ES`
Svedese (Svezia)	`sv-SE`
Tamil (India)	`ta-IN`
Thai (Tailandia)	`th-TH`
Vietnamita (Vietnam)	`vi-VN`

Versione di luglio 2024

API di Trascrizione rapida (anteprima)

Trascrizione rapida è ora disponibile in anteprima pubblica. La trascrizione rapida consente di trascrivere il file audio in testo in modo preciso e sincrono, con un'elevata velocità. Può trascrivere l'audio più velocemente della durata effettiva dell'audio. Per altre informazioni, vedere la guida all'API di Trascrizione rapida.

Suggerimento

Provare la trascrizione rapida nel portale di Azure AI Foundry.

Versione di giugno 2024

Disponibilità generale dell'API REST da voce a testo v3.2

La versione 3.2 dell'API REST Riconoscimento vocale ora è in disponibilità generale. Per altre informazioni sull'API REST Riconoscimento vocale v3.2, vedere la documentazione di riferimento dell'API REST Riconoscimento vocale v3.2 e la guida all'API REST Riconoscimento vocale.

Nota

Le versioni di anteprima 3.2-preview.1 e 3.2-preview.2 vengono ritirati a partire da settembre 2024.

La data di ritiro dell'API REST trascrizione vocale v3.1 sarà annunciata. L'API REST "Da voce a testo" v3.0 verrà dismessa il 31 marzo 2026. Per altre informazioni sull'aggiornamento, vedere le guide alla migrazione dell'API REST Da testo a voce v3.0 a v3.1 e v3.1 a v3.2.

Versione di maggio 2024

Traduzione video (anteprima)

Traduzione video è ora disponibile in anteprima pubblica. Traduzione video è una funzionalità in Voce di Azure AI che consente di tradurre e generare video con facilità in più lingue automaticamente. Questa funzionalità è progettata per facilitare la localizzazione dei contenuti video allo scopo di soddisfare diversi gruppi di spettatori in tutto il mondo. È possibile creare video immersivi e localizzati per vari casi d'uso, ad esempio vlog, formazione, notizie, formazione aziendale, pubblicità, film, programmi televisivi e altro ancora. Per altre informazioni, vedere la panoramica della traduzione video.

Valutazione della pronuncia

Valutazione della pronuncia di Voce supporta ora 24 lingue disponibili a livello generale (una lingua in più), con 7 lingue aggiuntive disponibili in anteprima pubblica. Per altre informazioni, vedere elenco completo della lingua per la valutazione della pronuncia.

Versione di aprile 2024

Traduzione vocale multilingue automatica (anteprima)

La traduzione vocale multilingue automatica è disponibile in anteprima pubblica. Questa innovativa funzionalità rivoluziona il modo in cui vengono superate le barriere linguistiche, offrendo funzionalità ineguagliabili per facilitare la comunicazione in diversi contesti linguistici.

Elementi principali in evidenza

Lingua di input non specificata: la traduzione vocale multilingue può ricevere audio in un'ampia gamma di lingue e non è necessario specificare la lingua di input prevista. Questa è quindi una funzionalità preziosa per comprendere e collaborare in contesti globali senza bisogno di impostazioni preliminari.
Cambio di lingua: la traduzione vocale multilingue consente di parlare in più lingue durante la stessa sessione e di tradurle tutte nella stessa lingua di destinazione. Non è necessario riavviare una sessione quando cambia la lingua di input o l’utente intraprende una qualsiasi altra azione.

Funzionamento

Interprete di viaggio: la traduzione vocale multilingue può migliorare l'esperienza dei turisti che visitano destinazioni straniere fornendo loro informazioni e assistenza nella lingua preferita. I servizi concierge degli hotel, i tour guidati e i centri visitatori possono utilizzare questa tecnologia per soddisfare esigenze linguistiche diverse.
Conferenze internazionali: la traduzione vocale multilingue può facilitare la comunicazione tra partecipanti provenienti da diverse aree geografiche che potrebbero parlare lingue diverse usando sottotitoli tradotti in tempo reale. I partecipanti possono parlare nelle loro lingue native senza doverle specificare e senza alcun impatto negativo sulla comprensione e la collaborazione.
Riunioni didattiche: in classi multi-culturali o ambienti di apprendimento online la traduzione vocale multilingue può supportare la diversità linguistica tra studenti e insegnanti. Consente a studenti o docenti di comunicare e partecipare senza il bisogno di specificare la lingua usata.

Modalità di accesso

Per un'introduzione dettagliata, vedere Panoramica della traduzione vocale. È anche possibile fare riferimento agli esempi di codice in Come tradurre il parlato. Questa nuova funzionalità è integralmente supportata da tutte le versioni dell'SDK a partire dalla versione 1.37.0.

Riconoscimento vocale in tempo reale con diarizzazione (disponibilità generale)

Il riconoscimento vocale in tempo reale con diarizzazione è ora disponibile a livello generale.

È possibile creare applicazioni di riconoscimento vocale che usano la diarizzazione per distinguere tra i diversi parlanti che partecipano alla conversazione. Per altre informazioni sulla diarizzazione in tempo reale, vedere la guida introduttiva alla diarizzazione in tempo reale.

Aggiornamento del modello di riconoscimento vocale

Riconoscimento vocale in tempo reale ha rilasciato nuovi modelli con funzionalità bilingue. Il modello en-IN supporta ora scenari bilingue sia in inglese sia in hindi e offre una maggiore accuratezza. Le impostazioni locali arabe (ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, ar-OM, ar-PS, ar-QA, ar-SA, ar-SY, ar-TN, ar-YE) offrono ora un supporto bilingue per l’inglese, una maggiore accuratezza e il supporto per i call center.

La trascrizione in batch fornisce modelli con una nuova architettura per queste impostazioni locali: es-ES, es-MX, fr-FRit-IT, ja-JPko-KR, pt-BR e zh-CN. Questi modelli migliorano significativamente la leggibilità e il riconoscimento delle entità.

Versione di marzo 2024

Disponibilità generale di Whisper

Il modello di conversione del parlato in testo Whisper con Azure AI Speech è ora generalmente disponibile.

Vedere Che cos'è il modello Whisper? per altre informazioni su quando usare Riconoscimento vocale di Intelligenza artificiale di Azure e Azure OpenAI nei modelli di Azure AI Foundry.

Versione di febbraio 2024

Valutazione della pronuncia

Valutazione della pronuncia ora supporta 23 lingue generalmente disponibili (con l'aggiunta di 5 nuove lingue) e 3 lingue aggiuntive disponibili in anteprima pubblica. Per altre informazioni, vedere elenco completo della lingua per la valutazione della pronuncia.

Elenco di frasi

Aggiunta del supporto dell'elenco di frasi per le impostazioni locali seguenti: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Versione di novembre 2023

Introduzione alla modellazione del parlato bilingue!

Siamo entusiasti di presentare un'aggiunta rivoluzionaria alla nostra modellazione del parlato in tempo reale: la modellazione voce bilingue. Questo miglioramento significativo consente al modello vocale di supportare senza problemi coppie bilingui, ad esempio inglese e spagnolo, nonché inglese e francese. Questa funzionalità consente agli utenti di passare facilmente tra le lingue durante le interazioni in tempo reale, segnando un momento fondamentale nel nostro impegno a migliorare le esperienze di comunicazione.

Elementi chiave:

Supporto bilingue: con la versione più recente, gli utenti possono passare facilmente dall'inglese allo spagnolo o dall'inglese al francese, in tempo reale, durante le interazioni vocali. Questa funzionalità è personalizzata per ospitare i parlanti bilingue che spesso passano tra queste due lingue.
Esperienza utente migliorata: i relatori bilingue, sia al lavoro, a casa o in diversi scenari della community, troveranno questa funzionalità immensamente vantaggiosa. La capacità del modello di comprendere e rispondere sia all'inglese sia allo spagnolo in tempo reale apre nuove possibilità di comunicazione efficace e fluida.

Uso:

Scegli es-US (spagnolo e inglese) o fr-CA (francese e inglese) quando chiami l'API del Servizio vocale o la provi in Speech Studio. È possibile parlare liberamente una lingua o combinarle: il modello è progettato per adattarsi in modo dinamico, fornendo risposte accurate e con riconoscimento del contesto in entrambe le lingue.

È il momento di portare la comunicazione a un livello superiore grazie alle funzionalità più recenti: comunicazione multilingue e intuitiva a portata di mano!

Aggiornamento dei modelli Speech-to-Text

Siamo lieti di introdurre un aggiornamento significativo dei modelli conversione voce/testo, in grado di restituire accuratezza avanzata, migliore leggibilità e raffinato riconoscimento delle entità. Questo aggiornamento include una nuova struttura solida, sostenuta da un set di dati di training esteso che garantisce un marcato miglioramento delle prestazioni complessive. Include nuovi modelli rilasciati per en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE e he-IL.

Elementi in evidenza:

Maggiore accuratezza con la nuova struttura del modello: è ridefinita e abbinata a un set di dati di training più completo, con elevati i livelli di accuratezza e un output parlato più preciso.
Miglioramento della leggibilità: il nostro modello più recente offre un notevole impulso alla leggibilità, migliorando la coerenza e la chiarezza del contenuto parlato.
Riconoscimento avanzato delle entità: il riconoscimento entità riceve un aggiornamento sostanziale, ottenendo risultati più accurati e sfumati.

Potenziali impatti: nonostante questi progressi, è fondamentale tenere conto dei potenziali impatti:

Funzionalità di timeout dei silenzi personalizzati: gli utenti che usano timeout di silenzio personalizzato, in particolare con impostazioni basse, potrebbero riscontrare over-segmentation e potenziali omissioni di frasi a parola singola.
Il nuovo modello potrebbe presentare problemi di compatibilità con la funzionalità Prefisso parola chiave e gli utenti sono invitati a valutare le prestazioni nelle applicazioni specifiche.
Riduzione delle parole o frasi di disfluenza: gli utenti potrebbero notare una riduzione delle parole o delle frasi di disfluenza come "um" o "uh" nell'output vocale.
Imprecisioni nella durata del timestamp delle parole: alcune parole di disfluenza potrebbero mostrare imprecisioni nella durata del timestamp, e richiedono attenzione nelle applicazioni dipendenti da tempi precisi.
Varianza della distribuzione del punteggio di attendibilità: gli utenti che si basano sui punteggi di attendibilità e sulle soglie associate devono essere consapevoli delle potenziali variazioni nella distribuzione, richiedendo regolazioni per prestazioni ottimali.
Il miglioramento dell'accuratezza della funzionalità dell'elenco di frasi potrebbe subire impatti dalla mancata conoscenza di determinate frasi.

Ti invitiamo a esplorare questi miglioramenti e a considerare i potenziali problemi per una transizione senza problemi e, come sempre, il tuo feedback è fondamentale per perfezionare e promuovere i nostri servizi.

Valutazione della pronuncia

Valutazione della pronuncia del parlato supporta ora 18 lingue disponibili a livello generale, con sei lingue disponibili in anteprima pubblica. Per altre informazioni, vedere elenco completo della lingua per la valutazione della pronuncia.
Siamo lieti di annunciare che in Valutazione della pronuncia saranno introdotte nuove funzionalità a partire dal 1° novembre 2023: Prosodia, Grammatica, Vocabolario e Argomento. Questi miglioramenti puntano a offrire un'esperienza di apprendimento linguistico ancora più completa per le valutazioni sia di lettura che di parlato. Eseguire l'aggiornamento all'SDK versione 1.35.0 o successiva per esplorare altri dettagli in Come usare la valutazione della pronuncia e Valutazione della pronuncia in Speech Studio.

Versione di settembre 2023

Anteprima pubblica di Whisper

Azure AI Speech supporta ora il modello Whisper di OpenAI tramite l'API di trascrizione batch. Per altre informazioni, vedere la guida Creare una trascrizione batch.

Nota

Azure OpenAI supporta anche il modello Whisper di OpenAI per la sintesi vocale con un'API REST sincrona. Per altre informazioni, vedere guida introduttiva.

Vedere Che cos'è il modello Whisper? per altre informazioni su quando usare Riconoscimento vocale di Intelligenza artificiale di Azure e Azure OpenAI.

Anteprima pubblica di API REST di riconoscimento vocale v3.2

L'API REST Riconoscimento vocale v3.2 è disponibile in anteprima. API REST di riconoscimento vocale v3.1 è disponibile per uso generale. L'API REST "Da voce a testo" v3.0 verrà dismessa il 31 marzo 2026. Per altre informazioni, vedere le guide alla migrazione dell'API REST Riconoscimento vocale v3.0 a v3.1 e v3.1 alla v3.2.

Versione di agosto 2023

Nuove impostazioni locali per Riconoscimento vocale:

Riconoscimento vocale supporta due nuove impostazioni locali, come illustrato nella tabella seguente. Fare riferimento all'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`pa-IN`	Punjabi (India)
`ur-IN`	Urdu (India)

Valutazione della pronuncia

Valutazione della pronuncia ora supporta 3 lingue aggiuntive generalmente disponibili per l'inglese (Canada), l'inglese (India) e il francese (Canada), con 3 lingue aggiuntive disponibili in anteprima. Per altre informazioni, vedere elenco completo della lingua per la valutazione della pronuncia.

Versione di maggio 2023

Valutazione della pronuncia

Valutazione della pronuncia vocale ora supporta 3 lingue aggiuntive disponibili al pubblico: tedesco (Germania), giapponese (Giappone) e spagnolo (Messico), con altre 4 lingue disponibili in anteprima. Per altre informazioni, vedere elenco completo della lingua per la valutazione della pronuncia.
È ora possibile usare il livello di impegno per il riconoscimento vocale standard per la valutazione della pronuncia in tutte le aree pubbliche. Se si acquista un livello di impegno per il riconoscimento vocale standard, la spesa per la valutazione della pronuncia va verso il raggiungimento dell'impegno. Vedere prezzi del livello di impegno.

Versione di febbraio 2023

Valutazione della pronuncia

Valutazione della pronuncia ora supporta 5 lingue aggiuntive disponibili in modo generale in inglese (Regno Unito), inglese (Australia), francese (Francia), spagnolo (Spagna) e cinese (mandarino, semplificato), con altre lingue disponibili in modalità anteprima.
Sono stati aggiunti codici di esempio che illustrano come usare la valutazione della pronuncia in modalità di streaming nella propria applicazione.
- C#: vedere il codice di esempio.
- C++: vedere il codice di esempio.
- Java: vedere il codice di esempio.
- JavaScript: vedere il codice di esempio.
- Objective-C: vedere il codice di esempio.
- Python: vedere il codice di esempio.
- Swift: vedere il codice di esempio.

Voce personalizzata

Per le impostazioni locali de-AT viene aggiunto il supporto per la trascrizione con etichetta audio e umana.

Versione di gennaio 2023

Voce personalizzata

Il supporto per la trascrizione con etichetta audio e umana viene aggiunto per impostazioni locali aggiuntive: ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YE e ja-JP.

Il supporto per l'adattamento di testo strutturato viene aggiunto per le impostazioni locali de-AT.

Versione di dicembre 2022

API REST di riconoscimento vocale

API REST Riconoscimento vocale versione 3.1 è in disponibilità generale. La versione 3.0 dell'API REST Riconoscimento vocale verrà ritirata. Per altre informazioni su come eseguire la migrazione, vedere la guida.

Versione di ottobre 2022

Nuove impostazioni locali per il riconoscimento vocale

Aggiunta del supporto per Malayalam (India) con le impostazioni locali ml-IN. Vedere l'elenco completo delle lingue qui.

Versione di luglio 2022

Nuove impostazioni locali per Riconoscimento vocale:

Sono stati aggiunti 7 nuovi locali, come illustrato nella tabella seguente. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`bs-BA`	Bosniaco (Bosnia ed Erzegovina)
`yue-CN`	Cinese (Cantonese, semplificato)
`zh-CN-sichuan`	Cinese (mandarino sud-occidentale, semplificato)
`wuu-CN`	Cinese (Wu, semplificato)
`ps-AF`	Pashto (Afghanistan)
`so-SO`	Somalo (Somalia)
`cy-GB`	Gallese (Regno Unito)

Versione di giugno 2022

Nuove impostazioni locali per Riconoscimento vocale:

Aggiunta di 10 nuove impostazioni locali, come illustrato nella tabella seguente. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`sq-AL`	Albanese (Albania)
`hy-AM`	Armeno (Armenia)
`az-AZ`	Azerbaigiano (Azerbaigian)
`eu-ES`	Basco
`gl-ES`	Galiziano
`ka-GE`	Lingua georgiana (Georgia)
`it-CH`	Italiano (Svizzera)
`kk-KZ`	Kazako (Kazakhstan)
`mn-MN`	Mongolo (Mongolia)
`ne-NP`	Nepalese (Nepal)

Versione di aprile 2022

Nuove impostazioni locali per Riconoscimento vocale:

Di seguito è riportato un elenco delle nuove località. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`bn-IN`	Bengalese (India)

Versione di gennaio 2022

Nuove impostazioni locali per Riconoscimento vocale:

Di seguito è riportato un elenco delle nuove località. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`af-ZA`	Afrikaans (Sud Africa)
`am-ET`	Amarico (Etiopia)
`de-CH`	Tedesco (Svizzera)
`fr-BE`	Francese (Belgio)
`is-IS`	Islandese (Islanda)
`jv-ID`	Giavanese (Indonesia)
`km-KH`	Khmer (Cambogia)
`kn-IN`	Kannada (India)
`lo-LA`	Lao (Laos)
`mk-MK`	Macedone (Macedonia del Nord)
`my-MM`	Birmano (Myanmar)
`nl-BE`	Olandese (Belgio)
`si-LK`	Singalese (Sri Lanka)
`sr-RS`	Serbo (Serbia)
`sw-TZ`	Swahili (Tanzania)
`uk-UA`	Ucraino (Ucraina)
`uz-UZ`	Uzbeco (Uzbekistan)
`zu-ZA`	Zulu (Sudafrica)

Versione di luglio 2021

Nuove impostazioni locali per Riconoscimento vocale:

Di seguito è riportato un elenco delle nuove località. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`ar-DZ`	Arabo (Algeria)
`ar-LY`	Arabo (Libia)
`ar-MA`	Arabo (Marocco)
`ar-TN`	Arabo (Tunisia)
`ar-YE`	Arabo (Yemen)
`bg-BG`	Bulgaro (Bulgaria)
`el-GR`	Greco (Grecia)
`et-EE`	Estone (Estonia)
`fa-IR`	Persiano (Iran)
`ga-IE`	Irlandese (Irlanda)
`hr-HR`	Croato (Croazia)
`lt-LT`	Lituano (Lituania)
`lv-LV`	Lettone (Lettonia)
`mt-MT`	Maltesi (Malta)
`ro-RO`	Romeno (Romania)
`sk-SK`	Slovacco (Slovacchia)
`sl-SI`	Sloveno (Slovenia)
`sw-KE`	Swahili (Kenya)

Versione di gennaio 2021

Nuove impostazioni locali per Riconoscimento vocale:

Di seguito è riportato un elenco delle nuove località. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`ar-AE`	Arabo (Emirati Arabi Uniti)
`ar-IL`	Arabo (Israele)
`ar-IQ`	Arabo (Iraq)
`ar-OM`	Arabo (Oman)
`ar-PS`	Arabo (Autorità Nazionale Palestinese)
`de-AT`	Tedesco (Austria)
`en-GH`	Inglese (Ghana)
`en-KE`	Inglese (Kenya)
`en-NG`	Inglese (Nigeria)
`en-TZ`	Inglese (Tanzania)
`es-GQ`	Spagnolo (Guinea Equatoriale)
`fil-PH`	Filippino (Filippine)
`fr-CH`	Francese (Svizzera)
`he-IL`	Ebraico (Israele)
`id-ID`	Indonesiano (Indonesia)
`ms-MY`	Malese (Malaysia)
`vi-VN`	Vietnamita (Vietnam)

Versione di agosto 2020

Nuove impostazioni locali per il riconoscimento vocale:

Il riconoscimento vocale ha rilasciato 26 nuove impostazioni locali in agosto: 2 lingue europee cs-CZ e hu-HU, 5 impostazioni locali inglesi e 19 impostazioni locali spagnole che coprono la maggior parte dei paesi/aree del Sudamerica. Di seguito è riportato un elenco delle nuove località. Vedere l'elenco completo delle lingue qui.

Impostazioni locali	Lingua
`cs-CZ`	Ceco (Repubblica Ceca)
`en-HK`	Inglese (Regione amministrativa speciale di Hong Kong)
`en-IE`	Inglese (Irlanda)
`en-PH`	Inglese (Filippine)
`en-SG`	Inglese (Singapore)
`en-ZA`	Inglese (Sudafrica)
`es-AR`	Spagnolo (Argentina)
`es-BO`	Spagnolo (Bolivia)
`es-CL`	Spagnolo (Cile)
`es-CO`	Spagnolo (Colombia)
`es-CR`	Spagnolo (Costa Rica)
`es-CU`	Spagnolo (Cuba)
`es-DO`	Spagnolo (Repubblica Dominicana)
`es-EC`	Spagnolo (Ecuador)
`es-GT`	Spagnolo (Guatemala)
`es-HN`	Spagnolo (Honduras)
`es-NI`	Spagnolo (Nicaragua)
`es-PA`	Spagnolo (Panama)
`es-PE`	Spagnolo (Perù)
`es-PR`	Spagnolo (Porto Rico)
`es-PY`	Spagnolo (Paraguay)
`es-SV`	Spagnolo (El Salvador)
`es-US`	Spagnolo (USA)
`es-UY`	Spagnolo (Uruguay)
`es-VE`	Spagnolo (Venezuela)
`hu-HU`	Ungherese (Ungheria)

Versione di maggio 2025

Aggiungere il supporto per le versioni più recenti del modello:

Sintesi vocale neurale 3.10.0

Per la sintesi vocale:

Aggiornato il motore di sintesi vocale back-end e front-end alle versioni più recenti.
Aggiunta del supporto per lessico personalizzato multilingue.
Miglioramento della funzionalità di controllo dello stato di salute. L'endpoint di controllo dell'integrità è ora /synthesize/health. Quando il servizio è integro, questo endpoint restituisce lo stato HTTP 200; se il servizio non è integro, restituisce lo stato HTTP 503.
Aggiornata l'immagine di base ad AspNet 8.0.16 per risolvere le vulnerabilità di sicurezza individuate nell'aggiornamento di sicurezza Microsoft ASP.NET Core di marzo/aprile 2025.

Rilascio di marzo 2025

Aggiungere il supporto per le versioni più recenti del modello:

Sintesi vocale neurale 3.9.0
Da voce a testo 5.0.1 (Anteprima)
Riconoscimento vocale personalizzato 5.0.1 (anteprima)

Per il riconoscimento vocale e la sintesi vocale personalizzata, sono incluse le funzionalità seguenti:

Supporto per i nuovi modelli di riconoscimento vocale
Cambio del sistema operativo ad Azure Linux 3.0
Supporto per le nuove impostazioni locali: ar-dz, as-in, es-gq or-in, pa-in e ur-in
Aggiornamento del decodificatore
Possibilità di usare modelli personalizzati più recenti (2023+) nel contenitore

Per la sintesi vocale, è stato aggiunto il supporto per le nuove voci neurali: en-GB-OliviaNeurale en-US-ChristopherNeuralnl-NL-FennaNeural.

Versione di febbraio 2025

Aggiungere il supporto per le versioni più recenti del modello:

Identificazione della lingua vocale 1.18.0
Sintesi vocale neurale 3.7.0
Riconoscimento vocale 4.12.0
Conversione da voce a testo personalizzata 4.12.0

Qui ci sono i punti salienti dei rilasci:

Aggiornamento delle funzionalità	Riconoscimento vocale	Riconoscimento vocale personalizzato	Sintesi vocale neurale	Identificazione della lingua per il servizio Voce
Correzioni di vulnerabilità	✅	✅	✅	✅
Sistema operativo migrato da Ubuntu 20.04 a Ubuntu 22.04	✅	✅	✅	✅
Nuove impostazioni locali: ar-ly, fr-be, nl-be e uz-uz	✅	✅
Pacchetti NuGet aggiornati, versione go	✅	✅
Aggiunta della parallelizzazione del download del modello per ridurre il tempo di download del modello	✅	✅	✅

Versione di ottobre 2024

Aggiungere il supporto per le versioni più recenti del modello:

Identificazione della lingua vocale 1.16.0
Sintesi vocale neurale 3.5.0
- Impostare en-us-ariacpuneural un alias su en-us-jessacpuneural
- Aggiornare il testo alla versione del motore back-end di riconoscimento vocale
Riconoscimento vocale 4.10.0
- Ripristina il supporto per le impostazioni locali uk-UA
- Correggere le impostazioni di silenzio per funzionare con lunghi periodi di silenzio nell'audio
- Sostituire i modelli deprecati: cs-CZ, da-DK, en-GB, fr-CA, hu-HUit-CH, , tr-TRzh-CN-sichuan
Riconoscimento vocale personalizzato 4.10.0

Versione di settembre 2024

Aggiungere il supporto per le versioni più recenti del modello:

Identificazione della lingua per il servizio Voce 1.15.0
- Attenuare le vulnerabilità
Sintesi vocale neurale 3.4.0
- Nuove voci: en-us-andrewmultilingualneural, en-us-jessaneural, es-us-alonsoneural, es-us-palomaneural, it-it-isabellamultilingualneural
- Attenuare le vulnerabilità
Trascrizione vocale in testo 4.9.0
- Nuove impostazioni locali: ar-YE, af-ZA, am-ET, ar-MA, ar-TN, sw-KE, sw-TZ, zu-ZA
- Attenuare le vulnerabilità
- Aggiornare i modelli deprecati
Conversione vocale personalizzata da voce a testo 4.9.0
- Attenuare le vulnerabilità

Versione di agosto 2024

Aggiungere il supporto per le versioni più recenti del modello:

Identificazione della lingua parlata 1.14.0
- Aggiornare .Net 8.0
- Attenuare le vulnerabilità
Sintesi vocale neurale 3.3.0
- Aggiornare .Net 8.0
- Attenuare le vulnerabilità
Riconoscimento vocale 4.8.0
- Aggiornare .Net 8.0
- Attenuare le vulnerabilità
- Aggiornare il motore di riconoscimento
- Risolvere il problema per cui PropertyId.Speech_SegmentationSilenceTimeoutMs è stato ignorato.
- Aggiornare i modelli deprecati
- Rimuovere le impostazioni locali uk-UA

Rilascio di febbraio 2024

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 4.6.0
Riconoscimento vocale 4.6.0
Sintesi vocale neurale 3.1.0

Aggiornare i componenti di riconoscimento vocale alla versione più recente. Aggiornare tutti i modelli di impostazioni locali es alla versione più recente. Aumentare il buffer di trasformazione di file multimediali per i casi d'uso del riconoscimento vocale.

Versione di novembre 2023

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 4.5.0
Riconoscimento vocale 4.5.0
Sintesi vocale neurale 2.19.0

Versione di ottobre 2023

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 4.4.0
Da discorso a testo 4.4.0
Sintesi vocale neurale 2.18.0

Risolvere una serie di problemi di vulnerabilità ad alto rischio.

Rimuovere i registri ridondanti nei contenitori.

Aggiornare il componente media interno alla versione più recente.

Aggiungere il supporto per la voce en-IN-NeerjaNeural.

Versione di settembre 2023

Aggiungere il supporto per le versioni più recenti del modello:

Identificazione della lingua per la voce 1.12.0
Conversione personalizzata da voce a testo 4.3.0
Conversione da voce a testo 4.3.0
Sintesi vocale neurale 2.17.0

Aggiornare il riconoscimento vocale personalizzato al testo e il riconoscimento vocale al framework più recente.

Risolvere i problemi di vulnerabilità.

Aggiungere il supporto per la voce ar-AE-FatimaNeural.

Versione di luglio 2023

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 4.1.0
Da voce a testo 4.1.0
Sintesi vocale neurale 2.15.0

Consente di risolvere il problema dell'esecuzione di un contenitore di riconoscimento vocale in esecuzione tramite le opzioni di montaggio docker con file di modelli personalizzati locali.

Consente di risolvere il problema per cui talvolta l'evento RECOGNIZING non viene visualizzato in risposta tramite Speech SDK.

Risolvere i problemi di vulnerabilità.

Versione di giugno 2023

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 4.0.0
Riconoscimento vocale 4.0.0
Sintesi vocale neurale 2.14.0

Le immagini per il riconoscimento vocale locale sono aggiornate a .NET 6.0

Aggiornare i modelli di visualizzazione per le impostazioni locali, compresi en-us, ar-eg, ar-bh, ja-jp, ko-kr e altri.

Aggiornare il componente contenitore di riconoscimento vocale per risolvere i problemi di vulnerabilità.

Aggiungere il supporto per le voci delle impostazioni locali de-DE-AmalaNeural,de-AT-IngridNeuralde-AT-JonasNeural e en-US-JennyMultilingualNeural

Versione di maggio 2023

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.14.0
Riconoscimento vocale 3.14.0
Sintesi vocale neurale 2.13.0

Risolvere il problema di punteggiatura he-IL

Risolvere i problemi di vulnerabilità

Aggiungere una nuova voce locale en-US-MichelleNeural e es-MX-CandelaNeural

Versione di aprile 2023

Aggiornamenti per la sicurezza

Risolvere i problemi di vulnerabilità

Versione di marzo 2023

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.12.0
Riconoscimento vocale 3.12.0
Identificazione della lingua per voce 1.11.0
Sintesi vocale neurale 2.11.0

Risolvere i problemi di vulnerabilità

Risolvere il problema di capitalizzazione tr-TR

Aggiornare il riconoscimento vocale ai modelli di visualizzazione del testo en-US

Aggiungere il supporto per la ar-AE-HamdanNeural voce standard.

Versione di febbraio 2023

Nuove versioni di contenitore

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.11.0
Riconoscimento vocale 3.11.0
Sintesi vocale neurale 2.10.0

Risolvere i problemi di vulnerabilità

Aggiornamento regolare per i modelli conversione voce/testo

Aggiungere nuove impostazioni locali per arabo:

ar-IL
ar-PS

Aggiornare i modelli di visualizzazione per ebraico e turco

Versione di gennaio 2023

Nuove versioni di contenitore

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.10.0
Riconoscimento vocale 3.10.0
Sintesi vocale neurale 2.9.0

Correzione del problema relativo alla modalità ipotesi

Correzione del problema del proxy HTTP

Contenitore riconoscimento vocale personalizzato in modalità disconnessa

Aggiungere il supporto per contenitori disconnessi CNV al front-end TTS

Aggiungere il supporto per queste voci di impostazioni locali:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Versione di dicembre 2022

Nuove versioni di contenitore

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.9.0
Riconoscimento vocale 3.9.0
Sintesi vocale neurale 2.8.0

Correzione del problema ipv4/ipv6

Risolvere il problema di vulnerabilità

Versione di novembre 2022

Nuove versioni di contenitore

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.8.0
Riconoscimento vocale 3.8.0
Sintesi vocale neurale 2.7.0

Versione di ottobre 2022

Nuove versioni di contenitore

Aggiungere il supporto per le versioni più recenti del modello:

Riconoscimento vocale personalizzato 3.7.0
Riconoscimento vocale 3.7.0
Sintesi vocale neurale 2.6.0

Versione di settembre 2022

Riconoscimento vocale 3.6.0-amd64

Aggiungere il supporto per le versioni più recenti del modello.

Aggiungere il supporto per queste impostazioni locali:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

Aggiornamenti mensili regolari, inclusi gli aggiornamenti della sicurezza e le correzioni delle vulnerabilità.

Riconoscimento vocale personalizzato 3.6.0-amd64

Aggiornamenti mensili regolari, inclusi gli aggiornamenti della sicurezza e le correzioni delle vulnerabilità.

Sintesi vocale neurale v2.5.0

Aggiungere il supporto per queste voci standard:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Aggiornamenti mensili regolari, inclusi gli aggiornamenti della sicurezza e le correzioni delle vulnerabilità.

Versione di maggio 2022

Contenitore di rilevamento del linguaggio vocale v1.9.0-amd64-preview

Correzioni di bug per il rilevamento della lingua parlata.

Versione di marzo 2022

Contenitore riconoscimento vocale personalizzato v3.1.0

Aggiungere il supporto per ottenere modelli di visualizzazione.

Versione di gennaio 2022

Contenitore riconoscimento vocale v3.0.0

Aggiungere il supporto per l'uso di contenitori in ambienti disconnessi.

Contenitore riconoscimento vocale v2.18.0

Aggiornamenti mensili regolari, inclusi gli aggiornamenti della sicurezza e le correzioni delle vulnerabilità.

Contenitore neurale-sintesi vocale neurale v1.12.0

Aggiungere il supporto per queste voci standard: am-et-amehaneural, am-et-mekdesneural, so-so-muuseneurale so-so-ubaxneural.

Aggiornamenti mensili regolari, inclusi gli aggiornamenti della sicurezza e le correzioni delle vulnerabilità.

Condividi tramite

Cosa c'è di nuovo in Azure AI per i servizi vocali?

Evidenziazioni recenti

Note sulla versione

Speech SDK 1.44: versione di maggio 2025

Nuove funzionalità:

Correzioni di bug

Esempi

SDK del riconoscimento vocale per JavaScript

Nuove funzionalità:

Correzioni di bug

Interfaccia della riga di comando del riconoscimento vocale (SPX)

Nuove funzionalità

Correzioni di bug

Speech SDK 1.43: versione di marzo 2025

Nuove funzionalità:

Correzioni di bug

Esempi

Speech SDK 1.42.0: versione di dicembre 2024

Nuove funzionalità

Correzioni di bug

Esempi

Versione di novembre 2024

Estensione di Azure AI Speech Toolkit per Visual Studio Code

Esempi di codice avatar per il testo vocale

Speech SDK 1.41.1: versione di ottobre 2024

Nuove funzionalità

Correzioni di bug

Modifiche di rilievo

Speech SDK 1.40: versione di agosto 2024

Nuove funzionalità

Correzioni di bug

Esempi

SDK di Voce 1.38.0: versione di giugno 2024

Nuove funzionalità

Correzioni di bug

Esempi

Speech SDK 1.37.0: versione di aprile 2024

Nuove funzionalità

Correzioni di bug

Esempi

Speech SDK 1.36.0: versione di marzo 2024

Nuove funzionalità

Correzioni di bug

Esempi

Speech SDK 1.35.0: versione di febbraio 2024

Nuove funzionalità

Correzioni di bug

Esempi

Speech SDK 1.34.1: versione di gennaio 2024

Modifiche di rilievo

Nuove funzionalità

Correzioni di bug

Speech SDK 1.34.0: versione di novembre 2023

Modifiche di rilievo

Nuove funzionalità

Correzioni di bug

Esempi

CLI di Voce 1.34.0: rilascio di novembre 2023

Nuove funzionalità

Correzioni di bug

Speech SDK 1.33.0: versione di ottobre 2023

Avviso di modifica che causa un'interruzione

Nuove funzionalità

Correzioni di bug

Esempi

Interfaccia della riga di comando di Voce 1.33.0: versione di ottobre 2023

Nuove funzionalità

Correzioni di bug

Speech SDK 1.32.1: versione di settembre 2023

Correzioni di bug

Esempi

Speech SDK 1.31.0: versione di agosto 2023

Nuove funzionalità

Modifiche di rilievo

Correzioni di bug

Esempi

Speech SDK 1.30.0: versione di luglio 2023

Nuove funzionalità

Correzioni di bug