O que há de novo no Azure AI Speech?

Artigo
01/21/2024

O Azure AI Speech é atualizado continuamente. Para se manter atualizado com os desenvolvimentos recentes, este artigo fornece informações sobre novas versões e recursos.

Destaques recentes

O serviço Azure AI Speech dá suporte a vozes de texto para fala do OpenAI. Para obter mais informações, consulte O que são vozes de texto para fala do OpenAI?.
A API de voz personalizada está disponível para criar e gerenciar modelos de voz neural personalizados profissionais e pessoais .
O Azure AI Speech agora dá suporte ao modelo Whisper da OpenAI por meio da API de transcrição em lote. Para saber mais, consulte o guia Criar uma transcrição em lote.

Notas de versão

Escolha um serviço ou recurso

Próximos planos para usuários Linux e Android:

Atenção

Este artigo faz referência ao CentOS, uma distribuição Linux que está se aproximando do status de Fim da Vida Útil (EOL). Por favor, considere o seu uso e planejamento de acordo. Para obter mais informações, consulte as diretrizes de Fim da Vida Útil do CentOS.

O Ubuntu 18.04 também chegou ao fim da vida útil em abril de 2023, então nossos usuários devem se preparar para movermos nossa versão mínima até o Ubuntu 20.04.

SDK de fala 1.37.0: versão de abril de 2024

Novas funcionalidades

Adicione suporte para streaming de texto de entrada na síntese de fala.
Altere a voz de síntese de fala padrão para en-US-AvaMultilingualNeural.
Atualize as compilações do Android para usar o OpenSSL 3.x.

Correções de erros

Corrija falhas ocasionais da JVM durante o descarte do SpeechRecognizer ao usar o MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Melhore a deteção de dispositivos de áudio padrão no Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Exemplos

Atualizado para novos recursos.

Speech SDK 1.36.0: versão de março de 2024

Novas funcionalidades

Adicione suporte para identificação de idioma em tradução multilíngue em pontos de extremidade v2 usando AutoDetectSourceLanguageConfig::FromOpenRange().

Correções de erros

Corrija o evento SynthesisCanceled não acionado se parar for chamado durante o evento SynthesisStarted.
Corrija um problema de ruído na síntese de fala incorporada.
Corrija uma falha no reconhecimento de fala incorporado ao executar vários reconhecedores em paralelo.
Corrija a configuração do modo de deteção de frase nos pontos de extremidade v1/v2.
Correções para vários problemas com o Microsoft Audio Stack.

Exemplos

Atualizações para novos recursos.

Speech SDK 1.35.0: versão de fevereiro de 2024

Novas funcionalidades

Altere o texto padrão para voz de fala de en-US-JennyMultilingualNeural para en-US-AvaNeural.
Suporta detalhes em nível de palavra em resultados de tradução de fala incorporados usando o formato de saída detalhado.

Correções de erros

Corrija a API getter de posição AudioDataStream em Python.
Corrija a tradução de fala usando pontos de extremidade v2 sem deteção de idioma.
Corrija uma falha aleatória e duplique eventos de limite de palavras em texto incorporado para fala.
Retornar um código de erro de cancelamento correto para um erro interno do servidor em conexões WebSocket.
Corrija a falha ao carregar FPIEProcessor.dll biblioteca quando o MAS é usado com C#.

Exemplos

Pequenas atualizações de formatação para exemplos de reconhecimento incorporado.

Speech SDK 1.34.1: versão de janeiro de 2024

Alterações interruptivas

Apenas correções de bugs

Novas funcionalidades

Apenas correções de bugs

Correções de erros

Corrija a regressão introduzida na versão 1.34.0, onde a url do ponto de extremidade do serviço foi construída com informações de localidade incorretas para usuários em várias regiões da China.

Speech SDK 1.34.0: versão de novembro de 2023

Alterações interruptivas

O SpeechRecognizer foi atualizado para usar um novo ponto de extremidade por padrão (ou seja, quando não especifica explicitamente uma URL) que não suporta mais parâmetros de cadeia de caracteres de consulta para a maioria das propriedades. Em vez de definir parâmetros de cadeia de caracteres de consulta diretamente com ServicePropertyChannel.UriQueryParameter, use as funções de API correspondentes.

Novas funcionalidades

Compatibilidade com .NET 8 (Correção para https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 exceto para aviso sobre centos7-x64)
Suporte para métricas de desempenho de fala incorporadas que podem ser usadas para avaliar a capacidade de um dispositivo executar fala incorporada.
Suporte para identificação da língua de partida em tradução multilingue incorporada.
Suporte para conversão de fala para texto, texto para fala e tradução para iOS e Swift/Objective-C lançado em visualização.
O suporte incorporado é fornecido no MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Correções de erros

Correção para iOS SDK x2 vezes o crescimento do tamanho binário · Edição #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correção para Não é possível obter carimbos de data/hora no nível do Word do azure speech para a API de texto · Edição #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correção para a fase de destruição do DialogServiceConnector para desconectar eventos corretamente. Isso estava causando acidentes ocasionalmente.
Correção para exceção durante a criação de um reconhecedor quando o MAS é usado.
FPIEProcessor.dll do pacote NuGet Microsoft.CognitiveServices.Speech.Extension.MAS para Windows UWP x64 e ARM64 dependia de bibliotecas de tempo de execução VC para C++ nativo. O problema foi corrigido atualizando a dependência para corrigir bibliotecas de tempo de execução do VC (para UWP).
Correção para [MAS] Chamadas recorrentes para reconhecer OnceAsync levam a SPXERR_ALREADY_INITIALIZED ao usar o MAS · Edição #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correção para falha de reconhecimento de fala incorporada quando listas de frases são usadas.

Exemplos

Exemplos iOS incorporados para conversão de voz em texto, texto em fala e tradução.

CLI de fala 1.34.0: versão de novembro de 2023

Novas funcionalidades

Ofereça suporte à saída de eventos de limite de palavras ao sintetizar fala.

Correções de erros

Dependência JMESPath atualizada para a versão mais recente, melhora as avaliações de cadeia de caracteres

Speech SDK 1.33.0: versão de outubro de 2023

Aviso de alteração de quebra

O novo pacote NuGet adicionado para o Microsoft Audio Stack (MAS) agora precisa ser incluído por aplicativos que estão usando o MAS em seus arquivos de configuração de pacote.

Novas funcionalidades

Adicionado o novo pacote NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, que oferece melhor desempenho de cancelamento de eco ao usar o Microsoft Audio Stack
Avaliação de Pronúncia: suporte adicional para avaliação de prosódia e conteúdo, que pode avaliar a fala falada em termos de prosódia, vocabulário, gramática e tópico.

Correções de erros

Corrigidos os deslocamentos de resultados de reconhecimento de palavras-chave para que correspondam corretamente ao fluxo de áudio de entrada desde o início. A correção se aplica ao reconhecimento de palavra-chave autônomo e ao reconhecimento de fala acionado por palavra-chave.
Fixed Synthesizer stopSpeaking não retorna imediatamente SPXSpeechSynthesizer stopSpeaking() método não pode retornar imediatamente no iOS 17 - Problema #2081
Corrigido o problema de importação do catalisador do Mac no módulo Swift Suporte para catalisador mac com silício da maçã. Edição #1948
JS: As cargas do módulo AudioWorkletNode agora usam uma URL confiável, com fallback para o navegador CDN incluído.
JS: Os arquivos lib compactados agora têm como alvo o ES6 JS, com o suporte para ES5 JS removido.
JS: os eventos intermediários para o ponto de extremidade v2 do cenário de conversão são manipulados corretamente
JS: A propriedade language para TranslationRecognitionEventArgs agora está definida para eventos translation.hypothese.
Síntese de fala: O evento SynthesisCompleted é garantido para ser emitido após todos os eventos de metadados, para que possa ser usado para indicar o final dos eventos. Como detetar quando os visemes são recebidos completamente? Problema #2093 Azure-Samples/cognitive-services-speech-sdk

Exemplos

Exemplo adicionado para demonstrar o streaming MULAW usando Python)
Correção para exemplo de NAudio de fala para texto

CLI de fala 1.33.0: versão de outubro de 2023

Novas funcionalidades

Ofereça suporte à saída de eventos de limite de palavras ao sintetizar fala.

Correções de erros

nenhum

Speech SDK 1.32.1: versão de setembro de 2023

Correções de erros

Atualizações de pacotes Android com as últimas correções de segurança do OpenSSL1.1.1v
JS – Propriedade WebWorkerLoadType adicionada para permitir o desvio da carga de URL de dados para o trabalhador de tempo limite
JS – Corrigir a desconexão da tradução da conversação após 10 minutos
JS – O token de autenticação de tradução de conversação do Conversation agora se propaga para a conexão do serviço de tradução

Exemplos

Transcrição de conversas com APIs Swift

Speech SDK 1.31.0: versão de agosto de 2023

Novos recursos

O suporte para diarização em tempo real está disponível em pré-visualização pública com o Speech SDK 1.31.0. Esse recurso está disponível nos seguintes SDKs: C#, C++, Java, JavaScript, Python e Objective-C/Swift.
Síntese de fala sincronizada, limite de palavras e eventos viseme com reprodução de áudio

Alterações interruptivas

O antigo cenário de "transcrição de conversa" é renomeado para "transcrição de reunião". Por exemplo, use MeetingTranscriber em vez de ConversationTranscriber, e use CreateMeetingAsync em vez de CreateConversationAsync. Embora os nomes dos objetos e métodos SDK tenham sido alterados, a renomeação não altera o recurso em si. Use objetos de transcrição de reunião para transcrição de reuniões com perfis de usuário e assinaturas de voz. Consulte Transcrição da reunião para obter mais informações. Os objetos e métodos de "tradução de conversa" não são afetados por essas alterações. Você ainda pode usar o ConversationTranslator objeto e seus métodos para atender cenários de tradução.

Para diarização em tempo real, um novo ConversationTranscriber objeto é introduzido. O novo modelo de objeto de "transcrição de conversa" e os padrões de chamada são semelhantes ao reconhecimento contínuo com o SpeechRecognizer objeto. Uma diferença fundamental é que o ConversationTranscriber objeto é projetado para ser usado em um cenário de conversação onde você deseja diferenciar vários falantes (diarização). Perfis de usuário e assinaturas de voz não são aplicáveis. Consulte o guia de início rápido de diarização em tempo real para obter mais informações.

Esta tabela mostra os nomes de objetos anteriores e novos para diarização em tempo real e transcrição de reuniões. O nome do cenário está na primeira coluna, os nomes de objeto anteriores estão na segunda coluna e os novos nomes de objeto estão na terceira coluna.

Nome do cenário	Nomes de objetos anteriores	Novos nomes de objetos
Diarização em tempo real	N/A	`ConversationTranscriber`
Transcrição da reunião	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

1 O Participant, ParticipantChangedReasone os User objetos são aplicáveis tanto à transcrição da reunião quanto aos cenários de tradução da reunião.

2 O Meeting objeto é novo e é usado com o MeetingTranscriber objeto.

Correções de erros

Versão mínima suportada do macOS corrigida https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Corrigido bug de avaliação de pronúncia:
- Foi resolvido o problema das pontuações de precisão do fonema, garantindo que agora refletem com precisão apenas o fonema específico mal pronunciado. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Resolvido um problema em que o recurso Avaliação de Pronúncia identificava incorretamente pronúncias totalmente corretas como errôneas, particularmente em situações em que as palavras podiam ter várias pronúncias válidas. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Exemplos

Speech SDK 1.30.0: versão de julho de 2023

Novos recursos

C++, C#, Java - Adicionado suporte para DisplayWords o resultado detalhado do Embedded Speech Recognition.
Objective-C/Swift - Adicionado suporte para ConnectionMessageReceived evento em Objective-C/Swift.
Objective-C/Swift - Modelos melhorados de deteção de palavras-chave para iOS. Essa alteração aumentou o tamanho de certos pacotes, que contêm binários do iOS (como NuGet, XCFramework). Estamos trabalhando para reduzir o tamanho para lançamentos futuros.

Correções de erros

Corrigido um vazamento de memória ao usar o reconhecedor de fala com PhraseListGrammar, conforme relatado por um cliente (problema do GitHub).
Corrigido um impasse na API de conexão aberta de texto para fala.

Notas adicionais

Java - Alguns métodos de API Java usados public internamente foram alterados para pacote internal, protected ou private. Essa alteração não deve ter um efeito sobre os desenvolvedores, pois não esperamos que os aplicativos os utilizem. Notado aqui pela transparência.

Exemplos

Novos exemplos de Avaliação de Pronúncia sobre como especificar um idioma de aprendizagem em seu próprio aplicativo
- C#: Consulte o código de exemplo.
- C++: Consulte o código de exemplo.
- JavaScript: Consulte o código de exemplo.
- Objective-C: Consulte o código de exemplo.
- Python: Consulte o código de exemplo.
- Swift: Veja o código de exemplo.

Speech SDK 1.29.0: versão de junho de 2023

Novos recursos

C++, C#, Java - Pré-visualização de APIs de tradução de voz incorporadas. Agora você pode fazer tradução de fala sem conexão com a nuvem!
JavaScript - Continuous Language Identification (LID) agora ativado para tradução de fala.
JavaScript - Contribuição da comunidade para adicionar LocaleName propriedade à VoiceInfo classe. Obrigado usuário do GitHub shivsarthak pela solicitação pull.
C++, C#, Java - Adicionado suporte para reamostragem de texto incorporado para saída de fala de 16 kHz a 48 kHz.
Adicionado suporte para hi-IN localidade no Intent Recognizer com Simple Pattern Matching.

Correções de erros

Corrigido um acidente causado por uma condição de corrida no Reconhecimento de Fala durante a destruição de objetos, como visto em alguns de nossos testes do Android
Corrigidos possíveis impasses no Reconhecedor de Intenção com o Simple Pattern Matcher

Exemplos

Novos exemplos de tradução de fala incorporada

Speech SDK 1.28.0: versão de maio de 2023

Quebrando a mudança

JavaScript SDK: Online Certificate Status Protocol (OCSP) foi removido. Isso permite que os clientes estejam em melhor conformidade com os padrões do navegador e do nó para o tratamento de certificados. A versão 1.28 e posteriores não incluirá mais nosso módulo OCSP personalizado.

Novos recursos

O Reconhecimento de Fala incorporado agora retorna NoMatchReason::EndSilenceTimeout quando ocorre um tempo limite de silêncio no final de uma declaração. Isso corresponde ao comportamento ao fazer o reconhecimento usando o serviço de fala em tempo real.
JavaScript SDK: defina propriedades ao SpeechTranslationConfig usar PropertyId valores enum.

Correções de erros

C# no Windows - Corrija a condição de corrida potencial / deadlock na extensão de áudio do Windows. Em cenários que descartam o renderizador de áudio rapidamente e também usam o método Synthesizer para parar de falar, o evento subjacente não foi redefinido por parada e pode fazer com que o objeto do renderizador nunca seja descartado, enquanto ele pode estar segurando um bloqueio global para eliminação, congelando o thread GC dotnet.

Exemplos

Adicionado um exemplo de fala incorporado para MAUI.
Atualizado o exemplo de fala incorporada para Android Java para incluir conversão de texto em fala.

Speech SDK 1.27.0: versão de abril de 2023

Notificação sobre alterações futuras

Planejamos remover o OCSP (Online Certificate Status Protocol) na próxima versão do JavaScript SDK. Isso permite que os clientes estejam em melhor conformidade com os padrões do navegador e do nó para o tratamento de certificados. A versão 1.27 é a última versão que inclui nosso módulo OCSP personalizado.

Novos recursos

JavaScript – Adicionado suporte para entrada de microfone a partir do navegador com identificação e verificação de alto-falante.
Reconhecimento de Fala Incorporado - Suporte de atualização para PropertyId::Speech_SegmentationSilenceTimeoutMs configuração.

Correções de erros

Geral - Atualizações de confiabilidade na lógica de reconexão de serviço (todas as linguagens de programação, exceto JavaScript).
Geral - Corrija conversões de string que vazam memória no Windows (todas as linguagens de programação relevantes, exceto JavaScript).
Reconhecimento de Fala Incorporado - Corrija falhas no Reconhecimento de Fala em Francês ao usar determinadas entradas da lista gramatical.
Documentação do código-fonte - Correções nos comentários da documentação de referência do SDK relacionados ao registro de áudio no serviço.
Reconhecimento de intenção - Corrigir prioridades do Pattern Matcher relacionadas a entidades de lista.

Exemplos

Manipule corretamente a falha de autenticação no exemplo CTS (Conversation Transcription) em C#.
Adicionado exemplo de avaliação de pronúncia de streaming para Python, JavaScript, Objective-C e Swift.

Speech SDK 1.26.0: versão de março de 2023

Alterações interruptivas

O Bitcode foi desativado em todos os destinos iOS nos seguintes pacotes: Cocoapod com xcframework, NuGet (para Xamarin e MAUI) e Unity. A mudança deve-se à descontinuação do suporte a bitcode da Apple a partir do Xcode 14. Essa alteração também significa que, se você estiver usando a versão do Xcode 13 ou tiver ativado explicitamente o bitcode em seu aplicativo usando o SDK de fala, poderá encontrar um erro dizendo "framework doesn't contain bitcode and you must rebuild it". Para resolver esse problema, certifique-se de que seus destinos têm bitcode desativado.
O destino mínimo de implantação do iOS foi atualizado para 11.0 nesta versão, o que significa que o armv7 HW não é mais suportado.

Novas funcionalidades

O Reconhecimento de Voz incorporado (no dispositivo) suporta agora áudio de entrada com taxa de amostragem de 8 e 16 kHz (16 bits por amostra, PCM mono).
O Speech Synthesis agora relata latências de conexão, rede e serviço no resultado para ajudar na otimização de latência de ponta a ponta.
Novas regras de desempate para reconhecimento de intenção com correspondência de padrões simples. Quanto mais bytes de caracteres forem correspondidos, vencerá as correspondências de padrão com menor contagem de bytes de caracteres. Exemplo: O padrão "Select {something} in the top right" vencerá "Select {something}"

Correções de erros

Síntese de fala: corrija um bug em que o emoji não está correto em eventos de limite de palavras.
Reconhecimento de intenção com compreensão de linguagem conversacional (CLU):
- As intenções do fluxo de trabalho do CLU Orchestrator agora aparecem corretamente.
- O resultado JSON agora está disponível através do ID LanguageUnderstandingServiceResponse_JsonResultda propriedade.
Reconhecimento de fala com ativação de palavra-chave: Correção para áudio ausente ~ 150 ms após um reconhecimento de palavra-chave.
Correção para o Speech SDK NuGet iOS MAUI Release build, relatado pelo cliente (problema do GitHub)

Exemplos

Correção para amostra do Swift iOS, relatada pelo cliente (problema do GitHub)

Speech SDK 1.25.0: versão de janeiro de 2023

Alterações interruptivas

As APIs de identificação de idioma (visualização) foram simplificadas. Se você atualizar para o Speech SDK 1.25 e vir uma quebra de compilação, visite a página Identificação de idioma para saber mais sobre a nova propriedadeSpeechServiceConnection_LanguageIdMode. Esta única propriedade substitui as duas anteriores SpeechServiceConnection_SingleLanguageIdPriority e SpeechServiceConnection_ContinuousLanguageIdPriority. A priorização entre baixa latência e alta precisão não é mais necessária após as recentes melhorias do modelo. Agora, você só precisa selecionar se deseja executar a Identificação de Idioma inicial ou contínua ao fazer reconhecimento de fala contínuo ou tradução.

Novas funcionalidades

C#/C++/Java: o SDK de Fala Incorporado agora é lançado em visualização pública fechada. Consulte a documentação de Fala incorporada (visualização). Agora você pode fazer fala para texto no dispositivo e texto para fala quando a conectividade na nuvem é intermitente ou indisponível. Compatível com plataformas Android, Linux, macOS e Windows
MAUI em C#: Suporte adicionado para destinos iOS e Mac Catalyst no Speech SDK NuGet (problema do cliente)
Unity: arquitetura x86_64 Android adicionada ao pacote Unity (problema do cliente)
Vai:
- Suporte de streaming direto ALAW/MULAW adicionado para reconhecimento de fala (problema do cliente)
- Adicionado suporte para PhraseListGrammar. Obrigado usuário do GitHub czkoko pela contribuição da comunidade!
C#/C++: O Intent Recognizer agora oferece suporte a modelos de Compreensão de Linguagem Conversacional em C++ e C# com orquestração no serviço da Microsoft

Correções de erros

Corrigir um bloqueio ocasional no KeywordRecognizer ao tentar pará-lo
Píton:
- Correção para obter resultados da Avaliação de Pronúncia quando PronunciationAssessmentGranularity.FullText definido (problema do cliente)
- Correção para a propriedade de gênero para vozes masculinas que não estão sendo recuperadas, ao obter vozes de síntese de fala
JavaScript
- Correção para analisar alguns arquivos WAV que foram gravados em dispositivos iOS (problema do cliente)
- O JS SDK agora é compilado sem usar npm-force-resolutions (problema do cliente)
- O Conversor de Conversação agora define corretamente o ponto de extremidade do serviço ao usar uma instância speechConfig criada usando SpeechConfig.fromEndpoint()

Exemplos

Exemplos adicionados mostrando como usar a Fala Incorporada
Adicionado exemplo de fala ao texto para MAUI

Consulte Repositório de exemplos do SDK de fala.

Speech SDK 1.24.2: versão de novembro de 2022

Novas funcionalidades

Sem novos recursos, apenas uma correção de mecanismo incorporado para suportar novos arquivos de modelo.

Correções de erros

Todas as linguagens de programação
- Corrigido um problema com a encriptação de modelos de reconhecimento de voz incorporados.

Speech SDK 1.24.1: versão de novembro de 2022

Novas funcionalidades

Pacotes publicados para a visualização de fala incorporada. Consulte https://aka.ms/embedded-speech para obter mais informações.

Correções de erros

Todas as linguagens de programação
- Corrigir falha de TTS incorporado quando a fonte de voz não é suportada
- Fix stopSpeaking() não pode parar a reprodução no Linux (#1686)
SDK JavaScript
- Regressão fixa na forma como a conversação transcreve áudio fechado.
Java
- Arquivos POM e Javadocs atualizados publicados temporariamente no Maven Central para permitir que o pipeline de documentos atualize documentos de referência on-line.
Python
- Corrija a regressão onde Python speak_text(ssml) retorna void.

Speech SDK 1.24.0: versão de outubro de 2022

Novas funcionalidades

Todos os idiomas de programação: AMR-WB (16khz) adicionado à lista suportada de formatos de saída de áudio de texto para fala
Python: Pacote adicionado para Linux ARM64 para distribuições Linux suportadas.
C#/C++/Java/Python: Suporte adicionado para ALAW & MULAW streaming direto para o serviço de fala (além do fluxo PCM existente) usando AudioStreamWaveFormat.
MAUI em C#: pacote NuGet atualizado para oferecer suporte a destinos Android para desenvolvedores .NET MAUI (problema do cliente)
Mac: Adicionado XCframework separado para Mac, que não contém binários do iOS. Isso oferece uma opção para desenvolvedores que precisam apenas de binários do Mac usando um pacote XCframework menor.
Pilha de áudio da Microsoft (MAS):
- Quando os ângulos de formação de feixe são especificados, o som originado fora do intervalo especificado será melhor suprimido.
- Aproximadamente 70% de redução no tamanho do libMicrosoft.CognitiveServices.Speech.extension.mas.so Linux ARM32 e Linux ARM64.
Reconhecimento de intenção usando correspondência de padrões:
- Adicionar suporte ortográfico para os idiomas fr, de, es, jp
- Adicionado suporte de inteiro pré-construído para o idioma es.

Correções de erros

iOS: corrigir erro de síntese de fala no iOS 16 causado por falha de decodificação de áudio comprimido (problema do cliente).
JavaScript:
- Corrija o token de autenticação que não funciona ao obter a lista de voz de síntese de fala (problema do cliente).
- Use a URL de dados para o carregamento do trabalhador (problema do cliente).
- Crie o worklet do processador de áudio somente quando o AudioWorklet for suportado no navegador (problema do cliente). Esta foi uma contribuição comunitária de William Wong. Obrigado Guilherme!
- Corrija o retorno de chamada reconhecido quando a resposta connectionMessage do LUIS estiver vazia (problema do cliente).
- Defina corretamente o tempo limite de segmentação de fala.
Reconhecimento de intenção usando correspondência de padrões:
- Caracteres não-json dentro de modelos agora serão carregados corretamente.
- Corrigir problema de suspensão quando recognizeOnceAsync(text) foi chamado durante o reconhecimento contínuo.

Speech SDK 1.23.0: versão de julho de 2022

Novas funcionalidades

C#, C++, Java: Adicionado suporte para linguagens zh-cn e zh-hk reconhecimento de intenção com correspondência de padrões.
C#: Adicionado suporte para AnyCPU compilações do .NET Framework

Correções de erros

Android: Corrigida a vulnerabilidade do OpenSSL CVE-2022-2068 atualizando o OpenSSL para 1.1.1q
Python: Corrigir falha ao usar PushAudioInputStream
iOS: Correção "EXC_BAD_ACCESS: Tentativa de desreferenciar ponteiro nulo" conforme relatado no iOS (problema do GitHub)

Speech SDK 1.22.0: versão de junho de 2022

Novas funcionalidades

Java: API IntentRecognitionResult para getEntities(), applyLanguageModels() e recognizeOnceAsync(text) adicionada para suportar o mecanismo de "correspondência de padrão simples".
Unity: Adicionado suporte para Mac M1 (Apple Silicon) para o pacote Unity (problema do GitHub)
C#: Adicionado suporte para x86_64 para Xamarin Android (problema do GitHub)
C#: Versão mínima do .NET Framework atualizada para v4.6.2 para o pacote C# do SDK, pois a v4.6.1 foi desativada (consulte Política de ciclo de vida do componente do Microsoft .NET Framework)
Linux: Adicionado suporte para Debian 11 e Ubuntu 22.04 LTS. Ubuntu 22.04 LTS requer a instalação manual de libssl1.1 como um pacote binário a partir daqui (por exemplo, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb ou mais recente para x64), ou compilando a partir de fontes.

Correções de erros

UWP: A dependência OpenSSL foi removida das bibliotecas UWP e substituída por APIs HTTP e websocket WinRT para atender à conformidade de segurança e menor espaço binário.
Mac: Corrigido o problema "MicrosoftCognitiveServicesSpeech Module Not Found" ao usar projetos Swift direcionados à plataforma macOS
Windows, Mac: Corrigido um problema específico da plataforma em que as fontes de áudio que eram configuradas por meio de propriedades para transmitir em tempo real às vezes ficavam para trás e, eventualmente, excediam a capacidade

Amostras (GitHub)

C#: Exemplos do .NET Framework atualizados para usar v4.6.2
Unity: Exemplo de assistente virtual corrigido para Android e UWP
Unity: Amostras Unity atualizadas para a versão Unity 2020 LTS

Speech SDK 1.21.0: versão de abril de 2022

Novas funcionalidades

Java & JavaScript: Adicionado suporte para identificação contínua de linguagem ao usar o objeto SpeechRecognizer
JavaScript: APIs de diagnóstico adicionadas para habilitar o nível de log do console e o log de arquivos (somente nós), para ajudar a Microsoft a solucionar problemas relatados pelo cliente
Python: Adicionado suporte para transcrição de conversas
Go: Adicionado suporte para reconhecimento de alto-falante
C++ & C#: Adicionado suporte para um grupo necessário de palavras no Intent Recognizer (correspondência de padrão simples). Por exemplo: "(set|start|begin) a timer" onde "set", "start" ou "begin" devem estar presentes para que a intenção seja reconhecida.
Todas as linguagens de programação, Síntese de Fala: Adicionada propriedade de duração em eventos de limite de palavras. Adicionado suporte para limite de pontuação e limite de frase
Objective-C/Swift/Java: Adicionados resultados no nível da palavra no objeto de resultado da Avaliação de Pronúncia (semelhante ao C#). O aplicativo não precisa mais analisar uma cadeia de caracteres de resultado JSON para obter informações no nível da palavra (problema do GitHub)
Plataforma iOS: Adicionado suporte experimental para arquitetura ARMv7

Correções de erros

Plataforma iOS: Correção para permitir a construção para o alvo "Qualquer dispositivo iOS", ao usar o CocoaPod (problema do GitHub)
Plataforma Android: a versão OpenSSL foi atualizada para 1.1.1n para corrigir a vulnerabilidade de segurança CVE-2022-0778
JavaScript: Corrigir problema em que o cabeçalho wav não foi atualizado com o tamanho do arquivo (problema do GitHub)
JavaScript: Corrigir problemas de dessincronização de ID de solicitação que quebram cenários de tradução (problema do GitHub)
JavaScript: Corrija o problema ao instanciar SpeakerAudioDestination sem fluxo (problema do GitHub)
C++: Corrija cabeçalhos C++ para remover um aviso ao compilar para C++17 ou mais recente

Exemplos GitHub

Novos exemplos Java para reconhecimento de fala com identificação de linguagem
Novos exemplos de Python e Java para transcrição de conversas
Novo exemplo Go para reconhecimento de alto-falantes
Nova ferramenta C++ e C# para Windows que enumera todos os dispositivos de captura e renderização de áudio, para encontrar sua ID de dispositivo. Essa ID é necessária para o SDK de fala se você planeja capturar áudio ou renderizar áudio para um dispositivo não padrão.

Speech SDK 1.20.0: versão de janeiro de 2022

Novas funcionalidades

Objective-C, Swift e Python: adicionado suporte para DialogServiceConnector, usado para cenários de Assistente de Voz.
Python: Suporte para Python 3.10 foi adicionado. O suporte para Python 3.6 foi removido, de acordo com o fim de vida útil do Python para 3.6.
Unity: O Speech SDK agora é suportado para aplicativos Unity no Linux.
C++, C#: IntentRecognizer usando correspondência de padrões agora é suportado em C#. Além disso, cenários com entidades personalizadas, grupos opcionais e funções de entidade agora são suportados em C++ e C#.
C++, C#: Registro de rastreamento de diagnóstico aprimorado usando novas classes FileLogger, MemoryLogger e EventLogger. Os logs do SDK são uma ferramenta importante para a Microsoft diagnosticar problemas relatados pelo cliente. Essas novas classes tornam mais fácil para os clientes integrar os logs do Speech SDK em seu próprio sistema de registro.
Todas as linguagens de programação: PronunciationAssessmentConfig agora tem propriedades para definir o alfabeto fonema desejado (IPA ou SAPI) e N-Best Phoneme Count (evitando a necessidade de criar uma configuração JSON de acordo com a edição 1284 do GitHub). Além disso, a saída de nível de sílaba agora é suportada.
Android, iOS e macOS (todas as linguagens de programação): o GStreamer não é mais necessário para suportar redes de largura de banda limitada. O SpeechSynthesizer agora usa os recursos de decodificação de áudio do sistema operacional para decodificar áudio compactado transmitido do serviço de texto para fala.
Todas as linguagens de programação: SpeechSynthesizer agora suporta três novos formatos Opus de saída bruta (sem contêiner), que são amplamente utilizados em cenários de transmissão ao vivo.
JavaScript: Adicionada API getVoicesAsync() ao SpeechSynthesizer para recuperar a lista de vozes de síntese suportadas (edição 1350 do GitHub)
JavaScript: Adicionada API getWaveFormat() ao AudioStreamFormat para suportar formatos de onda não-PCM (edição 452 do GitHub)
JavaScript: Adicionadas APIs de getter/setter de volume e mute()/unmute() ao SpeakerAudioDestination (problema 463 do GitHub)

Correções de erros

C++, C#, Java, JavaScript, Objective-C e Swift: Correção para remover um atraso de 10 segundos ao parar um reconhecedor de fala que usa um PushAudioInputStream. Isso ocorre para o caso em que nenhum novo áudio é enviado depois que StopContinuousRecognition é chamado (edições 1318, 331 do GitHub)
Unity no Android e UWP: os metaarquivos Unity foram corrigidos para UWP, Android ARM64 e Windows Subsystem for Android (WSA) ARM64 (GitHub issue 1360)
iOS: Compilar seu aplicativo Speech SDK em qualquer dispositivo iOS ao usar o CocoaPods agora está corrigido (problema 1320 do GitHub)
iOS: Quando o SpeechSynthesizer está configurado para exportar áudio diretamente para um altifalante, a reprodução é interrompida no início em condições raras. Isso foi corrigido.
JavaScript: Use fallback do processador de script para entrada de microfone se nenhum worklet de áudio for encontrado (problema 455 do GitHub)
JavaScript: Adicionar protocolo ao agente para mitigar bugs encontrados com a integração do Sentry (edição 465 do GitHub)

Exemplos GitHub

Exemplos de C++, C#, Python e Java mostrando como obter resultados de reconhecimento detalhados. Os detalhes incluem resultados de reconhecimento alternativos, pontuação de confiança, forma lexical, forma normalizada, formulário normalizado mascarado, com tempo de nível de palavra para cada um.
Exemplo de iOS adicionado usando AVFoundation como fonte de áudio externa.
Exemplo Java adicionado para mostrar como obter o formato SRT (SubRip Text) usando o evento WordBorder.
Amostras Android para Avaliação de Pronúncia.
C++, C# mostrando o uso das novas classes de log de diagnóstico.

Speech SDK 1.19.0: versão de novembro de 2021

Destaques

O serviço de Reconhecimento de Oradores já está disponível em geral (GA). As APIs do SDK de fala estão disponíveis em C++, C#, Java e JavaScript. Com o Reconhecimento de Altifalantes, pode verificar e identificar com precisão os altifalantes pelas suas características de voz únicas. Para obter mais informações sobre este tópico, consulte a documentação.
Abandonamos o suporte para o Ubuntu 16.04 em conjunto com o Azure DevOps e o GitHub. O Ubuntu 16.04 chegou ao fim da vida útil em abril de 2021. Migre seus fluxos de trabalho do Ubuntu 16.04 para o Ubuntu 18.04 ou mais recente.
A vinculação OpenSSL em binários Linux mudou para dinâmica. O tamanho binário do Linux foi reduzido em cerca de 50%.
Adicionado suporte de silício baseado em ARM para Mac M1.

Novas funcionalidades

C++/C#/Java: Novas APIs adicionadas para habilitar o suporte ao processamento de áudio para entrada de fala com o Microsoft Audio Stack. Documentação aqui.
C++: Novas APIs para reconhecimento de intenção para facilitar a correspondência de padrões mais avançada. Isso inclui entidades List e Prebuilt Integer, bem como suporte para agrupar intenções e entidades como modelos (Documentação, atualizações e exemplos estão em desenvolvimento e serão publicados em um futuro próximo).
Mac: Suporte para silício baseado em ARM64 (M1) para pacotes CocoaPod, Python, Java e NuGet relacionados à edição 1244 do GitHub.
iOS/Mac: os binários do iOS e macOS agora são empacotados no xcframework relacionado ao problema 919 do GitHub.
iOS/Mac: Suporte para Mac catalyst relacionado ao problema 1171 do GitHub.
Linux: Novo pacote tar adicionado para o CentOS7 Sobre o Speech SDK. O pacote Linux .tar agora contém bibliotecas específicas para RHEL/CentOS 7 em lib/centos7-x64. As bibliotecas do SDK de fala na lib/x64 ainda são aplicáveis a todas as outras distribuições Linux x64 suportadas (incluindo RHEL/CentOS 8) e não funcionarão no RHEL/CentOS 7.
JavaScript: APIs VoiceProfile & SpeakerRecognizer tornadas assíncronas/esperadas.
JavaScript: Suporte adicionado para regiões do Azure do governo dos EUA.
Windows: Suporte adicionado para reprodução na Plataforma Universal do Windows (UWP).

Correções de erros

Android: Atualização de segurança OpenSSL (atualizada para a versão 1.1.1l) para pacotes Android.
Python: Bug resolvido onde a seleção de dispositivo de alto-falante em Python falha.
Core: reconecte-se automaticamente quando uma tentativa de conexão falhar.
iOS: Compressão de áudio desativada em pacotes iOS devido a instabilidade e problemas de compilação de código de bits ao usar o GStreamer. Os detalhes estão disponíveis na edição 1209 do GitHub.

Exemplos GitHub

Mac/iOS: Exemplos atualizados e inícios rápidos para usar o pacote xcframework.
.NET: Exemplos atualizados para usar a versão .NET core 3.1.
JavaScript: Adicionado exemplo para Assistentes de Voz.

Speech SDK 1.18.0: versão de julho de 2021

Nota: Comece a usar o SDK de fala aqui.

Resumo dos destaques

O Ubuntu 16.04 chegou ao fim da vida útil em abril de 2021. Com o Azure DevOps e o GitHub, descartaremos o suporte para a versão 16.04 em setembro de 2021. Migre fluxos de trabalho do ubuntu-16.04 para o ubuntu-18.04 ou mais recente antes disso.

Novas funcionalidades

C++: A correspondência de padrão de linguagem simples com o Reconhecedor de Intenção agora facilita a implementação de cenários simples de reconhecimento de intenção.
C++/C#/Java: Adicionamos uma nova API GetActivationPhrasesAsync() à VoiceProfileClient classe para receber uma lista de frases de ativação válidas na fase de registro de reconhecimento de alto-falante para cenários de reconhecimento independentes.
- Importante: A funcionalidade de Reconhecimento de Oradores encontra-se em Pré-visualização. Todos os perfis de voz criados na Pré-visualização serão descontinuados 90 dias após a funcionalidade de Reconhecimento de Altifalantes ser movida da Pré-visualização para a Disponibilidade Geral. Nesse ponto, os perfis de voz de visualização deixarão de funcionar.
Python: Adicionado suporte para identificação contínua de linguagem (LID) nos objetos e TranslationRecognizer existentesSpeechRecognizer.
Python: Adicionado um novo objeto Python nomeado SourceLanguageRecognizer para fazer LID único ou contínuo (sem reconhecimento ou tradução).
JavaScript: getActivationPhrasesAsync API adicionada à VoiceProfileClient classe para receber uma lista de frases de ativação válidas na fase de inscrição de Reconhecimento de Orador para cenários de reconhecimento independentes.
A API do enrollProfileAsync JavaScriptVoiceProfileClient agora é assíncrona. Veja este código de identificação independente, por exemplo, uso.

Melhorias

Java: Suporte AutoCloseable adicionado a muitos objetos Java. Agora, o modelo try-with-resources é suportado para liberar recursos. Veja este exemplo que usa try-with-resources. Consulte também o tutorial de documentação do Oracle Java para The try-with-resources Statement para saber mais sobre esse padrão.
O espaço ocupado pelo disco foi significativamente reduzido para muitas plataformas e arquiteturas. Exemplos para o Microsoft.CognitiveServices.Speech.core binário: x64 Linux é 475KB menor (8,0% de redução); ARM64 Windows UWP é 464KB menor (11,5% de redução); x86 Windows é 343KB menor (17,5% de redução); e o Windows x64 é 451KB menor (redução de 19,4%).

Correções de erros

Java: Corrigido erro de síntese quando o texto de síntese contém caracteres substitutos. Detalhes aqui.
JavaScript: O processamento de áudio do microfone do navegador agora usa AudioWorkletNode em vez de preterido ScriptProcessorNode. Detalhes aqui.
JavaScript: mantenha corretamente as conversas vivas durante cenários de tradução de conversação de longa duração. Detalhes aqui.
JavaScript: Corrigido o problema com o reconhecedor reconectando-se a um fluxo de mídia em reconhecimento contínuo. Detalhes aqui.
JavaScript: Corrigido o problema com o reconhecedor reconectando-se a um pushStream em reconhecimento contínuo. Detalhes aqui.
JavaScript: Cálculo de deslocamento do nível de palavra corrigido em resultados de reconhecimento detalhados. Detalhes aqui.

Exemplos

Exemplos de início rápido Java atualizados aqui.
Exemplos de reconhecimento de alto-falante JavaScript atualizados para mostrar o novo uso do enrollProfileAsync(). Veja exemplos aqui.

Speech SDK 1.17.0: versão de maio de 2021

Nota

Comece a usar o SDK de fala aqui.

Resumo dos destaques

Menor espaço ocupado - continuamos a diminuir a memória e o espaço ocupado pelo disco do Speech SDK e seus componentes.
Uma nova API de identificação de idioma independente permite que você reconheça qual idioma está sendo falado.
Desenvolva aplicativos de realidade mista e jogos habilitados para fala usando Unity no macOS.
Agora você pode usar Text to speech, além do reconhecimento de fala da linguagem de programação Go.
Várias correções de bugs para resolver problemas que VOCÊ, nossos estimados clientes, sinalizou no GitHub! OBRIGADO! Mantenha o feedback chegando!

Novas funcionalidades

C++/C#: Novo At-Start autônomo e deteção contínua de idioma por meio da SourceLanguageRecognizer API. Se você quiser detetar apenas o(s) idioma(s) falado(s) no conteúdo de áudio, esta é a API para fazer isso. Veja detalhes para C++ e C#.
C++/C#: O Reconhecimento de Fala e o Reconhecimento de Tradução agora suportam a Identificação de Idioma inicial e contínua para que você possa determinar programaticamente quais idiomas estão sendo falados antes de serem transcritos ou traduzidos. Consulte a documentação aqui para Reconhecimento de Fala e aqui para Tradução de Fala.
C#: Adicionado suporte Unity para macOS (x64). Isso desbloqueia casos de uso de reconhecimento e síntese de fala em realidade mista e jogos!
Go: Adicionamos suporte para síntese de fala texto para fala à linguagem de programação Go para tornar a síntese de fala disponível em ainda mais casos de uso. Consulte o nosso guia de início rápido ou a nossa documentação de referência.
C++/C#/Java/Python/Objective-C/Go: O sintetizador de fala agora suporta o connection objeto. Isso ajuda você a gerenciar e monitorar a conexão com o serviço de Fala e é especialmente útil para pré-conectar para reduzir a latência. Consulte a documentação aqui.
C++/C#/Java/Python/Objective-C/Go: agora expomos a latência e o tempo SpeechSynthesisResult de execução insuficiente para ajudá-lo a monitorar e diagnosticar problemas de latência de síntese de fala. Veja detalhes para C++, C#, Java, Python, Objective-C e Go.
C++/C#/Java/Python/Objective-C: Text to speech agora usa vozes neurais por padrão quando você não especifica uma voz a ser usada. Isso oferece uma saída de fidelidade mais alta por padrão, mas também aumenta o preço padrão. Você pode especificar qualquer uma das nossas mais de 70 vozes padrão ou mais de 130 vozes neurais para alterar o padrão.
C++/C#/Java/Python/Objective-C/Go: adicionamos uma propriedade Gender às informações de voz de síntese para facilitar a seleção de vozes com base no gênero. Isso resolve o problema #1055 do GitHub.
C++, C#, Java, JavaScript: agora suportamos retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsynce getAllProfilesAsync() no Reconhecimento de Oradores para facilitar a gestão de utilizadores de todos os perfis de voz para uma determinada conta. Consulte a documentação para C++, C#, Java, JavaScript. Isso resolve o problema #338 do GitHub.
JavaScript: Adicionamos nova tentativa para falhas de conexão que tornarão seus aplicativos de fala baseados em JavaScript mais robustos.

Melhorias

Os binários do Linux e Android Speech SDK foram atualizados para usar a versão mais recente do OpenSSL (1.1.1k)
Melhorias no tamanho do código:
- O Language Understanding agora está dividido em uma biblioteca "lu" separada.
- O tamanho binário do núcleo x64 do Windows diminuiu 14,4%.
- O tamanho binário do núcleo do Android ARM64 diminuiu 13,7%.
- outros componentes também diminuíram de tamanho.

Correções de erros

Todos: Corrigido o problema #842 do GitHub para ServiceTimeout. Agora você pode transcrever arquivos de áudio longos usando o SDK de fala sem que a conexão com o serviço termine com esse erro. No entanto, ainda recomendamos que você use a transcrição em lote para arquivos longos.
C#: Corrigido o problema #947 do GitHub, em que nenhuma entrada de fala podia deixar seu aplicativo em mau estado.
Java: Corrigido o problema #997 do GitHub, em que o SDK de fala para Java 1.16 falhava ao usar o DialogServiceConnector sem uma conexão de rede ou uma chave de assinatura inválida.
Corrigida uma falha ao interromper abruptamente o reconhecimento de fala (por exemplo, usando CTRL+C no aplicativo de console).
Java: Adicionada uma correção para excluir arquivos temporários no Windows ao usar o Speech SDK for Java.
Java: Corrigido o problema #994 do GitHub, onde a chamada DialogServiceConnector.stopListeningAsync podia resultar em um erro.
Java: Corrigido um problema do cliente no início rápido do assistente virtual.
JavaScript: Corrigido o problema #366 do GitHub, onde ConversationTranslator se lançava um erro 'this.cancelSpeech isn't a function'.
JavaScript: Corrigido o problema #298 do GitHub, em que a amostra 'Obter resultado como um fluxo na memória' reproduzia som em voz alta.
JavaScript: Corrigido o problema #350 do GitHub, onde a chamada AudioConfig podia resultar em um 'ReferenceError: MediaStream não está definido'.
JavaScript: Corrigido um aviso UnhandledPromiseRejection no Node.js para sessões de longa duração.

Exemplos

Documentação de exemplos Unity atualizada para macOS aqui.
Um exemplo do React Native para o serviço de reconhecimento de voz do Azure AI agora está disponível aqui.

Speech SDK 1.16.0: versão de março de 2021

Nota

O SDK de fala no Windows depende do Microsoft Visual C++ Redistributable compartilhado para Visual Studio 2015, 2017 e 2019. Faça o download aqui.

Novas funcionalidades

C++/C#/Java/Python: Movido para a versão mais recente do GStreamer (1.18.3) para adicionar suporte para transcrever qualquer formato de mídia no Windows, Linux e Android. Consulte a documentação aqui.
C++/C#/Java/Objective-C/Python: Adicionado suporte para decodificação de TTS/áudio sintetizado compactado para o SDK. Se você definir o formato de saída de áudio para PCM e o GStreamer estiver disponível em seu sistema, o SDK solicitará automaticamente áudio compactado do serviço para economizar largura de banda e decodificar o áudio no cliente. Você pode definir SpeechServiceConnection_SynthEnableCompressedAudioTransmission para false desativar esse recurso. Detalhes para C++, C#, Java, Objective-C, Python.
JavaScript: Node.js usuários agora podem usar a AudioConfig.fromWavFileInput API. Isso resolve o problema #252 do GitHub.
C++/C#/Java/Objective-C/Python: Método adicionado GetVoicesAsync() para TTS retornar todas as vozes de síntese disponíveis. Detalhes para C++, C#, Java, Objective-C e Python.
C++/C#/Java/JavaScript/Objective-C/Python: Adicionado VisemeReceived evento para TTS/síntese de fala para retornar animação viseme síncrona. Consulte a documentação aqui.
C++/C#/Java/JavaScript/Objective-C/Python: Adicionado BookmarkReached evento para TTS. Você pode definir marcadores no SSML de entrada e obter os deslocamentos de áudio para cada marcador. Consulte a documentação aqui.
Java: Adicionado suporte para APIs de reconhecimento de alto-falante. Detalhes aqui.
C++/C#/Java/JavaScript/Objective-C/Python: Adicionados dois novos formatos de saída de áudio com contêiner WebM para TTS (Webm16Khz16BitMonoOpus e Webm24Khz16BitMonoOpus). Estes são melhores formatos para streaming de áudio com o codec Opus. Detalhes para C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java: Adicionado suporte para recuperar perfil de voz para o cenário de Reconhecimento de Alto-falante. Detalhes para C++, C# e Java.
C++/C#/Java/Objective-C/Python: Adicionado suporte para biblioteca compartilhada separada para controle de microfone e alto-falante de áudio. Isso permite que o desenvolvedor use o SDK em ambientes que não têm dependências de biblioteca de áudio necessárias.
Objective-C/Swift: Adicionado suporte para framework de módulo com cabeçalho guarda-chuva. Isso permite que o desenvolvedor importe o Speech SDK como um módulo em aplicativos iOS/Mac Objective-C/Swift. Isso resolve o problema #452 do GitHub.
Python: Adicionado suporte para Python 3.9 e descartado o suporte para Python 3.5 por fim de vida útil do Python para 3.5.

Problemas conhecidos

C++/C#/Java: não é possível usar um CustomCommandsConfig para acessar um aplicativo de Comandos Personalizados e, em vez disso, DialogServiceConnector encontrará um erro de conexão. Isso pode ser resolvido adicionando manualmente o ID do aplicativo à solicitação com config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). O comportamento esperado de CustomCommandsConfig será restaurado na próxima versão.

Melhorias

Como parte de nosso esforço de várias versões para reduzir o uso de memória e o espaço ocupado pelo disco do SDK de fala, os binários do Android agora são de 3% a 5% menores.
Maior precisão, legibilidade e consulte também as seções de nossa documentação de referência em C# aqui.

Correções de erros

JavaScript: Cabeçalhos de arquivo WAV grandes agora são analisados corretamente (aumenta a fatia de cabeçalho para 512 bytes). Isso resolve o problema #962 do GitHub.
JavaScript: Corrigido o problema de temporização do microfone se o fluxo de microfone terminar antes de parar o reconhecimento, resolvendo um problema com o Reconhecimento de Fala não funcionando no Firefox.
JavaScript: agora lidamos corretamente com a promessa de inicialização quando o navegador força o microfone desligado antes que o turnOn seja concluído.
JavaScript: substituímos a dependência de URL por url-parse. Isso resolve o problema #264 do GitHub.
Android: Retornos de chamada fixos não funcionam quando minifyEnabled está definido como true.
C++/C#/Java/Objective-C/Python: TCP_NODELAY será corretamente definido como E/S de soquete subjacente para TTS para reduzir a latência.
C++/C#/Java/Python/Objective-C/Go: Corrigido um erro ocasional quando o reconhecedor era destruído logo após iniciar um reconhecimento.
C++/C#/Java: Corrigido um acidente ocasional na destruição do reconhecedor de alto-falantes.

Exemplos

JavaScript: As amostras de navegador não exigem mais o download de arquivos de biblioteca JavaScript separados.

Speech SDK 1.15.0: versão de janeiro de 2021

Nota

O SDK de fala no Windows depende do Microsoft Visual C++ Redistributable compartilhado para Visual Studio 2015, 2017 e 2019. Faça o download aqui.

Resumo dos destaques

Menor espaço ocupado por memória e disco tornando o SDK mais eficiente.
Formatos de saída de maior fidelidade disponíveis para visualização privada de voz neural personalizada.
O Reconhecedor de Intenção agora pode obter retorno mais do que a intenção principal, dando-lhe a capacidade de fazer uma avaliação separada sobre a intenção do seu cliente.
Assistentes de voz e bots agora são mais fáceis de configurar, e você pode fazê-lo parar de ouvir imediatamente e exercer maior controle sobre como ele responde a erros.
Desempenho melhorado do dispositivo ao tornar a compressão opcional.
Use o SDK de fala no Windows ARM/ARM64.
Depuração de baixo nível melhorada.
O recurso Avaliação de Pronúncia está agora mais amplamente disponível.
Várias correções de bugs para resolver problemas que VOCÊ, nossos estimados clientes, sinalizou no GitHub! OBRIGADO! Mantenha o feedback chegando!

Melhorias

O SDK de fala agora é mais eficiente e leve. Iniciamos um esforço de várias versões para reduzir o uso de memória e o espaço ocupado pelo disco do SDK de fala. Como primeiro passo, fizemos reduções significativas no tamanho dos arquivos em bibliotecas compartilhadas na maioria das plataformas. Em comparação com a versão 1.14:
- As bibliotecas do Windows compatíveis com UWP de 64 bits são cerca de 30% menores.
- As bibliotecas de 32 bits do Windows ainda não estão vendo uma melhoria de tamanho.
- As bibliotecas Linux são 20-25% menores.
- As bibliotecas Android são 3-5% menores.

Novas funcionalidades

Todos: Novos formatos de saída de 48 KHz disponíveis para a visualização privada de voz neural personalizada através da API de síntese de fala TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Todos: A voz personalizada também é mais fácil de usar. Adicionado suporte para configuração de voz personalizada via EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Antes dessa alteração, os usuários de voz personalizados precisavam definir a URL do ponto de extremidade por meio do FromEndpoint método. Agora, os clientes podem usar o FromSubscription método como vozes pré-criadas e, em seguida, fornecer a ID de implantação definindo EndpointId. Isso simplifica a configuração de vozes personalizadas.
C++/C#/Java/Objective-C/Python: obtenha mais do que a intençãoIntentRecognizer principal. Ele agora suporta a configuração do resultado JSON contendo todas as intenções e não apenas a intenção de pontuação máxima via LanguageUnderstandingModel FromEndpoint método usando verbose=true o parâmetro uri. Isso resolve o problema #880 do GitHub. Consulte a documentação atualizada aqui.
C++/C#/Java: Faça com que seu assistente de voz ou bot pare de ouvir imediatamente. DialogServiceConnector (C++, C#, Java) agora tem um StopListeningAsync() método para acompanhar ListenOnceAsync(). Isso interromperá imediatamente a captura de áudio e esperará graciosamente por um resultado, tornando-o perfeito para uso com cenários de pressionar o botão "parar agora".
C++/C#/Java/JavaScript: faça com que seu assistente de voz ou bot reaja melhor aos erros subjacentes do sistema. DialogServiceConnector (C++, C#, Java, JavaScript) agora tem um novo TurnStatusReceived manipulador de eventos. Esses eventos opcionais correspondem a todas as ITurnContext resoluções no Bot e relatarão falhas de execução quando elas acontecerem, por exemplo, como resultado de uma exceção não tratada, tempo limite ou queda de rede entre o Direct Line Speech e o bot. TurnStatusReceived facilita a resposta a condições de falha. Por exemplo, se um bot demorar muito tempo em uma consulta de banco de dados de back-end (por exemplo, procurando um produto), TurnStatusReceived permite que o cliente saiba para solicitar novamente com "desculpe, eu não entendi isso, você poderia tentar novamente" ou algo semelhante.
C++/C#: Use o SDK de fala em mais plataformas. O pacote NuGet do SDK de Fala agora suporta binários nativos da área de trabalho ARM/ARM64 do Windows (a UWP já era suportada) para tornar o SDK de Fala mais útil em mais tipos de máquina.
Java: DialogServiceConnector agora tem um setSpeechActivityTemplate() método que foi involuntariamente excluído da linguagem anteriormente. Isso é equivalente a definir a Conversation_Speech_Activity_Template propriedade e solicitará que todas as atividades futuras do Bot Framework originadas pelo serviço Direct Line Speech mesclem o conteúdo fornecido em suas cargas JSON úteis.
Java: Depuração de baixo nível melhorada. A Connection classe agora tem um MessageReceived evento, semelhante a outras linguagens de programação (C++, C#). Esse evento fornece acesso de baixo nível aos dados de entrada do serviço e pode ser útil para diagnóstico e depuração.
JavaScript: Configuração mais fácil para assistentes de voz e bots através BotFrameworkConfigdo , que agora tem fromHost() métodos fromEndpoint() de fábrica que simplificam o uso de locais de serviço personalizados versus a configuração manual de propriedades. Também padronizamos a especificação opcional de usar um bot não padrão em todas as fábricas de botId configuração.
JavaScript: Melhorado no desempenho do dispositivo através da adição da propriedade de controle de cadeia de caracteres para compactação websocket. Por motivos de desempenho, desativamos a compactação de websocket por padrão. Isso pode ser reativado para cenários de baixa largura de banda. Mais detalhes aqui. Isso resolve o problema #242 do GitHub.
JavaScript: Adicionado suporte para lPronunciation Assessment para permitir a avaliação da pronúncia da fala. Veja o início rápido aqui.

Correções de erros

Tudo (exceto JavaScript): Corrigida uma regressão na versão 1.14, na qual muita memória era alocada pelo reconhecedor.
C++: Corrigido um problema de coleta de lixo com DialogServiceConnectoro , resolvendo o problema #794 do GitHub.
C#: Corrigido um problema com o desligamento de thread que fazia com que os objetos bloqueassem por cerca de um segundo quando descartados.
C++/C#/Java: Corrigida uma exceção que impedia um aplicativo de definir token de autorização de fala ou modelo de atividade mais de uma vez em um DialogServiceConnectorarquivo .
C++/C#/Java: Corrigida uma falha do reconhecedor devido a uma condição de corrida em teardown.
JavaScript: DialogServiceConnector não honrava anteriormente o parâmetro opcional botId especificado nas BotFrameworkConfigfábricas do . Isso tornou necessário definir o botId parâmetro de cadeia de caracteres de consulta manualmente para usar um bot não padrão. O bug foi corrigido e botId os valores fornecidos às BotFrameworkConfigfábricas da serão honrados e utilizados, incluindo os novos fromHost() e fromEndpoint() aditivos. Isso também se aplica ao applicationId parâmetro para CustomCommandsConfig.
JavaScript: Corrigido o problema #881 do GitHub, que permitia a reutilização do objeto reconhecedor.
JavaScript: Corrigido um problema em que o SKD enviava speech.config várias vezes em uma sessão TTS, desperdiçando largura de banda.
JavaScript: Tratamento simplificado de erros na autorização do microfone, permitindo que mensagens mais descritivas borbulhem quando o usuário não permite a entrada do microfone em seu navegador.
JavaScript: Corrigido o problema #249 do GitHub, em que erros de digitação e ConversationTranslatorConversationTranscriber causavam um erro de compilação para usuários do TypeScript.
Objective-C: Corrigido um problema em que a compilação do GStreamer falhava para iOS no Xcode 11.4, resolvendo o problema #911 do GitHub.
Python: Corrigido o problema #870 do GitHub, removendo "DeprecationWarning: o módulo imp foi preterido em favor do importlib".

Exemplos

Exemplo de arquivo a partir do navegador JavaScript agora usa arquivos para reconhecimento de fala. Isso resolve o problema #884 do GitHub.

SDK de fala 1.14.0: versão de outubro de 2020

Nota

O SDK de fala no Windows depende do Microsoft Visual C++ Redistributable compartilhado para Visual Studio 2015, 2017 e 2019. Faça o download aqui.

Novas funcionalidades

Linux: Adicionado suporte para Debian 10 e Ubuntu 20.04 LTS.
Python/Objective-C: Adicionado suporte para a KeywordRecognizer API. A documentação estará aqui.
C++/Java/C#: Adicionado suporte para definir qualquer HttpHeader chave/valor via ServicePropertyChannel::HttpHeader.
JavaScript: Adicionado suporte para a ConversationTranscriber API. Leia a documentação aqui.
C++/C#: Adicionado novo AudioDataStream FromWavFileInput método (para ler . WAV) aqui (C++) e aqui (C#).
C++/C#/Java/Python/Objective-C/Swift: Adicionado um método para parar a stopSpeakingAsync() síntese de texto para fala. Leia a documentação de referência aqui (C++), aqui (C#), aqui (Java), aqui (Python) e aqui (Objective-C/Swift).
C#, C++, Java: Adicionada uma FromDialogServiceConnector() função à Connection classe que pode ser usada para monitorar eventos de conexão e desconexão para DialogServiceConnector. Leia a documentação de referência aqui (C#), aqui (C++) e aqui (Java).
C++/C#/Java/Python/Objective-C/Swift: Adicionado suporte para Avaliação de Pronúncia, que avalia a pronúncia da fala e dá feedback aos falantes sobre a precisão e fluência do áudio falado. Leia a documentação aqui.

Quebrando a mudança

JavaScript: PullAudioOutputStream.read() tem uma alteração de tipo de retorno de uma Promise interna para uma Native JavaScript Promise.

Correções de erros

Todos: Regressão 1.13 corrigida em SetServiceProperty que os valores com determinados caracteres especiais eram ignorados.
C#: Corrigidos exemplos de console do Windows no Visual Studio 2019 que não conseguiram localizar DLLs nativas.
C#: Corrigida falha com gerenciamento de memória se o fluxo for usado como KeywordRecognizer entrada.
ObjectiveC/Swift: Falha corrigida com gerenciamento de memória se o fluxo for usado como entrada de reconhecimento.
Windows: Corrigido o problema de coexistência com BT HFP/A2DP na UWP.
JavaScript: Corrigido o mapeamento de IDs de sessão para melhorar o registro em log e ajudar nas correlações internas de depuração/serviço.
JavaScript: Adicionada correção para DialogServiceConnector desabilitar ListenOnce chamadas após a primeira chamada.
JavaScript: Corrigido problema em que a saída do resultado seria apenas "simples".
JavaScript: Corrigido o problema de reconhecimento contínuo no Safari no macOS.
JavaScript: mitigação de carga da CPU para cenário de alta taxa de transferência de solicitações.
JavaScript: Permite acesso aos detalhes do resultado do Registro de Perfil de Voz.
JavaScript: Adicionada correção para reconhecimento contínuo no IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: Corrigido url incorreto para australiaeast e brazilsouth em IntentRecognizer.
C++/C#: Adicionado VoiceProfileType como um argumento ao criar um VoiceProfile objeto.
C++/C#/Java/Python/Swift/ObjectiveC: Potencial SPX_INVALID_ARG fixo ao tentar ler AudioDataStream a partir de uma determinada posição.
IOS: Falha corrigida com reconhecimento de fala no Unity

Exemplos

ObjectiveC: Adicionado exemplo para reconhecimento de palavras-chave aqui.
C#/JavaScript: Adicionado início rápido para transcrição de conversas aqui (C#) e aqui (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: Adicionado exemplo para avaliação de pronúncia aqui
Xamarin: Guia de início rápido atualizado para o modelo mais recente do Visual Studio aqui.

Problema Conhecido

O certificado DigiCert Global Root G2 não é suportado por padrão no HoloLens 2 e Android 4.4 (KitKat) e precisa ser adicionado ao sistema para tornar o SDK de fala funcional. O certificado será adicionado às imagens do sistema operacional HoloLens 2 em um futuro próximo. Os clientes do Android 4.4 precisam adicionar o certificado atualizado ao sistema.

Testes abreviados à COVID-19

Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual como normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada, e nossos testes automatizados foram todos aprovados. No caso improvável de perdermos algo, por favor, informe-nos no GitHub.
Mantenha-se saudável!

Speech SDK 1.13.0: versão de julho de 2020

Nota

O SDK de fala no Windows depende do Microsoft Visual C++ Redistributable compartilhado para Visual Studio 2015, 2017 e 2019. Faça o download e instale-o a partir daqui.

Novas funcionalidades

C#: Adicionado suporte para transcrição assíncrona de conversas. Consulte a documentação aqui.
JavaScript: Adicionado suporte de reconhecimento de alto-falante para navegador e Node.js.
JavaScript: Adicionado suporte para identificação de idioma/ID de idioma. Consulte a documentação aqui.
Objective-C: Adicionado suporte para conversação em vários dispositivos e transcrição de conversas.
Python: Adicionado suporte de áudio comprimido para Python no Windows e Linux. Consulte a documentação aqui.

Correções de erros

Todos: Corrigido um problema que fazia com que o KeywordRecognizer não avançasse os fluxos após um reconhecimento.
Todos: Corrigido um problema que fazia com que o fluxo obtido de um KeywordRecognitionResult não contivesse a palavra-chave.
Todos: Corrigido um problema que o SendMessageAsync realmente não envia a mensagem pelo fio depois que os usuários terminam de esperar por ela.
Todos: Corrigida uma falha nas APIs de reconhecimento de alto-falante quando os usuários chamam o método VoiceProfileClient::SpeakerRecEnrollProfileAsync várias vezes e não esperaram que as chamadas terminassem.
Todos: Corrigido habilitar o registro de arquivos nas classes VoiceProfileClient e SpeakerRecognizer.
JavaScript: Corrigido um problema com a limitação quando o navegador é minimizado.
JavaScript: Corrigido um problema com uma fuga de memória em fluxos.
JavaScript: Adicionado cache para respostas OCSP do NodeJS.
Java: Corrigido um problema que fazia com que os campos BigInteger sempre retornassem 0.
iOS: Corrigido um problema com a publicação de aplicações baseadas no Speech SDK na iOS App Store.

Exemplos

C++: Adicionado código de exemplo para reconhecimento de alto-falante aqui.

Testes abreviados à COVID-19

SDK de fala 1.12.1: versão de 2020 a junho

Novas funcionalidades

C#, C++: Visualização de reconhecimento de alto-falante: esse recurso permite a identificação do orador (quem está falando?) e a verificação do orador (o orador é quem ele afirma ser?). Comece com uma visão geral, leia o artigo Noções básicas de reconhecimento de alto-falante ou os documentos de referência da API.

Correções de erros

C#, C++: A gravação do microfone fixo não estava funcionando na versão 1.12 no Reconhecimento de alto-falantes.
JavaScript: Correções para conversão de texto em fala no Firefox e Safari no macOS e iOS.
Correção para falha de violação de acesso do verificador de aplicativos do Windows na transcrição de conversas ao usar fluxo de oito canais.
Correção para falha de violação de acesso do verificador de aplicativos do Windows na tradução de conversação em vários dispositivos.

Exemplos

C#: Exemplo de código para reconhecimento de alto-falante.
C++: Exemplo de código para reconhecimento de alto-falante.
Java: Exemplo de código para reconhecimento de intenção no Android.

Testes abreviados à COVID-19

Speech SDK 1.12.0: versão de maio de 2020

Novas funcionalidades

Go: Novo suporte ao idioma Go para Reconhecimento de Fala e assistente de voz personalizado. Configure seu ambiente de desenvolvimento aqui. Para obter um código de exemplo, consulte a seção Exemplos abaixo.
JavaScript: Adicionado suporte do navegador para conversão de texto em fala. Consulte a documentação aqui.
C++, C#, Java: Novo KeywordRecognizer objeto e APIs suportados nas plataformas Windows, Android, Linux ou iOS. Leia a documentação aqui. Para obter um código de exemplo, consulte a seção Exemplos abaixo.
Java: Adicionada conversação multi-dispositivo com suporte de tradução. Veja o documento de referência aqui.

Melhorias e otimizações

JavaScript: Implementação otimizada do microfone do navegador melhorando a precisão do reconhecimento de fala.
Java: Ligações refatoradas usando implementação JNI direta sem SWIG. Essa alteração reduz em 10x o tamanho das ligações para todos os pacotes Java usados para Windows, Android, Linux e Mac e facilita o desenvolvimento da implementação Java do Speech SDK.
Linux: Documentação de suporte atualizada com as notas específicas mais recentes do RHEL 7.
Lógica de conexão aprimorada para tentar se conectar várias vezes quando ocorrem erros de serviço e rede.
Atualizada a página de Início Rápido de Fala do portal.azure.com para ajudar os desenvolvedores a dar o próximo passo na jornada de Fala da IA do Azure.

Correções de erros

C#, Java: Corrigido um problema com o carregamento de bibliotecas SDK no Linux ARM (32 bits e 64 bits).
C#: Eliminação explícita fixa de identificadores nativos para objetos TranslationRecognizer, IntentRecognizer e Connection.
C#: Gerenciamento fixo do tempo de vida da entrada de áudio para o objeto ConversationTranscriber.
Corrigido um problema em que IntentRecognizer o motivo do resultado não era definido corretamente ao reconhecer intenções de frases simples.
Corrigido um problema em que SpeechRecognitionEventArgs o deslocamento de resultados não estava definido corretamente.
Corrigida uma condição de corrida em que o SDK tentava enviar uma mensagem de rede antes de abrir a conexão websocket. Foi reprodutível durante a TranslationRecognizer adição de participantes.
Corrigidas fugas de memória no motor de reconhecimento de palavras-chave.

Exemplos

Go: Adicionados inícios rápidos para reconhecimento de fala e assistente de voz personalizado. Encontre o código de exemplo aqui.
JavaScript: Adicionados inícios rápidos para conversão de texto em fala, tradução e reconhecimento de intenção.
Exemplos de reconhecimento de palavras-chave para C# e Java (Android).

Testes abreviados à COVID-19

Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes de verificação manual como normalmente fazemos. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada, e nossos testes automatizados foram todos aprovados. Se perdemos algo, por favor, informe-nos no GitHub.
Mantenha-se saudável!

Speech SDK 1.11.0: versão de março de 2020

Novas funcionalidades

Linux: Adicionado suporte para Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 com instruções sobre como configurar o sistema para o Speech SDK.
Linux: Adicionado suporte para .NET Core C# no Linux ARM32 e ARM64. Leia mais aqui.
C#, C++: Adicionado UtteranceId no ConversationTranscriptionResult, um ID consistente em todos os intermediários e o resultado final do reconhecimento de fala. Detalhes para C#, C++.
Python: Adicionado suporte para Language ID. Veja speech_sample.py no repositório GitHub.
Windows: Adicionado suporte ao formato de entrada de áudio comprimido na plataforma Windows para todas as aplicações de consola win32. Detalhes aqui.
JavaScript: Suporta síntese de fala (texto para fala) em NodeJS. Saiba mais aqui.
JavaScript: Adicione novas APIs para permitir a inspeção de todas as mensagens enviadas e recebidas. Saiba mais aqui.

Correções de erros

C#, C++: Corrigido um problema, então SendMessageAsync agora envia mensagem binária como tipo binário. Detalhes para C#, C++.
C#, C++: Corrigido um problema em que o uso do Connection MessageReceived evento pode causar falha se Recognizer for descartado antes Connection do objeto. Detalhes para C#, C++.
Android: O tamanho do buffer de áudio do microfone diminuiu de 800 ms para 100 ms para melhorar a latência.
Android: Corrigido um problema com o emulador Android x86 no Android Studio.
JavaScript: Adicionado suporte para regiões na China com a fromSubscription API. Detalhes aqui.
JavaScript: Adicione mais informações de erro para falhas de conexão do NodeJS.

Exemplos

Unidade: A amostra pública de reconhecimento de intenção é corrigida, onde a importação json do LUIS estava falhando. Detalhes aqui.
Python: Exemplo adicionado para Language ID. Detalhes aqui.

Testes abreviados de Covid19: Devido ao trabalho remoto nas últimas semanas, não pudemos fazer tantos testes manuais de verificação de dispositivos como normalmente fazemos. Por exemplo, não foi possível testar a entrada do microfone e a saída do alto-falante no Linux, iOS e macOS. Não fizemos nenhuma alteração que achamos que poderia ter quebrado nada nessas plataformas, e nossos testes automatizados foram todos aprovados. No caso improvável de perdermos algo, informe-nos no GitHub.
Obrigado pelo vosso apoio contínuo. Como sempre, poste perguntas ou comentários sobre o GitHub ou o Stack Overflow.
Mantenha-se saudável!

Speech SDK 1.10.0: versão de fevereiro de 2020

Novas funcionalidades

Adicionados pacotes Python para suportar a nova versão 3.8 do Python.
Suporte ao Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

Nota

Os clientes devem configurar o OpenSSL de acordo com estas instruções.
Suporte Linux ARM32 para Debian e Ubuntu.
DialogServiceConnector agora suporta um parâmetro opcional "bot ID" em BotFrameworkConfig. Este parâmetro permite o uso de vários bots de Fala de Linha Direta com um único recurso de Fala. Sem o parâmetro especificado, o bot padrão (conforme determinado pela página de configuração do canal Direct Line Speech) será usado.
DialogServiceConnector agora tem uma propriedade SpeechActivityTemplate. O conteúdo dessa cadeia de caracteres JSON será usado pelo Direct Line Speech para preencher previamente uma ampla variedade de campos suportados em todas as atividades que atingem um bot Direct Line Speech, incluindo atividades geradas automaticamente em resposta a eventos como reconhecimento de fala.
O TTS agora usa a chave de assinatura para autenticação, reduzindo a latência do primeiro byte do primeiro resultado de síntese após a criação de um sintetizador.
Modelos de reconhecimento de fala atualizados para 19 localidades para uma redução média da taxa de erro de palavras de 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Os novos modelos trazem melhorias significativas em vários domínios, incluindo cenários de ditado, transcrição de call center e indexação de vídeo.

Correções de erros

Corrigido o bug em que o Transcritor de Conversas não aguardava corretamente nas APIs do JAVA
Correção do emulador Android x86 para o problema do Xamarin GitHub
Adicionar ausente (Get|Set)Property métodos para AudioConfig
Corrigir um bug TTS em que o audioDataStream não pôde ser interrompido quando a conexão falhou
Usar um ponto de extremidade sem uma região causaria falhas na USP para o tradutor de conversação
A geração de ID em Aplicativos Universais do Windows agora usa um algoritmo GUID apropriado e exclusivo; Anteriormente, e involuntariamente, ele usava uma implementação obstinada que muitas vezes produzia colisões em grandes conjuntos de interações.

Exemplos

Exemplo de Unity para usar o Speech SDK com microfone Unity e streaming em modo push

Outras alterações

Documentação de configuração do OpenSSL atualizada para Linux

Speech SDK 1.9.0: versão de janeiro de 2020

Novas funcionalidades

Conversação multidispositivo: conecte vários dispositivos à mesma fala ou conversa baseada em texto e, opcionalmente, traduza mensagens enviadas entre eles. Saiba mais neste artigo.
Suporte de reconhecimento de palavras-chave adicionado para o pacote Android .aar e adicionado suporte para os sabores x86 e x64.
Objective-C: SendMessage e SetMessageProperty métodos adicionados ao Connection objeto. Consulte a documentação aqui.
A API TTS C++ agora suporta std::wstring como entrada de texto de síntese, removendo a necessidade de converter um wstring em string antes de passá-lo para o SDK. Veja mais detalhes aqui.
C#: ID do idioma e configuração do idioma de origem já estão disponíveis.
JavaScript: Adicionado um recurso ao Connection objeto para passar mensagens personalizadas do serviço de Fala como retorno receivedServiceMessagede chamada.
JavaScript: Adicionado suporte para FromHost API facilitar o uso com contêineres locais e nuvens soberanas. Consulte a documentação aqui.
JavaScript: Agora honramos NODE_TLS_REJECT_UNAUTHORIZED graças a uma contribuição de orgads. Veja mais detalhes aqui.

Mudanças significativas

OpenSSL foi atualizado para a versão 1.1.1b e está estaticamente vinculado à biblioteca principal do Speech SDK para Linux. Isso pode causar uma quebra se sua /usr/lib/ssl caixa OpenSSL de entrada não tiver sido instalada no diretório do sistema. Consulte a nossa documentação em Documentos do SDK de Fala para contornar o problema.
Alteramos o tipo de dados retornado para C# WordLevelTimingResult.Offset de para long permitir o acesso a quando os WordLevelTimingResults dados de int fala tiverem mais de 2 minutos.
PushAudioInputStream e PullAudioInputStream agora envie informações de cabeçalho wav para o serviço de Fala com base em AudioStreamFormat, opcionalmente especificado quando eles foram criados. Os clientes agora devem usar o formato de entrada de áudio suportado. Quaisquer outros formatos obterão resultados de reconhecimento abaixo do ideal ou poderão causar outros problemas.

Correções de erros

Consulte a OpenSSL atualização em Alterações de quebra acima. Corrigimos uma falha intermitente e um problema de desempenho (contenção de bloqueio sob alta carga) em Linux e Java.
Java: Melhorias feitas no fechamento de objetos em cenários de alta simultaneidade.
Reestruturou nosso pacote NuGet. Removemos as três cópias de Microsoft.CognitiveServices.Speech.core.dll e Microsoft.CognitiveServices.Speech.extension.kws.dll sob pastas lib, tornando o pacote NuGet menor e mais rápido para download, e adicionamos cabeçalhos necessários para compilar alguns aplicativos nativos do C++.
Amostras de início rápido corrigidas aqui. Estes estavam saindo sem exibir a exceção "microfone não encontrado" no Linux, macOS, Windows.
Corrigida falha do SDK com resultados longos de reconhecimento de fala em determinados caminhos de código como este exemplo.
Corrigido erro de implantação do SDK no ambiente do Aplicativo Web do Azure para resolver esse problema do cliente.
Corrigido um erro TTS ao usar várias <voice> tags ou <audio> tags para resolver esse problema do cliente.
Corrigido um erro TTS 401 quando o SDK é recuperado da suspensão.
JavaScript: Corrigida uma importação circular de dados de áudio graças a uma contribuição do euirim.
JavaScript: adicionado suporte para definir propriedades de serviço, conforme adicionado na versão 1.7.
JavaScript: corrigido um problema em que um erro de conexão poderia resultar em tentativas contínuas e malsucedidas de reconexão do websocket.

Exemplos

Adicionado exemplo de reconhecimento de palavra-chave para Android aqui.
Adicionado exemplo de TTS para o cenário de servidor aqui.
Adicionados inícios rápidos de conversação em vários dispositivos para C# e C++ aqui.

Outras alterações

Tamanho otimizado da biblioteca principal do SDK no Android.
O SDK na versão 1.9.0 e posteriores suporta ambos e intstring tipos no campo de versão de assinatura de voz para o Transcritor de Conversa.

Speech SDK 1.8.0: versão de novembro de 2019

Novas funcionalidades

Adicionada uma FromHost() API, para facilitar o uso com contêineres locais e nuvens soberanas.
Adicionada identificação de idioma de origem para reconhecimento de fala (em Java e C++)
Adicionado SourceLanguageConfig objeto para Reconhecimento de Fala, usado para especificar linguagens de origem esperadas (em Java e C++)
Adicionado KeywordRecognizer suporte em Windows (UWP), Android e iOS através dos pacotes NuGet e Unity
Adicionada API Java de Conversação Remota para fazer Transcrição de Conversação em lotes assíncronos.

Mudanças significativas

Funcionalidades do transcritor de conversação movidas sob namespace Microsoft.CognitiveServices.Speech.Transcription.
Partes dos métodos do Transcritor de Conversação são movidas para uma nova Conversation classe.
Caiu o suporte para iOS de 32 bits (ARMv7 e x86)

Correções de erros

Correção de falha se local KeywordRecognizer for usado sem uma chave de assinatura válida do serviço de Fala

Exemplos

Exemplo de Xamarin para KeywordRecognizer
Amostra de unidade para KeywordRecognizer
Exemplos de C++ e Java para identificação automática da linguagem de origem.

Speech SDK 1.7.0: versão de setembro de 2019

Novas funcionalidades

Adicionado suporte beta para Xamarin na Plataforma Universal do Windows (UWP), Android e iOS
Adicionado suporte iOS para Unity
Adicionado Compressed suporte de entrada para ALaw, Mulaw, FLAC, Android, iOS e Linux
Adicionado SendMessageAsync na Connection classe para enviar uma mensagem ao serviço
Adicionado SetMessageProperty na Connection classe para definir a propriedade de uma mensagem
O TTS adicionou ligações para Java (JRE e Android), Python, Swift e Objective-C
TTS adicionou suporte de reprodução para macOS, iOS e Android.
Adicionadas informações de "limite de palavras" para TTS.

Correções de erros

Corrigido o problema de compilação IL2CPP no Unity 2019 para Android
Corrigido o problema com cabeçalhos malformados na entrada de arquivo wav sendo processados incorretamente
Corrigido o problema com UUIDs não sendo exclusivos em algumas propriedades de conexão
Corrigidos alguns avisos sobre especificadores de anulabilidade nas ligações Swift (podem exigir pequenas alterações de código)
Corrigido um bug que fazia com que as conexões websocket fossem fechadas ingraciosamente sob carga de rede
Corrigido um problema no Android que, por vezes, resultava em IDs de impressão duplicados utilizados por DialogServiceConnector
Melhorias na estabilidade das conexões em interações multiturno e no relatório de falhas (via Canceled eventos) quando ocorrem com DialogServiceConnector
DialogServiceConnector Os inícios de sessão agora fornecerão eventos corretamente, inclusive ao chamar ListenOnceAsync() durante um ativo StartKeywordRecognitionAsync()
Resolução de uma falha associada a DialogServiceConnector atividades recebidas

Exemplos

Guia de início rápido para Xamarin
Guia de início rápido CPP atualizado com informações do Linux ARM64
Guia de início rápido atualizado do Unity com informações do iOS

Speech SDK 1.6.0: versão de junho de 2019

Exemplos

Exemplos de início rápido para conversão de texto em fala na UWP e no Unity
Exemplo de início rápido para Swift no iOS
Exemplos Unity para Reconhecimento de Fala e Intenção e Tradução
Exemplos de início rápido atualizados para DialogServiceConnector

Melhorias / Alterações

Namespace da caixa de diálogo:
- SpeechBotConnector mudou de nome para DialogServiceConnector
- BotConfig mudou de nome para DialogServiceConfig
- BotConfig::FromChannelSecret() foi remapeado para DialogServiceConfig::FromBotSecret()
- Todos os clientes de Direct Line Speech existentes continuam a ser suportados após a mudança de nome
Atualize o adaptador TTS REST para suportar proxy e conexão persistente
Melhorar a mensagem de erro quando uma região inválida é passada
Swift/Objectivo-C:
- Relatório de erros aprimorado: os métodos que podem resultar em um erro agora estão presentes em duas versões: uma que expõe um NSError objeto para tratamento de erros e outra que gera uma exceção. Os primeiros estão expostos a Swift. Esta alteração requer adaptações ao código Swift existente.
- Tratamento de eventos melhorado

Correções de erros

Correção para TTS: onde SpeakTextAsync o futuro retornou sem esperar até que o áudio tenha concluído a renderização
Correção para empacotar cadeias de caracteres em C# para habilitar o suporte total a idiomas
Correção para o problema do aplicativo principal do .NET para carregar a biblioteca principal com a estrutura de destino net461 em exemplos
Correção de problemas ocasionais para implantar bibliotecas nativas na pasta de saída em exemplos
Correção para fechamento de soquete da Web de forma confiável
Correção para possível falha ao abrir uma conexão sob carga pesada no Linux
Correção para metadados ausentes no pacote de estrutura para macOS
Correção para problemas com pip install --user no Windows

SDK de fala 1.5.1

Esta é uma versão de correção de bug e afeta apenas o SDK nativo/gerenciado. Isso não está afetando a versão JavaScript do SDK.

Correções de erros

Corrija FromSubscription quando usado com a transcrição de conversa.
Corrija bug na deteção de palavras-chave para Assistentes de Voz.

Speech SDK 1.5.0: versão de maio de 2019

Novas funcionalidades

Keyword spotting (KWS) já está disponível para Windows e Linux. A funcionalidade KWS pode funcionar com qualquer tipo de microfone, no entanto, o suporte oficial do KWS está atualmente limitado às matrizes de microfone encontradas no hardware do Azure Kinect DK ou no SDK de Dispositivos de Fala.
A funcionalidade de dica de frase está disponível através do SDK. Para obter mais informações, veja aqui.
A funcionalidade de transcrição de conversas está disponível através do SDK.
Adicione suporte para Assistentes de Voz usando o canal Direct Line Speech.

Exemplos

Exemplos adicionados para novos recursos ou novos serviços suportados pelo SDK.

Melhorias / Alterações

Adicionadas várias propriedades do reconhecedor para ajustar o comportamento do serviço ou os resultados do serviço (como mascarar palavrões e outros).
Agora você pode configurar o reconhecedor por meio das propriedades de configuração padrão, mesmo que tenha criado o reconhecedor FromEndpoint.
Objective-C: OutputFormat propriedade foi adicionada ao SPXSpeechConfiguration.
O SDK agora suporta Debian 9 como uma distribuição Linux.

Correções de erros

Corrigido um problema em que o recurso de orador era destruído demasiado cedo na conversão de texto em voz.

SDK de fala 1.4.2

Esta é uma versão de correção de bug e afeta apenas o SDK nativo/gerenciado. Isso não está afetando a versão JavaScript do SDK.

SDK de fala 1.4.1

Esta é uma versão somente JavaScript. Nenhum recurso foi adicionado. Foram feitas as seguintes correções:

Impeça que o pacote da Web carregue https-proxy-agent.

Speech SDK 1.4.0: versão de abril de 2019

Novas funcionalidades

O SDK agora suporta o serviço de conversão de texto em fala como uma versão beta. É suportado em Windows e Linux Desktop a partir de C++ e C#. Para obter mais informações, consulte a Visão geral de texto para fala.
O SDK agora suporta arquivos de áudio MP3 e Opus/OGG como arquivos de entrada de fluxo. Este recurso está disponível apenas no Linux a partir de C++ e C# e está atualmente em versão beta (mais detalhes aqui).
O Speech SDK para Java, .NET core, C++ e Objective-C ganharam suporte para macOS. O suporte Objective-C para macOS está atualmente em beta.
iOS: O Speech SDK para iOS (Objective-C) agora também é publicado como um CocoaPod.
JavaScript: Suporte para microfone não padrão como dispositivo de entrada.
JavaScript: Suporte de proxy para Node.js.

Exemplos

Foram adicionados exemplos para usar o Speech SDK com C++ e com Objective-C no macOS.
Foram adicionados exemplos que demonstram a utilização do serviço Conversão de texto em voz.

Melhorias / Alterações

Python: Propriedades adicionais dos resultados de reconhecimento agora são expostas por meio da properties propriedade.
Para suporte adicional de desenvolvimento e depuração, você pode redirecionar as informações de log e diagnóstico do SDK para um arquivo de log (mais detalhes aqui).
JavaScript: Melhore o desempenho do processamento de áudio.

Correções de erros

Mac/iOS: Foi corrigido um bug que levava a uma longa espera quando não era possível estabelecer uma ligação ao serviço de Voz.
Python: melhorar o tratamento de erros para argumentos em retornos de chamada Python.
JavaScript: Corrigido relatório de estado errado para fala terminada em RequestSession.

SDK de fala 1.3.1: atualização de fevereiro de 2019

Esta é uma versão de correção de bug e afeta apenas o SDK nativo/gerenciado. Isso não está afetando a versão JavaScript do SDK.

Correção de bugs

Corrigido um vazamento de memória ao usar a entrada do microfone. A entrada baseada em fluxo ou de arquivo não é afetada.

Speech SDK 1.3.0: versão de fevereiro de 2019

Novas funcionalidades

O SDK de fala suporta a seleção do microfone de entrada através da AudioConfig classe. Isso permite que você transmita dados de áudio para o serviço de fala a partir de um microfone não padrão. Para obter mais informações, consulte a documentação que descreve a seleção de dispositivos de entrada de áudio. Esse recurso ainda não está disponível em JavaScript.
O SDK de fala agora suporta Unity em uma versão beta. Forneça comentários por meio da seção de problemas no repositório de exemplo do GitHub. Esta versão suporta Unity no Windows x86 e x64 (desktop ou aplicativos da Plataforma Universal do Windows) e Android (ARM32/64, x86). Mais informações estão disponíveis em nosso guia de início rápido Unity.
O arquivo Microsoft.CognitiveServices.Speech.csharp.bindings.dll (enviado em versões anteriores) não é mais necessário. A funcionalidade agora está integrada ao SDK principal.

Exemplos

O novo conteúdo a seguir está disponível em nosso repositório de exemplo:

Amostras adicionais para AudioConfig.FromMicrophoneInput.
Exemplos adicionais de Python para reconhecimento e tradução de intenção.
Exemplos adicionais para usar o Connection objeto no iOS.
Amostras Java adicionais para tradução com saída de áudio.
Novo exemplo para uso da API REST de transcrição em lote.

Melhorias / Alterações

Píton
- Verificação de parâmetros e mensagens de erro aprimoradas no SpeechConfig.
- Adicione suporte para o Connection objeto.
- Suporte para Python de 32 bits (x86) no Windows.
- O SDK de Fala para Python está fora da versão beta.
iOS
- O SDK agora é construído com base no iOS SDK versão 12.1.
- O SDK agora suporta iOS versões 9.2 e posteriores.
- Melhore a documentação de referência e corrija vários nomes de propriedades.
JavaScript
- Adicione suporte para o Connection objeto.
- Adicionar arquivos de definição de tipo para JavaScript incluído
- Suporte inicial e implementação para dicas de frases.
- Retornar a coleção de propriedades com o serviço JSON para reconhecimento
As DLLs do Windows agora contêm um recurso de versão.
Se você criar um reconhecedor FromEndpoint, poderá adicionar parâmetros diretamente à URL do ponto de extremidade. Usando FromEndpoint você não pode configurar o reconhecedor através das propriedades de configuração padrão.

Correções de erros

O nome de usuário e a senha do proxy vazios não foram tratados corretamente. Com esta versão, se você definir o nome de usuário e a senha do proxy para uma cadeia de caracteres vazia, eles não serão enviados ao se conectar ao proxy.
Os SessionId's criados pelo SDK nem sempre foram verdadeiramente aleatórios para algumas linguagens / ambientes. Adicionada inicialização aleatória do gerador para corrigir esse problema.
Melhore o tratamento do token de autorização. Se você quiser usar um token de autorização, especifique e SpeechConfig deixe a chave de assinatura vazia. Em seguida, crie o reconhecedor como de costume.
Em alguns casos, o objeto não foi liberado Connection corretamente. Esse problema foi corrigido.
A amostra JavaScript foi corrigida para suportar saída de áudio para síntese de tradução também no Safari.

SDK de fala 1.2.1

Esta é uma versão somente JavaScript. Nenhum recurso foi adicionado. Foram feitas as seguintes correções:

Fire end do fluxo em turn.end, não em speech.end.
Corrija um bug na bomba de áudio que não agendava o próximo envio se o envio atual falhasse.
Corrija o reconhecimento contínuo com o token de autenticação.
Correção de bugs para diferentes reconhecedores / endpoints.
Melhorias na documentação.

Speech SDK 1.2.0: versão de dezembro de 2018

Novas funcionalidades

Píton
- A versão Beta do suporte Python (3.5 e superior) está disponível com esta versão. Para mais informações, ver aqui](.. /.. /quickstart-python.md).
JavaScript
- O SDK de Fala para JavaScript foi de código aberto. O código-fonte está disponível no GitHub.
- Agora apoiamos Node.js, mais informações podem ser encontradas aqui.
- A restrição de duração para sessões de áudio foi removida, a reconexão acontecerá automaticamente sob a cobertura.
Connection objeto
- A partir do Recognizer, você pode acessar um Connection objeto. Este objeto permite que você inicie explicitamente a conexão de serviço e se inscreva para conectar e desconectar eventos. (Este recurso ainda não está disponível em JavaScript e Python.)
Suporte para Ubuntu 18.04.
Androide
- Suporte ProGuard ativado durante a geração APK.

Melhorias

Melhorias no uso de threads internos, reduzindo o número de threads, bloqueios, mutexes.
Relatórios / informações de erros melhorados. Em vários casos, as mensagens de erro não foram propagadas até o fim.
Dependências de desenvolvimento atualizadas em JavaScript para usar módulos atualizados.

Correções de erros

Corrigidas fugas de memória devido a uma incompatibilidade de tipos no RecognizeAsync.
Em alguns casos, foram vazadas exceções.
Correção de vazamento de memória em argumentos de evento de tradução.
Corrigido um problema de bloqueio na reconexão em sessões de longa duração.
Corrigido um problema que poderia levar à falta do resultado final por traduções com falha.
C#: Se uma async operação não era esperada no thread principal, era possível que o reconhecedor pudesse ser descartado antes que a tarefa assíncrona fosse concluída.
Java: Corrigido um problema que resultava em uma falha da Java VM.
Objetivo-C: Mapeamento de enum fixo; RecognizedIntent foi devolvido em vez de RecognizingIntent.
JavaScript: defina o formato de saída padrão como 'simples' em SpeechConfig.
JavaScript: Removendo a inconsistência entre propriedades no objeto config em JavaScript e outras linguagens.

Exemplos

Atualizado e corrigido vários exemplos (por exemplo, vozes de saída para tradução, etc.).
Adicionado Node.js amostras no repositório de exemplos.

SDK de fala 1.1.0

Novas funcionalidades

Suporte para Android x86/x64.
Suporte a proxy: No SpeechConfig objeto, agora você pode chamar uma função para definir as informações de proxy (nome do host, porta, nome de usuário e senha). Esta funcionalidade ainda não está disponível no iOS.
Código de erro e mensagens melhorados. Se um reconhecimento retornou um erro, ele já foi definido Reason (no evento cancelado) ou CancellationDetails (no resultado do reconhecimento) como Error. O evento cancelado agora contém dois membros ErrorCode adicionais e ErrorDetails. Se o servidor retornou informações de erro adicionais com o erro relatado, ele estará disponível nos novos membros.

Melhorias

Adicionada verificação adicional na configuração do reconhecedor e adicionada mensagem de erro adicional.
Tratamento melhorado do silêncio de longa data no meio de um ficheiro de áudio.
Pacote NuGet: para projetos do .NET Framework, ele impede a criação com a configuração AnyCPU.

Correções de erros

Corrigidas várias exceções encontradas em reconhecedores. Além disso, as exceções são capturadas e convertidas em Canceled evento.
Corrija uma fuga de memória na gestão de propriedades.
Corrigido bug em que um arquivo de entrada de áudio poderia travar o reconhecedor.
Corrigido um bug em que os eventos podiam ser recebidos após um evento de interrupção de sessão.
Corrigidas algumas condições de corrida no threading.
Corrigido um problema de compatibilidade do iOS que podia resultar numa falha.
Melhorias de estabilidade para suporte a microfone Android.
Corrigido um bug em que um reconhecedor em JavaScript ignorava a linguagem de reconhecimento.
Corrigido um bug que impedia a configuração do EndpointId (em alguns casos) em JavaScript.
Alterada a ordem dos parâmetros em AddIntent em JavaScript e adicionada a assinatura JavaScript ausente AddIntent .

Exemplos

Adicionados exemplos de C++ e C# para uso de fluxo de pull e push no repositório de exemplo.

SDK de fala 1.0.1

Melhorias de confiabilidade e correções de bugs:

Corrigido erro fatal potencial devido à condição de corrida na eliminação do reconhecedor
Corrigido erro fatal potencial quando ocorrem propriedades não definidas.
Adicionado erro adicional e verificação de parâmetros.
Objective-C: Corrigido possível erro fatal causado pela substituição de nome no NSString.
Objetivo-C: Visibilidade ajustada da API
JavaScript: Corrigido em relação a eventos e suas cargas úteis.
Melhorias na documentação.

Em nosso repositório de exemplo, um novo exemplo para JavaScript foi adicionado.

Azure AI Speech SDK 1.0.0: versão de setembro de 2018

Novas funcionalidades

Suporte para Objective-C no iOS. Confira nosso guia de início rápido Objective-C para iOS.
Suporte para JavaScript no navegador. Confira nosso guia de início rápido em JavaScript.

Mudanças significativas

Com esta versão, uma série de mudanças de quebra são introduzidas. Consulte esta página para mais detalhes.

Azure AI Speech SDK 0.6.0: versão de agosto de 2018

Novas funcionalidades

Os aplicativos UWP criados com o SDK de Fala agora podem passar pelo Kit de Certificação de Aplicativos Windows (WACK). Confira o início rápido da UWP.
Suporte para .NET Standard 2.0 no Linux (Ubuntu 16.04 x64).
Experimental: Suporte Java 8 no Windows (64-bit) e Linux (Ubuntu 16.04 x64). Confira o início rápido do Java Runtime Environment.

Mudança funcional

Exponha informações adicionais de detalhes de erro sobre erros de conexão.

Mudanças significativas

Em Java (Android), a SpeechFactory.configureNativePlatformBindingWithDefaultCertificate função não requer mais um parâmetro path. Agora o caminho é detetado automaticamente em todas as plataformas suportadas.
O get-accessor da propriedade EndpointUrl em Java e C# foi removido.

Correções de erros

Em Java, o resultado da síntese de áudio no reconhecedor de tradução é implementado agora.
Corrigido um bug que poderia causar threads inativos e um maior número de soquetes abertos e não utilizados.
Corrigido um problema, em que um reconhecimento de longa duração podia terminar no meio da transmissão.
Corrigida uma condição de corrida no desligamento do reconhecedor.

Azure AI Speech SDK 0.5.0: versão de julho de 2018

Novas funcionalidades

Suporte plataforma Android (API 23: Android 6.0 Marshmallow ou superior). Confira o início rápido do Android.
Suporte .NET Standard 2.0 no Windows. Confira o início rápido do .NET Core.
Experimental: Suporte UWP no Windows (versão 1709 ou posterior).
- Confira o início rápido da UWP.
- Observe que os aplicativos UWP criados com o SDK de Fala ainda não passam pelo Kit de Certificação de Aplicativos Windows (WACK).
Suporta reconhecimento de longa duração com reconexão automática.

Alterações funcionais

StartContinuousRecognitionAsync() Suporta reconhecimento de longa duração.
O resultado do reconhecimento contém mais campos. Eles são deslocados do início e duração do áudio (ambos em ticks) do texto reconhecido e valores adicionais que representam o status de reconhecimento, por exemplo, InitialSilenceTimeout e InitialBabbleTimeout.
Suporte AuthorizationToken para criar instâncias de fábrica.

Mudanças significativas

Eventos de reconhecimento: NoMatch o tipo de evento foi mesclado ao Error evento.
SpeechOutputFormat em C# foi renomeado para OutputFormat permanecer alinhado com C++.
O tipo de retorno de alguns métodos da AudioInputStream interface mudou ligeiramente:
- Em Java, o read método agora retorna long em vez de int.
- Em C#, o Read método agora retorna uint em vez de int.
- Em C++, os Read métodos e GetFormat agora retornam size_t em vez de int.
C++: Instâncias de fluxos de entrada de áudio agora podem ser passadas apenas como um shared_ptrarquivo .

Correções de erros

Corrigidos valores de retorno incorretos no resultado quando RecognizeAsync() o tempo limite expira.
A dependência de bibliotecas de fundação de mídia no Windows foi removida. O SDK agora usa APIs de áudio principal.
Correção de documentação: adicionada uma página de regiões para descrever as regiões suportadas.

Problema Conhecido

O SDK de fala para Android não relata resultados de síntese de fala para tradução. Esse problema será corrigido na próxima versão.

Azure AI Speech SDK 0.4.0: versão de junho de 2018

Alterações funcionais

AudioInputStream

Um reconhecedor agora pode consumir um fluxo como fonte de áudio. Para obter mais informações, consulte o guia de instruções relacionado.
Formato de saída detalhado

Ao criar um SpeechRecognizerformato , você pode solicitar Detailed ou Simple produzir. O DetailedSpeechRecognitionResult contém um escore de confiança, texto reconhecido, forma lexical crua, forma normalizada e forma normalizada com palavrões mascarados.

Quebrando a mudança

Alterado para SpeechRecognitionResult.Text de SpeechRecognitionResult.RecognizedText em C#.

Correções de erros

Corrigido um possível problema de retorno de chamada na camada USP durante o desligamento.
Se um reconhecedor consumisse um arquivo de entrada de áudio, ele estava segurando o identificador de arquivo por mais tempo do que o necessário.
Removidos vários bloqueios entre a bomba de mensagens e o reconhecedor.
Dispare um NoMatch resultado quando a resposta do serviço estiver esgotada.
As bibliotecas de fundação de mídia no Windows são carregadas com atraso. Esta biblioteca é necessária apenas para entrada de microfone.
A velocidade de upload para dados de áudio é limitada a cerca de duas vezes a velocidade de áudio original.
No Windows, os assemblies C# .NET agora têm nomes fortes.
Correção de documentação: Region são informações necessárias para criar um reconhecedor.

Mais amostras foram adicionadas e estão sendo constantemente atualizadas. Para obter o conjunto de exemplos mais recente, consulte o repositório GitHub de exemplos do SDK de fala.

Azure AI Speech SDK 0.2.12733: versão de maio de 2018

Esta versão é a primeira versão de visualização pública do SDK de Fala do Azure AI.

CLI de fala 1.37.0: versão de abril de 2024

Atualizado para usar o Speech SDK 1.37.0

Novas funcionalidades

nenhum

Correções de erros

nenhum

CLI de fala 1.36.0: versão de março de 2024

Atualizado para usar o Speech SDK 1.36.0

Novas funcionalidades

nenhum

Correções de erros

nenhum

CLI de fala 1.35.0: versão de fevereiro de 2024

Atualizado para usar o Speech SDK 1.35.0

Novas funcionalidades

nenhum

Correções de erros

Atualize a dependência do JMESPath para a mais recente

CLI de fala 1.34.0: versão de novembro de 2023

Atualizado para usar o Speech SDK 1.34.0

CLI de fala 1.33.0: versão de outubro de 2023

Atualizado para usar o Speech SDK 1.34.0

CLI de fala 1.31.0: versão de agosto de 2023

Atualizado para usar o Speech SDK 1.31.0

CLI de fala 1.30.0: versão de julho de 2023

Atualizado para usar o Speech SDK 1.30.0

CLI de fala 1.29.0: versão de junho de 2023

Atualizado para usar o Speech SDK 1.29.0

CLI de fala 1.28.0: versão de maio de 2023

Atualizado para usar o Speech SDK 1.28.0

CLI de fala 1.27.0: versão de abril de 2023

Atualizações

Atualizado para usar o Speech SDK 1.27.0
Atualize o ponto de extremidade padrão para usar APIs REST v3.1 para reconhecimento de fala personalizado e reconhecimento de fala em lote.

Correções de erros

Correções relacionadas a como os parâmetros de consulta são analisados/configurados.

CLI de fala 1.26.0: versão de março de 2023

Atualizado para usar o Speech SDK 1.26.0.

CLI de fala 1.25.0: versão de janeiro de 2023

Atualizado para usar o Speech SDK 1.25.0.

CLI de fala 1.24.0: versão de outubro de 2022

Usa o Speech SDK 1.24.0.

Novas funcionalidades

"verificação spx" expandida para suportar consultas JMESPath em todos os eventos spx

Correções de erros

Várias melhorias na robustez em relação às avaliações de consulta JMESPath
Correção para truncamentos em gravações de arquivo que podem ocorrer em máquinas com recursos restritos

CLI de fala 1.23.0: versão de julho de 2022

Usa o Speech SDK 1.23.0.

Novas funcionalidades

Melhor legenda (--output vtt e --output srt) grande divisão de resultados (37 char max, 3 linhas)
Opções documentadas spx synthesize--format (consulte spx help synthesize format)
Documentada a maioria dos spx csr comandos/opções (consulte spx help csr)
Comando adicionado spx csr model copy (consulte spx help csr model copy)
Opção adicionada --check result usando consultas JMES (consulte spx help check result)
Mensagens de erro melhoradas ao especificar opções de comando inválidas
Movido do .NET Core 3.1 para o .NET 6.0. Para executar a CLI de fala, você precisará instalar o .NET 6.0 Runtime (ou superior).

Correções de erros

Atualizado todos os URLs para remover o idioma (por exemplo, "en-US")
Informações de versão corrigidas para relatar corretamente em todos os casos (anteriormente, às vezes mostrava um espaço em branco)

CLI de fala 1.22.0: versão de junho de 2022

Usa o Speech SDK 1.22.0.

Novas funcionalidades

Adicionado spx init comando para guiar os usuários pela criação da chave de recurso de fala sem ir ao Portal da Web do Azure.
Os contêineres do docker de fala agora têm a CLI do Azure incluída, portanto, o spx init comando funciona imediatamente.
Adicionado carimbo de data/hora como uma opção de saída de evento, para tornar o SPX mais útil ao calcular latências.

CLI de fala 1.21.0: versão de abril de 2022

Usa o Speech SDK 1.21.0.

Novas funcionalidades

Geração de legendas WEBVTT
- Foi adicionado suporte --output vtt a spx translate
- Suporta --output vtt file FILENAME para substituir o VTT FILENAME padrão
- Suporta --output vtt file - gravação na saída padrão
- Arquivos VTT individuais são criados para cada idioma de destino (por exemplo --target en;de;fr)
Geração de legendas SRT
- Adicionado --output srt suporte a spx recognize, spx intente spx translate
- Suporta --output srt file FILENAME para substituir o padrão SRT FILENAME
- Suporta --output srt file - gravação na saída padrão
- Para spx translate, arquivos SRT individuais são criados para cada idioma de destino (por exemplo --target en;de;fr)

Correções de erros

Saída de tempo WEBVTT corrigida para usar hh:mm:ss.fff corretamente o formato

CLI de fala 1.20.0: versão de janeiro de 2022

Novas funcionalidades

Reconhecimento de oradores
- spx profile enroll e spx speaker [identify/verify] agora suporta entrada de microfone
Reconhecimento de intenção (spx intent)
- --keyword FILE.table
- --pattern e --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, --once+, --continuous (contínuo agora padrão)
- --output all/each connection EVENT
- --output all/each connection message (por exemplo, text, path)
Verificação/criação de expectativas de saída do console da CLI:
- --expect PATTERN e --not expect PATTERN suporte em todos os comandos
- --auto expect para ajudar na criação de padrões esperados
Verificação/criação de expectativas de saída de log do SDK
- --log expect PATTERN e --not log expect PATTERN suporte em todos os comandos
- --log auto expect [FILTER] Suporte em todos os comandos
- --log FILE apoio em spx profile e spx speaker
Entrada de arquivo de áudio
- --format ANY Suporte em todos os comandos
- --file - suporte (leitura de entrada padrão, habilitando cenários de tubo)
Saída de arquivo de áudio
- --audio output - Gravação na saída padrão, habilitando cenários de pipe
Arquivos de saída
- --output all/each file - Gravar na saída padrão
- --output batch file - Gravar na saída padrão
- --output vtt file - Gravar na saída padrão
- --output json file - Gravar na saída padrão, para spx csr e spx batch comandos
Propriedades de saída
- --output […] result XXX property (PropertyId ou string)
- --output […] connection message received XXX property (PropertyId ou string)
- --output […] recognizer XXX property (PropertyId ou string)
Integração do Azure WebJob
- spx webjob agora segue o padrão de subcomando
- Ajuda do WebJob atualizada para refletir o padrão de subcomando (consulte spx help webjob)

Correções de erros

Corrigido bug quando ambos --output vtt FILE e --output batch FILE são usados ao mesmo tempo
spx [...] --zip ZIPFILENAME agora inclui todos os binários necessários para todos os cenários (se houver)
spx profile e spx speaker comandos agora retornam informações detalhadas de erro sobre cancelamento

Versão de maio de 2021

Novas funcionalidades

Adicionado suporte para verificação de perfil, ID do alto-falante e alto-falante - Tente spx profile e spx speaker a partir da linha de comando.
Também adicionamos suporte a caixa de diálogo - Tentar spx dialog a partir da linha de comando.
Ajuda melhorada spx . Por favor, dê-nos feedback sobre como isso funciona para você, abrindo um problema do GitHub.
Diminuímos o tamanho da instalação da ferramenta .NET.

Testes abreviados à COVID-19

Como a pandemia contínua continua a exigir que nossos engenheiros trabalhem em casa, os scripts de verificação manual pré-pandemia foram significativamente reduzidos. Testamos em menos dispositivos com menos configurações, e a probabilidade de bugs específicos do ambiente passarem pode ser aumentada. Ainda validamos rigorosamente com um grande conjunto de automação. No caso improvável de perdermos algo, por favor, informe-nos no GitHub.
Mantenha-se saudável!

Versão 2021-março

Novas funcionalidades

Adicionado spx intent comando para reconhecimento de intenção, substituindo spx recognize intent.
Reconhecer e pretender agora pode usar as funções do Azure para calcular a taxa de erro de palavras usando spx recognize --wer url <URL>o .
Reconhecer agora pode produzir resultados como arquivos VTT usando spx recognize --output vtt file <FILENAME>.
Informações de chave sensíveis agora obscurecidas na saída debug/verbose.
Adicionada verificação de URL e mensagem de erro para o campo de conteúdo na transcrição em lote criar.

Testes abreviados à COVID-19

Versão 2021-janeiro

Novas funcionalidades

A CLI de fala agora está disponível como um pacote NuGet e pode ser instalada via .NET CLI como uma ferramenta global do .NET que você pode chamar a partir do shell/linha de comando.
O repositório de modelo de DevOps de fala personalizado foi atualizado para usar a CLI de fala para seus fluxos de trabalho de fala personalizados.

Testes abreviados à COVID-19

Versão de 2020-outubro

SPX é a interface de linha de comando para usar o serviço de fala sem escrever código. Faça o download da versão mais recente aqui.

Novas funcionalidades

spx csr dataset upload --kind audio|language|acoustic – criar conjuntos de dados a partir de dados locais, não apenas de URLs.
spx csr evaluation create|status|list|update|delete – comparar novos modelos com a verdade de base/outros modelos.
spx * list – suporta experiência não paginada (não requer --top X --skip X).
spx * --http header A=B – suporte a cabeçalhos personalizados (adicionado para o Office para autenticação personalizada).
spx help – texto melhorado e back-tick texto codificado por cores (azul).

Versão 2020-junho

Recursos de pesquisa de ajuda in-CLI adicionados:
- spx help find --text TEXT
- spx help find --topic NAME
Atualizado para funcionar com APIs de fala personalizadas e em lote v3.0 recém-implantadas:
- spx help batch examples
- spx help csr examples

Testes abreviados à COVID-19

CLI de fala (também conhecida como SPX): versão de maio de 2020

O SPX é uma nova ferramenta de linha de comando que permite executar reconhecimento, síntese, tradução, transcrição em lote e gerenciamento de fala personalizado a partir da linha de comando. Use-o para testar o serviço de Fala ou para criar scripts para as tarefas do serviço de Fala que você precisa executar. Faça o download da ferramenta e leia a documentação aqui.

Versão de abril de 2024

Avatar de texto para fala

Agora você pode definir uma imagem de fundo estática para seus avatares. Para utilizar esse recurso, basta usar a avatarConfig.backgroundImage propriedade e especificar uma URL apontando para a imagem desejada. Para detials, consulte Como editar o plano de fundo.

Versão de março de 2024

Voz neural pré-construída

9 vozes multilingues estão geralmente disponíveis em todas as regiões: en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeuralfr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeural, e zh-CN-XiaoxiaoMultilingualNeural. Consulte a lista completa de idiomas e vozes para obter mais informações.
Introdução de uma nova voz multilingue para pré-visualização pública: ja-JP-MasaruMultilingualNeural. Consulte a lista completa de idiomas e vozes para obter mais informações.
Atualizações adicionais:
- en-US-RyanMultilingualNeural está geralmente disponível em todas as regiões.
- en-US-JennyMultilingualV2Neural está geralmente disponível em todas as regiões, mesclado com en-US-JennyMultilingualNeural.
- Pré-visualização disponível para o atualizado en-IN-NeerjaNeural e hi-IN-SwaraNeural com 3 novos estilos no Leste dos EUA, Europa Ocidental e Sudeste Asiático.
- Pré-visualização disponível para novas vozes femininas na Índia Central: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeural, e hi-IN-AnanyaNeural.

Avatar de texto para fala

Removida a dependência do Azure Communication Services (ACS) TURN para avatar em tempo real. O código de exemplo foi atualizado de acordo para refletir essa alteração.
Publicação de preços de avatar de texto para fala. Para obter mais detalhes, consulte a página de preços. Observe que o preço do avatar só será visível para regiões de serviço onde o recurso está disponível, incluindo Oeste dos EUA 2, Europa Ocidental e Sudeste Asiático.

Versão de fevereiro de 2024

Vozes OpenAI

O serviço Azure AI Speech dá suporte a vozes de texto para fala OpenAI nas seguintes regiões: Centro-Norte dos EUA e Suécia Central. Como as vozes de fala do Azure AI, as vozes de texto para fala do OpenAI fornecem síntese de fala de alta qualidade para converter texto escrito em áudio falado com som natural. Isso desbloqueia uma ampla gama de possibilidades para experiências de usuário imersivas e interativas. Para obter mais informações, consulte O que são vozes de texto para fala do OpenAI?.

Nota

As vozes de texto para fala do OpenAI também estão disponíveis no Serviço OpenAI do Azure.
Com esta atualização, ajustamos o preço de vozes neurais pré-criadas com o Azure AI Speech. Consulte os preços atualizados aqui.

Voz pessoal

O recurso de voz pessoal agora suporta DragonLatestNeural e PhoenixLatestNeural modelos. Estes novos modelos realçam a naturalidade das vozes sintetizadas, assemelhando-se melhor às características de fala da voz no prompt. Para obter mais detalhes, consulte Integrar voz pessoal em seu aplicativo.

Versão de dezembro de 2023

API de voz personalizada

A API de voz personalizada está disponível para criar e gerenciar modelos de voz neural personalizados profissionais e pessoais .

Voz neural personalizada

Os modelos de voz recém-treinados suportam agora uma taxa de amostragem de 48 kHz, independentemente da versão do modelo. Para modelos de voz previamente treinados, é necessário atualizar a versão do motor para pelo menos a versão 2023.11.13.0 para aumentar a taxa de amostragem para 48 kHz.

Voz neural pré-construída

Introdução de novas vozes multilingues para pré-visualização pública:

Localidade (BCP-47)	Idioma	Vozes de texto para fala
`de-DE`	Alemão (Alemanha)	`de-DE-FlorianMultilingualNeural` (Masculino)
`de-DE`	Alemão (Alemanha)	`de-DE-SeraphinaMultilingualNeural` (Feminino)
`en-US`	Inglês (Estados Unidos)	`en-US-AvaMultilingualNeural` (Feminino)
`en-US`	Inglês (Estados Unidos)	`en-US-EmmaMultilingualNeural` (Feminino)
`fr-FR`	Francês (França)	`fr-FR-RemyMultilingualNeural` (Masculino)
`en-US`	Inglês (Estados Unidos)	`en-US-BrianMultilingualNeural` (Masculino)
`en-US`	Inglês (Estados Unidos)	`en-US-AndrewMultilingualNeural` (Masculino)
`fr-FR`	Francês (França)	`fr-FR-VivienneMultilingualNeural` (Feminino)
`zh-CN`	Chinês (mandarim, simplificado)	`zh-CN-XiaoxiaoMultilingualNeural` (Feminino)
`zh-CN`	Chinês (mandarim, simplificado)	`zh-CN-XiaochenMultilingualNeural` (Feminino)
`zh-CN`	Chinês (mandarim, simplificado)	`zh-CN-YunyiMultilingualNeural` (Masculino)

Apresentando novas zh-CN-XiaoxiaoDialectsNeural vozes para visualização pública que suportam vários dialetos e sotaques chineses:

Nome de voz	Língua secundária	Dialeto/Sotaque
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Chinês (Zhongyuan Mandarin Shaanxi, Simplificado)
	`zh-CN-sichuan`	Chinês (Mandarim do Sudoeste, Simplificado)
	`zh-CN-shanxi`	Chinês (Shanxi Accent Mandarim, Simplificado)
	`nan-CN`	Chinês (Southern Min, simplificado)
	`zh-CN-anhui`	Chinês (Jianghuai Mandarin Anhui, simplificado)
	`zh-CN-hunan`	Chinês (Hunan Accent Mandarim, Simplificado)
	`zh-CN-gansu`	Chinês (Lanyin Mandarin Gansu, simplificado)
	`zh-CN-shandong`	Chinês (Jilu Mandarim, Simplificado)
	`zh-CN-henan`	Chinês (Zhongyuan Mandarin Henan, simplificado)
	`zh-CN-liaoning`	Chinês (mandarim nordestino, simplificado)
	`zh-TW`	Chinês (mandarim taiwanês, tradicional)

Versão de novembro de 2023

Voz pessoal

A voz pessoal está disponível em pré-visualização nas seguintes regiões: Europa Ocidental, Leste dos EUA e Sudeste Asiático. Com a voz pessoal (visualização), você pode obter a replicação gerada por IA da sua voz (ou dos usuários do seu aplicativo) em poucos segundos. Você fornece uma amostra de fala de um minuto como o prompt de áudio e, em seguida, usa-a para gerar fala em qualquer um dos mais de 90 idiomas suportados em mais de 100 localidades.

Para obter mais informações, consulte voz pessoal.

Avatar de texto para fala

O avatar de conversão de texto em fala está disponível em pré-visualização nas seguintes regiões: Oeste dos EUA 2, Europa Ocidental e Sudeste Asiático.

Avatar de texto para fala converte texto em um vídeo digital de um humano fotorrealista (um avatar pré-construído ou um avatar de texto personalizado para fala) falando com uma voz de som natural. O vídeo do avatar de texto para fala pode ser sintetizado de forma assíncrona ou em tempo real. Os desenvolvedores podem criar aplicativos integrados com avatar de texto para fala por meio de uma API ou usar uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.

Para obter mais informações, consulte avatar de texto para fala, notas de transparência e divulgação para talentos de voz e avatar.

Voz neural personalizada

Adicionado suporte para as 24 novas localidades para voz multilingue. Consulte a lista completa de idiomas para obter mais informações.

Voz neural pré-construída

Apresentando novas vozes para visualização pública:

Localidade (BCP-47)	Idioma	Vozes de texto para fala
`de-DE`	Alemão (Alemanha)	`SeraphinaNeural` (Feminino)
`es-ES`	Espanhol (Espanha)	`XimenaNeural` (Feminino)
`fr-CA`	Francês (Canadá)	`ThierryNeural` (Masculino)
`fr-FR`	Francês (França)	`VivienneNeural` (Feminino)
`it-IT`	Italiano (Itália)	`GiuseppeNeural` (Masculino)
`ko-KR`	Coreano (Coreia do Sul)	`HyunsuNeural` (Masculino)
`pt-BR`	Português (Brasil)	`ThalitaNeural` (Feminino)

Modelos atualizados com bugs corrigidos e melhoria de qualidade:

Localidade (BCP-47)	Idioma	Vozes de texto para fala
`es-ES`	Espanhol (Espanha)	`AlvaroNeural` (Masculino)
`en-GB`	Inglês (Reino Unido)	`RyanNeural` (Masculino)
`ko-KR`	Coreano (Coreia do Sul)	`InjoonNeural` (Masculino)

Consulte a lista completa de idiomas e vozes para obter mais informações.

Versão de outubro de 2023

Voz neural personalizada

Adicionado suporte para as 12 novas localidades com voz neural personalizada Pro. Consulte a lista completa de idiomas para obter mais informações.

Versão de setembro de 2023

Voz neural pré-construída

Apresentando novas vozes para visualização pública:

Localidade (BCP-47)	Idioma	Vozes de texto para fala
`en-US`	Inglês (Estados Unidos)	`en-US-EmmaNeural` (Feminino)
`en-US`	Inglês (Estados Unidos)	`en-US-AndrewNeural` (Masculino)
`en-US`	Inglês (Estados Unidos)	`en-US-BrianNeural` (Masculino)

Consulte a lista completa de idiomas e vozes para obter mais informações.

Voz neural incorporada

Todos os 147 locais aqui (exceto fa-IR, persa (Irã)) estão disponíveis fora da caixa com 1 voz feminina selecionada e/ou 1 voz masculina selecionada.

Versão de agosto de 2023

Voz neural personalizada

A última versão da receita de treinamento CNV Lite foi lançada agora. Esta versão traz várias melhorias na qualidade dos seus modelos de linguagem. Experimente o Speech Studio.

Versão de julho de 2023

Voz neural personalizada

A voz multi-estilo está geralmente disponível.
Adicionadas duas novas localidades na pré-visualização pública para voz multiestilo: ja-JP e zh-CN. Consulte a lista completa de idiomas e vozes para obter mais informações. Consulte a lista de estilos predefinidos para diferentes idiomas.
A voz multilingue está geralmente disponível.
Adicionadas duas novas localidades para voz multilingue: id-ID e nl-NL. Consulte a lista completa de idiomas e vozes para obter mais informações.

Vozes TTS neurais pré-construídas

Introdução de uma nova en-US voz neutra em termos de género para pré-visualização pública:

Localidade (BCP-47)	Idioma	Vozes de texto para fala
`en-US`	Inglês (Estados Unidos)	`en-US-BlueNeural` (Neutro)

Introdução de novas vozes multilingues para pré-visualização pública:

Localidade (BCP-47)	Idioma	Vozes de texto para fala
`en-US`	Inglês (Estados Unidos)	`en-US-JennyMultilingualV2Neural` (Feminino)
`en-US`	Inglês (Estados Unidos)	`en-US-RyanMultilingualNeural` (Masculino)

As vozes en-US-JennyMultilingualV2Neural multilingues e en-US-RyanMultilingualNeural a deteção automática do idioma do texto de entrada. No entanto, você ainda pode usar o <lang> elemento para ajustar a linguagem de fala para essas vozes.

Estas novas vozes multilingues podem falar em 41 línguas e sotaques: , , , , English (Australia)Italian (Italy)English (Canada)English (United Kingdom)German (Germany)English (Ireland)English (Hong Kong SAR)English (India)English (United States)Spanish (Spain)Spanish (Mexico)Japanese (Japan)Indonesian (Indonesia)Korean (Korea)Hungarian (Hungary)Hindi (India)French (France)Norwegian Bokmål (Norway)French (Switzerland)French (Canada)French (Belgium)Dutch (Belgium)Finnish (Finland)German (Switzerland)German (Austria)Danish (Denmark)Chinese (Cantonese, Traditional)Portuguese (Portugal)Russian (Russia)Swedish (Sweden)Portuguese (Brazil)Turkish (Türkiye)Chinese (Taiwanese Mandarin, Traditional)Thai (Thailand)Dutch (Netherlands)Polish (Poland)Chinese (Mandarin, Simplified)Czech (Czechia)CatalanArabic (Saudi Arabia)Arabic (Egypt)

Essas vozes multilíngues não suportam totalmente certos elementos SSML, como pausa, ênfase, silêncio e sub.

Importante

A en-US-JennyMultilingualV2Neural voz é fornecida temporariamente em soley de pré-visualização pública para fins de avaliação. Será removido no futuro.

Para falar em um idioma diferente do inglês, a implementação atual da en-US-JennyMultilingualNeural voz requer que você defina o <lang xml:lang> elemento . Prevemos que durante o 4º trimestre do ano civil de 2023, a en-US-JennyMultilingualNeural voz será atualizada para falar na língua do texto de entrada sem o <lang xml:lang> elemento . Isso estará em paridade com a en-US-JennyMultilingualV2Neural voz.

Apresentando novos recursos na visualização pública para as vozes abaixo:

Adicionada entrada latina para vozes sérvias (Sérvia): sr-RSsr-latn-RS-SophieNeural e sr-latn-RS-NicholasNeural.
Adicionado suporte de pronúncia em inglês para vozes albanesas (Albânia): sq-ALsq-AL-AnilaNeural e sq-AL-IlirNeural.

Versão de maio de 2023

Criação de Conteúdo de Áudio

Todas as vozes pré-construídas com estilos de fala e vozes personalizadas multi-estilo suportam ajuste de grau de estilo.
Agora você pode corrigir a pronúncia de uma palavra falando a palavra e gravando-a. Os fonemas podem ser reconhecidos automaticamente a partir da sua gravação. O recurso Reconhecer por fala está agora em pré-visualização pública.

Versão de abril de 2023

Vozes TTS neurais pré-construídas

Os seguintes recursos dessas vozes passaram da visualização pública para o GA:

Estilo	Vozes de texto para fala
style="bate-papo"	`en-GB-RyanNeural`, `es-MX-JorgeNeural`, e `it-IT-IsabellaNeural`
style="alegre"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, , `es-MX-JorgeNeural`, `fr-FR-HenriNeuralfr-FR-DeniseNeural`, e`it-IT-IsabellaNeural`
style="triste"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural` e `fr-FR-HenriNeural`

Melhorar a pronúncia em inglês para hi-IN, ta-IN e te-IN vozes, agora está voando em regiões de visualização pública

Para obter mais informações, consulte a lista de idiomas e voz.

Versão de março de 2023

Novas funcionalidades

O SSML (Speech Synthesis Markup Language) é atualizado para oferecer suporte a elementos do processador de efeitos de áudio que otimizam a qualidade da saída de fala sintetizada para cenários específicos em dispositivos. Saiba mais em marcação de síntese de fala.

Voz neural personalizada

Adicionado suporte para a nl-BE localidade com Custom neural voice Pro. Consulte a lista completa de idiomas e vozes para obter mais informações.

Vozes TTS neurais pré-construídas

As seguintes vozes estão agora disponíveis para o público em geral. Consulte a lista completa de idiomas e vozes para obter mais informações.

Localidade (BCP-47)	Idioma	Vozes de texto para fala
`en-AU`	Inglês (Austrália)	`en-AU-AnnetteNeural` (Feminino) `en-AU-CarlyNeural` (Feminino) `en-AU-DarrenNeural` (Masculino) `en-AU-DuncanNeural` (Masculino) `en-AU-ElsieNeural` (Feminino) `en-AU-FreyaNeural` (Feminino) `en-AU-JoanneNeural` (Feminino) `en-AU-KenNeural` (Masculino) `en-AU-KimNeural` (Feminino) `en-AU-NeilNeural` (Masculino) `en-AU-TimNeural` (Masculino) `en-AU-TinaNeural` (Feminino) `en-AU-WilliamNeural` (Masculino)
`en-GB`	Inglês (Reino Unido)	`en-GB-RyanNeural` (Masculino) `en-GB-SoniaNeural` (Feminino)
`es-ES`	Espanhol (Espanha)	`es-ES-AbrilNeural` (Feminino) `es-ES-ArnauNeural` (Masculino) `es-ES-DarioNeural` (Masculino) `es-ES-EliasNeural` (Masculino) `es-ES-EstrellaNeural` (Feminino) `es-ES-IreneNeural` (Feminino) `es-ES-LaiaNeural` (Feminino) `es-ES-LiaNeural` (Feminino) `es-ES-NilNeural` (Masculino) `es-ES-SaulNeural` (Masculino) `es-ES-TeoNeural` (Masculino) `es-ES-TrianaNeural` (Feminino) `es-ES-VeraNeural` (Feminino)
`es-MX`	Espanhol (México)	`es-MX-JorgeNeural` (Masculino)
`fr-FR`	Francês (França)	`fr-FR-HenriNeural` (Masculino)
`it-IT`	Italiano (Itália)	`it-IT-IsabellaNeural` (Feminino)
`ja-JP`	Japonês (Japão)	`ja-JP-AoiNeural` (Feminino) `ja-JP-DaichiNeural` (Masculino) `ja-JP-MayuNeural` (Feminino) `ja-JP-NaokiNeural` (Masculino) `ja-JP-ShioriNeural` (Feminino)

Adicionado suporte para o cheerful estilo com a de-DE-ConradNeural voz.

Versão de fevereiro de 2023

Vozes TTS neurais pré-construídas

As seguintes vozes estão agora disponíveis para o público em geral. Consulte a lista completa de idiomas e vozes para obter mais informações.

Localidade (BCP-47)	Idioma	Vozes de texto para fala
`zh-CN`	Chinês (mandarim, simplificado)	`zh-CN-XiaomengNeural` (Feminino) `zh-CN-XiaoyiNeural` (Feminino) `zh-CN-XiaozhenNeural` (Feminino) `zh-CN-YunfengNeural` (Masculino) `zh-CN-YunhaoNeural` (Masculino) `zh-CN-YunjianNeural` (Masculino) `zh-CN-YunxiaNeural` (Masculino) `zh-CN-YunzeNeural` (Masculino)
`zh-CN-henan`	Chinês (Zhongyuan Mandarin Henan, simplificado)	`zh-CN-henan-YundengNeural` (Masculino)

Versão de dezembro de 2022

API REST de síntese em lote (Pré-visualização)

A API de síntese em lote está atualmente em visualização pública. Quando estiver disponível ao público, a API Long Audio será preterida. Para obter mais informações, consulte Migrar para API de síntese em lote.

Versão de novembro de 2022

Vozes TTS neurais pré-construídas (GA)

As seguintes vozes estão agora disponíveis para o público em geral. Consulte a lista completa de idiomas e vozes para obter mais informações.

Localidade (BCP-47)	Idioma	Vozes de texto para fala
`es-MX`	Espanhol (México)	`es-MX-BeatrizNeural` (Feminino) `es-MX-CandelaNeural` (Feminino) `es-MX-CarlotaNeural` (Feminino) `es-MX-CecilioNeural` (Masculino) `es-MX-GerardoNeural` (Masculino) `es-MX-LarissaNeural` (Feminino) `es-MX-LibertoNeural` (Masculino) `es-MX-LucianoNeural` (Masculino) `es-MX-MarinaNeural` (Feminino) `es-MX-NuriaNeural` (Feminino) `es-MX-PelayoNeural` (Masculino) `es-MX-RenataNeural` (Feminino) `es-MX-YagoNeural` (Masculino)
`it-IT`	Italiano (Itália)	`it-IT-BenignoNeural` (Masculino) `it-IT-CalimeroNeural` (Masculino) `it-IT-CataldoNeural` (Masculino) `it-IT-FabiolaNeural` (Feminino) `it-IT-FiammaNeural` (Feminino) `it-IT-GianniNeural` (Masculino) `it-IT-ImeldaNeural` (Feminino) `it-IT-IrmaNeural` (Feminino) `it-IT-LisandroNeural` (Masculino) `it-IT-PalmiraNeural` (Feminino) `it-IT-PierinaNeural` (Feminino) `it-IT-RinaldoNeural` (Masculino)
`pt-BR`	Português (Brasil)	`pt-BR-BrendaNeural` (Feminino) `pt-BR-DonatoNeural` (Masculino) `pt-BR-ElzaNeural` (Feminino) `pt-BR-FabioNeural` (Masculino) `pt-BR-GiovannaNeural` (Feminino) `pt-BR-HumbertoNeural` (Masculino) `pt-BR-JulioNeural` (Masculino) `pt-BR-LeilaNeural` (Feminino) `pt-BR-LeticiaNeural` (Feminino) `pt-BR-ManuelaNeural` (Feminino) `pt-BR-NicolauNeural` (Masculino) `pt-BR-ValerioNeural` (Masculino) `pt-BR-YaraNeural` (Feminino)

Voz neural personalizada

O suporte de localidade a seguir é adicionado para voz neural personalizada. Consulte a lista completa de idiomas e vozes para obter mais informações.

Adicionado suporte para a fr-BE localidade com voz neural personalizada Pro.
Adicionado suporte para a es-ES localidade com lite de voz neural personalizada.

Versão de outubro de 2022

Vozes TTS neurais pré-construídas (GA)

As seguintes vozes estão agora disponíveis para o público em geral. Consulte a lista completa de idiomas e vozes para obter mais informações.

Localidade (BCP-47)	Idioma	Vozes de texto para fala
`eu-ES`	Basco	`eu-ES-AinhoaNeural` (Feminino) `eu-ES-AnderNeural` (Masculino)
`hy-AM`	Arménio (Arménia)	`hy-AM-AnahitNeural` (Feminino) `hy-AM-HaykNeural` (Masculino)

Vozes TTS neurais pré-construídas (visualização)

As seguintes vozes estão agora disponíveis em pré-visualização pública. Consulte a lista completa de idiomas e vozes para obter mais informações.

Localidade (BCP-47)	Idioma	Vozes de texto para fala
`en-AU`	Inglês (Austrália)	`en-AU-AnnetteNeural`(Feminino) `en-AU-CarlyNeural`(Feminino) `en-AU-DarrenNeural`(Masculino) `en-AU-DuncanNeural`(Masculino) `en-AU-ElsieNeural`(Feminino) `en-AU-FreyaNeural`(Feminino) `en-AU-JoanneNeural`(Feminino) `en-AU-KenNeural`(Masculino) `en-AU-KimNeural`(Feminino) `en-AU-NeilNeural`(Masculino) `en-AU-TimNeural`(Masculino) `en-AU-TinaNeural`(Feminino)
`es-ES`	Espanhol (Espanha)	`es-ES-AbrilNeural`(Feminino) `es-ES-AlvaroNeural`(Masculino) `es-ES-ArnauNeural`(Masculino) `es-ES-DarioNeural`(Masculino) `es-ES-EliasNeural`(Masculino) `es-ES-EstrellaNeural`(Feminino) `es-ES-IreneNeural`(Feminino) `es-ES-LaiaNeural`(Feminino) `es-ES-LiaNeural`(Feminino) `es-ES-NilNeural`(Masculino) `es-ES-SaulNeural`(Masculino) `es-ES-TeoNeural`(Masculino) `es-ES-TrianaNeural`(Feminino) `es-ES-VeraNeural`(Feminino)
`ja-JP`	Japonês (Japão)	`ja-JP-AoiNeural`(Feminino) `ja-JP-DaichiNeural`(Masculino) `ja-JP-MayuNeural`(Feminino) `ja-JP-NaokiNeural`(Masculino) `ja-JP-ShioriNeural`(Feminino)
`ko-KR`	Coreano (Coreia do Sul)	`ko-KR-BongJinNeural`(Masculino) `ko-KR-GookMinNeural`(Masculino) `ko-KR-JiMinNeural`(Feminino) `ko-KR-SeoHyeonNeural`(Feminino) `ko-KR-SoonBokNeural`(Feminino) `ko-KR-YuJinNeural`(Feminino)
`wuu-CN`	Chinês (Wu, simplificado)	`wuu-CN-XiaotongNeural` (Feminino) `wuu-CN-YunzheNeural` (Masculino)
`yue-CN`	Chinês (cantonês, simplificado)	`yue-CN-XiaoMinNeural` (Feminino) `yue-CN-YunSongNeural` (Masculino)

Atualizações gerais de voz TTS

Qualidade melhorada para as fil-PH-AngeloNeural e fil-PH-BlessicaNeural vozes.
As regras de normalização de texto são atualizadas para vozes com as localidades espanhola es-CL (Chile) e uz-UZ uzbeque (uzbequistão).
Adicionada ortografia de letras em inglês para vozes com as localidades albanesa sq-AL (Albânia) e az-AZ azeri (Azerbaijão).
Melhoria da pronúncia em inglês para a zh-HK-WanLungNeural voz.
Melhor tom de pergunta para as nl-NL-MaartenNeural e pt-BR-AntonioNeural vozes.
Adicionado suporte para a <lang ="en-US"> tag para melhor pronúncia em inglês com as seguintes vozes: de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeuralfr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeural, e it-IT-IsabellaNeural.
Adicionado suporte para a style="chat" tag com as seguintes vozes: en-GB-RyanNeural, es-MX-JorgeNeurale it-IT-IsabellaNeural.
Adicionado suporte para a style="cheerful" tag com as seguintes vozes: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeurale it-IT-IsabellaNeural.
Adicionado suporte para a style="sad" tag com as seguintes vozes: en-GB-SoniaNeural, fr-FR-DeniseNeural e fr-FR-HenriNeural.

Versão de setembro de 2022

Voz TTS neural pré-construída

Todas as vozes neurais pré-construídas foram atualizadas para vozes de alta fidelidade com taxa de amostragem de 48 kHz.

Versão de agosto de 2022

Voz TTS neural pré-construída

Novas vozes lançadas em pré-visualização pública:

Vozes para Inglês (Estados Unidos): en-US-AIGenerate1Neural e en-US-AIGenerate2Neural.
Vozes para idiomas regionais chineses: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeural, e zh-CN-shandong-YunxiangNeural.

Para obter mais informações, consulte a lista de idiomas e voz.

Versão de julho de 2022

Voz TTS neural pré-construída

Adicionadas 5 novas vozes de zh-CN chinês (mandarim, simplificado) e 1 nova voz de en-US inglês (Estados Unidos) em Public Preview. Veja a lista completa de idiomas e vozes.

Idioma	Região	Sexo	Nome da voz	Suporte de estilo
Chinês (mandarim, simplificado)	`zh-CN`	Feminino	`zh-CN-XiaomengNeural`^New	Estilos gerais e múltiplos disponíveis usando SSML
Chinês (mandarim, simplificado)	`zh-CN`	Feminino	`zh-CN-XiaoyiNeural`^New	Estilos gerais e múltiplos disponíveis usando SSML
Chinês (mandarim, simplificado)	`zh-CN`	Feminino	`zh-CN-XiaozhenNeural`^New	Estilos gerais e múltiplos disponíveis usando SSML
Chinês (mandarim, simplificado)	`zh-CN`	Masculino	`zh-CN-YunxiaNeural`^New	Estilos gerais e múltiplos disponíveis usando SSML
Chinês (mandarim, simplificado)	`zh-CN`	Masculino	`zh-CN-YunzeNeural`^New	Estilos gerais e múltiplos disponíveis usando SSML
Inglês (Estados Unidos)	`en-US`	Masculino	`en-US-RogerNeural`^New	Geral

Estilos e funções suportados para as vozes neurais adicionadas.

Voz	Estilos	Grau de estilo	Funções
zh-CN-XiaomengPré-visualização pública neural	`chat`	Suportado
zh-CN-XiaoyiNeural ^{Pré-visualização pública}	`affectionate`, `angry`, `cheerful`, , `disgruntled`, `fearfulembarrassed`, `gentle`, `sad`,`serious`	Suportado
zh-CN-XiaozhenPré-visualização pública neural	`angry`, `cheerful`, `disgruntled`, `fearful`, `sad`, `serious`	Suportado
zh-CN-YunxiaPré-visualização pública neural	`angry`, `calm`, `cheerful`, `fearful`, `sad`	Suportado
zh-CN-YunzePré-visualização pública neural	`angry`, `calm`, `cheerful`, , `depressed`, `documentary-narrationdisgruntled`, `fearful`, `sad`,`serious`	Suportado	Suportado

Obter posição facial com viseme

Adicionado suporte para misturar formas para impulsionar os movimentos faciais de um personagem 3D que você criou. Saiba mais sobre como obter posição facial com viseme.
SSML atualizado para suportar o elemento viseme. Veja a marcação de síntese de fala.

Versão de junho de 2022

Voz TTS neural pré-construída

Adicionados 9 novos idiomas e variantes para Neural text to speech:

Idioma	Região	Sexo	Nome da voz	Suporte de estilo
Árabe (Líbano)	`ar-LB`	Feminino	`ar-LB-LaylaNeural`^New	Geral
Árabe (Líbano)	`ar-LB`	Masculino	`ar-LB-RamiNeural`^New	Geral
Árabe (Omã)	`ar-OM`	Feminino	`ar-OM-AyshaNeural`^New	Geral
Árabe (Omã)	`ar-OM`	Masculino	`ar-OM-AbdullahNeural`^New	Geral
Azerbaijão (Azerbaijão)	`az-AZ`	Feminino	`az-AZ-BabekNeural`^New	Geral
Azerbaijão (Azerbaijão)	`az-AZ`	Masculino	`az-AZ-BanuNeural`^New	Geral
Bósnio (Bósnia e Herzegovina)	`bs-BA`	Feminino	`bs-BA-VesnaNeural`^New	Geral
Bósnio (Bósnia e Herzegovina)	`bs-BA`	Masculino	`bs-BA-GoranNeural`^New	Geral
Georgiano (Geórgia)	`ka-GE`	Feminino	`ka-GE-EkaNeural`^New	Geral
Georgiano (Geórgia)	`ka-GE`	Masculino	`ka-GE-GiorgiNeural`^New	Geral
Mongol (Mongólia)	`mn-MN`	Feminino	`mn-MN-YesuiNeural`^New	Geral
Mongol (Mongólia)	`mn-MN`	Masculino	`mn-MN-BataaNeural`^New	Geral
Nepalês (Nepal)	`ne-NP`	Feminino	`ne-NP-HemkalaNeural`^New	Geral
Nepalês (Nepal)	`ne-NP`	Masculino	`ne-NP-SagarNeural`^New	Geral
Albanês (Albânia)	`sq-AL`	Feminino	`sq-AL-AnilaNeural`^New	Geral
Albanês (Albânia)	`sq-AL`	Masculino	`sq-AL-IlirNeural`^New	Geral
Tâmil (Malásia)	`ta-MY`	Feminino	`ta-MY-KaniNeural`^New	Geral
Tâmil (Malásia)	`ta-MY`	Masculino	`ta-MY-SuryaNeural`^New	Geral

GA 36 vozes do Public Preview para en-GB inglês (Reino Unido), fr-FR francês (França) e de-DE alemão (Alemanha):

Idioma	Região	Sexo	Nome da voz	Suporte de estilo
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-AbbiNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-BellaNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-HollieNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-MaisieNeural`	Geral, voz infantil
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-OliviaNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-SoniaNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-AlfieNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-ElliotNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-EthanNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-NoahNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-OliverNeural`	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-ThomasNeural`	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-BrigitteNeural`	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-CelesteNeural`	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-CoralieNeural`	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-EloiseNeural`	Geral, voz infantil
Francês (França)	`fr-FR`	Feminino	`fr-FR-JacquelineNeural`	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-JosephineNeural`	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-YvetteNeural`	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-AlainNeural`	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-ClaudeNeural`	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-JeromeNeural`	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-MauriceNeural`	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-YvesNeural`	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-AmalaNeural`	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-ElkeNeural`	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-GiselaNeural`	Geral, voz infantil
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-KlarissaNeural`	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-LouisaNeural`	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-MajaNeural`	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-TanjaNeural`	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-BerndNeural`	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-ChristophNeural`	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-KasperNeural`	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-KillianNeural`	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-KlausNeural`	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-RalfNeural`	Geral

Adicionadas 40 novas vozes de es-MX espanhol (México), it-IT italiano (Itália), pt-BR português (Brasil) e 2 sotaques para zh-CN chinês (mandarim, simplificado) na Pré-visualização Pública:

Idioma	Região	Sexo	Nome da voz	Suporte de estilo
Espanhol (México)	`es-MX`	Feminino	`es-MX-BeatrizNeural`^New	Geral
Espanhol (México)	`es-MX`	Feminino	`es-MX-CarlotaNeural`^New	Geral
Espanhol (México)	`es-MX`	Feminino	`es-MX-NuriaNeural`^New	Geral
Espanhol (México)	`es-MX`	Feminino	`es-MX-RenataNeural`^New	Geral
Espanhol (México)	`es-MX`	Feminino	`es-MX-LarissaNeural`^New	Geral
Espanhol (México)	`es-MX`	Feminino	`es-MX-CandelaNeural`^New	Geral
Espanhol (México)	`es-MX`	Feminino	`es-MX-MarinaNeural`^New	Geral
Italiano (Itália)	`it-IT`	Feminino	`it-IT-FiammaNeural`^New	Geral
Italiano (Itália)	`it-IT`	Feminino	`it-IT-IrmaNeural`^New	Geral
Italiano (Itália)	`it-IT`	Feminino	`it-IT-FabiolaNeural`^New	Geral
Italiano (Itália)	`it-IT`	Feminino	`it-IT-PalmiraNeural`^New	Geral
Italiano (Itália)	`it-IT`	Feminino	`it-IT-ImeldaNeural`^New	Geral
Italiano (Itália)	`it-IT`	Feminino	`it-IT-PierinaNeural`^New	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-ElzaNeural`^New	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-ManuelaNeural`^New	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-BrendaNeural`^New	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-LeilaNeural`^New	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-YaraNeural`^New	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-GiovannaNeural`^New	Geral
Português (Brasil)	`pt-BR`	Feminino	`pt-BR-LeticiaNeural`^New	Geral
Espanhol (México)	`es-MX`	Masculino	`es-MX-CecilioNeural`^New	Geral
Espanhol (México)	`es-MX`	Masculino	`es-MX-LibertoNeural`^New	Geral
Espanhol (México)	`es-MX`	Masculino	`es-MX-LucianoNeural`^New	Geral
Espanhol (México)	`es-MX`	Masculino	`es-MX-PelayoNeural`^New	Geral
Espanhol (México)	`es-MX`	Masculino	`es-MX-YagoNeural`^New	Geral
Espanhol (México)	`es-MX`	Masculino	`es-MX-GerardoNeural`^New	Geral
Italiano (Itália)	`it-IT`	Masculino	`it-IT-BenignoNeural`^New	Geral
Italiano (Itália)	`it-IT`	Masculino	`it-IT-CataldoNeural`^New	Geral
Italiano (Itália)	`it-IT`	Masculino	`it-IT-LisandroNeural`^New	Geral
Italiano (Itália)	`it-IT`	Masculino	`it-IT-CalimeroNeural`^New	Geral
Italiano (Itália)	`it-IT`	Masculino	`it-IT-RinaldoNeural`^New	Geral
Italiano (Itália)	`it-IT`	Masculino	`it-IT-GianniNeural`^New	Geral
Português (Brasil)	`pt-BR`	Masculino	`pt-BR-DonatoNeural`^New	Geral
Português (Brasil)	`pt-BR`	Masculino	`pt-BR-HumbertoNeural`^New	Geral
Português (Brasil)	`pt-BR`	Masculino	`pt-BR-FabioNeural`^New	Geral
Português (Brasil)	`pt-BR`	Masculino	`pt-BR-JulioNeural`^New	Geral
Português (Brasil)	`pt-BR`	Masculino	`pt-BR-ValerioNeural`^New	Geral
Português (Brasil)	`pt-BR`	Masculino	`pt-BR-NicolauNeural`^New	Geral
Chinês (mandarim, simplificado)	`zh-CN-sichuan`	Masculino	`zh-CN-sichuan-YunxiSichuanNeural`^New	Geral, sotaque de Sichuan
Chinês (mandarim, simplificado)	`zh-CN-liaoning`	Feminino	`zh-CN-liaoning-XiaobeiNeural`^New	Geral, sotaque de Liaoning

Qualidade melhorada para en-SG-LunaNeural e en-SG-WayneNeural
Suporte de saída de 48kHz para visualização pública com en-US-JennyNeural, en-US-AriaNeural e zh-CN-XiaoxiaoNeural

Voz neural personalizada

Ativado para corrigir problemas de dados online. Saiba mais sobre como resolver problemas de dados no Speech Studio.
Adicionada versão de receita de treinamento. Saiba mais sobre como selecionar a versão da receita de treinamento para seu modelo de voz.

Ferramenta de criação de conteúdo de áudio

Paginação suportada.
Habilitado para classificar globalmente por nome, tipo de arquivo e tempo de atualização na página do arquivo de trabalho.

Versão de maio de 2022

Voz TTS neural pré-construída

Lançou 5 novas vozes em pré-visualização pública com vários estilos para enriquecer a variedade em inglês americano. Veja a lista completa de idiomas e vozes.
Ofereça suporte a esses novos estilos , , , FriendlyHopeful, SadShouting, TerrifiedUnfriendly, e Whispering em visualização pública para en-US-AriaNeural. ExcitedAngry
Ofereça suporte a esses novos estilos Angry, Cheerful, , FriendlyExcited, HopefulSad, Shouting, TerrifiedUnfriendly, e Whispering em visualização pública para en-US-GuyNeural, en-US-JennyNeural.
Ofereça suporte a esses novos estilos Excited, Friendly, Hopeful, TerrifiedShoutingUnfriendly, e Whispering em visualização pública para .en-US-SaraNeural Veja estilos e funções de voz.
Lançou novas vozes zh-CN-YunjianNeural, zh-CN-YunhaoNeurale zh-CN-YunfengNeural em pré-visualização pública. Veja a lista completa de idiomas e vozes.
Suporte 2 novos estilos sports-commentary, sports-commentary-excited em pré-visualização pública para zh-CN-YunjianNeural. Veja estilos e funções de voz.
Suporte 1 novo estilo advertisement-upbeat em pré-visualização pública para zh-CN-YunhaoNeural. Veja estilos e funções de voz.
Os cheerful estilos e sad para fr-FR-DeniseNeural estão geralmente disponíveis em todas as regiões.
SSML atualizado para suportar elementos MathML para vozes en-US e en-AU. Saiba mais em marcação de síntese de fala.

Voz neural personalizada

Habilitado para cancelar o treinamento durante o modelo de voz de treinamento. Saiba mais sobre como cancelar o treinamento.
Habilitado para clonar modelo (renomear modelo de voz). Saiba mais sobre como mudar o nome do seu modelo de voz.
Habilitado para testar seu modelo de voz adicionando seu próprio script de teste. Saiba mais sobre como carregar seu script de teste.
Ativado para atualizar a versão do motor para o seu modelo de voz. Saiba mais sobre como atualizar a versão do mecanismo do modelo.
Apoiou mais regiões de formação. Consulte o suporte da região.
Suportado 10 localidades para lite de voz neural personalizada (visualização). Consulte o suporte a idiomas.

Ferramenta de criação de conteúdo de áudio

Ativado para experimentar a ferramenta de criação de conteúdo de áudio sem iniciar sessão.
Layout melhorado para ajustar fonemas.
Desempenho melhorado: Especificado o número máximo (200) de ficheiros a carregar de cada vez.
Desempenho aprimorado: especificado o nível máximo de profundidade do diretório (5 níveis).

Versão de março de 2022

Voz TTS neural pré-construída

Adicionado suporte na pré-visualização pública para o Cheerful e Sad estilos com fr-FR-DeniseNeural. Veja estilos e funções de voz.
Liberados contêineres desconectados para vozes TTS neurais pré-construídas em visualização pública. Consulte Usar contêineres do Docker em ambientes desconectados.

Voz neural personalizada

Controle de acesso baseado em função suportado. Saiba mais sobre o controle de acesso baseado em função do Azure no Speech Studio
Pontos de extremidade privados suportados e pontos de extremidade de serviço de rede virtual. Saiba mais sobre como usar pontos de extremidade privados com o serviço de fala.

Ferramenta de criação de conteúdo de áudio

Atualizado o tamanho do arquivo e o limite de simultaneidade para recursos de camada livre (F0) para tornar a experiência consistente com o SDK de fala e as APIs. Consulte Cotas e limites do serviço de fala.

Versão de fevereiro de 2022

Voz neural personalizada

Lançado lite de voz neural personalizado em visualização pública. Saiba mais sobre o que é o lite de voz neural personalizado.
Suporte estendido a idiomas para 49 localidades. Consulte o suporte a idiomas.
Suportado mais regiões/datacenters. Consulte o suporte da região.

Ferramenta de criação de conteúdo de áudio

Removido o limite de comprimento de saída para download de áudios.

Versão de janeiro de 2022

Novas línguas e vozes

Adicionadas 10 novas linguagens e variantes para texto neural para fala:

Idioma	Região	Sexo	Nome da voz	Suporte de estilo
Bengali (Índia)	`bn-IN`	Feminino	`bn-IN-TanishaaNeural`^New	Geral
Bengali (Índia)	`bn-IN`	Masculino	`bn-IN-BashkarNeural`^New	Geral
Islandês (Islândia)	`is-IS`	Feminino	`is-IS-GudrunNeural`^New	Geral
Islandês (Islândia)	`is-IS`	Masculino	`is-IS-GunnarNeural`^New	Geral
Canarim (Índia)	`kn-IN`	Feminino	`kn-IN-SapnaNeural`^New	Geral
Canarim (Índia)	`kn-IN`	Masculino	`kn-IN-GaganNeural`^New	Geral
Cazaque (Cazaquistão)	`kk-KZ`	Feminino	`kk-KZ-AigulNeural`^New	Geral
Cazaque (Cazaquistão)	`kk-KZ`	Masculino	`kk-KZ-DauletNeural`^New	Geral
Laos (Laos)	`lo-LA`	Feminino	`lo-LA-KeomanyNeural`^New	Geral
Laos (Laos)	`lo-LA`	Masculino	`lo-LA-ChanthavongNeural`^New	Geral
Macedónio (República da Macedónia do Norte)	`mk-MK`	Feminino	`mk-MK-MarijaNeural`^New	Geral
Macedónio (República da Macedónia do Norte)	`mk-MK`	Masculino	`mk-MK-AleksandarNeural`^New	Geral
Malayalam (Índia)	`ml-IN`	Feminino	`ml-IN-SobhanaNeural`^New	Geral
Malayalam (Índia)	`ml-IN`	Masculino	`ml-IN-MidhunNeural`^New	Geral
Pashto (Afeganistão)	`ps-AF`	Feminino	`ps-AF-LatifaNeural`^New	Geral
Pashto (Afeganistão)	`ps-AF`	Masculino	`ps-AF-GulNawazNeural`^New	Geral
Sérvio (Sérvia, cirílico)	`sr-RS`	Feminino	`sr-RS-SophieNeural`^New	Geral
Sérvio (Sérvia, cirílico)	`sr-RS`	Masculino	`sr-RS-NicholasNeural`^New	Geral
Cingalês (Sri Lanka)	`si-LK`	Feminino	`si-LK-ThiliniNeural`^New	Geral
Cingalês (Sri Lanka)	`si-LK`	Masculino	`si-LK-SameeraNeural`^New	Geral

Para obter a lista completa de vozes disponíveis, consulte Suporte a idiomas.

Novas vozes na pré-visualização

Adicionadas novas vozes para en-GB, fr-FR e de-DE na pré-visualização:

Idioma	Região	Sexo	Nome da voz	Suporte de estilo
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-AbbiNeural`^New	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-BellaNeural`^New	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-HollieNeural`^New	Geral
Inglês (Reino Unido)	`en-GB`	Feminino	`en-GB-OliviaNeural`^New	Geral
Inglês (Reino Unido)	`en-GB`	Rapariga	`en-GB-MaisieNeural`^New	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-AlfieNeural`^New	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-ElliotNeural`^New	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-EthanNeural`^New	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-NoahNeural`^New	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-OliverNeural`^New	Geral
Inglês (Reino Unido)	`en-GB`	Masculino	`en-GB-ThomasNeural`^New	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-BrigitteNeural`^New	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-CelesteNeural`^New	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-CoralieNeural`^New	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-JacquelineNeural`^New	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-JosephineNeural`^New	Geral
Francês (França)	`fr-FR`	Feminino	`fr-FR-YvetteNeural`^New	Geral
Francês (França)	`fr-FR`	Rapariga	`fr-FR-EloiseNeural`^New	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-AlainNeural`^New	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-ClaudeNeural`^New	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-JeromeNeural`^New	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-MauriceNeural`^New	Geral
Francês (França)	`fr-FR`	Masculino	`fr-FR-YvesNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-AmalaNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-ElkeNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-KlarissaNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-LouisaNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-MajaNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Feminino	`de-DE-TanjaNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Rapariga	`de-DE-GiselaNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-BerndNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-ChristophNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-KasperNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-KillianNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-KlausNeural`^New	Geral
Alemão (Alemanha)	`de-DE`	Masculino	`de-DE-RalfNeural`^New	Geral

Para obter a lista completa de vozes disponíveis, consulte Suporte a idiomas.

Precisão da pronúncia

Pronúncia melhorada de palavras em inglês para todas as he-IL vozes.
Precisão de pronúncia melhorada ao nível das palavras para cs-CZ e da-DK.
Melhoria dos diacríticos árabes e do manuseamento do Nikud hebraico.
Leitura de entidade melhorada para ja-JP

Speech Studio

Voz neural personalizada: habilitado para testes adicionais de modelo usando a API em lote (API de áudio longo)
Criação de conteúdo de áudio: habilitado mais formatos de saída

Versão de outubro de 2021

Novas línguas e vozes

Adicionados 49 novos idiomas e 98 vozes para texto neural para fala:

Adri em af-ZA Africâner (África do Sul), Willem em af-ZA Africâner (África do Sul), Mekdes em am-ET Amárico (Etiópia), Ameha em am-ET Amárico (Etiópia), Fátima em ar-AE árabe (Emirados Árabes Unidos), Hamdan em ar-AE árabe (Emirados Árabes Unidos), Laila em ar-BH árabe (Bahrein), Ali em ar-BH árabe (Bahrein), Amina em ar-DZ árabe (Argélia), Ismael em ar-DZ árabe (Argélia), Rana em ar-IQ árabe (Iraque), Bassel em ar-IQ árabe (Iraque), Sana em ar-JO árabe (Jordânia), Taim em ar-JO árabe (Jordânia), Noura em ar-KW árabe (Kuwait), Fahed em ar-KW árabe (Kuwait), Iman em ar-LY árabe (Líbia), Omar em ar-LY árabe (Líbia), Mouna em ar-MA árabe (Marrocos), Jamal em ar-MA árabe (Marrocos), Amal em ar-QA árabe (Qatar), Moaz em ar-QA árabe (Qatar), Amany em ar-SY árabe (Síria), Laith em ar-SY árabe (Síria), Reem em ar-TN árabe (Tunísia), Hedi em ar-TN árabe (Tunísia), Maryam em ar-YE árabe (Iêmen), Saleh em ar-YE árabe (Iêmen), Nabanita em bn-BD Bangla (Bangladesh), Pradeep em bn-BD Bangla (Bangladesh), Asilia em en-KE inglês (Quênia), Chilemba em en-KE inglês (Quênia), Ezinne em en-NG inglês (Nigéria), Abeo em en-NG inglês (Nigéria), Imani em en-TZ inglês (Tanzânia), Elimu em en-TZ inglês (Tanzânia), Sofia em es-BO espanhol (Bolívia), Marcelo em es-BO espanhol (Bolívia), Catalina em es-CL espanhol (Chile), Lorenzo em es-CL espanhol (Chile), Maria em es-CR Espanhol (Costa Rica), Juan em es-CR espanhol (Costa Rica), Belkys em es-CU espanhol (Cuba), Manuel em es-CU espanhol (Cuba), Ramona em es-DO espanhol (República Dominicana), Emilio em es-DO espanhol (República Dominicana), Andrea em es-EC espanhol (Equador), Luis em es-EC espanhol (Equador), Teresa em es-GQ espanhol (Guiné Equatorial), Javier em es-GQ espanhol (Guiné Equatorial), Marta em es-GT espanhol (Guatemala), Andres em es-GT espanhol (Guatemala), Karla em es-HN Espanhol (Honduras), Carlos em es-HN espanhol (Honduras), Yolanda em es-NI espanhol (Nicarágua), Federico em es-NI espanhol (Nicarágua), Margarita em es-PA espanhol (Panamá), Roberto em es-PA espanhol (Panamá), Camila em es-PE espanhol (Peru), Alex em es-PE espanhol (Peru), Karina em es-PR espanhol (Porto Rico), Victor em es-PR espanhol (Porto Rico), Tania em es-PY espanhol (Paraguai), Mario em es-PY espanhol (Paraguai), Lorena em es-SV espanhol (El Salvador), Rodrigo em es-SV Espanhol (El Salvador), Valentina em es-UY espanhol (Uruguai), Mateo em es-UY espanhol (Uruguai), Paola em es-VE espanhol (Venezuela), Sebastian em es-VE espanhol (Venezuela), Dilara em fa-IR persa (Irã), Farid em fa-IR persa (Irã), Blessica em fil-PH filipino (Filipinas), Angelo em fil-PH filipino (Filipinas), Sabela em gl-ES galego, Roi em gl-ES galego, Siti em jv-ID javanês (Indonésia), Dimas em jv-ID javanês (Indonésia), Sreymom em km-KH Khmer (Camboja), Piseth em km-KH Khmer (Camboja), Nilar em my-MM Birmanês (Myanmar), Thiha em my-MM birmanês (Myanmar), Ubax em so-SO Somali (Somália), Muuse em so-SO Somali (Somália), Tuti em su-ID Sundanese (Indonésia), Jajang em su-ID Sundanese (Indonésia), Rehema em sw-TZ Swahili (Tanzânia), Daudi em sw-TZ Swahili (Tanzânia), Saranya em ta-LK Tamil (Sri Lanka), Kumar em ta-LK Tamil (Sri Lanka), Venba em ta-SG Tamil (Singapura), Anbu em ta-SG Tamil (Singapura), Gul em ur-IN Urdu (Índia), Salman em ur-IN Urdu (Índia), Madina no uz-UZ Uzbequistão (Uzbequistão), Sardor no uz-UZ Uzbequistão (Uzbequistão), Thando em zu-ZA Zulu (África do Sul), Themba em zu-ZA Zulu (África do Sul).

Versão de setembro de 2021

Nova voz de chatbot em en-US inglês (EUA): Sara, representa uma jovem adulta que fala de forma mais casual e se encaixa melhor para os cenários de chatbot.
Novos estilos adicionados para ja-JP a voz japonesa Nanami: Três novos estilos estão agora disponíveis com Nanami: chat, atendimento ao cliente e alegre.
Melhoria geral da pronúncia: Ardi em id-ID, Premwadee em th-TH, Christel em da-DK, HoaiMy e NamMinh em vi-VN.
Duas novas vozes em zh-CN chinês (mandarim, China) em pré-visualização: Xiaochen & Xiaoyan, otimizado para fala espontânea e cenários de atendimento ao cliente.

Versão de julho de 2021

Atualizações neurais de texto para fala

Redução dos erros de pronúncia em hebraico em 20%.

Atualizações do Speech Studio

Voz neural personalizada: Atualizado o pipeline de treinamento para UniTTSv3, com o qual a qualidade do modelo é melhorada enquanto o tempo de treinamento é reduzido em 50% para modelos acústicos.
Criação de conteúdo de áudio: Corrigido o problema de desempenho "Exportar" e o bug na seleção de voz neural personalizada.

Versão de junho de 2021

Atualizações do Speech Studio

Voz neural personalizada: Treinamento de voz neural personalizado estendido para suportar o Sudeste Asiático. Novos recursos lançados para suportar a verificação de status de upload de dados.
Criação de conteúdo de áudio: Lançado um novo recurso para suportar léxico personalizado. Com este recurso, os usuários podem facilmente criar seus arquivos de léxico e definir a pronúncia personalizada para sua saída de áudio.

Versão de maio de 2021

Novos idiomas e vozes adicionados para TTS neural

Dez novos idiomas introduzidos - 20 novas vozes em 10 novas localidades são adicionadas à lista de idiomas TTS neurais: Yan em en-HK inglês (Hong Kong), Sam em en-HK inglês (Hong Kong), Molly em en-NZ inglês (Nova Zelândia), Mitchell em en-NZ inglês (Nova Zelândia), Luna em en-SG inglês (Singapura), Wayne em en-SG inglês (Singapura), Leah em en-ZA inglês (África do Sul), Luke em en-ZA inglês (África do Sul), Dhwani em gu-IN Gujarati (Índia), Niranjan em gu-IN Gujarati (Índia), Aarohi em mr-IN Marathi (Índia), Manohar em mr-IN Marathi (Índia), Elena em es-AR espanhol (Argentina), Tomas em es-AR espanhol (Argentina), Salomé em es-CO espanhol (Colômbia), Gonzalo em es-CO espanhol (Colômbia), Paloma em es-US espanhol (EUA), Alonso em es-US espanhol (EUA), Zuri em sw-KE Swahili (Quênia), Rafiki em sw-KE Swahili (Quênia).
Onze novas vozes en-US em pré-visualização - 11 novas vozes en-US em pré-visualização são adicionadas ao inglês americano, são elas Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Cinco zh-CN vozes chinesas (mandarim, simplificado) estão geralmente disponíveis - 5 vozes chinesas (mandarim, simplificado) são alteradas de visualização para geralmente disponíveis. Eles são Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Agora, essas vozes estão disponíveis em todas as regiões. Yunxi é adicionado com um novo estilo de 'assistente', que é adequado para bot de bate-papo e agente de voz. Os estilos de voz da Xiaomo são refinados para serem mais naturais e caracterizados.

Versão de abril de 2021

Texto neural para fala está disponível em 21 regiões

Doze novas regiões adicionadas - O texto neural para fala está agora disponível nestas novas 12 regiões: Japan East, Japan West, Korea Central, North Central US, West US 2North Europewest Central USSouth Central USWest USSoutheast AsiaUK SouthWest Europe. Consulte aqui a lista completa das 21 regiões suportadas.

Versão de março de 2021

Novos idiomas e vozes adicionados para TTS neural

Seis novos idiomas introduzidos - 12 novas vozes em 6 novas localidades são adicionadas à lista de idiomas TTS neurais: Nia em cy-GB galês (Reino Unido), Aled em cy-GB galês (Reino Unido), Rosa em en-PH inglês (Filipinas), James em en-PH inglês (Filipinas), Charline em fr-BE francês (Bélgica), Gerard em fr-BE francês (Bélgica), Dena em nl-BE holandês (Bélgica), Arnaud em nl-BE holandês (Bélgica), Polina em uk-UA ucraniano (Ucrânia), Ostap em uk-UA ucraniano (Ucrânia), Uzma em ur-PK Urdu (Paquistão), Asad em ur-PK Urdu (Paquistão).
Cinco idiomas da pré-visualização ao GA - 10 vozes em 5 localidades introduzidas em novembro agora são GA: Kert em et-EE estoniano (Estônia), Colm em ga-IE irlandês (Irlanda), Nils em lv-LV letão (Letônia), Leonas em lt-LT lituano (Lituânia), Joseph em mt-MT maltês (Malta).
Nova voz masculina adicionada para francês (Canadá) - Uma nova voz Antoine está disponível para fr-CA francês (Canadá).
Melhoria da qualidade - Redução da taxa de erro de pronúncia em hu-HU húngaro - 48,17%, nb-NO norueguês - 52,76%, nl-NL holandês (Países Baixos) - 22,11%.

Com esta versão, agora suportamos um total de 142 vozes neurais em 60 idiomas/localidades. Além disso, mais de 70 vozes padrão estão disponíveis em 49 idiomas/localidades. Visite Suporte de idiomas para obter a lista completa.

Obtenha eventos de pose facial para animar personagens

Neural Text to speech agora inclui o evento viseme. Os eventos Viseme permitem que os usuários obtenham uma sequência de poses faciais juntamente com a fala sintetizada. Visemes pode ser usado para controlar o movimento de modelos de avatar 2D e 3D, combinando os movimentos da boca com a fala sintetizada. Os eventos de Viseme só estão disponíveis para en-US-AriaNeural voz neste momento.

Adicionar o elemento marcador na SSML (Speech Synthesis Markup Language)

O elemento bookmark permite inserir marcadores personalizados no SSML para obter o deslocamento de cada marcador no fluxo de áudio. Ele pode ser usado para fazer referência a um local específico na sequência de texto ou tag.

Versão de fevereiro de 2021

GA de voz neural personalizada

A voz neural personalizada é GA em fevereiro em 13 idiomas: chinês (mandarim, simplificado), inglês (Austrália), inglês (Índia), inglês (Reino Unido), inglês (Estados Unidos), francês (Canadá), francês (França), alemão (Alemanha), italiano (Itália), japonês (Japão), coreano (Coreia), português (Brasil), espanhol (México) e espanhol (Espanha). Saiba mais sobre o que é voz neural personalizada e como usá-la de forma responsável. O recurso de voz neural personalizado requer registro e a Microsoft pode limitar o acesso com base nos critérios de elegibilidade da Microsoft. Saiba mais sobre o acesso limitado.

Versão de dezembro de 2020

Novas vozes neurais no GA e visualização

Lançou 51 novas vozes para um total de 129 vozes neurais em 54 idiomas/localidades:

46 novas vozes em locais GA: Shakir em ar-EG árabe (Egito), Hamed em ar-SA árabe (Arábia Saudita), Borislav em bg-BG búlgaro (Bulgária), Joana em ca-ES catalão, Antonin em cs-CZ checo (República Checa), Jeppe em da-DK dinamarquês (Dinamarca), Jonas em de-AT alemão (Áustria), jan em de-CH alemão (Suíça), Nestoras em el-GR grego (Grécia), Liam em en-CA inglês (Canadá), Connor em en-IE inglês (Irlanda), Madhur em en-IN hindi (Índia), Mohan em en-IN Telugu (Índia), Prabhat em en-IN inglês (Índia), Valluvar em en-IN tâmil (Índia), Enric em es-ES catalão, Kert em et-EE estónio (Estónia), Harri em fi-FI finlandês (Finlândia), Selma em fi-FI finlandês (Finlândia), Fabrice em fr-CH francês (Suíça), Colm em ga-IE irlandês (Irlanda), Avri em he-IL hebraico (Israel), Srecko em hr-HR croata (Croácia), Tamas em hu-HU húngaro (Hungria), Gadis em id-ID indonésio (Indonésia), Leonas em lt-LT lituano (Lituânia), Nils em lv-LV Letão (Letónia), Osman em ms-MY malaio (Malásia), Joseph em mt-MT maltês (Malta), finlandês em nb-NO norueguês, Bokmål (Noruega), Pernille em nb-NO norueguês, Bokmål (Noruega), Fenna em nl-NL neerlandês (Países Baixos), Maarten em nl-NL neerlandês (Países Baixos), Agnieszka em pl-PL polaco (Polónia), Marek em pl-PL polaco (Polónia), Duarte em pt-BR português (Brasil), Raquel em pt-PT português (Potugal), Emil em ro-RO romeno (Roménia), Dmitry em ru-RU russo (Rússia), Svetlana em ru-RU Russo (Rússia), Lukas em sk-SK eslovaco (Eslováquia), Rok em sl-SI esloveno (Eslovénia), Mattias em sv-SE sueco (Suécia), Sofie em sv-SE sueco (Suécia), Niwat em th-TH tailandês (Tailândia), Ahmet em tr-TR turco (Türkiye), NamMinh em vi-VN vietnamita (Vietname), HsiaoChen em zh-TW mandarim taiwanês (Taiwan), YunJhe em zh-TW mandarim taiwanês (Taiwan), HiuMaan em zh-HK cantonês chinês (Região Administrativa Especial de Hong Kong), WanLung em zh-HK cantonês chinês (RAE de Hong Kong).
5 novas vozes em locais de pré-visualização: Kert em et-EE estónio (Estónia), Colm em ga-IE irlandês (Irlanda), Nils em lv-LV letão (Letónia), Leonas em lt-LT lituano (Lituânia), Joseph em mt-MT maltês (Malta).

Com esta versão, agora suportamos um total de 129 vozes neurais em 54 idiomas/localidades. Além disso, mais de 70 vozes padrão estão disponíveis em 49 idiomas/localidades. Visite Suporte de idiomas para obter a lista completa.

Atualizações para criação de conteúdo de áudio

Interface do usuário de seleção de voz aprimorada com categorias de voz e descrições detalhadas de voz.
Ajuste de entonação ativado para todas as vozes neurais em diferentes idiomas.
Automatizada a localização da interface do usuário com base no idioma do navegador.
Controles habilitados StyleDegree para todas as zh-CN vozes neurais. Visite a ferramenta de criação de conteúdo de áudio para conferir os novos recursos.

Atualizações para vozes zh-CN

Atualizadas todas as zh-CN vozes neurais para suportar a língua inglesa.
Permitiu que todas as zh-CN vozes neurais suportassem o ajuste de entonação. SSML ou ferramenta de criação de conteúdo de áudio pode ser usado para ajustar para a melhor entonação.
Atualizadas todas as zh-CN vozes neurais multi-estilo para suportar StyleDegree o controle. A intensidade da emoção (suave ou forte) é ajustável.
Atualizado zh-CN-YunyeNeural para suportar vários estilos que podem realizar diferentes emoções.

Versão de novembro de 2020

Novas localidades e vozes na pré-visualização

Cinco novas vozes e linguagens são introduzidas no portfólio Neural text to speech. São eles: Grace em maltês (Malta), Ona em lituano (Lituânia), Anu em estónio (Estónia), Orla em irlandês (Irlanda) e Everita em letão (Letónia).
Cinco novas zh-CN vozes com suporte a vários estilos e papéis: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan e Yunxi.

Estas vozes estão disponíveis em pré-visualização pública em três regiões do Azure: EastUS, SouthEastAsia e WestEurope.

Contêiner de texto neural para fala GA

Com o Neural text to speech Container, os desenvolvedores podem executar a síntese de fala com as vozes digitais mais naturais em seu próprio ambiente para requisitos específicos de segurança e governança de dados. Verifique como instalar os Contentores de Voz.

Novas funcionalidades

Voz personalizada: permite que os usuários copiem um modelo de voz de uma região para outra, suportando suspensão e retomada de endpoint. Aceda ao portal aqui.
Suporte a tags de silêncio SSML.
Melhorias gerais na qualidade de voz TTS: Precisão de pronúncia melhorada ao nível da palavra em nb-NO. Redução de 53% no erro de pronúncia.

Leia mais neste blog de tecnologia.

Versão de outubro de 2020

Novas funcionalidades

Jenny apoia um novo newscast estilo. Veja como usar os estilos de fala no SSML.
Vozes neurais atualizadas para vocoder HiFiNet, com maior fidelidade de áudio e velocidade de síntese mais rápida. Isso beneficia os clientes cujo cenário depende de áudio hi-fi ou interações longas, incluindo dublagem de vídeo, audiolivros ou materiais educacionais on-line. Leia mais sobre a história e ouça as amostras de voz em nosso blog da comunidade de tecnologia
Voz personalizada & Audio Content Creation Studio localizado em 17 localidades. Os usuários podem facilmente mudar a interface do usuário para um idioma local para uma experiência mais amigável.
Criação de conteúdo de áudio: Adicionado controle de grau de estilo para XiaoxiaoNeural; Refinou o recurso de pausa personalizado para incluir quebras incrementais de 50ms.

Melhorias gerais na qualidade de voz TTS

Melhoria da precisão da pronúncia ao nível das palavras em pl-PL (redução da taxa de erro: 51%) e fi-FI (redução da taxa de erro: 58%)
Leitura de uma única palavra melhorada ja-JP para o cenário de dicionário. Redução do erro de pronúncia em 80%.
zh-CN-XiaoxiaoNeural: Melhor sentimento/CustomerService/Newscast/Cheerful/Angry style voice quality.
zh-CN: Pronúncia Erhua melhorada e tom claro e prosódia espacial refinada, o que melhora muito a inteligibilidade.

Versão de setembro de 2020

Novas funcionalidades

Conversão neural de texto em fala
- Estendido para suportar 18 novos idiomas/localidades. São eles búlgaro, checo, alemão (Áustria), alemão (Suíça), grego, inglês (Irlanda), francês (Suíça), hebraico, croata, húngaro, indonésio, malaio, romeno, eslovaco, esloveno, tâmil, telugu e vietnamita.
- Lançou 14 novas vozes para enriquecer a variedade nas línguas existentes. Veja a lista completa de idiomas e vozes.
- Novos estilos en-US de fala e zh-CN vozes. Jenny, a nova voz em inglês (EUA), suporta chatbot, atendimento ao cliente e estilos de assistente. 10 novos estilos de fala estão disponíveis com a nossa voz zh-CN, XiaoXiao. Além disso, a voz neural XiaoXiao suporta StyleDegree afinação. Veja como usar os estilos de fala no SSML.
Containers: Neural text to speech Container lançado em pré-visualização pública com 16 vozes disponíveis em 14 idiomas. Saiba mais sobre como implantar contêineres de fala para conversão de texto neural em fala

Leia o anúncio completo das atualizações do TTS para o Ignite 2020

Versão de agosto de 2020

Novas funcionalidades

Neural text to speech: novo estilo de fala para en-US a voz de Aria. AriaNeural pode soar como um rodízio de notícias ao ler notícias. O estilo "noticiário-formal" soa mais sério, enquanto o estilo "noticiário-casual" é mais descontraído e informal. Veja como usar os estilos de fala no SSML.
Voz personalizada: um novo recurso é lançado para verificar automaticamente a qualidade dos dados de treinamento. Quando você carrega seus dados, o sistema examina vários aspetos de seus dados de áudio e transcrição e automaticamente corrige ou filtra problemas para melhorar a qualidade do modelo de voz. Isso abrange o volume do seu áudio, o nível de ruído, a precisão da pronúncia da fala, o alinhamento da fala com o texto normalizado, o silêncio no áudio, além do formato de áudio e script.
Criação de conteúdo de áudio: um conjunto de novos recursos para permitir recursos mais poderosos de sintonia de voz e gerenciamento de áudio.
- Pronúncia: o recurso de ajuste de pronúncia é atualizado para o conjunto de fonemas mais recente. Você pode escolher o elemento fonema certo da biblioteca e refinar a pronúncia das palavras que selecionou.
- Download: O recurso de áudio "Download"/"Export" é aprimorado para suportar a geração de áudio por parágrafo. Você pode editar conteúdo no mesmo arquivo/SSML, enquanto gera várias saídas de áudio. A estrutura de arquivos de "Download" também é refinada. Agora, você pode facilmente obter todos os arquivos de áudio em uma pasta.
- Status da tarefa: a experiência de exportação de vários arquivos foi melhorada. Quando você exporta vários arquivos no passado, se um dos arquivos falhou, toda a tarefa falhará. Mas agora, todos os outros arquivos serão exportados com sucesso. O relatório de tarefas é enriquecido com informações mais detalhadas e estruturadas. Você pode verificar os logs para todos os arquivos e frases com falha agora com o relatório.
- Documentação SSML: vinculada ao documento SSML para ajudá-lo a verificar as regras de como usar todos os recursos de ajuste.
A API de Lista de Voz é atualizada para incluir um nome de exibição amigável e os estilos de fala suportados para vozes neurais.

Melhorias gerais na qualidade de voz TTS

Redução do erro de pronúncia ao nível da palavra % para ru-RU (erros reduzidos em 56%) e sv-SE (erros reduzidos em 49%)
Melhoria da leitura de palavras polifonias em en-US vozes neurais em 40%. Exemplos de palavras polifonias incluem "ler", "viver", "conteúdo", "gravar", "objeto", etc.
Melhorou a naturalidade do tom da pergunta em fr-FR. Ganho MOS (Mean Opinion Score): +0,28
Atualizou os vocoders para as seguintes vozes, com melhorias de fidelidade e aceleração de desempenho geral em 40%.

Região Voz

en-GB Mia

es-MX Dália

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Dom-Oi

Região	Voz
`en-GB`	Mia
`es-MX`	Dália
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Dom-Oi

Correções de erros

Corrigido um número de bugs com a ferramenta de criação de conteúdo de áudio
- Corrigido o problema com a atualização automática.
- Corrigidos problemas com estilos de voz em zh-CN na região do Sudeste Asiático.
- Corrigido o problema de estabilidade, incluindo um erro de exportação com a tag 'break' e erros de pontuação.

Versão de abril de 2024

Conversão de voz em texto em tempo real com diariazação (GA)

Fala em tempo real para texto com diariazação agora está disponível em geral.

Confira Guia de início rápido de diarização em tempo real para saber mais sobre como criar aplicativos de fala para texto que usam diarização para distinguir entre os diferentes falantes que participam da conversa.

Atualização do modelo de fala para texto

A Real-time Speech to Text lançou novos modelos com capacidades bilingues. O en-IN modelo agora suporta cenários bilíngues em inglês e hindi e oferece maior precisão. As localidades árabes (ar-AE, , , ar-DZar-IL, ar-IQ, ar-LYar-LBar-QAar-SAar-PSar-YEar-KWar-TNar-MAar-SYar-OM) agora estão equipadas com suporte bilíngue para inglês, precisão aprimorada e suporte de call center. ar-BH

A transcrição em lote lançou modelos com nova arquitetura para es-ES, es-MX, fr-FR, , ja-JPit-IT, ko-KR, pt-BR, zh-CN. Esses modelos melhoram significativamente a legibilidade e o reconhecimento de entidades.

Versão de março de 2024

Sussurrar disponibilidade geral (GA)

O modelo Whisper speech to text com o Azure AI Speech agora está disponível ao público em geral.

Confira O que é o modelo Whisper?, para saber mais sobre quando usar o Azure AI Speech versus o Azure OpenAI Service.

Versão de fevereiro de 2024

Avaliação de Pronúncia

A Avaliação de Pronúncia de Fala agora suporta 23 idiomas geralmente disponíveis (com 5 novos idiomas adicionados), com mais 3 idiomas disponíveis na visualização pública. Para obter mais informações, consulte a lista completa de idiomas para Avaliação de pronúncia.

Idioma	Localidade (BCP-47)
Árabe (Egito)	`ar-EG`¹
Árabe (Arábia Saudita)	`ar-SA`
Chinês (Cantonês, Tradicional)	`zh-HK`¹
Chinês (mandarim, simplificado)	`zh-CN`
Neerlandês (Países Baixos)	`nl-NL`¹
Inglês (Austrália)	`en-AU`
Inglês (Canadá)	`en-CA`
Inglês (Índia)	`en-IN`
Inglês (Reino Unido)	`en-GB`
Inglês (Estados Unidos)	`en-US`
Francês (Canadá)	`fr-CA`
Francês (França)	`fr-FR`
Alemão (Alemanha)	`de-DE`
Hindi (Índia)	`hi-IN`
Italiano (Itália)	`it-IT`
Japonês (Japão)	`ja-JP`
Coreano (Coreia do Sul)	`ko-KR`
Malaio (Malásia)	`ms-MY`
Norueguês Bokmål (Noruega)	`nb-NO`
Português (Brasil)	`pt-BR`
Russo (Rússia)	`ru-RU`
Espanhol (México)	`es-MX`
Espanhol (Espanha)	`es-ES`
Sueco (Suécia)	`sv-SE`
Tamil (Índia)	`ta-IN`
Vietnamita (Vietname)	`vi-VN`

1 A língua está em pré-visualização pública para avaliação da pronúncia.

Lista de frases

Adicionado suporte de lista de frases para as seguintes localidades: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Versão de novembro de 2023

Apresentando a Modelagem de Fala Bilíngue!

Estamos entusiasmados em revelar uma adição inovadora à nossa modelagem de fala em tempo real: Modelagem de fala bilíngue. Esta melhoria significativa permite que o nosso modelo de fala suporte perfeitamente pares de idiomas bilingues, como inglês e espanhol, bem como inglês e francês. Este recurso permite que os usuários alternem sem esforço entre idiomas durante interações em tempo real, marcando um momento crucial em nosso compromisso de melhorar as experiências de comunicação.

Principais Destaques:

Suporte bilíngue: Com nossa versão mais recente, os usuários podem alternar perfeitamente entre inglês e espanhol ou entre inglês e francês durante interações de fala em tempo real. Esta funcionalidade é adaptada para acomodar falantes bilingues que transitam frequentemente entre estas duas línguas.
Experiência de usuário aprimorada: falantes bilíngues, seja no trabalho, em casa ou em vários ambientes da comunidade, acharão esse recurso imensamente benéfico. A capacidade do modelo de compreender e responder ao inglês e ao espanhol em tempo real abre novas possibilidades para uma comunicação eficaz e fluida.

Modo de Utilização:

Escolha es-US (espanhol e inglês) ou fr-CA (francês e inglês) quando chamar a API do Serviço de Fala ou experimentá-la no Speech Studio. Sinta-se à vontade para falar qualquer um dos idiomas ou misturá-los — o modelo foi projetado para se adaptar dinamicamente, fornecendo respostas precisas e sensíveis ao contexto em ambos os idiomas.

Está na hora de elevar o seu jogo de comunicação com o nosso mais recente lançamento de funcionalidades — comunicação multilingue e sem descontinuidades na ponta dos seus dedos!

Atualização dos modelos de fala para texto

Estamos entusiasmados em apresentar uma atualização significativa em nossos modelos de fala, prometendo maior precisão, melhor legibilidade e reconhecimento refinado de entidades. Esta atualização vem com uma nova estrutura robusta, reforçada por um conjunto de dados de treinamento expandido, garantindo um avanço acentuado no desempenho geral. Inclui modelos recém-lançados para en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE e he-IL.

Destaques:

Melhor precisão com a nova estrutura do modelo: A estrutura do modelo redefinida, juntamente com um conjunto de dados de treinamento mais rico, eleva os níveis de precisão, prometendo uma saída de fala mais precisa.
Melhoria da legibilidade: O nosso modelo mais recente dá um impulso substancial à legibilidade, aumentando a coerência e a clareza do conteúdo falado.
Reconhecimento avançado de entidades: O reconhecimento de entidades recebe uma atualização substancial, resultando em resultados mais precisos e matizados.

Impactos potenciais: Apesar desses avanços, é crucial estar atento aos impactos potenciais:

Recurso de tempo limite de silêncio personalizado: os usuários que empregam o tempo limite de silêncio personalizado, especialmente com configurações baixas, podem encontrar segmentação excessiva e possíveis omissões de frases de uma única palavra.
O novo modelo pode apresentar problemas de compatibilidade com o recurso de prefixo de palavra-chave, e os usuários são aconselhados a avaliar seu desempenho em seus aplicativos específicos.
Palavras ou frases de disfluência reduzidas: Os usuários podem notar uma redução nas palavras ou frases de disfluência como "um" ou "uh" na saída de fala.
Imprecisões na duração do carimbo de data/hora da palavra: Algumas palavras de disfluência podem apresentar imprecisões na duração do carimbo de data/hora, exigindo atenção em aplicações dependentes do tempo preciso.
Variância da distribuição do escore de confiança: Os usuários que confiam nos escores de confiança e nos limiares associados devem estar cientes das variações potenciais na distribuição, necessitando de ajustes para um desempenho ideal.
O aprimoramento da precisão do recurso de lista de frases pode ser afetado pelo reconhecimento incorreto de certas frases.

Incentivamos você a explorar essas melhorias e considerar possíveis problemas para uma transição perfeita e, como sempre, seu feedback é fundamental para refinar e avançar nossos serviços.

Avaliação de Pronúncia

A Avaliação da Pronúncia de Fala agora suporta 18 idiomas geralmente disponíveis, com mais seis idiomas disponíveis na pré-visualização pública. Para obter mais informações, consulte a lista completa de idiomas para Avaliação de pronúncia.
Temos o prazer de anunciar que a Avaliação de Pronúncia está introduzindo novos recursos a partir de 1º de novembro de 2023: Prosódia, Gramática, Vocabulário e Tópico. Estas melhorias visam proporcionar uma experiência de aprendizagem de línguas ainda mais abrangente para avaliações de leitura e oralidade. Atualize para o SDK versão 1.35.0 ou posterior para explorar mais detalhes em Como usar a avaliação de pronúncia e a avaliação de pronúncia no Speech Studio.

Versão de setembro de 2023

Pré-visualização pública do sussurro

O Azure AI Speech agora dá suporte ao modelo Whisper da OpenAI por meio da API de transcrição em lote. Para saber mais, consulte o guia Criar uma transcrição em lote.

Nota

O Serviço OpenAI do Azure também suporta o modelo Whisper da OpenAI para conversão de voz em texto com uma API REST síncrona. Para saber mais, confira o guia de início rápido.

Confira O que é o modelo Whisper?, para saber mais sobre quando usar o Azure AI Speech versus o Azure OpenAI Service.

Pré-visualização pública da API REST de voz para texto v3.2

A API REST de fala para texto v3.2 está disponível na visualização. A API REST de fala para texto v3.1 está geralmente disponível. A API REST de fala para texto v3.0 será desativada em 1º de abril de 2026. Para obter mais informações, consulte os guias de migração Speech to text REST API v3.0 to v3.1 e v3.1 to v3.2 .

Versão de agosto de 2023

Nova fala para localidades de texto:

A conversão de fala em texto oferece suporte a duas novas localidades, conforme mostrado na tabela a seguir. Consulte a lista completa de idiomas aqui.

Região	Linguagem
`pa-IN`	Panjabi (Índia)
`ur-IN`	Urdu (Índia)

Avaliação de Pronúncia

A Avaliação de Pronúncia de Fala agora suporta 3 idiomas adicionais geralmente disponíveis em inglês (Canadá), inglês (Índia) e francês (Canadá), com 3 idiomas adicionais disponíveis na visualização. Para obter mais informações, consulte a lista completa de idiomas para Avaliação de pronúncia.

Versão de maio de 2023

Avaliação de Pronúncia

A Avaliação de Pronúncia de Fala agora suporta 3 idiomas adicionais geralmente disponíveis em alemão (Alemanha), japonês (Japão) e espanhol (México), com 4 idiomas adicionais disponíveis na visualização. Para obter mais informações, consulte a lista completa de idiomas para Avaliação de pronúncia.
Agora você pode usar a camada de compromisso padrão de Fala para Texto para avaliação de pronúncia em todas as regiões públicas. Se você comprar uma camada de compromisso para o Speech to text padrão, o gasto com a avaliação de pronúncia vai para o cumprimento do compromisso. Consulte os preços do nível de compromisso.

Versão de fevereiro de 2023

Avaliação de Pronúncia

A Avaliação de Pronúncia de Fala agora suporta 5 idiomas adicionais geralmente disponíveis em inglês (Reino Unido), inglês (Austrália), francês (França), espanhol (Espanha) e chinês (mandarim, simplificado), com outros idiomas disponíveis na visualização.
Adicionados códigos de exemplo mostrando como usar a Avaliação de Pronúncia no modo de streaming em seu próprio aplicativo.
- C#: Consulte o código de exemplo.
- C++: Consulte o código de exemplo.
- java: Veja o código de exemplo.
- javascript: Consulte o código de exemplo.
- Objective-C: Consulte o código de exemplo.
- Python: Consulte o código de exemplo.
- Swift: Veja o código de exemplo.

Fala personalizada

Suporte para áudio + transcrição rotulada por humanos é adicionado para as de-AT localidades.

Versão de janeiro de 2023

Fala personalizada

O suporte para áudio + transcrição rotulada por humanos é adicionado para localidades adicionais: ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TNar-YE, e ja-JP.

Suporte para adaptação de texto estruturado é adicionado para localidade de-AT.

Versão de dezembro de 2022

API REST de fala para texto

A API REST de fala para texto versão 3.1 está geralmente disponível. A versão 3.0 da API REST de fala para texto será desativada. Para obter mais informações sobre como migrar, consulte o guia.

Versão de outubro de 2022

Nova localidade de fala para texto

Adicionado suporte para Malayalam (Índia) com a ml-IN localidade. Veja a lista completa de idiomas aqui.

Versão de julho de 2022

Nova fala para localidades de texto:

Adicionadas 7 novas localidades, conforme mostrado na tabela a seguir. Veja a lista completa de idiomas aqui.

Região	Linguagem
`bs-BA`	Bósnio (Bósnia e Herzegovina)
`yue-CN`	Chinês (cantonês, simplificado)
`zh-CN-sichuan`	Chinês (Mandarim do Sudoeste, Simplificado)
`wuu-CN`	Chinês (Wu, simplificado)
`ps-AF`	Pashto (Afeganistão)
`so-SO`	Somália (Somália)
`cy-GB`	Galês (Reino Unido)

Versão de junho de 2022

Nova fala para localidades de texto:

Adicionadas 10 novas localidades, conforme mostrado na tabela a seguir. Veja a lista completa de idiomas aqui.

Região	Linguagem
`sq-AL`	Albanês (Albânia)
`hy-AM`	Arménio (Arménia)
`az-AZ`	Azerbaijão (Azerbaijão)
`eu-ES`	Basco
`gl-ES`	Galego
`ka-GE`	Georgiano (Geórgia)
`it-CH`	Italiano (Suíça)
`kk-KZ`	Cazaque (Cazaquistão)
`mn-MN`	Mongol (Mongólia)
`ne-NP`	Nepalês (Nepal)

Versão de abril de 2022

Nova fala para localidades de texto:

Abaixo está uma lista das novas localidades. Veja a lista completa de idiomas aqui.

Região	Linguagem
`bn-IN`	Bengali (Índia)

Versão de janeiro de 2022

Nova fala para localidades de texto:

Abaixo está uma lista das novas localidades. Veja a lista completa de idiomas aqui.

Região	Linguagem
`af-ZA`	Africâner (África do Sul)
`am-ET`	Amárico (Etiópia)
`de-CH`	Alemão (Suíça)
`fr-BE`	Francês (Bélgica)
`is-IS`	Islandês (Islândia)
`jv-ID`	Javanês (Indonésia)
`km-KH`	Khmer (Camboja)
`kn-IN`	Canarim (Índia)
`lo-LA`	Laos (Laos)
`mk-MK`	Macedónio (Macedónia do Norte)
`my-MM`	Birmanês (Mianmar)
`nl-BE`	Neerlandês (Bélgica)
`si-LK`	Cingalês (Sri Lanka)
`sr-RS`	Sérvio (Sérvia)
`sw-TZ`	Swahili (Tanzânia)
`uk-UA`	Ucraniano (Ucrânia)
`uz-UZ`	Uzbequistão (Uzbequistão)
`zu-ZA`	Zulu (África do Sul)

Versão de julho de 2021

Nova fala para localidades de texto:

Abaixo está uma lista das novas localidades. Veja a lista completa de idiomas aqui.

Região	Linguagem
`ar-DZ`	Árabe (Argélia)
`ar-LY`	Árabe (Líbia)
`ar-MA`	Árabe (Marrocos)
`ar-TN`	Árabe (Tunísia)
`ar-YE`	Árabe (Iémen)
`bg-BG`	Búlgaro (Bulgária)
`el-GR`	Grego (Grécia)
`et-EE`	Estónio (Estónia)
`fa-IR`	Persa (Irão)
`ga-IE`	Irlandês (Irlanda)
`hr-HR`	Croata (Croácia)
`lt-LT`	Lituano (Lituânia)
`lv-LV`	Letão (Letónia)
`mt-MT`	Maltês (Malta)
`ro-RO`	Romeno (Roménia)
`sk-SK`	Eslovaco (Eslováquia)
`sl-SI`	Esloveno (Eslovénia)
`sw-KE`	Swahili (Quênia)

Versão de janeiro de 2021

Nova fala para localidades de texto:

Abaixo está uma lista das novas localidades. Veja a lista completa de idiomas aqui.

Região	Linguagem
`ar-AE`	Árabe (Emirados Árabes Unidos)
`ar-IL`	Árabe (Israel)
`ar-IQ`	Árabe (Iraque)
`ar-OM`	Árabe (Omã)
`ar-PS`	Árabe (Autoridade Palestiniana)
`de-AT`	Alemão (Áustria)
`en-GH`	Inglês (Gana)
`en-KE`	Inglês (Quênia)
`en-NG`	Inglês (Nigéria)
`en-TZ`	Inglês (Tanzânia)
`es-GQ`	Espanhol (Guiné Equatorial)
`fil-PH`	Filipino (Filipinas)
`fr-CH`	Francês (Suíça)
`he-IL`	Hebraico (Israel)
`id-ID`	Indonésio (Indonésia)
`ms-MY`	Malaio (Malásia)
`vi-VN`	Vietnamita (Vietname)

Versão de agosto de 2020

Novas localidades de fala para texto:

Speech to text lançou 26 novas localidades em agosto: 2 idiomas cs-CZ europeus e hu-HU, 5 localidades em inglês e 19 localidades em espanhol que cobrem a maioria dos países/regiões da América do Sul. Abaixo está uma lista das novas localidades. Veja a lista completa de idiomas aqui.

Região	Linguagem
`cs-CZ`	Checo (República Checa)
`en-HK`	Inglês (Região Administrativa Especial de Hong Kong)
`en-IE`	Inglês (Irlanda)
`en-PH`	Inglês (Filipinas)
`en-SG`	Inglês (Singapura)
`en-ZA`	Inglês (África do Sul)
`es-AR`	Espanhol (Argentina)
`es-BO`	Espanhol (Bolívia)
`es-CL`	Espanhol (Chile)
`es-CO`	Espanhol (Colômbia)
`es-CR`	Espanhol (Costa Rica)
`es-CU`	Espanhol (Cuba)
`es-DO`	Espanhol (República Dominicana)
`es-EC`	Espanhol (Equador)
`es-GT`	Espanhol (Guatemala)
`es-HN`	Espanhol (Honduras)
`es-NI`	Espanhol (Nicarágua)
`es-PA`	Espanhol (Panamá)
`es-PE`	Espanhol (Peru)
`es-PR`	Espanhol (Porto Rico)
`es-PY`	Espanhol (Paraguai)
`es-SV`	Espanhol (El Salvador)
`es-US`	Espanhol (EUA)
`es-UY`	Espanhol (Uruguai)
`es-VE`	Espanhol (Venezuela)
`hu-HU`	Húngaro (Hungria)

Versão de 2024-fevereiro

Adicione suporte para as versões mais recentes do modelo:

Fala personalizada para texto 4.6.0
Conversão de voz em texto 4.6.0
Texto neural para fala 3.1.0

Atualize os componentes de fala para texto para o mais recente. Atualize todos os es modelos de localidades para o mais recente. Aumente o buffer de transformação de mídia para casos de uso de fala em texto.

Versão de 2023-novembro

Adicione suporte para as versões mais recentes do modelo:

Fala personalizada para texto 4.5.0
Conversão de voz em texto 4.5.0
Texto neural para fala 2.19.0

Versão de 2023-outubro

Adicione suporte para as versões mais recentes do modelo:

Fala personalizada para texto 4.4.0
Conversão de voz em texto 4.4.0
Texto neural para fala 2.18.0

Corrija vários problemas de vulnerabilidade de alto risco.

Remova logs redundantes em contêineres.

Atualize o componente de mídia interno para o mais recente.

Adicione suporte para voz en-IN-NeerjaNeural.

Versão de 2023-setembro

Adicione suporte para as versões mais recentes do modelo:

Identificação fonoaudiológica 1.12.0
Fala personalizada para texto 4.3.0
Conversão de voz em texto 4.3.0
Texto neural para fala 2.17.0

Atualize fala personalizada para texto e fala para texto para a estrutura mais recente.

Corrija problemas de vulnerabilidade.

Adicione suporte para voz ar-AE-FatimaNeural.

Versão de 2023-julho

Adicione suporte para as versões mais recentes do modelo:

Fala personalizada para texto 4.1.0
Conversão de voz em texto 4.1.0
Texto neural para fala 2.15.0

Corrija o problema de execução de fala para contêiner de texto por meio docker de opções de montagem com arquivos de modelo personalizados locais.

Corrija o problema que, em alguns casos, o RECOGNIZING evento não aparece em resposta por meio do SDK de fala.

Corrija problemas de vulnerabilidade.

Versão de 2023-junho

Adicione suporte para as versões mais recentes do modelo:

Fala personalizada para texto 4.0.0
Conversão de voz em texto 4.0.0
Texto neural para fala 2.14.0

Fala local para imagens de texto são atualizadas para .NET 6.0

Atualize modelos de exibição para localidades, incluindo en-us, ar-eg, ar-bh, ja-jpko-kr, e muito mais.

Atualize o componente de contêiner de fala para texto para resolver problemas de vulnerabilidade.

Adicione suporte para vozes de-DE-AmalaNeuralde localidade ,de-AT-IngridNeural,de-AT-JonasNeural, e en-US-JennyMultilingualNeural

Versão de 2023-maio

Adicione suporte para as versões mais recentes do modelo:

Fala personalizada para texto 3.14.0
Conversão de voz em texto 3.14.0
Texto neural para fala 2.13.0

Corrigir o problema de he-IL pontuação

Corrigir problemas de vulnerabilidade

Adicionar nova voz en-US-MichelleNeuralde localidade e es-MX-CandelaNeural

Versão 2023-abril

Atualizações de segurança

Corrigir problemas de vulnerabilidade

Versão 2023-março

Adicione suporte para as versões mais recentes do modelo:

Fala personalizada para texto 3.12.0
Conversão de voz em texto 3.12.0
Identificação fonoaudiológica 1.11.0
Texto neural para fala 2.11.0

Corrigir problemas de vulnerabilidade

Corrigir o problema de tr-TR capitalização

Atualizar a fala para modelos de exibição de texto en-US

Adicionar suporte para texto neural neural pré-construído para voz de localidade de fala ar-AE-HamdanNeural

Versão 2023-fevereiro

Novas versões de contêiner

Adicione suporte para as versões mais recentes do modelo:

Fala personalizada para texto 3.11.0
Conversão de voz em texto 3.11.0
Texto neural para fala 2.10.0

Corrigir problemas de vulnerabilidade

Atualização regular para modelos de fala

Adicione novas localidades Abraic:

ar-IL
ar-PS

Atualize os modelos de exibição em hebraico e turco

Versão de 2023-janeiro

Novas versões de contêiner

Adicione suporte para as versões mais recentes do modelo:

Fala personalizada para texto 3.10.0
Conversão de voz em texto 3.10.0
Texto neural para fala 2.9.0

Corrigir problema do modo de hipótese

Corrigir problema de proxy HTTP

Modo desconectado de fala personalizada para contêiner de texto

Adicionar suporte a contêiner CNV desconectado ao Frontend TTS

Adicione suporte para estas vozes de localidade:

da-DK-ChristelNeural
da-DK-JeppeNeural
pt-IN-PrabhatNeural

Versão 2022-dezembro

Novas versões de contêiner

Adicione suporte para as versões mais recentes do modelo:

Fala personalizada para texto 3.9.0
Conversão de voz em texto 3.9.0
Texto neural para fala 2.8.0

Corrigir problema ipv4/ipv6

Corrigir problema de vulnerabilidade

Versão 2022-novembro

Novas versões de contêiner

Adicione suporte para as versões mais recentes do modelo:

Fala personalizada para texto 3.8.0
Conversão de voz em texto 3.8.0
Texto neural para fala 2.7.0

Versão 2022-outubro

Novas versões de contêiner

Adicione suporte para as versões mais recentes do modelo:

Fala personalizada para texto 3.7.0
Conversão de voz em texto 3.7.0
Texto neural para fala 2.6.0

Versão 2022-setembro

Fala para texto 3.6.0-amd64

Adicione suporte para as versões mais recentes do modelo.

Adicione suporte para estas localidades:

AZ-AZ
Bn-Em
BS-BA
CY-GB
UE-ES
Fa-IR
GL-ES
he-il
HY-AM
it-ch
Ka-ge
kk-kz
MK-MK
MN-MN
NE-NP
PS-AF
assim-assim
Sq-AL
WUU-CN
Yue-CN
ZH-CN-Sichuan

Atualizações mensais regulares, incluindo atualizações de segurança e correções de vulnerabilidades.

Fala personalizada para texto 3.6.0-amd64

Atualizações mensais regulares, incluindo atualizações de segurança e correções de vulnerabilidades.

Neural Neural texto para fala v2.5.0

Adicione suporte para estas vozes neurais pré-construídas:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Atualizações mensais regulares, incluindo atualizações de segurança e correções de vulnerabilidades.

Versão 2022-maio

Contêiner de deteção de linguagem de fala v1.9.0-amd64-preview

Correções de bugs para deteção de linguagem de fala.

Versão 2022-março

Conversação personalizada para recipiente de texto v3.1.0

Adicione suporte para obter modelos de exibição.

Versão 2022-janeiro

Contêiner de fala para texto v3.0.0

Adicione suporte para o uso de contêineres em ambientes desconectados.

Contêiner de fala para texto v2.18.0

Atualizações mensais regulares, incluindo atualizações de segurança e correções de vulnerabilidades.

Neural-Neural texto para fala Container v1.12.0

Adicione suporte para estas vozes neurais pré-construídas: am-et-amehaneural, am-et-mekdesneuralso-so-muuseneural e so-so-ubaxneural.

Atualizações mensais regulares, incluindo atualizações de segurança e correções de vulnerabilidades.